
Dezentral und heterogen als Herausforderung
Composite Learning über ein robustes skalierbares Framework für ein KI-Training über verschiedene und dezentrale Systeme hinweg als Thema einer neuen Programmlinie des deutschen Inkubators Sprind. Fünf Teams haben aktuell die zweite Projektstufe erreicht.
Künstliche Intelligenz revolutioniert die Gesundheitsbranche, das Finanzwesen, die Automobilindustrie und viele weitere wirtschaftliche und gesellschaftliche Bereiche. Aktuell besitzen aber nur die größten KI-Unternehmen wie die sogenannten Hyperscaler die notwendigen Ressourcen bei Technologie, Infrastruktur (und Energie), um wirklich leistungsfähige Modelle zu entwickeln.
Das Training von leistungsstarken KI-Anwendungen ist dabei auf teure, zentralisierte Rechenzentren angewiesen und das schränkt den Zugang für kleine und mittlere Unternehmen sowie für Start-Ups entsprechend ein. Das gilt insbesondere für Länder wie Österreich oder Deutschland bzw. de facto für ganz Europa, wo inhaltlich anspruchsvolle Projekte oder auch schon fortschrittliche Rechenressourcen den Anschluss verlieren.
Eine Abhilfe kann Composite Learning bieten, was ein kombiniert verteiltes, dezentrales sowie föderiertes Lernen verbindet und damit einen neuen Ansatz für KI bietet : das Training von Modellen über verschiedene Systeme hinweg, ohne dass zentralisierte Rechenzentren erforderlich sind. Mit dieser Methode können mehr Unternehmen zusammenarbeiten und neue Modelle sicher trainieren.
Mangelnde Kompatibilität zwischen Chips, Kommunikationsengpässe und die Abhängigkeit von zentralen Update-Servern
Modernste KI-Anwendungen könnten so für mehr Organisationen und für eine Vielzahl von Anwendungsbereichen zugänglich gemacht werden. Um nun die Einschränkungen der aktuellen Systeme zu überwinden, wie beispielsweise mangelnde Kompatibilität zwischen verschiedenen Chips, Kommunikationsengpässe und die Abhängigkeit von zentralen Update-Servern, braucht es neue Lösungen.
Sprind, der deutsche Inkubator für Sprunginnovation, hat nun zu diesem Thema eine Sprind Challenge (Anm. Programmlinie) geschaffen die letztes Jahr gestartet ist (economy berichtete) und sich über drei Stufen in einem Zeitraum von 30 Monaten erstreckt. Es geht um Lösungen, die ein effizientes Modelltraining auf heterogener Hardware ermöglichen, von Hochleistungs-GPUs bis hin zu CPUs unterschiedlicher Typen und Hersteller.
Belastungsfähig und dynamische Anpassung an Schwankungen von Rechenressourcen und Geräteausfälle
Die Lösungen müssen belastungsfähig sein und sich dynamisch an Schwankungen von Rechenressourcen und Geräteausfällen anpassen können. Die Teams sollen einen funktionalen Kern für dieses Framework im Format Open Source liefern, der dann als Grundlage für die weitere Entwicklung dient, einschließlich kommerzieller Dienste und eigener Produktmerkmale.
In der ersten Stufe erhielten die nominierten Teams jeweils bis zu 530.000 Euro und Ende Jänner hat eine internationale Expertenjury fünf Teams für die zweite Runde ausgewählt. Nach Auswertung der Zwischenergebnisse gibt es hier nun jeweils bis zu 520.00 Euro an Projektunterstützung. Die zweite Stufe läuft bis zur nächsten Jurysitzung Ende Oktober 2026. In Stufe drei warten dann bis zu 600.000 Euro je Projekt.
SymphonyLearn als Plattform für effizientes dezentrales KI-Training
Economy hat sich die aktuell nominierten Teams angesehen und stellt ihre Projekte vor. SymphonyLearn, das erste Team, arbeitet an einer innovativen Plattform für effizientes dezentrales KI-Training in unterschiedlichen Hardware-Umgebungen. Sie nutzt dabei eine datenorientierte Optimierung, kommunikationsarme verteilte Trainingsmethoden und eine spezielle Modelloptimierung.
„Durch die nahtlose Integration dieser Kernfunktionen mit effizienter differentieller Privatsphäre, skaliert und beschleunigt SymphonyLearn das KI-Training, während es gleichzeitig den Datenschutz gewährleistet“, so eine Beschreibung im Rahmen der Evaluierung. Das SymphonyLearn-Team arbeitet auch mit Forschern von TU Darmstadt, ETH Zürich und der Iowa State University zusammen.
Planetary Compute Protocol-Team für eine verteilte KI-Trainingsinfrastruktur
Zweites Projekt ist das Planetary Compute Protocol-Team von Deltawave. Hier geht es um die Schaffung einer verteilten KI-Trainingsinfrastruktur. Das Team entwickelt dazu ein verteiltes Lernprotokoll unter Verwendung der speichersicheren Architektur von Zig und implementiert das Akteursmodell zur Koordinierung des Trainings über heterogene GPU-Cluster hinweg.
„Dieses Framework ermöglicht die Cross-Kompilierung von Machine-Learning-Modellen für verschiedene Hardware-Beschleuniger und überwindet so effektiv Kompatibilitätsbarrieren in föderierten Systemen“, so ein Auszug der Evaluierung. Der Ansatz von Planetary geht direkt auf kritische Einschränkungen aktueller verteilter Lernmethoden ein, insbesondere auf Kommunikationsengpässe zwischen Geräten und Skalierbarkeit.
Vereinfachter Zugang zu Rechenressourcen beim Projekt „Exalsius“
Das Team Exalsius entwickelt eine Lösung, die den Zugang zu Rechenressourcen speziell für die KI-Entwicklung vereinfacht. Die stark schwankende und fragmentierte Verfügbarkeit von Rechenkapazitäten erschwert ein optimales Setup für Training und Betrieb großer KI-Modelle, so die Ausgangsbasis. Zudem erfordert Vorbereitung und effiziente Nutzung dieser Ressourcen tiefgehende Kenntnisse in der Entwicklung verteilter Systeme. „Operativ schafft Exalsius eine Abstraktionsschicht, die sowohl die technische als auch die wirtschaftliche Komplexität verbirgt“, so ein Auszug aus der Evaluierung.
Die KI-Teams sollen sich so rein auf die Entwicklung ihrer Modelle konzentrieren können. Die Nutzung global verfügbarer Rechenkapazitäten, unabhängig von spezifischen Cloud-Anbietern und Standorten, soll eine optimale Ressourcenkonstellation für KI-Training oder Inferenz bereitstellen. Aspekte wie Laufzeit, Kosteneffizienz und der Einsatz nachhaltiger Energie sollen so optimiert werden. Das Team will damit die Grundlage für offene KI-Innovationen legen, von leistungsstarken Sprachmodellen bis hin zu wissenschaftlichen Durchbrüchen.
Vorhandene Pionierarbeit bei LLMs als Basis bei Projekt CambridgeFlower
CambridgeFlower von einem Team der University of Cambridge baut als viertes Projekt auf dem sogenannten Flower-Framework auf und soll skalierbares, dezentrales maschinelles Lernen auf heterogener Hardware ermöglichen. „Das Team hat Pionierarbeit im Bereich dezentrales Training geleistet, indem es als erstes Large-Language-Models (LLMs 1B, 3B, 7B) auf global verteilten GPUs vortrainiert hat“, so eine Beschreibung.
Die Kombination von Durchbrüchen in der föderierten Optimierung, fehlertolerante gehärtete Aggregation und adaptive Topologien für Modellaktualisierungen und Kommunikation soll Effizienz, Ausfallsicherheit und Datenschutz beim Composite Learning gewährleisten. Final sollen die Grenzen einer vertrauenswürdigen und dezentralen KI erweitert werden.
Das Projekt „Aether“ von Semron adressiert Datenschutz, Dezentralisierung und Effizienz
Das fünfte Projekt kommt von Semron, einem Hardware-Unternehmen, das sich auf KI-Beschleuniger für Edge-Geräte spezialisiert hat. Diese Beschleuniger sollen die kontinuierliche Verarbeitung von Audio‑, Text- und Videodaten auf einer Vielzahl von Geräten ermöglichen, darunter Smartphones, und damit sollen leistungsfähige KI-Computing-Funktionen zu Millionen von Nutzern kommen.
Mit der steigenden Nachfrage nach personalisierten KI-Modellen reicht herkömmliche Modellinferenz allein nicht mehr aus. Um diese Herausforderung zu bewältigen, entwickelt Semron mit „Aether“, ein Composite-Learning-Framework mit den Schwerpunkten Datenschutz, Dezentralisierung und Effizienz. Während nun bestehende Lösungen wie „Substra“ von Owkins und „Flare“ von NVIDIA das Feld bereits vorangebracht haben, will sich Aether durch die Minimierung des Rechenaufwands bei gleichzeitiger Wahrung der Privatsphäre abheben.
Mehrere Innovationen sollen das gewährleisten : einmal die intelligente Weitergabe von Netzwerkparametern, weiters die Nutzung von Hypernetzwerken als Stellvertreter für den Parameter-Austausch anstelle des direkten Modellteilens und schließlich eine dezentrale, von sogenannten Gossip-Protokollen inspirierte Aggregation zur Vermeidung zentraler Server-Engpässe. „All das soll Aether zu einer skalierbaren und effizienten Lösung für die nächste Generation von Composite-Learning-Frameworks machen“, so ein Auszug aus der Evaluierung. (red/czaak)