Linz, Starnberg, 17. Dez. 2024 - KI-Anwendungen im Edge- und Embedded-Bereich sollen, so Prof. Dr. Sepp Hochreiter, von Effizienz und Geschwindigkeit des Modells profitieren…
Zum Beitrag: Das österreichische Forschungsunternehmen NXAI stellt sein neues xLSTM 7B Modell vor und betont die Effizienz und Leistungsfähigkeit der xLSTM-Architektur. Das neue pre-trained Modell gehört laut Entwickler zur Spitzenklasse der 7B-Modelle. (1) Es hat sich nach vorliegenden Angaben zum „besten Nicht-Transformer-Sprachmodell entwickelt, wie seine präzise Vorhersage des nächsten Wortes und die Ergebnisse bei Standard-Benchmarks wie Massive Multitask Language Understanding (MMLU) belegen.“ Anwendungen wie Robotik, industriellen Zeitreihendaten, Medizintechnik und Life Sciences sollen besonders davon profitieren können. Im Bild oben: Sepp Hochreiter, Chief Scientist bei NXAI. Bildquelle © NXAI. (2)
Hauptmerkmal des xLSTM 7B Modells ist seine Geschwindigkeit
Das Modell ist deutlich effizienter als andere große Sprachmodelle und liefert Ergebnisse mit erheblich weniger Rechenressourcen – und das in kürzerer Zeit. Folglich setzt das xLSTM 7B Modell in Bezug auf Geschwindigkeit und Energieeffizienz neue Maßstäbe. Die xLSTM Architektur ist auf GitHub bei NXAI verfügbar, und ein vortrainiertes Modell steht auf Huggingface zum Finetuning bereit.
(2) Kommentarauszug Prof. Dr. Sepp Hochreiter von JKU Linz und Chief Scientist bei NXAI: „Unsere Skalierungsvorhersagen aus unserer Arbeit sind eingetreten. Mit dem xLSTM 7B Modell präsentieren wir das beste Large Language Model (LLM), das auf rekurrenten neuronalen Netzen (RNNs) basiert. Es ist das energieeffizienteste Modell in der Welt der Large Language Models mit einer schnellen Inferenz… Es ist ein Modell aus Europa für die Welt“. (1)
xLSTM ist mehr als ein LLM
Seit der Erstveröffentlichung der xLSTM-Architektur im Frühjahr dieses Jahres haben bereits viele Entwickler Lösungen auf Basis dieses Ansatzes vorgestellt. xLSTM ist vor allem im industriellen Bereich sehr gefragt. „Ich sehe großes Potenzial für xLSTM in der Robotik, weil es in der Inferenz deutlich schneller und speichereffizienter ist“, erklärt Hochreiter.
Vor wenigen Tagen empfahl laut der JKU ein Forschungspapier ein Large Recurrent Action Model (LRAM) für die Robotik, das auf xLSTM basiert. Branchenexperten berichten außerdem, dass die Architektur dank ihres längeren und variablen Speichers auch in Mobilitäts-Anwendung Einsatz findet. Ähnliches gilt für die Medizintechnik und Life Science-Applikationen. Darüber hinaus wird xLSTM bereits für Zeitreihenprognosen genutzt und zeigt bei Langzeitprognosen eine überlegene Leistung im Vergleich zu anderen Verfahren“, so Hochreiter. xLSTM ist aus Sicht der Entwickler mehr als nur ein LLM.
Hintergrund: Im Gegensatz zur Transformer-Technologie steigen die xLSTM-Berechnungen nur linear mit der Textlänge und brauchen im laufenden Betrieb weniger Rechenleistung. Das ist ein großer Vorteil, da komplexe Aufgaben viel mehr Text sowohl zur Aufgabenbeschreibung als auch zur Lösung brauchen.
Abb.: Ergebnisse bei Standard-Benchmarks wie Massive Multitask Language Understanding (MMLU). Bildquelle: © NXAI
Externer link > https://www.nx-ai.com/
Abb.: Generation Times and Memory Consumption (Bildquelle: JKU Linz). NXAI xLSTM Team: Maximilian Beck, Korbinian Pöppel, Phillip Lippe, Richard Kurle, Patrick Blies, Sebastian Böck and Sepp Hochreiter.
(1) Quelle: NXAI ist ein österreichisches KI-Forschungsunternehmen mit Sitz in Linz, das innovative Lösungen für industrielle Anwendungen entwickelt. Das Unternehmen hat es sich zur Mission gemacht, die eigene KI-Forschung in marktreife Systeme zu überführen und eine Brücke zwischen Forschung und Industrie zu schlagen. Im Mittelpunkt stehen Technologien wie das skalierbare xLSTM-Modell und AI4Simulation, das traditionelle Simulationsmethoden durch KI-Modelle optimiert und so Effizienz und Präzision erheblich steigert...
Querverweis:
Unser Beitrag > KI in der Elektronikentwicklung im Spannungsfeld zwischen Innovation und Abhängigkeit
Unser Beitrag > Über die Zukunft von KI: Ein Kommentar von Prof. Daniel Cremers von der TU München (TUM)
Unser Beitrag > KI und GPU-Workload-Anforderungen: Storage mit HBM Memory im KI-Daten-Lebenszyklus