Palo Alto (CA), Starnberg, 19. Sept. 2024 - KI-Modelle und LLMs skalieren; neue Prozessor- und I/O-Technologien, um den (KI-)Energieverbrauch im RZ zu reduzieren…
Zur Ankündigung: IBM hat auf der Hot Chips 2024 letzten Monat Details zur Architektur des kommenden IBM Telum® II Prozessor und IBM Spyre™ Accelerator bekanntgegeben. Die neuen Technologien sind laut Entwickler darauf ausgelegt, die Verarbeitungskapazität für IBM Z Mainframe-Systeme der nächsten Generation erheblich zu skalieren. Dies besonders, um den Einsatz traditioneller KI-Modelle und Large-Language-KI-Modelle zu beschleunigen, und zwar im Tandem durch eine neue Ensemble-Methode für KI.
Zum Hintergrund: Viele generative KI-Projekte mit großen Sprachmodellen (Large Language Models, LLMs) gehen derzeit von einer Machbarkeitsstudie in die Produktion über. Damit sind die Anforderungen an energieeffiziente, sichere und skalierbare Lösungen zu den wichtigsten Prioritäten geworden. Eine im August veröffentlichte Studie von Morgan Stanley dazu geht davon aus, dass der Energiebedarf für generative KI in den nächsten Jahren jährlich um 75 % ansteigen wird, so dass sie 2026 so viel Energie verbrauchen wird wie Spanien im Jahr 2022. (1) Viele IBM Kunden geben laut diesen Informationen an, dass architektonische Entscheidungen zur Unterstützung von angemessen dimensionierten Basismodellen und hybriden Design-Ansätzen für KI-Workloads immer wichtiger werden.
Zu den wichtigsten Neuerungen gehören (Quelle / IBM):
1. IBM Telum II Prozessor:
„Der neue IBM Chip wurde für die nächste Generation von IBM Z Systemen entwickelt und zeichnet sich im Vergleich zur ersten Generation Telum I-Chip durch eine höhere Frequenz, eine höhere Speicherkapazität, einen um 40 Prozent größeren Cache und einen integrierten KI-Accelerator sowie eine kohärent verbundene Datenverarbeitungseinheit (DPU) aus. Es wird erwartet, dass der neue Prozessor Enterprise-Computing-Lösungen für LLMs unterstützt und die komplexen Transaktionsanforderungen der Branche erfüllt.
2. IO Acceleration Unit:
Eine komplett neue Datenverarbeitungseinheit auf dem Telum II-Prozessorchip wurde entwickelt, um komplexe I/O-Protokolle für Netzwerkverbindungen und Speicher auf dem Mainframe zu beschleunigen. Die Datenverarbeitungseinheit vereinfacht den Systembetrieb und kann die Leistung wichtiger Komponenten verbessern.
3. IBM Spyre Accelerator:
Zusätzliche KI-Rechenleistung zur Ergänzung des Telum II-Prozessors. Zusammen bilden die Telum II- und Spyre-Chips eine skalierbare Architektur zur Unterstützung von Ensemble-Methoden der KI-Modellierung – die Praxis der Kombination mehrerer KI-Modelle für maschinelles Lernen oder Deep Learning mit Encoder-LLMs. Durch die Nutzung der Stärken der einzelnen Modellarchitekturen können KI-Ensemble-Modelle im Vergleich zu Einzelmodellen genauere und robustere Ergebnisse liefern.
Der IBM Spyre Accelerator Chip, der auf der Hot Chips 2024 Konferenz vorgestellt wurde, wird als Zusatzoption geliefert. Jeder Accelerator-Chip wird über einen 75-Watt-PCIe-Adapter angeschlossen und basiert auf einer Technologie, die in Zusammenarbeit mit der IBM Forschung entwickelt wurde. Wie andere PCIe-Karten ist auch der Spyre Accelerator skalierbar und kann an die Kunden-Bedürfnisse angepasst werden.
Der Telum II Prozessor und der IBM Spyre Accelerator werden nach vorliegenden Angaben beide von IBMs langjährigem Fertigungspartner Samsung Foundry auf dessen hochleistungsfähigem und energieeffizientem 5nm-Verfahren hergestellt. Im Zusammenspiel sollen sie eine Reihe fortschrittlicher KI-gesteuerter Anwendungsfälle unterstützen können, die darauf abzielen, Geschäftswerte zu erschließen und neue Wettbewerbsvorteile zu schaffen. Mit KI-Ensemble Methoden können Kunden schnellere und genauere Ergebnisse bei ihren Vorhersagen erzielen.
Die angekündigte kombinierte Rechenleistung kann die Anwendung von generativen KI-Anwendungsfällen beschleunigen. Einige mögliche Beispiele dafür wären:
Betrugserkennung bei Versicherungsansprüchen: Verbesserte Betrugserkennung bei Hausratversicherungsansprüchen durch KI-Ensemble-Methoden, die LLMs mit herkömmlichen neuronalen Netzen kombinieren, um Leistung und Genauigkeit zu verbessern.
Verbesserte Geldwäschebekämpfung (AML): Erweiterte Erkennung verdächtiger finanzieller Aktivitäten, die die Einhaltung gesetzlicher Vorschriften unterstützen und die Risiken von Finanzkriminalität verringert.
KI-Assistenten: Beschleunigung des Lebenszyklus von Anwendungen, Transfer von Wissen und Expertise, Code-Erläuterung und -Umwandlung u.v.m.
Abb.: IBM Spyre accelerator (Bildquelle: IBM)
Quelle / externer Link > https://research.ibm.com/blog/spyre-for-z
Spezifikationen und Leistungsmetriken
Telum II Prozessor:
„Ausgestattet mit acht leistungsstarken Cores, die mit 5,5 GHz laufen, mit 36 MB L2-Cache pro Kern und einer 40 % höheren On-Chip-Cache-Kapazität mit insgesamt 360 MB. Der virtuelle Level-4-Cache von 2,88 GB pro Prozessoreinschub bietet eine Steigerung von 40 % gegenüber der vorherigen Generation. Der integrierte KI-Accelerator ermöglicht KI-Inferenz mit niedriger Latenz und hohem Durchsatz während der Transaktion, um beispielsweise die Betrugserkennung bei Finanztransaktionen zu verbessern, und bietet eine vierfache Steigerung der Rechenkapazität pro Chip im Vergleich zur vorherigen Generation.
Die neue I/O Accelerator Unit ist in den Telum II-Chip integriert. Sie wurde entwickelt, um die Datenverarbeitung mit einer um 50 % erhöhten I/O-Dichte zu verbessern. Diese Weiterentwicklung verbessert die Gesamteffizienz und Skalierbarkeit von IBM Z, wodurch sie sich besser für die Handhabung großer KI-Workloads und datenintensiver Anwendungen moderner Unternehmen eignet.
Spyre Accelerator: Ein speziell entwickelter Accelerator für Unternehmen, der skalierbare Funktionen für komplexe KI-Modelle und generative KI-Anwendungsfälle bietet. Er verfügt über bis zu 1 TB Speicher. Er ist so aufgebaut, dass er über die acht Karten eines regulären I/O-Einschubs zusammenarbeitet, was KI-Modell-Workloads auf dem gesamten Mainframe unterstützt. Er ist gleichzeitig so konzipiert, dass er nicht mehr als 75 W pro Karte verbraucht. Jeder Chip wird 32 Rechen Cores haben, die int4-, int8-, fp8- und fp16-Datentypen für KI-Anwendungen mit niedriger Latenz und hohem Durchsatz unterstützen.“
Zur Verfügbarkeit: Der Telum II Prozessor wird laut IBM der zentrale Prozessor für die nächste Generation der IBM Z- und IBM LinuxONE-Plattformen sein. Er soll voraussichtlich 2025 für IBM Z- und LinuxONE-Kunden verfügbar sein. Der IBM Spyre Accelerator, der sich derzeit im technischen Preview befindet, soll laut IBM voraussichtlich ebenfalls 2025 verfügbar werden.
(1) Quelle: Morgan Stanley Research, August 2024.
Querverweis:
Unser Beitrag > IBM z16 Ankündigung: Echtzeit-KI Transaktionsverarbeitung und quantensicheres System
Unser Beitrag > T-Systems investiert weiter in IBM Z Infrastruktur. Großrechner und KI für kritische Anwendungen