Die GPU-Speicherbarriere mit intelligenten Datenpfaden überwinden. Neue Hochgeschwindigkeitsbrücke zwischen GPU-Speicher (HBM) und Flash-basierten Speichersystemen…
Hintergrund
WEKA hat zwischenzeitlich die kommerzielle Verfügbarkeit von Augmented Memory Grid™ auf NeuralMesh™ bekanntgegeben (die US-Ankündigung dazu erfolgte am 18. Nov.). Dabei handelt es sich um Speichererweiterungs-Technologie, die einen der grundlegenden Engpässe lösen soll, der KI-Innovation zur Zeit bremst: den GPU-Speicher. Augmented Memory Grid wurde laut Entwickler auf Oracle Cloud Infrastructure (OCI) und anderen KI-Cloud-Plattformen validiert und erweitert die GPU-Speicherkapazität um bis das 1000-fache, von Gigabyte auf Petabyte, während die Zeit bis zum ersten Token um das bis zu 20-fache reduziert werden kann. (1)
Dieser Durchbruch soll es KI-Entwicklern nun ermöglichen, langwierige Schlussfolgerungen und agentenbasierte KI-Workflows zu optimieren und (Zitat) „die Effizienz von Inferenz-Workloads, deren Skalierung bisher eine Herausforderung darstellte, drastisch zu verbessern.“
Ankündigungsdetails
Seit Einführung auf der NVIDIA GTC 2025 wurde Augmented Memory Grid laut Anbieter in führenden Produktions-KI-Cloud-Umgebungen, beginnend mit OCI, getestet und validiert. Die Ergebnisse haben danach bestätigt, was erste Tests bereits angedeutet hatten: Da sich KI-Systeme zu längeren, komplexeren Interaktionen entwickeln – von Codierungs-Copiloten über Forschungsassistenten bis hin zu Schlussfolgerungsagenten – ist der Speicher zu einem kritischen Engpass geworden, der die Inferenzleistung und Wirtschaftlichkeit einschränken kann.
Heutige Inferenzsysteme stehen vor einer grundlegenden Einschränkung
GPU-Speicher mit hoher Bandbreite (HBM) ist außerordentlich schnell, aber in seiner Kapazität begrenzt, während der System-DRAM mehr Speicherplatz, aber weitaus weniger Bandbreite bietet. Sobald beide Ebenen gefüllt sind, werden Key-Value-Cache-Einträge (KV-Cache) entfernt und GPUs sind gezwungen, bereits verarbeitete Tokens neu zu berechnen – was Zyklen, Energie und Zeit verschwendet.
Das Augmented Memory Grid von WEKA durchbricht die GPU-Speicherbarriere, indem es eine Hochgeschwindigkeitsbrücke zwischen dem GPU-Speicher (in der Regel ist das HBM) und dem Flash-basierten Speicher schafft. Es streamt kontinuierlich Key-Value-Cache-Daten zwischen dem GPU-Speicher und dem Token-Warehouse von WEKA und nutzt dabei RDMA und NVIDIA Magnum IO GPUDirect Storage, um Speichergeschwindigkeiten zu erreichen.
Dadurch können große Sprach- und agentenbasierte KI-Modelle auf weitaus mehr Kontext zugreifen, ohne zuvor berechnete KV-Cache-Daten oder zuvor generierte Token neu berechnen zu müssen, was die Effizienz und Skalierbarkeit laut Entwicklerangaben erheblich verbessert. (2) Anmerkung: NeuralMesh™ basiert auf einer containerisierten Microservices-Architektur, die robuste Skalierbarkeit bis in den Exabyte-Bereich ermöglichen soll.

Bildquelle: WEKA
Kommentarauszug Liran Zvibel, Mitbegründer und CEO von WEKA: „Bei der Skalierung agentenbasierter KI geht es nicht nur um reine Rechenleistung, sondern auch darum, die Speicherbarriere mit intelligenten Datenpfaden zu überwinden. Mit Augmented Memory Grid können Kunden mehr Token pro GPU ausführen, mehr gleichzeitige Benutzer unterstützen und völlig neue Servicemodelle für Workloads mit langem Kontext erschließen…“.
OCI-getestete Leistung und Ökosystem-Integration
Unabhängige Tests, einschließlich der Validierung auf OCI, haben nach vorliegenden Angaben von WEKA folgendes bestätigt (1):
- 1000-mal mehr KV-Cache-Kapazität bei Beibehaltung einer nahezu speicherähnlichen Leistung.
- 20-mal schnellere Zeit bis zum ersten Token bei der Verarbeitung von 128.000 Tokens im Vergleich zur Neuberechnung der Vorfüllphase.
- 7,5 Millionen Lese-IOPs und 1,0 Millionen Schreib-IOPs in einem Cluster mit acht Knoten.
- Durch die Eliminierung redundanter „Vorab-Füllvorgänge“ und die Aufrechterhaltung hoher Cache-Trefferquoten kann sich die Mandantendichte maximieren, Leerlaufzyklen bei GPUs reduzieren und der ROI pro Kilowattstunde drastisch verbessern lassen.
- Modellanbieter sind damit in der Lage, profitabler Modelle mit langem Kontext bereitstellen, wodurch die Kosten für Eingabetoken gesenkt und neue Geschäftsmodelle rund um persistente, zustandsbehaftete KI-Sitzungen möglicht werden.
Fazit: Für KI-Cloud-Anbieter, Modellanbieter und Entwickler von Unternehmens-KI können diese Leistungssteigerungen helfen, die Wirtschaftlichkeit der Inferenz grundlegend zu verändern.
Die Lösung ist hochintegriert mit NVIDIA GPUDirect Storage, NVIDIA Dynamo und NVIDIA NIXL, wobei WEKA ein spezielles Plugin für die NVIDIA Inference Transfer Library (NIXL) als Open Source zur Verfügung gestellt hat. Die Bare-Metal-GPU-Rechenleistung von OCI mit RDMA-Netzwerk und NVIDIA GPUDirect Storage-Funktionen bietet die Grundlage, die WEKA benötigt, um ein Augmented Memory Grid ohne Leistungseinbußen in cloudbasierten KI-Bereitstellungen bereitzustellen.
Kommentarauszug Nathan Thomas, Vice President, Multicloud, Oracle Cloud Infrastructure: „Die Wirtschaftlichkeit groß angelegter Inferenz ist für Unternehmen ein wichtiger Faktor… Die 20-fache Verbesserung der Time-to-First-Token, die wir in gemeinsamen Tests auf OCI beobachtet haben, ist nicht nur eine Leistungskennzahl, sondern verändert grundlegend die Kostenstruktur für die Ausführung von KI-Workloads. Für unsere Kunden wird dadurch die Bereitstellung der nächsten Generation von KI einfacher und kostengünstiger.“
Kommerzielle Verfügbarkeit : Augmented Memory Grid ist als Funktion für NeuralMesh-Bereitstellungen und auf dem Oracle Cloud Marketplace enthalten. Die Unterstützung für weitere Cloud-Plattformen soll laut Anbieter in Kürze erfolgen.
Quellenangabe:
(1) externer link > https://www.weka.io/blog/ai-ml/neuralmesh-delivers-1000x-gpu-memory-for-ai-inference-on-oracle-cloud/
(2) externer link > https://blogs.oracle.com/cloud-infrastructure/accelerate-ai-performance-weka-converged-storage
Querverweis:
Unser Blogpost > Ethernet für KI-Storage und IT-Infrastruktur-Herausforderungen aus Speichernetzwerk-Sicht
Unser Beitrag > Red Hat verbessert KI-Inferenzleistung über AWS
Unser Beitrag > Storage für die Logistikbranche auf Basis KIOXIA AiSAQ und Memory-Centric AI Software Plattform
Unser Beitrag > WekaIO Performance mit NVIDIA Magnum IO GPUDirect Storage im Microsoft Research Lab