Hochgeschwindigkeitsbrücke als intelligenter Datenpfad zwischen GPU-Speicher (HBM) und Flash-basierten Storagesystemen. Die vorhandene GPU-Speicherbarriere überwinden...
Hintergrund
WEKA hat seine Augmented Memory Grid™ auf NeuralMesh™ kommerziell verfügbar gemacht (Anm.: die US-Ankündigung erfolgte am 18. Nov. 2025). Dabei handelt es sich um Speichererweiterungs-Technologie, die einen der grundlegenden Engpässe lösen soll, der KI-Projekte zur Zeit bremsen kann: den GPU-Speicher.
Augmented Memory Grid wurde laut Entwickler auf Oracle Cloud Infrastructure (OCI) und anderen KI-Cloud-Plattformen validiert und erweitert die GPU-Speicherkapazität um bis das 1000-fache, von Gigabyte auf Petabyte, während die Zeit bis zum ersten Token um das bis zu 20-fache reduziert werden kann.(1) Die Neuerung soll es KI-Entwicklern jetzt ermöglichen, komplexe Schlussfolgerungen sowie agentenbasierte KI-Workflows zu optimieren und die Effizienz von Inferenz-Workloads, deren Skalierung bisher eine Herausforderung darstellt, zu verbessern.
Ankündigungsdetails
Seit Einführung auf der NVIDIA GTC 2025 wurde Augmented Memory Grid laut Anbieter in verschiedenen Produktions-KI-Cloud-Umgebungen, beginnend mit OCI, getestet und validiert. Die Ergebnisse haben demnach bestätigt, was erste Tests bereits angedeutet hatten: Da sich KI-Systeme zu längeren, komplexeren Interaktionen entwickeln – von Codierungs-Copiloten über Forschungsassistenten bis hin zu Schlussfolgerungsagenten – ist der Speicher zu einem kritischen Engpass geworden, der die Inferenzleistung und Wirtschaftlichkeit einschränken kann.
Inferenzsysteme stehen vor einer grundlegenden Einschränkung
GPU-Speicher mit hoher Bandbreite (HBM) ist außerordentlich schnell, aber in seiner Kapazität begrenzt, während der System-DRAM mehr Speicherplatz, aber weitaus weniger Bandbreite bietet. Sobald beide Ebenen gefüllt sind, werden Key-Value-Cache-Einträge (KV-Cache) entfernt und GPUs sind gezwungen, bereits verarbeitete Tokens neu zu berechnen – was Zyklen, Energie und Zeit verschwendet.
WEKA Augmented Memory Grid löst die GPU-Speicherbarriere, indem es eine Hochgeschwindigkeitsbrücke zwischen GPU-Speicher (in der Regel HBM) und Flashstorage schafft. Es streamt dazu kontinuierlich Key-Value-Cache-Daten zwischen dem GPU-Speicher und dem Token-Warehouse von WEKA und nutzt RDMA und NVIDIA Magnum IO GPUDirect Storage, um die Speichergeschwindigkeiten zu erreichen.
Dadurch sollen große Sprach- und agentenbasierte KI-Modelle auf weitaus mehr Kontext zugreifen können, ohne zuvor berechnete KV-Cache-Daten oder generierte Token neu berechnen zu müssen, was die Effizienz und Skalierbarkeit laut Entwicklerangaben erheblich verbessert. (2) Anmerkung: NeuralMesh™ basiert auf einer containerisierten Microservices-Architektur, die eine robuste Skalierbarkeit bis in den Exabyte-Bereich ermöglichen soll.

Bildquelle: WEKA
Kommentarauszug Liran Zvibel, Mitbegründer und CEO von WEKA: „Bei der Skalierung agentenbasierter KI geht es nicht nur um reine Rechenleistung, sondern auch darum, die Speicherbarriere mit intelligenten Datenpfaden zu überwinden. Mit Augmented Memory Grid können Kunden mehr Token pro GPU ausführen, mehr gleichzeitige Benutzer unterstützen und völlig neue Servicemodelle für Workloads mit langem Kontext erschließen…“.
OCI-getestete Leistung und Ökosystem-Integration
Unabhängige Tests, einschließlich der Validierung auf OCI, haben nach vorliegenden Angaben von WEKA folgendes bestätigt (1):
- "1000-mal mehr KV-Cache-Kapazität bei Beibehaltung einer nahezu speicherähnlichen Leistung.
- 20-mal schnellere Zeit bis zum ersten Token bei der Verarbeitung von 128.000 Tokens im Vergleich zur Neuberechnung der Vorfüllphase.
- 7,5 Millionen Lese-IOPs und 1,0 Millionen Schreib-IOPs in einem Cluster mit acht Knoten.
- Durch die Eliminierung redundanter „Vorab-Füllvorgänge“ und die Aufrechterhaltung hoher Cache-Trefferquoten kann sich die Mandantendichte maximieren, Leerlaufzyklen bei GPUs reduzieren und der ROI pro Kilowattstunde drastisch verbessern lassen.
- Modellanbieter sind damit in der Lage, profitabler Modelle mit langem Kontext bereitstellen, wodurch die Kosten für Eingabetoken gesenkt und neue Geschäftsmodelle rund um persistente, zustandsbehaftete KI-Sitzungen möglicht werden."
Fazit: Für KI-Cloud-Anbieter, Modellanbieter und Entwickler von Unternehmens-KI können diese Leistungssteigerungen helfen, die Wirtschaftlichkeit der Inferenz grundlegend zu verändern.
Die Lösung ist hochintegriert mit NVIDIA GPUDirect Storage, NVIDIA Dynamo und NVIDIA NIXL, wobei WEKA ein spezielles Plugin für die NVIDIA Inference Transfer Library (NIXL) als Open Source zur Verfügung gestellt hat. Die Bare-Metal-GPU-Rechenleistung von OCI mit RDMA-Netzwerk und NVIDIA GPUDirect Storage-Funktionen bietet die Grundlage, die WEKA benötigt, um ein Augmented Memory Grid ohne Leistungseinbußen in cloudbasierten KI-Bereitstellungen bereitzustellen.
Kommentarauszug Nathan Thomas, Vice President, Multicloud, Oracle Cloud Infrastructure: „Die Wirtschaftlichkeit groß angelegter Inferenz ist für Unternehmen ein wichtiger Faktor… Die 20-fache Verbesserung der Time-to-First-Token, die wir in gemeinsamen Tests auf OCI beobachtet haben, ist nicht nur eine Leistungskennzahl, sondern verändert grundlegend die Kostenstruktur für die Ausführung von KI-Workloads. Für unsere Kunden wird dadurch die Bereitstellung der nächsten Generation von KI einfacher und kostengünstiger.“
Kommerzielle Verfügbarkeit : Augmented Memory Grid ist als Funktion für NeuralMesh-Bereitstellungen und auf dem Oracle Cloud Marketplace enthalten. Die Unterstützung für weitere Cloud-Plattformen soll laut Anbieter in Kürze erfolgen.
Quellenangabe:
(1) externer link > https://www.weka.io/blog/ai-ml/neuralmesh-delivers-1000x-gpu-memory-for-ai-inference-on-oracle-cloud/
(2) externer link > https://blogs.oracle.com/cloud-infrastructure/accelerate-ai-performance-weka-converged-storage
Querverweis:
Unser Blogpost > Ethernet für KI-Storage und IT-Infrastruktur-Herausforderungen aus Speichernetzwerk-Sicht
Unser Beitrag > Red Hat verbessert KI-Inferenzleistung über AWS
Unser Beitrag > Storage für die Logistikbranche auf Basis KIOXIA AiSAQ und Memory-Centric AI Software Plattform
Unser Beitrag > WekaIO Performance mit NVIDIA Magnum IO GPUDirect Storage im Microsoft Research Lab