
Neu: Hochparalleler Direct Client durch direkten RDMA-Datenpfad zwischen Speicher und GPU-Speicher für AI/ML, HPC und Life Sciences Workloads. Inkrementelle "In-Place"-Skalierung, dynamischer Datenabgleich sowie Ultra-High-Density Flash Laufwerke…
Zur Ankündigung
Quantum Corporation hat die Entwicklung eines neuen, hochparallelen Filesystem-Clients für das Quantum Myriad® All-Flash-Dateisystem bekanntgegeben, der NVIDIA's GPUDirect Storage®-Technologie (GDS) unterstützt und gleichzeitig eine On-the-fly Client-Node-Bereitstellung mit plattformübergreifender Kompatibilität ermöglicht, einschließlich NVIDIA Grace Hopper mit Grace ARM-basierten Architekturen. Dazu wurden ferner im Januar diesen Jahres erweiterte Skalierungsfunktionen vorgestellt, um Myriad mit nur fünf teilweise bestückten NVMe Storage Server-Knoten zu starten und schrittweise um einen oder mehrere Knoten zu erweitern. Der zusätzliche Speicher soll innerhalb von Minuten verfügbar sein, ohne das Administratoren dazu eingreifen müssen und ohne direkte Auswirkungen oder Unterbrechungen für den Benutzerbetrieb.
1. NVIDIA GPUDirect Storage Unterstützung
Die Funktion bietet einen neuen Ansatz für den Aufbau von Infrastrukturen für KI und maschinelles Lernen (ML), mit dem bei Bedarf leistungsstarke neue GPU-Knoten zu Myriad-Clustern hinzugefügt werden können, um schneller auf sich verändernde Workflow- und Pipeline-Anforderungen zu reagieren. Der Client wurde entwickelt, um die GPU-Nutzung und -Leistung zu maximieren, und ist laut Entwickler für GPU-intensive Arbeitslasten wie AI/ML-Modelltraining und -inferenzierung, High-Performance-Computing (HPC)-Visualisierung und -Modellierung sowie Video-Rendering optimiert.
Das parallele Client-Design von Myriad ermöglicht den Aufbau von KI/ML-Infrastrukturen, indem es direkt auf Kundenservern oder Workstations installiert wird, die mit Hochleistungs-GPU-Karten ausgestattet sind, und deren Host-Workstation in betriebsbereite Myriad GPU Nodes verwandelt. Durch die Nutzung der Magnum I/O™ GPUDirect Storage-Technologie von NVIDIA stellt der Client einen direkten RDMA-Datenpfad zwischen Speicher und GPU-Speicher her und umgeht so CPU-Engpässe, um höchste Leistung zu erzielen.
Mehrere Client-Knoten können einem Myriad-Cluster hinzugefügt werden und stellen eine neue Verbindungsoption neben SMB, Network File System (NFS) und dem (geplanten) S3-Zugriff dar. Bei Bedarf sollen sie zu jedem Myriad-Freigabepunkt hinzugefügt werden können, wodurch Kunden eine maximale Auswahl an Verbindungen und Flexibilität erhalten.
Anwenderkommentar (Auszug) Lance Hukill, Chief Commercial Officer bei CHESA, einem führenden Integrator für Kunden aus der Medien- und Unterhaltungsbranche: „Wir sind beeindruckt von der Leistung und den Möglichkeiten von Myriad, nachdem wir es in unseren Labors getestet haben. Der innovative Ansatz eines parallelen Dateisystem-Clients kann unseren Kunden helfen, die anspruchsvollsten Arbeitslasten zu bewältigen, die mit herkömmlichen NAS-Speichersystemen nicht zu bewältigen sind, und gibt uns eine enorme Flexibilität bei der Entwicklung von Kundenlösungen…“.
Bestehende Myriad-Kunden sind laut Anbieter berechtigt, am Early Access Program für den neuen parallelen Dateisystem-Client mit NVIDIA GPUDirect Storage-Unterstützung teilzunehmen, sobald dieser im ersten Quartal 2025 veröffentlicht wird, mit geplanter allgemeiner Verfügbarkeit in der zweiten Jahreshälfte 2025.
Neue Interessenten für Myriad und die Teilnahme am Early Access Program können Quantum Corp. unter myriad-client-ea@quantum.com kontaktieren. Dieses Programm ist laut Anbieter ein integraler Bestandteil des Quantum-Produktentwicklungsprozesses und ermöglicht es diesen Kunden, neue Funktionen zu testen und zu validieren sowie Feedback zu realen Arbeitsabläufen zu geben, von dem dann alle profitieren können.
Bildquelle: Auszug von Quantum Corp. MYRIAD® ALL-FLASH SCALE-OUT FILE AND OBJECT STORAGE, Datenblatt.
Abb. 2
GPUDirect Storage (GDS) data path (Bildquelle: NVIDIA Technical Blog, Optimizing Data Movement in GPU Applications with the NVIDIA Magnum IO Developer Environment). Externer Link > https://developer.nvidia.com/blog/optimizing-data-movement-in-gpu-apps-with-magnum-io-developer-environment/?ncid=no-ncid
Anmerkung: GDS ermöglicht einen direkten DMA-Datenpfad zwischen GPU-Speicher und lokalem oder entferntem Speicher wie dargestellt, wodurch eine Kopie in den Systemspeicher durch die CPU vermieden wird. Der direkte Pfad erhöht die System-Bandbreite, verringert Latenzzeiten und die Auslastung von CPU und GPU.
2. Erweitere Skalierbarkeit mit neuen Funktionen
122,88 TB NVMe-Laufwerk-Support von Solidigm auf Basis von QLC-Technologie
Die Skalierbarkeitsverbesserung für das Quantum Myriad® All-Flash-Filesystem ermöglichen eine inkrementelle In-Place-Skalierung des Systems mit einem dynamisch automatisierten Datenabgleich. Betreiber können mit fünf teilweise bestückten NVMe Storage Server-Knoten beginnen und dann schrittweise um einen-/mehrere Knoten erweitern.
Bei wachsendem Bedarf lassen sich weitere Knoten hinzufügen und so die Kapazität erhöhen, während die lineare Leistung mit automatischem Datenabgleich über alle Knoten erhalten bleibt, wenn neue Storage Server-Knoten hinzugefügt werden. Der Ansatz bietet mehr sofort nutzbaren Speicherplatz pro Knoten, macht aufwändige Upgrades überflüssig und schafft die Möglichkeit, den Speicher im laufenden Betrieb zu erweitern.
Selbst wenn sie mit nur 5-10 Knoten beginnen, sollen Kunden bis zu 80 % nutzbare Kapazität mit n+2 Data Protection erreichen können. In Folgeversionen soll Myriad dann laut Entwickler auf 20 Knoten anwachsen und schließlich eine praktisch unbegrenzte Skalierbarkeit mit der gleichen bis zu 80-prozentigen nutzbaren Kapazität und n+m-Datensicherheit über alle Knoten erreichen.
Anwenderkommentar (Auszug) Jason Turner, Chairman & CEO, Entanglement, Inc.: „Bei Entanglement verschieben wir die Grenzen des Machbaren, indem wir Next-Gen-Computing, vom Quantencomputing inspirierte Algorithmen und KI/ML miteinander verschmelzen und Probleme angehen, die früher als unlösbar galten… Die Möglichkeit, den Speicher zur Optimierung unserer Pipeline ohne Ausfallzeiten oder Unterbrechungen zu erweitern, stellt sicher, dass wir die Entwicklung unserer KI- und Deep-Learning-Funktionen der nächsten Generation beschleunigen können.“
Zur Ankündigung gehört zusammengefasst der Support von 400 GbE RDMA-Infrastrukturen, die Unterstützung von bis zu 10 NVMe Storage Server Nodes und zusätzliche neue Laufwerksoptionen, darunter 61,44 TB und 122,88 TB Solidigm™ D5-P5336 QLC-Laufwerke. Vorteile sind: Platzbedarf im Rack massiv konsolidieren und Einsparungen bei Strom und Kühlung erreichen.
- Nur teilweise bestückte NVMe-Speicherserverknoten, um mehr Flexibilität bei der Erstausstattung und Erweiterung zu ermöglichen, beginnend mit mindestens vier NVMe-Laufwerksmodulen pro NVMe-Speicherserver-Knoten.
- Die verbleibenden offenen NVMe-Laufwerksmodulsteckplätze können dann laut Anbieter je nach Bedarf bestückt werden.
- Weitere Laufwerksoptionen von 61,44 TB und 122,88 TB mit höherer Dichte und Einsparungen bei der Infrastruktur, beginnend mit Solidigm™ D5-P5336 als 61 TB und 122 TB NVMe-Drives.
- Inkrementelle, ausfallfreie Skalierungsunterstützung von bis zu 20 NVMe Storage Server Nodes in zukünftigen Versionen und eine final geplante praktisch unbegrenzte Skalierbarkeit mit expandierenden intelligenten Fabric Leaf Nodes.
- Kompatibilität mit bis zu 400 GbE Ethernet RDMA zur Unterstützung der höchsten verfügbaren Cluster-Leistung.
- Integrierte Archivierung und Rückruf mit ActiveScale zum Aufbau nahtloser, expandierender Data Lakes.
Die neuen Laufwerke ermöglichen für Myriad Speicherkapazitäten von bis zu 6 PB in fünf Rack Space Units (5U) und 12 PB in 10U zu erreichen. Mit automatischer Inline-Datenkomprimierung und Deduplizierung von Myriad, die eine bis zu 20-fache Datenreduzierung ermöglichen kann, soll dann eine effektive Speicherkapazität von bis zu 240 PB bei 10 Knoten und annähernd ein halbes Exabyte oder 480 PB bei 20 Knoten erreicht werden, dies bei gleichzeitiger Reduzierung von Rackspace und Betriebskosten (die neuen Funktionen sollen laut Anbieter voraussichtlich in der zweiten Hälfte des Jahres 2025 verfügbar sein).
Zur weiteren Unterstützung von KI/ML-Pipelines und anderen datenintensiven Workloads ist es laut Anbieter geplant, für Myriad auch eine nahtlose Integration mit Quantum's ActiveScale®-Objektspeicher zur Aufnahme großer Datensätze mit integrierter Archivierung nebst Abruf und Betrieb von Data Lakes, anbieten.
Querverweis:
Unser Beitrag > Quantum (Corp.) GO: Storage as a Subscription Service (STaaS Modell) im Abonnement verfügbar
Unser Beitrag > Tape Automatisierung für grosse Rechenzentren: Quantum Corp. kündigt Scalar i7 RAPTOR an
Unser Beitrag > KI-Storage: Integration von Cloudian S3 Objektspeicher mit NVIDIA GPUDirect Storage
Unser Blogpost > Verteilte Filesysteme und Objektspeicher: Trend zu mehr Datenschutz und Konsolidierung