KI-Storage: Integration von Cloudian S3 Objektspeicher mit NVIDIA GPUDirect Storage

München, Starnberg, 19. Nov. 2024 - GPUDirect-Zugriff, um die performante Verwaltung von KI-Trainings- und Inferenz-Daten zu vereinfachen; Datenmigrationen vermeiden...

Zur Ankündigung: Cloudian hat die Integration seiner Speicherlösung mit der NVIDIA Magnum IO GPUDirect® Storage technology bekanntgegeben. Cloudian HyperStore® mit GPUDirect-Zugriff soll die Datenverwaltung von KI-Trainings- und Inferenzdatensätzen vereinfachen und gleichzeitig die damit verbundenen Kosten reduzieren, indem komplexe Datenmigrationen und veraltete Datei-Speicherebenen vermieden werden. Cloudian HyperStore mit NVIDIA Magnum IO GPUDirect Storage-Technologie ist laut Anbieter ab sofort verfügbar. (1)

 

Wesentliche Vorteile von NVIDIA GPUDirect Storage für Objektspeicher bei KI-Trainings- und Inferenz-Workflows (Quelle/Anbieter):

  • Skalierbarkeit in den Exabyte-Bereich ohne Unterbrechungen und zusätzliche Verwaltungsaufwändungen.
  • Keine Datenmigrationen: Betreiben Sie einen einzigen, einheitlichen Data Lake, ohne häufig Daten zwischen Ebenen verschieben zu müssen.
  • Hohe Performance: Über 200 GB/s von einem einzelnen System mit einer Leistung, die über einen Zeitraum von 30 Minuten ohne Daten-Caching aufrechterhalten wird. (1)
  • Reduzierte Infrastrukturkosten: Keine Notwendigkeit der Einbindung veralteter Dateispeicherebenen.
  • Keine Kernel-Modifikationen: Beseitigt die Sicherheitslücken von anbieterspezifischen Kernel-Modifikationen und reduziert so potenzielle Schwachstellen. Durch den Verzicht auf solche Änderungen kann die Systemadministration vereinfacht, Angriffsfläche verringert und das Risiko von Sicherheitsverletzungen gesenkt werden.
  • Maximierte CPU für KI-Workloads: Reduziert die CPU-Last während der
  • Datenübertragung um bis zu 45 %, wodurch Rechenressourcen für die KI-Verarbeitung freigesetzt werden können.
  • Integrierte Metadaten: Reichhaltige Metadaten ermöglichen schnellere Suchvorgänge ohne externe Datenbanken.

 

Abb.: GPUDirect Storage data path (Bildquelle: NVIDIA, technical overview, ACCELERATING GPU-STORAGE COMMUNICATION WITH NVIDIA MAGNUM IO GPU DIRECT STORAGE).

 

Anmerkung zur Abb.: GPUDirect Storage ermöglicht einen direkten DMA-Datenpfad zwischen GPU-Speicher und lokalem oder entferntem Speicher, wie in der Abbildung dargestellt, wodurch eine Kopie in den Systemspeicher durch die CPU vermieden wird. Der direkte Pfad erhöht die System-Bandbreite und verringert Latenzzeiten und die Auslastung von CPU und GPU (Quelle: NVIDIA). Externer Link > https://www.nvidia.com/en-us/data-center/magnum-io/

Kommentarauszug Rob Davis, Vice President für Speichertechnologie bei NVIDIA: „Schnelle, konsistente und skalierbare Leistung in Objektspeichersystemen ist entscheidend für KI-Workflows, Sie ermöglicht Echtzeitverarbeitung und Entscheidungsfindung, die für Anwendungen wie Betrugserkennung und personalisierte Empfehlungen unerlässlich sind…“
 

Anwenderkommentar Dr. Sebastian Schoenen, Director of Innovation & Technology bei ControlExpert GmbH: „Als Pioniere in der KI-gesteuerten Prozessoptimierung freut sich ControlExpert über die Integration von GPUDirect für Objektspeicher von Cloudian, insbesondere da wir bereits Cloudian S3 in unseren Betrieb integriert haben. Diese Technologie hat das Potenzial, unser Datenmanagement erheblich zu vereinfachen und unsere KI-Workflows durch die Reduzierung komplexer Datenmigrationen und den direkten Hochgeschwindigkeitszugriff auf unsere umfangreichen Datensätze zu beschleunigen. Dies passt perfekt zur Mission von ControlExpert, die digitale Transformation in unserer Branche voranzutreiben.“

 

Management von Daten & Speicher vereinfachen und beschleunigen

Veraltete dateibasierte Speichersysteme in KI-Workflows erfordern häufige Datenverschiebungen zwischen dem Langzeit- und Hochgeschwindigkeitsspeicher, was die Verwaltung erschwert. Mit der jetzt vorgestellten Lösung von Cloudian erfolgen KI-Training und Inferenz direkt auf den Daten vor Ort, wodurch Workflows beschleunigt und häufige Migrationen eliminiert werden können. Die zentrale Verwaltung erlaubt eine einheitliche Kontrolle über verschiedenste Rechenzentrums- und Multi-Tenant-Umgebungen hinweg.

 

Schneller Datendurchsatz für höhere GPU-Auslastung

NVIDIA GPUDirect Storage mit NVIDIA ConnectX und NVIDIA BlueField -Netzwerktechnologien optimiert die Datenübertragungsgeschwindigkeit, indem damit die direkte Kommunikation zwischen NVIDIA-GPUs und mehreren Cloudian-Speicherknoten möglich wird, wodurch die CPU umgangen wird (direkte parallele Datenübertragung, s.a. Abb. oben).

 

Reduzierte Speicherkosten

Das Management der enormen Datensätze, die für KI-Workflows benötigt werden, kann je nach Umfang sowohl kostspielig als auch ressourcen-intensiv sein. Die softwaredefinierte Plattform von Cloudian macht laut Anbieter eine separate Datei-Speicherebene überflüssig. Da KI-Workflows direkt innerhalb des objektbasierten Data Lakes ablaufen, lässt sich das Datenmanagement vereinfachen und gleichzeitig Betriebs- und Kapitalausgaben sowie die Gesamtkomplexität reduzieren.

 

Integrierte Metadaten für beschleunigte Suche

Metadaten verbessern KI-Workflows, indem sie eine schnellere Datenentdeckung, -wiederherstellung und -zugriffssteuerung bieten. Die Cloudian-Lösung beschleunigt KI-Datensuchen durch integrierte Metadatenunterstützung, die ein einfaches Tagging, Klassifizierung und Indexierung großer Datensätze ermöglichen können.  Im Gegensatz zu Systemen, die auf starre Verzeichnisstrukturen und separate Datenbanken zur Metadatenverwaltung angewiesen sind, werden hier die Metadaten nativ innerhalb der Objektspeicherplattform verwaltet, was die KI-Trainings- und Inferenzprozesse vereinfacht.

 

Erhöhte Datensicherheit

Um sicherzustellen, dass sensible KI-Daten während ihres gesamten Lebenszyklus so weit wie möglich sicher bleiben, gehören zum HyperStore Angebot des Anbieters erweiterte Zugriffskontrollen, Verschlüsselungsprotokolle, integriertes Schlüsselmanagement und S3 Object Lock zum Schutz vor Ransomware.

(1) Quelle / externer Link > https://cloudian.com/blog/

 

Querverweis:

Unser Beitrag > Deloitte CFO Survey zur Entwicklung von GenAI-Budgets bei deutschen Unternehmen

Unser Beitrag > WekaIO Performance mit NVIDIA Magnum IO GPUDirect Storage im Microsoft Research Lab

Unser Beitrag > DDR5-RAM Speicher als Rückgrat für KI-/ML-Implementierungen und Edge Computing

Unser Beitrag > Speicherkosten und Energieverbrauch von SSDs mit NVMe FDP Flexible Data Placement senken