Podcast: Speicherinfrastrukturen für datenintensive KI-Anwendungen

Starnberg, 27. Sept. 2022 - Verteile Filesysteme in Kombination mit skalierbarem S3-Objektspeicher für datenintensive Workloads; skalierbarer Kapazität und Leistung...

Um was es in diesem Podcast geht (07:47 min): Wichtige Randbedingungen aus Daten- und Speicherverwaltungssicht betreffen die Größe der Datensätze, Verarbeitungs- und Durchsatzraten, geeignete Speichertechnologien sowie betriebsspezifische Sicherheits- und Datenschutz-Anforderungen. Auch erfordert die Speicherung und Verarbeitung einen möglichst einheitlichen Zugang zu diesen Datensätzen. Daraus leiten sich die jeweiligen IT-System- und Infrastrukturanforderungen ab. Besonders komplexe KI-Anwendungen mit massiven Datensätzen verlangen nach skalierbarer Kapazität und Leistung (Speicher, Netzwerk, CPU-/GPU-Performance); das bei möglichst geringen Latenzzeiten und zu vertretbaren Kosten OPEX und CAPEX.

 

> Link zum Storage Consortium Podcast bei Apple

 

Zusammenfassung des Podcasts (Lesezeit 2.0 min) : Welche Speicherumgebung für Datenanalyse- und KI-Anwendungsfälle?

Aus Storage-Sicht stehen uns bekanntlich File-, Objekt- und Blockspeichersysteme auf Basis HDDs und Flash zur Verfügung. Jeder Ansatz verfügt über eigene Charakteristika mit Vor- und Nachteilen. Für KI und maschinelles Lernen (ML) wird generell ein System benötigt, das verschiedene Arten von Workloads mit sowohl kleinen als auch sehr großen Dateien skalierbar verarbeiten kann. Bei Deep Learning (DL) Projekten bedeutet ein langsamer Speicher vor allem eine langsamere maschinelle Lernleistung, denn das Deep Neural Network stellt ein Abbild eines massiv parallelen vernetzten Modells dar.

Hochleistungsfähige Speicherumgebungen sind somit eine wesentliche Voraussetzung, um den GPU-Systemen eine entsprechend hohe "Ingest"-Bandbreite (X-Rate) für zufällige (random) Zugriffsmuster von kleinen bis großen Files zu liefern. Ein weiterer Punkt betrifft die I/O-Performanceseite und hier die „Random“ I/O Leseleistung bei geringer Warteschlangentiefe (queue depth). Random Reads stellen in der Regel rund 75% aller Transaktionen dar und sind eine relevante Performancekennzahl. Die Herausforderung bisher: nicht alle Speicherarten sind immer gleich gut für große Dateien geeignet und nicht alle können gleichzeitig mit sehr kleinen Dateien umgehen.

Verteilte, massiv parallel arbeitende scale-out Filesysteme auf Basis einer globalen Namenspace-Architektur in Kombination mit hochkapazitativen Festplatten- und schnellem Flashspeicher kombinieren die Einfachheit von NAS mit besserer I/O- und Durchsatzleistung von DAS, ergänzt um S3 Objektspeicher und je nach Bedarf Tape Storage als Archiv mit einer annähernd unbegrenzten Ausbaufähigkeit in der Cloud.

All-Flash unterstützt dann vor allem den schnellen Zugriff auf bestimmte Datenbereiche innerhalb der Produktions-Clusterumgebung. Dies führt direkt zu einer Steigerung der Infrastrukturleistung und beschleunigt Datenverarbeitungsprozesse - insbesondere für kritische Business-Analyse-Anwendungen, wie sie im Sinne eines beschleunigten Return on Value (ROV) im Rahmen von KI-Projekten erforderlich sind.  

Beispiel: Entwicklung im Bereich Autonomes Fahren

Standard NAS-Appliances mit Flash skalieren zwar in der Regel gut für die erste Modellentwicklung, sind aber nicht für ein fertiges KI-Produktionssystem mit hunderten von GPU-Servern sowie PBs an täglich neu hinzukommenden Daten konzipiert.

Datensätze, die zum Trainieren der KI-Modelle verwendet werden können aus sehr vielen kleinen Bilddateien gemischt mit großen Datensätzen gemischt bestehen. Ein Standard All-Flash NAS Filer kann die GPU-Server aber nicht immer ausreichend mit Daten versorgen. Dazu kommen höhere Latenzzeiten durch Performance-Einschränkungen bei NFS. Eine weitere Randbedingung betrifft die Frage, ob Flash aus Kostengründen für den Datenkatalog benötigt wird. Eine Software-kontrollierte Speicher- und Filesystem-Architektur mit niedrigeren Kosten auf Basis von schnellen Festplatten erlaubt flexiblere Deployment-Modelle für die zugrunde liegende Hardwareinfrastruktur.

Hier positioniert sich S3 Objektspeicher mit Flash. Ergänzt wird dieser Ansatz mit Filesystem-Architekturen, deren Ziel es ist, die Daten über die softwaredefinierte Speicherverwaltung und -Infrastruktur auf Basis Flash und HDDs zu verteilen, um einen massiv parallelen Datenzugriff zu erreichen. Niedrige Latenzzeiten bei hoher Bandbreite sowohl für Daten- als auch für Metadaten-Operationen sind dann möglich. Der angeschlossene Objektspeicher verfügt über die geforderte hohe Datenverfügbarkeit und -integrität und skaliert entsprechend zu niedrigeren Speichergesamtkosten. Gegenüber Standard NFS-basierten All-Flash-Systemen lässt sich in dieser genannten Kombination neben einer höheren Ausfallsicherheit und Verfügbarkeit (erasure coding) die CPU- und GPU-Auslastung eines KI-Systems um Faktoren verbessern.

Fazit: KI-Anwendungen mit massiven Datensätzen verlangen nach skalierbar hoher Kapazität und I/O-Leistung, dies bei geringer Latenz und zu vertretbaren Kosten. Speicher und Protokolle wie NVMe(oF) im Verbund mit jetzt QLC-NAND, DRAM-Caching, Storage Class Memory und massiv paralleler Filesystem- und Speichersoftware, insbesondere für steigende Bandbreitenanforderungen mit zufälligen Zugriffsmustern von kleinen bis sehr großen Files, sind eine Antwort auf stetig steigende Anforderungen in diesem wachsenden Applikationsumfeld.

Querverweise:

Anbieterinformationen im Bereich "Verteile Filesysteme und Objektspeicher" finden Sie auch bei Gartner Peer Insights(TM) unter diesem Link > https://www.gartner.com/reviews/market/distributed-file-systems-and-object-storage

Weitere Details dazu finden Sie auch in diesem Blogpost > Storage für KI: Welche Speichertechnologien sind dafür geeignet?