Flash oder Festplatte für KI-Projekte? Technologisch und wirtschaftlich bestimmende Faktoren

Starnberg, 18. Juli 2024 - Blogpost: Workloads mit zufälliger Leseleistung bei geringer Warteschlangen-Tiefe sind für SSDs aus Performance-Sicht nicht unproblematisch...

Zum Inhalt dieses Blogpost: Das Interesse am Einsatz von KI in deutschen Unternehmen ist ungebrochen, das Vertrauen in KI-generierte Resultate stieg zuletzt deutlich über den globalen Durchschnitt, so jedenfalls das Ergebnis der neuen KI-Studie „State of GenAI in the Enterprise“ von Deloitte. (1) Damit rückt auch die verwendete Speichertechnologie bei Projekten weiter in den Fokus. Eigentlich sollte man meinen, Flash Storage ist für KI ein „No-Brainer“. Die Wahl des geeigneten Speichers hängt jedoch stark von den spezifischen Anforderungen des jeweiligen (KI-)Projekts ab. Beispiel: Modelle müssen häufig auf große Datensätze zugreifen oder hängen von Echtzeit-Analysen ab. Flash Storage macht aus Performance-Gründen Sinn, wenn hohe Leistungsanforderungen zu niedrigen Latenzzeiten bei zufälligen Zugriffsmustern (random IO) im Vordergrund stehen. In anderen Fällen, insbesondere wenn die Zugriffe überwiegend sequenziell oder nur gelegentlich erfolgen, können aktuelle HDD-Technologien eingesetzt und eine wirtschaftliche Lösung darstellen. Beispiel: I/Os mit vorwiegend 64kB-, 256kB-, 2MB-Blöcke oder größer in einem gemischten Verhältnis bei häufigen Schreibzyklen.

 

Diesen Beitrag bei Apple Podcasts hören > https://podcasts.apple.com/de/podcast/festplatten-oder-flash-storage-f%C3%BCr-ki-projekte/id81294878?i=1000663230558

 

Dauerbrennerthema Kosten: Anschaffungskosten pro GB/TB versus Total Cost of Ownership (TCO)

Unternehmen verlassen sich bei ihren Investitionsentscheidungen im Speicherbereich gerne auf CAPEX-Zahlen (Kosten pro GB/TB). Diese Rechnung alleine greift aber meist zu kurz. Solid State Drives (SSDs) bieten heute diverse Vorteile gegenüber Festplattenlaufwerken und bestimmte Anwendungsprofile kommen ohne diese Leistungsvorteile nicht mehr aus. Schon deshalb sollte das Thema Kosten nicht allein an der Kapazität festgemacht werden. Effektiver ist es, die Gesamtbetriebskosten (TCO) zu erfassen, bei denen alle Kapital- und Betriebskosten über den Produkt-Life-cycle berücksichtigt werden (durchschnittliche Nutzungsdauer). Die sog. DWPD-Spezifikation (Drive Writes Per Day), basiert auf der TBW-Spezifikation (Terabytes Written) und Garantiezeit einer SSD. Beispiel: bei einer 1TB SSD bedeutet die Lebensdauer-Angabe von 1 DWPD, dass darauf 5 Jahre lang (je nach Garantie / Nutzungsdauer) 1TB an Daten pro Tag geschrieben werden kann.

 

Bei der TCO-Berechnung spielen Parameter wie IOPS pro Watt sowie Kapazität-/Leistung pro Rack eine Rolle. Meist handelt es sich in der Praxis um eine Mischung aus mehreren Kennzahlen, die dann je nach Workload-Profil der Anwendungen für das zu verwendende Speichersystem gewichtet werden. Mit ein Grund, weshalb hybride Systeme weiter nachgefragt sind. Weiter spielen Verfahren zur optimierten Speicherverwaltung über Datenreduktionsverfahren wie Deduplizierung, Kompression, Thin Provisioning etc., aber auch Erasure Coding anstelle von RAID eine Rolle.

All-Flash-Storage kann unter Berücksichtigung von Strom-, Kühlungs-, Management- und Austauschkosten als kosteneffiziente Lösung angesehen werden (idealerweise bis zu 50 % geringere Betriebskosten gegenüber reinen Festplatten-Arrays). Ebenfalls niedriger ist die TCO, auch bei einer längeren Nutzungsdauer (>5-6 Jahre). Der Energieverbrauch bei Flash-Architekturen liegt je nach Umfang, Implementierung und Betrieb bei ca. 1W pro Terabyte (TB).

Zu beachten: Flash-SSDs verlieren bei hoher Schreibaktivität an Lebensdauer (wear-out). Die Lebensdauer eines Flash-Speichers wird durch die Anzahl der P/E-Zyklen ausgedrückt. Mit Hilfe von Überprovisioning und Fehlerkorrektur-Mechanismen kann dem entgegengewirkt werden, damit entstehen jedoch höhere Produktkosten. Schon deshalb gilt es seine Applikationsprofile I/O-seitig gut zu kennen, um unnötige Ausgaben zu vermeiden.
 

Bildquelle: SSD von Kingston Technology

 

Zusammengefasst hier nochmals einige Überlegungen, wann SSD Flash Storage aus Anwendungssicht punkten kann und bei welchen Szenarien Festplatten-Systeme ausreichend bzw. vielleicht sogar besser geeignet sind.

 

A) Flash Storage Vorteile:

1. Hohe I/O-Anforderungen: KI-Projekte, die große Datenmengen in sehr kurzer Zeit verarbeiten müssen, profitieren von höheren Lese- und Schreibgeschwindigkeiten der Flash-Drives-/Module. Das ist wichtig bei Echtzeitanalysen oder wenn Modelle häufig auf große Datensätze zugreifen. Weiter zu beachten sind Parameter wie Random Read Queue Depth (QD)*.

2. Niedrige Latenzzeiten: SSDs besitzen niedrigere Latenzzeiten im Vergleich zu HDDs. Dies kann entscheidend sein, wenn sehr schnelle Antwortzeiten erforderlich sind, so wie bei Inferenz in Echtzeit. Anmerkung: Inferenz ist der Prozess, bei dem ein bereits trainiertes ML-Modell Schlussfolgerungen aus den jeweils aktuellsten Daten zieht. Dies kann auch ein an Beispieltexten trainiertes LLM-Modell sein, das neue Texte interpretiert, auch wenn es mit diesen noch nie zuvor konfrontiert war.

3. Random Access: Falls Datenzugriffsmuster stark fragmentiert sind und viele zufällige Lese- und Schreiboperationen beinhalten, bieten SSDs leistungsmäßig zwar Vorteile gegenüber HDDs, da sie unabhängig sind von der Position der Daten auf den NAND-Flashmodulen. Zufällige (random) Leseleistung bei geringer Warteschlangen-Tiefe (QD) kann für NAND Flash SSDs aus Performance-Sicht jedoch problematisch sein. Ebenso die Verwendung von QLC anstelle von SLC bei schreibintensiven Prozessen (Leistung-/Haltbarkeit).

Neuere 3D-NAND Flash Entwicklungen erlauben gegenüber 2D-NAND / SLC, MLC, QLC auf Grund der höheren Speicherdichte nicht nur höhere Speicherkapazitäten, sondern auch eine verlängerte Lebensdauer bei weniger Stromverbrauch. Persistent Memory Implementierungen auf Basis von Storage Class Memory (SCM) für high-performance KI-Infrastrukturen bieten sich derweil als Alternative-/Ergänzung zu Flash an. SCM liefert eine 5-bis 10-fach höhere Leistung gegenüber SSDs bei einer Random Read Queue Depth (QD) von 1-4, dies allerdings zu höheren Kosten.

4. Verfügbarkeit und Zuverlässigkeit: SSDs besitzen keine beweglichen Teile, was sie robust und weniger anfällig für mechanische Ausfälle macht. Dies kann für kritische Anwendungen wichtig sein, bei denen die Zuverlässigkeit der Datenverfügbarkeit entscheidend ist. Auch ist generell die Performance von SSDs für (fast-)Restore-Prozesse bei Backup-Anwendungen positiv hervorzuheben.

5. Energieeffizienz: moderne HDDs verbrauchen je nach Drivetyp zwischen 4-7 Watt im Betrieb und zwischen 2-3 Watt im Idle-Mode (Leerlauf). Im Gegensatz dazu verbrauchen optimierte Flash-Systeme etwa 2-4 Watt im Schreibmodus-/Lesemodus bei unter 2W im „Leerlauf“ bzw. 0,5W mit Device Sleep Funktion.

 

B) Wann ein Festplatten-Einsatz sinnvoll ist:

1. Beschaffungskosten: HDDs sind pro Gigabyte günstiger als SSDs. Für KI-Projekte, die sehr große Datenmengen speichern müssen, aber nicht ständig auf diese Daten zugreifen, können HDDs gegenüber QLC (4 bits pro Zelle) NAND Flash eine kostenoptimierte Lösung darstellen.

2. Langfristige Speicherung: Wenn Daten überwiegend im online-Archiv gespeichert werden und sehr selten abgerufen werden, sind HDDs eine geeignete Wahl; die Kosten für den Speicherplatz sind hier mit am niedrigsten. Für sehr große Archive mit kalten Daten (Deep Archives) ist Tape derzeit die Technologie der Wahl.

3. Sequenzielle Datenzugriffe: Für Workloads, die hauptsächlich sequenzielle Lese- und Schreiboperationen ausführen, sind die Geschwindigkeitsvorteile von SSDs weniger ausgeprägt. In solchen Fällen können HDDs ausreichend sein.

 

C) Weitere Randbedingungen

Hybride Ansätze: In vielen Fällen wird eine hybride Speicherarchitektur, bei der SSDs für kritische häufig genutzte Daten und HDDs für Archivierungs- und Backup-Zwecke verwendet werden, genutzt. Dies optimiert Kosten und erfüllt gleichzeitig die Leistungsanforderungen.

Speicherlösungen in der Cloud: Cloud-basierte Speicherlösungen bieten je nach Anbieter und Servicelevel eine Mischung aus verschiedenen Speichertechnologien. Dies ermöglicht es, je nach Bedarf zwischen SSDs und HDDs auszuwählen oder idealerweise bereits automatisch die am besten geeignete Technologie-Option zu nutzen.

 

(1) Quelle: „State of GenAI in the Enterprise“ (Q2-24 / DE). KI-Studie 2024: Beschleunigung der KI-Transformation von Deloitte Deutschland.


Querverweis:

Unser Blogpost > Container, Virtualisierungstechnologie und Storage. Ein Überblick zu gängigen Einsatzszenarien

Unser Blogpost > Energieeffizienz und Nachhaltigkeit (ESG) aus Sicht der Datenspeicherung