Storj distributed global Cloud Object Storage mit Vorteilen bei verteilten KI-Workloads

Submitted by Storage Consortium on 18 April, 2024 - 15:47

Starnberg, 18. April 2024 - Speichern- und Verteilen von KI-Trainingsdaten mit Storj Cloud Object Storage; dezentralisierter Storage und Erasure Coding für hohe Verfügbarkeit…

Zum Hintergrund: Datensätze im Bereich von Open-Source basierter generativer KI werden vielfach von verschiedenen Einrichtungen und Teams an den unterschiedlichsten Standorten weltweit genutzt und verarbeitet. Große Datensätze leistungsfähig, kostengünstig und unter Wahrung der Datenintegrität sicher zu verteilen, ist damit ein Thema. Dies gilt über den gesamten Lebenszyklus der AI-Modellentwicklung, die verschiedene Phasen der Generierung, Feinabstimmung und Ausführung umfasst. Trainingsdatensätze sowie Modelle müssen dazu von einem Cloud-Speicher in eine (on-premise) Trainingsumgebung über private oder öffentliche Netzwerke übertragen werden. In jeder dieser Phasen fallen meist große abzuspeichernde Datenmengen an; dies gilt auch für damit verbundenen Rechenressourcen.

Storj weist in diesem Zusammenhang auf die Vorteile seiner Lösung (enterprise distributed Object-/Filesystem Storage) im Zusammenhang mit (verteilten) KI-Anwendungen hin. Wobei die Lösung laut dem Unternehmen nicht auf KI-Trainingsdatensätze und Modellverteilungs-Anwendungsfälle beschränkt ist. (1)

In der Storj-Umgebung werden die Daten nicht an einem Ort gespeichert, sondern sind über ein breites Netz unabhängig betriebener und statistisch nicht-korrelierter Speicherknoten verteilt. Das System ermöglicht die Aggregation von gering oder nicht-ausgelasteten Kapazitäten von Laufwerken und in Rechenzentren weltweit zu einer logisch zentralen und S3-kompatiblen „Objektwolke“.

Jede Datei wird automatisch verschlüsselt und in 64-MB-Segmente unterteilt, die dann mit Reed-Solomon-Löschkodierung gesplittet werden. Bei einem typischen Einsatz wird dazu jedes Segment in 80 Teile Erasure Coding versehen, von denen 29 zur Wiederherstellung des Segments verwendet werden können.

Aufgrund der inhärenten Parallelität der Lösung lässt sich eine entsprechend hohe Performance erzielen, wie es auch im Bereich von HPC-Anwendungen bei Forschungseinrichtungen bestätigt wurde. Quelle / externer Link > Prof. Antonin Portelli > https://www.storj.io/blog/new-test-of-storj-performance-by-univ-of-edinburgh-shows-2x-improvement

Ferner wird vom Anbieter neben den ESG-Aspekten auf Grund des optimierten (Speicher-)Ressourcenverbrauchs auf die deutlich niedrigeren Speicherkosten im Vergleich zu klassischen Hyperscaler-Angeboten wie AWS etc. verwiesen (siehe Bild).

Bildquelle: Storj

Das Bild zeigt die Kosten zur Speicherung und den Abruf eines Datensatzes in einem Monat, basierend auf einem einmaligen Datenabruf in diesem Zeitraum. Als Grundlage dient der Standard-Listenverkaufs-Preis öffentlich zugänglicher Anbieter-Webseiten (Quelle: Storj).

Querverweis:

Unser Beitrag > iXsystems TrueNAS SCALE 22.12 mit OpenZFS erreicht Release-Status

Unser Beitrag > Unternehmensdaten erschließen: Cloudera arbeitet mit NVIDIA beim Einsatz von Microservices

Unser Beitrag > Wachstum von VR, AR und VFX zwingt zu Innovationen mit direkten Folgen für die Speicherebene

Automatisiertes Storage- und Information-Management, SRM

Big Data, Data Analytics, KI, Machine Learning, Deep Learning

Blockchain Technologie

Cloud Computing, Cloud Storage, Hybrid Cloud, Multi Cloud

Compliance, DSGVO

Data Protection, Disaster Recovery, Backup

Daten-DeDuplizierung, Kapazitätsoptimierung, Encryption

Datenklassifizierung, Information-Lifecycle-Management