München, Starnberg, 23. Aug. 2024 - In jeder Phase sollte laut VAST Data primär die Datenzentrierung und nicht die Modellzentrierung im Zentrum des KI-Ökosystems stehen…
Zum Hintergrund: Die allgemeine Auffassung über künstliche Intelligenz (KI) ist, dass sich alles um GPUs bzw. die Leistungsfähigkeit von Hardware dreht - aber diese Annahme ist nur ein Teilaspekt des Ganzen. Das Training von Basismodellen ist GPU-intensiv und kann, je nach Datenmenge und Größe des Modells, Tausende von GPUs und GPU-Stunden sowie enorme Mengen an Strom verbrauchen. Dies ist jedoch nur ein Bereich innerhalb der Informationsverarbeitung, der für den Aufbau robuster Datenpipelines und die Umwandlung von Rohdaten in anwendbare generative KI-Modelle erforderlich ist.
Ein weiterer Aspekt betrifft die Prozesse außerhalb der GPU-Cluster, das heißt, wie Rohdaten verarbeitet, bereinigt und in die Infrastruktur für das Modelltraining eingespeist werden, und die anschließende Verarbeitung. Hierbei gilt es die Datenverfügbarkeit und -verwaltung im Auge zu behalten. VAST Data erläutert im Folgenden die Bedeutung und den Aufbau von Datenpipelines, wie sie aus Sicht des Anbieters für effiziente KI-Projekte unerlässlich sind. (1)
Datenpipelines für KI verstehen
„In der KI wird eine Datenpipeline definiert als die Prozesse und Transformationen, die Daten von ihrem Rohzustand in eine verfeinerte Form durchlaufen, um sie für das Training von KI-Modellen vorzubereiten, bevor sie zur Feinabstimmung, Quantisierung und Inferenzierung übergehen, mit und ohne RAG (Retrieval-Augmented Generation) oder RLHF (Reinforcement Learning from Human Feedback). Dieser Beitrag konzentriert sich auf die Phasen der Datenaufbereitung und des Trainings.
Dieser spezielle Abschnitt der KI-Reise umfasst mehrere Stufen, darunter Dateneingabe, Bereinigung, Transformation und „Tokenisierung“, bevor die Daten schließlich in die KI-Modelle eingespeist werden. Dies kann in Stapeln erfolgen wie bei der historischen ETL-Verarbeitung (extract, transform, load) von Datenbanken, aber Datenpipelines sind in der Regel Streaming-Prozesse und nicht auf einen festen Zeitpunkt ausgerichtet. Im Anschluss an das Modelltraining sind andere kritische Aspekte wie Feinabstimmung, Quantisierung, Retrieval Augmented Generation (RAG) etc. von entscheidender Bedeutung, um den Punkt zu erreichen, der dem Moment der Wahrheit entspricht – bei der Inferenzierung.
Alle Phasen verbrauchen Daten und alle Phasen bewegen Daten. Wie der renommierte Stanford-Professor Andrew Ng treffend feststellte: „Anstatt sich auf den Code zu konzentrieren, sollten sich Unternehmen auf die Entwicklung systematischer technischer Verfahren zur Verbesserung der Daten auf zuverlässige, effiziente und systematische Weise konzentrieren. Mit anderen Worten: Unternehmen müssen von einem modellzentrierten Ansatz zu einem datenzentrierten Ansatz übergehen.“
Kritische Komponenten einer Datenpipeline
Unternehmen fixieren sich oft auf teure GPUs für das Training, aber 80 Prozent der Trainingszeit entfällt auf die Verarbeitung von Rohdaten aus Quellen wie internen Unternehmensdaten, Internetdaten, Github, Arxiv und PubMed. Dieser Prozess beinhaltet die Verfeinerung der Daten, bis der richtige Inhalt im richtigen Format für das zu trainierende Modell vorliegt. Alle Phasen der oben dargestellten Pipeline verbrauchen und erzeugen Daten, und das Verschieben dieser Daten erfordert einen erheblichen Zeitaufwand.
Ein effektiver Ansatz ist eine Datenplattform, die Speicher, Datenbank und containerisierte Berechnungen in einer einzigen, skalierbaren Softwareplattform vereint, um KI und Deep Learning in modernen Rechenzentren und Clouds zu betreiben. Eine solche Plattform bietet einen gemeinsamen Namensraum für alle Phasen der Datenpipeline, wodurch die Notwendigkeit entfällt, Daten von einer Phase zur anderen zu verschieben. Diese anfängliche Datenvorbereitung ist in hohem Maße iterativ und erfordert häufig die Rückkehr zu früheren Schritten für präzise Verfeinerungen. Die Eliminierung der Datenverschiebung ermöglicht eine Vorhersagbarkeit für die Modellschulung, was die Schulungszeiten und -kosten insgesamt reduziert.
Praktisches Beispiel: Training von GPT-Modellen
Um die Effektivität einer modernen Datenplattform mit KI-Datenpipelines zu veranschaulichen, ist das Beispiel der Schulung großer Sprachmodelle (LLMs) wie Generative Pre-trained Transformer (GPT) aufschlussreich. Das Training solcher Modelle beinhaltet die Verarbeitung großer Mengen von Textdaten, was eine effiziente Datenaufnahme, -bereinigung, -umwandlung und -speicherung erfordert. Diese Pipeline wurde teilweise von der RefinedWeb-Pipeline inspiriert, die bei der Erstellung von Token für das TII/Falcon-40B LLMl verwendet wurde, einem der erfolgreichsten und einflussreichsten Modelle auf HuggingFace (Anmerkung / Externer Link > https://falconllm.tii.ae/ ).
Im folgenden Beispiel soll eine beispielhafte Datenpipeline durchlaufen und der Datenumwandlungsprozess erläutert werden.
Eine Schritt-für-Schritt-Pipeline
Dateneingabe (Ingestion): Rohdaten von CommonCrawl, die auf AWS verwaltet werden, werden über eine Hochdurchsatz-Speicherschicht mit nativen S3-Tools aufgenommen, um eine schnelle und effiziente Datenerfassung zu gewährleisten. CommonCrawl ist ein langjähriges Projekt, das das Internet durchforstet und rohe HTML-Dumps der gefundenen Seiten kuratiert. Es ist der gebräuchlichste Ausgangspunkt für die Zusammenstellung von Trainingsdatensätzen für LLMs.
Datenbereinigung: Die Rohdaten werden dann in das Parquet-Format konvertiert. Die HTML-Rohdaten werden geparst, um den Inhalt zu bereinigen, wobei Tools wie BeautifulSoup eingesetzt werden, um nützlichen Trainingstext aus dem bei der Aufnahme gescrapten Markup zu extrahieren. Die Datenplattform ermöglicht die Persistenz der Daten durch Datensätze in der Datenbank der Plattform. Durch die Erstellung von Zwischenständen der Datenverarbeitung können iterative Bereinigungsprozesse stattfinden, ohne dass man bei Null anfangen muss. Diese Verarbeitung erfolgt mit Spark, wobei der Spark Connector zur Verbindung mit der Datenbank genutzt wird.
Datenumwandlung: Die Daten werden transformiert, indem verschiedene Operationen durchgeführt werden, wie z. B. das Entfernen von Wörtern der schwarzen Liste, XML-Tags, Cookies, Dropdown-Menüs usw. Außerdem werden doppelte Textdatensätze aussortiert. Schließlich wird die Sprache identifiziert und als separate Spalte in der Datenbank gespeichert. Auf diese Weise ist die Auswahl einer bestimmten Sprache so einfach wie eine Prädikatsabfrage.
Daten-Training: In der letzten Phase werden die zu trainierenden Textsätze extrahiert und in Token umgewandelt. Hier werden die Tokenisierung und das Training für GPT-Modelle mithilfe des Megatron-LM-Repository von NVIDIA auf GitHub durchgeführt.
Effektiver Ansatz für das Datenpipeline-Management
Ein effektiver Ansatz integriert mehrere innovative Funktionen, um die spezifischen Herausforderungen der KI-Datenverarbeitung zu bewältigen. Die Grundlage einer modernen Datenplattform ist eine einzige Flash-Infrastruktur, die den für KI-Anwendungen erforderlichen immensen Datendurchsatz bewältigt. Sie bietet einen globalen Namensraum für alle Daten mit Unterstützung für mehrere Front-End-Protokolle wie NFS und GPUDirect, um einen nahtlosen Zugriff und Hochgeschwindigkeitsabruf zu gewährleisten. Die Architektur einer solchen Plattform ermöglicht einen effizienten Multiprotokoll-Zugriff für die Speicherung strukturierter und unstrukturierter Daten und ist damit ideal für verschiedene KI-Workloads.
Eines der herausragenden Merkmale einer KI-geeigneten Datenplattform ist die ähnlichkeitsbasierte Datenreduktion. Durch den Einsatz von feinkörniger Datendeduplizierung kann diese Funktion den Speicherbedarf von KI-Datensätzen erheblich reduzieren. Dies senkt die Speicherkosten und beschleunigt die Datenverarbeitung, indem die in jeder Phase der Datenpipeline benötigten Daten minimiert werden.
KI-Projekte erfordern häufig Skalierbarkeit, um die wachsenden Datensätze und steigenden Rechenanforderungen zu bewältigen. Die Disaggregated, Shared Everything, DASE-Architektur ist so konzipiert, dass sie einfach skaliert werden kann, so dass Speicher- und Verarbeitungsfunktionen unabhängig voneinander erweitert werden können und Leistungs-, Verfügbarkeits- und Kapazitätsbeschränkungen wegfallen. KI-Modelle lassen sich somit auf größeren Datensätzen trainieren, ohne die Leistung zu beeinträchtigen.
Eine KI-fähige Datenplattform umfasst eine Datenbank, Spark-Konnektoren, Apache Arrow-Unterstützung und ein Python SDK, um eine flexible Plattform für die schnelle, iterative Entwicklung von Datenpipelines bereitzustellen. Robuste Sicherheitsfunktionen – wie Mandantenfähigkeit, Verschlüsselung, vollständiges Auditing, unveränderliche Snapshots und Metadaten-Tagging – ermöglichen ein überzeugendes Ökosystem für die generative KI-Welt.
Der Kreis schließt sich
Im Bereich der KI sind die Qualität und Effizienz der Datenpipelines von entscheidender Bedeutung. In jeder Phase der Datenpipeline muss eine für KI geeignete Datenplattform hochleistungsfähige Speicherfunktionen bieten, die einen nahtlosen Zugriff und Abruf von Daten ermöglichen, die für die Entwicklung und das Training von KI-Modellen wichtig sind. Plattformfunktionen wie die ähnlichkeitsbasierte Datenreduktion gewährleisten eine optimale Ressourcennutzung für eine schnellere Verarbeitung und maximieren die Effizienz und Geschwindigkeit von KI-Workflows in allen Phasen einer Datenpipeline.
Darüber hinaus zeichnet sich eine moderne KI-fähige Plattform durch eine nahtlose Skalierbarkeit über DASE aus, die eine mühelose Erweiterung der Dateninfrastruktur in Übereinstimmung mit den sich entwickelnden Bedürfnissen und Anforderungen von KI-Projekten ermöglicht. Diese Skalierbarkeit ermöglicht es Datenwissenschaftlern, exponentiell wachsende Datensätze zu verwalten und zu verarbeiten, ohne die Leistung oder Zuverlässigkeit zu beeinträchtigen.
Wichtig ist auch eine verbesserte Data Governance, die sicherstellt, dass KI-Experten während des gesamten Verarbeitungszyklus eine strenge Kontrolle und Compliance über ihre Daten aufrechterhalten können. Durch die Einhaltung robuster Data-Governance-Praktiken versetzt die Datenplattform Unternehmen in die Lage, Datenintegrität, Sicherheit und die Compliance, also Einhaltung gesetzlicher Vorschriften, zu gewährleisten und so das Vertrauen und die Zuverlässigkeit bei KI-gesteuerten Entscheidungen zu fördern.“
(1) Bildquelle: VAST Data.
Ein Fazit: Zusammenfassend lässt sich sagen, dass eine moderne Datenplattform, ob sie nun für die Entwicklung von LLMs oder die Erforschung anderer KI-Anwendungen dienen soll, ein umfangreiches Paket an Tools und Funktionen bieten muss, die den komplexen Anforderungen der KI-Entwicklung und -Implementierung gerecht werden.
Querverweis:
Unser Beitrag > Transformatives Potenzial von KI effektiv nutzen: Boomi veröffentlicht strategisches Playbook
Unser Blogpost > KI und GPU-Workload-Anforderungen: Storage mit HBM Memory im KI-Daten-Lebenszyklus
Unser Beitrag > Large Language Models (LLMs) und die Herausforderungen an die Speicherumgebung