VAST Catalog: vereinfachtes Datenmanagement von KI und Big-Data-Analytics Anwendungen

Starnberg, 10. März 2023 - VAST Data zeigt integrierten Metadatenindex, der das Dateisystem wie eine Datenbank behandelt; KI und Big-Data-Analytics-Apps-/User profitieren...

Zur Ankündigung: Datenmanagement wird in Zeiten von Big-Data-Analytik, maschinellem Lernen und künstlicher Intelligenz zur Herausforderung. VAST Data hat die derzeit datenintensivsten Anwendungen im Blick und unterstützt Unternehmen dabei, moderne Anwendungsszenarien zu realisieren. Die hierbei zum Einsatz kommende DASE-Architektur (Disaggregated Shared Everything) des Speicherspezialisten lässt sich laut Entwickler auf Exabytes an Kapazität skalieren – für Milliarden von Dateien und Objekten. Mit dem hohen Maß an Skalierung geht jedoch stets die Herausforderung einher, die Daten mit vielseitiger Funktionalität verwalten zu können. Ein Beispiel: Wie können die Benutzer in einem System, das Milliarden von Dateien und Objekten in 1 PB an Daten beherbergt, die gesuchten Informationen leicht finden? Um den Anforderungen der Unternehmen entgegenzukommen, hat VAST nun einen integrierten Metadatenindex entwickelt, den VAST Catalog.

Unternehmen sollen damit Daten einfach suchen und finden können – in einem Bruchteil der Zeit, die sie mittels herkömmlicher Methoden benötigen würden. Noch interessanter ist es laut Anbieter jedoch, dass die Technologie es Benutzern und Anwendungen ermöglicht, das Dateisystem wie eine Datenbank zu behandeln. Next gen. KI- und ML-Anwendungen sollen damit das Dateisystem als selbstreferenziellen Feature-Store nutzen.

Der VAST Catalog ist die Grundlage für eine semantische Schicht: Diese Schicht, die auf Dateien und Objekten aufbaut, macht es laut Anbieter überflüssig, separate Systeme zu erstellen oder zu pflegen. Jetzt können Fachabteilungen und Experten mit Hilfe von Standardsuchbegriffen schnell Daten finden und darauf zugreifen. Hier einige Beispiele, wie Unternehmen den VAST Catalog nutzen können:

 

1. KI/ML-Feature-Store

KI- und ML-Modelle müssen mit Daten trainiert werden, und zwar mit zunehmend großen Datenmengen. Bei der Verarbeitung und Analyse der Daten werden Merkmale und Attribute zu jedem einzelnen Datenelement generiert. Diese Merkmale gilt es irgendwo zu speichern, wo sie sich schnell und einfach abrufen lassen. In der Vergangenheit haben Datenanalysten und ML-Ops-Ingenieure separate Datenbanken oder Indizes geführt, in denen sie die entsprechenden Informationen speicherten. Häufig enthalten diese separaten Feature-Stores Verweise oder Zeiger zurück zu den ursprünglichen Dateien oder Objekten. Es ist wichtig, diese Abstammung intakt zu halten, da es nötig ist, die genauen Daten zu finden, die zur Generierung der Merkmale verwendet wurden, die wiederum die Modellentwicklung beeinflussen.

Wenn der Feature-Store und der Datenspeicher getrennte Einheiten sind, kann es eine Herausforderung sein, sicherzustellen, dass diese Abstammung erhalten bleibt. Das bedeutet auch, dass es zwei „Quellen der Wahrheit“ geben kann, was zu Divergenzen, doppelten Daten und der Schwierigkeit führen kann, zu „beweisen“, dass sie miteinander übereinstimmen.

Mit dem VAST Catalog können Datenanalysten und ML-Ops-Experten Objekt- und Dateisystem-Metadaten direkt nutzen, um Merkmale und Attribute direkt in den Objektspeicher einzubetten. Hierbei verwenden sie S3-Tags und S3-Objekt-Metadaten, wobei sie wissen, dass diese indiziert und für Abfragen bereit sind. Das bedeutet auch, dass ihre Anwendungen den Objektspeicher wie einen Feature-Store behandeln können.

 

1. Filesystem-Housekeeping

Einige Kunden von VAST arbeiten nach diesen Angaben mit vielen PBs – auch in der Größenordnung von mehreren Hundert PBs – geschäftskritischer unstrukturierter Daten. In den meisten Fällen nutzen sie VAST als Konsolidierungspunkt für eine Reihe von zuvor disparaten Workloads, die von Scratch zu Homedirs, von Data Lakes bis hin zu Backup-Repositorys reichen. Die Zusammenführung all dieser Daten bietet erhebliche Effizienzvorteile, sowohl in Bezug auf die Kosten als auch auf die Reduzierung des Anwendungs- und Verwaltungsaufwands.

Eine Herausforderung bleibt jedoch bestehen: Wie können die Benutzer in einem System, das Milliarden von Dateien und Objekten in 1 PB an Daten beherbergt, die gesuchten Informationen leicht finden? Wie können Administratoren verstehen, wie ihre Kapazität genutzt wird, und sicherstellen, dass sie ihre Benutzer weiterhin effektiv bedienen können?

Natürlich könnten Unternehmen ein Produkt eines Drittanbieters oder eine Open-Source-Anwendung verwenden, um ihr Dateisystem zu crawlen und zu indizieren, aber das bringt eine Reihe neuer Herausforderungen mit sich: Das Scannen der Dateisysteme nimmt viel Zeit in Anspruch – in manchen Fällen mehrere Tage. Das bedeutet, dass der Katalog nicht immer mit dem aktuellen Zustand des Dateisystems synchronisiert ist. Das Scannen kann zudem das Dateisystem belasten, was die Performance von Produktionsanwendungen und Benutzern beeinträchtigen kann. Produkte von Drittanbietern stellen zudem eine zusätzliche Infrastruktur dar, die verwaltet und gewartet werden muss, ganz zu schweigen von den zusätzlichen Kosten für Server und Software. Stattdessen bietet laut Entwickler ein Katalog, der alle Fragen über den Inhalt des Dateisystems beantworten kann und immer auf dem neuesten Stand ist, viele Vorteile und Nutzungsmöglichkeiten:

 

Dateien finden

Benutzer können im VAST Catalog nach allen Dateien, die älter als 90 Tage und größer als 10 GB sind und sich im Verzeichnis /projects befinden, suchen. Sie können alle Dateien finden, die seit letzter Woche von einem bestimmten Benutzer erstellt wurden oder nach allen Objekten mit dem Tag processed, bei denen value = false ist, suchen.

 

Kapazitäts-Reporting

Ebenso lässt sich eine Rangliste der Benutzer erstellen, die die meiste Kapazität in bestimmten Ordnern/Projekten verbrauchen, wie zum Beispiel: die Datentypen im System verstehen, indem Benutzer die Kapazität nach Dateierweiterung einstufen.
 

VAST Catalog Backing Store

Jeder Metadatenkatalog muss sich auf eine Art von Datenbank stützen, um alle Informationen über Dateien und Objekte zu speichern. Eine Reihe von externen Systemen, die heute im Einsatz sind, verwenden Open-Source-Technologien wie mysql, postgres, cassandra oder elastic. VAST zog die Verwendung solcher Mechanismen in Betracht, wusste aber, dass sie in Bezug auf Skalierbarkeit und Leistung irgendwann zu einem Engpass werden würden. Es galt außerdem, einen Weg zu finden, sie zu paketieren und zu verwalten, was den eigenen Verwaltungsaufwand erhöht. Daher hat VAST seine eigene Datenbank entwickelt, die wie alle anderen Lösungen auf der VAST-Plattform auf Skalierbarkeit, Leistung und Benutzerfreundlichkeit ausgelegt ist. Beim VAST Catalog soll keinerlei Verwaltung oder Einrichtung erforderlich sein; einUpgrade auf die neueste VAST-Softwareversion (4.6) genügt demnach, um die Funktion nutzen zu können.

 

Ein Blick auf die vom Katalog verwendete Datenbanktabelle veranschaulicht die Metadatenattribute, die extrahiert werden: Hierzu gehört ein Datensatz (Row) für jede Datei oder jedes Objekt. Jedes Metadatenattribut von Interesse ist eine eigene Spalte. Komplexe Metadatenattribute (wie S3-Tags) werden in „Map“-Spalten gespeichert. Für häufig verwendete Tags und Objekt-Metadaten lassen sich indizierte Felder spontan hinzufügen. Zu beachten ist, dass die zugrundeliegenden VAST DB-Tabellen eine Schemaentwicklung unterstützen, was bedeutet, dass neue Spalten in der Zukunft hinzugefügt werden können. Ein möglicher zukünftiger Anwendungsfall ist das Scrapen von Headern für gängige Dateitypen und deren Speicherung im Index.

 

Snapshot- und Replikations-Engine

Um die Tabelle auf dem neuesten Stand zu halten, ist eine skalierbare Engine erforderlich, die Änderungen erkennen und einfügen kann, ohne die Systemperformance zu beeinträchtigen. Hierbei kommt eine Kernfunktion von VAST, die Snapshot- und Replikations-Engine zum Einsatz. Basierend auf einem vom Kunden definierten Zeitplan (der bis zu 15 Sekunden betragen kann) erstellt VAST einen Snapshot im Stammverzeichnis des Dateisystems und eine Änderungsliste, die in die Tabelle eingefügt wird. Dies alles geschieht ohne Benutzereingriff und erfordert keine zusätzliche Verwaltung oder Überwachung.

Da VAST zu diesem Zweck seine Snapshot-Technologie verwendet, erstellt VAST auch die Snapshots des Katalogs selbst. Das bedeutet, dass VAST über historische Versionen des Katalogs verfügt, die für eine Reihe von Anwendungsfällen verwendet werden können, wie z. B. die Abfrage des VAST Catalog zu bestimmten Zeitpunkten zum Vergleich.

Schnittstelle zum VAST Catalog- Da VAST eine Vielzahl von Kunden bedient, die unterschiedliche Präferenzen bei der Nutzung ihrer Daten haben, wollte der Storage-Spezialist nach eigenen Angaben alle Möglichkeiten abdecken, wie Kunden mit dem VAST Catalog interagieren können.

 

WebUI- VAST bietet nach eigenen Angaben eine intuitive, reaktionsschnelle Benutzeroberfläche, die es Administratoren ermöglicht, auf einfache Weise Suchvorgänge und Abfragen unter Verwendung der oben genannten Attribute durchzuführen, um genau das zu finden, wonach sie suchen. Die Facettierung der Ergebnisse ist einfach und erfordert nur einige kurze Klicks. Die Ergebnisse werden innerhalb von Sekunden angezeigt, selbst wenn das Dateisystem mit Millionen oder sogar Milliarden von Dateien und Objekten gefüllt ist.

CLI- Die CLI für Power-User CLI bietet die dieselben Funktionen wie die Benutzeroberfläche, erlaubt aber auch das Pipelining von Befehlen, um eine bessere Sortierung und Aggregation zu erreichen. VAST bietet  zwei APIs für die Interaktion mit dem Katalog: Die standardmäßige RESTful-API steht für alle administrativen Aspekte zur Verfügung und kann auch zur Durchführung von Abfragen im VAST Catalog dienen. Ebenso steht ein neues PythonSDK bereit, das eine direkte Interaktion mit der zugrundeliegenden Datenbank ermöglicht, in der der VAST Catalog gespeichert ist. Dadurch lassen sich anspruchsvollere Anwendungen erstellen und in KI- und ML-Pipelines integrieren.

Abfrage-Engines- VAST stellt den Katalog sowie benutzerdefinierte Datenbanktabellen auch über einige der beliebtesten Open-Source-Query-Engines zur Verfügung. Derzeit ist Unterstützung für ApacheSpark und Trino durch die Verwendung eines Storage-Connectors gegeben, der auf diesen Engines zum Einsatz kommt. Eine Abfrage-Engine bietet einige zusätzliche Vorteile. Die Verwendung des SQL-Dialekts zur Erstellung von Abfragen ermöglicht eine hohe Leistungsfähigkeit und Flexibilität. Bei Verwendung einer verteilten Abfrage-Engine lässt sich eine verbesserte Abfrageleistung erzielen. Ebenso ist eine bessere Unterstützung für Aggregationsfunktionen gegeben.

 

 

VAST Catalog (Bildquelle: VAST Data)

 

Querverweis:

Unser Beitrag > Verteilte Filesysteme & Objektspeicher: Kommentar zum Gartner Magic Quadrant 2022 Update

Unser Blogpost > Storage für KI: Welche Speichertechnologien sind dafür geeignet?

Unser Beitrag > VAST Data All-Flash Plattform beschleunigt Deep Learning Algorithmen zur Brustkrebs-Erkennung