Frankfurt/M., Starnberg, 01. Aug. 2024 - Data Lake Abfragen drei- bis fünfmal schneller ausführen; neue Smart Caching Funktion kann unnötige Tabellenscans verhindern…
Zur Ankündigung: Nach der im März dieses Jahres von Dell Technologies veröffentlichten komplett integrierte Datenplattform erweitert der Anbieter jetzt sein Dell Data Lakehouse um die sog. „Warp Speed“-Funktionalität. Warp Speed ist eine neue Funktion im Dell Data Lakehouse, die selbstständig Abfragemuster erlernt und häufig genutzte Daten identifiziert, um optimale Indizes und Caches zu erstellen, während selten genutzte Daten dort bleiben, wo sie sind. Das neue Feature kann damit Abfragen von Daten auf S3-kompatiblen Storage-Systemen erheblich beschleunigen. Dahinter verbergen sich Optimierungstechnologien wie autonome Indizierung und Smart Caching.
Dell Data Lakehouse-Architektur
Das Data Lakehouse verfügt über wichtige Komponenten, um die Datenanalyseplattform eines Unternehmens zu modernisieren. Die Rechenleistung basiert auf PowerEdge, das für Data-Lakehouse-Workloads optimiert ist. Die auf Kubernetes basierende Data Lakehouse System Software soll die gesamte Plattform schlüsselfertig machen und vereinfacht die Bereitstellung sowie den laufenden Betrieb. Die Analyse-Engine, die auf Starburst basiert**, ermöglicht es Unternehmen, alle ihre Daten gemeinsam abzufragen, ohne sie verschieben zu müssen. Schließlich reduziert diese Dell-Lösung die Datenbewegungen und kann KI- und Analyse-Workflows durch die Nutzung von Object Storage und offenen Tabellenformaten wie Iceberg verbessern.
**Unsere Anmerkung zur Ankündigung: Das neueste Angebot von Dell repräsentiert eine integrierte Datenplattform, die auf Dell-Hardware mit einer Full-Service-Software-Suite aufgebaut ist (s.a. Abb. unten). Durch den Einsatz der (open source) Starburst Query Engine werden die Datenprozesse rationalisiert. ETL entfällt, so dass Betreiber schnell auf alle ihre Daten zugreifen können, ohne diese verschieben zu müssen, um die Daten für KI- und Analysezwecke zu ermitteln, abzufragen und zu verarbeiten. Das Dell Data Lakehouse mit der Starburst-basierten Data Analytics Engine ermöglicht es somit Unternehmen, den Wert ihres Datenbestands zu vereinheitlichen und zu optimieren, über lokale, hybride und Multi-Cloud-Datenquellen hinweg.
Bildquelle: Dell Technologies Data Lakehouse.
Warp Speed erlernt autonom Abfragemuster und identifiziert häufig verwendete Daten. So ist es in der Lage, optimierte Indizes und Caches mit oft abgefragten Daten zu erstellen. Selten genutzte Daten verbleiben dabei in herkömmlichen Indizes. Auf diese Weise steigert Warp Speed die Abfrageleistung, ohne die Kosten in exorbitante Höhen zu treiben. Das Feature soll es Clustersystemen ermöglichen können, Data-Lake-Abfragen drei- bis fünfmal schneller auszuführen, ohne dass Endnutzer die initiale Abfrage in irgendeiner Weise verändern müssen. Ferner reduziert Warp Speed die Clustergröße um bis zu 40 Prozent. Unternehmen können mehr Abfragen auf großen Clustern oder das gleiche Volumen auf kleineren Clustern durchführen – je nachdem was sich besser für den jeweiligen Anwendungsfall eignet.
Dell Data Lakehouse, das auf S3-kompatiblen Storage-Systemen basiert, arbeitet mit einer Kombination verschiedener Beschleunigungstechnologien. Auf diese Weise erreicht es laut Entwickler eine derart hohe Leistungssteigerung. Weitere Neuerungen betreffen neue und verbesserte Konnektoren (siehe weiter unten).
Die autonome Indizierung erstellt auf sinnvolle Weise Indexarten wie Bitmap, Dictionary oder Tree, die auf jeden Datenblock zugeschnitten sind. Auf diese Weise beschleunigt Warp Speed Datenbankprozesse wie Join-Vorgänge, das Filtern oder Suchen. Die jeweiligen Indizes speichert das Feature auf einem SSD-Laufwerk in den Rechenknoten, um einen schnellen Zugriff zu ermöglichen.
Zudem nutzt Warp Speed sogenanntes Smart Caching: Dabei handelt es sich um eine bestimmte Art der SSD-Zwischenspeicherung, bei der Daten aus Split-Vorgängen und zugehörige Metadaten als Zeilengruppe gespeichert werden. Das Speichern findet in einem proprietären Spaltenblock-Caching-Format statt. Diese Art der Zwischenspeicherung optimiert die Leistung auf Basis der Häufigkeit der Datennutzung. Smart Caching verhindert unnötige Tabellenscans und ermöglicht die Wiederverwendung von Daten unterschiedlicher Abfragen, was die Kosten für eine neuerliche Verarbeitung spart.
Einführung eines Neo4j-Graphdatenbank-Connectors (in öffentlicher Vorschau) und des verbesserten Snowflake-Connectors für effizientere Abfragen (der parallele Konnektor für Snowflake wurde laut Anbieter bereits früher eingeführt, um den inzwischen veralteten verteilten Snowflake-Konnektor zu ersetzen.
Verbesserte Anbindungsmöglichkeit zu beliebten Quellen wie Iceberg, Delta Lake und Hive sowie Db2, Netezza, RedShift, SAP HANA, Snowflake, SQL Server, Synapse und Teradata.
Warp Speed ist nach Informationen des Anbieters ab sofort für alle Nutzer des Dell Data Lakehouse verfügbar. Es wird auf allen Data-Lake-Systemen unterstützt, die einen S3-kompatiblen Storage von Dell Technologies nutzen. Eine Änderung der Softwarelizenz ist nicht nötig – das neue Feature ist Teil des Portfolios, ohne zusätzliche Kosten. Einzig die Konfiguration der Rechenknoten wird geändert, um SSD-Laufwerke einzubinden, die auf ihre Kompatibilität zur Unterstützung des Warp Speed Index und Caches getestet wurden.
Fazit: Dell Data Lakehouse mit Warp Speed hilft Unternehmen dabei, schneller und effizienter Erkenntnisse aus ihren Daten zu gewinnen und schöpft das volle Potenzial von Dell Data Lakehouse aus.
Querverweis:
Unser Beitrag > KI und Graphdatenbanken: Integration von Neo4j Graph Analytics in Snowflake AI Data Cloud
Unser Beitrag > Wann sind NoSQL-Datenbanken relationalen Datenbankmanagement-Systemen überlegen?
Unser Blogpost mit Podcast > Flash oder Festplatte für KI-Projekte? Technologisch und wirtschaftlich bestimmende Faktoren.