Mit dem Einsatz von Apache Kafka und Delta Lake adressieren Confluent und Databricks das Problem isolierter Datensilos in Unternehmen; ein mitentscheidender Faktor für KI-Innovationen in großem Maßstab…
Zum Hintergrund
Confluent, Inc. (Daten-Streaming) und Databricks (AI Data-Intelligence-Plattform) haben ihre Kooperation bei der Integration von Echtzeitdaten für die KI-gestützte Entscheidungsfindung vorgestellt.** Die Integrationen zwischen Confluents Tableflow und Databricks Unity Catalog sollen dazu eine nahtlose Datensteuerung- und Kontrolle über operative und analytische Systeme hinweg sicherstellen.
Herausforderung „isolierte Systeme“
KI-Anwendungen benötigen zuverlässige Echtzeitdaten, damit sie fundierte Entscheidungen treffen und das Kundenerlebnis optimieren können. Eine der größten Herausforderungen innerhalb der IT-Infrastruktur ist nach den Erfahrungen von Databricks und Confluent bislang „die Kluft zwischen Betriebssystemen, die Daten erzeugen und den Analyse-Systemen, die sie auswerten“. Der Grund: Da die Systeme in getrennten Silos existieren, arbeiten daran jeweils verschiedene Teams mit unterschiedlichen Tools und Prozessen. Dadurch können Teams die Echtzeitdaten nicht sinnvoll mit anderen Systemen verknüpfen, was KI-Innovationen für fortgeschrittene Anwendungsfälle praktisch unmöglich macht.
Echtzeitdaten KI-ready
Die bidirektionale Integration von Confluents Tableflow mit Delta Lake (1) und dem Unity Catalog von Databricks – einer offene Governance-Lösung für Daten und KI (2) – stellt dazu laut Enwickler konsistente vertrauenswürdige Echtzeitdaten über operationale und analytische Systeme hinweg bereit, die leicht auffindbar und sicher sind.
(1) Delta Lake ist eine von Databricks entwickelte formatunabhängige Speicherebene, die ursprünglich für Streaming-Anwendungsfälle mit schnellen Schreibvorgängen konzipiert wurde. Inzwischen ist es das am weitesten verbreitete Lakehouse-Format: Mit einer täglichen Datenverarbeitung von über 10 Exabyte hat es sich laut dem Unternehmen in großem Maßstab bewährt. Durch die Kombination von Tableflow und Delta Lake sind Betriebsdaten nun sim Delta-Lake-Ökosystem verfügbar. Kunden von Confluent und Databricks können Engines oder KI-Tools wie Apache Spark, Trino, Polars, DuckDB und Daft auf ihre Daten in Unity Catalog anwenden.
(2) Benutzerdefinierte Integrationen zwischen Tableflow und dem Unity Catalog von Databricks sorgen dafür, dass Metadaten automatisch zu den ausgetauschten Daten ergänzt werden. Dadurch sind operationale Daten für Data-Science- und Analytics-Teams in Databricks genauso so zugänglich und nutzbar wie analytische Daten für Anwendungsentickler und Streaming Engineers in Confluent. Die Stream-Governance-Suite von Confluent wird zudem vorgelagerte Governance und Metadaten bereitstellen. Dies verbessert Governance, macht End-to-End-Nachverfolgbarkeit von Streams möglich und optimiert das automatisierte Monitoring der Datenqualität in Unity Catalog.
Abb: Bridging the Data Divide (Bildquelle: Confluent and Databricks Blogpost).
** Quelle / externer Link zum Blogpost > //confluent.io/blog/confluent-and-databricks/
Anwenderkommentar Dr. Dora Simroth, Head of Data and AI Engineering bei E.ON Digital Technology: „Die räumliche Nähe zur Quelle ist nicht nur im Energiesektor, sondern auch im Datenbereich ein entscheidender Faktor. Confluent und Databricks sind bereits zentrale Technologien in unserem Daten- und KI-Stack. Dank dieser Integrationen können unsere Fachkräfte sowohl auf betrieblicher als auch auf analytischer Ebene mit einer einzigen, klar definierten und aktuellen Datenquelle arbeiten. Mit der Partnerschaft zwischen Confluent und Databricks können wir daten- und modellbasierte digitale Lösungen schneller entwickeln.“
Fazit der Ankündigung
Mit den neuen Funktionen können operationale Daten von Confluent in Databricks integriert werden, während die Daten aus Databricks unternehmensweit für alle Verarbeitungsprozesse frei zugänglich sind. Die Topics, die von KI-Anwendungen genutzt werden, und die Tabellen, mit denen Datenanalysten arbeiten, bieten eine einheitliche Sicht auf dieselben Echtzeitdaten. Die nahtlose Integration von Betriebsanwendungen, Analysen und Governance ist entscheidend für KI-Innovationen in großem Maßstab.
Querverweis:
Unser Beitrag > Energieeffiziente Big Data Softwareentwicklung mit Green Coding und Data Streaming
Unser Beitrag > Neo4j-Graphdatenbank Parallel Runtime ermöglicht bis zu 100-mal höhere Analytik-Performance
Unser Beitrag > Schweizer Privatbank Lombard Odier modernisiert zentrale IT mit MongoDB und KI-gestützter Code Migration