Talend unterstützt Open-Source-Projekt "Delta Lake" von Databricks

Redwood City (CA), Starnberg, 15. Mai 2019 - Anbieter baut seine Beziehung zu Databricks aus, um Unternehmen bei der Cloudverarbeitung von Daten zu unterstützen...

Zum Hintergrund: Talend wird das von Databricks angekündigte neue Open-Source-Projekt Delta Lake unterstützen. Talend Cloud ist eine hochgradig skalierbare Unified Integration Platform-as-a-Service (iPaaS) und integriert nativ Daten aus beliebigen Quellen in und aus Delta Lake. Talend wird das von Databricks angekündigte neue Open-Source-Projekt Delta Lake unterstützen. Talend Cloud ist eine hochgradig skalierbare Unified Integration Platform-as-a-Service (iPaaS) und integriert nativ Daten aus beliebigen Quellen in und aus Delta Lake. Hierbei stellt Talend eine vereinheitlichte Umgebung für Batch- und Streaming-Daten bereit und ebnet so den Weg für analytische und operative Anwendungen.

Talend Cloud integriert Daten von und in Delta Lake und nutzt seine ACID-Compliance-Funktionen, Time Travel (Datenversionierung) und Unified Processing für die Batch- und Streaming-Bestände. Der Anbieter liefert nicht nur eine Anbindung an eine breite Palette von Datenquellen, einschließlich populärer SaaS-Anwendungen und Cloudplattformen, sondern plant Delta Lake-Anwendern auch Datenqualitäts- und Governance-Funktionen zur Verfügung zu stellen. Diese unterstützen maschinelles Lernen und erweiterte Analysen und nutzen die Apache Spark-Technologie, die Delta Lake zugrunde liegt, aus. Talends Unterstützung der Spark-Konnektoren ist für Delta Lake danach in verschiedener Hinsicht von Vorteil:

  • Höhere Datenkonsistenz durch die Nutzung der nativen Datenqualitätsfunktionen von Talend mit Delta Lake ACID-Transaktionen

  • Einfache Rollbacks und erneute Verarbeitung aufgrund der Integration von Talend in Delta Lake Time Travel und Datenversionierungsfunktionen

  • Umfassende Verarbeitung riesiger Datenvolumina dank der Unterstützung der Scale-Out-Architektur von Delta Lake durch Talend.

Delta Lake soll die Zuverlässigkeit von Data Lakes erheblich steigern, ermöglicht es doch die Verwaltung von Transaktionen sowohl übergreifend für Streaming- und Batch-Daten als auch über viele gleichzeitige Reader und Writer hinweg. Delta Lake funktioniert mit jedem vorhandenen Data Lake, d.h. Unternehmen können bereits mit minimalen Änderungen an ihren Datenarchitekturen einen Zuverlässigkeitsgewinn bei ihren Daten erzielen können. Aus diesem Grund ist es laut Entwickler vollkommen unproblematisch, wenn Developer hunderte von Anwendungen gleichzeitig beträchtliche Datenmengen hochladen oder abfragen lassen.


Abb. 1: Übersicht des Open-Source-Projektes Delta Lake (Bildquelle: Delta Lake)


Talend Cloud bietet eine komplette Anwendungssuite für Datenintegration und Datenintegrität, die Unternehmen beim Erfassen, Verwalten, Transformieren und Teilen von Daten unterstützt. Über eine einheitliche Oberfläche können Unternehmen dank Daten- und Big-Data-Integration sowie Datenqualitätsfunktionen belastbare und kontrollierte Daten unternehmensweit bereitstellen. Talend Cloud ist sowohl mit Azure Databricks als auch mit Databricks für AWS integriert.

Kommentare: „Die Frage der Zuverlässigkeit von Daten in Data Lakes hat Unternehmen bislang daran gehindert, das Potenzial ihrer Daten voll auszuschöpfen“, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Als Open-Source-Projekt richtet sich Delta Lake direkt an die Community. Es ist eine ausgereifte Umgebung, die buchstäblich dafür prädestiniert ist, Lösungen zu entwickeln, die die Herausforderungen im Bereich der Datenqualität bei Data Lakes adressieren…“ „Talends Unterstützung für Delta Lake ist als erweiterte Anwendung unserer Expertise bei der Vereinheitlichung von Batch- und Streaming-Daten nur konsequent“, meint dazu Talend-CEO Mike Tuchen.