Data Lakes: Wie sie funktionieren und Unternehmen von ihnen profitieren

München, Starnberg, 19. April 2017 - Die Verwendung eines Data Lakes soll Unternehmen die datengestützte Arbeit vereinfachen. Ein Gastbeitrag...

Zum Hintergrund: Egal ob Mittelständler oder Großkonzern: Daten spielen für Unternehmen eine immer größere Rolle. Der sogenannte Data Lake stellt einen modernen Datenspeicher dar, um große Datenmengen zu sammeln und für den unternehmensweiten Gebrauch schnell zur Verfügung zu stellen. Die zu verarbeitenden Daten stammen dabei aus unternehmensinternen Systemen wie SAP oder Oracle und können mithilfe von speziellen Softwarelösungen in einem Data Lake gesammelt werden. Verfügbar ist dieser entweder on-premise in einem Hadoop Cluster oder in der Cloud.


Zum Gastbeitrag von Thomas Steinborn, Sr. Director Product Management bei Talend Deutschland GmbH (1)


„Die Daten, die in Unternehmen aller Branchen aufkommen, stammen aus den verschiedensten Quellen und sind auch in ihrem Format sehr heterogen. Umso wichtiger ist es, dass sie schnell und übersichtlich aufbereitet werden. Die Verwendung eines Data Lakes soll Unternehmen die datengestützte Arbeit vereinfachen. Denn das moderne Speicherkonzept ermöglicht es, große Datenmengen zu archivieren und anschließend schnell und korrekt aufbereitet zur Verfügung zu stellen.

Die zu verarbeitenden Daten stammen dabei aus unternehmensinternen Systemen wie SAP oder Oracle und können mithilfe von speziellen Softwarelösungen in einem Data Lake gesammelt werden. Was viele nicht wissen: Die Einrichtung eines Data Lakes ist zwar relativ komplex und zeitintensiv, aber trotzdem nicht zwangsläufig mit hohen Kosten verbunden. Denn für die Speicherung der riesigen Datenmengen in Hadoop muss keine hochspezialisierte Hardware im Einsatz sein. Es kann auch eine kostengünstige Standardhardware verwendet werden.

Erwartungen und Ziele klar definieren

  • Bevor sich Unternehmen für die Implementierung eines Data Lakes entscheiden, ist es wichtig, die Grundgegebenheiten und auch die Ziele, die mit der neuen Art der Datenspeicherung und –bereitstellung erreicht werden sollen, genau zu definieren. Hierfür ist zum Beispiel entscheidend, aus welchen Datenquellen das Unternehmen Daten bezieht, um diese später automatisiert in den Data Lake fließen zu lassen. Buchhaltungsabteilungen importieren etwa Transaktions- und Finanzdaten, Buchungen und Bestände – also Daten, die im Rahmen verschiedener Geschäftsprozesse entstehen und deshalb auch aus unterschiedlichen Datenquellen stammen. Wichtig ist hierbei immer, dass Daten beim Ablegen nicht modifiziert werden. Denn nur so ist stets Nachvollziehbarkeit gewährleistet. Sobald eine konkrete geschäftliche Fragestellung formuliert ist, kann der Data Lake dann nach relevanten Daten durchsucht und ein kleinerer, spezifischer Datensatz erstellt werden. Dieser lässt sich anschließend zügig analysieren, sodass schnell Antworten und Ergebnisse vorliegen.

Governance-Richtlinien sind ein Muss

  • Gerade bei großen Datenmengen ist es wichtig, den Überblick zu behalten. Aber: Wie so oft, bringen neue Möglichkeiten auch neue Herausforderungen mit sich. Mehr Bewegungsspielraum erschwert gleichzeitig die Governance. Das bedeutet, dass auf das Thema Sicherheit und Datenschutz ein besonderes Augenmerk gerichtet werden muss. Hierzu sollten Unternehmen Prozesse nachvollziehbar und transparent dokumentieren und für die Maskierung der Daten sorgen. Hinzukommt, dass durch Self-Service-Tools Unternehmensmitarbeiter aus verschiedenen Fachbereichen Zugriff auf den Data Lake haben und nicht nur IT-Mitarbeiter. Das hat den entscheidenden Vorteil, dass Mitarbeiter aller Unternehmensabteilungen Daten verwenden können, ohne den Umweg über die IT-Abteilungen gehen zu müssen.

  • Deshalb gilt es, Zugriffsberechtigungen genau festzulegen. Denn ein Mitarbeiter aus der Personalabteilung darf beispielsweise die Gehälter aller Angestellten einsehen, die Mitarbeiter aus den einzelnen Fachabteilungen jedoch nicht. Um diese Beschränkungen klar zu definieren, brauchen Unternehmen Governance-Richtlinien und Zugriffsrechte für den Data Lake. Darin kann ganz konkret festgelegt werden, wer auf welche Daten zugreifen und welche Inhalte einsehen darf.

Abb. 1: Bildquelle Talend, 2017

Das Daten-Einmaleins im Data Lake

  • Der Data Lake bietet Unternehmen die Möglichkeit, ihre Daten und Informationen effektiver zu nutzen. In Kombination mit der richtigen Datenintegrationssoftware ermöglicht es dieses Konzept, die richtigen Daten zur richtigen Zeit zur Verfügung zu haben, beziehungsweise sie schnell zu bekommen. So können zum Beispiel Beziehungen oder Prozesse, die sich aus der Datensammlung ableiten lassen, visualisiert werden. In operativen Unternehmensbereichen, wie bei automatisierten Entscheidungen oder maschinellem Lernen, werden die benötigten Daten direkt und unverändert durch den Data Lake zur Verfügung gestellt. Erst wenn klar ist, welche Daten benötigt werden, werden diese herausgefiltert und dann entsprechend gesondert bereinigt, aufbereitet und analysiert.

  • Damit datengestützte Entscheidungen möglich werden, ist jedoch eine hohe Qualität der Daten essentiell, da alte oder unvollständige Daten die Ergebnisse verfälschen können. Deshalb sind vorhandene Daten zu bereinigen, indem sie mit Stammdaten ergänzt werden. Fehlt bei Adressaten etwa die Postleitzahl, kann diese automatisch durch die angegebene Stadt und Straße ergänzt werden.

Vom Data Warehouse zum Data Lake

  • Der große Unterschied zwischen einem herkömmlichen Data Warehouse und dem modernen Data Lake besteht letztlich darin, dass ein Data Lake unterschiedliche Datentypen aus vielen verschiedenen Quellen in ihrer nativen Form speichert und diese erst dann aufbereitet, wenn sie gebraucht werden. Ein Data Warehouse hingegen ist eine zentrale Datenbank, die eine umfassende Sicht auf heterogene und verteilte Datenbestände ermöglicht, indem relevante Daten aus Quellen herausgefiltert und zu einem konsistenten Bestand zusammengeführt werden. Hier werden lediglich bereits aufbereitete Daten gespeichert. Das bedeutet, dass für die Arbeit mit dem Data Warehouse eine sehr aufwändige Vorarbeit notwendig ist. Außerdem können hier keine Archivdaten gespeichert werden, sodass immer nur auf die Daten aus den letzten Wochen, maximal Monaten zurückgegriffen werden kann.

  • Das Data Warehouse ist also deutlich unflexibler als der Data Lake. Denn im Data Lake lassen sich alle möglichen Datentypen in ihrer Ursprungsform sammeln und ablegen. Hier wird zudem das „schema on read“ verfolgt. Diese Herangehensweise spart zusätzlich Zeit und Aufwand, da die Daten erst dann aufbereitet und strukturiert werden, sobald sie ein Anwender für eine Analyse benötigt. Die Sammlung von nativen Daten ist zudem sehr praktisch, weil sich Datenformate heutzutage schnell verändern. Mit einem Data Lake bleiben Unternehmen deshalb flexibler als mit einem Data Warehouse. Denn auch bei neuen Datenformaten oder sich ändernden Fragestellungen kann sich schnell angepasst und entsprechend Daten aus dem Data Lake gefiltert werden.“


(1) Zum Autor: Thomas Steinborn ist Sr. Director Product Management bei Talend. Seit 2013 leitet er den Bereich Cloud-Dienste, Plattform Services, ESB, sowie Datenmapping und B2B-Protokolle. Er verfügt über 15 Jahre Erfahrung in den Bereichen Daten- und Anwendungsintegration. Zu seinen Kernthemen gehören Cloud, Big Data, Integration, Internet of Things und Machine Learning. Neue Ansätze motivieren ihn, innovative Produkte zu entwickeln. Talend als Anbieter von Next-Generation-Lösungen in den Bereichen Big-Data- und Cloud-Integration unterstützt Unternehmen bei der datengestützten Entscheidungsfindung.