Hitachi Vantara Pentaho 8.2 integriert strukturierte und unstrukturierte Daten

Santa Clara (CA), Starnberg, 07. Jan. 2019 - Hilfe bei der Erstellung agiler Data Pipelines, mit denen sich Daten aus mehreren Quellen schnell und automatisiert integrieren lassen...

Zum Hintergrund: Harvard Business Review zufolge (1) werden weniger als die Hälfte der strukturierten Daten eines Unternehmens für Geschäftsentscheidungen verwendet. Bei unstrukturierten Daten werden weniger als ein Prozent überhaupt in irgendeiner Weise genutzt. Hitachi Vantara hat Anfang diesen Jahres mit Pentaho 8.2 hierzu jetzt die neueste Version seiner Datenintegrations- und Analyseplattform-Software angekündigt. Diese soll eine sofort einsatzbereite Integration mit Hitachi Content Platform (HCP) Objektspeicherplattform zur Verfügung stellen. In der neuen Version optimiert Pentaho die Integration des Produktportfolio von Hitachi Vantara  und ermöglicht es Benutzern, für wichtige Anwendungsfälle auf unstrukturierte Daten aus HCP zuzugreifen. Kunden können eine hybride Cloud-Umgebung auf neue Weise verwalten und erhalten erweiterten Support für das analytische Ökosystem.

Mit der Integration von Pentaho in HCP können Anwender Datenpipelines mit strukturierten und unstrukturierten Datenquellen – wie Text, Video, Audio, Bilder, Social Media, Clickstreams und Logfiles – erstellen. Datenanalysten und Data Scientists können damit bessere Einblicke generieren und dadurch den Geschäftswert steigern. Pentaho 8.2 eröffnet neue Anwendungsfälle in Industriebereichen wie:

  • Bankwesen: Finanzdienstleister können Compliance-Anforderungen erfüllen, indem sie Daten zu Handelstransaktionen mit der E-Mail-Kommunikation korrelieren. 
  • Gesundheitswesen: Medizinische Forscher können neue Wirkstoffe finden, indem sie Patientendaten und Medikamentenhistorie mit unstrukturierten MRT-Scans kombinieren.
  • Einzelhandel: Einzelhändler können die Einkaufspräferenzen jedes Kunden und den Verkehrsfluss zu jeder Marke im Laden analysieren, indem sie In-Store-Videoaufnahmen mit Point-of-Sale-Daten kombinieren.
  • Öffentliche Sicherheit: Strafverfolgungsbehörden können Videomaterial mit Kriminalitätsberichten kombinieren, um einen schnelleren Zugang zu Beweismitteln und eine bessere Entscheidungsfindung zu ermöglichen, während sie gleichzeitig die Vorschriften einhalten.

Hybrides Cloud-Datenmanagement vereinfachen

Bei relativ vielen Alternativen für Data Lakes – darunter NoSQL-Datenbanken, Public Cloud-Optionen von Microsoft Azure, Amazon und Google sowie lokalen Objektspeichern – wird es wichtiger, wie Betreiber am besten in ihr Datenmanagement und die vorschriftsmäßige Verwaltung ihrer Daten investieren. Pentaho 8.2 bietet in Verbindung mit der Hitachi Content Platform für Benutzer nun die Möglichkeit, Daten in HCP einbinden, welches als Data Lake fungiert. Dadurch können sie mit Pentaho Daten innerhalb von HCP vorbereiten, bereinigen und normieren. Pentaho kann verwendet werden, um logisch zu bestimmen, welche aufbereiteten Daten für jedes Cloud-Target geeignet sind. Dadurch, dass weniger Daten unnötig in die Cloud übertragen werden, können Unternehmen die Kosten besser gesteuert werden.


Abb. 1 Quelle: Hitachi Blog "Pentaho Data Integration (PDI), Python and Deep Learning“ (According to Zion Market Research, the deep learning (DL) market will increase from $2.3 billion in 2017 to over $23.6 billion by 2024).


Erweiterte Unterstützung für das Analytik-Ökosystem

Pentaho 8.2 erweitert laut Anbieter den Support für sein wachsendes Ökosystem aus Produkten und Technologien von Drittanbietern, die Unternehmen bei der Optimierung ihrer Datenpipeline- und Analysenprojekte unterstützen können:

  • AMQP-Support: Pentaho-Kunden können auf dieses beliebte Messaging-Protokoll zugreifen. Es unterstützt Unternehmen beim Lesen und Veröffentlichen von Streaming-Daten von Edge-Geräten in der Cloud, um aufkommende IoT Anwendungsfälle zu lösen.
  • Verbesserte Sicherheit der Google Cloud: Die Unterstützung von Customer Managed Encryption Keys (CMEK) bietet Pentaho-Anwendern zusätzlichen Schutz, indem sie ihre eigene Datenverschlüsselung beim Zugriff auf Daten in Google Cloud Storage und Google BigQuery nutzen.
  • Python: Anwender von Pentaho 8.2 können mit Python erstellte Machine- und Deep-Learning-Modelle operationalisieren und API-Aufrufe an beliebte Bibliotheken wie scikit-learn und TensorFlow durchführen.
  • OpenJDK-Unterstützung:  Pentaho-Kunden können nun vom kommerzialisierten OpenJDK auf eine kostenlose Open-Source-Version von OpenJDK umsteigen.

Anwenderzitat Andrew Buffone, Director of Data Management bei CARFAX Canada: „Mit Pentaho 8.2 und der Hitachi Content Platform sind wir in der Lage, sowohl strukturierte als auch unstrukturierte Daten auf einer einzigen Plattform zu nutzen, um bereinigte, vorbereitete Daten an AWS und Microsoft Azure zu senden. Dadurch erreichen wir eine Reduzierung der Rechenkosten um 20 bis 30 Prozent und der Speicherkosten um 50 bis 60 Prozent. Außerdem sind wir in der Lage, sowohl die strukturierten als auch die unstrukturierten Daten, die wir unseren Wirtschafts- und Datenforschungsteams liefern, besser zu verwalten, da wir sie alle an einem Ort haben."


(1) Quelle > https://hbr.org/2017/05/whats-your-data-strategy