Ratingen, Starnberg, 27. Mai 2013 – Optimierter Hadoop-Einsatz durch erweiterten ETL…
Zum Hintergrund: Die zunehmende Datenflut überfordert leicht herkömmliche Datenintegrationsarchitekturen und die betroffenen Unternehmen versprechen sich deshalb von Hadoop, mehr Daten in kürzerer Zeit zu niedrigeren Kosten verarbeiten zu können. Syncsort - Softwareanbieter für die Datenintegration im Unternehmen - hat hierzu nun zwei neue Hadoop-Lösungen und Verbesserungen bei DMX vorgestellt, durch die Hadoop laut Anbieter zu einer robusteren ETL-Lösung mit breitem Funktionsumfang werden soll. Bisher ist Hadoop noch keine vollständige ETL-Lösung (ETL = Extract, Transform, Load). Die beiden neuen Syncsort-Produkte für Hadoop - DMX-h ETL Edition DMX-h Sort Edition erweitern Hadoop nach vorliegenden Informationen um wesentliche Funktionen, die Unternehmen für ihre ETL-Prozesse benötigen. Sie vereinfachen die Bedienung und maximieren gegenüber nicht nativen, Code-erzeugenden ETL-Tools die Knotenleistung. Zusätzlich wurden Leistung und Anschlussfähigkeiten von DMX erhöht, um eine erweiterte Nutzung durch Endanwender zu ermöglichen. Die genannten DMX-h-Lösungen greifen auf den Beitrag von Syncsort zu Apache Hadoop zurück. Das Ergebnis ist eine native Integration, die bei Apache Hadoop für hochleistungsfähige Funktionen für die Datenintegration und zur beschleunigten Sortierung sorgt. DMX-h ETL bietet u. a. folgende Features:
- Intelligentere Architektur: DMX-h ist laut Anbieter derzeit die einzige Lösung mit einer ETL-Engine, die nativ in MapReduce ausgeführt wird und so die Knotenleistung maximiert.
- Optimierte Entwicklungsumgebung: Hadoop ETL kommt ohne Code aus, d.h. Entwickler können mit einer intuitiven Windows-Benutzeroberfläche arbeiten und ihre Produkte direkt in Hadoop implementieren.
- Produktivitätssteigerung: Eine Bibliothek mit vordefinierten Vorlagen für verschiedene Anwendungsfälle unterstützt Entwickler bei der ETL-Implementierung.
- Erweiterte Anschlüsse: Der Zugriff auf alle Daten und ihre Übermittlung, auch vom Mainframe, werden ausgebaut.
- Kostensenkung: Dank optimierter Architektur, Entwicklungsumgebung, Konnektivität und Produktivität lassen sich die Ergebnisse in kürzerer Zeit und kosteneffizienter erreichen.
Benchmark Ergebnisse: die Syncsort Benchmarks zeigen, dass sich durch die Verwendung von DMX-h sowohl Leistung als auch Ressourceneffizienz von Hadoop deutlich verbessern. Der Durchsatz selbst ist bei steigenden Datenmengen berechenbar und nachhaltig. Unter Zugrundelegung des TeraSort Benchmarks erzielte die DMX-h Sort Edition einer Durchsatz von über 100 Megabyte pro Sekunde pro Knoten (MB / S / N) und liefert damit einen mehr als doppelt so hohen Durchsatz pro Knoten wie die sonst gängigen Sortierfunktionen von Hadoop mit 45 MB / S / N. Ebenso erreichte die DMX-h ETL Edition bei der Aggregation von 2 TB Web Log-Daten einen nachhaltigen Durchsatz von über 255 MB / S / N und damit eine bis zu 2,5-fach höhere Leistung als Pig. In beiden Fällen wurden Tests für Datenvolumen von 500 GB bis 2 TB Daten durchgeführt. Während alternative Lösungen wie die gängige Hadoop Sortierung und Pig bei rund 500 GB Datenmenge einen Sättigungspunkt erreichen, ab dem der Durchsatz sinkt, liefert DMX-h nachhaltige und berechenbare Leistungen von 500 GB bis 2 TB. Die Auswirkungen sind für Unternehmen enorm. Sie können dadurch nicht nur die Größe ihrer Hadoop Infrastruktur effektiver gestalten, sondern auch Unsicherheitsfaktoren beseitigen und in Zeiten ständig steigender Big Data Umfänge eine deutlich kalkulierbarere Kostenstruktur etablieren.
Anwenderzitat: "Beim Tag-Management sorgen wir für zahlreiche Interaktionen zwischen Marketingexperten und ihren Anbietern. So können wir nachvollziehen, welchen komplizierte Schritte ein Verbraucher unternimmt, bevor er ein Produkt erwirbt. Die Verarbeitung umfangreicher Daten spielt dabei eine zentrale Rolle. Um uns im Wettbewerb behaupten zu können, müssen wir die vielen von unserer Plattform erfassten Daten über die Schritte des Kunden bis hin zur Kaufentscheidung in aussagekräftige Informationen umwandeln, die dann Marketingexperten und ihre Anbieter als Entscheidungsgrundlage nutzen können", berichtet Ave Wrigely, CTO von TagMan. "Der größte Vorteil der neuesten Syncsort DMX-Produkte ist der Wegfall von Codes. Stattdessen können wir nun Informationen mithilfe einer übersichtlichen Benutzeroberfläche innerhalb und außerhalb von Hadoop erfassen, bereinigen und verteilen. Dies spart Zeit und Ressourcen und verleiht uns bei der Aufbereitung großer Datenmengen für geschäftliche Analysen und Datenvisualisierungen maximale Flexibilität."
Zitat ESG: "Hadoop senkt die Ausgaben zur Verarbeitung großer Datenmengen, ist jedoch für Unternehmen nicht kostenlos. Die hohen Hardware- und IT-Produktivitätskosten gefährden unter Umständen den ROI", so Evan Quinn, Senior Principal Analyst bei der Enterprise Strategy Group. "Die neuen Syncsort-Produktversionen für das Frühjahr 2013 erweitern Hadoop um spezielle Funktionen, die maximale Kosteneinsparungen ermöglichen. Unternehmen erhalten erstklassige ETL-Technologie mit einem herausragenden Preis-Leistungs-Verhältnis, das auf dem Datenintegrationsmarkt seinesgleichen sucht. Die Kosten ähneln eher denen einer Open-Source-Lösung."
http://www.syncsort.com/en/Data-Integration/Products/DMX-h/HadoopETL
http://www.syncsort.com/en/Data-Integration/Products/DMX-h/Hadoop-Sort
DMX-h ETL Testversion: Benutzer, die an DMX-h ETL interessiert sind, können hier eine kostenlose Testversion herunterladen. Diese umfasst alle benötigten Komponenten und erfordert keine Einrichtung eines eigenen Hadoop-Clusters. Enthalten sind eine Linux Virtual Machine, auf der Cloudera CDH 4.2 und DMX-h ETL Edition bereits vorinstalliert sind, sowie Vorlagen für verschiedene Anwendungsfälle und Beispieldaten:
http://www.syncsort.com/en/Data-Integration/Registration/Registration
Weitere Ressourcen:
Anwenderberichte zur Datenintegration mit Syncsort
http://www.syncsort.de/Anwenderberichte/Datenintegration.aspx