KI-basierte Datenanalysen in der Cloud: Cloudera kündigt Lösung auf Basis NVIDIA / Spark 3.0 an

Submitted by Storage Consortium on 13 April, 2021 - 17:23

München, Starnberg, 13. April 2021 - Cloudera Data Platform mit NVIDIA soll KI-getriebene Transformation beschleunigen; Integration in RAPIDS Accelerator für Apache Spark 3.0...

Zur Ankündigung: Cloudera hat die Integration seiner Cloudera Data Platform (CDP) in den RAPIDS Accelerator für Apache Spark 3.0 vorgestellt. Apache Spark ist ein Eckpfeiler für Machine-Learning- und Data-Analytics-Pipelines. Die auf den Computing-Plattformen von NVIDIA eingesetzte Software ermöglicht es Unternehmen, Datenpipelines zu beschleunigen und die Leistung von Daten- und Machine-Learning-Workflows (ML) zu verbessern. Das ermöglicht laut Anbieter einen schnelleren Einsatz von KI, wodurch bessere Geschäftsergebnisse erzielt werden – ohne dass Änderungen am Code vorgenommen werden müssen.

Mit der Veröffentlichung von Applied ML Prototypes (AMPs) in CDP in Verbindung mit der Leistung von NVIDIA-Computing können Kunden wie die US-amerikanische Finanzbehörde Internal Revenue Service (IRS) und das Office for National Statistics UK nicht nur komplexe ML-Anwendungsfälle in Angriff nehmen, sondern auch die Datenverarbeitung und das Modelltraining zu geringeren Kosten sowohl über On-Premises als auch über die Public-Cloud oder die Hybrid-Cloud beschleunigen.

Trotz großer Datenmengen schnellere Entscheidungen treffen

Data Engineers nutzen Datensätze, beispielsweise bei der Transformation von Lieferkettenmodellen, der Reaktion auf erhöhte Betrugsraten oder der Entwicklung neuer Produktlinien. Für Data Scientists haben die Engpässe, die durch riesige Datenmengen entstehen, direkte Auswirkungen auf die Kosten und die Geschwindigkeit, mit der Unternehmen Modelle im gesamten Betrieb trainieren und betreiben können. Die Integration von Cloudera und NVIDIA soll Unternehmen in die Lage versetzen, schnell auf neue und laufende geschäftliche Herausforderungen zu reagieren und aufschlussreiche Analysen durchzuführen.

Abb. 1: Apache Spark 3.0 Neuerungen (Bildquelle: NVIDIA)

Anwenderkommentar Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief: „Wir müssen in der Lage sein, präzise Entscheidungen in kürzester Zeit zu treffen und dabei riesige Datenmengen zu nutzen. Diese Herausforderung wird immer größer, da die Datenmengen und -geschwindigkeiten ständig weiter zunehmen. Die Integration von Cloudera und NVIDIA befähigt uns, datengetriebene Erkenntnisse zu nutzen, um geschäftskritische Anwendungsfälle wie beispielsweise Betrugserkennung zu unterstützen. Im Moment sind wir dabei, diese Integration umzusetzen und sehen bereits jetzt eine mehr als dreimal so hohe Geschwindigkeit hinsichtlich unserer Data-Engineering- und Data-Science-Workflows.“

Daten besser verstehen

Für jedes Unternehmen, das riesige Datensätze handhaben muss, entscheidet eine durch Open-Source-GPU beschleunigte Data-Science-Pipeline über die Frage, ob es in der Lage ist, Modelle zu trainieren oder nicht. Eine solche Pipeline kann die Fähigkeit eines Unternehmens bestärken, sich unter Einsatz von künstlicher Intelligenz zu transformieren. Dabei läuft das GPU-beschleunigte Framework Apache Spark 3 nahtlos auf CDP. Dadurch werden Unternehmen in die Lage versetzt, HPC-, KI- und Data-Science-Anforderungen von der Forschung bis zur Produktion mit einer sicheren, skalierbaren und offenen Plattform für maschinelles Lernen zu unterstützen.

Der RAPIDS Accelerator für Apache Spark soll ab diesem Sommer in der CDP Private Cloud verfügbar sein. NVIDIA und Cloudera werden nach vorliegenden Informationen künftig weitere Angebote in CDP einführen, beginnend im Mai mit Accelerated Deep Learning und Machine Learning in CDP Public Cloud.

Querverweis:

Unser Beitrag > KI-Studie: Europäische Unternehmen hinken bei der Implementierung derzeit noch hinterher
Unser Beitrag > WekaIO Performance mit NVIDIA Magnum IO GPUDirect Storage im Microsoft Research Lab

Anhang	Größe
Apache Spark 3.0 Neuerungen (Bildquelle: NVIDIA)	85.57 KB

Big Data, Data Analytics, KI, Machine Learning, Deep Learning

Cloud Computing, Cloud Storage, Hybrid Cloud, Multi Cloud

DevOps, Container, Microservices, Kubernetes, OpenShift

High-Perfomance-Computing, Future Storage, Technologie

Personalien, Unternehmenszahlen

Solid-State-Disks, NAND, Storage Class Memory, Storage Performance, Datenbanken, NoSQL

Speicherkonsolidierung, SAN, NAS, Unified Storage, Object Storage

Speichernetze, FC, TCP/IP, iSCSI, Ethernet, InfiniBand, RDMA, Konvergenz

Subsysteme, FC, SAS, SATA, iSCSI, NVMe, NVMeoF

WAN-Optimierung, Applikationsperformance