ParStream analysiert Big Data mit GPUs und massiv paralleler Datenbank

Köln, Starnberg, 20. Juni 2011 - ParStream dient der Analyse sehr großer Datenmengen und benutzt eine Scale-Up / Scale-Out - Multiprozessorarchitektur…

Zum Hintergrund: Entwickelt und auf den Markt gebracht hat das System ParStream ein deutsches Start-Up gleichen Namens, das diese Woche übrigens auch auf der 26. International Supercomputing Conference vom 19. bis 23. Juni in Hamburg ausstellt (die Firma wurde 2007 von Michael Hummel und Jörg Bienert gegründet und ist spezialisiert auf die Entwicklung und Implementierung von High-Performance Analytical Database Systems).

Derzeit ist ParStream ist auf einer Reihe von Linux-Distributionen wie RedHat Enterprise Linux, Novell Enterprise Linux und Debian Lenny unter x86_64 CPUs unterstützt. Auf Wunsch kann ParStream nach Angaben der Entwickler aber auch auf andere Plattformen portiert werden. GPU-Beschleunigung ist auf allen Plattformen verfügbar, die von NVIDIA und ParStream unterstützt werden. Die ParStream Appliance basiert auf CentOS (RedHat Enterprise Linux-Derivat) und bietet laut Anbieter Unterstützung für die GPU-Beschleunigung von NVIDIA Fermi-Karten.

Die aktuell verfügbare Lösung ist auf die schnelle Analyse sehr großer Datenmengen (Big Data) bis in den Petabyte-Bereich spezialisiert und ist nach Angaben des Unternehmens bereits bei einer Reihe von Kunden im produktiven Einsatz. Das neue System nutzt Hardwareseitig aktuelle Multiprozessorarchitekturen sehr effizient – von Standard CPUs bis hin zu Grafikprozessoren (vor allem moderne Grafikprozessor-Units (GPUs) sind bei spezifischen Operationen heute deutlich leistungsfähiger als Standard Prozessoren (CPUs).

http://www.parstream.com

Basis für die hohe Verarbeitungsleistung ist Softwareseitig das neue Indizierungs-verfahren „Highly Parallel Compressed Index“. Hier müssen die Daten nicht mehr dekomprimiert werden, lassen sich aber trotzdem parallel verarbeiten. ParStream kann die Daten zudem bereits simultan zum Import durchsuchen und liefert deshalb „Real-Time“-Analyseergebnisse (ein spaltenorientierter bitmap index benutzt eine spezifische Datenstruktur, welche die Verarbeitung auch in komprimierter Form erlaubt). Die Kombination von GPUs und Software erlaubt damit laut Entwickler eine Reduzierung der Analyseleistung bei z.B. Webapplikationen von Minuten auf Millisekunden.

Die Lösung ist gemäß Anbieter in allen Branchen bei Big-Data-Herausforderungen einsetzbar. Als Beispiele hierfür sind die Netzüberwachung in der TK-Industrie, Webanalysen im E-Commerce, die Steuerung von intelligenten Stromnetzen oder die  Aufdeckung von Kreditkartenbetrug genannt. Gleichzeitig ist ParStream in der Wissenschaft zum Beispiel zur Analyse von Klimamodellen und in der Genforschung anwendbar. Das System (Software, Appliance) kann je nach Anforderung linear skalieren (Scale-up, Scale-out, optimized ressource use…) und ist neben einer Clustered-Server-Installation (Software) nach Angaben des Herstellers bald auch als Cloud-Lösung verfügbar.