München, Starnberg, 13. Dez. 2024 - Die neue Datenplattform soll mit dem wachsenden Bedarf an Rechenleistung Schritt halten können...
Zum Hintergrund: Die Universität von Pisa, gegründet 1343, ist eine der ältesten Universitäten Europas, mit zwanzig Fakultäten und hochrangigen Forschungszentren. Darüber hinaus unterhält die Universität enge Beziehungen zu Forschungsinstituten, vor allem im Bereich der Informationstechnologie. Bis 2016 war die wissenschaftliche Datenverarbeitungsinfrastruktur der Universität über 250 Gebäude in der mittelalterlichen Stadt verteilt. Zu diesem Zeitpunkt fiel die Entscheidung, ein neues zentrales Rechenzentrum außerhalb der Stadt zu errichten, um alle IT-Dienste und Hochleistungsrechenkapazitäten zu konsolidieren.
Auf der Suche nach einer HPC- und KI-Plattform
„In den vergangenen sieben Jahren wuchs das Rechenzentrum auf rund 25.000 CPU- und GPU-Kerne und speicherte zwölf Petabyte an Datenvolumen, verwaltet von verschiedenen Anbietern. Da die Forschungsanforderungen, insbesondere im Bereich der künstlichen Intelligenz, immer schneller anstiegen, reichte der Status quo nicht mehr aus und die Universität suchte nach einer geeigneten, zukunftssicheren Plattform.
Nachdem die Universität mehrere Optionen geprüft hatte, entschied sie sich nach vorliegenden Angaben für VAST Data zur Speicherung, Verwaltung und Verarbeitung ihres wachsenden Datenbestands. VAST hat eine neue Scale-Out-Architektur entwickelt, mit dem Ziel, die bis dato üblichen Grenzen von Skalierbarkeit, Ausfallsicherheit und Kosten zu überwinden.
Anwenderkommentar Maurizio Davini, CTO der Universität Pisa: „Das Problem mit den Datenplattformen der neuen Generation ist, dass es nicht immer einfach ist, die gesamte Leistung zu nutzen. Mit VAST Data ist es recht einfach, eine 200 Gb/s-Verbindung zu sättigen, was bei einigen Mitbewerbern nicht der Fall ist.“
Die VAST Data Platform steht als globales Dateninfrastruktur-Angebot zur Verfügung, das Speicher-, Datenbank- und virtualisierte Compute-Engine-Services in einem skalierbaren System vereint; laut Entwickler „von Grund auf für heutige und zukünftige KI- und Analyseanwendungen entwickelt.“ Die Plattform kann komplexe Speicherebenen überflüssig machen und lässt sich linear bis auf Hunderte von Petabytes skalieren, ohne dass es zu Leistungseinbußen kommen soll. Die Architektur ist zum Cloud-Service-Provider für den Campus geworden – eine interne Private Cloud, in der Daten je nach Bedarf für HPC, KI oder andere Arbeitslasten bereitgestellt werden können.
PISA (Bildquelle: VAST Data)
Einheitliche Datenplattform für mehr Flexibilität
Die Universität verfügt mit VAST Data über eine einheitliche Datenplattform, die auf Hunderte von Petabytes skalierbar ist und mit der wachsenden Rechenleistung Schritt hält, und sich schnell an neue Anwendungsanforderungen anpassen lässt, wenn sich der Bedarf entwickelt. Die Flexibilität der Architektur soll es dann auch ermöglichen, andere wichtige Anwendungen über SMB- und S3-Objektschnittstellen zu unterstützen.
Dazu M. Davini: „Aufgrund der Hochleistungsverbindung ist es recht einfach, die Leistung außerhalb des VAST-Clusters über das Netzwerk zu extrahieren.“ Er weist auch auf die ebenso einfache Implementierung im Rahmen der Zusammenarbeit mit VAST Data hin und sagt, das System sei innerhalb eines Tages installiert und produktionsbereit gewesen: „Wir haben die Installation mit dem VAST-Team durchgeführt und waren nach einem Tag produktiv. Die intuitive Benutzeroberfläche und die schlüsselfertige Bereitstellung verkürzen die Zeit bis zur Wertschöpfung.“
Die Universität nutzt VAST für KI-Workloads, auch zur Entwicklung von Arzneimitteln, wobei Simulationen auf einem NVIDIA DGX H100 System laufen. Die Fähigkeit von VAST Data, sich über NVIDIA InfiniBand oder Ethernet problemlos mit DGX-Nodes zu verbinden, war ein entscheidender Pluspunkt, der ebenfalls für VAST sprach. In Zukunft wird VAST die Grundlage für die Datenplattform bilden, wenn die Universität ihre KI-Infrastruktur mit NVIDIA Grace CPU Superchip und Arm-basierten Systemen ausbaut. Für die Universität ist NVIDIA DGX eine wichtige Infrastrukturkomponente, denn die Trainingsmodelle sollen ausgelastet werden und nicht darauf warten müssen, dass Daten eingespeist werden."
Leistungsverbesserungen für die Forschung
Die VAST Data Plattform hat der Universität Pisa laut vorliegenden Angaben erhebliche Leistungsverbesserungen für Forschungsteams in Bereichen wie Biowissenschaften und Materialwissenschaften gebracht, die auf schnellen parallelen Dateizugriff angewiesen sind, um datenintensive Algorithmen zu speisen. Das flexible Gemini-Lizenzierungsmodell von VAST Data soll es zudem der Universität ermöglichen, nur für das zu zahlen, was sie tatsächlich benötigt.
Ausblick: Laut den Verantwortlichen wird derzeit die Infrastruktur verdoppelt und die Universität ist sehr daran interessiert, die sich entwickelnden Multi-Tenancy-, Datenkatalog- und Datenbank-Funktionen der VAST Data Platform zu erkunden. Dazu M. Davini: „Mit VAST und NVIDIA transformieren wir unsere Forschungsmöglichkeiten, um neue Durchbrüche zu erzielen und unseren wissenschaftlichen Fortschritt voranzutreiben“.
Querverweis:
Unser Beitrag > KI und Datenverarbeitung: Kritische Komponenten einer Datenpipeline für effiziente KI-Projekte
Unser Beitrag > KI in der Elektronikentwicklung im Spannungsfeld zwischen Innovation und Abhängigkeit
Unser Beitrag > Über die Zukunft von KI: Ein Kommentar von Prof. Daniel Cremers von der TU München (TUM)