Massiv steigende Datenmengen beherrschen - Quantum Anwenderbericht zur GWDG-Lösung

Göttingen, München, 17. Mai 2016 - Betrieb einer zentralen scale-out- Storageumgebung von derzeit sieben Petabytes mit Hilfe des StorNext® scale-out Filesystems...

Zum Hintergrund: Die Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) ist ein von der Georg- August-Universität Göttingen und der Max-Planck-Gesellschaft gemeinsam betriebenes Rechen- und IT-Kompetenzzentrum, das verschiedene grundlegende IT-Services, Datenmanagement-Lösungen und Datenverarbeitungsressourcen für wissenschaftliche Forschungs- und Ausbildungszwecke bereitstellt. Das Zentrum hat eine großvolumige Speicherumgebung aufgebaut, um Millionen Dateien und ein massives Datenvolumen für Zehntausende Anwender zu speichern, zu schützen und verfügbar zu halten. Mithilfe einer StorNext Multi-Tier-Plattform von Quantum kann die GWDG extrem große Datenmengen speichern und verfügbar halten. Während Biomediziner z. B. mithilfe der HPC- Cluster des Rechenzentrums Genomdaten analysieren, machen Geisteswissenschaftler die Bibliotheksinhalte durch Digitalisierungen einfacher abrufbar.

STEIGENDER SPEICHERBEDARF AN DER GEORG-AUGUST-UNIVERSITÄT GÖTTINGEN

Das IT-Team der GWDG benötigte eine Speicherumgebung, die sich parallel zu den rasch ansteigenden Speicheranforderungen erweitern lässt. „Unser Speicherdatenvolumen verdoppelt sich fast jedes Jahr, und die Wachstumskurve wird immer steiler“, so Dr. Philipp Wieder, Stellv. Leiter der GWDG. Verantwortlich für den Anstieg ist zum Teil das Bestreben, immer komplexere wissenschaftliche Fragen zu beantworten. „Next-Generation Sequencing der neuesten Generation zum Beispiel produzieren Unmengen an Daten“, berichtet Wieder: „Ein Team musste für ein einziges Projekt 300 TB Daten speichern.“

Daneben stellt die GWDG auch IT- Ressourcen für andere Einrichtungen bereit. Beispielsweise unterstützt das Rechenzentrum die Niedersächsische Staats- und Universitätsbibliothek und die Akademie der Wissenschaften zu Göttingen. „Die Bibliothek digitalisiert derzeit ihre Texte und erstellt Modelle physischer Objekte“, so Wieder. „All diese Daten müssen irgendwo gespeichert werden.“

Die Herausforderung für das Rechenzentrum

Die Verantwortlichen mussten einen Weg finden, um im RZ das große Archiv zu verwalten und die Daten den inzwischen über 40.000 Anwendern zuverlässig zur Verfügung zu stellen. Anwenderzitat: „Wir benötigten ein Dateisystem, das Milliarden Dateien und ein massives Datenvolumen unterstützen kann“, erläutert Stefan Teusch, Stellv. Leiter IT-Infrastruktur der GWDG.

AUFBAU EINER ZENTRALEN MEHRSTUFIGEN SPEICHERUMGEBUNG AUS DISK UND TAPE

Außerdem sollte mit der Speicherplattform auch eine mehrstufige Umgebung für hierarchisches Speichermanagement (HSM) realisiert werden. „2,5 PB unserer Daten in StorNext sind jetzt auf Disk gespeichert und 4,5 PB auf Tape“, so Teusch. „Unser Ziel war, die Daten über ein einzelnes Dateisystem abrufbar zu machen.“ Durch die Kostenvorteile von Tape Libraries – unter anderem den geringeren Stromverbrauch – kann die GWDG Daten für die geforderte Dauer von 10 Jahren oder länger vorhalten. „Tape ist wirtschaftlicher als Disk“, ergänzt Teusch. „Und da ein Großteil der Daten nur sehr selten aufgerufen wird, macht es durchaus Sinn, auf Tape zu setzen.“


DIE LÖSUNG IM ÜBERBLICK: Quantum StorNext® Scale-Out-Storage mit StorNext Metadata Appliances, StorNext Gateway Appliances und StorNext AEL6000 Tape Archive. 

Hier die wesentlichen Leistungsmerkmale zur implementierten Lösung:

  • PB an Daten mit Milliarden Dateien auf mehreren Speicherebenen in einem Dateisystem
  • Ausgelegt auf Wachstumsintensive Umgebungen, deren Datenvolumen sich jedes Jahr nahezu verdoppelt
  • HPC-Verarbeitung in Hochgeschwindigkeit mittels StorNext DLC über IP
  • Heterogener Datenzugriff über alle gängigen Betriebssysteme
  • Daten-und Ausfallschutz durch integriertes Backup und Disaster Recovery (DR)
  • Geringer Personalaufwand für ein großes Archiv durch vereinfachte Administration

STORNEXT MULTI-TIER-STORAGE SPEICHERT 7 PB DATEN UND MILLIARDEN DATEIEN

Die GWDG entschied sich bereits vor über einem Jahrzehnt für die Quantum StorNext- Plattform zur Verwaltung ihrer Datenbestände. Über die Jahre konnte die Speicherumgebung danach problemlos erweitert und angepasst werden. Heute verwaltet das IT-Team Daten im Umfang von 7 PB mit einer mehrstufigen StorNext-Speicherlösung aus Primärdisk, StorNext Tape Archiven und der StorNext Software für das Datenmanagement.

  • „Nach unserer Erfahrung ist StorNext die einzige Plattform, die Dateianzahl und Datenvolumen in dem von uns geforderten Umfang stemmen kann und dabei eine sehr hohe Performance liefert“, so Teusch.
  • Die StorNext-Plattform unterstützt alle gängigen Betriebssysteme. „Viele Wissenschaftler arbeiten mit UNIX oder Linux, während andere Nutzer Windows oder MacOS bevorzugen. Einige Abteilungen verwenden sogar ausschließlich Macs“, so Teusch. „Mit StorNext können wir all diese Betriebssysteme mühelos unterstützen. Alle Anwender können auf die benötigten Daten zugreifen, ohne dafür Änderungen an ihren Workflows vornehmen zu müssen.“

+++ Hinweis: Mehr zu Quantum Tiered-Storage sowie weiteren Themen wie Objektdatenspeicherung, Software Defined- und scale-out Flash erhalten Sie als Storage-Verantwortlicher direkt aus 1. Hand im Rahmen unseres kommenden Anwendertreffens am 16. Juni 2016 in Frankfurt/M. auf dem Gelände des e-shelter data-center campus (eine RZ-Führung rundet das Angebot ab). Hier online anmelden +++


HPC-VERARBEITUNG MIT SCHNELLEM SHARED STORAGE ÜBER ETHERNET

Die GWDG ist ein renommierter HPC-Anbieter in Deutschland. Um den gemeinsamen Datenzugriff aus der StorNext-Umgebung auf das umfassende HPC-Cluster zu ermöglichen, installierte das IT-Team StorNext Distributed LAN-Clients (DLCs) auf HPC-Nodes und stellte sieben StorNext-Gateways für Lastausgleich und Failover bereit. „Dank StorNext DLC sind keine FC-Verbindungen für die HPC-Nodes erforderlich“, erläutert Teusch. „So können wir weiterhin ein herkömmliches Ethernet- Netzwerk verwenden.“

  • Das StorNext DLC-Protokoll ermöglicht den Hochgeschwindigkeitszugriff auf Daten über Ethernet und damit die HPC-Verarbeitung. „Unsere HPC-Nutzer wollten eine Performance von 2 GB pro Sekunde.
  • Mit StorNext DLC erzielen wir 3,2 GB pro Sekunde,“ so Teusch. „So können Forscher innerhalb kurzer Zeit große Datenmengen in die HPC-Cluster laden, sie dort verarbeiten und anschließend wieder in den für langfristige Vorhaltung in den Speicher zurückschieben.“

VORHALTUNG VON DATENKOPIEN FÜR DR-ZWECKE

Zum Schutz der Online-Daten werden per regelbasiertem Tiering Kopien der Daten vom primären Disk-Cache angelegt „Sollte ein Hardwaregerät oder ein Speichersystem ausfallen, können wir auf die Kopie im StorNext Tape Archiv zurückgreifen und die Daten schnell wiederherstellen“, berichtet Teusch. „Auf diese Weise verlieren die Anwender so gut wie keine Arbeitszeit.“ Trotz des anhaltenden Wachstums lässt sich die mehrstufige StorNext-Speicherumgebung nach wie vor unkompliziert verwalten. Das IT-Team musste bisher weder zusätzliche Mitarbeiter einstellen noch Teammitglieder von anderen Projekten abziehen.


FAZIT DER GWDG: FLEXIBLE REAKTION AUF NEUE ANFORDERUNGEN UND WACHSENDE DATENBESTÄNDE

„StorNext wurde den Erfordernissen trotz immer komplexerer Workflows, Weiterentwicklungen der IT- Umgebung und Änderungen im IT-Team stets gerecht.“, so Dr. Wieder. Wir sind sicher, dass StorNext auch in Zukunft unsere Anforderungen erfüllen wird...“


Abb. 1: Bildquelle Hersteller, GWDG Quantum-Lösung im Überblick:

  • StorNext® Scale-Out-Storage mit StorNext Metadaten Appliances
  • StorNext Gateway Appliances
  • StorNext AEL6000 Tape Archive