Blog: Zukunftsfähige Storage Strategien für ständig steigende Datenmengen

Starnberg, 16. Sept. 2013 - Weshalb RAID in Umgebungen mit ständig steigenden Datenmengen dringend funktionaler Erweiterungen bedarf...

Um was es hier geht: RAID hat aus IT-Sicht eine lange und erfolgreiche Historie die kommerziell mit RAID-0 (Striping) begann, um mehr I/O-Performance für Array-Konfigurationen zu erzielen. Aus Verfügbarkeitsgründen wurde dieses Konzept von der Industrie (neben Spiegelung der Daten = RAID 1) mit dedizierten Parity-Informationen-/Drives RAID-3, 4, 5 und 6 je nach Applikationsprofil erweitert und ist heute Standard (RAID on a Chip) in den Speichersystemen aller wesentlichen Hersteller. Bedingt durch das volminante Datenwachstum – in Verbindung mit neuen Anwendungen - sind Mulit-Petabyte-Umgebungen bereits Realität und damit steigt die Wahrscheinlichkeit, mehrfache Laufwerksfehler bzw. Ausfälle zu bekommen. Das ist eine Frage der Wahrscheinlichkeit (Funktion von n-drives), so wie das Auftreten von möglichen Bit Error Fehlern (BER) und der Zeitbedarf beim Re-build von RAID-Controllern mit immer größeren Spindeln. Sind nur 20 Laufwerke im Einsatz kein Problem... aber reden wir von tausend Laufwerken, Exabytes und mehr...

Daten-Replizierung adressiert diese Probleme in Teilen hinreichend, impliziert jedoch einen weiteren Einsatz von Festplatten und somit Kosten (OPEX, CAPEX) bei RAID-5/6-Konfigurationen. Bewegen wir uns bei Wachstumsraten von 60% p.a. und im höheren zweistelligen TB- oder Petabyte-Bereich, steigert der klassische Replikationsansatz diese Ausgaben überproportional und macht traditionelle RAID-5 oder RAID-6 Systeme auf Dauer nicht ökonomisch sinnvoll; unabhängig von den oben angesprochenen Problemen wie BER oder Silent Data Corruption. Natürlich sind Verfahren wie eine intelligente Kompression und Deduplizierung sehr hilfreich und notwendig, jedoch nicht bei allen Datentypen gleichermaßen effektiv (un-/semistrukturierte Daten; bereits reduzierte Datenbanken).

Was können Anwender tun?

Neue und interessante Enwicklungen der Storage Industrie betreffen beim Thema RAID sog. verteilte Parity-Informationen (distributed parity algorithms) und die objekt-orientierte Datenspeicherung (nach Möglichkeit ohne Replikation). Der erste Teil adressiert die angesprochene Datenintegrität und Kostenseite von RAID und Object Storage positioniert sich derzeit insbesondere bei der Zugriffs- und kostenoptimierten Speicherung-/Archivierung von Massendaten (Cloud Services oder Anwendungen für vertikale Märkte wie Öl- und Gas, Forschung, Media Industry etc.).

Vor allem klassische NAS-Protokolle wie CIFS und NFS sind extrem Benutzerfreundlich, aber nicht wenn es um Milliarden von Datenobjekten geht, die innerhalb eines Standard Filesystems nur ungenügend oder gar nicht abgebildet werden können. Hochskalierbare (clustered) Scale-out Filesysteme kommen deshalb zum Einsatz, unter Berücksichtigung eines globalen Namensraum (global namespace). 

Verteilte Datenintegrität-Funktionen speichern Objekte nicht über RAID, sondern mit Hilfe von Algorithmen, die über den gesamten Speicher-Pool verteilt werden (distributed via Software-/Hardware oder in-the-box). Data Objects (Files) werden in Sub-Blöcke aufgeteilt, aus denen Algorithmen berechnet werden. Je nach Verfügbarkeitslevel wird ein bestimmter Overhead an Gleichungen berechnet und diese über so viele Platten wie möglich verteilt (distributed parity); sind einzelne Speichermedien defekt, können aus den verteilten Gleichungen die Daten im Hintergrund wieder neu berechnet werden (Beispiel: CleverSafe oder IBM XIV )

Object Storage verwendet nicht den bisherigen Filesystem-Ansatz, sondern den Zugriff über HTTP/REST API (Object-Storage-Interface), so dass für Anwendungen ein Filesystem-unabhängiger Zugriff auf die gespeicherten Objekte ermöglicht wird. Hierzu finden Sie übrigens ein neutrales fachliches Dokument zum erweiterten Object-Storage-Modell der SNIA als PDF-Download am Textende !

Content-Storage erfreut sich wie Scale-out NAS zunehmender Beliebtheit, jedoch bislang meist in definierten vertikalen Märkten; die Technik wurde für die automatisierte Speicherung und Archivierung von großen Datenmengen entwickelt, typischerweise ab einem Petabyte aufwärts, wird aber sicherlich auf Grund der steigenden Kapazitäten auch stärker in kommerzielle Rechenzentren Einzug finden. Eine derzeit typische Objektdaten-Speicherung bestehen im Backend aus (Commodity-)Storage-Nodes (scale-out) für die nötige Speicherdichte, während das Front-End aus davon getrennten Controller-Nodes besteht, die eine skalierbare Leistung und Verfügbarkeit für das Storage Management liefern sollen; durch die Trennung in Compute- und Storage Nodes können die Systeme weltweit verteilt sein und damit granular auf die jeweiligen Applikations- und Verfügbarkeitserfordernisse angepasst werden.

http://www.snia.org/sites/default/education/tutorials

/2013/spring/file/BrentWelch_Object_Storage_Technology.pdf