Objekt- und File-Storagelösungen für den Unternehmenseinsatz

Submitted by NDeuschle on 13 November, 2019 - 14:15

Starnberg, 13. Nov. 2019 - Traditionelle Speicheransätze kommen auf Grund von stetig steigenden unstrukturierten Datenmengen an ihre Leistungsgrenzen...

Um was es hier geht: Entwickler und Anwender fordern von der IT-Infrastruktur mehr Flexibilität, Leistung und hohe Verfügbarkeit. Grund ist die zunehmende Dynamik im Bereich von neuen Apps, Datenformaten, Benutzern und sich verändernden Workload-Profilen, auch wie sie im Zuge der Digitalisierung von IoT- oder KI-Projekten einhergehen. Mit dem starken Anwachsen von semi- und unstrukturierten Datensätzen im Multi-Petabyte-Bereich stößt das klassische NAS-Array-Modell seit geraumer Zeit an technische und wirtschaftliche Grenzen: dies betrifft neben den Kosten beim skalierbaren Kapazitätsausbau in Verbindung mit der erforderlichen Verfügbarkeit (n-Site-Umgebungen, Datenreplikation, Rebuild-Zeiten mit RAID 6, begrenzte Scale-out-Fähigkeiten, Lizenzkosten, Management-Overhead etc.) auch die Performance.

Andererseits sind parallele Hochleistungs-Filesystem-Architekturen (ursprünglich aus dem HPC-Umfeld kommend) seit längerem im produktiven Einsatz (siehe IBM Spectrum Scale, Lustre, Panasas, StorNext, um nur einige zu nennen). Jedenfalls scheint es, dass auf Grund der oben erwähnten Randbedingungen eine verstärkte Resonanz dieses Software Definierten Speicheransatzes (SDS bzw. Appliance) am Markt zu registrieren ist. Ähnliches gilt für den wachsenden Bereich von Objektspeichersystemen mit File-support, die typischerweise auf Industrie-Standard-(x86-)Hardware betrieben werden (reine Software bzw. konfigurierte Appliance).

Objekt- oder File-Storage?

Objektspeicher-Systeme wurden primär auf massive Skalierbarkeit hin entwickelt und liefern über Geo-Datenreplikation (schreibt identische Kopien auf mehreren Knoten und kann an n-Standorten eingesetzt werden) bzw. Erasure Coding (schreibt auf mehrere Knoten innerhalb des Clusters; schreibt aber auch auf Knoten außerhalb des Clusters, um mehrere Knotenausfälle zu erlauben) eine sehr hohe Verfügbarkeit im Zusammenhang mit potentiellen Systemausfällen (siehe z.B. ‚Swift’). Objekte werden durch das Speichern mehrerer Datenkopien so abgesichert, dass bei Ausfall eines Knotens die Daten von einem anderen Node abgerufen werden. Die Architektur ist damit für stark verteilte Infrastrukturen mit vielen unstrukturierten Daten an weltweiten Standorten gut geeignet.

Traditioneller Speicher wird mit der zunehmender Anzahl von Systemen und Tools im Rahmen der genannten Einsatzszenarien hingegen immer komplexer, auch in der Verwaltung. Die Objektspeicherung hingegen optimiert durch die Konsolidierung von Daten innerhalb eines logischen Systems, unterstützt durch die Nutzung integrierter Verwaltungstools wie automatisiertes Disaster Recovery zwischen den Standorten.

Objektspeicher-Systeme wurden konzipiert, um sehr hohe Kapazität zu unterstützen (bis in den Exabyte-Bereich) und eignen sich für Workloads, die eine hohe Bandbreite benötigen; nicht geeignet sind sie in der Regel für transaktionsorientierte Umgebungen, bei denen hohe I/O-Leistung mit Latenzzeiten im sub-millisekunden-Bereich gefordert sind. Mit der Einführung von Public Cloud-basierten Objektspeicherangeboten wie Amazon S3, Azure Blob Storage oder Google Cloud Storage wächst natürlich die Beliebtheit von Objektspeichern sowohl im Unternehmen als auch in der Entwicklergemeinde. Verwendet wird die (AWS) S3-API, so dass implizit eine Cloud-native Anbindung existiert; ferner sind Datenverwaltungsfunktionen verfügbar, um die Datenplatzierung zu vereinfachen; Cloud- und on-premise Speicher können zu integrierten Teilen eines globalen Namensraums konfiguriert werden.

Filesystem-Lösungen als verteilte Scale-out NAS Implementierungen verwenden ein paralleles Dateisystem, das mehrere Speicherknoten umfasst, wobei über die Single Namespace Architektur ein logischer Speicherpool präsentiert wird, um den Datenzugriff mit hoher Bandbreite (GB/s) für n-Hosts parallel bereitzustellen. Die Daten werden über mehrere Knoten im Cluster verteilt; neben Durchsatzleistung wird eine hohe Verfügbarkeit bzw. Ausfallsicherheit erreicht. Leistungsmerkmale von SDS-Lösungen mit Objekt und File-Support betreffen u.a.:

Kapazitätsoptimierung: Datenreduktionstechnologien (Deduplizierung / intelligente Kompression) und Datenmigrations-Werkzeuge, die automatisiertes Verschieben (auto-tiering) zwischen HDDs, Flash, Tape und (public) Cloud Storage unterstützen.
Datenverfügbarkeit: Policy-basierte Funktionen wie Replikation- und Löschcodierung auf Benutzer-, Container- oder Objektebene.
Automatisiertes Data Life-Cycle Management (DLM): Richtliniengesteuerte Funktionen zum Verwalten und Löschen (inkl. self-healing) steigern die operationale Effizienz bei der Datenverwaltung im Multi-Petabyte-Bereich.
Skalierbarkeit: Diese bezieht sich in der Regel auf Kapazität und Leistung, hier Durchsatz (X-rate), Filegröße und Umfang.

Ein Fazit

Im Gegensatz zum hierarchischen NAS verwaltet die Objektspeicherung alle Objekte in einem flachen Filesystem, dass sich einfach erweitern lässt; Datei- und Objektdaten können zudem innerhalb eines Speicherpools konsolidiert werden = Speicher- und Data Management-Konsolidierung. Eine Herausforderung besteht zur Zeit, möglichst robuste und standardisierte Schnittstellen (S3 ist nicht S3... verschiedene Dialekte) zu Anwendungen wie bspw. Archivlösungen zu liefern (Stichwort: Compliance). Im Vergleich zu gängigen Dateiprotokollen wie NFS entwickelt sich die S3-API permanent weiter. Dieser Unterschied wird wichtig, wenn z.B. eine Anwendung aufgrund von S3-API-Inkompatibilitäten instabil laufen sollte. Ein weiterer Punkt betrifft die Verbindung von File- und (Cloud-) Objektspeicher über Gateway-Funktionalitäten, die nicht immer alle Protokolle- und Workloads wie General-Purpose Enterprise Fileshares optimal unterstützen (NFS, SMB, skalierbare Performance, Stabilität).

Die Einschränkungen traditioneller Network Attached Storage (NAS)-Systeme für die genannten (dateibasierten) Workloads veranlassen Unternehmen, nach objektbasierten Speicherlösungen zu suchen, die Filesystem-Funktionen unterstützen. Eine objektbasierte Speicherlösung mit integriertem File-Management macht den Übergang vom NAS interessant. Allerdings stellt aus Unternehmenssicht die objektbasierte Speicherung in Verbindung mit Public Cloud Angeboten noch eine Herausforderung für objektbasierte SDS-Anbieter dar. Hier dürfte am meisten Arbeit zu leisten sein wenn es darum geht, sichere und effiziente Migrationswege zwischen on-premise- und hybriden Multi Cloud-Architekturen zu schaffen, denn Shared File Storage Services in der Cloud werden aus Benutzersicht verstärkt nachgefragt.

Querverweise:

Blogpost > Budgetgerechtes Data Management mit Tiered Cloud Storage
Unser Beitrag > Storage- und Data-Management im Zusammenhang mit DevOps und Container Storage. Wie Unternehmen über Innovationen im digitalen Zeitalter erfolgreich sein können.

Automatisiertes Storage- und Information-Management, SRM

Cloud Computing, Cloud Storage, Hybrid Cloud, Multi Cloud

Data Protection, Disaster Recovery, Backup

Daten-DeDuplizierung, Kapazitätsoptimierung, Encryption

Datenklassifizierung, Information-Lifecycle-Management

RZ-Hosting, Storage as a Service, SaaS, IaaS, PaaS

Speicherkonsolidierung, SAN, NAS, Unified Storage, Object Storage

Speichernahe Archivierung, Compliance, Tape

Virtualisierung, Server, Storage, Block, File, Object, Software Defined Datacenter