Blogpost: Wachsendes Interesse an skalierbaren File- und Objektspeicher-Systemen

Starnberg, 26. Febr. 2018 - Kriterien und Leistungsmerkmale von Unternehmens-Speicherlösungen mit Objekt- und File Storage-Support...

Um was es hier geht: Entwickler und Anwender benötigten von der IT-Infrastruktur mehr denn je maximale Flexibilität und Verfügbarkeit. Fast jede Branche ist davon berührt, was mit einer zunehmenden Anzahl von verschiedenen neuen Apps, Datenformaten, Benutzern und deren sich schnell ändernden Anforderungen aus Themen wie IoT oder Data Analytics (Stichwort: Digitalisierung) einhergeht. Um traditionelle Speichersysteme (typische Dual-RAID Controller) jedoch unabhängig von anderen Ressourcen zu skalieren – bei einer steigenden Zahl von Anwendungen - erhöht beim scale-up natürlich auch die Anzahl der verschiedenen Storage-Systeme im Rechenzentrum. Dies wiederum kann zu mehr Kosten (OPEX, CAPEX) sowie einer Zunahme an Komplexität bzw. Fehlerpotentialen führen (Ausfallsicherheit).

Mit dem Anwachsen von semi- und unstrukturierten Datensätzen im Multi-Petabyte-Bereich kommt das klassische Array-Modell mit NAS- und Block Storage bei großen Umgebungen an Grenzen: dies betrifft wie erwähnt sowohl die Kosten beim weiteren Kapazitätsausbau in Verbindung mit der erforderlichen Datenverfügbarkeit (n-Site-Umgebungen, Data-Replikation, Rebuild / RAID 6, begrenzte Scale-out-Fähigkeiten, Lizenzkosten, Management etc.), als auch die skalierbare Leistungsfähigkeit (Durchsatz).

Alternativen: Object-/File- und Cloud Storage?

Anders als Transaktions-orientierte Datenbanken mit ihren spezifischen Anforderungen an Leistung (Latenz) und Datenkonsistenz wurden Objektspeicher-Systeme auf massive Skalierbarkeit hin entwickelt und liefern über Geo-Replikation, Erasure Coding usw. auch hohe Datenverfügbarkeit bei Hardware-Ausfällen. Bei Swift z.B. werden Objekte durch das Speichern mehrerer Kopien von Daten so abgesichert, dass bei Ausfall eines Knotens die Daten von einem anderen Knoten abgerufen werden können. Diese Architektur ist damit besonders für stark verteilte Infrastrukturen mit vielen unstrukturierten Daten an weltweiten Standorten geeignet.

Die Lösungen sind also in der Lage, sehr hohe Kapazität zu unterstützen (n-PB's) und eignen sich gut für Workloads, die hohe Bandbreiten benötigen, aber weniger für transaktionsorientierte Umgebungen, bei denen hohe IOPS-Werte bzw. niedrige Latenzen im sub-ms Bereich gefordert sind.

Verteilte Filesystem-Speicher (distributed scale-out NAS) wiederum verwenden ein einzelnes paralleles Dateisystem, um mehrere Speicherknoten zusammenzufassen, wobei ein Namensraum (single namespace Architektur) und ein logischer Speicherpool präsentiert werden, um den Datenzugriff mit hoher Bandbreite für mehrere Hosts parallel bereitzustellen. Die Daten werden über -Knoten im Cluster verteilt, um die Verfügbarkeit und Ausfallsicherheit auf zu gewährleisten; inklusive hohem Durchsatz und linearer Skalierbarkeit.

Leistungsmerkmale von SDS-Lösungen mit Objekt und File-Support

  • Skalierbarkeit: Die Skalierbarkeit bezieht sich auf Kapazität und Leistung, d.h. den Durchsatz (X-rate), Filegröße und Umfang, und zwar für jeden Paramenter unabhängig voneinander.

  • Kapazitätsoptimierung: Datenreduktionstechnologien wie Dedupe, intelligente Kompression oder Replikation als Technologien zur Datenoptimierung, die automatisiertes Tiering auf HDDs, SSDs, Tape und Cloud-Storage (public) einschließen.

  • Datenverfügbarkeit: Policies-driven Funktionen wie Replikation- und Löschcodierung auf Benutzer-, Container- oder Objektebene.

  • Automatisiertes Data Life-Cycle Management: Richtliniengesteuerte ILM-Funktionen zur Verwaltung, Löschung und Reparatur (self healing) von Daten steigern die Effizienz bei der Verwaltung von Petabytes an Daten.

  • Benutzer-zentriertes Datenmanagement und Reporting: einfache und zentrale Oberfläche, die ein detailliertes Reporting über die Daten ermöglicht.

Fazit: Diverse Herausforderung derzeit bestehen für viele Anbieterlösungen zur Zeit darin, möglichst robuste, standardisierte Schnittstellen (z.B. S3 ist nicht S3 und besitzt unterschiedlichste Dialekte...) zu Anwendungen wie z.B. Archivlösungen zu liefern. Ein weiterer Punkt betrifft die Verbindung von File (NAS) und (Cloud-) Object über Gateways, die nicht immer zufriedenstellend alle Protokolle-/ Workloads (z.B. general-purpose enterprise file share) in geeigneter Weise unterstützen (NFS, CIFS, SMB, Performance, robuste Stabilität). Hier ist derzeit wohl noch die meiste Arbeit zu leisten, vor allem um einen 100% sicheren und performant-/transparenten Daten-Migrationspfad zwischen on-prem- und hybriden- bzw. MultiCloud-Architekturen zu erreichen.


Quellen

  • Magic Quadrant for Distributed File Systems and Object Storage. Published: 17 October 2017 ID: G00318930. Analyst(s): Julia Palmer, Arun Chandrasekaran, Raj Bala.

  • Nach IDC (Worldwide File- and Object-Based Storage Forecast, 2016-2020 #USC41685816, Sept. 2016), wird erwartet, dass die objektbasierte Speicherkapazität bei einer jährlichen Wachstumsrate von 30,7% von 2016 bis 2020 auf 293,7EB im Jahr 2020 ansteigen wird.