Flash SSD Einsatz und Zuverlässigkeit bei IT-Produktionsumgebungen

Starnberg, 29. Juli 2019 - Einsatzbedingungen und Workload-Profile bestimmen in hohem Maß die Auswahl der jeweiligen Technologieoption; SLC nicht per se zuverlässiger...

Um was es hier geht: Der Einsatz von Solid State Drives auf Basis NAND Flashtechnologie in Rechenzentrums-Umgebungen wächst kontinuierlich. Da immer mehr Geschäftsdaten auf Flash Storage abgespeichert werden, hängt die Verfügbarkeit dieser Daten entscheidend von der Zuverlässigkeit der Storagemedien ab. In diesem Zusammenhang ist es deshalb notwendig zu verstehen, dass neben der Laufwerksleistung (I/O-Performance) die Einsatzart der Drives von Bedeutung ist. Leistungs- und Zuverlässigkeitskriterien bei SSDs betreffen die Frage, wie sich NAND Flash Drives in der Praxis mit den jeweils vorhandenen Anwendungsprofilen auf längere Sicht vertragen.

Applikation-Workloads, wie schreib- bzw. lese-intensive oder auch solche für eine gemischte Nutzung haben (etwas anders als bei HDDs) einen direkten Einfluss auf die SSD-Performance plus Lebensdauer und sind nicht zu vernachlässigen. Beispielsweise könnte sich der Betreiber einer Datenbank mit großer gemischter Transaktionslast für eine höhere Anzahl von Laufwerken auf Kosten der absoluten Kapazität entscheiden. Oder ein Betreiber einer Datenbank, die nur relativ wenig Schreibvorgänge durchführt (80:20), kann eine geringere Laufwerksanzahl, aber dafür höhere Kapazitäten pro SSD wählen.

Wie Zuverlässig sind SSD Drives?

Ein NAND Flash Drive sollte idealerweise so lange halten, wie Hersteller die Lebensdauer spezifiziert haben, vorausgesetzt, der Einsatz der Laufwerkstechnologie ist mit den jeweiligen Apps.-Workloads abgestimmt. Beispiel: QLC als Consumer-Technologie ist gegenüber SLC preiswerter, aber in einer professionellen RZ-Umgebung für Anwendungen mit hoher Schreiblast derzeit weniger geeignet; zudem QLC systeminhärent beim I/O langsamer ist als SLC.

Beachten Sie also bitte die Empfehlungen des Herstellers, um sicherzustellen, dass die Einsatzart auch dem jeweiligen Einsatzzweck entspricht. Es ist meist gut dokumentiert, wie sich verschiedene SSD-Technologien auf ihre Zuverlässigkeit auswirken und ob es sinnvoll ist, zusätzliches Geld für SLC auszugeben. Unabhängig davon sollte man natürlich auch bei Flash immer auf einen soliden Backup-Plan zurückgreifen, denn egal welcher SSD-Typ eingesetzt wird: auch Halbleiterspeicher halten nicht unbegrenzt ohne Fehler durch -;)

Ein lesenswerter Bericht der Universität Toronto in Kooperation mit Google beleuchtet hierzu - basierend auf einer wissenschaftlichen Auswertung - die Zuverlässigkeit von Flash Storage in Bezug auf den Einsatz in IT-Produktionsumgebungen, also innerhalb von großen Rechenzentren. Ich habe Ihnen nachfolgend den Abstrakt (Einleitung) des Dokuments mit dem Link auf das Originaldokument nebst Quellenangaben als Übersetzung beigefügt. Das Untersuchungsergebnis der AutorenInnen überrascht dann vielleicht doch etwas...


Titel: „Flash-Zuverlässigkeit in der Produktion: Das Erwartete und das Unerwartete“

Link > https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder

This paper is included in the Proceedings of the 14th USENIX Conference on File and Storage Technologies (FAST ’16). February 22–25, 2016 • Santa Clara, CA, USA

ISBN 978-1-931971-28-7

Autoren: Bianca Schroeder, University of Toronto; Raghav Lagisetty und Arif Merchant, Google, Inc.

„Abstrakt: Da Solid-State-Laufwerke auf Basis der Flash-Technologie immer mehr zu einem Grundpfeiler für die dauerhafte Datenspeicherung in Rechenzentren werden, ist es wichtig, deren Zuverlässigkeitseigenschaften zu verstehen. Während es eine große Anzahl von Arbeiten gibt, die auf Experimenten mit einzelnen Flash-Chips in einer kontrollierten Laborumgebung unter synthetischer Belastung basieren, fehlen Informationen über ihr Verhalten im Feld. Dieses Papier enthält eine groß angelegte Feldstudie, die viele Millionen „drive days“, zehn verschiedene SSD-Modelle, verschiedene Flash-Technologien (MLC, eMLC, SLC) über sechs Jahre Produktionseinsatz in den Rechenzentren von Google umfasst. Wir untersuchen eine breite Palette von Zuverlässigkeitsmerkmalen und kommen zu einer Reihe unerwarteter Schlussfolgerungen. So steigen beispielsweise die Rawbit-Fehlerraten (RBER) mit zunehmendem Verschleiß deutlich langsamer als die üblicherweise angenommene exponentielle Rate und vor allem sind sie nicht vorhersagbar für unkorrigierbare Fehler oder andere Fehlermodi. Die weit verbreitete Metrik UBER (uncorrectable bit error rate) ist keine aussagekräftige Metrik, da wir keinen Zusammenhang zwischen der Anzahl der Lesezugriffe und der Anzahl der uncorrectable errors sehen. Wir sehen keinen Beweis dafür, dass High-End-SLC Drives innerhalb der typischen Laufwerkslebensdauer zuverlässiger sind als MLC Drives. Im Vergleich zu herkömmlichen Festplatten haben Flash-Laufwerke eine deutlich geringere Austauschrate im Feld, aber eine höhere Rate an nicht korrigierbaren Fehlern...“

(Mit DeepL übersetzt).