Blogpost zu NVMeoF und FC SANs (part2)

Starnberg, 29. April 2019 - Fibre Channel (FC), Non-Volatile Memory Express (NVMe) und NVMe over Fabrics (NVMeoF)...

Um was es hier geht: Nachdem in früheren Blogposts bereits detaillierter über NVMe berichtet wurde, werde ich hier auf die technischen Grundlagen dieses Protokolls nicht weiter eingehen. Von Interesse erscheint mir die Frage, wie eine weitere Entwicklung von Fabric-basierten NVMe-Systemen sich mit klassischen Fibre Channel (FC) SAN Architekturen "verträgt" und welche Möglichkeiten sich daraus für Unternehmen ergeben. Anwendungsseitig sorgen Entwicklungen im Data Analytics Umfeld sowie im Bereich der künstlichen Intelligenz (ML, DL) dafür, dass CPU- und GPU-seitig deutlich mehr IOPS-Leistung von den Speichersystemen benötigt wird. Zeitgleich steigt die Datenmenge und neue Anforderungen entstehen aus der Edge-to-Core- zu Cloud-Integration. Mit anderen Worten: die Herausforderungen in Bezug auf Kosteneffizienz, Kapazität und Durchsatz (Bandbreite) von Speichersystemen und dem Storage Networking steigen.

Davon "betroffen" ist auch der Protokoll Stack und insbesondere im SAN Umfeld das weitverbreitete FC- und SCSI-Protokoll. Wie bereits in meinem Blogpost vom 27. Febr. 2019 angerissen, ist für den deutschsprachigen Raum mit immer noch relativ vielen FC SAN Installationen die Frage von Bedeutung, wie sich eine weitere Entwicklung von Fabric-basierten NVMe-Systemen in Verbindung mit Fibre Channel und Ethernet darstellt und welche Möglichkeiten sich daraus ergeben.

Unternehmensweite Speichernetzwerke in der Weiterentwicklung

Das SAN hat sich im Zusammenhang mit den Weiterentwicklungen im Compute-, Storage- und Netzwerkbereich über die Jahre stark verändert, aber die Basis ist identisch: das Storage Area Network ist ein spezialisiertes Netzwerk, das überwiegend Block-Level-Netzwerkzugriff auf den angeschlossenen Storage ermöglicht. SANs bestehen in der Regel aus Hosts, Hostbus-Adapter, Switches und Speichergeräten, die über verschiedene Technologien und Protokolle bzw. Verwaltungssoftware miteinander verbunden sind. SANs können sich aus Gründen der Hochverfügbarkeit und geschäftlicher Anforderung dabei über mehrere Standorte erstrecken. Ein SAN stellt einem Host die Speichergeräte so dar, als wären diese lokal angeschlossen. Dies wird durch den Einsatz spezifischer Virtualisierung erreicht. Ein SAN-Array z.B. bietet einen konsolidierten Storage-Ressourcen-Pool, typischerweise auf Basis virtueller LUNs, die in Cluster-Umgebungen von mehreren Hosts gemeinsam genutzt werden (shared storage).

Enterprise Storage Networking unterstützt eine Vielzahl an geschäftskritischen Anwendungen und benötig, latenzarme und robuste Speichernetzwerk-Technologien und Protokolle, die stufenlos skalierbare Leistung, hohe Datenintegrität und sichere Übertragung unterstützen; zentrale Quality-of-Service Kriterien, die mit IP-basierten Netzdiensten in der Vergangenheit nicht, oder nur komplizierter zu realisieren waren. Nun hat sich Ethernet (NICs, Switches, Protokoll) stetig weiterentwickelt und ist - nicht zuletzt durch den breiten Einsatz bei großen software-definierten Hyperscale-Rechenzentren - heute ein wichtiger Eckpfeiler für den kosteneffizienten Data Storage Transport geworden. Aber die Anforderungen an Speichernetzwerke beginnen sich schnell zu ändern, insbesondere weil das Storage-Medium der Wahl schon bald nicht mehr die mechanische Festplatte, sondern überwiegend Memory-basierend sein wird; der damit verbundene Leistungssprung wiederum betrifft das SCSI-Protokoll.

Hochleistungsspeicher- und Anwendungen verlangen nach latenzarmen Protokollen und Netzwerken

  • Non-Volatile (Solid-State) Memory Storage (NVM) wie Flash SSDs oder 3D-X-Point (z.B. Intel Optane) in Verbindung mit Hochleistungsanwendungen jedenfalls verlangen nach optimierten Übertragungsprotokollen und flexibel skalierbaren low-latency Netzwerken. NVMe Storage über NVMeoF als neues SAN-Paradigma (via FC, InfiniBand, Ethernet) ist die explizite Antwort für höchste Performance.

  • NVMeoF verwendet neben NVMe als Protokoll auch Remote Direct Memory Access (RDMA), um Daten zwischen NVMe Host- und Speichersystemen zu übertragen. Die Technik basiert auf NVMe.org-Spezifikation, welche die Übermittlungs- und Steuerungsparameter zwischen dem NVMe-Protokoll und RDMA definiert. RDMA selbst ist ein seit langem bekanntes Protokoll, dass seinen Ursprung im High Performance Computing (HPC) hat und meist im Zusammenhang mit Compute Cluster Systemen verwendet wird.

  • Fibre Channel (FC)-NVMe beschreibt die Möglichkeit zur Datenübertragung über NVMe auf Basis des Fibre Channel (FC)-Transportprotokolls FCP, also nicht über RDMA. Das T11 Standardisierungs-Komitee hat hierzu eine neue FC-NVMe-Normenspezifikation erstellt. Der aktuelle FC NVMe-2 Standard aus dem T11 beschäftigt sich mit weitergehenden Performance- und Sicherheits-Optimierungen im Protokollstack (derzeit in Arbeit).

Welche Rolle kann Fibre Channel im Verbund mit NVMe spielen?

Datenintegriät, latenzarme Übertragungsleistung und Funktionen wie z.B. Buffer Flow Control ermöglichen es FC, auch anspruchsvolle Unternehmens-SLAs zu definieren und QoS-Levels zu erfüllen. Das Protokoll eignet sich gut als NVMe Transport, da es sowohl SCSI- als auch NVMe-Traffic gleichzeitig auf derselben Fabric unterstützt. Bestehende Gen5 (16G) und Gen6 (32G) FC SANs können FC-NVMe über bestehende SAN-Fabrics mit nur wenigen Änderungen betreiben, da alle Spezifikationen von NVMe erfüllt werden.

Aber es gibt konkurrierende Entwicklungen und man wird letztlich sehen, welche Technologien sich über die Zeit auf breiter Front durchsetzen. NVMeoF / RDMA Varianten sind iWARP, InfiniBand, NVMe-TCP (in Entwicklung) sowie RoCEv2 („Rocky“). Die Erfahrung zeigt, dass verschiedene Technologien über eine längere Zeit am Markt koexistieren, um radikale Brüche in der kritischen IT-Infrastruktur (betrifft dann auch die Anwendungsseite) zu vermeiden.

  • Das iSER Protokoll (iSCSI Extensions for RDMA) z.B. ist eine Variante, die konzipiert wurde, um die Vorteile von RDMA-Fabrics im Bereich skalierbarer Speichernetzwerk-Performance zu nutzen. Es agiert als Übersetzungs-Layer, der iSCSI Transaktionen für den Betrieb via RDMA über Converged Ethernet (RoCE), iWARP RDMA und InfiniBand bzw. Intel OmniPath-Architektur ermöglicht.

  • iSER iWARP/RoCE benötigt für hohe Leistung allerdings eigene RDMA-fähige 10/25/40/50/100GbE RDMA-Offload-Hardware und zwar sowohl innerhalb der Server (initiators-) als auch der Zielsysteme (targets). Eine Einschränkung der iSER Technologie: das mögliche Zusammenspiel mit iSCSI-Endknoten erfordert ein Deaktivieren von iSER-Erweiterungen sowie den Verlust der Hardware-Offload-Unterstützung. In Bezug auf die Performance im direkten Vergleich zu iSCSI-Software-Implementierungen bietet iSER durch den Hardware-Offload eine verbesserte Leistung bei gleichzeitig geringerer CPU-Auslastung.

  • Wird deutlich mehr Leistung in Form von geringsten Latenzen beim I/O benötigt, ist Non-Volatile Memory Express (NVMe) das optimierte Protokoll für die Host-Kommunikation via nativen PCIe-SSDs. NVMe over Fabrics (NVMe-oF) als skalierbare Variante zu Direct Attached SSDs (DAS) ermöglicht es, die Daten via NVMe-oF über ein Speichernetz auf Basis Ethernet (RoCE / iWARP), Fibre Channel oder InfiniBand zwischen angeschlossenem Host und Flashstorage (SSD, NAND Array etc.) zu übertragen. Ein Nachteil von NVMEoF: Wie bei iSER können aber auch hier NVMe-oF Ethernet-RDMA-Endknoten nur mit anderen NVMe-oF-Ethernet-Endknoten zusammenarbeiten, die denselben Ethernet-RDMA-Transport unterstützen. NVMe-oF-Endknoten können nicht mit iSCSI- oder iSER-Endknoten zusammenarbeiten.

Kombinieren oder separat betreiben?

Die NVMe over Fabric Technologien sind technologisch weit entwickelt, aber die derzeitigen Herausforderungen liegen Anwendungsseitig wie immer im Detail. Quality of Services (QoS) Parameter sind aus Betreibersicht zur Erfüllung von Kunden-SLAs unerlässlich. Es wird entscheidend sein, dass NVMeoF in der Lage ist, einen verlustfreien Transport sicherzustellen, so wie es heute bei FC der Fall ist. RDMA-Transporttechnologien erfordern die Einführung zusätzlicher Protokolle, um verlustfreie QoS Levels in der Fabric zu gewährleisten, was die Komplexität (OPEX) erhöht; die Entscheidung, entweder RDMA-fähige NICs oder TCP offload engine Technologien einzusetzen, ist nicht immer leicht zu treffen und kann eine wesentliche Beschränkung gegenüber etablierten Technologien wie FC SAN Fabrics bedeuten. Experten empfehlen deshalb, NVMe Fabrics für unternehmenskritische Anwendungen als separate Einheit aufzusetzen und nicht zu mischen.

  • Fibre Channel mit seiner breiten installierten Basis im Rechenzentrum ist in Bezug auf seine robuste und zuverlässige Leistung technologisch gut positioniert, um mit NVMe Storage zusammenzuspielen, zumal weniger Konfigurationsarbeit und ein geringerer Verwaltungsoverhead notwendig werden; dies unterscheidet das bewährte Enterprise Storage Protokoll derzeit noch von andere Transporttechnologien.

  • NVMe über Fibre Channel verfügt über die für viele neue Apps erforderlichen extrem niedrigen Latenzzeiten sowie robuste Zuverlässigkeit, die für Unternehmensspeicher entscheidend ist. NVMe über Fibre Channel kann heute bereits Fabric-basierte Zoning- und Namensdienste zu nutzen und arbeitet nahtlos mit etablierten Fibre Channel Upper-Layer-Protokollen zusammen. Damit ermöglicht die Technik einen risikoarmen und kosteneffizienten Übergang von SCSI zu NVMe auch für große shared Storage Kapazitäten, ohne vorab in vielleicht eher exotischere Infrastrukturen investieren zu müssen.

Fazit: Wie viele Technologien wird auch das SAN nicht verschwinden. Es wird sich verändern und neue Varianten bieten, aber die grundsätzlichen Hauptvorteile der Architektur bleiben. Ein Beispiel: Server SANs als Memory-basierte Lösung mit NV-DIMMs liefern die Performance von lokalem Flash (DAS) zu den Vorteilen einer zentral verwalteten Speichernetzwerk-Umgebung und sind damit ideal für Hochleistungs-Anwendungsfälle wie NoSQL, KI oder hoch-konsolidierte virtuelle Workloads. Der Virtualisierungs-Layer läuft dann auf den Hostsystemen und nicht im Array (Software Defined Datacenter - Architektur), sodass eine maximale Flexibilität für die skalierbare Infrastruktur-Perfromance erreicht werden kann. Kombiniert man die Memory-zentrierte Architektur mit bestehenden FC-SANs und NVMe (Storage-zentrierter Ansatz), ergeben sich für RZ-Betreiber flexible Möglichkeiten, bewährte Architekturen mit aktuellster I/O-Technologie je nach Workloads, Budget und Bedarf zu konfigurieren bzw. zu ergänzen. Mit der weiteren Entwicklung im Halbleiter-Speicherbereich steht es jedenfalls außer Frage dass latenzarme Protokolle - die nicht mehr auf dem SCSI-Protokollstack beruhen - erfolgreich sein werden.

Es ist bis dahin damit wie so häufig in unserer Industrie kein „entweder oder“, sondern eine Frage der evolutionären Entwicklung und Koexistenz von Bewährtem mit neuen Technologien, was sich auch über einen längeren Zeitraum von fünf Jahren und mehr erstrecken kann. Eigentlich keine so schlechten Aussichten für Rechenzentrumsbetreiber, gerade unter dem Stichwort Investitionsschutz.


Quellenangabe / Links:

Link > https://nvmexpress.org/

Link > https://www.snia.org/