Online-Datenmigration: belastbare QoS-Garantie mit DMS von Cirrus Data Solutions

Syosset NY (US), Starnberg, 26. April 2022 - Verfügbare Speicherbandbreiten für Migrationen besser nutzen und gleichzeitig den Umfang der QoS für Anwendungen sicherstellen...

Zum Hintergrund: Falls ein Produktionsspeicher im laufenden Betrieb migriert werden muss (online-Speichermigration), besteht die Gefahr einer Reduzierung der Anwendungsleistung. Die Verlangsamung beim Input/Output (I/O) tritt meistens dann auf, wenn die Anwendungsprozesse der Client-Hosts gleichzeitig auf die Festplatten des Produktionsspeichers schreiben und lesen, während der Migrationsprozess umfangreiche Lesevorgänge von denselben Festplatten durchführt. Dadurch erhöht sich die Anzahl der Eingabe-/Ausgabevorgänge beim Speicher-Controller, limitiert den begrenzten Cache und erhöht die Zufälligkeit des Zugriffs. Der Online-Speicher-Migrationsprozess beansprucht damit je nach Umfang eine größere Menge der verfügbaren Speicherbandbreite.

Host-basierte Migrationstools wie die integrierte LVM-Spiegelung (Logical Volume Manager), DR-Tools (Disaster Recovery) von Drittanbietern und VMwares Storage vMotion sind nach den Erfahrungen des US-Migrations-Spezialisten Cirrus Data hier keine Hilfe, das sie die Anwendungsspeicherleistung erheblich beeinträchtigen können. (1) Dies insbesondere dann, wenn diese Tools zur Durchführung größerer Migrationen ab 100 TB verwendet werden.

Leistungsmerkmale des Data Migration Server (DMS) von Cirrus Data Solutions (Quelle: Anbieter)

„Die Leistung des Speichers, wie sie von der Host-Anwendung wahrgenommen wird, wird als Quality of Service (QoS) des Speichers bezeichnet. Anwendungen erzeugen IOPS für kleine Datenblöcke wie Datenbanktransaktionen und/oder in Megabyte pro Sekunde (MB/s) für große Blöcke wie z.B. bei Videostreaming. Bei einem gut abgestimmten System, in dem IOPS und MB/s für eine bestimmte Anwendung optimiert sind, kann das Hinzufügen einer großen Anzahl von Lesevorgängen auf dem Produktionsspeicher während der Migration den Speicher zu stark belasten, was zu einem deutlichen Rückgang der E/A-Leistung führt.

Eine künstliche Drosselung des Migrationsprozesses kann zwar die Speicher-QoS verbessern, aber sie reduziert auch die Migrations-Performance und verlangsamt die gesamte Datenmigration. Mit diesen konkurrierenden Prioritäten im Hinterkopf wurde der Data Migration Server (DMS) von Cirrus Data Solutions (CDS) entwickelt. DMS soll die QoS während einer 24x7-Online-Datenmigration gewährleisten.

Um die QoS zu halten, führen Unternehmen manchmal eine willkürliche Begrenzung des Migrationsvolumens ein. Eine Begrenzung der maximalen Migrationsmenge in MB/s (oder IOPS) kann zwar die Auswirkungen auf die Speicher-QoS abmildern, schafft aber auch neue Probleme wie z.B. die Anwendungsleistung selbst negativ zu beeinträchtigen.

  • Anstelle ein „raten-basiertes“ Limit zu verwenden, führt iQoS von CDS das Äquivalent einer "automatischen Pause und Wiederaufnahme"-Funktion ein, die auf den tatsächlichen I/O-Bedingungen jeder zu migrierenden Festplatte basiert. DMS überwacht laut Entwickler dazu die Lese- oder Schreibbefehle, die auf jeder Festplatte in der Warteschlange stehen und auf die Ausführung durch den Speicher-Controller warten. Die Anzahl der ausstehenden Befehle ermöglicht eine genaue Berechnung des Aktivitätsniveaus oder der "Auslastung" einer bestimmten Festplatte. Auf der Grundlage dieser Berechnung wird eine "intelligente" Grenze für den Aktivitätsgrad festgelegt, bei deren Überschreitung die Festplatte als "ausgelastet" gilt.

  • Der iQoS-Algorithmus von CDS bestimmt außerdem innerhalb eines Messfensters, wie viel Prozent der Zeit die Festplatte belegt ist. Anhand dieser Daten kann der Migrationsprozess nun festlegen, wie viel Belastung für den Anwendungsspeicher akzeptabel ist, so dass das Unternehmen eine echte "Quality of Service" in der Produktionsumgebung aufrechterhalten kann. Wenn der Migrationsprozess niedrige Impact-Einstellungen verwendet, gibt der iQoS-Algorithmus dem Anwendungsspeicher nach, selbst wenn der "Busy"-Prozentsatz niedrig ist (indem er 5 Prozent als Impact-Einstellungswert zuweist). Wenn jedoch die Migration schnell abgeschlossen werden muss und der Anwendungseigentümer im Voraus zustimmt, kann die Impact-Einstellung auf 95 % gesetzt werden. In diesem Szenario wird die Migration so lange fortgesetzt, wie der Prozentsatz derbZeit, in der die Festplatte "beschäftigt" ist, unter 95 Prozent bleibt. Wenn DMS in diesem aggressiven Modus eingestellt ist, migriert es laut Anbieter zwischen 8 TB und 12 TB pro Stunde.

 

(1) Quelle / Link:  Cirrus Data > https://www.cirrusdata.com/

VMware hat laut Cirrus Data das XCOPY nur zum Verschieben von Daten zwischen LUNs implementiert, die sich unter demselben Speicher-Controller befinden (d.h. innerhalb eines einzigen Speichersystembereichs). Dies ist nicht ideal für ein reales Speichermigrationsszenario, da VMware die XCOPY Funktion nicht unterstützt, falls die Quell-LUN und die Ziel-LUN auf unterschiedlichen physischen Speichersystemen liegen - auch wenn es sich um denselben Hersteller und dasselbe Modell handeln sollte. Bei Verwendung des DMS von Cirrus Data wird der Migrationsvorgang nicht nur mit iQoS zur intelligenten Steuerung der Migration durchgeführt, sondern zu 100 Prozent auf der DMS-Appliance und nicht auf den ESX-Hosts von VMware. Dies ist vergleichbar einer universellen XCOPY-Funktion, die für alle Speicher implementiert ist, unabhängig davon, wo sich die Quell- und Ziel-LUNs befinden.

Fazit: iQoS kann es dem Unternehmen ermöglichen, die verfügbare Speicherbandbreite für die Migration besser zu nutzen und gleichzeitig den genauen Umfang der QoS für die Anwendung zu gewährleisten. Ohne iQoS führt die konstante Ratenbegrenzung zu einer verlängerten Migrationszeit und kann die Auswirkungen auf die Produktion nicht vollständig beseitigen. Mit iQoS wird die E/A der Produktion geschützt.“


Querverweise: