Starnberg, 19. Sept. 2016 - Eine unkontrollierte Vorhaltung von Daten treibt die Speicherkosten für Unternehmen leicht in die Höhe...
Um was es hier geht: Datenklassifizierung ist ein Stiefkind der Branche. Warum? Weil es einfacher ist, neuen Speicher zu beschaffen als sich mit den vorhandenen Daten im Unternehmen gründlicher zu beschäftigen. Der Preisverfall im Bereich der Speichermedien wirkte besonders in den letzten Jahren dabei als Katalysator, andererseits konnte man einen kontinuierlichen Anstieg der zu verwaltenden Datenmengen (unstructured data > 60% p.a.) beobachten. Vordergründige Kosteneinsparungen (CapEx) kommen als steigende Verwaltungskosten (OpEx), enge Backup-/Restore-Fenster, Siloarchitekturen oder Performance-Engpässe auf Grund komplexer virtualisierter Speicherlandschaften durch die Hintertür wieder herein. Dies alles ist natürlich nicht neu und Rechenzentren beschäftigen sich damit täglich schon seit x-Jahren.
Cloud Computing als Lösung?
Derzeit setzen viele Unternehmen auf Cloud Computing und die (IT-)Welt soll damit einfacher, kostengünstiger und flexibler werden. Mitnichten: Ohne eine valide Strategie zur Anbindung und im nächsten Schritt der Integration von internen IT-Services mit Private- und Public-Clouds (innerhalb eines hybrides Ansatzes) wird sich eine schnelle Umsetzung und damit der erhoffte ROI nicht einstellen. Das war bereits in den Anfängen von Outsourcing in diversen Großprojekten festzustellen, weshalb der Trend zu messbaren (selektiven) Outtasking-Projekten, besser bekannt als BPO ging. Aktuelle Beispiele: Archivierung, Backup oder Desaster Recovery Services. Diese Dienstleistungen (XaaS) - gerade für viele Mittelständler in Deutschland - attraktiv, sind zwischenzeitlich mit Hilfe von Cloud Technologien für verschiedenste Service Provider ein erfolgreiches Geschäftsmodell geworden.
Der Nutzen von Cloud Computing im Kontext von Storage Services, also die flexible Bereitstellung neuer Services, pay per use, Entkopplung von Technologieentwicklungen, niedrigere Betriebskosten, hohe Skalierbarkeit etc. stellt sich erst ein, wenn vorher entsprechende Strategien bzw. Business Cases gründlich ausgearbeitet werden. Stichworte: Unternehmerische Zielsetzung, rechtliche Aspekte, SLOs/SLAs, Datenschutz und auch Exit-Strategie.
Mögliche negative Implikationen bei Hybrid- und Public Cloud-Angeboten können für Unternehmen auf der IT-Infrastuktur-Seite vielfältig ausfallen. Stichworte hier: Fehlende Standards erschweren Umsetzung, mangelhafte Zugriffsrechte-/Zeiten, geringe Netzwerkperformance, aufwendige Datenmigrations-Arbeiten (Zeit, Mengengerüst, Kosten) oder generell die Applikationsperformance- und Verfügbarkeit.
Treibende Faktoren für Storage-Clouds
Die unkontrollierte Vorhaltung von Daten treibt die Speicherkosten der Unternehmen in die Höhe, lässt Restore-Probleme entstehen und erschwert e‐Discovery-Prozesse. Erfahrungswerte zeigen, dass zum Beispiel rund 75 Prozent aller Backupdaten auf unbestimmte Zeit aufgehoben werden (Backups dienen eigentlich nicht dazu, für mehr als 60 Tage gespeichert zu werden). Archive sind für die Langzeitspeicherung konzipiert und alle anderen Informationen sollten konsequenterweise gelöscht werden. Eigentlich ideale Voraussetzungen für viele mittelständische Unternehmen mit begrenzten IT-Ressourcen, auf Cloudangebote zu setzen. Die Schwierigkeit liegt aber wie so oft im Detail: Welche Daten können in die Cloud migriert werden und welche sollten wirklich sicher gelöscht werden? Fragestellungen, die für viele Unternehmen auf Grund fehlender Werkzeuge bzw. des rasch wachsenden Datenvolumens nicht immer einfach und vor allem schnell, also ohne großen Aufwand zu beantworten sind.
Aus Data Management - Sicht können Unternehmen die zu verwaltenden Kapazitäten und damit Kosten erheblich reduzieren, wenn sie Maßnahmen ergreifen, mit denen sie Dateien - entsprechend den Compliance-Richtlinien und gesetzlichen Vorgaben nicht länger als notwendig aufbewahren (bestimmte Datentypen, wie zum Beispiel Verträge oder Bestellungen, müssen über mehrere Jahre aufbewahrt werden, andere können früher gelöscht werden).
Weitere Problemebetreffen den Schutz von sensiblen Daten in der Cloud, oder wie angesprochen: Was soll in die Cloud? Die Datenklassifizierung betrifft im wesentlichen den Bereich von unstrukturierten Dateien im Unternehmen. Diese werden im Idealfall dann automatisch nach Geschäftskontext oder Erstellungsprozess bewertet und anschließend über Archivdaten mit der Information in Kontext gesetzt. Datenklassifizierung wird auch bei strukturiertem Content in z.B. Datenbanken angewendet. Ziel ist es hier, die richtigen Daten auf dem geeigneten Speicher automatisiert zu placieren (Auto-Tiering), um I/O-Performanceaspekte, Zugriffszeiten und Speicherkosten zu optimieren.
Datenklassifizierung kann also “Speichernah” (Data-Lifecycle-Management, d.h. datenzentrisch) oder “Anwendungsnah” (Applikations- oder Informationszentrisch, ILM) betrachtet werden und stellt eine wichtige Voraussetzung für Enterprise Content Management, Email-Archiving und E-Discovery - Prozesse dar. Man unterscheidet drei Verfahren:
- Manuell
- Regelbasiert
- Kontextbasiert
Die manuelle Auswertung ist auf Grund der Datenvielfalt- und Mengen teuer (Faktor 10 - 20) und daher zunehmend wenig praktikabel. Den automatisierten Verfahren gehört somit Beachtung. Aspekte wie Security, Regelkonformität, Zugriffsrechte, Speicherzeiten etc. sind Unternehmensspezifisch zu werten (Anwendungen, Branchen), weshalb Daten- und Informationsklassifizierungs-Projekte in der Praxis neben der entsprechenden Software meist den Einsatz von Professional Services bedingen.
Fazit: Backup-Recovery, Archive oder Business Continuity - Anwendungen sind aus Storagesicht auch ideale Anwendungen für die Daten-Klassifizierung, da dort der Anteil an redundanten Daten hoch ist. Wichtig ist in diesem Zusammenhang die effektive Anwendung von DeDuplizierung mit intelligenter Komprimierung zur Kapazitätsoptimierung. Neue Entwicklungen - zur Zeit hauptsächlich im Umfeld von DevOps eingesetzt - sind sog. Data Copy Virtualization Tools, die auf Grund der verwendeten Technologie (nur eine „goldene“ Data Master Kopie) n-virtualisierte Daten flexibel bereitstellen können und damit die Menge an Kopien reduzieren. Software Definierte Speicherlösungen wiederum können helfen, wichtige Daten plattformunabhängig und transparent für Hypervisor-Systeme bzw. Applikationen on-premise und in der Cloud zu provisionieren bzw. zu verwalten (Evolution von Storage Virtualisierung zu Software Defined Storage).