Maßnahmen für mehr Resilienz bei der Verwendung von Cloud Computing Diensten

Submitted by Storage Consortium on 12 January, 2022 - 17:49

München, Starnberg, 12. Jan. 2022 - Als Services von Akamai, Facebook, Amazon etc. nicht mehr erreichbar waren; Cisco ThousandEyes Kommentar zu Gegenmaßnahmen...

Zum Beitrag: Spätestens seit dem Ausbruch der Pandemie haben viele Online-Dienste und digitale Plattformen einen enormen Anstieg bei den Nutzerzahlen erfahren. Doch was passiert, wenn die Internetverbindung unterbrochen wird und alles gezwungenermaßen offline geht? Für viele Unternehmen bedeuten Ausfallzeiten Umsatz- und Reputationsverluste sowie mögliche Ressourcenprobleme, um auf die Vorfälle zu reagieren. Dabei ist es nach den Erfahrungen des Network-Intelligence-Unternehmen Cisco ThousandEyes durchaus möglich, die Auswirkungen solcher Vorfälle zu umgehen oder zu minimieren; auch indem man aus den Erfahrungen anderer lernt. Der Anbieter jedenfalls hat nach eigenen Angaben alle derartigen Störungen beobachtet und analysiert. Hier eine kurze Aufstellung und Analyse mit den aus seiner Sicht weitreichendsten bzw. bedeutendsten Störungen aus dem vergangenen Jahr in einer Zusammenfassung (1):

1. Amazon Web Services – 15. Dezember 2021

Ein kurzer Ausfall von Amazon Web Services (AWS) betraf Dienste und Anwendungen in den Regionen US-WEST-1 und US-WEST-2. Der Vorfall dauerte etwa 45 Minuten, und trat zu Beginn des Arbeitstages an der Westküste der USA auf. So wurde der Zugang zu Authentifizierungs- und Kollaborationsplattformen, die auf AWS angewiesen sind, unterbrochen – darunter Okta, Workday und Slack. AWS bestätigte die Beobachtung von ThousandEyes, dass Probleme mit der Netzwerkkonnektivität aufgrund von durch Überlastung verursachten Datenverlusten dafür verantwortlich waren. Beispiel-Link zur Analyse > https://www.thousandeyes.com/blog/aws-outage-analysis-december-15-2021

2. Amazon Web Services – 7. Dezember 2021

Ebenfalls bei AWS, dem größten Anbieter von Cloud-Computing-Diensten in den USA, kam es Anfang Dezember zu einem noch größeren Ausfall. Die Unterbrechung dauerte über eine Stunde und verursachte Probleme, die sich auf die Benutzer mehrerer wichtiger Dienste auswirkten, darunter AWS Console, Amazon Prime Now und Amazon Pharmacy. Auch viele Dienste, die auf AWS angewiesen sind, wie IoT-Geräte für Verbraucher wie Roomba und Ring, waren davon betroffen. Große Streaming-Dienste wie Disney+ und Netflix waren ebenfalls nicht verfügbar. Dieser Ausfall hatte vor allem erhebliche Auswirkungen auf die Anwendungen und Dienste von Unternehmenskunden. So mussten viele IT-Spezialisten in Unternehmen mehr als eine Stunde lang darauf warten, dass die Status-Seite des Anbieters die Hintergründe des Vorfalls anzeigte.

3. Facebook – 4. Oktober 2021

Am 4. Oktober konnten die Dienste von Facebook, Instagram und WhatsApp nicht mehr abgerufen werden. Der Ausfall betraf demnach hunderte Millionen, wenn nicht sogar Milliarden von Nutzern weltweit. Zusätzlich gab es Meldungen über Probleme mit Dienstanbietern, die aufgrund des hohen Internetverkehrsaufkommens von Facebook ebenfalls betroffen waren. Der reguläre Betrieb konnte für alle drei Messaging-Plattformen sieben Stunden später wiederhergestellt werden. Der Ausfall von Facebook stellte in Bezug auf Umfang und Dauer eine erhebliche Störung dar, die auch monetäre Auswirkungen hatte: Laut Forbes soll der Ausfall zu Umsatzeinbußen in Höhe von 60 bis 100 Millionen US-Dollar und einem Rückgang der Marktkapitalisierung um 47,3 Milliarden US-Dollar geführt haben.

4. Akamai DNS – 22. Juli 2021

Ende Juli kam es bei Akamai zu einem weitreichenden Ausfall. Dieser führte dazu, dass Nutzer weltweit die Websites von Kunden des Unternehmens nicht mehr erreichen konnten. Der Ausfall dauerte über eine Stunde und hatte erhebliche Auswirkungen auf viele Websites und Anwendungen, die unter anderem im Bankwesen, Flugverkehr und im Gaming-Bereich genutzt werden. Akamai DNS ist ein kritischer Dienst, der Nutzer zum CDN-Edge von Akamai weiterleitet. Nutzer, die versuchten, von Akamai gehostete Webseiten aufzurufen, erhielten während des Ausfalls eine Fehlermeldung. Der Grund: Die von ihnen jeweils angeforderte Domain konnte nicht in eine gültige IP-Adresse aufgelöst werden. Der Ausfall war von besonderer Bedeutung, da er nicht nur Akamai-Kunden betraf, sondern auch diejenigen, die auf Dienste von Akamai angewiesen sind. Unternehmen, die einen Multi-CDN-Ansatz verwenden, wie Amazon, blieben von den Auswirkungen dieses Vorfalls weitgehend verschont.

5. Akamai Prolexic Routed – 16. Juni 2021

Bei Prolexic Routed, dem DDoS-Abwehrdienst von Akamai, kam es zu einer Serviceunterbrechung, durch die die Webseiten einiger Kunden für australische Internetnutzer und diejenigen, die in der asiatisch-pazifischen Region leben, für unterschiedlich lange Zeit nicht erreichbar waren. Um seine Kunden vor DDoS-Angriffen zu schützen, bereinigt Prolexic Routed den eingehenden Datenverkehr. Dazu werden (mit Erlaubnis) Kundenpräfixe anzeigt, bevor eingehende Anfragen an das jeweilige Netzwerk weitergeleitet werden. Die Ursache für diesen Vorfall war eine versehentliche Überschreitung des Limits der Routing-Tabelle. Der Ausfall dauerte über vier Stunden, wobei die stärksten Auswirkungen in den ersten Minuten auftraten. Verschiedene Dienste waren je nach Standort, Tageszeit und zuvor erstellten Backup-Plänen unterschiedlich betroffen. Bestimmte Dienste hatten Failover-Systeme, die es ihnen ermöglichten, die Konnektivität wiederherzustellen – in einigen Fällen sogar innerhalb weniger Minuten.

6. Fastly – 10. Juni 2021

Im Juni kam es bei Fastly zu einem massiven Ausfall, von dem weltweit 85 Prozent der Dienste betroffen waren. Ein versteckter Softwarefehler löste den einstündigen Ausfall aus, als ein Kunde ein Routine-Update seiner CDN-Konfiguration durchführte. Wer versuchte, die betroffenen Websites oder Anwendungen zu erreichen, erhielt wahrscheinlich die Fehlermeldung 501 – Service Unavailable. Der Ausfall betraf viele große Websites, darunter auch Reddit oder das Webangebot der New York Times. Sogar Amazon und eBay waren stellenweise betroffen, weil diese ebenfalls auf die Dienste von Fastly zurückgreifen. Erwähnenswert laut Cisco ThousandEyes ist, dass die Auswirkungen für jeden dieser Medien- und E-Commerce-Anbieter sehr unterschiedlich waren, obwohl die Ursache für den Ausfall dieselbe war.

Maßnahmen für ein resilienteres Jahr 2022 - Aus den Ausfällen von 2021 sind laut den Experten von ThousandEyes einige grundlegende Lehren zu ziehen, darunter diese:

"Greifen Sie auf praktische Redundanzkonzepte zurück. Erwägen Sie die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS.
Analysieren Sie die Funktionsweise Ihrer Servicebereitstellungskette. Diese kann sich auf mehrere Abhängigkeiten stützen. Daher ist es wichtig, alle Abhängigkeiten zu kennen, auch die indirekten oder „versteckten“ sowie die externen Dienste.
Gewährleisten Sie eine proaktive Visibilität in Ihre Standorte, Anwendungen und wichtigsten Abhängigkeiten. Auf diese Weise können Sie am effizientesten feststellen, wann ein Serviceproblem aufgetreten ist und welche Strategie Sie anwenden müssen, um Störfälle mit minimalen Auswirkungen auf Ihre Nutzer zu beheben.
Erstellen Sie ein Notfallkonzept. Selbst wenn Sie bewährte Verfahren und redundante Service-Architekturen implementiert haben, kann es immer noch zu unvorhergesehenen Ausfällen kommen. Mit einem Backup-Plan für Ausfallszenarien können Sie Ausfallzeiten und Leistungseinbußen bei Ihren Diensten minimieren.“

Abb.: Infographic, Internet Outages Survival Cheat Sheet (Bildquelle: Cisco ThousandEyes)

Fazit: Die Ausfälle 2021 zeigen, dass selbst die modernste Infrastruktur durchaus von Fehlern und Ausfällen betroffen sein kann. Auch wenn Ausfälle unvermeidlich sind, sollten Sie bestimmte Maßnahmen implementiert haben, um diese schadlos zu überstehen. IT-Teams können durch die Analysen und Erkenntnisse der größten Ausfälle in diesem Jahr bessere Prozesse, Redundanzen und Failover-Systeme entwickeln, um die zu erwartenden Ausfallzeiten im Jahr 2022 zu kontrollieren und zu minimieren.

(1) Quelle / Link > https://www.thousandeyes.com/blog/seven-outages-shook-up-2021

Querverweis:

Unser Beitrag > Cyber Resilience von Morgen heisst jetzt investieren und neue Sicherheitsansätze verfolgen
Unser Beitrag > Cloud Native bietet nicht immer Vorteile und erzeugt neue Abhängigkeiten - Was ist zu tun?

Cloud Computing, Cloud Storage, Hybrid Cloud, Multi Cloud

Compliance, DSGVO

Personalien, Unternehmenszahlen

RZ-Hosting, Storage as a Service, SaaS, IaaS, PaaS

WAN-Optimierung, Applikationsperformance