Gründe für den IT-Server- und Produktionsausfall bei Toyota: "Best Practice nicht befolgt
"

München, Starnberg, 19. Sept. 2023 - Was IT-Verantwortliche von den Serverproblemen bei Toyota lernen können; eine Analyse zum Hintergrund mit Kommentaren von Cohesity...

Zum Hintergrund: Ein Wartungsfehler bei Servern hat vergangene Woche vierzehn Produktionsstätten bei Toyota lahmgelegt, wie das Unternehmen mitgeteilt hat (1) Ein teurer Fehler, aus dem IT-Betreiber aber auch lernen können. Der Autohersteller gab am 06. September dazu bekannt, dass die Produktion an mehr als einem Dutzend Produktionsstandorten in Japan gestoppt wurde, weil auf einem Server nicht mehr genügend Speicherplatz vorhanden war. (1) Quelle / Link > https://global.toyota/en/newsroom/corporate/39732568.html

 

Die Gründe für den Ausfall: Die IT-Mitarbeiter hätten letzte Woche routinemäßige Serverwartungen an Systemen durchgeführt, die für Teile-Bestellungen verantwortlich sind. Während dieses Wartungsprozesses seien in einer Unternehmensdatenbank angesammelte Daten routinemäßig gelöscht und neu organisiert worden, so Toyota. Allerdings war auf dem Server „zu wenig Speicherplatz“ vorhanden, wodurch der Server herunterfahren wollte - mit weitreichenden Folgen.





Weil nach vorliegenden Informationen auf dem gleichen System auch die Backup-Dienste aufgesetzt waren, wurde der Neustart blockiert und IT-Teams daran gehindert, mehr Speicher zuzuweisen und das System vollständig herunterzufahren. „Da die Backup-Server auf demselben System liefen, trat ein ähnlicher Fehler in der Backup-Funktion auf und eine Umstellung konnte nicht durchgeführt werden. Dies führte zur Einstellung des inländischen Werksbetriebs“, berichtete der Automobilhersteller.



Der Ausfall dauerte insgesamt über 24 Stunden und die Systeme wurden am 29. August wiederhergestellt, nachdem die Daten auf einen Server mit größerer Kapazität übertragen wurden. Toyota bekräftigte, dass die Serverausfälle die „wahre Ursache“ der Betriebsunterbrechung seien, nachdem spekuliert worden war, dass der Vorfall auf einen Cyberangriff zurückzuführen sei.



Dieser Vorfall zeigt, wie wichtig es ist, Prozesse und die Rolle der darin gekoppelten Systeme genau zu verstehen und entsprechend ihrem Wert für das Geschäft zu überwachen. Es ist entscheidend, Server nach Prinzipien der Cyber-Resilienz zu administrieren. Manilo De Benedetto, Director Systems Engineering bei Cohesity, nennt nachfolgend einige Grundprinzipien, die aus Sicht seines Unternehmens dabei zu beachten sind:

 

1. Prioritäten gemäß der Relevanz festlegen



Unternehmen müssen genau verstehen, welche IT-Prozesse im Unternehmen am wichtigsten sind und wie sie zusammenhängen. "Wir empfehlen unseren Kunden, die Systeme in Resilienzkategorien zu priorisieren. Die höchste Kategorie spiegelt die wichtigsten Daten, Systeme und Prozesse wider, deren Verlust oder Ausfall den größten wirtschaftlichen Schaden verursachen würde. Die Server bei Toyota würden idealerweise in die höchste Resilienz-Kategorie eingestuft, da ihr Ausfall, wie er leider passiert ist, die gesamte Produktion zum Stillstand bringt und hohe Kosten verursacht. IT-Verantwortliche können dann aus ökonomischer Sicht sehr gut argumentieren, warum diese Systeme besonders genau überwacht und auf eine hohe Ausfallsicherheit ausgelegt sein müssen.



 

2. Assistenzsysteme auf Basis von KI für maximale Transparenz



Moderne Lösungen für Datenmanagement und Sicherheit überwachen diese Systeme und ihren aktuellen Zustand mithilfe von KI. Trendanalysen zeigen, wie sich die Datenmenge auf diesen Maschinen verhält und wie stark der Speicher bereits belegt ist.
Da menschliches Versagen immer und überall möglich ist, ist es wichtig, Grenzwerte für wichtige Kenndaten wie die Festplattenauslastung festzulegen. IT-Teams werden dann automatisch benachrichtigt, wenn der Speicherplatz knapp wird.

Im Idealfall schlagen KI-gestützte Tools sofort entsprechende Gegenmaßnahmen vor, die ein Mitglied des IT-Teams prüfen und dann einleiten kann. So werden kritische Situationen bereits im Vorfeld erkannt und Gegenmaßnahmen können eingeleitet werden, bevor es zu Ausfällen kommt. Selbst wenn Fehler auftreten, ist es wichtig, das Ausfallzeitfenster mit sofortigen Massenwiederherstellungs-Verfahren auf ein Minimum zu verkleinern, da jede Stunde Ausfallzeit das Unternehmen Millionen kosten kann.

Über die hohen Resilienz-Kategorien können dann weitere wichtige Schritte definiert werden, beispielsweise kürzere Intervalle zwischen den Backups. Sollte es zu einem Notfall kommen und Systeme ausfallen oder durch Cyberangriffe wie Ransomware beschädigt werden, kann der mögliche Datenverlust dank der engmaschigen Kopien auf ein Minimum reduziert werden."

 

Das Fazit von Manilo De Benedetto: „Es sieht so aus, als hätte Toyota das Problem nicht kommen sehen. Auch wenn die IT-Teams die Systeme ganz überwacht haben, so haben sie nicht richtig auf die kritischen Probleme reagiert. Wenn Unternehmen eine solche datenzentrierte Cyber-Resilienz-Strategie etablieren, stellen sie gleichzeitig sicher, dass Daten aus den verschiedenen Rechen- und Speicherumgebungen eines Unternehmens zusammengeführt werden. In diesem konsolidierten Datenpool lassen sich dann fortschrittliche Prozesse wie Governance-, sowie Erkennungs-, Reaktions- und Wiederherstellungsfunktionen aufsetzen, mit deren Hilfe IT-Teams ein hohes Maß an Ausfallsicherheit erreichen können.“

 

Querverweis:

In unserem Tech-Podcast nachgefragt > Backup und Ransomware: Wie lassen sich Angriffe frühzeitig erkennen und verhindern?

Unser Beitrag > Cohesity Turing und erweiterte Kooperation mit Google Cloud im Bereich von generativer KI

Unser Beitrag > Nicht das Backup ist entscheidend, sondern die schnelle Wiederherstellung