Mehr als ein Jahrzehnt ist vergangen, seit das Konzept der ’schuldlosen‘ Nachbetrachtung verändert hat, wie Tech-Unternehmen Fehler im großen Maßstab erkennen.

John Allspaw, der den Begriff während seiner Zeit bei Etsy prägte, argumentierte, dass Nachbetrachtungen dazu dienen, unsere natürliche Reaktion auf Vorfälle zu kontrollieren, nämlich mit dem Finger auf andere zu zeigen. Statt Ingenieuren Vorwürfe zu machen, sollten wir verstehen, wie der Vorfall tatsächlich passiert ist, die Ingenieure respektvoll behandeln und daraus lernen.

Was können wir von einigen der ehrlichsten und schuldlosen – und öffentlichen – Nachbetrachtungen der letzten Jahre lernen?

GitLab: 300 GB Benutzerdaten in Sekunden verloren

Was geschah: 2017 erlebte GitLab einen schmerzhaften 18-stündigen Ausfall. Die Geschichte, zusammen mit GitLabs anschließender Ehrlichkeit und Transparenz, hat maßgeblichen Einfluss darauf gehabt, wie Organisationen heute mit Datensicherheit umgehen.

Wie haben sie sich erholt: Die Ingenieure von GitLab haben den Vorfall analysiert und weitere Verbesserungen an ihrem System vorgenommen, um solche Vorfälle in Zukunft zu vermeiden.

Tarsnap: Zwischen sicheren Daten und Verfügbarkeit entscheiden

Was geschah: Ein Backup-Service ging 2023 vollständig offline. Colin Percival, der den Service betreibt, hatte automatisierte Skripte geschrieben, aber nicht konfiguriert, dass sie unbeaufsichtigt ausgeführt werden.

Wie haben sie sich erholt: Colin brauchte etwa 24 Stunden, um Tarsnap wieder zum Laufen zu bringen, nachdem er Cloud-basierte Daten umfassend wiederhergestellt hatte.

Roblox: 73 Stunden ‚Auseinandersetzung‘

Was geschah: An Halloween 2021 erlebte das Spiel Roblox eine umfassende Störung. Die Ingenieure von Roblox erkannten, dass ein Cluster mit hoher CPU-Auslastung Probleme verursachte und führten eine intensive Wurzelursachenanalyse durch.

Cloudflare: Ein langes Wochenende (mit Staatshintergründen)

Was geschah: Wenige Tage vor Thanksgiving 2023 griff ein Angreifer auf Cloudflares interne Atlassian-Server zu und öffnete Hunderte von internen Dokumenten. Cloudflare konnte den Angreifer jedoch aufgrund der Zero-Trust-Architektur daran hindern, auf Kundendaten zuzugreifen.

Was haben wir gelernt: Die Zero-Trust-Architektur funktioniert, aber Dokumentation ist ebenfalls wichtig, ebenso wie regelmäßige Tests des Katastrophen-Wiederherstellungsplans.

Letztendlich wurde betont, dass eine Person oder ein Team im Unternehmen die Verantwortung für den gesamten Datensicherheitslebenszyklus übernehmen muss, um die bestmögliche Sicherheit zu gewährleisten.