Ausfälle verstehen & vermeiden

Eine professionelle Wissensdatenbank zu globalen IT-Infrastrukturausfällen, technischen Hintergründen und Resilienz-Strategien.

Technische Ursachen

Die Architektur moderner IT-Systeme ist komplex. Das sind die häufigsten "Single Points of Failure".

DNS & Routing

Wenn das DNS oder BGP-Routing versagt, sind Server technisch online, aber für niemanden erreichbar.

Deployment Fehler

Ungestetete Konfigurationsänderungen oder fehlerhafte Software-Patches sind die Ursache Nr. 1 für globale Ausfälle.

Cyber Security

Gezielte DDoS-Attacken oder Ransomware-Infektionen zwingen Unternehmen oft, Systeme präventiv abzuschalten.


Prominente Fallstudien

Der CrowdStrike Vorfall
Juli 2024

Ein fehlerhaftes Update der "Falcon Sensor" Software führte zu einem Boot-Loop (Blue Screen) auf ca. 8,5 Millionen Windows-Systemen weltweit. Dies gilt als der größte IT-Ausfall der Geschichte, der Flughäfen, Banken und Krankenhäuser lahmlegte. Fakten Analyse

Facebook Blackout
Oktober 2021

Durch eine Fehlkonfiguration im BGP (Border Gateway Protocol) kappte Facebook versehentlich die Verbindung seiner DNS-Server zum Internet. Das Unternehmen war 6 Stunden lang digital "nicht existent". Fakten

Strategien zur Prävention

Wie moderne IT-Abteilungen Risiken minimieren.

Die 3-2-1 Backup-Regel

3 Kopien der Daten, auf 2 verschiedenen Medien, davon 1 Kopie extern (Offsite). Dies ist der einzige wirksame Schutz gegen Datenverlust durch Ransomware oder physische Zerstörung. Quelle

Chaos Engineering

Proaktives Herbeiführen von Fehlern (z.B. Server abschalten), um die Selbstheilungskräfte des Systems zu testen. Bekannt durch Netflix' "Chaos Monkey". Quelle

Geo-Redundanz

Verteilung kritischer Dienste auf mehrere Rechenzentren in unterschiedlichen Regionen. Schützt vor lokalen Katastrophen wie Stromausfällen oder Überschwemmungen. BSI Quelle