iX 11/2021
S. 20
Markt + Trends
Facebook-Ausfall

Facebook-Konzern stundenlang offline

Abgeklemmt

Benjamin Pfister

Der Ausfall Anfang Oktober traf Facebook hart, doch Netzwerk-Verantwortliche können daraus einiges lernen. Neuralgische Punkte lagen vor allem in Facebooks speziellem BGP-Design.

Der Facebook-Konzern mit seinen Plattformen Instagram, WhatsApp und Facebook erlitt am 4. Oktober 2021 einen weitreichenden und verhältnismäßig langwierigen Ausfall seiner Dienste von sechs bis sieben Stunden. Vice President Infrastructurce Santosh Janardhan informierte in einem Blogbeitrag über die Ursachen (siehe ix.de/z835).

Erste Vermutungen deuteten auf einen Fehler im Domain Name System (DNS) hin, da die Querys rekursiver Resolver NXDOMAIN oder SERVFAIL für Facebook-Domains zurückgaben. Dies war jedoch nur eine Auswirkung, nicht der Auslöser. Laut Janardhan fand eine Wartung an Komponenten des Backbone-Netzes statt, das Facebooks Rechenzentren miteinander verbindet. Beabsichtigt war, die verfügbare Kapazität der Backbone-Leitungen zu überprüfen, stattdessen trennte das dafür abgesetzte Kommando sämtliche Verbindungen, und somit waren alle Facebook-Rechenzentren weltweit vom Netz. Ein Audit-Tool, das solche Kommandos prüfen soll, erwies sich laut Blogbeitrag als fehlerhaft. Ob bei Änderungen an Kernkomponenten neben der maschinellen Prüfung auch ein Peer-Review üblich ist, und wenn ja, warum auch dies versagte, gab Facebook nicht bekannt.

Kommentieren