iX 6/2022
S. 118
Wissen
Qualitätsmanagement

Chaos Engineering als Resilienzkonzept

Je mehr Systeme zusammenspielen, desto schwieriger ist das Finden und Beheben von Fehlern. Chaos Engineering soll bereits im Vorfeld die Stabilität verbessern und das Bewusstsein der Admins schärfen.

Von Philipp Steevens

Anders als der Name vermuten lässt, bedeutet Chaos Engineering durchdachtes und geplantes Experimentieren. Die Disziplin soll technische Schwachstellen aufdecken und Vertrauen in verteilte Systeme schaffen. Zurück geht dieser paradoxe Name auf eines der ersten Tools des Verfahrens: Chaos Monkey.

Netflix entwickelte den Chaos Monkey 2011 mit dem Ziel, während des laufenden Betriebs zufällig Server im Produktivsystem zu deaktivieren. Das Wissen um die zufälligen Ausfälle veranlasste die Netflix-Ingenieure, das System grundsätzlich für solche Situationen zu rüsten, damit nicht bei Millionen Zuschauern der Stream abreißt.

Kommentieren