iX 2/2018
S. 106
Wissen
Speichermedien
Aufmacherbild

Kurz erklärt: Festplatten-Lebensdauer

Aussetzer

Der MTBF-Wert in den Datenblättern zu Festplatten wird oft als Maß für Zuverlässigkeit und Lebensdauer angesehen – doch das ist vorschnell geurteilt.

Die Angabe „Mean Time Between Failures“ (MTBF) bei Festplatten bedeutet übersetzt „mittlere Betriebsdauer zwischen Ausfällen“. Gemeint ist die durchschnittliche Zeitspanne, die ab der ersten Reparatur – also nach dem ersten Fehler – bis zum nächsten Fehler vergeht, nicht etwa die Zeit bis zum ersten Auftreten eines Fehlers. Nicht eingerechnet ist dabei die Zeit, die eine Reparatur benötigt – das wäre die MTTR (Mean Time To Recover). Die Zeitspanne von einem Ausfall inklusive Reparatur bis zum nächsten Ausfall beträgt daher MTBF plus MTTR. Umgangssprachlich wird MTBF manchmal irrtümlich mit „Mean Time Before Failure“ übersetzt, also dem Zeitpunkt bis zum Ausfall. Daraus wiederum zieht mancher den verkehrten Schluss, dass eine Festplatte mit einem MTBF-Wert von über 1 × 109 länger als eine Million Stunden läuft, bevor sie ausfällt.

Die erste Reparatur impliziert, dass das Gerät überhaupt reparabel ist, was auf Festplatten zwar theoretisch zutrifft, aber tatsächlich kaum praktiziert wird. Besser wäre es, die MTTF (Mean Time To Failure) anzugeben, die mittlere Betriebsdauer bis zum Ausfall. Festplattenhersteller werben mit MTBF-Werten von weit über einer Million Stunden. Seagate beispielsweise gibt im Datenblatt seiner 3,5 Zoll großen Enterprise-Capacity-Laufwerke einen MTBF-Wert von 2 000 000 Stunden bei einem Workload von 550 TByte/Jahr und einem kontinuierlichen Betrieb (24/7) an. Umgerechnet entspricht das einem durchschnittlichen Ausfall nach mehr als 228 Jahren. Dass dieser Wert unrealistisch ist, lässt sich auch ohne langjährige Erfahrung im Rechenzentrum leicht erahnen.

Keine 228 Jahre fehlerfrei

Wie kompliziert der MTBF-Wert berechnet werden kann, zeigt die Software BQR fiXtress anhand einer Grafik (siehe ix.de/ix1802106). Im einfachsten Fall ließe sich ein MTBF-Wert durch die akkumulierte Laufzeit einer bestimmten Anzahl ausgewählter Testmuster geteilt durch die Anzahl der beobachteten Fehler errechnen. So könnte man 200 Festplatten für einen Monat unter Laborbedingungen betreiben. Das ergibt 200 × 30 × 24 = 144 000 Stunden Testbetrieb. Fallen dabei 5 Festplatten aus, ergibt das eine theoretische MTBF von 144 000 / 4 = 28 800 Stunden oder knapp 3,3 Jahren. Daraus den Rückschluss zu ziehen, dass das gerade erworbene Laufwerk garantiert über drei Jahre laufen wird, ist offensichtlich falsch. Seagate schreibt in einem technischen Dokument zu seinen Produkten, die MTBF sei keine Garantie für die Lebensdauer, sondern lediglich ein Indikator der relativen Zuverlässigkeit einer Produktfamilie.

Technische Geräte wie Festplatten fallen zunächst durch Produktionsfehler und erst viel später vermehrt durch Verschleiß aus.

Für den Praxiseinsatz dürfte es also belanglos sein, ob eine Festplatte mit einem MTBF von ein, zwei oder hundert Millionen Stunden beworben wird. Mechanische Laufwerke, aber auch die meisten anderen technischen Geräte „sterben“ nach einem bestimmten Muster: entweder innerhalb der ersten etwa 200 Betriebsstunden oder erst nach mehreren Jahren – gemäß der berühmten „Badewannenkurve“. Die Frage ist nicht ob, sondern wann ein Laufwerk ausfällt.

Der MTBF-Wert von Festplatten ist für ein Rechenzentrum in der Praxis irrelevant. Mit Ausfällen muss man ab dem ersten Tag im Lebenszyklus eines Laufwerks rechnen. Mit der Werkzeugsammlung smartmontools, die sich unter allen gängigen Betriebssystemen installieren lässt, kann knapp die Hälfte der Ausfälle vorausgesehen werden, etwa mit dem Kommando smartctl:

smartctl -a /dev/sda

Wichtige Werte in der Ausgabe sind Spin_Up_Time (verweist auf Motor-/Lagerschaden), Seek_Error_Rate und Calibration_Retry_Count (Probleme mit der Kopfmechanik) sowie (Raw_)Read_Error_Rate und Reallocated_Sector_Ct (Kopf-/Oberflächenprobleme). Im Lauf der Zeit ansteigende Werte sind Hinweise auf einen bevorstehenden Ausfall. Im Endeffekt lassen sich Redundanz und Backups ab der ersten Betriebsstunde dennoch durch nichts ersetzen. (tiw@ix.de)