Von Benchmarks, Füchsen und Hühnern

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 4 Min.
Von
  • Reinhold Weicker

Lies, Damned Lies, and Benchmarks’ das war der Titel einer Podiumsdiskussion, an der ich in meiner Frühzeit als Benchmarker (damals noch als ‘Mr. Dhrystone’) teilnahm. Inzwischen kamen mehr Sprüche ähnlicher Richtung dazu: ‘Mit SPECk fängt man Mäuse’, ‘Glaube keinem Benchmark-Resultat, das du nicht selbst gefälscht hast’. Nicht zufällig sind zwei der drei Sätze Parodien auf ältere Sprüche, bei denen es ‘Statistik’ statt ‘Benchmark’ hieß. Beides produziert Zahlen, deren Hintergründe nur wenige verstehen, die aber überall zitiert werden - man kommt ohne sie einfach nicht aus.

Es gibt ernsthafte Gründe dafür, dass man Benchmarks braucht: Computer werden schließlich dafür gekauft, dass sie ihre Aufgaben schnell und zuverlässig erledigen. Da ist es eine legitime Forderung, Leistungszahlen, unter fairen Bedingungen gemessen, vergleichbar dargestellt zu bekommen. Das Überraschende ist nur, wie viele Leser sich mit den nackten Zahlen zufrieden geben. Dabei lohnt es sich durchaus, ein wenig Bescheid darüber zu wissen, wie die Zahlen zustande kommen. In der Welt des Benchmarking geschieht manches, was für Kunden von Interesse sein sollte:

TPC (www.tpc.org) hatte und hat traditionsgemäß neben der Leistungs-Metrik (‘Transaktionen pro Zeiteinheit’) eine Preis-Leistungs-Metrik (‘Dollar pro Transaktion pro Zeit’). Aber soll einmal jemand versuchen, die angegebenen Preise zu verifizieren! Hardware- und Software-Wartungskosten werden mit Recht einbezogen - aber die Modelle dafür, die auf dem Markt existieren, sind so unterschiedlich, dass man immer wieder bei den berühmten ‘Äpfeln und Birnen’ landet, die eigentlich nicht verglichen werden dürften, und die doch in die TPC-Preis-Zahlen eingehen.

SPEC (www.spec.org) produziert wesentlich mehr als nur die bekannten CPU-Benchmarks, aber sie liefern nach wie vor die am meisten beachteten SPEC-Zahlen. In den nächsten Jahren wird die vermeintlich einfache Frage ‘Was ist eine CPU?’ noch für heiße Diskussionen sorgen: Ist es sinnvoll, CPUs mit und ohne gemeinsame Caches (die dann in der realen Welt von mehreren CPUs gemeinsam genutzt werden) miteinander zu vergleichen? Wie steht es mit MultiThreading, wenn das Betriebssystem zwei CPUs sieht, gewisse Statusinformationen tatsächlich physikalisch zweimal existieren, die Verarbeitungseinheiten aber nur einmal? Eine, zwei, oder 1 1/4 CPUs? Die permanent bei SPEC diskutierte Frage, ob die hochgezüchteten Compilationstechniken für die Benchmarks in der realen Welt eine Entsprechung haben, ist noch längst nicht ausdiskutiert.

In den letzten Jahren lässt sich ein Trend hin zu Applikations-Benchmarks beobachten, die von großen Software-Herstellern kreiert wurden; die Benchmarks von SAP oder Oracle sind ein Beispiel dafür. Dies bedeutet zwar, dass man noch mehr Zahlen in Vergleiche einbeziehen muss, aber den großen Vorteil hat, dass hier der ablaufende Code tatsächlich derselbe ist, der auch in der Praxis läuft. Kunden, die genau diese Software einsetzen, schätzen solche Benchmarks besonders.

Praktisch alle Spezialisten in den Benchmark-Gremien wie SPEC oder TPC kommen von Hardware- oder Software-Herstellern. Die Organisationen betonen immer wieder, dass Mitgliedschaft und aktive Mitarbeit gerade von Kunden- oder Fachpresse-Vertretern erwünscht ist, die Resonanz bleibt aber gering. Wie können trotzdem Neutralität in der Messung und Ergebnisdarstellung respektive Praxis-Relevanz im Benchmark-Design erreicht werden? Für das Ziel ‘Neutralität’ gilt die Arbeitsgrundlage ‘Zugegeben, es sind fast nur die Füchse, die den Hühnerhof bewachen; aber sie passen so gut aufeinander auf, dass den Hühnern im Endeffekt nichts passiert’. Meist funktioniert das auch gut - eine Garantie für alle Zukunft kann niemand geben. Problematischer kann es mit dem Praxisbezug, der Relevanz der Benchmarks sein. Hier wären die Hühner gut beraten, sich schlau zu machen und selbst darüber nachzudenken, was die Füchse denn so unter sich besprechen und planen. Mit anderen Worten, um einen Satz der Einleitung abzuwandeln: Als Kunde sollte man keinem Benchmark trauen, den man nicht wenigstens in seinen Grundzügen verstanden hat. Und wenn unabhängige Fachleute sich wirklich ernsthaft mit den Details der Benchmarks befassen und in den Gremien mitreden wollen, dann ist von Füchsen oder Hühnern nicht mehr die Rede, alle sind willkommen.

Dr. Reinhold Weicker
arbeitet im Benchmark Center von Fujitsu Siemens Computers und ist Vice Chair der SPEC Open Systems Group
(rh)