30 Jahre Standard Performance Evaluation Corporation

Wer misst …

Ralph Hülsenbusch

1988 wurde die SPEC gegründet, eine Herstellerorganisation, die Werkzeuge zur Leistungsmessung bereitstellt und die damit gewonnenen Resultate veröffentlicht.

Als Prozessoren nur einen Kern besaßen und ihr Herz noch im Megahertz-Takt schlug, gab es eine Reihe von Progrämmchen, mit denen die Entwickler versuchten, der Leistung von Computern auf den Zahn zu fühlen. Dazu zählen etwa der Dhrystone für den Bereich Festkomma- und der Whetstone fürs Gleitkommarechnen. Mips/Joy entstand auf einem Segelturn und Doduc im Dunstkreis der Kernforschung. Überlebt hat der Linpack bis heute als Basis für die Kür der schnellsten Supercomputer weltweit, die TOP500. Das Lösen linearer Gleichungssysteme kommt halt nicht aus der Mode.

All diese Verfahren begannen früh, Druck auf die Hersteller von Rechnersystemen auszuüben, und der Wildwuchs der Testverfahren erschwerte das Geschäft. Denn Benchmarks erlauben Systemvergleiche und führen zu – mehr oder weniger vernünftigen – Ranglisten, die für Hersteller geschäftsentscheidend sein können. Fälschungen sind um so eher möglich, je weniger transparent die Verfahren sind. Bestes Beispiel ist das Schicksal des Whetstone. IBMs optimierende Compiler deklarierten Berechnungen, die keine Ausgaben erzeugten, als unproduktiv und übergingen sie einfach.

Transparenz ist Trumpf

Deshalb fanden sich einige Computerbauer zusammen und gründeten ein Konsortium, um gemeinsam eine Testbatterie zusammenzustellen. Sie sollte von allen Mitgliedern kontrolliert werden und vor allem von allen akzeptierte, vergleichbare Resultate liefern. So gründete sich 1988 die System Performance Evaluation Corporation SPEC, die 1989 ihre erste Benchmark-Suite veröffentlichte (heute: Standard Performance Evaluation Corporation). Die SPEC CPU89 konzentrierte sich auf die Arbeitsgeschwindigkeit der Prozessoren. Sie bestand aus insgesamt 10 Programmen, je fünf für den Festkomma- und den Gleitkommabereich. Sie lieferte als Resultat sogenannte SPECmarks.

Die SPEC entwickelt die Tests nicht selbst, sondern veranstaltet eine Ausschreibung. Die Einreichungen – in der Regel Benchmarks oder Anwendungen aus der Praxis – nehmen die Mitglieder der SPEC unter die Lupe und entscheiden, welche in die Suite einziehen dürfen.

Inzwischen deckt der Komplex über 10 Bereiche ab. Jüngster Zugang ist SPECjEnterprise2018 Web Profile, bei dem es um Java und WebSphere im geschäftlichen Umfeld geht. In anderen Bereichen spannt man andere Werkstücke auf die Bank: Programme zum Ausloten von Anwendungen in der Cloud, computergestützter Grafik, Parallelverarbeitung, Java-Clients und -Servern, Mailservern, Speicher, Stromverbrauch, Virtualisierung und letztlich Webservern.

Zyklen werden länger

Nach wie vor betriebsam geht es auch in der CPU-Suite zu. Allerdings hat die SPEC für die letzte Renovierung über 10 Jahre gebraucht. Dem 2007 erschienenen CPU2006 folgte im Juni 2017 die CPU2017. Für diese sechste Ausgabe haben die Architekten deutlich sichtbar Umbauten vorgenommen. So hat sich die Größe der Testsuite gegenüber der CPU2006 nahezu verdoppelt und sie zieht sich über vier anstatt bisher zwei Etagen hin: Je zwei Abschnitte für Tests im Single-CPU- (speed) und Multiprozessormodus (rate), die wiederum unterteilt nach Fest- und Gleitkomma (int und fp).

Um die Ergebnisse beurteilen zu können, bedarf es eines tieferen Einblicks in die Struktur des Benchmarks und die Besonderheiten der neuen Version. Die Programme der Test-Suite haben entweder ein Update erfahren oder sind neu, somit ist ein Vergleich der CPU2017 mit der CPU2006 nicht möglich, es sei denn, man greift zu rein statistischen Methoden etwa der Art: Ist A immer noch soundsoviel schneller als B? Ein kaum durchführbares Unterfangen, denn sowohl A als auch B haben sich verändert.