Facebook: KI-Benchmarking as a Service mit Dynaboard

Facebooks KI-Team stellt Dynaboard für das Benchmarking von NLP-Modellen vor. Das Tool soll herausfinden, ob Systeme eine Sprache wirklich verstehen.

In Pocket speichern vorlesen Druckansicht

(Bild: vs148/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Robert Lippert

Mit Dynaboard stellt Facebook Forscherinnen und Forschern auf dem Gebiet der künstlichen Intelligenz ein neues Werkzeug für die Evaluation von NLP-Modellen (Natural Language Processing) vor. Es erlaubt nicht nur ein Benchmarking "as a Service", sondern soll erstmals auch eine reproduzierbare Auswertung der zugrunde liegenden Daten ermöglichen. Das Tool errechnet einen "Dynascore" getauften Wert, der sich unter anderem aus Metriken zu Genauigkeit, Speicherverbrauch, Recheneffizienz, Robustheit oder Fairness speist.

Technische Grundlage ist Facebooks eigener Dynabench-Service, der künstliche Intelligenzen für natürliche Sprachverarbeitung mit menschlichen Eingaben füttert, um herauszufinden, ob die Systeme eine Sprache nur nachahmen oder wirklich verstehen.

Die Wissenschaftler bei Facebook halten offen, ob sie ihren neuen Dynascore künftig um noch weitere Kriterien erweitern. Dennoch lohnt ein Blick unter die Haube, um zu verstehen, welche Daten auf die derzeit fünf Metriken der Plattform einzahlen. So ist die Genauigkeit beispielsweise von der jeweiligen Aufgabenstellung abhängig und kann mehrere Metriken aufweisen, bei denen sich der Accountinhaber für den Score aber festlegen muss. Der Punkt Recheneffizienz lässt an dieser Stelle deutlich weniger Spielraum; hier misst der Algorithmus die Anzahl an Beispielen, die ein Modell pro Sekunde auf seiner Instanz in Facebooks Benchmarking-Cloud berechnen kann. Vergleichbares gilt auch für den Speicherverbrauch.

Soweit es Robustheit und Fairness angeht, soll sich der Dynascore aber in jedem Fall noch weiterentwickeln, so die KI-Forscher. Insbesondere "Fairness" sei ein noch junger Begriff auf dem Feld der künstlichen Intelligenz. Hier wollen die Wissenschaftler zunächst mit statistisch aussagekräftigen Metriken zu Geschlecht und ethnischer Herkunft vorlegen, da diese Felder noch am besten erforscht seien. Eher "fair" wären damit Modelle, die nur wenig Unterschiede errechnen, wenn im Datenset beispielsweise Begriffe wie "Schwester" und "Bruder" oder "er" und "sie" vertauscht sind, oder es keinen Unterschied macht, auf welche Ethnie ein Vorname deuten lässt.

Vor allem im Bereich natürlicher Sprachverarbeitung (NLP) beobachteten die KI-Forscher bei Facebook das Problem, dass populäre Sprachsysteme wie GPT-3 zunächst intelligent wirkten, weil sie Sprache gut nachahmen konnten – es aber weniger eindeutig war, wie viel die Modelle tatsächlich verstanden. Aus dieser Betrachtung heraus entstand schließlich das "Dynabench"-Verfahren, das die Forscher Ende 2020 der Öffentlichkeit vorstellten.

Dynascore erweitert das System jetzt um Benchmarking-Funktionen, mit dem Anwenderinnen und Anwender eigene Daten für ihre KI-Modelle sammeln können. Details zur Errechnung des Scores und den zugrunde liegenden wissenschaftlichen Dokumenten erläutert das Facebook-KI-Team in seinem Blog. Die Dynabench-Plattform selbst nutzt die Ergebnisse des Benchmarking-Tools bereits für den Vergleich verschiedener NLP-Modelle, unter anderem zur Sentiment-Analyse, dem Erkennen von Hassrede oder zur Ermittlung von Inferenzen natürlicher Sprache.

Die Plattform selbst steht Forscherinnen und Forschern derzeit nur nach Freischaltung durch Facebook zur Verfügung, ohne die ein Upload eigener Modelle in die Facebook-Cloud nicht möglich ist. Langfristig soll Dynabench aber für alle geöffnet werden, verspricht das Unternehmen.

(mdo)