Erklärbarkeit von Machine-Learning-Modellen

Klares Urteil

Shirin Glander

Wenn via Machine Learning (ML) Entscheidungen getroffen und Vorhersagen gemacht werden, ist der Weg dahin in der Regel intransparent. Doch dieses Blackbox-Verhalten lässt sich zumindest teilweise transparenter machen.

Einer der Kritikpunkte an künstlicher Intelligenz (KI) ist, dass die meisten der maschinell gelernten Modelle sogenannte Blackboxes sind. Damit ist gemeint, dass die von ihnen gelernten Zusammenhänge praktisch nicht mehr nachvollziehbar sind und unklar bleibt, warum das Modell Entscheidungen trifft. Traditionell bewerten Forscher solche Algorithmen und Modelle mit Metriken wie Genauigkeit, Spezifität, Recall, F-Score, gemessen an Testdaten.

Wenn das Modell so funktioniert wie erwartet, wird diese Bewertung auch praktisch ausreichen. Die Metriken können aber auch in die Irre führen, wenn die Trainingsdaten beispielsweise nicht unabhängig oder nicht ausreichend waren. Das kann zur Folge haben, dass grundlegende Probleme in den gelernten Zusammenhängen verborgen bleiben und zu unerwarteten Fehlern führen. Vor allem, wenn es um sensible Daten oder Entscheidungen geht, die Menschen direkt betreffen, ist ein besseres Verständnis sinnvoll, um Schäden und Fehler zu vermeiden.

Mit der EU-DSGVO ist das Thema besonders relevant geworden. Sie gibt vor, dass viele Entscheidungen, die Menschen direkt betreffen, nicht ausschließlich auf Grundlage von Algorithmen entschieden werden dürfen. Aber wie kann man es schaffen, dass Blackbox-Modelle transparenter werden?

An dieser Stelle kommen einige Werkzeuge und Methoden ins Spiel, die (annähernde) Erklärungen für Algorithmen geben können. Der Artikel stellt modellagnostische Methoden wie Feature-Wichtigkeit, Partial Dependence Plots, Individual Conditional Expectation (ICE) Plots, Local Interpretable Model-agnostic Explanations (LIME) und Shapley Values vor und erklärt sie anhand von Beispieldaten und -modellen eines tabellarischen Datenmodells.

Diese Methoden erlauben es, annäherungsweise Erklärungen für einige Algorithmen zu finden, die ausreichen, um wesentliche Entscheidungsgrundlagen nachvollziehbar zu machen. In den meisten Fällen genügt diese annäherungsweise Erklärbarkeit, um mehr Vertrauen in maschinell gelernte Modelle zu schaffen und ein besseres Verständnis der gelernten Zusammenhänge zu bekommen. Solche Erklärungen können auch helfen, frühzeitig versteckte Bias in den Modellen zu entdecken, die zu unfairen Entscheidungen führen können oder zu falsch gelernten Zusammenhängen.

Überwachte Klassifikationsmodelle

Diese exemplarisch vorgestellten, etablierten modellagnostischen Methoden und Werkzeuge für Erklärbarkeit und Interpretierbarkeit überwachter Klassifikationsmodelle sind im Gegensatz zu modellspezifischen Erklärungen unabhängig vom Algorithmus, lassen sich also auf Random Forests, neuronale Netze oder andere Modelle anwenden. Bei überwachten Modellen kommen historische Trainingsdaten zum Einsatz, die erstens aus einer Antwortvariablen und zweitens aus Eigenschaften bestehen, die jeden Datenpunkt beschreiben (Feature). Bei überwachten Klassifikationsmodellen beschreibt die Antwortvariable die Zugehörigkeit jedes Datenpunkts zu einer oder mehreren Klassen (Label).

Die hier vorgestellten Modelle haben anhand der Trainingsdaten gelernt, die Datenpunkte mit möglichst geringer Fehlerquote in die bekannten Klassen einzuteilen, indem sie die möglichst optimale mathematische Kombination der Features finden. Diese gelernte mathematische Repräsentation lässt sich auf neue Testdaten anwenden, um auch hier eine Vorhersage über die Klassenzugehörigkeit der Testfälle zu machen. Die vorgestellten Methoden führen die Erklärungen auf die Original-Features zurück, obwohl die tatsächliche Vorhersage auf komplexen Kombinationen und Abstraktionen davon beruht. Nur so lassen sich die Einflüsse der eingehenden Faktoren auf die Entscheidung, zu welcher Klasse ein Testfall gehört, direkt nachvollziehen.

Nachvollziehbares Beispiel

Ein Beispieldatensatz über Weinqualität, deren Bedingungen man ja kennt, dient nachfolgend zum Erklären einiger gängiger Methoden. Alle Analysen hat die Autorin in R-Version 3.5.1 durchgeführt. Der komplette Code mit detaillierten Modellergebnissen ist auf ihrem Blog nachzulesen.