Labeling mit Active Learning

Sparsam etikettiert

Maximilian Blanck, Matthias Richter

Das Labeln großer Datensätze für das überwachte Training von ML-Modellen ist aufwendig. Active Learning findet selbstständig die Datenpunkte, bei denen die Mühe lohnt, und spart so viel Arbeit. Für Python steht dafür die Bibliothek modAL zur Verfügung.

Drei Dinge sind für überwachtes maschinelles Lernen essenziell: Daten, Algorithmen und Labels. An den ersten beiden herrscht kein Mangel. Bei Labels – also den Kategorien, in die Trainingsdaten eingeordnet werden – sieht es anders aus. Während Beispieldatensätze aus dem Netz oft sorgfältig gelabelt sind, sind bei Daten aus der Praxis unvollständige oder mangelhafte Labels eher die Regel als die Ausnahme. Soll ein Algorithmus etwa im echten Leben Kreditkartenbetrug erkennen, hat selten mehr als eine Handvoll Daten die richtigen Labels.

Twitter-Posts labeln

In den meisten Fällen muss man seine Daten manuell labeln. Das ist zeitraubend, kostspielig, fehleranfällig und kann zu suboptimalen Modellen führen. Ganz besonders ärgerlich wird es dann, wenn viele der Labels für den Lernalgorithmus gar nicht wichtig sind, weil er entweder schon genug ähnliche Datenpunkte gesehen hat oder es sich um Ausreißer handelt. Hier hilft Active Learning: Der Algorithmus sucht aktiv nach interessanten Datenpunkten und legt sie einem Menschen zum Labeln vor. Das minimiert einerseits den Aufwand und führt andererseits zu robusteren Modellen.