iX 4/2023
S. 146
Praxis
Tools und Tipps

Cleanlab entrümpelt Trainingsdatensätze

Das Tool Cleanlab erkennt automatisch Probleme in Trainingsdaten für Machine-Learning-Modelle.

Von Ramon Wartala

Cleanlab ist ein Open-Source-Tool, das Machine-Learning-Trainingsdaten automatisiert prüft. Von diesen Daten hängt die Qualität moderner Machine-Learning-Modelle ab: Die Modelle können nur so gut sein wie die Daten, mit denen man sie trainiert. Somit entfällt ein großer Teil der Arbeit von Data Engineers und Data Scientists darauf, richtige und gute Trainingsdaten zusammenzustellen.

Besonders komplexe Machine-Learning-Modelle wie im Deep Learning üblich sind jedoch mit sehr vielen Daten zu trainieren, um eine hohe Vorhersagequalität zu liefern. Daher hat man es mit Tausenden von Datensätzen und ihren Labels zu tun, die sich nicht nur im richtigen Dateiformat und örtlich nahe an der Trainingshardware befinden müssen, sondern für ausgewogene Modelle auch noch eine ähnliche Anzahl Beispiele pro Trainingsklasse erhalten sollen.

Kommentieren