Explorative Datenanalyse mit großen Sprachmodellen

Die explorative Datenanalyse ist ein wichtiger erster Schritt, mit dem sich Data Scientists einen Überblick über unbekannte Daten verschaffen. Große Sprachmodelle können sie beschleunigen, indem sie die Daten analysieren und visualisieren. Ein Überblick stellt die Methodik und verschiedene Open-Source-Tools vor.

Von Ramon Wartala

Jeder Datenanalyst kennt es: Eine neue Datenbank oder Datendatei soll nach Mustern oder Anomalien durchsucht werden. Ausgerüstet mit den nötigen Python-Frameworks wie pandas, scikit-learn und einem Jupyter-Notebook nähert man sich der Datenquelle, bringt die Daten in der Regel tabellarisch in Form eines DataFrame und untersucht sie dann innerhalb eines Notebooks mit den verschiedensten Werkzeugen. Doch steckt hier der Teufel oftmals im Detail. Vielleicht liegen die Daten in einer relationalen Datenbank und man muss neben dem passenden Datenbankkonnektor auch noch verstehen, welche Attribute und welche Relationen wichtig für die Zielfragestellung sind.

Fragen statt programmieren

Mit dem Aufkommen großer Transformer-Sprachmodelle (Large Language Models, LLMs) sind Werkzeuge wie Vanna.AI, PandasAI oder Cube entstanden, die die automatische Analyse und deren Visualisierung mithilfe natürlicher Sprache versprechen. Statt die Daten über SQL oder die äquivalente pandas-Notation abzufragen, stellt man dem Sprachmodell einfach Fragen zu dem zu analysierenden Datensatz, gibt die Daten als Kontext im Prompt mit und erhält daraufhin eine fertige Visualisierung. Wäre dieser Schritt einmal allgemein etabliert, würden zukünftig nicht nur Datenwissenschaftler und -analysten komplexe Datenquellen „befragen“ können. Auch Businessanalysten, Product Owner oder andere Stakeholder könnten einfache Datenanalysen ohne spezielle Abfrage- oder SQL-Kenntnisse durchführen.