Datenanalyse mit großen Sprachmodellen: Wie Sie mit eigenen Daten chatten

Große Sprachmodelle können die Auswertung von unbekannten Daten durch Analyse und Visualisierung beschleunigen. Ein Überblick stellt Methodik und Tools vor.

Artikel verschenken

14.02.2024, 13:00 Uhr

Lesezeit: 14 Min.

iX Magazin

Von

Ramon Wartala

Datenanalyse mit großen Sprachmodellen: Wie Sie mit eigenen Daten chatten
Visualisieren mit generiertem Code
Datenbankabfrage mit SQL-Agenten und Azure OpenAI
Tabellarische Daten mit pandasAI verarbeiten
Verständnis für das Datenmodell
SQL-Abfrage mit Cube
Fazit

Artikel in iX 3/2024 lesen

Jeder Datenanalyst kennt es: Eine neue Datenbank oder Datendatei soll nach Mustern oder Anomalien durchsucht werden. Ausgerüstet mit den nötigen Python-Frameworks wie pandas, scikit-learn und einem Jupyter-Notebook nähert man sich der Datenquelle, bringt die Daten in der Regel tabellarisch in Form eines DataFrame und untersucht sie dann innerhalb eines Notebooks (Download via GitHub) mit den verschiedensten Werkzeugen. Doch steckt hier der Teufel oftmals im Detail. Vielleicht liegen die Daten in einer relationalen Datenbank und man muss neben dem passenden Datenbank-Konnektor auch noch verstehen, welche Attribute und welche Relationen wichtig für die Zielfragestellung sind.

Mit dem Aufkommen großer Transformer-Sprachmodelle (Large Language Models, LLMs) sind Werkzeuge wie Vanna.AI, PandasAI oder Cube entstanden, die die automatische Analyse und deren Visualisierung mithilfe natürlicher Sprache versprechen. Statt die Daten über SQL oder die äquivalente pandas-Notation abzufragen, stellt man dem Sprachmodell einfach Fragen zu dem zu analysierenden Datensatz, gibt die Daten als Kontext im Prompt mit und erhält daraufhin eine fertige Visualisierung. Wäre dieser Schritt einmal allgemein etabliert, würden zukünftig nicht nur Datenwissenschaftler und -analysten komplexe Datenquellen befragen können. Auch Businessanalysten, Product Owner oder andere Stakeholder könnten einfache Datenanalysen ohne spezielle Abfrage- oder SQL-Kenntnisse durchführen.

Ramon Wartala ist Director Data Science bei Accenture Song in Hamburg. Als Berater entwirft und implementiert er mit seinem Team Datenarchitekturen für Machine-Learning-Lösungen seiner Kunden.

Für diese Form der Datenanalyse ist in der Regel mehr als ein Prompt nötig. Im ersten Schritt muss das Sprachmodell verstehen, um welche Art von Daten es sich handelt. Das lässt sich über die Metadaten der Tabelle einer Datenbank oder über die Datentypen eines DataFrames herausfinden. Hier erfährt das Sprachmodell nicht nur, ob es sich um eine Zahl oder einen String handelt, sondern auch, in welchem Bereich diese Zahlen liegen, welche Verteilungen oder Standardabweichungen vorliegen und welche typischen Vertreter eines Datenattributes existieren.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Künstliche Intelligenz muss nicht kompliziert sein. Mit der PyTorch-Bibliothek bauen Sie Ihren eigenen KI-Bildgenerator in Python. Wir erklären, wie das geht.

iPad Pro 2024 mit Magic Keyboard und Apple Pencil Pro

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Apples Pro-Tablets überspringen eine Chip-Generation und setzen erstmals auf OLED – sowie neues Zubehör. Wir haben das iPad Pro 11" und den Pencil Pro getestet.

iPadOS 17: Praxistipps

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Linux oder Windows – egal, Hauptsache das System erlaubt es, in Ruhe zu arbeiten? Linux Mint Cinnamon setzt auf bewährte Konzepte. Dinge funktionieren einfach.

!!!Aufmacher: die 3 Growboxen auf Basis der Herstellerfotos gezeichnet (cyberstyle) vor Hanfhintergrund!!!,

Growboxen ausprobiert: Digital unterstützte Anzuchtboxen für den Cannabis-Anbau

Drei Cannabispflanzen darf man daheim aufziehen. Helfen kann eine Anzuchtbox, die sich um Licht, Wasser und Lüftung für die anspruchsvollen Gewächse kümmert.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Künstliche Intelligenz muss nicht kompliziert sein. Mit der PyTorch-Bibliothek bauen Sie Ihren eigenen KI-Bildgenerator in Python. Wir erklären, wie das geht.

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Apples Pro-Tablets überspringen eine Chip-Generation und setzen erstmals auf OLED – sowie neues Zubehör. Wir haben das iPad Pro 11" und den Pencil Pro getestet.

iPadOS 17: Praxistipps

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Linux oder Windows – egal, Hauptsache das System erlaubt es, in Ruhe zu arbeiten? Linux Mint Cinnamon setzt auf bewährte Konzepte. Dinge funktionieren einfach.

Growboxen ausprobiert: Digital unterstützte Anzuchtboxen für den Cannabis-Anbau

Drei Cannabispflanzen darf man daheim aufziehen. Helfen kann eine Anzuchtbox, die sich um Licht, Wasser und Lüftung für die anspruchsvollen Gewächse kümmert.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Datenanalyse mit großen Sprachmodellen: Wie Sie mit eigenen Daten chatten

Immer mehr Wissen. Das digitale Abo für IT und Technik.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Growboxen ausprobiert: Digital unterstützte Anzuchtboxen für den Cannabis-Anbau

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Immer mehr Wissen. Das digitale Abo für IT und Technik.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Growboxen ausprobiert: Digital unterstützte Anzuchtboxen für den Cannabis-Anbau

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.