Data Wrangling mit pandas

Eingefangen

Wadim Wormsbecher

Data Wrangling, das Aufbereiten von Rohdaten, macht bei Datenanalysen einen Großteil des Aufwands aus. Die Python-Bibliothek pandas bringt dafür effiziente Datenstrukturen und Funktionen mit, die die Arbeit deutlich erleichtern.

Eine besonders beliebte Bibliothek für die Datenanalyse mit Python ist pandas. Sie bietet einen einfachen und dabei sehr effizienten Weg, Daten zu analysieren und zu verwerten. pandas selbst baut auf NumPy auf, einer Bibliothek, die eine hocheffiziente Arithmetik in Python implementiert. So kann NumPy mit Vektoren und Matrizen rechnen und nicht nur mit einzelnen Zahlen. Dies erlaubt eine gewaltige Steigerung der Recheneffizienz. NumPy führt die Berechnungen nicht in Python aus, sondern in C-Code und umgeht so viele Nachteile von reinem Python.

Jupyter-Notebook als Arbeitsumgebung

In diesem Beispiel kommt als IDE ein Jupyter-Notebook in Google Colab zum Einsatz. Wer lieber lokal arbeitet, sollte beachten, dass sich die pandas-Versionen teilweise stark voneinander unterscheiden. Dieser Artikel arbeitet mit Python 3.7.12 und pandas 1.1.5. Letzteres besitzt diverse Abhängigkeiten und es gilt, darauf zu achten, dass sie mit installiert werden, was in der Regel automatisch klappt.