iX 8/2021
S. 116
Praxis
Data Science

Datenanalyse eines sozialen Netzwerks, Teil 3: Inhaltliche Analyse

Wortspiel

Prof. Dr. Stefanie Scholz, Dr. Christian Winkler

Diskussionen finden in Reddit innerhalb von Subreddits statt, Flairs erleichtern die Orientierung. Zentrale Themen lassen sich über eine Textanalyse und Natural Language Processing (NLP) aufspüren. Die Analyse ihrer zeitlichen Entwicklung erlaubt die Prognose von Trends.

Nach den statistischen und communitybezogenen Auswertungen des Technology-Subreddits in Teil 1 und 2 (siehe iX 7/2021[1, 2]) stehen in diesem Teil Fragen zu den konkreten Inhalten der Diskussionen im Zentrum der Analyse. Er widmet sich der Textanalyse mittels NLP.

Der erste Teil betrachtete innerhalb der statistischen Auswertungen die Flairs – vordefinierte Labels, die die Autoren der initialen Posts auswählen können. Jedoch zeigte diese Analyse bereits, dass man die Flairs bereinigen muss. Erst dann lassen sich valide Aussagen zur Entwicklung der hierdurch gekennzeichneten Themen ableiten. Spannend ist nun aber auch die Frage, ob die Flairs überhaupt die inhaltliche Entwicklung der Diskussionen ausreichend wiedergeben können. Immerhin dürfte es den Autoren bei manchen Themen schwerfallen, sich für ein Flair zu entscheiden. Da sie subjektiv auswählen, ist es interessant, unabhängig von vordefinierten Flairs zentrale Themen zu finden und deren Entwicklung über die Zeit zu analysieren, um weitere oder ganz andere Trends aufzudecken.

Kommentieren