Moderne Textanalyse, Teil 2: Verborgene Strukturen mit unüberwachtem Lernen entdecken

Da steckt doch mehr drin

Stephanie Fischer, Christian Winkler

Mit Verfahren wie Clustering und Topic Modeling lassen sich thematisch ähnliche Texte finden und größere Themenkomplexe aufspüren.

Der erste Teil des Tutorials in iX 3/2018 hat erklärt, wie sich die Meldungen des Heise-Newstickers zerlegen lassen und wie man Strukturen und Zusammenhänge anhand von Informationen, die bereits im Text enthalten sind, analysiert. Visualisierungen haben dabei die Erkenntnisse über thematische Trends und Korrelationen anschaulich gemacht [1].

Machine Learning ist dabei lediglich am Rande zum Einsatz gekommen, nämlich bei der natürlichen Spracherkennung und der Zerlegung der Texte nach Wortarten. In diesem und dem nächsten Teil des Tutorials in iX 5/2018 wird Maschinenlernen eine zentrale Rolle spielen.

Grundsätzlich unterscheidet man zwischen überwachtem und unüberwachtem Lernen. Überwachtes Lernen kommt bei Texten hauptsächlich zur Klassifikation und Sentiment-Analyse zum Einsatz und benötigt Trainingsdaten. In dieser Hinsicht ist es mit dem menschlichen Lernen in der Schule vergleichbar, wo Wissen durch Beispiele und Abstraktion vermittelt wird. Typische Verfahren des überwachten Lernens sind Regressionen, Bayes-Klassifikatoren, Entscheidungsbäume oder Support Vector Machines. Diese Verfahren beschreibt der dritte Teil des Tutorials.

Dieser Teil des Tutorials zur automatisierten Textanalyse erklärt Methoden des unüberwachten Maschinenlernens. Unüberwachte Verfahren benötigen keine Trainingsdaten, sondern können Strukturen anhand der Daten selbst ermitteln. Sehr beliebt sind die K-Means- und Meanshift-Verfahren zum Clustern von Daten. Unüberwachte Verfahren können aber auch zur Feature-Extraktion eingesetzt werden oder die Dimensionen von Vektorräumen reduzieren, indem sie „verborgene“ Strukturen finden. In der Textanalyse und in diesem Artikel kommen noch spezielle Methoden wie Topic Modeling und Wortvektoren hinzu.

Die verborgene Struktur des Heise-Newstickers

In den Artikeln des Newstickers sind bereits etliche Strukturinformationen enthalten wie der Autor, das Veröffentlichungsdatum und die Keywords. Zunächst soll die Keyword-Struktur der Artikel unter die Lupe genommen werden. Verstecken sich darin noch weitere Informationen? Könnte man auch „übergreifende“ Keywords definieren?

Eine solche Fragestellung eignet sich sehr gut für Methoden des unüberwachten Lernens, denn die Struktur der durch die Keywords repräsentierten Artikel ist nicht bekannt und so kann man sich ein unvoreingenommenes Bild dieser Daten machen. Das Ziel ist somit, die Meldungen in unterschiedliche Gruppen aufzuteilen, das heißt zu segmentieren. Dadurch sollen Gruppen ähnlicher Artikel über ähnliche Keywords entdeckt werden. Da die Autoren die Keywords der Artikel selbst vergeben, gibt es hier allerdings eine subjektive Komponente. Daher wird anschließend die Struktur der Texte selbst betrachtet.

Der erste Teil dieses Tutorials hat den Aufbau der hier analysierten Heise-Artikel bereits im Detail erklärt. Die 186 142 Artikel, die zwischen 1996 und Ende 2017 auf dem Newsticker veröffentlicht wurden, sind bereits per Webcrawler heruntergeladen und im JSON-Format aufbereitet. Sie stehen ebenso wie ein Jupyter-Notebook mit dem Code der Analysen aus diesem Artikels zum Download unter ix.de/ix1804124 bereit. Eine kurze Anleitung zur Installation der benötigten Software finden Sie im ersten Teil des Tutorials [1].