Geschäftsanwendungen mit Long-Short-Term-Memory-Netzen in Keras und Python entwickeln

In guter Erinnerung

Ramon Wartala

Mit rekurrenten Netzen – insbesondere Long Short-Term Memory Networks (LSTM) – lassen sich Kundenverhalten voraussagen, Sprache verstehen und Texte erzeugen. Mit Keras und TensorFlow kann man LSTMs in eigenen Anwendungen nutzen.

Menschen erzeugen ständig Daten. Sie verschicken E-Mails, öffnen Apps auf dem Smartphone, fahren Auto und zahlen an der Supermarktkasse. Für jede Handlung innerhalb der digitalisierten Welt werden mindestens vier Attribute gespeichert:

die Nutzeridentität, wie User-ID oder Fahrgestellnummer;
die konkrete Aktion (Suchwort eingeben, auf die Bremse treten);
der Zeitstempel (24. Juni 2019, 8:39 Uhr);
das Ergebnis, also Erfolg oder Nichterfolg der Aktion.

Zeitlich aufeinander folgende Handlungen lassen sich auch als Sequenz beschreiben (mehr im Kasten „Aus Sequenzen lernen“). Das können nicht nur Messwerte sein, die man über einen bestimmten Zeitraum verfolgt. Auch Äußerungen, also die Aneinanderreihung von Buchstaben zu Wörtern, von Wörtern zu Sätzen und von Sätzen zu Texten, stellen Sequenzen dar.

Aus ML wird KI

Anwendungsfälle dieser Art lassen sich mit statistischen Verfahren wie der linearen oder der logistischen Regression oder zum Beispiel mit Markov-Modellen modellieren. Algorithmen für ihre Anwendung sind in viele bekannte Frameworks geflossen und haben so zum Siegeszug des maschinellen Lernens einen nicht unerheblichen Teil beigetragen. In den letzten Jahren brachten der Trend zu Big Data, das Aufkommen hochoptimierter GPUs und die Verfügbarkeit von Rechenpower-on-Demand in der Cloud die künstlichen neuronalen Netze aus ihrem Nischendasein.

Plötzlich gewannen ML-Modelle einen akademischen Wettbewerb nach dem nächsten – und das gleich auf mehreren Ebenen. 2011 gewann ein Deep-Learning-Algorithmus auf GPUs den ICDAR-Wettbewerb für die Erkennung von chinesischen Handschriften (siehe ix.de/zvs3). 2012 erreichte dann das AlexNet von Alex Krizhevsky den ersten Platz beim ILSVRC, einem wichtigen Wettbewerb für Bildklassifikationsalgorithmen. 2014 veröffentlichte Facebook mit DeepFace eine Gesichtserkennungssoftware, die menschliche Gesichter mit einer Genauigkeit von 97,35 Prozent erkannte.

Im Frühjahr 2019 gewannen Geoffrey Hinton, emeritierter Professor der in KI-Fachkreisen hoch angesehenen Universität von Toronto und Senior Researcher bei Googles Mutterfirma Alphabet, Yann LeCun, Chef-KIler von Facebook und Professor an der New York University, sowie Yoshua Bengio, Professor an der Universität in Montreal, den Turing Award. Dieser mit einer Million US-Dollar dotierte Preis gilt als der Nobelpreis der Computerwissenschaften. Er wurde den drei Wissenschaftlern für ihre konzeptionelle und technische Arbeit an künstlichen neuronalen Netzen (KNN) verliehen.

Anders als klassische mathematische und statistische Verfahren lernen künstliche neuronale Netze selbstständig aus Eingaben und Ausgaben. Ein KNN wird trainiert, indem es zu einer erwünschten Ausgabe eine oder mehrere mögliche Eingaben verarbeitet und gewichtet. Solche Netze sind dabei in der Regel in Schichten organisiert. Nach der Eingabe fließen die Daten dabei per Feedforward in die nächsthöheren Schichten, bis sie die Ausgabeschicht erreichen. Stimmt die durch das Netz berechnete Ausgabe nicht mit der zu lernenden Ausgabe überein, wird der Fehler durch das Netz zurückgeführt (Backpropagation) und die Gewichte, die zu der fehlerhaften Ausgabe geführt haben, werden angepasst. Diese Rückführung wird aus der Fehlerminimierung bei der mathematischen Ableitung der Ausgabefunktion bestimmt.

Aus Sequenzen lernen

Aus bestehenden Zeitreihen oder anderen sequenziellen Daten lassen sich Schlüsse auf zukünftige Daten ziehen. Dazu dient innerhalb der Statistik die Regressionsanalyse. Diese versucht, Beziehungen zwischen den Signalen einer Sequenz zu erkennen und etwaige Störgrößen zu quantifizieren und zu minimieren. Solche Beziehungen werden dabei als mathematische Funktion ausgedrückt. Weil die Funktion die Signalbeziehungen modelliert, spricht man in diesem Zusammenhang auch von einem Regressionsmodell.

Zeitreihen, Text- und Sprachverständnis bis hin zur Customer-Journey-Analyse: Sequenzen kommen in vielen Bereichen im Unternehmen vor (Abb. 1).

Ist die perfekte Funktion zum Abbilden dieser Beziehung gefunden, kann man sie mit weiteren Sequenzdaten füttern, die in die Erstellung des Modells nicht eingegangen sind. Die Funktion liefert dann eine Ausgabe für diese Eingabe, die mit einem bestimmten Fehler behaftet ist. Eine praktische Anwendung für dieses Verfahren sind Produktempfehlungen. Auf Basis der gelernten Kaufhistorie eines Nutzers und der Kaufhistorie ähnlicher Nutzer kann das Modell die Wahrscheinlichkeit für den Kauf eines weiteren Produkts vorhersagen. Ein Unternehmen könnte dem Kunden dann die Produkte mit der höchsten Kaufwahrscheinlichkeit anbieten.

Doch nicht nur Vorhersagen – sogenannte Sequence Predictions – über das Ergebnis mit unbekannten Eingabedaten lassen sich mithilfe eines solchen Modells erstellen. Einzelne Sequenzen können auch je nach Zusammensetzung eine eigene Klasse bilden. Ein Beispiel, das jeder kennt, sind Produktbewertungen oder Meinungsäußerungen zu Restaurantbesuchen, wobei Besucher oder Kunden mit Sternchen und Texten die eigene Zufriedenheit zum Ausdruck bringen. Um die Stimmung – das Sentiment – des Rezensenten herauszufinden, lässt sich dies mit der Klassifizierung dieser Bewertungen automatisieren. Dabei wird ein Modell erzeugt, das zum Beispiel zwischen Klassen aus negativen, neutralen und positiven Rezensionen unterscheiden kann.

Auf Basis bestehender Sequenzmodelle kann man auch neue Sequenzen generieren (Sequence Generation), zum Beispiel bei der automatischen Texterzeugung. So lässt sich ein Sequenzmodell erstellen, das als Input existierende Texte zur Wettervorhersage erhält. Das Modell lernt dabei die häufigsten Ausdrücke und Formulierungen, die in Zusammenhang mit Sonne, Regen, Wind und Temperaturen genutzt werden. Gibt man in dieses Modell dann die Wettervorhersagen für die nächsten Tage ein, kann es daraus automatisch passende Nachrichten erzeugen.

Ein anderer Anwendungsfall ist die Vorhersage von Kontaktpunkten eines Kunden in einem Onlineshop. Die digitalen Kontaktpunkte, die der Kunde bis hin zu seinem Produktkauf mit dem Produkt oder der Marke hat, bilden in diesem Fall die Sequenz. Es kann hierbei um die Nutzung einer Suchmaschine gehen oder zum Beispiel um einen Klick auf ein Werbebanner oder einen Instagram-Post. Erfolgreiche Sequenzen – der englische Begriff Customer Journey hat sich hierfür etabliert – lassen sich modellieren und auf Kunden anwenden, die noch nicht gekauft haben (siehe Abbildung 2). Das Ergebnis ist eine Vorhersage darüber, wie viele und welche Kontaktpunkte der Kunde mit einer definierten Wahrscheinlichkeit bis zu einem Produktkauf mit dem System hat.

Unterschiedliche Methoden, um aus sequenziellen Daten Erkenntnisse zu gewinnen, hier am Beispiel einer Customer Journey (Abb. 2)

Effizienz durch Rekurrenz

Leider eignet sich diese Form künstlicher neuronaler Netze nicht sehr gut für die Verarbeitung langer Sequenzreihen. Der Grund hierfür ist die fehlende Möglichkeit, zeitlich aufeinander folgende Daten zu modellieren. Um zum Beispiel die Bedeutung von Texten zu verstehen, müsste das Netz verschiedene Wortpositionen lernen, da es keine Repräsentationsform von Wortabfolgen lernen kann. Dies kann ein Feedforward-Netz nur, wenn es genug Beispiele und dafür auch ausreichend Speicher und Rechenpower zur Verfügung hat. Und es geht deutlich effizienter.

Genau das sollen RNNs leisten. Diese Art neuronaler Netze kann man auch als Schleifenstruktur betrachten. Die Eingabedaten verarbeitet ein solches System schrittweise. Beim Durchlauf einer Eingabesequenz durch das RNN merken sich seine Zellen ihren vorherigen Zustand. RNN-Zellen verfügen somit über eine Art Gedächtnis. Auch RNN nutzen zur Fehlerminimierung den Backpropagation-Algorithmus. In diesem Fall wird er auch gern als Backpropagation Through Time (BPTT) bezeichnet, da die Fehlerrückführung hier durch die Zeit rückwärts verläuft.