Einführung in die probabilistische Programmierung

Richtig entscheiden

Florian Müller

Machine-Learning-Modelle, die neben den eigentlichen Prognosen einen Hinweis auf die damit verbundene Unsicherheit geben, erlauben eine bessere Interpretation der Ergebnisse. Unterstützung bieten Frameworks wie TensorFlow Probability.

Entscheidungen werden permanent unter Unsicherheit getroffen. Dies ist unter anderem darin begründet, dass Daten fehlen oder die Entscheidungsfindung vorhandene Informationen nicht sinnvoll einbeziehen kann. Abhängig von der Fragestellung können diese Entscheidungen unterschiedlich weitreichende Folgen haben. Insbesondere Themen aus dem Gesundheitsbereich oder dem Straßenverkehr sind kritisch, da nicht nur wirtschaftliche, sondern auch gesundheitliche Risiken damit verbunden sind.

Mit der zunehmenden Verbreitung von Machine Learning (ML) zur Automatisierung von Entscheidungsprozessen erhalten diese Vorgänge plötzlich eine neue Reichweite. Während nicht passende Werbebanner vermutlich die wenigsten Menschen ernsthaft beschäftigen, sind die Implikationen, die beispielsweise das autonome Fahren hat, häufig Thema intensiver Diskussionen.

In letzter Zeit hat das maschinelle Lernen deutliche Fortschritte gemacht. Viele Innovationen in diesem Bereich sind nicht zuletzt auf den Einsatz dieser Verfahren in der digitalen Werbung zurückzuführen. Da es sich hierbei um ein Massengeschäft handelt, bei dem falsche Einzelentscheidungen keine dramatischen Folgen haben, solange sie im Schnitt passen, setzen die Experten beim Trainieren und Überwachen von ML-Modellen hauptsächlich auf die Verbesserung von Punktschätzungen. Die mit diesen Hochrechnungen verbundene Unsicherheit ignorieren sie meistens.

Fortschritte und Risiken

Abhängig von der Domäne des eingesetzten Modells ist dieser Unsicherheitsfaktor allerdings eine relevante Information, die in den Entscheidungsprozess einfließen sollte. Zwei Beispiele:

– Ein Onlineshop prognostiziert die zu erwartende Anzahl an Seitenaufrufen mithilfe eines Regressionsmodells. Hieraus will man die Anzahl notwendiger Server ableiten, damit der Shop auch bei hohem Anfragevolumen nicht ausfällt. Für spezielle Tage wie Black Friday ist durch das große Umsatzpotenzial die korrekte Entscheidung besonders wichtig, sodass die Berücksichtigung der Unsicherheit des Modells hier gegebenenfalls eine Anpassung des prognostizierten Wertes nach oben bedingt. Facebook hat für derartige Fragestellungen beispielsweise ein eigenes Framework veröffentlicht, das die Unsicherheit direkt mit abbildet. (Zu Quellen im Web siehe ix.de/ix1902108.)

– Ein selbstfahrendes Auto erkennt vor sich auf der Straße eine große helle Fläche. Das kann sowohl die Reflexion der Sonne auf der nassen Straße sein als auch ein auf der Straße stehender Anhänger. Für einen solchen Fall kann eine zu implementierende Regel besagen, dass das Auto bei hoher Unsicherheit Bremsen statt Weiterfahren priorisiert. Wissenschaftler der Universität Cambridge haben Modelle entwickelt, die die von den Kameras gesendeten Tiefeninformationen interpretieren und neben der errechneten Tiefe pro Pixel die damit verbundene Unsicherheit ausweisen.

Probabilistische Programmierung ermöglicht es, ML-Modelle so aufzusetzen, dass die mit der Prognose und den Parametern verbundene Unsicherheit direkt mit modelliert und ausgewiesen werden kann. (Siehe dazu auch den Ansatz von Shirin Glander im Artikel „Blick in die Blackbox“ in iX Developer 2018, S. 24.)

Variable für statistische Verteilungen

Unter den Begriff probabilistische Programmierung fallen Frameworks und Bibliotheken, die es ermöglichen, Variablen nicht nur als einfache Werte, sondern als statistische Verteilungen zu definieren. Eine klassische lineare Regression zur Prognose von Seitenaufrufen eines Onlineshops würde beispielsweise für Sonntage einen Koeffizienten von 300 errechnen, während Montage einen von 240 erhalten.