Wie Sprache das Dialog-Interface verändert

Gut zugehört

Frank Puscher

Siri, Cortana, Google Home, Alexa und jede Menge Bots verstehen die natürliche Sprache immer besser. Ein Gutteil der Kommunikation mit Rechnern könnte in Zukunft verbal geschehen.

Schon vor vier Jahren prognostizierte Professor Wolfgang Henseler, ein renommierter Interface-Forscher, dass es nur eine Frage der Zeit sei, bis Schnittstellen vom Schlage Siri so leistungsfähig sind, dass sie als Ein- und Ausgabesysteme auch höheren Anforderungen an das Computing genügen [1].

Und tatsächlich haben Spracherkennungssysteme dank Cloud einen qualitativen Sprung gemacht. Musste früher der Nutzer selbst das System auf seinen Dialekt, seine Klangfarbe und eventuell sein spezifisches Fachvokabular trainieren, so machen das heute alle für alle, zumindest, wenn man an Siri, Google Assistant oder Alexa denkt. „Im Moment hat Google im Sprachverständnis klar die Nase vorn“, meint Christian Kuhn, Innovationschef bei der Agentur Nuisol, „aber das liegt eben daran, dass so viele Eingabegeräte schon verteilt sind. Amazon wird aufholen, wenn sie weiterhin Echo verschenken.“

Echo in allen seinen Varianten (dot, plus, show) ist isoliert betrachtet ein katastrophales Zuschussgeschäft. Aus der strategischen Perspektive stellen sich die Kampfpreise ab 35 Euro jedoch anders dar: Millionen von Sprachtrainern und Betatestern geben Geld dafür aus, Alexa mit Informationen zu füttern und so deren Fähigkeiten zu verbessern. Ganz zu schweigen von den Nutzungsdaten, aus denen Amazon natürlich Kapital schlagen kann.

Die schiere Begriffserkennung reicht jedoch nicht aus, um ein Verständnis für die Zielsetzung des Gesagten zu entwickeln. Mit Ironie, Sarkasmus und Umschreibungen tut sich ein Algorithmus schwer. Schon die Entwickler semantischer Analysen etwa im Social Media Monitoring können ein Lied davon singen, wie komplex Umgangssprache sein kann, selbst in direkt maschinenlesbarer Textform. Die gesprochene Sprache ist um ein Vielfaches komplizierter, man denke an Dialekte, Sprachfehler und Umgebungsgeräusche. Und der Nutzer erwartet eine hohe Geschwindigkeit vom Dialog-Interface. Ladezeiten passen zu einer Datenbankabfrage in einem Onlineshop, aber nicht zu Alexa und Co.

Verständnisprobleme: Wie war das noch mal?

Aus diesem Grund behilft man sich nach wie vor mit Steuerbefehlen, die der Nutzer lernen soll. „Okay Google“ oder „Alexa“ sind als Startbefehl hinlänglich intuitiv, aber schon das Aufrufen der Alexa Skills (also der Anwendungen) ist mühsam. Hieß es „Frag die Bahn“, „Frag die Deutsche Bahn“ oder „Suche einen Zug“, um die Fahrplanauskunft zu aktivieren?