Drei Fragen und Antworten: Warum KI-Sprachkorrektur nicht ohne Menschen klappt

Grammatik-Tools helfen bei der Fehlersuche in Texten und verbessern oft auch den Stil des Geschriebenen. Wie funktioniert das beim KI-Tool von Grammarly?

23.12.2022, 08:00 Uhr

Lesezeit: 6 Min.

iX Magazin

Von

Jonas Volkert

Das Unternehmen hinter dem Sprachstil- und Grammatik-Tool Grammarly expandiert: Neben Dependancen in San Francisco, New York, Kyjiw und Vancouver eröffnet nun auch ein Büro in Berlin. Noch steht das Tool des Anbieters jedoch nur für englischsprachige Texte zur Verfügung. Ein Gespräch darüber, wie man die Sprache anderer verbessert – und darüber, ob das bald auch in anderen Sprachen als Englisch klappt.

Timo Mertens ist "Head of ML and NLP Products" bei Grammarly.

Um andere zu korrigieren, sollte man sich ziemlich sicher sein, was eine korrekte Sprache ausmacht. Woher stammen die Trainingsdaten mit offenbar lupenreiner Sprache?

Wir bei Grammarly haben über ein Jahrzehnt lang in ein ausgereiftes Ökosystem aus Linguistik- und Machine-Learning Tools investiert, die uns dabei helfen, täglich zuverlässige Vorschläge für über 30 Millionen Menschen und 50.000 Teams zu liefern. Um Ihre Frage zu beantworten, würde ich mit einer kurzen Erklärung der Arbeit der Grammarly-Teams für die Verarbeitung natürlicher Sprache beginnen: Um die Modelle zu trainieren, arbeiten unsere Applied Research Scientists und unsere ML-Ingenieure gemeinsam mit Linguisten und Datenannotatoren. Die Zusammenarbeit mit Linguisten und Annotatoren ist entscheidend, um die hohe Qualität der Daten für das Training der Modelle sicherzustellen. Ein Modell für Machine Learning ist nur so gut, wie die Daten, die man für das Training und die Auswertung verwendet. Um einen qualitativ hochwertigen, beschrifteten Datensatz zu erstellen, ist ein guter Annotationsprozess unerlässlich. Hierbei markieren oder transformieren Menschen Dateninputs in sogenannte "goldene Daten", die Informationen darüber liefern, was die Spezialisten für maschinelles Lernen zu modellieren versuchen. Um beispielsweise so einen "goldenen Datensatz" zu erstellen, der zur Entwicklung eines Modells verwendet wird, das grammatikalische Fehler korrigieren kann, werden die Annotatoren gebeten, genau diese Fehler für eine Vielzahl von Beispielsätzen zu identifizieren.

Wir verwenden eine Vielzahl von Datenpunkten, um unsere Modelle zu trainieren. Zum Beispiel beginnen wir oft mit öffentlich verfügbaren Datensätzen, um allgemeine Modelle zu trainieren. Wir können auch anonymisierte und entpersonalisierte Daten von unseren Nutzern verwenden, die immer in Stichproben erfasst werden. Das ist wichtig für die Entwicklung für bestimmte Anwendungsfälle, eines Produkts mit Blick auf unsere Endnutzer und auch um sicherzustellen, dass sie sehen, warum wir bestimmte Vorschläge anbieten. Das funktioniert folgendermaßen: Nachdem Grammarly den Text verarbeitet hat, wird der Inhalt von dem Konto getrennt und gelöscht. Es kann sein, dass wir nur einige zufällige Textschnipsel speichern, um unsere Algorithmen zu trainieren. Wenn wir das tun, werden sie aber disassoziiert und unkenntlich gemacht, sodass sie nicht zu einem Nutzer zurückverfolgt werden können.

Neben Grammatik- und Rechtschreibfehlern erkennt Grammarly auch die Tonalität der geschriebenen Texte. Wie schafft ihr das?

Die Tonalität ist ein wesentlicher Bestandteil einer wirksamen Kommunikation. Ob man so verstanden wird, wie man es beabsichtigt, hängt nicht nur davon ab, was man sagt, sondern auch wie man es sagt. 2019 haben wir eine Funktion namens "Tondetektor" eingeführt, die den Nutzern dabei hilft, den richtigen Ton zu treffen. Sie nutzt eine Kombination aus Regeln und maschinellen Lernmodellen, um nach Signalen zu suchen und diese zu analysieren. Dazu gehören Wortwahl, Zeichensetzung, Großschreibung, Verneinungen und verstärkende Wörter wie "sehr" oder "extrem". Der Tonfall ist ein wichtiger Teil des Sprachverständnisses und ein gutes Beispiel dafür, dass Grammarlys Hilfe über Grammatik und Rechtschreibung hinausgeht.

Daher haben wir in den letzten Jahren diese Bereiche des Schreibens weiter erforscht und in diesem Herbst neue Vorschläge zur Überarbeitung des Tons eingeführt. Die Vorschläge zur Neuformulierung des Ausdrucks erweitern den Umfang und die Tiefe des Grammarly Feedbacks, da sie kontextbezogener sind, mehr Szenarien abdecken und eine umfassendere Unterstützung mit der Möglichkeit zur Neuformulierung ganzer Sätze bieten. Sie können zum Beispiel dabei helfen, Interaktionen konstruktiv und lösungsorientiert zu gestalten. Oder sie helfen, Sätze umzuschreiben, die steif oder unpersönlich erscheinen, um persönliche oder berufliche Beziehungen aufzubauen und zu stärken. Die Benutzer haben immer die Möglichkeit, die Vorschläge mit einer empfohlenen Umformulierung des Tons zu sehen und den richtigen Klang für ihre spezifische Nachricht und ihren Kontext zu bestimmen. Der Autor trifft also immer die endgültige Entscheidung auf der Grundlage seiner Präferenz.

Bislang gibt es Ihre Sprachkorrektur nur auf Englisch. Plant Grammarly im Berlin-Hub auch eine deutsche Variante des Tools zu entwickeln?

Es gibt noch viel mehr, was wir tun können, um Menschen zu helfen, effektiv auf Englisch zu kommunizieren – für uns geht es nicht nur um Grammatikprüfung (schon lange nicht mehr). Wir entwickeln hochwertige Sprachmodelle, die komplexe Kommunikationsprobleme mit qualitativ annotierten Daten in englischer Sprache lösen. Das ist ein gewaltiges Unterfangen, und auch wenn wir irgendwann in der Zukunft andere Sprachen in Betracht ziehen können, konzentrieren wir uns derzeit auf die Unterstützung der schriftlichen Kommunikation in englischer Sprache.

Das neu eröffnete Hub in Berlin ist – neben unseren langjährigen Zentren in San Francisco, New York, Kyjiw und Vancouver – ein Innovationszentrum. In Berlin wollen wir Talente aus den Bereichen Engineering, Produkt und Design zusammenbringen, die uns helfen, gemeinsam spannende Herausforderungen zu lösen und unsere Innovation voranzutreiben. Da wir ein wachsendes Unternehmen sind, hat jedes einzelne Mitglied viel "Ownership", also Einfluss auf das Produkt in Kombination mit Eigenverantwortung. Wir haben ehrgeizige Ziele, unser Team in Deutschland in den nächsten Jahren auszubauen und freuen uns darauf, die lokale Tech-Community besser kennenzulernen.

Herr Mertens, vielen Dank für Ihre Antworten. Kommende Woche erscheint ein zweites Kurzinterview mit Grammarly zu den ethischen Fragen der Sprachkorrektur: Wie geht man mit Poesie, wie aber auch mit sensiblen Inhalten um?

In der Serie „Drei Fragen und Antworten“ will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.