Drei Sekunden Input reichen: Microsofts KI Vall-E imitiert menschliche Sprache

Die KI Vall-E braucht für die Sprachsynthese nur drei Sekunden Audioinput des Sprechers. Ihr großes Missbrauchspotenzial haben auch die Entwickler erkannt.

12

10.01.2023, 16:49 Uhr

Lesezeit: 3 Min.

iX Magazin

Von

Jonas Volkert

Microsoft hat mit Vall-E eine KI vorgestellt, die die menschliche Sprache auch mit extrem kurzen Audio-Inputs imitieren kann. Um den Sprecher nachzuahmen, braucht das Text-to-Speech (TTS) KI-Modell lediglich eine dreisekündige Originaldatei seines Vorbilds. Anschließend liest sie beliebige Texte des menschlichen Vorbilds mit dessen Stimme vor.

Sein neues KI-Modell Vall-E bezeichnet Microsoft als "Neural Codec Language". Auf Github berichtet Microsoft, die KI erzeuge "hochqualitative, personalisierte Sprache", die nach ersten Experimenten "das modernste Zero-Shot-TTS-System in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft." Neben der neutralen Wiedergabe von Texten beherrscht die KI demnach auch Emotionen und kann Audioartefakte, etwa durch schlechte Sprachqualität bei Telefonaten, bei der Sprachsynthese berücksichtigen und korrekt reproduzieren.

Beeindruckende Beispieldateien

Wie die vielen Audiobeispiele in der GitHub-Demo zeigen, klappt das – zumindest stellenweise – tatsächlich bereits sehr gut. Die Demodateien enthalten neben dem zu sprechenden Text den "Speaker Prompt", also das dreisekündige individuellen Sample. Unter "Ground Truth" ist der Text hörbar, wie er tatsächlich von der Person vorgelesen wurde, "Baseline" gibt das Ergebnis eines konventionellen TTS-Synthese-Modells wieder. In der Spalte ganz rechts ist schließlich das Ergebnis von Vall-E zu hören, das dem "Ground Truth" mal mehr, mal weniger ähnelt.

Technisch zerlegt Vall-E dabei das dreisekündige Audio-Sample per Tokens in bestimmte Sprach-Charakteristika. Von diesen Tokens leitet die Sprach-KI mithilfe der Trainingsdaten ab, wie sich die Stimme der sprechenden Personen bei anderen Begriffen verhalten würde. Im Pre-Training für Vall-E kamen über 60.000 Stunden Audiodateien in englischer Sprache zum Einsatz. Die Trainingsdaten stammen aus dem Datensatz LibriLight von Meta und enthalten vor allem frei zugängliche Hörbücher. Derzeit, so die Forscher weiter, erzeuge Vall-E vor allem diejenigen Stimmen realitätsgetreu, die einem der Vorbilder der Trainingsdatensätze ähneln.

Großes Missbrauchspotenzial

Zum Einsatz kommen könnte Vall-E bei konventionellen TTS-Aufgaben, aber auch bei Reden öffentlicher Personen, bei denen man mithilfe der KI nachträglich das gesprochene Wort ändern könnte. Microsofts KI ist bei weitem nicht die erste Sprachsynthese, die auf natürlicher Sprache basiert – neu an Vall-E ist aber der extrem kurze benötigte Audio-Input.

Vall-E ist damit die neueste Technik im Feld der sich in letzter Zeit rasch entwickelnden künstlichen Intelligenzen – siehe den Vall-E Namensvetter, die Bild-KI Dall-E oder die zuletzt die Schlagzeilen beherrschende KI ChatGPT.

Dass die KI auch für Schindluder genutzt werden könnte, ist wohl auch Microsoft bewusst. Der Code von Vall-E steht derzeit der Öffentlichkeit nicht zur Verfügung. Außerdem heißt es zum Abschluss der Demo, es gebe ein "ein potenzielles Risiko für den Missbrauch des Modells, etwa das Austricksen einer Stimmerkennung oder das Nachahmen eines bestimmten Sprechers." Daher wolle man zusätzlich ein Prüfmodell bauen, das erkennen kann, ob es sich bei einer Audio-Datei um eine Originalstimme oder nur eine Vall-E-Kopie handelt.