SpeechX: Vielseitiges Spracherzeugungsmodell mit Bearbeitungsfunktionen

Microsoft Research hat ein vielseitig einsetzbares Text-to-Speech-Tool entwickelt, das Stimmen klonen, Texte ergänzen und Störgeräusche entfernen kann.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

lassedesignen/Shutterstock.com

(Bild: Shutterstock)

Lesezeit: 2 Min.

Microsoft hat SpeechX angekündigt – ein Text-to-Speech-Generator, der aus Audioaufnahmen künstliche Stimmen erzeugen, die gesprochenen Text bearbeiten und Hintergrundgeräusche entfernen kann. Wer beispielsweise etwas falsch ausgesprochen hat, soll SpeechX für eine nachträgliche Korrektur nutzen können. Dazu tippt man in dem Transkript lediglich den angepassten Text ein und lässt SpeechX diesen Teil mit der – zumindest in den Beispielen – kaum vom Original unterscheidbaren Stimme erzeugen. Das soll ohne vorheriges Stimmtraining direkt anhand der vorhandenen Audiospur möglich sein (Zero-shot TTS). Ebenso bringt das Modell die Möglichkeit, ganze Phrasen auszutauschen. In einem Beispiel wird aus einer Zahl eine ganz andere – der übrige Text bleibt gleich.

Außerdem lässt sich die Qualität der Tonspur verbessern, indem Störgeräusche wie Rauschen, Vogelgezwitscher oder Ähnliches automatisch entfernt werden. Auch störende Stimmen lassen sich der Studie und den Hörbeispielen zufolge entfernen – übrig bleiben beispielsweise eine isolierte weitere Stimme, ein Martinshorn und eine Schießerei.

SpeechX: Vom Text zu Audio

(Bild: Microsoft)

SpeechX basiert auf Microsofts "Neural Codec Language Model". Das Modell nimmt sowohl Text als auch Sprache entgegen. Über einen Prompt steuert man die gewünschten Audiotransformationsaufgaben. Die Aufforderung kann als Spracheingabe, aber auch als Text erfolgen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das Microsoft-Forscherteam rund um Xiaofei Wang hat über SpeechX ein Paper veröffentlicht, in welchem sie verschiedene Experimente vorstellen. Die Forscher sehen in ihrem Modell einen "wichtigen Schritt zu einheitlichen generativen Sprachmodellen". Zudem könne weitere Forschung auf ihrer Arbeit aufbauen und unter anderem die Robustheit des Modells verbessern.

(mack)