SpeechX: Vielseitiges Spracherzeugungsmodell mit Bearbeitungsfunktionen

Microsoft Research hat ein vielseitig einsetzbares Text-to-Speech-Tool entwickelt, das Stimmen klonen, Texte ergänzen und Störgeräusche entfernen kann.

4

lassedesignen/Shutterstock.com

(Bild: Shutterstock)

18.08.2023, 19:15 Uhr

Lesezeit: 2 Min.

Von

Marie-Claire Koch

Microsoft hat SpeechX angekündigt – ein Text-to-Speech-Generator, der aus Audioaufnahmen künstliche Stimmen erzeugen, die gesprochenen Text bearbeiten und Hintergrundgeräusche entfernen kann. Wer beispielsweise etwas falsch ausgesprochen hat, soll SpeechX für eine nachträgliche Korrektur nutzen können. Dazu tippt man in dem Transkript lediglich den angepassten Text ein und lässt SpeechX diesen Teil mit der – zumindest in den Beispielen – kaum vom Original unterscheidbaren Stimme erzeugen. Das soll ohne vorheriges Stimmtraining direkt anhand der vorhandenen Audiospur möglich sein (Zero-shot TTS). Ebenso bringt das Modell die Möglichkeit, ganze Phrasen auszutauschen. In einem Beispiel wird aus einer Zahl eine ganz andere – der übrige Text bleibt gleich.

Außerdem lässt sich die Qualität der Tonspur verbessern, indem Störgeräusche wie Rauschen, Vogelgezwitscher oder Ähnliches automatisch entfernt werden. Auch störende Stimmen lassen sich der Studie und den Hörbeispielen zufolge entfernen – übrig bleiben beispielsweise eine isolierte weitere Stimme, ein Martinshorn und eine Schießerei.

SpeechX: Vom Text zu Audio

(Bild: Microsoft)

SpeechX basiert auf Microsofts "Neural Codec Language Model". Das Modell nimmt sowohl Text als auch Sprache entgegen. Über einen Prompt steuert man die gewünschten Audiotransformationsaufgaben. Die Aufforderung kann als Spracheingabe, aber auch als Text erfolgen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Baustein für weitere Forschung

Das Microsoft-Forscherteam rund um Xiaofei Wang hat über SpeechX ein Paper veröffentlicht, in welchem sie verschiedene Experimente vorstellen. Die Forscher sehen in ihrem Modell einen "wichtigen Schritt zu einheitlichen generativen Sprachmodellen". Zudem könne weitere Forschung auf ihrer Arbeit aufbauen und unter anderem die Robustheit des Modells verbessern.

Lesen Sie auch

AudioPalm: Google fusioniert Palm2 und AudioLM zu multimodaler KI

Google: SoundStorm soll Audio-Erzeugung schneller und effizienter machen

Audio-KI "Bark" erzeugt natürliche Sprache und kann sogar singen

(mack)

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}