Meta präsentiert neues ‚Voicebox‘-Sprach-zu-Text-Übersetzungswerkzeug

Auf den ersten Blick scheint Meta’s neueste KI-Entwicklung keine bahnbrechende Weiterentwicklung zu sein. Heute hat Meta eine Übersicht über sein neues „Voicebox“-KI-System veröffentlicht, das es Benutzern ermöglichen wird, Text in Audio in verschiedenen Stilen und Stimmen zu übersetzen.

Voicebox: Ein Durchbruch in der generativen Sprachsynthese

Meta AI hat Voicebox als ein neues bahnbrechendes generatives Sprachsystem vorgestellt, das auf einer von Meta AI vorgeschlagenen Methode namens „Flow Matching“ basiert. Es kann Sprache in sechs Sprachen synthetisieren, Rauschen entfernen, Inhalte bearbeiten, den Audio-Stil ändern und vieles mehr. Weitere Details zu dieser Arbeit und Beispiele finden Sie unten.

„Voicebox kann hochwertige Audio-Clips produzieren und bereits aufgenommenes Audio bearbeiten – wie zum Beispiel das Entfernen von Autotönen oder einem bellenden Hund – und dabei den Inhalt und den Stil des Audios beibehalten. Das Modell ist auch mehrsprachig und kann Sprache in sechs Sprachen produzieren. In Zukunft könnten universell einsetzbare generative KI-Modelle wie Voicebox natürliche Stimmen für virtuelle Assistenten und Nicht-Spieler-Charaktere im Metaverse ermöglichen. Sie könnten es sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden vorlesen zu lassen, die von KI in deren Stimmen gelesen werden, Schöpfern neue Tools bieten, um einfach Audio-Tracks für Videos zu erstellen und zu bearbeiten und vieles mehr.“

Wie Meta betont, ermöglicht Voicebox auch die Verwendung von Sprachmodellen für Übersetzungen. Dadurch können Sie einen Audio-Clip einer anderen Person verwenden, um Ihre Text-zu-Sprach-Übersetzung so klingen zu lassen, als würde diese Person sprechen, mit nur wenigen Sekunden Audioeingabe.

Die Vorteile von Voicebox in der Übersetzung

Der wahre Vorteil von Voicebox liegt in einer umfassenden Übersetzung, die vereinfachte, nativ klingende Versionen Ihrer Texteingaben in verschiedenen Sprachen ermöglicht. Das könnte neue, länderübergreifende Möglichkeiten eröffnen. Die hochentwickelte Modellierung des Systems wird auch breitere Anwendungsfälle und Prozesse ermöglichen, was weitere wesentliche Vorteile bieten könnte.

Die Risiken und Beschränkungen von Voicebox

Meta ist sich jedoch auch der Risiken bewusst. In diesem Stadium veröffentlicht Meta den Quellcode oder die App nicht öffentlich und verweist auf „die potenziellen Risiken des Missbrauchs“. Es hofft, im Laufe der Zeit praktischere und wertvollere Anwendungsfälle für die Technologie zu finden. Die heutige Ankündigung dient daher mehr der Information als einem offiziellen Start.

Weitere Informationen zum Voicebox-Projekt von Meta finden Sie hier.

Quelle