YouTube erhält Synchronisation – mittels KI

Mit YouTube kannst auch du ein Millionen-Publikum erreichen – wenn da nicht die Sprachbarriere wäre. Doch die könnte in Zukunft der Vergangenheit angehören. Mit dem Team von Aloud hat sich Google Expertise im Bereich Künstliche Intelligenz ins Haus geholt.
So funktioniert das KI-Tool von Aloud
Wie aber kann aus deinem gesprochenen Wort eine Synchronisation in einer anderen Sprache – und Stimme – entstehen? Auf der Webseite von Aloud ist der ganze Prozess in vier einfache Schritte unterteilt:
- Aloud transkribiert dein Video, also tippt dein gesprochenes Wort in Text ab
- Den Text überprüftst du auf Richtigkeit
- Mittels KI wird dann der Text übersetzt und in eine andere Sprache synchronisiert
- Du veröffentlichst dein Video mit der Option der Synchronisation
Dabei sollst du die volle Kontrolle behalten. Du entscheidest etwa, mit welche Stimme und in welche Sprache dein Video übersetzt werden soll.
In einem Video wird der ganze Prozess kurz erklärt – und natürlich sind Passagen dort auch per KI synchronisiert worden:
Wann kannst du mit KI-unterstützter Synchronisation rechnen?
Wann es großflächig losgeht und selbst kleinere Content Creator:innen bei YouTube auf das Tool zurückgreifen können, ist derzeit noch unklar. Laut YouTube teste man aber wohl schon mit mehreren „hundert“ Nutzer:innen.
Derzeit unterstützt Aloud nur eine begrenzte Anzahl an Sprachen. Auf Nachfrage von The Verge gegenüber Amjad Hanif von YouTube gab es nur die Antwort, dass weitere Sprachen folgen sollen. Laut Website, auf der man sich für das Early-Access-Programm registrieren kann, werden derzeit Englisch, Spanisch, Portugiesisch, Hindi und Indonesisch angeboten.
Das Tool ist jedenfalls eine spannende Entwicklung. Ganz ohne großen Aufwand verspricht es, in wenigen Minuten ein viel größeres Publikum zu erreichen. Du fühlst dich nicht wohl, deine Inhalte selbst in Englisch aufzunehmen? Mit dem Tool kannst du in wenigen Minuten deinen Text übersetzen lassen und Menschen auf der ganzen Welt erreichen.
Übrigens: Im Interview mit The Verge sagte Hanif noch, dass sie daran arbeiten, „übersetzte Videos wie mit der Stimme der hochladenden Person klingen zu lassen, mit mehr Ausdruck und sogar lippensynchron“. Das sei aber erst für das Jahr 2024 geplant.