OpenAI kündigt neue Technologie zum Klonen von Stimmen aus 15-Sekunden-Audio an
OpenAI hat ein neues innovatives Tool namens Voice Engine vorgestellt, das die Stimme einer beliebigen Person aus einem 15-sekündigen Audiobeispiel klonen kann.
Voice Engine analysiert ein kurzes Audiosignal und erzeugt natürlich klingende Sprache mit “emotionalen und realistischen Stimmen”. Diese innovative Technologie, die auf der bestehenden Sprachsynthese-API von OpenAI basiert, kann für eine Vielzahl von Zwecken nützlich sein: Hörbücher, Sprachübersetzung und Hilfe für Menschen mit Sprachstörungen.
OpenAI ist sich der ernsthaften Risiken bewusst, die mit dem Einsatz dieser Technologie verbunden sind, einschließlich der Möglichkeit des Missbrauchs durch skrupellose Personen. Daher arbeitet das Unternehmen aktiv daran, den Datenschutz und die Sicherheit zu gewährleisten und hat eine Reihe von Maßnahmen ergriffen, wie z. B. Wasserzeichen und eine proaktive Überwachung der Systemnutzung.
Der Ankündigung zufolge befindet sich Voice Engine noch in der Vorschauphase, aber das Unternehmen hat bereits erfolgreiche Pilotprogramme durchgeführt, die das Potenzial von Voice Engine zeigen. Eine Vorpremiere fand an der Brown University statt, wo die Funktion zur Unterstützung von Patienten mit Sprachbehinderungen eingesetzt wurde.
Nach Angaben von OpenAI wird die Voice Engine unter Berücksichtigung des Feedbacks von Partnern und unter Einhaltung einer Richtlinie implementiert, die die Verwendung von geklonten Stimmen ohne die Zustimmung der betreffenden Person verbietet. Außerdem ist geplant, eine “Liste der verbotenen Stimmen” zu erstellen, um Missbrauch zu vermeiden.
Die geschätzten Kosten für die Nutzung von Voice Engine betragen etwa 15 Dollar pro Million Zeichen, was etwa 162.500 Wörtern entspricht.