Forschungsprojekt zum Einsatz von KI-erzeugten deutschen Stimmen

Mit diesem KI-Projekt wollen wir überprüfen, ob mithilfe von selbst produzierten Trainingsdaten bestehende deutsche Sprachkorpusse weiterentwickelt werden können, damit sie für hochwertige Medienproduktionen in deutscher Sprache geeignet sind.

Gemeinsam mit dem Offenbacher Unternehmen VOX-OVER haben wir am 1. September 2024 ein Forschungsprojekt gestartet. Es wird durch das Förderprogramm Distr@l des Hessischen Ministeriums für Digitalisierung und Innovation unterstützt und gefördert.

Die Potenziale von KI-generierter Sprache sind enorm. Sie reichen von einfachen Korrekturen und Aktualisierungen bis hin zur Erstellung kompletter Inhalte auf Knopfdruck. Die Integration von Terminologie- und Aussprachedatenbanken sowie die flexible Auswahl von Sprecher:innen sind nur einige der Möglichkeiten, die das Interesse an professionellen Lösungen stetig wachsen lassen.

Eine KI für künstlich erzeugte deutsche Sprache

Zwar ermöglicht es die durch ChatGPT populär gewordene Transformer-Technologie, künstlich erzeugte Sprache in bisher unerreichter Qualität zu produzieren. Dies eröffnet zu Recht neue Chancen für den Einsatz in professionellen Medienproduktionen, in der zielgerichteten Kundenkommunikation und in barrierefreien Anwendungen.

Bislang gilt das jedoch nicht für deutsch gesprochene Sprache. Das Problem dabei ist, dass die aktuell verfügbaren Modelle für die deutsche Sprache noch nicht die notwendige Konsistenz in Aussprache, Emotion, Dialektvielfalt und klanglicher Nuance bieten, um in hochwertigen Anwendungen eingesetzt zu werden.

Wir bringen in das Projekt unsere Expertise rund um die Themen KI-Infrastruktur, Programmierung und Daten ein. Dabei werden wir ein KI-Modell auf Basis von bestehenden Open-Source-Modellen selbst trainieren.

Die Machbarkeitsstudie soll folgende Fragen klären

Ist die Entwicklung eines deutschen Sprachkorpus zur Schulung von Transformer-Modellen für hochwertige Medienproduktionen realisierbar?
Sind führende Transformer-Modelle wie SpeechT5, Bark oder MMS für diesen Sprachkorpus qualitativ geeignet?
Sind die künstlich erzeugten Stimmen für die genannten Anwendungsfelder überzeugend? Welche weiteren Potenziale und Risiken ergeben sich dabei?

Unser Partner VOX-OVER ist Experte im Bereich der Sprachproduktion für hochwertige Medienproduktionen im Bereich von Film- und Hörbuchvertonung, E-Learning. Das Offenbacher Unternehmen und bringt seine Expertise rund um die Themen Audio, Tonaufnahmen, Sprache, Sprachfärbungen, Tonalität in das gemeinsame Projekt ein.

Der Bedarf an KI-erzeugter Sprache für Medienproduktionen und Kundenansprache steigt rapide. Viele Anwendungen, die bisher auf professionelle Sprecher:innen setzen, werden künftig durch Voice-Cloning ersetzt. Entscheidend hierfür sind die Qualität der Stimmen, die Akzeptanz durch das Publikum und die Berücksichtigung von Datenschutz- sowie Sicherheitsaspekten.

Mit der Machbarkeitsstudie verfolgen wir das übergreifende Ziel eine KI-Plattform zu entwickeln, die nicht nur die sprachlichen und rechtlichen, sondern auch die technischen Anforderungen der professionellen Audio-Postproduktion erfüllt.