Computerversierte Menschen können heute mit einem vertretbaren Aufwand, mit begrenzten Rechenressourcen und ohne Vorwissen einen Audio-Klon erzeugen, so die Erkenntnis der Hochschule Offenburg. Foto: Hochschule Offenburg

Offenburg - Dass Bilder oder Videos manipuliert werden können, haben die meisten wohl schon einmal gehört. Mittlerweile lassen sich auch Stimmen nachahmen. Die Hochschule Offenburg hat das nun selbst einmal ausprobiert – mit beunruhigendem Ergebnis.

Grundlage für eine "echte Stimme" aus dem Computer ist ein enormer Fortschritt in der Text-zu-Sprache-Synthese, teilt die Hochschule mit. Dieser ermögliche einerseits die Entwicklung neuer oder die Verbesserung bestehender Produkte wie Sprachassistenten, Navigationssysteme oder Zugangssysteme für sehbehinderte Menschen. Andererseits lasse sich die Stimme einer Person so auch künstlich erzeugen – sofern genügend Sprachmaterial vorhanden ist – um ein sogenanntes neuronales Netz zu trainieren (siehe Info).

Das kann dazu führen, dass Kriminelle synthetische Stimmen verwenden, um zu betrügen oder politisch aktiv zu werden. In letzterem Fall könnten diese sogenannten Deepfakes – Medieninhalte, die durch den Einsatz von Künstlicher Intelligenz (KI) gezielt und völlig automatisiert manipuliert wurden – Wahlausgänge beeinflussen oder gar Kriege auslösen.

"Die Daten, die es braucht, um die KI entsprechend auf die Stimme zu trainieren, lassen sich überall, wo Menschen digital kommunizieren, extrahieren", erklärt Andreas Schaad. Im Master-Studiengang "Enterprise and IT Security" hat er gemeinsam mit Studenten in einem Projekt einmal ausprobiert, wie viel oder besser wie wenig eine computer- oder informatik-versierte Person braucht, um mit einem vertretbaren Aufwand, mit begrenzten Rechenressourcen und ohne Vorwissen auf dem Gebiet der Sprachsynthese einen "Audio-Klon" zu erzeugen.

Rund 40 Prozent erkennen Fälschung nicht

Als Testperson stellte sich dabei der Professor selbst zur Verfügung. "Schon weniger als drei Stunden qualitativ hochwertige Audio-Materials aus meinen Online-Vorlesungen reichten aus, um die KI zu trainieren", staunte Schaad selbst. In einer anschließenden Studie mit 102 Probanden konnten nur knapp 40 Prozent seine echte von der falschen Stimme unterscheiden.

Das Projektteam besorgte sich zunächst kurze Audioschnipsel. Diese wandelte es in geschriebene Texte um. Aus diesen entfernten die Studenten unerwünschte Zeichen, schrieben alle Zahlen aus, ersetzten alle Abkürzungen und fügten, wo nötig, die phonemische Orthografie ein, bei der ein geschriebenes Symbol dem gesprochenen Laut entspricht. Außerdem fügten sie teilweise Sätze ein, die so nie gesagt wurden. Anschließend wurde das neuronale Netz mit den Aufnahmen auf die Stimmcharakteristika sowie mit den Transkriptionen inklusive der Einfügungen auf den zu sagenden Text trainiert und beides neu zusammengeführt – mit bereits beschriebenem Ergebnis.

Nun heißt es, geeignete Mittel zur Erkennung von solchen "Deepfakes" zu finden. Eine Aufgabe, bei der Janis Keuper am "Institut for Machine Learning and Analytics" der Hochschule in Sachen Bild- und Videomaterial bereits viel geleistet habe, so die Hochschule. Schaad möchte es diesem nun für Audiomaterial gleichtun und hat daher gemeinsam unter anderem mit der Deutschen Presse Agentur einen entsprechenden Projektantrag gestellt.

"Deepfake"

Bei der Bezeichnung "Deepfakes" handelt es sich um ein englisches Kofferwort. Es ist zusammengesetzt aus den Begriffen "Deep Learning" – einem Begriff aus dem Bereich der Informationsverarbeitung, dem sogenannten maschinellen Lernen – und "Fake" (Schwindel oder Fälschung). Als "Deepfakes" werden realistisch wirkende Medieninhalte (Foto, Audio und Video), welche durch Techniken der künstlichen Intelligenz abgeändert und verfälscht worden sind, bezeichnet.