Algorithmen zur Stimmsynthese sind inzwischen so leistungsfähig, dass die Identitätsmerkmale künstlicher Stimmklone denen natürlicher Sprecher sehr nahekommen. Foto: Imago/Depositphotos

Unser Gehirn reagiert auf eine KI-generierte Stimme anders als auf eine echte. Nur wird uns das nicht immer bewusst. Zu diesem Schluss kommen Forscher, die Probanden beim Zuhören ins Hirn geschaut haben.

Fake oder echt? Ob gerade ein echter Mensch oder eine von Künstlicher Intelligenz (KI) generierte Stimme spricht, ist für Zuhörer häufig kaum noch zu unterscheiden. Zumindest nicht bewusst: Das Gehirn reagiere auf Deepfake-Stimmen durchaus anders als auf natürliche, berichtet ein Forscherteam im aktuellen  Fachjournal „Communications Biology“. Gefälschte Stimmen scheinen demnach unter anderem zu weniger Vergnügen beim Hören zu führen.

Imitierte Stimmen für Betrugsversuche genutzt

Algorithmen zur Stimmsynthese sind der Studie zufolge inzwischen so leistungsfähig, dass die Identitätsmerkmale künstlicher Stimmklone denen natürlicher Sprecher sehr nahekommen. Solche mit Deepfake-Technologien imitierten Stimmen würden zum Beispiel für Betrugsversuche am Telefon genutzt oder dafür, Sprachassistenten die Stimme der Lieblingsschauspielerin zu geben.

Das Team um Claudia Roswandowitz von der Universität Zürich analysierte, wie gut die menschliche Identität in Stimmklonen erhalten bleibt. Die Forscher nahmen vier deutschsprachige Männer auf, woraufhin mithilfe von Computeralgorithmen jeweils Deepfake-Stimmen dieser Sprecher generiert wurden.

Deepfake-Stimmen sind ziemlich perfekt

Geprüft wurde dann, wie gut die Nachahmung war, also wie überzeugend die Identität geklont wurde. Dafür sollten 25 Probanden entscheiden, ob die Identität zweier vorgespielter Stimmen identisch war oder nicht.

In etwa zwei Drittel der Versuche wurden die Deepfake-Stimmen korrekt dem jeweiligen Sprecher zugeordnet. „Dies verdeutlicht, dass aktuelle Deepfake-Stimmen zwar nicht perfekt die Identität imitieren, aber das Potenzial haben, die Wahrnehmung von Menschen zu täuschen“, erklärt Roswandowitz.

Wie das Hirn auf gefälschte und echte Stimmen reagiert

Mit funktioneller Magnetresonanztomographie (fMRT) untersuchten die Forscher dann, wie einzelne Gehirnareale auf gefälschte und echte Stimmen reagieren. Demnach gab es in zwei zentralen Arealen Unterschiede: im sogenannten Nucleus Accumbens und dem auditorischen Cortex. Es liege dem Team zufolge nahe, dass beide Bereiche eine wichtige Rolle dabei spielen, ob ein Mensch eine Deepfake-Stimme als Fälschung erkennt oder nicht.

„Der Nucleus Accumbens ist ein wichtiger Bestandteil des Belohnungssystems im Gehirn“, erläutert Roswandowitz. Er sei weniger aktiv gewesen, wenn eine Deepfake- und eine natürliche Stimme verglichen wurden, als bei zwei echten Stimmen. Einer gefälschten Stimme zu lauschen, aktiviere das Belohnungssystem weniger.

3D-Illustration des Nucleus Accumbens. Foto: Imago/BSIP

Gehirn versucht auszubessern

Einen Aktivitätsunterschied gab es der Analyse zufolge auch im sogenannten auditorischen Cortex, der zuständig für die Analyse von Geräuschen ist. Der Bereich war mehr involviert, wenn es darum ging, die Identität von Deepfake-Stimmen zu erkennen. „Wir vermuten, dass dieses Areal auf die noch nicht perfekte akustische Imitation der Deepfake-Stimmen reagiert und versucht, das fehlende akustische Signal auszugleichen“, betont Roswandowitz.

Der Cortex kompensierte dabei wohl weitgehend heimlich vor sich hin. „Irgendwas signalisiert dem Bewusstsein dann schon, dass etwas anders und schwieriger ist, aber das bleibt häufig unter der Wahrnehmungsschwelle.“

Erstellung und Verbreitung von Deepfakes nimmt massiv zu

Mit der rasanten Entwicklung von Technologien der Künstlichen Intelligenz habe die Erstellung und Verbreitung von Deepfakes massiv zugenommen, heißt es von den Forschern in der Studie. Würden also heutige, vier Jahre später erstellte Deepfakes, die Zuhörer komplett austricksen? Oder wären die Ergebnisse ähnlich? „Das ist eine sehr spannende Frage“, meint Roswandowitz. Neuere KI-generierte Stimmen hätten wahrscheinlich eine etwas bessere Klangqualität.

Roswandowitz geht davon aus, dass die Aktivitätsunterschiede im auditorischen Cortex geringer wären also zu der Zeit, als die Studie durchgeführt wurde. Denn diese Region reagiere auf die unterschiedliche Klangqualität. Im Nucleus Accumbens hingegen erwartet sie möglicherweise ähnliche Ergebnisse.