KI-Stimmen – Menschen durch Maschinen zu ersetzen?

8. April 2025

Paul Kremsleithner

„Künstliche Intelligenz wird die Sprecher:innen bald ablösen“ – so dachten auch wir, als wir für unser Animations- und Webprojekt „gehirngesund“ zunächst computergenerierte Erzählstimmen einsetzten. Diese sollten unsere Erklärvideos begleiten, in denen wir erklären, wie man das Gehirn gesund hält und welche Maßnahmen gegen Demenz helfen können.

Wir nutzten die KI-Stimmen von Elevenlabs.io. Anfangs überzeugten uns sowohl die technische Qualität als auch die erstaunliche Natürlichkeit dieser synthetischen Stimmen. Sie klangen klar, neutral und angenehm. Doch im Verlauf der Produktion stellten wir fest, dass sich die Wirkung der Stimmen veränderte – eine Erkenntnis, die den weiteren Verlauf des Projekts entscheidend prägte.

Source: Midjourney

Was sind KI-generierte Stimmen – und wie funktionieren sie?

KI-generierte Stimmen wandeln geschriebene Texte in gesprochene Sprache um. Dabei nutzen sie Technologien wie maschinelles Lernen, Sprachsynthese und die Verarbeitung natürlicher Sprache (Natural Language Processing). So entstehen Stimmen, die möglichst realistisch und verständlich klingen. Der Prozess gliedert sich in mehrere Schritte:

Datensammlung und Training

Zunächst sammeln die Systeme große Mengen menschlicher Sprachdaten, darunter verschiedene Akzente, Emotionen und Intonationen. Diese Daten bilden die Grundlage, um ein KI-Modell zu trainieren, das Sprachmuster erkennt und nachbildet.

Sprachsynthese

Das trainierte Modell wandelt Texte in gesprochene Sprache um. Text-to-Speech-Systeme (TTS) analysieren dabei phonetische Strukturen und den Kontext, um natürliche Aussprache, Betonung und Satzmelodie zu erzeugen.

Echtzeitverarbeitung

Moderne KI-Systeme konvertieren Texte nahezu in Echtzeit in Sprache, häufig über Cloud-Services. Das ermöglicht eine flexible und skalierbare Nutzung.

Feinabstimmung und Personalisierung

Nutzerinnen und Nutzer können heute viele Parameter anpassen, etwa Tonhöhe, Sprechgeschwindigkeit oder Emotionen. Mit Techniken wie Voice Cloning lassen sich sogar individuelle Stimmen täuschend echt nachbilden.

ORF Moderatorin Nadja Mader beim Einsprechen der Texte für gehirngesund.

Die Kunst menschlicher Sprechstimmen

Zu Beginn unseres Projekts entschieden wir uns aus praktischen Gründen für KI-Stimmen. Diese Lösung überzeugte uns durch Effizienz und Kosteneinsparungen. Die Ergebnisse waren solide, klar und gut verständlich. Doch der Vergleich mit einer menschlichen Stimme zeigte einen deutlichen Unterschied.

Über Isolde Kühas, die Gründerin des Vereins, erhielten wir die Zusage von Nadja Mader, einer österreichweit bekannten Fernseh-, Event- und Radiomoderatorin, die Voice-Overs für unsere Videos einzusprechen.

Nachdem wir ihre Aufnahmen gehört und die Geschwindigkeit der Clips leicht angepasst hatten, stellte sich eine unerwartete Wirkung ein: Die Videos gewannen deutlich an Qualität.

Diese Verbesserung war nicht nur subtil, sondern klar und spürbar. Die Inhalte wirkten persönlicher, lebendiger und zugänglicher.

Ohne den direkten Vergleich mit der menschlichen Stimme wäre der Unterschied bei den KI-Versionen kaum aufgefallen. Die Gegenüberstellung machte jedoch hörbar, welche Stärken menschliche Stimmen besitzen und wo KI an ihre Grenzen stößt.

Was macht eine menschliche Stimme so besonders?

Die Stärke menschlicher Sprecher:innen liegt in der Interpretation. Sie treffen oft intuitiv kleine Entscheidungen: Welche Silbe betonen sie? Wann setzen sie eine kurze Pause? Wie klingt ein Satz, wenn er aufrichtig gemeint ist?

Zwischen dem geschriebenen Text und dem gesprochenen Ergebnis entsteht bei echten Menschen ein kreativer Prozess – ein Zusammenspiel aus Erfahrung, Emotion und Spontaneität. Während KI berechnet, was „wahrscheinlich gut klingt“, spüren Sprecher:innen, was gemeint ist, und transportieren dies mit ihrer Stimme.

Die Entscheidung, ein „O“ besonders weich zu sprechen oder einen Satz rhythmisch kürzer zu gestalten, verleiht einem Text Persönlichkeit. So viele Parameter eine KI auch bietet – Tonhöhe, Stil, Tempo, Emotion – die Intuition bleibt vorerst dem Menschen vorbehalten.

Source: Midjourney

Wo macht KI mit Stimmen Sinn – und wo nicht?

Der Einsatz von KI-Stimmen hängt stark vom jeweiligen Anwendungsbereich ab.

Geeignete Einsatzfelder für KI-Stimmen sind zum Beispiel:

Telefonansagen
E-Learning-Kurse
Prototypen
Barrierefreie Kommunikation
Automatisierte Durchsagen

In diesen Bereichen dienen KI-Stimmen vor allem der funktionalen Informationsvermittlung. Sie überzeugen durch Flexibilität, gute Verständlichkeit und technische Zuverlässigkeit – und sind dabei kostengünstiger und schneller als menschliche Sprecherinnen und Sprecher.

Weniger geeignet sind KI-Stimmen für:

Storytelling
Charaktervertonung
Hörbücher
Werbung
Emotionale oder persönliche Themen

Hier entscheidet nicht nur der Inhalt, sondern vor allem die Art der Umsetzung über die Qualität. Emotion, Authentizität und Vertrauen spielen eine zentrale Rolle – Eigenschaften, die echte Stimmen besser transportieren.

Emotion und Vertrauen – zwei entscheidende Faktoren

Emotion

In unseren Videos zeigte sich der Unterschied deutlich: Die KI-Versionen waren sachlich korrekt, verständlich und technisch einwandfrei. Dennoch wirkten sie nicht wirklich lebendig.

Unser Ziel war es, Inhalte auf Augenhöhe zu vermitteln – nicht wie ein digitales Lehrbuch. Die echte Stimme erzeugte eine persönliche Ansprache und vermittelte Nähe und Wärme, die eine KI bislang nicht leisten kann.

Vertrauen

Ein weiterer wichtiger Aspekt wurde deutlich, als Nadjas Aufnahmen vorlagen: Ihre Stimme ist vielen Menschen vertraut und schafft dadurch Vertrauen.

Obwohl die Inhalte unverändert blieben, erhielten sie durch Nadjas Stimme mehr Gewicht und wirkten glaubwürdiger und nahbarer.

Diese Beobachtungen werfen eine wichtige Frage auf: Was passiert, wenn bekannte Stimmen durch KI nachgebildet werden? Voice Cloning und Deepfakes ermöglichen es, berühmte Stimmen für beliebige Aussagen zu nutzen. Führt das zu mehr Glaubwürdigkeit – oder untergräbt es diese? Wer besitzt die Rechte an solchen Stimmen? Und wie gehen wir damit um, wenn Menschen „virtuell weiterleben“ – ohne ihre Zustimmung? Diese ethischen Fragen sollten in der Diskussion um KI-Stimmen nicht außer Acht gelassen werden.

Fazit: Mensch oder Maschine – oder beides?

KI-generierte Stimmen bieten viele Vorteile: Sie sind kostengünstig, effizient und leicht zugänglich. Besonders in der barrierefreien Kommunikation eröffnen sie neue Möglichkeiten.

Dennoch fehlt ihnen aktuell etwas Entscheidendes: die Spontanität, Tiefe und Authentizität, die nur Menschen vermitteln können.

Unser Fazit lautet daher: Es geht nicht um besser oder schlechter, sondern um den passenden Einsatz. Für Prototypen und sachliche Inhalte setzen wir weiterhin auf KI-Stimmen. Wenn es jedoch darum geht, Menschen wirklich zu erreichen, bleibt der Mensch unverzichtbar.