KI-Stimmen – Menschen durch Maschinen zu ersetzen?

8. April 2025

Paul Kremsleithner

„Künstliche Intelligenz wird die Sprecher:innen bald ablösen“ – dachten auch wir, als wir für unser Animations- und Webprojekt „gehirngesund“ zunächst computergenerierte Erzählstimmen verwendet haben. Diese Stimmen sollten unsere Erklärvideos begleiten, in denen es darum geht, wie man das eigene Gehirn gesund hält und welche Schritte man gegen Demenz unternehmen kann.

Wir verwendeten die KI-Stimmen von Elevenlabs.io. Anfangs waren wir wirklich begeistert – sowohl von der technischen Qualität als auch von der erstaunlichen Realitätsnähe dieser synthetischen Stimmen. Sie klangen sauber, neutral, angenehm. Doch während des Produktionsprozesses kam ein Wendepunkt. Und mit ihm eine Erkenntnis, die den gesamten weiteren Verlauf maßgeblich beeinflusste.

Source: Midjourney

Was sind KI-generierte Stimmen eigentlich – und wie funktionieren sie?

Um die Unterschiede zwischen echten und künstlichen Stimmen zu verstehen, lohnt sich ein kurzer technischer Blick hinter die Kulissen.
KI-generierte Stimmen basieren auf Technologien wie maschinellem Lernen, Sprachsynthese und der Verarbeitung natürlicher Sprache (Natural Language Processing). Ziel ist es, geschriebene Texte in gesprochene Sprache zu verwandeln – möglichst realistisch und verständlich. Der Prozess sieht typischerweise so aus:

Datensammlung und Training Zunächst werden riesige Mengen menschlicher Sprachdaten gesammelt – inklusive verschiedener Akzente, Emotionen und Intonationen. Diese Daten dienen als Grundlage, um ein KI-Modell zu trainieren, das anschließend in der Lage ist, Sprachmuster zu erkennen und zu reproduzieren.

Sprachsynthese Das trainierte Modell verwandelt Texte in gesprochene Sprache. Dabei analysieren Text-to-Speech-Systeme (TTS) phonetische Strukturen und Kontextinformationen, um eine möglichst natürliche Aussprache, Betonung und Satzmelodie zu erzeugen.

Echtzeitverarbeitung Moderne KI-Systeme sind in der Lage, Texte fast in Echtzeit in Sprache zu konvertieren – oft über Cloud-Services. Das macht sie besonders flexibel und skalierbar.

Feinabstimmung und Personalisierung Nutzer:innen können mittlerweile viele Parameter beeinflussen – etwa Tonhöhe, Geschwindigkeit oder sogar Emotionen. Durch Techniken wie Voice Cloning lassen sich inzwischen sogar spezifische Stimmen täuschend echt nachbilden.

Standbild aus der Animation Alkohol - Risikofaktor für Demenzerkrankungen. Ein Video für gehirngesund.at

gehirngesund.at zeigt 9 Videos, welche Risikofaktoren für Demenz erklären und Methoden zu Prävention zeigen.

Die Kunst menschlicher Sprechstimmen

Zu Beginn unseres Projekts entschieden wir uns aus praktischen Gründen für KI-Stimmen – eine Lösung, die uns sowohl in puncto Effizienz als auch Kosten überzeugt hat. Die Ergebnisse waren solide, verständlich, klar. Doch dann kam der Vergleich.

Über Isolde Kühas, die Gründerin des Vereins, bekamen wir die Zusage von Nadja Mader – einer österreichweit bekannten Fernseh-, Event- und Radiomoderatorin – dass sie die Voice-Overs für unsere Videos einsprechen würde.

Nachdem wir ihre Aufnahmen gehört hatten und die Geschwindigkeit der Clips leicht angepasst wurde, passierte etwas, das wir so nicht erwartet hatten: Die Videos gewannen deutlich an Qualität.

Und das war keine subtile, kaum spürbare Verbesserung – es war ein klarer, fast schon verblüffender Unterschied. Die Inhalte wirkten plötzlich persönlicher, lebendiger, zugänglicher.

Ohne den Vergleich zur echten Stimme hätte man bei den KI-Versionen kaum bemerkt, dass etwas fehlt. Aber durch den direkten Gegenüberstellung wurde sichtbar (oder besser: hörbar), was menschliche Stimmen leisten können – und wo KI an ihre Grenzen stößt.

Was macht eine menschliche Stimme so besonders?

Die Kunst menschlicher Sprecher:innen liegt in der Interpretation. In den kleinen Entscheidungen, die oft intuitiv getroffen werden: Welche Silbe wird betont? Wann wird eine kurze Pause gemacht? Wie klingt ein Satz, wenn er aufrichtig gemeint ist?

Zwischen dem geschriebenen Text und dem gesprochenen Ergebnis steckt bei echten Menschen ein kreativer Prozess – ein Zusammenspiel aus Erfahrung, Emotion und Spontaneität. Während KI lediglich berechnet, was "wahrscheinlich gut klingt", spüren Sprecher:innen, was gemeint ist – und transportieren das mit ihrer Stimme.

Die Entscheidung, ein „O“ besonders weich zu sprechen oder einen Satz rhythmisch kürzer zu halten – das sind kreative Einfälle, die einem Text Persönlichkeit verleihen. So viele Parameter eine KI auch bieten mag (Tonhöhe, Stil, Tempo, Emotion etc.) – die Intuition bleibt vorerst dem Menschen vorbehalten.