„Künstliche Intelligenz wird die Sprecher:innen bald ablösen“ – dachten auch wir, als wir für unser Animations- und Webprojekt „gehirngesund“ zunächst computergenerierte Erzählstimmen verwendet haben. Diese Stimmen sollten unsere Erklärvideos begleiten, in denen es darum geht, wie man das eigene Gehirn gesund hält und welche Schritte man gegen Demenz unternehmen kann.
Wir verwendeten die KI-Stimmen von Elevenlabs.io. Anfangs waren wir wirklich begeistert – sowohl von der technischen Qualität als auch von der erstaunlichen Realitätsnähe dieser synthetischen Stimmen. Sie klangen sauber, neutral, angenehm. Doch während des Produktionsprozesses kam ein Wendepunkt. Und mit ihm eine Erkenntnis, die den gesamten weiteren Verlauf maßgeblich beeinflusste.
Um die Unterschiede zwischen echten und künstlichen Stimmen zu verstehen, lohnt sich ein kurzer technischer Blick hinter die Kulissen.
KI-generierte Stimmen basieren auf Technologien wie maschinellem Lernen, Sprachsynthese und der Verarbeitung natürlicher Sprache (Natural Language Processing). Ziel ist es, geschriebene Texte in gesprochene Sprache zu verwandeln – möglichst realistisch und verständlich. Der Prozess sieht typischerweise so aus:
Datensammlung und Training Zunächst werden riesige Mengen menschlicher Sprachdaten gesammelt – inklusive verschiedener Akzente, Emotionen und Intonationen. Diese Daten dienen als Grundlage, um ein KI-Modell zu trainieren, das anschließend in der Lage ist, Sprachmuster zu erkennen und zu reproduzieren.
Sprachsynthese Das trainierte Modell verwandelt Texte in gesprochene Sprache. Dabei analysieren Text-to-Speech-Systeme (TTS) phonetische Strukturen und Kontextinformationen, um eine möglichst natürliche Aussprache, Betonung und Satzmelodie zu erzeugen.
Echtzeitverarbeitung Moderne KI-Systeme sind in der Lage, Texte fast in Echtzeit in Sprache zu konvertieren – oft über Cloud-Services. Das macht sie besonders flexibel und skalierbar.
Feinabstimmung und Personalisierung Nutzer:innen können mittlerweile viele Parameter beeinflussen – etwa Tonhöhe, Geschwindigkeit oder sogar Emotionen. Durch Techniken wie Voice Cloning lassen sich inzwischen sogar spezifische Stimmen täuschend echt nachbilden.
Zu Beginn unseres Projekts entschieden wir uns aus praktischen Gründen für KI-Stimmen – eine Lösung, die uns sowohl in puncto Effizienz als auch Kosten überzeugt hat. Die Ergebnisse waren solide, verständlich, klar. Doch dann kam der Vergleich.
Über Isolde Kühas, die Gründerin des Vereins, bekamen wir die Zusage von Nadja Mader – einer österreichweit bekannten Fernseh-, Event- und Radiomoderatorin – dass sie die Voice-Overs für unsere Videos einsprechen würde.
Nachdem wir ihre Aufnahmen gehört hatten und die Geschwindigkeit der Clips leicht angepasst wurde, passierte etwas, das wir so nicht erwartet hatten: Die Videos gewannen deutlich an Qualität.
Und das war keine subtile, kaum spürbare Verbesserung – es war ein klarer, fast schon verblüffender Unterschied. Die Inhalte wirkten plötzlich persönlicher, lebendiger, zugänglicher.
Ohne den Vergleich zur echten Stimme hätte man bei den KI-Versionen kaum bemerkt, dass etwas fehlt. Aber durch den direkten Gegenüberstellung wurde sichtbar (oder besser: hörbar), was menschliche Stimmen leisten können – und wo KI an ihre Grenzen stößt.
Die Kunst menschlicher Sprecher:innen liegt in der Interpretation. In den kleinen Entscheidungen, die oft intuitiv getroffen werden: Welche Silbe wird betont? Wann wird eine kurze Pause gemacht? Wie klingt ein Satz, wenn er aufrichtig gemeint ist?
Zwischen dem geschriebenen Text und dem gesprochenen Ergebnis steckt bei echten Menschen ein kreativer Prozess – ein Zusammenspiel aus Erfahrung, Emotion und Spontaneität. Während KI lediglich berechnet, was "wahrscheinlich gut klingt", spüren Sprecher:innen, was gemeint ist – und transportieren das mit ihrer Stimme.
Die Entscheidung, ein „O“ besonders weich zu sprechen oder einen Satz rhythmisch kürzer zu halten – das sind kreative Einfälle, die einem Text Persönlichkeit verleihen. So viele Parameter eine KI auch bieten mag (Tonhöhe, Stil, Tempo, Emotion etc.) – die Intuition bleibt vorerst dem Menschen vorbehalten.
Nach unserer Erfahrung würden wir heute klar sagen: Es kommt auf den Einsatzbereich an.
Überall dort, wo Informationen funktional übermittelt werden sollen, können KI-Stimmen eine hervorragende Lösung sein. Sie sind flexibel, verständlich, technisch ausgereift – und dabei deutlich günstiger und schneller als menschliche Sprecher:innen.
In all diesen Bereichen beeinflusst nicht nur der Inhalt, sondern vor allem die Art der Umsetzung die Qualität des Ergebnisses. Und hier spielen Emotion, Authentizität und Vertrauen eine zentrale Rolle – Elemente, die durch echte Stimmen transportiert werden müssen.
In unseren Videos war der Unterschied unmittelbar spürbar. Die KI-Versionen waren gut – sachlich korrekt, verständlich, technisch einwandfrei. Aber sie fühlten sich nicht richtig an.
Unser Ziel war es, die Inhalte auf Augenhöhe zu vermitteln, nicht wie ein digitales Lehrbuch. Mit der echten Stimme kam auf einmal das Gefühl hinzu, dass man von einem Menschen angesprochen wird – nicht von einer Maschine. Diese Nähe, diese Wärme kann (noch) keine KI erzeugen.
Ein weiterer Punkt wurde uns erst bewusst, als Nadjas Aufnahmen vorlagen: Ihre Stimme ist vielen Menschen bekannt – und genau das erzeugt Vertrauen.
Obwohl die Inhalte exakt dieselben waren, hatten sie durch Nadjas Stimme plötzlich mehr Gewicht. Die Aussagen wirkten glaubwürdiger, nahbarer.
Das wirft eine spannende Frage auf: Was passiert, wenn bekannte Stimmen durch KI nachgebildet werden? Wenn Voice Cloning und Deepfakes es ermöglichen, berühmte Stimmen alles sagen zu lassen? Hebt das die Glaubwürdigkeit – oder untergräbt es sie? Und wer hat eigentlich das Recht an diesen Stimmen? Was passiert, wenn Menschen „virtuell weiterleben“ – ohne ihre Zustimmung? Hier stoßen wir auf eine ethische Dimension, die in der Diskussion rund um KI-Stimmen nicht vernachlässigt werden darf.