Geben Sie den Text dieses Dialogabschnitts ein.
Wählen Sie die Stimme dieses Dialogs.
Einzelsprecher
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
Mehrsprecher-Dialog
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
Text zu Sprache, die das Skript spielt, nicht nur vorliest
Dieses Text-zu-Sprache-Werkzeug ist ein KI-Stimmengenerator, gebaut fürs Schauspiel, nicht fürs Abspielen. Schreiben Sie das Skript, weisen Sie jeder Zeile eine der 113 Stimmen zu und inszenieren Sie die Darbietung mit Audio-Tags wie [whispers], [excited] und [interrupting]. Der Motor ist die Dialog-Engine v3 von ElevenLabs – die auf Ausdruckskraft gesetzte Generation, heute allgemein verfügbar – und spricht 75 Sprachen mit automatischer Erkennung. Wenn Sie sich nur eine Seite vorlesen lassen wollen, genügt eine Reader-App. Soll eine Szene gespielt werden, ist hier das Studio. Das Regiehandbuch folgt unten.
Der Vorleser liest. Der Darsteller liefert.
Es gibt zwei Arten von Werkzeugen mit dem Namen „Text zu Sprache“. Wählen Sie zuerst die richtige Gattung.
Vorlese-Apps
Konsumwerkzeuge: Sie lassen Artikel, PDFs und Bildschirme mit einer stabilen, neutralen Stimme vorlesen, für Barrierefreiheit und das Hören unterwegs.
Großartig zum Aufnehmen von Information. Nicht gebaut, um Content zu produzieren.
Stimmschauspiel-Engine – diese Seite
Produktionswerkzeug: Skriptzeilen, besetzte Stimmen, emotionale Regie, Szenen mit mehreren Sprechern: Ausgabe zum Veröffentlichen, nicht zum Nebenbei-Laufen.
Ist das Audio das Produkt, sind Sie hier richtig.
Die Tester ziehen dieselbe Linie innerhalb des ElevenLabs-Katalogs: Für flache Erzählung bleibt die v2-Familie die stabile Wahl; wo Emotion, Dialog und Schauspiel gefragt sind, gewinnt die v3 – der Motor dieser Seite – mit Konstanz.
Audio-Tags: die Regieanweisungen der Stimme
Anweisungen in eckigen Klammern, die der Motor spielt. Die offizielle ElevenLabs-Dokumentation ordnet sie in vier Rollen.
Emotionswechsel
Setzen und kippen Sie die Emotion sogar mitten in der Zeile. Das Vorlesen gehorcht der Klammer.
[excited] [annoyed] [sarcastic] [flustered] [sighs]
Rhythmus und Tempo
Kontrolle über Geschwindigkeit und Zögern, wo die Zeichensetzung nicht hinreicht.
[fast-paced] [hesitates] [pause] [drawn out]
Gesprächswechsel und Unterbrechungen
Die dialognative Gruppe: Sprecher, die einander schneiden, überlappen und abwechseln wie in einem echten Gespräch.
[interrupting] [overlapping] [cuts in]
Identität und Figur
Schiebt die Stimme in eine Rolle, ohne die Stimme selbst zu wechseln.
[childlike tone] [deep voice] [pirate voice] [robotic tone]
Sogar Soundeffekte gehen per Klammer: Die offiziellen Beispiele reichen von [laughs] über [gunshot] bis [explosion]. Wie Gewürze nutzen: 1 bis 2 pro Passage, direkt vor dem Wort, das Sie inszenieren wollen.
Die wichtigste Einstellung dieser Seite
Das Urteil der Tester ist jedes Mal gleich: Der Stabilitätsmodus bestimmt, wie sehr die Stimme spielt und wie viel Risiko Sie tragen.
Creative
Maximale Ausdruckskraft und die stärkste Reaktion auf Audio-Tags, mit der offiziell dokumentierten Neigung, übers Skript hinaus zu improvisieren.
Figurenspiel, Drama, jede Szene, in der die flache Lesung das Scheitern wäre. Take für Take prüfen.
Natural
Der Standard und der Gleichgewichtspunkt: nah an der Originalstimme, stabile Tag-Reaktion, wenige Überraschungen.
Podcasts, Erklärvideos und der Großteil der Produktion starten hier.
Robust
Maximale Konstanz, minimales Drama: stabile Ausgabe über lange Passagen, die Regie-Tags aber praktisch ignoriert.
Lange, neutrale Erzählung, in der Gleichmäßigkeit mehr zählt als Ausdruck.
Praxisregel: Zum Inszenieren Creative oder Natural; zum Durchhalten Robust. Tags brauchen Spielraum, um zu spielen.
Für mehrere Stimmen schreiben
Die Mehrsprecher-Ausgabe ist zeilenbasiert: Jede Zeile hat ihren eigenen Text und ihre eigene Stimme.
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
Ein Sprecher pro Zeile.
Der Editor weist die Stimme Zeile für Zeile zu: Wechselnde Zeilen bauen den Dialog, und die wiederkehrende Figur bekommt im ganzen Skript eine feste Stimme.
Das Budget von 5.000 Zeichen verteilen.
Die Decke ist die Summe aller Zeilen. In einer Zwei-Personen-Szene halbiert sich das Budget: Regieanweisungs-Füllwerk streichen, das eine Klammer erledigt.
Unterbrechung per Tag inszenieren, nicht per Gedankenstrich.
[interrupting] und [overlapping] am Zeilenanfang lassen den Motor die Wechsel mit natürlichem Timing kollidieren: das Dialogverhalten, das Zeichensetzung allein nicht erzeugt.
Vor dem Generieren einmal laut lesen.
Wo ein Mensch stolpert, stolpert das Modell an derselben Stelle. Ein holpriges Skript klingt mit jeder Stimme holprig.
113 Stimmen: besetzen, ohne alle zu hören
Jede Stimme hat eine sofortige Vorschau. Die Abkürzung ist zu wissen, worauf Sie hören.
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- Nach Rolle wählen, nicht nach Stimmung: Erzähler, Moderator, Figur. Pro Rolle auf drei eingrenzen und mit dem echten ersten Satz des Skripts vorhören.
- Im Dialog gewinnt der Kontrast: Zwei ähnliche Stimmen vermischen sich. Entfernte Klangfarben wählen, die den Sprecher jederzeit erkennbar machen.
- Die Stimme zur Sprache passen: Dieselbe Stimme wechselt je nach Sprache den Akzent. In der Veröffentlichungssprache vorhören.
- Die Besetzung vor dem Tag-Feinschliff fixieren: Ein Stimmwechsel setzt das Timing-Gefühl zurück. Erst entscheiden, wer spricht, dann inszenieren, wie.
4 Produktionen, die dieses Studio stemmt
Jede Karte mit dem Fall und der Regie, die funktioniert.
Zwei-Stimmen-Podcast ohne Studio
Fall: Eine Wochensendung mit echtem Austausch, keine abwechselnden Monologe.
Regie: Zwei kontrastierende Stimmen, Modus Natural, [overlapping] bei den Reaktionen und [laughs] nur, wo es wirklich passt.
Was zurückkommt: Eine Gesprächsepisode mit Produktionsgefühl, bereit für den Feed.
Produzentennotiz: Den Austausch locker schreiben: Die Eingespieltheit, die das Skript sonst vortäuscht, erzeugen die Unterbrechungs-Tags.
Hörbuch mit voller Besetzung
Fall: Erzählung plus Stimmen pro Figur, Kapitel für Kapitel.
Regie: Erzähler in Robust für die Kontinuität. Figurenzeilen in Creative, mit einem Emotions-Tag pro Szene.
Was zurückkommt: Vielstimmige Kapitel, die den Hörer halten, ohne Aufnahmekabine.
Produzentennotiz: Pro Kapitel innerhalb des Zeichenbudgets generieren und dieselbe Besetzung überall wiederverwenden.
Ein 30-Sekunden-Spot in fünf Takes
Fall: Werbetext, der Energie, eine Wirkungspause und einen selbstbewussten Abschluss verlangt.
Regie: Eine charismatische Stimme, Modus Creative, [excited] zur Eröffnung und [pause] vor dem Angebot.
Was zurückkommt: Eine Lesung im Sendetempo, mit Varianten für A/B-Tests in Minuten.
Produzentennotiz: Zahlen und Zeichen ausschreiben: „zwanzig Prozent Rabatt“ liest sich besser als „20% off“.
Stimmspur für den sprechenden Avatar
Fall: Das Presenter-Video braucht zuerst die Erzählstimme.
Regie: Eine stabile Stimme, Modus Natural, Tags minimal: Die Lippensynchronisation mag die saubere, gleichmäßige Lesung.
Was zurückkommt: Eine Stimmspur, die direkt ins KI-Avatar-Werkzeug der Seite passt.
Produzentennotiz: Trocken halten: Starke Emotions-Tags und Effekte streiten mit der Lippensynchronisation der nächsten Stufe.
Wo sich das ausdrucksstarke TTS sträubt
Die 5 Verhaltensweisen, die den Erstregisseur überraschen, mit ihren Stellschrauben.
Creative mode sometimes improvises beyond the script.
Regie: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
Regie: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
Regie: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
Regie: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
Regie: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
Der Modus Creative improvisiert manchmal übers Skript hinaus.
Regie: Der dokumentierte Preis der Ausdruckskraft. Kritische Zeilen vorsprechen lassen, Creative für die Glanzmomente aufsparen und das Rückgrat des Projekts Natural überlassen.
Tags werden laut vorgelesen oder still ignoriert.
Regie: Der Reihe nach prüfen: den Modus (Robust unterdrückt Tags: Modus hochschalten), die Position (die Klammer direkt vor das Zielwort) und die Dichte (1 bis 2 pro Passage; gestapelte Tags kannibalisieren sich).
Lange Projekte stoßen an die 5.000-Zeichen-Decke.
Regie: In Kapitel teilen, Stimmen und Modus zwischen den Generierungen einfrieren und die Dateien im Editor verbinden: Die konstante Besetzung hält die Konsistenz.
Zahlen, Zeichen und Abkürzungen kommen unvorhersehbar.
Regie: Ausschreiben: „Doktor“ statt „Dr.“, „zweitausendsechsundzwanzig“, wenn das Jahr so klingen soll. Das Skript ist der Aussprachevertrag.
In kleineren Sprachen wiegt der Akzent je nach Stimme.
Regie: Die Kandidatinnen vor der Festlegung in der Zielsprache vorhören: Der Charakter der Stimme überquert die Sprachen, aber die Akzentqualität variiert unter den 75 Optionen.
Regiehandbuch
Die offiziellen ElevenLabs-Best-Practices, geprüft auf dem Produktionsboden.
Zeichensetzung ist Tempo
Das Komma ist Atem, der Punkt ist Halt, die Auslassungspunkte sind Schwebe, der Gedankenstrich ist Schnitt. Der Motor liest Zeichensetzung als Timing: Erst den Rhythmus umschreiben, dann Tags ergänzen.
Der Tag inszeniert, was direkt folgt
Die Klammer kommt unmittelbar vor das zu beherrschende Wort, innerhalb der richtigen Zeile. [whispers] am Zeilenanfang flüstert die ganze Zeile; mitten im Satz flüstert nur der Rest.
Derselbe Satz, inszeniert
Flach
"Willkommen zurück in der Sendung. Heute haben wir sehr aufregende Neuigkeiten zum Projekt."
Inszeniert
"[excited] Willkommen zurück in der Sendung! [pause] Heute … kann ich endlich über dieses Projekt sprechen."
Dieselben Worte, zwei Darbietungen. Die inszenierte Version setzt zur Eröffnung auf die Emotion, kauft mit Tag und Auslassungspunkten einen Takt Spannung und überlässt die Schlusspointe der Zeichensetzung.
Dieses Studio, die Kabine oder die Vorlese-App?
Drei Wege, Worte in Klang zu verwandeln.
Dieses Studio
Sie haben ein Skript und brauchen gespieltes Audio – Dialog, inszenierte Erzählung, Figurenstimmen – in 75 Sprachen, im Schreibtempo.
Die Aufnahmekabine
Wenn die Darbietung eines bestimmten Menschen nötig ist, eine juristische Lesung mit Freigabe oder eine vertraglich an eine Person gebundene Markenstimme.
Die Vorlese-App
Wenn Sie Text als Klang konsumieren wollen: Artikel, PDFs, Bildschirme. Ein Werkzeug zum Hören, nicht zum Erschaffen.
So nutzen Sie das Text-zu-Sprache-Studio
Schreiben, besetzen, inszenieren: Die Kabine ist oben auf der Seite.
Das Skript in Zeilen schreiben
Ein Sprecher pro Zeile, bis 5.000 Zeichen gesamt. Die emotionalen Takte markieren, die Sie im Kopf schon hören.
Stimmen besetzen und vorhören
Jeder Zeile eine Stimme aus der 113er-Bibliothek zuweisen, vorgehört mit dem echten ersten Satz, nicht mit einem Beispielsatz.
Inszenieren, generieren, wiederholen
Audio-Tags setzen, den Stabilitätsmodus wählen und generieren. Zeile für Zeile mit Tag-Anpassungen wiederholen, statt die ganze Szene neu zu starten.
Text zu Sprache: Fragen für Regisseure
Schauspiel, Besetzung und Konsistenz, beantwortet mit der offiziellen Dokumentation und Produktionsfällen.
Die Stimme ist der erste Schritt
Ein Gesicht geben, ins Video schneiden, die Szene bauen.
Ihr Skript weiß schon, wie es klingen will
Stimmen besetzen, Tags setzen, Modus wählen, und dieses Text-zu-Sprache-Studio spielt es in jeder der 75 Sprachen. Registrieren Sie sich: Die erste Szene lässt sich mit den Credits zum Start kostenlos testen. Mit Dialogunterstützung, oben auf dieser Seite.