Saisissez le texte de ce segment de dialogue.
Choisissez la voix de ce dialogue.
Locuteur unique
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
Dialogue multi-voix
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
Une synthèse vocale qui joue le script, au lieu de le lire
Cet outil de synthèse vocale est un générateur de voix IA pensé pour la performance, pas pour la lecture : écrivez un script, attribuez chaque ligne à l'une des 113 voix, et dirigez le jeu avec des tags audio comme [whispers], [excited] ou [interrupting]. Il fait tourner le moteur de dialogue v3 d'ElevenLabs — la génération expressive, désormais disponible pour tous — et parle 75 langues avec détection automatique. Pour écouter une page à voix haute, une app de lecture suffit ; pour faire jouer une scène, c'est ici que ça se passe. Le manuel du metteur en scène est ci-dessous.
Un lecteur lit. Un interprète joue.
Deux familles d'outils partagent le nom « synthèse vocale ». Choisissez d'abord la bonne espèce.
Les apps de lecture à voix haute
Pensées pour la consommation : elles lisent articles, PDF et écrans d'une voix régulière et neutre — des outils d'accessibilité et d'écoute en déplacement.
Très bien pour s'informer. Pas conçues pour produire du contenu.
Un moteur de performance vocale — cette page
Pensé pour la production : des répliques scriptées, des voix castées, une direction émotionnelle, des scènes à plusieurs voix — une sortie que vous publiez, pas une sortie que vous suivez des yeux.
Si l'audio est le produit, vous êtes au bon endroit.
Les testeurs tracent la même frontière au sein même de la gamme ElevenLabs : la ligne v2, plus ancienne, reste le choix le plus stable pour la narration plate, tandis que la v3 — le moteur d'ici — est régulièrement jugée plus forte partout où l'émotion, le dialogue et le jeu comptent.
Les tags audio : des indications de mise en scène pour les voix
Des consignes entre crochets que le moteur interprète — la doc d'ElevenLabs les regroupe en quatre métiers.
Bascules émotionnelles
Posez ou renversez l'émotion en pleine ligne ; la lecture suit le crochet.
[excited] [annoyed] [sarcastic] [flustered] [sighs]
Rythme et tempo
Contrôlez la cadence et l'hésitation comme la ponctuation n'y arrive jamais tout à fait.
[fast-paced] [hesitates] [pause] [drawn out]
Tours de parole et interruptions
Le groupe natif du dialogue : les locuteurs se coupent, se chevauchent et échangent comme dans une vraie conversation.
[interrupting] [overlapping] [cuts in]
Identité et personnage
Poussez une voix dans un rôle sans changer la voix elle-même.
[childlike tone] [deep voice] [pirate voice] [robotic tone]
Même les effets sonores passent entre crochets — les exemples officiels vont de [laughs] à [gunshot] et [explosion]. Dosez-les comme un assaisonnement : un ou deux par passage, placés juste avant les mots qu'ils dirigent.
Le réglage le plus important de la page
Les testeurs reviennent toujours au même verdict : le mode de stabilité décide de la dose de jeu que vous obtenez — et de la dose de risque.
Creative
Le maximum d'expressivité et la réponse la plus forte aux tags audio — avec une tendance documentée à improviser, parfois au-delà du script.
Le travail de personnage, le drame, tout ce où une lecture plate est l'échec. Réécoutez chaque prise.
Natural
Le défaut et le point d'équilibre : proche de la voix d'origine, une réponse fiable aux tags, peu de surprises.
Podcasts, vidéos explicatives, l'essentiel de la production — commencez ici.
Robust
Le maximum de constance, le minimum de théâtre : une sortie stable qui tient sur les longs passages mais ignore largement les tags de direction.
La narration neutre au long cours, où l'uniformité bat l'expression.
Règle de travail : dirigez en Creative ou Natural ; endurez en Robust. Les tags ont besoin d'espace pour jouer.
Écrire pour plus d'une voix
La sortie multi-voix se construit ligne par ligne : chaque ligne porte son texte et sa voix.
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
Une ligne, un locuteur.
L'éditeur attribue une voix par ligne — alternez les lignes pour bâtir un échange, et donnez à chaque personnage récurrent une voix fixe pour tout le script.
Budgétez les 5 000 caractères.
Le plafond couvre toutes les lignes réunies. Une scène à deux voix partage le budget — coupez le bavardage de régie qu'un simple crochet peut exprimer.
Mettez en scène les interruptions avec des tags, pas des tirets.
[interrupting] et [overlapping] en début de ligne font entrer le moteur en collision de répliques naturelle — le comportement de dialogue que la ponctuation seule ne déclenche pas.
Lisez-le à voix haute une fois avant de générer.
Si un humain bute sur la ligne, le modèle hérite du trébuchement. Un script maladroit fait un audio maladroit, quelle que soit la voix.
Caster parmi 113 voix sans toutes les auditionner
Chaque voix a un aperçu instantané. Le raccourci, c'est de savoir quoi écouter.
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- Castez par rôle, pas par ressenti : narrateur, animateur, personnage — présélectionnez trois voix par rôle et testez chacune avec votre vraie première réplique.
- Les paires contrastées gagnent en dialogue : deux voix proches se brouillent ; choisissez des registres distincts pour qu'on sache toujours qui parle.
- Accordez la voix à la langue : les accents bougent d'une langue à l'autre sur une même voix — écoutez l'aperçu dans la langue de publication.
- Verrouillez le casting avant de régler les tags : changer une voix remet votre sens du rythme à zéro. Décidez qui parle, puis dirigez comment.
Quatre productions que ce studio prend en charge
Chaque carte associe le brief à la direction qui le fait fonctionner.
Un podcast à deux voix, sans studio
Le brief: Une émission hebdo avec de la complicité, pas des monologues en alternance.
La direction: Deux voix contrastées, mode Natural, [overlapping] sur les réactions et [laughs] là où ça tombe vraiment juste.
Ce qui revient: Un épisode conversationnel qui sonne produit, prêt pour le flux.
Note de prod: Écrivez les échanges détendus — les tags d'interruption font le travail d'alchimie que les scripts simulent d'habitude.
Des chapitres de livre audio avec toute une distribution
Le brief: Une narration plus des voix de personnages distinctes, chapitre après chapitre.
La direction: Un narrateur en Robust pour la continuité ; des répliques de personnages en Creative avec un tag d'émotion par scène.
Ce qui revient: Un chapitre à plusieurs voix qui retient l'attention, sans cabine d'enregistrement.
Note de prod: Générez chapitre par chapitre sous le budget de caractères, en réutilisant la même distribution à chaque fois.
Un spot de trente secondes en cinq prises
Le brief: Un texte de pub qui demande de l'énergie, un temps de doute, et une chute assurée.
La direction: Une voix charismatique, mode Creative, [excited] à l'ouverture, [pause] avant l'offre.
Ce qui revient: Une diction au rythme broadcast, à tester en A/B contre d'autres lectures en quelques minutes.
Note de prod: Écrivez les chiffres et les symboles en toutes lettres — « vingt pour cent de réduction » se lit plus proprement que « 20% ».
La piste voix d'un avatar parlant
Le brief: Une vidéo de présentateur a d'abord besoin de sa voix off.
La direction: Une voix posée, mode Natural, un minimum de tags — la synchronisation labiale préfère une diction propre et régulière.
Ce qui revient: Une piste voix du moteur de dialogue qui se branche directement dans l'outil AI Avatar de ce site.
Note de prod: Restez sobre : les tags d'émotion appuyés et les effets gênent la synchro labiale en aval.
Là où la synthèse vocale expressive résiste
Cinq comportements qui surprennent les nouveaux metteurs en scène — et l'ajustement pour chacun.
Creative mode sometimes improvises beyond the script.
Direction: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
Direction: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
Direction: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
Direction: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
Direction: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
Le mode Creative improvise parfois au-delà du script.
Direction: C'est le prix documenté de l'expressivité. Auditionnez les répliques importantes, gardez Creative pour les moments de personnage, et laissez Natural porter la colonne vertébrale du projet.
Un tag est lu à voix haute, ou ignoré en silence.
Direction: Trois vérifications dans l'ordre : le mode (Robust amortit les tags — montez d'un cran), le placement (le crochet juste avant les mots visés), la densité (un ou deux par passage ; les tags empilés se font concurrence).
Les projets longs butent sur le plafond de 5 000 caractères.
Direction: Chapitrez le script, gardez les attributions de voix et le mode identiques d'un rendu à l'autre, et raboutez les fichiers dans un éditeur — la cohérence tient parce que la distribution n'a jamais changé.
Chiffres, symboles et abréviations se lisent de façon imprévisible.
Direction: Écrivez-les en toutes lettres : « docteur » plutôt que « Dr », « deux mille vingt-six » quand vous voulez l'année prononcée ainsi. Le script est le contrat de prononciation.
Les langues moins dotées portent des accents plus marqués sur certaines voix.
Direction: Écoutez les candidates dans la langue cible avant de vous engager — le caractère d'une voix voyage, mais la qualité d'accent varie voix par voix sur les 75 options.
Le manuel de direction
Tiré des bonnes pratiques officielles d'ElevenLabs, puis confronté à l'usage en production.
La ponctuation, c'est le rythme
Les virgules respirent, les points arrêtent, les points de suspension laissent traîner, les tirets longs tranchent. Le moteur lit la ponctuation comme du timing — réécrivez le rythme avant d'ajouter un tag de plus.
Les tags dirigent ce qui suit
Placez le crochet juste avant les mots qu'il gouverne, dans la bonne ligne. Un [whispers] en début de ligne chuchote toute la ligne ; enfoui en milieu de phrase, il ne chuchote que la fin.
La même réplique, dirigée
Plate
"Bon retour dans l'émission. Aujourd'hui nous avons des nouvelles vraiment enthousiasmantes sur le projet."
Dirigée
"[excited] Bon retour dans l'émission ! [pause] Aujourd'hui… on peut enfin parler du projet."
Les mêmes mots, deux performances. La version dirigée s'engage sur une émotion dès l'ouverture, s'achète un temps de suspense avec un tag et des points de suspension, et laisse la ponctuation finir le jeu.
Ce studio, une cabine d'enregistrement, ou une app de lecture ?
Trois façons de transformer des mots en audio.
Ce studio
De l'audio scénarisé et joué — dialogues, narration dirigée, voix de personnages — produit à la vitesse de l'écriture, en 75 langues.
Une cabine d'enregistrement
Une performance humaine précise, des lectures légales avec validation, ou une voix de marque contractuellement liée à une personne.
Une app de lecture
Consommer du texte à voix haute — articles, PDF, écrans. Des outils d'écoute, pas de production.
Comment fonctionne le studio de synthèse vocale
Écrire, caster, diriger — la cabine est en haut de cette page.
Écrivez le script en lignes
Un locuteur par ligne, jusqu'à 5 000 caractères au total. Marquez les temps émotionnels que vous entendez déjà dans votre tête.
Castez et écoutez les voix
Attribuez une voix par ligne depuis la bibliothèque de 113 voix — testez avec votre vraie première réplique, pas avec le texte d'exemple.
Dirigez, générez, reprenez
Posez les tags audio, choisissez le mode de stabilité, et générez. Reprenez les lignes une par une en ajustant leurs tags, au lieu de relancer toute la scène.
Synthèse vocale : les questions de metteur en scène
Performance, casting et cohérence — répondues depuis les docs officielles et l'usage en production.
La voix n'est que la première étape
Donnez-lui un visage, montez-la sur des images, ou construisez la scène autour.
Votre script sait déjà comment il veut sonner
Castez les voix, posez les tags, choisissez le mode — et ce studio de synthèse vocale vous le joue dans n'importe laquelle des 75 langues. Prêt pour le dialogue, en haut de cette page.