Digite o texto deste trecho do diálogo.
Escolha a voz deste diálogo.
Falante único
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
Diálogo multifalante
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
Gerador de voz IA que interpreta o roteiro — não apenas lê
Esta ferramenta de texto para fala é um gerador de voz IA construído para atuar, não para reproduzir. Escreva o roteiro, atribua a cada linha uma das 113 vozes e dirija a entrega com tags de áudio como [whispers], [excited] e [interrupting]. O motor é o engine de diálogo v3 da ElevenLabs — a geração apostada em expressividade, hoje em disponibilidade geral — falando 75 idiomas com detecção automática. Se você só precisa que uma página seja lida em voz alta, um app leitor resolve. Se precisa que uma cena seja interpretada, este é o estúdio. O manual de direção vem abaixo.
O leitor lê. O intérprete entrega.
Existem dois tipos de ferramenta de texto para fala. Escolha a espécie certa primeiro.
Apps leitores de voz
Ferramentas de consumo: leem artigos, PDFs e telas numa voz estável e neutra — para acessibilidade e escuta em movimento.
Ótimos para absorver informação. Não foram feitos para produzir conteúdo.
Engine de atuação vocal — esta página
Ferramenta de produção: linhas de roteiro, vozes escaladas, direção emocional, cenas com vários falantes — saída para publicar, não para tocar de fundo.
Se o áudio é o produto, o lugar é aqui.
Os avaliadores traçam a mesma linha dentro do catálogo da ElevenLabs: para narração plana, a família v2 segue sendo a escolha estável; onde emoção, diálogo e atuação entram, o v3 — o motor desta página — vence com consistência.
Tags de áudio: as rubricas da voz
Instruções entre colchetes que o engine interpreta. A documentação oficial da ElevenLabs as organiza em quatro papéis.
Troca de emoção
Defina e inverta a emoção até no meio da linha. A leitura obedece ao colchete.
[excited] [annoyed] [sarcastic] [flustered] [sighs]
Ritmo e andamento
Controle de velocidade e hesitação aonde a pontuação não chega.
[fast-paced] [hesitates] [pause] [drawn out]
Turnos e interrupções
O grupo nativo de diálogo: falantes que cortam, sobrepõem e se alternam como numa conversa real.
[interrupting] [overlapping] [cuts in]
Identidade e personagem
Empurra a voz para dentro de um papel sem trocar a voz em si.
[childlike tone] [deep voice] [pirate voice] [robotic tone]
Até efeitos sonoros entram por colchete — os exemplos oficiais vão de [laughs] a [gunshot] e [explosion]. Use como tempero: 1 ou 2 por trecho, logo antes da palavra que deve ser dirigida.
A configuração mais importante desta página
A conclusão dos avaliadores é sempre a mesma: o modo de estabilidade define quanto a voz atua — e quanto risco você corre.
Creative
Expressividade máxima e a resposta mais forte às tags de áudio — com a tendência, documentada oficialmente, de improvisar além do roteiro.
Atuação de personagem, drama, toda cena em que a leitura plana é o fracasso. Confira take a take.
Natural
O padrão e o ponto de equilíbrio: próximo da voz original, resposta estável às tags, poucas surpresas.
Podcasts, vídeos explicativos e a maior parte da produção começa aqui.
Robust
Consistência máxima, drama mínimo: saída estável em trechos longos — mas que praticamente ignora as tags de direção.
Narração longa e neutra, onde a uniformidade vale mais que a expressão.
Regra prática: para dirigir, Creative ou Natural; para resistir, Robust. As tags precisam de folga para atuar.
Escrevendo para várias vozes
A saída multifalante é por linha: cada linha tem o próprio texto e a própria voz.
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
Um falante por linha.
O editor atribui a voz linha a linha — alternar linhas monta o diálogo, e o personagem recorrente ganha voz fixa no roteiro inteiro.
Distribua o orçamento de 5.000 caracteres.
O teto é a soma de todas as linhas. Numa cena a dois, o orçamento se divide — corte a encheção de rubrica que um colchete resolve.
Interrupção se dirige com tag, não com travessão.
[interrupting] e [overlapping] no início da linha fazem o engine colidir os turnos com timing natural — o comportamento de diálogo que pontuação sozinha não produz.
Leia em voz alta uma vez antes de gerar.
Onde um humano tropeça, o modelo tropeça no mesmo lugar. Roteiro travado soa travado em qualquer voz.
113 vozes — como escalar sem ouvir todas
Toda voz tem pré-escuta imediata. O atalho é saber o que ouvir.
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- Escolha por papel, não por vibe: narrador, apresentador, personagem — afunile a três por papel e pré-escute com a primeira frase real do roteiro.
- No diálogo, o contraste vence: duas vozes parecidas se misturam. Escolha timbres distantes, que identifiquem o falante a qualquer momento.
- Case a voz com o idioma: a mesma voz muda de sotaque conforme a língua — pré-escute no idioma de publicação.
- Trave o elenco antes de ajustar tags: trocar a voz zera a noção de timing. Decida quem fala antes de dirigir como fala.
4 produções que este estúdio resolve
Cada cartão traz o caso e a direção que funciona.
Podcast a dois sem estúdio
Caso: Um programa semanal com troca de verdade, não monólogos alternados.
Direção: Duas vozes contrastantes, modo Natural, [overlapping] nas reações e [laughs] só onde cabe de verdade.
O que volta: Um episódio de conversa com cara de produção, pronto para o feed.
Nota do produtor: Escreva a troca com folga — a sintonia que o roteiro costuma fingir, as tags de interrupção criam.
Audiolivro com elenco completo
Caso: Narração mais vozes por personagem, capítulo a capítulo.
Direção: Narrador em Robust pela continuidade. Falas de personagem em Creative, com uma tag de emoção por cena.
O que volta: Capítulos polifônicos que seguram o ouvinte, sem cabine de gravação.
Nota do produtor: Gere por capítulo dentro do orçamento de caracteres e reuse o mesmo elenco em todos.
Spot de 30 segundos em cinco takes
Caso: Texto publicitário que pede energia, uma pausa de efeito e fechamento confiante.
Direção: Uma voz carismática, modo Creative, [excited] na abertura e [pause] antes da oferta.
O que volta: Leitura em ritmo de veiculação, com variações para teste A/B em minutos.
Nota do produtor: Escreva números e símbolos por extenso — "vinte por cento de desconto" lê melhor que "20% off".
Trilha de voz para avatar falante
Caso: O vídeo do apresentador precisa primeiro da narração.
Direção: Uma voz estável, modo Natural, tags no mínimo — o lip sync prefere leitura limpa e uniforme.
O que volta: Trilha de voz pronta para entrar direto na ferramenta de avatar IA do site.
Nota do produtor: Mantenha seca: tag emocional forte e efeito sonoro brigam com o lip sync da etapa seguinte.
Onde o TTS expressivo resiste
Os 5 comportamentos que surpreendem o diretor de primeira viagem, com os ajustes.
Creative mode sometimes improvises beyond the script.
Direção: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
Direção: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
Direção: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
Direção: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
Direção: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
O modo Creative às vezes improvisa além do roteiro.
Direção: É a troca documentada pela expressividade. Audicione as linhas críticas, reserve o Creative para os momentos de destaque e deixe a espinha do projeto com o Natural.
Tags lidas em voz alta ou ignoradas em silêncio.
Direção: Cheque em ordem: o modo (Robust suprime tags — suba de modo), a posição (o colchete vem logo antes da palavra-alvo) e a densidade (1 ou 2 por trecho; tags empilhadas se canibalizam).
Projetos longos batem no teto de 5.000 caracteres.
Direção: Divida em capítulos, congele vozes e modo entre as gerações e emende os arquivos no editor — o elenco constante mantém a consistência.
Números, símbolos e abreviações saem imprevisíveis.
Direção: Escreva por extenso: "doutor" em vez de "Dr.", "dois mil e vinte e seis" se é assim que o ano deve soar. O roteiro é o contrato de pronúncia.
Em idiomas menores, o sotaque pesa conforme a voz.
Direção: Pré-escute as candidatas no idioma-alvo antes de fechar — o caráter da voz atravessa as línguas, mas a qualidade do sotaque varia entre as 75 opções.
Manual de direção
As práticas oficiais da ElevenLabs, verificadas no chão de produção.
Pontuação é andamento
Vírgula é respiração, ponto é parada, reticências são suspensão, travessão é corte. O engine lê pontuação como timing — reescreva o ritmo antes de adicionar tags.
A tag dirige o que vem logo depois
O colchete vai imediatamente antes da palavra a dominar, dentro da linha certa. [whispers] na abertura sussurra a linha inteira; no meio da frase, sussurra só o resto.
A mesma fala, dirigida
Plana
"Bem-vindos de volta ao programa. Hoje temos uma novidade muito empolgante sobre o projeto."
Dirigida
"[excited] Bem-vindos de volta ao programa! [pause] Hoje... finalmente posso falar daquele projeto."
As mesmas palavras, duas atuações. A versão dirigida assume a emoção na abertura, compra um compasso de suspense com a tag e as reticências, e deixa o lance final com a pontuação.
Este estúdio, a cabine ou o app leitor?
Três jeitos de transformar palavras em som.
Este estúdio
Você tem um roteiro e precisa de áudio interpretado — diálogo, narração dirigida, vozes de personagem — em 75 idiomas, na velocidade da escrita.
A cabine de gravação
Quando é preciso a atuação de um humano específico, leitura jurídica com aprovação ou voz de marca atada a uma pessoa por contrato.
O app leitor
Quando você quer consumir texto em som — artigos, PDFs, telas. Ferramenta de escutar, não de criar.
Como usar o estúdio de texto para voz
Escreva, escale e dirija — a cabine está no topo da página.
Escreva o roteiro em linhas
Um falante por linha, até 5.000 caracteres no total. Marque os compassos emocionais que você já ouve na cabeça.
Escale as vozes e pré-escute
Atribua uma voz da biblioteca de 113 a cada linha — pré-escutando com a primeira frase real, não com frase de amostra.
Dirija, gere e refaça
Posicione as tags de áudio, escolha o modo de estabilidade e gere. Refaça linha a linha ajustando tags, em vez de rodar a cena inteira de novo.
Texto para voz: perguntas de diretor
Atuação, escalação e consistência, respondidas com a documentação oficial e casos de produção.
A voz é o primeiro passo
Dê um rosto, corte para a filmagem, monte a cena.
Seu roteiro já sabe como quer soar
Escale as vozes, posicione as tags, escolha o modo — e este estúdio de texto para voz interpreta em qualquer um dos 75 idiomas. Cadastre-se e experimente a primeira cena com os créditos do teste grátis. Com suporte a diálogo, no topo desta página.