Escribe el texto de este tramo del diálogo.
Elige la voz de este diálogo.
Una sola voz
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
Diálogo multivoces
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
Texto a voz que interpreta el guion, no solo lo lee
Esta herramienta de texto a voz es un generador de voz IA construido para actuar, no para reproducir. Escribe el guion, asigna a cada línea una de las 113 voces y dirige la entrega con etiquetas de audio como [whispers], [excited] e [interrupting]. El motor es el engine de diálogo v3 de ElevenLabs —la generación apostada a la expresividad, hoy en disponibilidad general— hablando 75 idiomas con detección automática. Si solo necesitas que una página se lea en voz alta, una app lectora basta. Si necesitas que una escena se interprete, este es el estudio. El manual de dirección viene abajo.
El lector lee. El intérprete entrega.
Hay dos tipos de herramienta con el nombre «texto a voz». Elige primero la especie correcta.
Apps lectoras de voz
Herramientas de consumo: leen artículos, PDF y pantallas con una voz estable y neutra, para accesibilidad y escucha en movimiento.
Geniales para absorber información. No están hechas para producir contenido.
Motor de actuación vocal — esta página
Herramienta de producción: líneas de guion, voces elegidas, dirección emocional, escenas con varios hablantes: salida para publicar, no para poner de fondo.
Si el audio es el producto, el lugar es este.
Los evaluadores trazan la misma línea dentro del catálogo de ElevenLabs: para narración plana, la familia v2 sigue siendo la opción estable; donde entran la emoción, el diálogo y la actuación, el v3 —el motor de esta página— gana con consistencia.
Etiquetas de audio: las acotaciones de la voz
Instrucciones entre corchetes que el motor interpreta. La documentación oficial de ElevenLabs las organiza en cuatro papeles.
Cambio de emoción
Define e invierte la emoción incluso a mitad de línea. La lectura obedece al corchete.
[excited] [annoyed] [sarcastic] [flustered] [sighs]
Ritmo y tempo
Control de velocidad y vacilación donde la puntuación no llega.
[fast-paced] [hesitates] [pause] [drawn out]
Turnos e interrupciones
El grupo nativo del diálogo: hablantes que cortan, se superponen y se alternan como en una conversación real.
[interrupting] [overlapping] [cuts in]
Identidad y personaje
Empuja la voz dentro de un papel sin cambiar la voz en sí.
[childlike tone] [deep voice] [pirate voice] [robotic tone]
Hasta los efectos de sonido entran por corchete: los ejemplos oficiales van de [laughs] a [gunshot] y [explosion]. Úsalos como especias: 1 o 2 por pasaje, justo antes de la palabra que quieres dirigir.
El ajuste más importante de esta página
La conclusión de los evaluadores es siempre la misma: el modo de estabilidad define cuánto actúa la voz y cuánto riesgo corres.
Creative
Expresividad máxima y la respuesta más fuerte a las etiquetas de audio, con la tendencia, documentada oficialmente, a improvisar más allá del guion.
Actuación de personajes, drama, toda escena donde la lectura plana es el fracaso. Revisa toma a toma.
Natural
El valor por defecto y el punto de equilibrio: cercano a la voz original, respuesta estable a las etiquetas, pocas sorpresas.
Pódcast, videos explicativos y la mayor parte de la producción empiezan aquí.
Robust
Consistencia máxima, drama mínimo: salida estable en pasajes largos, pero que prácticamente ignora las etiquetas de dirección.
Narración larga y neutra, donde la uniformidad vale más que la expresión.
Regla práctica: para dirigir, Creative o Natural; para resistir, Robust. Las etiquetas necesitan margen para actuar.
Escribir para varias voces
La salida multivoces es por línea: cada línea tiene su propio texto y su propia voz.
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
Un hablante por línea.
El editor asigna la voz línea a línea: alternar líneas arma el diálogo, y el personaje recurrente recibe una voz fija en todo el guion.
Reparte el presupuesto de 5.000 caracteres.
El techo es la suma de todas las líneas. En una escena de dos, el presupuesto se divide: recorta el relleno de acotación que un corchete resuelve.
La interrupción se dirige con etiqueta, no con guion largo.
[interrupting] y [overlapping] al inicio de la línea hacen que el motor choque los turnos con timing natural: el comportamiento de diálogo que la puntuación sola no produce.
Lee en voz alta una vez antes de generar.
Donde un humano tropieza, el modelo tropieza en el mismo lugar. Un guion trabado suena trabado con cualquier voz.
113 voces: cómo elegir sin escucharlas todas
Cada voz tiene preescucha inmediata. El atajo es saber qué escuchar.
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- Elige por papel, no por vibra: narrador, presentador, personaje. Reduce a tres por papel y preescucha con la primera frase real del guion.
- En el diálogo gana el contraste: dos voces parecidas se mezclan. Elige timbres distantes que identifiquen al hablante en todo momento.
- Empareja la voz con el idioma: la misma voz cambia de acento según la lengua. Preescucha en el idioma de publicación.
- Fija el reparto antes de ajustar etiquetas: cambiar la voz reinicia la noción del timing. Decide quién habla antes de dirigir cómo habla.
4 producciones que este estudio resuelve
Cada tarjeta trae el caso y la dirección que funciona.
Pódcast de dos voces sin estudio
Caso: Un programa semanal con intercambio de verdad, no monólogos alternados.
Dirección: Dos voces contrastantes, modo Natural, [overlapping] en las reacciones y [laughs] solo donde de verdad encaja.
Lo que vuelve: Un episodio de conversación con aire de producción, listo para el feed.
Nota del productor: Escribe el intercambio con holgura: la sintonía que el guion suele fingir, las etiquetas de interrupción la crean.
Audiolibro con reparto completo
Caso: Narración más voces por personaje, capítulo a capítulo.
Dirección: Narrador en Robust por la continuidad. Las líneas de personaje en Creative, con una etiqueta de emoción por escena.
Lo que vuelve: Capítulos polifónicos que retienen al oyente, sin cabina de grabación.
Nota del productor: Genera por capítulo dentro del presupuesto de caracteres y reutiliza el mismo reparto en todos.
Un spot de 30 segundos en cinco tomas
Caso: Texto publicitario que pide energía, una pausa de efecto y un cierre seguro.
Dirección: Una voz carismática, modo Creative, [excited] en la apertura y [pause] antes de la oferta.
Lo que vuelve: Una lectura a ritmo de emisión, con variaciones para test A/B en minutos.
Nota del productor: Escribe los números y símbolos con letras: «veinte por ciento de descuento» se lee mejor que «20% off».
Pista de voz para el avatar parlante
Caso: El video del presentador necesita primero la narración.
Dirección: Una voz estable, modo Natural, etiquetas al mínimo: el lip sync prefiere la lectura limpia y uniforme.
Lo que vuelve: Una pista de voz lista para entrar directo en la herramienta de avatares IA del sitio.
Nota del productor: Mantenla seca: las etiquetas emocionales fuertes y los efectos pelean con el lip sync de la etapa siguiente.
Donde el TTS expresivo se resiste
Los 5 comportamientos que sorprenden al director primerizo, con sus ajustes.
Creative mode sometimes improvises beyond the script.
Dirección: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
Dirección: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
Dirección: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
Dirección: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
Dirección: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
El modo Creative a veces improvisa más allá del guion.
Dirección: Es el intercambio documentado por la expresividad. Audiciona las líneas críticas, reserva Creative para los momentos estelares y deja la columna del proyecto en Natural.
Etiquetas leídas en voz alta o ignoradas en silencio.
Dirección: Revisa en orden: el modo (Robust suprime etiquetas: sube de modo), la posición (el corchete va justo antes de la palabra objetivo) y la densidad (1 o 2 por pasaje; las etiquetas apiladas se canibalizan).
Los proyectos largos chocan con el techo de 5.000 caracteres.
Dirección: Divide en capítulos, congela las voces y el modo entre generaciones, y empalma los archivos en el editor: el reparto constante mantiene la consistencia.
Los números, símbolos y abreviaturas salen impredecibles.
Dirección: Escríbelos con letras: «doctor» en vez de «Dr.», «dos mil veintiséis» si así debe sonar el año. El guion es el contrato de pronunciación.
En idiomas menores, el acento pesa según la voz.
Dirección: Preescucha a las candidatas en el idioma objetivo antes de cerrar: el carácter de la voz cruza los idiomas, pero la calidad del acento varía entre las 75 opciones.
Manual de dirección
Las prácticas oficiales de ElevenLabs, verificadas en el terreno de producción.
La puntuación es el tempo
La coma es respiración, el punto es parada, los puntos suspensivos son suspensión, la raya es corte. El motor lee la puntuación como timing: reescribe el ritmo antes de añadir etiquetas.
La etiqueta dirige lo que viene justo después
El corchete va inmediatamente antes de la palabra a dominar, dentro de la línea correcta. [whispers] al inicio susurra la línea entera; en mitad de la frase, solo susurra el resto.
La misma frase, dirigida
Plana
"Bienvenidos de nuevo al programa. Hoy tenemos una novedad muy emocionante sobre el proyecto."
Dirigida
"[excited] ¡Bienvenidos de nuevo al programa! [pause] Hoy... por fin puedo hablarles de ese proyecto."
Las mismas palabras, dos actuaciones. La versión dirigida apuesta por la emoción en la apertura, compra un compás de suspenso con la etiqueta y los puntos suspensivos, y deja el remate final a la puntuación.
¿Este estudio, la cabina o la app lectora?
Tres maneras de convertir palabras en sonido.
Este estudio
Tienes un guion y necesitas audio interpretado —diálogo, narración dirigida, voces de personaje— en 75 idiomas, a la velocidad de la escritura.
La cabina de grabación
Cuando hace falta la actuación de un humano concreto, una lectura legal con aprobación o una voz de marca atada a una persona por contrato.
La app lectora
Cuando quieres consumir texto en sonido: artículos, PDF, pantallas. Herramienta para escuchar, no para crear.
Cómo usar el estudio de texto a voz
Escribe, elige y dirige: la cabina está en la parte superior.
Escribe el guion en líneas
Un hablante por línea, hasta 5.000 caracteres en total. Marca los compases emocionales que ya escuchas en tu cabeza.
Elige las voces y preescucha
Asigna una voz de la biblioteca de 113 a cada línea, preescuchando con la primera frase real, no con una frase de muestra.
Dirige, genera y repite
Coloca las etiquetas de audio, elige el modo de estabilidad y genera. Repite línea a línea ajustando etiquetas, en vez de relanzar la escena entera.
Texto a voz: preguntas de director
Actuación, reparto y consistencia, respondidos con la documentación oficial y casos de producción.
La voz es el primer paso
Ponle cara, móntala en el video, arma la escena.
Tu guion ya sabe cómo quiere sonar
Elige las voces, coloca las etiquetas, decide el modo, y este estudio de texto a voz lo interpreta en cualquiera de los 75 idiomas. Regístrate y prueba gratis la primera escena con tus créditos de bienvenida. Con soporte de diálogo, en la parte superior de esta página.