输入该段对话的文本内容。
为该段对话选择对应的声音角色。
单人语音
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
多人对话
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
文字转语音 — 会演戏的 AI 配音,不只是朗读
这个文字转语音工具是为"表演"而造的 AI 配音生成器,不是为"播放":写一份剧本,把每句台词分配给 113 个声音中的一个,再用 [whispers](耳语)、[excited](兴奋)、[interrupting](插话)这样的音频标签去导演演绎方式。它运行 ElevenLabs 的 v3 对话引擎——主打表现力的那一代,现已正式开放——支持 75 种语言并自动检测。想把一篇文章读出来,朗读类应用就能做;想把一场戏演出来,这里才是录音棚。导演手册就在下面。
朗读工具念稿子,表演引擎出作品
两类完全不同的工具共用"文字转语音"这个名字。先选对物种。
文字朗读类应用
为"听"而生:用平稳中性的声音把文章、PDF 和屏幕内容念出来——属于无障碍和通勤伴听工具。
吸收信息很好用。但它不是用来生产内容的。
声音表演引擎——本页
为"产"而生:成稿台词、选角配音、情绪指导、多人对话场景——产出的是你要发布的音频,不是你跟着听的音频。
如果音频本身就是产品,你来对地方了。
评测者在 ElevenLabs 自家产品线里也划了同一条线:老一代 v2 系列在平铺直叙的旁白上更稳,而 v3——本页的引擎——在情绪、对话和演绎为重的场合被一致评为更强。
音频标签:写给声音的舞台指令
引擎会照着演的方括号指令——ElevenLabs 官方文档把它们分成四类任务。
情绪切换
在一句台词中间设定或翻转情绪;读法跟着方括号走。
[excited] [annoyed] [sarcastic] [flustered] [sighs]
节奏与停顿
控制语速和迟疑——标点符号永远做不到这么精确。
[fast-paced] [hesitates] [pause] [drawn out]
对话轮替与插话
对话引擎的原生强项:说话人互相打断、声音重叠、像真实交谈一样接话。
[interrupting] [overlapping] [cuts in]
身份与角色
不换声音本身,就把一个声音推进某个角色里。
[childlike tone] [deep voice] [pirate voice] [robotic tone]
连音效都走方括号——官方示例从 [laughs](笑声)一路到 [gunshot](枪声)和 [explosion](爆炸)。像放调料一样用它:每段一到两个,放在要指导的词前面。
本页最重要的一个设置
评测者反复得出同一个结论:稳定性模式决定你能拿到多少"戏"——以及多少风险。
Creative(创意)
表现力拉满、对音频标签响应最强——官方也明确它有即兴发挥的倾向,偶尔会演到剧本之外。
角色戏、剧情向内容,一切"念得太平就算失败"的场合。每条都要试听。
Natural(自然)
默认档也是平衡点:贴近原声、标签响应可靠、几乎没有意外。
播客、讲解视频、大多数生产工作——从这里开始。
Robust(稳健)
一致性最高、戏剧性最低:长篇输出稳得住,但基本无视指令类标签。
统一性比表现力更重要的长篇中性旁白。
实战法则:要导戏就用 Creative 或 Natural;要硬撑长篇就用 Robust。标签需要发挥空间才能演。
给多个声音写剧本
多人输出是按行组织的:每一行带着自己的文字和自己的声音。
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
一行一个说话人。
编辑器按行分配声音——隔行交替就是一场对话,每个常驻角色全程绑定同一个声音。
管好 5000 字符的预算。
上限是所有行加在一起算的。双人戏等于平分预算——能用一个方括号表达的舞台说明,就别写成台词。
插话用标签排演,别用破折号。
行首的 [interrupting] 和 [overlapping] 会让引擎自然地撞接对话轮次——这是标点符号触发不了的对话行为。
生成之前自己先读一遍。
人读着会卡的句子,模型也会卡。别扭的剧本配什么声音都别扭。
从 113 个声音里选角,不用一个个试
每个声音都有即时试听。捷径是知道该听什么。
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- 按角色选,不按感觉选:旁白、主持、角色——每个角色入围三个声音,用你真正的开场白逐个试听。
- 对话里反差组合赢:两个相近的声音会糊在一起;选音区分明的搭配,听众永远知道谁在说话。
- 声音要配语言:同一个声音在不同语言里口音会变——用你要发布的语言试听。
- 先锁定阵容再调标签:换声音会重置你对节奏的感觉。先定谁来说,再导怎么说。
这间录音棚接得住的四类制作
每张卡片配上需求和让它成立的导演方法。
双主播播客,不进棚
需求: 一档每周更新的节目,要的是你来我往,不是轮流独白。
导演方法: 两个反差声音,Natural 模式,反应句加 [overlapping],真正好笑的地方加 [laughs]。
拿回什么: 一集听感像正经制作出来的对谈节目,直接可以上架。
制作备注: 互动台词写松一点——插话标签会替你完成剧本通常只能硬演的化学反应。
全角色阵容的有声书章节
需求: 旁白加上个性分明的角色声音,一章一章推进。
导演方法: Robust 模式的旁白保连贯;角色台词用 Creative,每场戏一个情绪标签。
拿回什么: 一章不进录音棚也能抓住耳朵的多声部有声书。
制作备注: 按 5000 字符预算逐章生成,每次复用同一套声音阵容。
三十秒广告配音,五条备选
需求: 广告文案需要开场的能量感、一拍迟疑,和一个自信的收尾。
导演方法: 一个有魅力的声音,Creative 模式,[excited] 开场,报价前加 [pause]。
拿回什么: 广播级节奏的成品演绎,几分钟内就能 A/B 多个版本。
制作备注: 数字和符号写成汉字——"立减两成"比"-20%"读得干净。
给数字人准备的配音轨
需求: 一条口播视频,得先有它的画外音。
导演方法: 一个平稳的声音,Natural 模式,标签从简——对口型最吃干净均匀的输出。
拿回什么: 一条对话引擎品质的配音轨,直接拖进本站的 AI 数字人工具。
制作备注: 保持干净:情绪标签和音效堆太多,会和下游的口型同步打架。
表现型 TTS 会在哪儿跟你较劲
让初次执导的人意外的五种行为——以及各自的调整方法。
Creative mode sometimes improvises beyond the script.
导演调整: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
导演调整: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
导演调整: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
导演调整: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
导演调整: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
Creative 模式偶尔会演到剧本之外。
导演调整: 这是表现力的官方代价。重要台词逐条试听,Creative 留给角色高光时刻,作品的主干交给 Natural。
某个标签被照字面念出来,或被默默跳过。
导演调整: 按顺序查三处:模式(Robust 会压制标签——往上换)、位置(方括号要紧贴目标词前)、密度(每段一到两个;标签叠多了会互相打架)。
长项目撞上 5000 字符上限。
导演调整: 把剧本分章,每次渲染保持声音分配和模式完全一致,最后在剪辑里合并——阵容没变过,一致性就在。
数字、符号和缩写的读法不可预测。
导演调整: 全部写成你想要的读法:"百分之二十"而不是"20%",年份想逐字念就写"二〇二六"。剧本就是发音合同。
小语种在部分声音上口音偏重。
导演调整: 定稿前用目标语言试听候选声音——声音的性格能跨语言,口音质量却因声音而异,75 种语言都如此。
导演手册
提炼自 ElevenLabs 官方最佳实践,再用真实制作经验校验。
标点就是节奏
逗号换气,句号收住,省略号拖长,破折号急停。引擎把标点当节拍读——先重写节奏,再考虑加标签。
标签指挥它后面的词
方括号要紧贴它管辖的词,放在正确的那一行里。行首的 [whispers] 会让整行变成耳语;埋在句中,就只有后半句被压低。
同一句台词,导一遍
平的
"欢迎回到节目。今天我们有一些关于这个项目的非常激动人心的消息。"
导过的
"[excited] 欢迎回到节目![pause] 今天……我们终于可以聊这个项目了。"
同样的内容,两种表演。导过的版本开场就押定一种情绪,用一个标签加一个省略号买到一拍悬念,剩下的戏交给标点收尾。
这间录音棚、真录音棚,还是朗读应用?
把文字变成声音的三条路。
本页这间录音棚
有剧本、要表演的音频——对话、有指导的旁白、角色配音——以写稿的速度产出,75 种语言任选。
真实录音棚
需要某位特定真人的演绎、要签字确认的法务口播,或合同绑定真人的品牌声音。
朗读类应用
把现成文字听完——文章、PDF、屏幕内容。那是收听工具,不是生产工具。
这间文字转语音录音棚怎么用
写本、选角、导戏——录音棚就在本页顶部。
按行写剧本
一行一个说话人,总共 5000 字符以内。把你脑子里已经听到的情绪拍点先标出来。
选角并试听
从 113 个声音里按行分配——用你真正的开场白试听,别用示例文本。
导戏、生成、补录
放进音频标签、选好稳定性模式、生成。哪句不满意就调那句的标签重来,不用整场重新生成。
文字转语音:导演们的问题
表演、选角与一致性——答案来自官方文档和真实制作。
声音只是第一步
给它配一张脸、剪进画面,或围绕它把整场戏搭出来。
你的剧本早就知道自己想要的声音
选好声音、放进标签、挑对模式——这间文字转语音录音棚就会用 75 种语言中的任意一种把它演回来给你听。多人对话就绪,工具在本页顶部。