模型

对话0 / 5,000

对话 1

文本

输入该段对话的文本内容。

声音

为该段对话选择对应的声音角色。

音频标签

[excited][happy][sad][angry][surprised]更多标签

语言

稳定性

单人语音

文生语音

Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.

多人对话

文生对话

Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?

James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!

文字转语音 — 会演戏的 AI 配音，不只是朗读

这个文字转语音工具是为"表演"而造的 AI 配音生成器，不是为"播放"：写一份剧本，把每句台词分配给 113 个声音中的一个，再用 [whispers]（耳语）、[excited]（兴奋）、[interrupting]（插话）这样的音频标签去导演演绎方式。它运行 ElevenLabs 的 v3 对话引擎——主打表现力的那一代，现已正式开放——支持 75 种语言并自动检测。想把一篇文章读出来，朗读类应用就能做；想把一场戏演出来，这里才是录音棚。导演手册就在下面。

多说话人对话

音频标签控制

113 种声音

75 种语言

免费在线

快速生成

朗读工具念稿子，表演引擎出作品

两类完全不同的工具共用"文字转语音"这个名字。先选对物种。

文字朗读类应用

为"听"而生：用平稳中性的声音把文章、PDF 和屏幕内容念出来——属于无障碍和通勤伴听工具。

吸收信息很好用。但它不是用来生产内容的。

声音表演引擎——本页

为"产"而生：成稿台词、选角配音、情绪指导、多人对话场景——产出的是你要发布的音频，不是你跟着听的音频。

如果音频本身就是产品，你来对地方了。

评测者在 ElevenLabs 自家产品线里也划了同一条线：老一代 v2 系列在平铺直叙的旁白上更稳，而 v3——本页的引擎——在情绪、对话和演绎为重的场合被一致评为更强。

音频标签：写给声音的舞台指令

引擎会照着演的方括号指令——ElevenLabs 官方文档把它们分成四类任务。

情绪切换

在一句台词中间设定或翻转情绪；读法跟着方括号走。

[excited] [annoyed] [sarcastic] [flustered] [sighs]

节奏与停顿

控制语速和迟疑——标点符号永远做不到这么精确。

[fast-paced] [hesitates] [pause] [drawn out]

对话轮替与插话

对话引擎的原生强项：说话人互相打断、声音重叠、像真实交谈一样接话。

[interrupting] [overlapping] [cuts in]

身份与角色

不换声音本身，就把一个声音推进某个角色里。

[childlike tone] [deep voice] [pirate voice] [robotic tone]

连音效都走方括号——官方示例从 [laughs]（笑声）一路到 [gunshot]（枪声）和 [explosion]（爆炸）。像放调料一样用它：每段一到两个，放在要指导的词前面。

本页最重要的一个设置

评测者反复得出同一个结论：稳定性模式决定你能拿到多少"戏"——以及多少风险。

Creative（创意）

表现力拉满、对音频标签响应最强——官方也明确它有即兴发挥的倾向，偶尔会演到剧本之外。

角色戏、剧情向内容，一切"念得太平就算失败"的场合。每条都要试听。

Natural（自然）

默认档也是平衡点：贴近原声、标签响应可靠、几乎没有意外。

播客、讲解视频、大多数生产工作——从这里开始。

Robust（稳健）

一致性最高、戏剧性最低：长篇输出稳得住，但基本无视指令类标签。

统一性比表现力更重要的长篇中性旁白。

实战法则：要导戏就用 Creative 或 Natural；要硬撑长篇就用 Robust。标签需要发挥空间才能演。

给多个声音写剧本

多人输出是按行组织的：每一行带着自己的文字和自己的声音。

One line, one speaker.

The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.

Budget the 5,000 characters.

The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.

Stage interruptions with tags, not dashes.

[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.

Read it aloud once before generating.

If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.

一行一个说话人。

编辑器按行分配声音——隔行交替就是一场对话，每个常驻角色全程绑定同一个声音。

管好 5000 字符的预算。

上限是所有行加在一起算的。双人戏等于平分预算——能用一个方括号表达的舞台说明，就别写成台词。

插话用标签排演，别用破折号。

行首的 [interrupting] 和 [overlapping] 会让引擎自然地撞接对话轮次——这是标点符号触发不了的对话行为。

生成之前自己先读一遍。

人读着会卡的句子，模型也会卡。别扭的剧本配什么声音都别扭。

从 113 个声音里选角，不用一个个试

每个声音都有即时试听。捷径是知道该听什么。

Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
按角色选，不按感觉选：旁白、主持、角色——每个角色入围三个声音，用你真正的开场白逐个试听。
对话里反差组合赢：两个相近的声音会糊在一起；选音区分明的搭配，听众永远知道谁在说话。
声音要配语言：同一个声音在不同语言里口音会变——用你要发布的语言试听。
先锁定阵容再调标签：换声音会重置你对节奏的感觉。先定谁来说，再导怎么说。

这间录音棚接得住的四类制作

每张卡片配上需求和让它成立的导演方法。

双主播播客，不进棚

需求: 一档每周更新的节目，要的是你来我往，不是轮流独白。

导演方法: 两个反差声音，Natural 模式，反应句加 [overlapping]，真正好笑的地方加 [laughs]。

拿回什么: 一集听感像正经制作出来的对谈节目，直接可以上架。

制作备注: 互动台词写松一点——插话标签会替你完成剧本通常只能硬演的化学反应。

全角色阵容的有声书章节

需求: 旁白加上个性分明的角色声音，一章一章推进。

导演方法: Robust 模式的旁白保连贯；角色台词用 Creative，每场戏一个情绪标签。

拿回什么: 一章不进录音棚也能抓住耳朵的多声部有声书。

制作备注: 按 5000 字符预算逐章生成，每次复用同一套声音阵容。

三十秒广告配音，五条备选

需求: 广告文案需要开场的能量感、一拍迟疑，和一个自信的收尾。

导演方法: 一个有魅力的声音，Creative 模式，[excited] 开场，报价前加 [pause]。

拿回什么: 广播级节奏的成品演绎，几分钟内就能 A/B 多个版本。

制作备注: 数字和符号写成汉字——"立减两成"比"-20%"读得干净。

给数字人准备的配音轨

需求: 一条口播视频，得先有它的画外音。

导演方法: 一个平稳的声音，Natural 模式，标签从简——对口型最吃干净均匀的输出。

拿回什么: 一条对话引擎品质的配音轨，直接拖进本站的 AI 数字人工具。

制作备注: 保持干净：情绪标签和音效堆太多，会和下游的口型同步打架。

表现型 TTS 会在哪儿跟你较劲

让初次执导的人意外的五种行为——以及各自的调整方法。

Creative mode sometimes improvises beyond the script.

导演调整: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.

A tag gets read literally or silently skipped.

导演调整: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).

Long projects hit the 5,000-character ceiling.

导演调整: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.

Numbers, symbols, and abbreviations read unpredictably.

导演调整: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.

Smaller languages carry stronger accents on some voices.

导演调整: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.

Creative 模式偶尔会演到剧本之外。

导演调整: 这是表现力的官方代价。重要台词逐条试听，Creative 留给角色高光时刻，作品的主干交给 Natural。

某个标签被照字面念出来，或被默默跳过。

导演调整: 按顺序查三处：模式（Robust 会压制标签——往上换）、位置（方括号要紧贴目标词前）、密度（每段一到两个；标签叠多了会互相打架）。

长项目撞上 5000 字符上限。

导演调整: 把剧本分章，每次渲染保持声音分配和模式完全一致，最后在剪辑里合并——阵容没变过，一致性就在。

数字、符号和缩写的读法不可预测。

导演调整: 全部写成你想要的读法："百分之二十"而不是"20%"，年份想逐字念就写"二〇二六"。剧本就是发音合同。

小语种在部分声音上口音偏重。

导演调整: 定稿前用目标语言试听候选声音——声音的性格能跨语言，口音质量却因声音而异，75 种语言都如此。

导演手册

提炼自 ElevenLabs 官方最佳实践，再用真实制作经验校验。

标点就是节奏

逗号换气，句号收住，省略号拖长，破折号急停。引擎把标点当节拍读——先重写节奏，再考虑加标签。

标签指挥它后面的词

方括号要紧贴它管辖的词，放在正确的那一行里。行首的 [whispers] 会让整行变成耳语；埋在句中，就只有后半句被压低。

同一句台词，导一遍

平的

"欢迎回到节目。今天我们有一些关于这个项目的非常激动人心的消息。"

导过的

"[excited] 欢迎回到节目！[pause] 今天……我们终于可以聊这个项目了。"

同样的内容，两种表演。导过的版本开场就押定一种情绪，用一个标签加一个省略号买到一拍悬念，剩下的戏交给标点收尾。

这间录音棚、真录音棚，还是朗读应用？

把文字变成声音的三条路。

本页这间录音棚

有剧本、要表演的音频——对话、有指导的旁白、角色配音——以写稿的速度产出，75 种语言任选。

真实录音棚

需要某位特定真人的演绎、要签字确认的法务口播，或合同绑定真人的品牌声音。

朗读类应用

把现成文字听完——文章、PDF、屏幕内容。那是收听工具，不是生产工具。

这间文字转语音录音棚怎么用

写本、选角、导戏——录音棚就在本页顶部。

按行写剧本

一行一个说话人，总共 5000 字符以内。把你脑子里已经听到的情绪拍点先标出来。

选角并试听

从 113 个声音里按行分配——用你真正的开场白试听，别用示例文本。

导戏、生成、补录

放进音频标签、选好稳定性模式、生成。哪句不满意就调那句的标签重来，不用整场重新生成。

文字转语音：导演们的问题

表演、选角与一致性——答案来自官方文档和真实制作。

三个抓手，按顺序来：把稳定性模式从 Robust 换出来（Natural 和 Creative 才响应指导）、在需要情绪的那句前加一个音频标签——[excited]、[sighs]、[whispers]——再用标点重写节奏：省略号拖长，破折号急停。念得平几乎从来不是声音的问题，是剧本没人导。一个方括号加一次换挡，通常就能换一种演绎。

Natural 是干活默认档：贴近原声、响应标签、没什么意外。台词必须"演"的时候升 Creative——剧情、角色、喜剧节奏——并接受它偶尔即兴；每条都试听。Robust 留给刻意平直的长旁白，一致性压倒表现力、标签可以被无视的那种。要导戏用 Creative 或 Natural；要硬撑用 Robust。

能——这是对话引擎的设计功能，不是技巧。在接进来的那行行首写 [interrupting] 或 [overlapping]，引擎会用自然的时机撞接两个轮次；[cuts in] 切得更硬。ElevenLabs 自己的对话文档展示的正是这种自发轮替。被打断的那行要写过截断点，留出"被盖住的话"。

大体上是：标签描述的是表演而不是词汇，所以 [whispers] 在中文里照样耳语，75 种支持语言都一样。实操注意：情绪细腻度在训练数据多的语言里最足，口音质量因声音而异——投产前用目标语言试听你的阵容。自动检测能按行处理混合语言的剧本。

跑一遍三查：先查模式（Robust 刻意压制指令标签——换 Natural 或 Creative），再查位置（方括号只管它正后方的词，而且要在同一行里），最后查密度（标签叠太多会互相打架；每段留一到两个）。还不行就换个同义标签——[thrilled] 有时能落地 [excited] 滑过去的情绪。

把输入固定住，输出自然跟上：每一章都用同一个声音、同一个稳定性模式、同一套标签风格。剧本按 5000 字符上限分章、顺序生成、剪辑里合并——听众听到的是同一位旁白，因为关于这位旁白的一切从没变过。Robust 模式还能为长篇中性朗读再加一层均匀度。

方向相反。朗读应用把现成的文字变成给你自己听的音频——文章、PDF、屏幕——用一个平稳的工具音。这个工具把剧本变成给观众听的制作级音频：选角、情绪指导、多人对话、逐句补录。如果音频是产品而不只是图方便，你要的是表演引擎。

按行写，一行一个说话人，每行绑定自己的声音——对话自己就立起来了。同一个角色全程用同一个声音，隔行交替形成交谈，反应句以 [overlapping] 这类轮替标签开头，5000 字符的预算在全阵容之间分配。生成前自己出声读一遍；你卡住的地方，模型也会卡。

能，而且两条路可以叠加。身份标签把声音推进角色——[pirate voice]、[childlike tone]、[robotic tone]、[deep voice]——而 113 个声音的音色库本身就带着真正不同的音区和地域色彩可选。先选最接近的天然声音，再用一个身份标签轻推；在不合适的声音上只靠标签变身，听起来是戏服，不是角色。

这里生成，隔壁开演：写好稿、选一个平稳的声音、用 Natural 模式少加标签渲染、下载——然后打开本站的 AI 数字人工具，把文件和一张人像一起挂上。这条链就是本站的生产流水线：文字稿 → 配音 → 开口说话的主持人，全程不用录一个字。数字人音轨保持干净；口型同步最认干净均匀的演绎。

因为"2026""Dr.""20%"各自都有好几种合法读法，引擎只能挑一种。把意图拼出来就拿回控制权："二〇二六"或"两千零二十六"、"医生"、"百分之二十"。缩写同理——想逐字母念就写"N. A. S. A."；直接写"NASA"就可能被当成单词读。生产级剧本把文本当发音合同，引擎会照办。

两代引擎各管一摊，本页选了会演戏的那个。社区共识是老的 v2 系列在平直的长篇旁白上更稳，而 v3——现已全面开放——在一切讲究表现力的地方更强：音频标签、情绪幅度和真正的多人对话都是 v3 的能力。一间围绕"有导演的多声部制作"搭起来的录音棚自然跑 v3，而它的 Robust 模式又覆盖了 v2 擅长的大部分平稳旁白领地。

声音只是第一步

给它配一张脸、剪进画面，或围绕它把整场戏搭出来。

AI 数字人生成器

AI 视频生成器

AI 视频编辑器

你的剧本早就知道自己想要的声音

选好声音、放进标签、挑对模式——这间文字转语音录音棚就会用 75 种语言中的任意一种把它演回来给你听。多人对话就绪，工具在本页顶部。

文字转语音 — 会演戏的 AI 配音，不只是朗读

文字转语音 — 会演戏的 AI 配音，不只是朗读

朗读工具念稿子，表演引擎出作品

文字朗读类应用

声音表演引擎——本页

音频标签：写给声音的舞台指令

情绪切换

节奏与停顿

对话轮替与插话

身份与角色

本页最重要的一个设置

Creative（创意）

Natural（自然）

Robust（稳健）

给多个声音写剧本

从 113 个声音里选角，不用一个个试

这间录音棚接得住的四类制作

双主播播客，不进棚

全角色阵容的有声书章节

三十秒广告配音，五条备选

给数字人准备的配音轨

表现型 TTS 会在哪儿跟你较劲

导演手册

标点就是节奏

标签指挥它后面的词

同一句台词，导一遍

这间录音棚、真录音棚，还是朗读应用？

本页这间录音棚

真实录音棚

朗读类应用

这间文字转语音录音棚怎么用

按行写剧本

选角并试听

导戏、生成、补录

文字转语音：导演们的问题

为什么我的配音听起来很平——怎么让它有感情？

Creative、Natural、Robust——稳定性模式选哪个？

两个声音能像真实对话那样互相插话吗？

音频标签在每种语言里都有效吗？

为什么声音无视了我的音频标签？

怎么让一位旁白在长内容里保持一致？

这和朗读类应用有什么区别？

多人剧本该怎么写？

它能演口音和角色音吗？

怎么用它给 AI 数字人配音？

为什么数字和缩写读得不对？

ElevenLabs v2 和 v3——这个工具为什么跑 v3？

声音只是第一步

你的剧本早就知道自己想要的声音

文字转语音 — 会演戏的 AI 配音，不只是朗读

朗读工具念稿子，表演引擎出作品

文字朗读类应用

声音表演引擎——本页

音频标签：写给声音的舞台指令

情绪切换

节奏与停顿

对话轮替与插话

身份与角色

本页最重要的一个设置

Creative（创意）

Natural（自然）

Robust（稳健）

给多个声音写剧本

从 113 个声音里选角，不用一个个试

这间录音棚接得住的四类制作

双主播播客，不进棚

全角色阵容的有声书章节

三十秒广告配音，五条备选

给数字人准备的配音轨

表现型 TTS 会在哪儿跟你较劲

导演手册

标点就是节奏

标签指挥它后面的词

同一句台词，导一遍

这间录音棚、真录音棚，还是朗读应用？

本页这间录音棚

真实录音棚

朗读类应用

这间文字转语音录音棚怎么用

按行写剧本

选角并试听