模型

头像图片

上传图片

JPEG、PNG、WebP（最大 10MB）

输入音频

点击上传或拖放文件

MP3、WAV、AAC、M4A、OGG（最大 100MB，最长 5 分钟）

音频时长需不超过 5 分钟。

提示词

翻译提示词

0 / 5000

分辨率

AI 数字人生成器 — 让照片开口说话

这是一个做"会说话的视频"的 AI 数字人生成器——不是做静态头像的：上传一张人像，挂上最长 5 分钟的音频，Kling 当前一代的 Avatar 模型就会驱动这张脸把内容讲出来，口型同步，输出 720p 或 1080p。说话没问题；从 Avatar 2.0 起，唱歌也行。下面是发布通稿不会写的实操层：决定对口型质量的照片规则、防止口型漂移的音频习惯，以及生成式主持人到哪一步就不再是对的工具。

音频驱动动画

最长 5 分钟音频

720p & 1080p 输出

种子可复现

快速生成

商用授权

照片比其他一切都更能决定结果

评测结论高度收敛于同样几条规则。人像选对了，剩下的大半会自己顺。

Face forward, or close to it.

Front-facing and slightly angled portraits consistently produce the most stable lip sync; strong profiles force the model to invent the hidden half of the mouth.

Let the face own the frame — around forty percent or more.

Field guidance for the Pro tier puts the face at no less than roughly forty percent of the image. Tight headshots animate better than full-room scenes.

Nothing across the face.

Hands, microphones, hair, and hard shadows over the mouth are the classic sync killers — the model animates what it can see.

Start neutral, mouth closed.

A neutral, closed-mouth expression gives the animation a clean baseline; a mid-laugh source photo bakes that grimace into every frame.

正脸，或接近正脸。

正面和微侧的人像稳定产出最好的口型同步；大侧脸会逼着模型去发明被挡住的半张嘴。

让脸占住画面——四成以上。

Pro 档的实操指引把脸的占比下限放在画面的约四成。紧凑的头像照比带整个房间的全景照动得更好。

脸上不能有遮挡。

手、麦克风、头发和压在嘴上的硬阴影是经典的口型杀手——模型只能驱动它看得见的部分。

从中性表情、闭着嘴开始。

中性闭嘴的表情给动画一个干净的基线；一张大笑中的源照片会把那个表情烤进每一帧。

音频决定对口型的上限

嘴跟着声音波形走。干净的声音进，可信的讲话出。

One voice, recorded dry.

A single speaker with minimal background noise is the strongest predictor of accurate sync; music beds and room echo read as mouth movement.

Five formats, one ceiling.

MP3, WAV, AAC, M4A, or OGG, up to 100MB and five minutes per render — enough for a full Shorts script, a product pitch, or a lesson segment.

Natural pace beats rushed delivery.

Moderate speech speed gives the model time to articulate each phoneme; machine-gun delivery blurs consonants on screen exactly as it does in life.

Trim the dead air.

Long silent stretches still render — and bill time to an idle face. Cut lead-in and tail silence before uploading.

单一人声，干声录制。

单个说话人加上极少的背景噪声，是口型准确度最强的预测指标；背景音乐和房间回声都会被当成嘴部动作来读。

五种格式，一个上限。

MP3、WAV、AAC、M4A 或 OGG，单次最大 100MB、最长 5 分钟——足够装下一整条短视频脚本、一段产品推介或一节课的片段。

自然语速胜过赶进度。

适中的语速给模型时间把每个音素演清楚；机关枪式的输出会让辅音在画面上糊掉——和现实里一模一样。

剪掉空白。

长段的静默照样会被渲染——也照样在给一张发呆的脸计时。上传前把开头和结尾的留白剪掉。

Standard 还是 Pro——同一个数字人，两种成片质感

两档背后是同一套引擎；你选的分辨率就是你选的档位。

Standard — 720p

走量档：出片更快，分辨率对齐信息流——反正平台压缩也会吃掉细节。

草稿、日更的短视频、同一脚本的 A/B 版本。

Pro — 1080p

交付档：全高清渲染，扛得住特写、演示场合和落地页内嵌播放。

面向客户的项目、课程内容，以及一切在电脑而非手机上观看的视频。

实用模式：在 Standard 上迭代，定稿后用 Pro 重渲——输入完全不变，只改一个设置。

关于 AI 数字人，大家还在弄错的三件事

能力跑得比常识快。这是有出处的当前状态。

"It can only handle speech." Outdated.

Kling's official Avatar guide now lists speech and singing audio side by side — the 2.0 generation made vocal performance a supported input, and reviewers confirm synced singing and rap in practice. Fast, dense rap verses remain the stress case worth reviewing.

"Lip sync only really works in English." No.

The mouth follows sound, not vocabulary — multilingual scripts sync because phonemes drive the animation. One portrait can front a campaign in any language you can record or synthesize.

"Good for a clip, useless for content." Not anymore.

Five-minute coverage per render — an official headline of the current generation — moves this from novelty to production: full Shorts scripts, lesson segments, and product walkthroughs in one pass.

"它只能处理说话。"过时了。

Kling 官方 Avatar 指南现在把说话和唱歌音频并列支持——2.0 这一代把演唱变成了正式输入，评测者也确认实际可以同步唱歌和说唱。快而密的说唱段落仍是值得逐帧检查的压力场景。

"对口型只在英语里好使。"不对。

嘴跟的是声音，不是词汇表——多语言脚本能同步，是因为驱动动画的是音素。一张人像可以用任何你能录制或合成的语言去面向任何市场，中文口播自然也在内。

"做个片段图一乐，做内容没法用。"已经不是了。

单次渲染覆盖 5 分钟——当前一代的官方头条能力——把这件事从猎奇变成了生产力：整条短视频脚本、一节课的片段、一支产品讲解，一次跑完。

创作者实际在用它交付什么

四个配方，每个都附上收益和要盯住的点。

不露脸的短视频账号

目标: 不拍自己也能日更竖屏内容——来这页的人一半都在问这个。

配方: 一张立得住的人像 + 每天一条录制或合成的脚本；用 Standard 渲 720p，到剪辑里裁竖屏。

收益: 一位从不鸽更新的固定口播主持人，撑起整张排期表。

要盯住: 平台的原创性规则——脚本和声音要是你自己的，平台要求披露合成主持人时照做。

一位代言人，讲遍所有市场

目标: 同一位代言人的形象，在不同地区讲本地化的脚本——出海内容的标配玩法。

配方: 人像固定不动；按市场换上翻译后的配音轨——每种语言的口型它自己会对上。

收益: 本地化的成本从"每个国家重拍一次"降到"录一条配音"。

要盯住: 习语和语速因语言而异——每个版本发出去之前找母语者过一遍。

一位永远不累的课程讲师

目标: 横跨几十节课片段的、有辨识度的教学形象——知识付费内容的刚需。

配方: 一张讲师人像 + 按 5 分钟分段的课程音频；锁定 seed，每次复用完全相同的图。

收益: 整套课程体系的视觉连贯性，以写稿的速度完成录制。

要盯住: 5 分钟是单次渲染上限——课程按段落组织，最后剪到一起。

一个会唱歌的虚拟形象

目标: 虚拟歌手、乐队成员人设，或一个在屏幕上开口的翻唱企划。

配方: 一张风格化但保持人类比例的角色像 + 人声音轨——演唱是当前一代的正式支持输入。

收益: 一个零出镜时间、品牌可复制的表演身份。

要盯住: 特别快的转音和密集的说唱流——先预览整首歌最密的段落，再渲染全曲。

它会在哪翻车——以及真正有用的办法

真实使用里反复出现的五种失败模式，每种都给出能用的答案。

Two faces in the frame, and the model picks — or blends.

答案: Crop to a single subject before uploading. Group scenes are out of scope by design; one render, one speaker.

Strong profile shots produce mushy or lopsided mouths.

答案: Re-shoot or re-pick: front-facing to slightly angled is the documented sweet spot. If only a profile exists, expect to iterate.

Noisy audio shows up as jittery, over-busy lips.

答案: Denoise before upload, not after disappointment — a dry voice memo outperforms a polished track with a music bed underneath.

Far-from-human faces animate unpredictably.

答案: Human-proportioned characters — including stylized and anime-adjacent ones — hold up; abstract mascots and animals drift. Run a five-second test before committing a full script.

Scripts longer than five minutes hit the ceiling.

答案: Split the script into chapters, render each with the same portrait and a locked seed, and cut them together — continuity holds because the inputs never changed.

画面里有两张脸，模型会随机选一张——或者把两张糅在一起。

答案: 上传前裁剪到单人。多人场景在设计上就不支持；一次渲染，一位说话人。

大侧脸照产出含糊或歪斜的嘴型。

答案: 重拍或换图：正面到微侧是文档明确的最佳区间。手头只有侧脸照的话，做好多迭代几轮的准备。

嘈杂的音频表现为嘴唇乱颤、动作过多。

答案: 上传前降噪，别等失望之后——一条干声的语音备忘录，胜过一条垫着背景音乐的精制音轨。

离人类长相太远的脸，动画表现难以预测。

答案: 人类比例的角色——包括风格化和动漫系的——都立得住；抽象吉祥物和动物会漂。跑全脚本之前先用 5 秒测一条。

超过 5 分钟的脚本撞上单次上限。

答案: 把脚本拆成章节，每段用同一张人像和锁定的 seed 渲染，最后剪到一起——输入从未改变，连贯性就稳得住。

生产手册

一张录音清单、一个多数人漏掉的第三控制项，以及配音的捷径。

录音清单

Quiet room, phone mic is fine — dry voice beats produced audio
One speaker, no music bed, no crosstalk
Conversational pace with deliberate pauses at sentence breaks
Export to MP3 or WAV and trim silence from both ends
安静的房间，手机麦克风就够——干声胜过精制混音
单一说话人，不垫音乐，没有串音
聊天式的语速，句与句之间留出有意的停顿
导出 MP3 或 WAV，掐掉首尾的静默

第三个旋钮：表演提示词

在照片和音频之外，还有一条简短的文字提示词可以引导表演——表情、能量、态度。把它当成导演递给演员的小纸条，而不是场景描述。

"温暖自信的微笑，轻微的头部动作，新闻主播的台风"

还没有配音？

先写好稿子，用本站的文字转语音工具合成它——选一个声音、生成音轨，然后把文件直接拿回这里当音频输入。从文字稿到开口讲话的主持人，一个字都不用录。

生成式数字人、订阅制数字人平台，还是真上镜？

给一段信息配一张脸的三种方式。

本页这个工具

你有特定的人脸或角色图，也有稿子——今天就要一条口播视频，按渲染量付费。

订阅制数字人平台

你要的是一库现成的标准主持人和模板化工作流，而按月付费的平台符合你团队的运作方式。

一台真的摄像机

信任就是产品本身——创始人致辞、用户证言，一切"看得出是真人"才是重点的场合。

AI 数字人生成器在这里怎么用

两次上传加一个渲染设置——工具就在本页顶部。

定下这张脸

上传 JPG、PNG 或 WebP 人像，最大 10MB——正面、无遮挡、脸占住画面的大部分。

挂上声音

加上最长 5 分钟的干净单人音频，MP3、WAV、AAC、M4A 或 OGG 都行——自己录的，或用本站文字转语音合成的。

选好质感，渲染

信息流内容用 720p，交付项目用 1080p。想要特定气场就加一句表演提示词，然后生成，先检查语速最密的段落。

AI 数字人生成器：生产级 FAQ

这些问题直接决定渲染能不能用——答案来自官方指引和实测结果。

三步，每天可重复：选一张立得住的正面人像（你的照片或原创角色都行），录制或合成一条 5 分钟以内的脚本，用 720p 渲染——然后到剪辑里裁竖屏发布。各集之间保持同一张人像并锁定 seed，账号就有了一位稳定的出镜主持人。实际的收益是节奏：口播稿以写作的速度变成视频，不需要拍摄日。

按播放的屏幕来配。720p 的 Standard 是走量档——信息流的压缩会抹平差距，所以短视频和草稿放那里刚刚好。1080p 的 Pro 在视频登上更大画布时回本：课程平台、落地页、销售演示、特写构图。可靠的节奏是在 Standard 上迭代，定稿后用完全相同的输入在 Pro 上重渲。

能唱。"只支持说话"对早期对口型工具是事实，现在已经过时：Kling 官方 Avatar 指南把说话和唱歌音频并列列出，测试者也确认当前一代可以同步演唱和说唱。剩下的压力场景是特别快、特别密的输出——渲染整首歌之前，先预览最密的那段主歌。

正面或微侧、光线均匀、嘴部无遮挡、中性闭嘴表情——并且脸要占住画面，按实操指引大约四成以上。实践中，一张手机拍的清晰特写头像，每次都赢过氛围感的全景照。模型只能驱动它看得见的东西；把整张脸交给它。

通常是音频的锅，不是照片的。背景音乐、房间回声和第二个人声都会被当成需要表演的内容，于是嘴就去追噪声了。先修音轨：单人干声、降噪、语速适中、掐掉静默。音频干净后仍漂移的话，检查人像的嘴部是否有局部遮挡——头发、麦克风、阴影——然后重渲。

能，守住一条规则：比例保持人类。有清晰眼鼻嘴结构的风格化和动漫系脸都动得不错；抽象吉祥物、动物和极端变形是动画开始漂的地方。跑完整脚本之前，先用一句 5 秒的测试台词——不到一分钟就能为你的具体角色给出答案。

单次渲染 5 分钟、最大 100MB，格式 MP3、WAV、AAC、M4A 或 OGG。这一次就装得下一整条短视频脚本、一段产品推介或一节课——是当前 Avatar 一代的头条能力。更长的脚本就拆章节，每段用同一张人像和锁定的 seed 渲染，最后剪到一起；输入不变，连贯性就在。

预期是一颗表现力丰富的头，不是一位舞台演员：同步的口型、面部表情，以及跟随音频能量的自然头肩动作。一句表演提示词能推一推台风——更平静、更温暖、更有力——但编排好的手势和走动镜头不在设计范围内。要全身动作，那是动作控制工具的地盘。

能——这正是这个工具奖励的生产模式。复用完全相同的人像、锁定 seed、每集只换音频：主持人保持视觉一致，讲的内容随脚本变化。表演提示词的措辞也保持固定。一张人像加一条脚本流水线，就是不露脸账号和课程系列维持统一人设的方法。

先裁剪。整条管线围绕"一次渲染一张脸"设计——放两张脸进去，要么动错人，要么两张脸不安地糅在一起。上传前取景到单人；需要双人对话就分别渲染两位说话人，再到剪辑里按正反打剪出对话。

能，而且不用离开本站：到文字转语音工具里写好稿子、挑一个声音、生成旁白——然后回到这里把那个文件挂为音频输入。链路是：文字稿 → 合成人声 → 开口讲话的主持人，午饭前全部做完。它还能让系列内容更稳：同一个合成声音配同一张人像，一集又一集。

因为生成耗时按输出长度加排队计算，不按播放时长——一条 5 分钟的视频是重量级渲染。预期以分钟计，高峰期偶尔以十分钟计；等待期间页面会持续查询，完成的作品也会出现在"我的创作"里。实用调优：掐掉静默、只渲染真正开口的秒数，先用 Standard 打稿再上 Pro。

把整条流水线搭起来

合成人声、生成空镜素材、迁移一段全身表演。

文字转语音

AI 视频生成器

动作控制

你的主持人只差一张照片

一张人像、一条声音轨、一个渲染设置——稿子就在屏幕上把自己念出来，任何语言都对得上口型，能说也能唱。AI 数字人生成器就在本页顶部。

AI 数字人生成器 — 让照片开口说话

AI 数字人生成器 — 让照片开口说话

照片比其他一切都更能决定结果

音频决定对口型的上限

Standard 还是 Pro——同一个数字人，两种成片质感

Standard — 720p

Pro — 1080p

关于 AI 数字人，大家还在弄错的三件事

创作者实际在用它交付什么

不露脸的短视频账号

一位代言人，讲遍所有市场

一位永远不累的课程讲师

一个会唱歌的虚拟形象

它会在哪翻车——以及真正有用的办法

生产手册

录音清单

第三个旋钮：表演提示词

还没有配音？

生成式数字人、订阅制数字人平台，还是真上镜？

本页这个工具

订阅制数字人平台

一台真的摄像机

AI 数字人生成器在这里怎么用

定下这张脸

挂上声音

选好质感，渲染

AI 数字人生成器：生产级 FAQ

怎么给短视频账号做一个 AI 数字人？

Standard 和 Pro——1080p 值得吗？

数字人能唱歌吗，还是只能说话？

什么样的照片对口型效果最好？

为什么我的数字人口型会对不上？

能用卡通或动漫角色当数字人吗？

音频最长能放多长？

它会做手势和身体动作吗，还是只动嘴？

同一个数字人能在一个系列里讲不同内容吗？

照片里有两个人怎么办？

我还没有配音——能先生成一条吗？

为什么渲染时间比音频本身还长？

把整条流水线搭起来

你的主持人只差一张照片

AI 数字人生成器 — 让照片开口说话

照片比其他一切都更能决定结果

音频决定对口型的上限

Standard 还是 Pro——同一个数字人，两种成片质感

Standard — 720p

Pro — 1080p

关于 AI 数字人，大家还在弄错的三件事

创作者实际在用它交付什么

不露脸的短视频账号

一位代言人，讲遍所有市场

一位永远不累的课程讲师

一个会唱歌的虚拟形象

它会在哪翻车——以及真正有用的办法

生产手册

录音清单

第三个旋钮：表演提示词

还没有配音？

生成式数字人、订阅制数字人平台，还是真上镜？

本页这个工具

订阅制数字人平台

一台真的摄像机

AI 数字人生成器在这里怎么用

定下这张脸

挂上声音

选好质感，渲染

AI 数字人生成器：生产级 FAQ

怎么给短视频账号做一个 AI 数字人？

Standard 和 Pro——1080p 值得吗？

数字人能唱歌吗，还是只能说话？

什么样的照片对口型效果最好？

为什么我的数字人口型会对不上？

能用卡通或动漫角色当数字人吗？

音频最长能放多长？

它会做手势和身体动作吗，还是只动嘴？

同一个数字人能在一个系列里讲不同内容吗？

照片里有两个人怎么办？

我还没有配音——能先生成一条吗？

为什么渲染时间比音频本身还长？

把整条流水线搭起来

你的主持人只差一张照片