Model

提示词

翻译提示词

0 / 2500

参考图片

上传图片

JPG/JPEG/PNG（最大 10MB）

参考图片定义角色、背景和其他元素。尺寸需要 ≥300px，宽高比 2:5–5:2。

参考视频

点击上传或拖放文件

MP4、MOV（最大 50MB）

生成视频中的角色动作将跟随参考视频。

角色朝向

输出质量

Before

After

Kling 动作控制 — 动作照搬，角色换成你的

Kling 动作控制把"动作迁移"变成了一件实用的事：喂给它一段有人在动的视频、一张该由谁来动的图片，再加一句场景描述——它就还给你"你的角色在做一模一样的动作"，表情和运镜全都带上。本页同时提供 Kling 两代模型，参考视频最长 30 秒，输出 720p 或 1080p。下面讲清楚：三种输入各管什么、哪些动作迁移得最干净，以及那条决定大多数结果的取景规则——依据是快手官方指南和实测结果。

全身动作同步

精准手部控制

最长 30 秒视频

720p & 1080p 输出

参考图 + 视频

快速生成

三种输入，三种分工

快手官方文档把分工划得很清楚。搞懂哪个输入控制什么，就是这个工具的大半门道。

动作参考 — 视频

提供骨架：每一个动作、它的节奏、物理表现，默认连运镜和朝向也一并接管。

MP4 或 MOV，50MB 以内，3-30 秒，一个完整可见的表演者——取景干净比制作精良更重要。

角色参考 — 图片

提供表演者：脸、身材、穿搭——决定是谁在动。

JPG 或 PNG，大于 300px、10MB 以内，宽高比在 2:5 到 5:2 之间——动作要用到的每一条肢体都得在画面里。

文字提示词 — 场景

提供世界：背景、光线、氛围、风格。它管不了动作——动作早被视频包办了。

只描述氛围，别描述动作："霓虹舞台，薄雾，硬朗轮廓光"有效；"跳快一点"毫无作用。

Kling 2.6 还是 Kling 3.0——选哪一代？

两代都在本页。官方说法：3.0 在 2.6 基础上强化了面部表现和表演幅度。

Kling 3.0 动作控制

快手把它定位成迈向影视级的一步：跨场景的面部一致性更强，表演捕捉精度更高。本页的默认选择。

特写、靠表情撑住的表演，以及一切"脸是重点"的镜头。

Kling 2.6 动作控制

让动作迁移真正变可靠的那一代——测试者反复报告它能输出根根分明的手指和真实的重心转移，而这两点正是 AI 动作的历史老大难。

大批量社媒产出和舞蹈内容——出片速度比极致面部保真更重要的场合。

实战法则：靠身体的内容 2.6 就够用；靠脸的内容值得上 3.0。

哪些动作迁移得干净——哪些要慢慢试

综合官方指引和反复出现的实测结果。

迁移效果好

Choreographed dance — the signature use, frame-accurate to the reference
Martial arts and sports moves with full-body visibility
Hand gestures and finger detail — distinct fingers since 2.6
Facial expressions riding on the performance, stronger again in 3.0
Weight and momentum: stomps, jumps, and landings read physically
编排好的舞蹈——招牌用途，逐帧贴合参考，翻跳神器
全身可见的武术和运动动作
手势和手指细节——从 2.6 起手指就根根分明
随表演而动的面部表情，3.0 上再次加强
重量与惯性：跺脚、起跳、落地都有真实的物理感

谨慎尝试

Extremely fast or chaotic movement — official guidance warns output may shorten
References where limbs are blocked or leave the frame
Heavily stylized characters far from human proportions
Multi-person references — isolate one performer first
Long takes near the 30-second cap with complex action throughout
极快或混乱的动作——官方提示输出可能被缩短
肢体被遮挡或出画的参考视频
比例严重偏离人类的高度风格化角色
多人出镜的参考——先把单个表演者裁出来
贴着 30 秒上限、全程复杂动作的长镜头

决定结果的取景规则

其中一条被 Kling 官方指南称为"整个界面里最重要的设置"。

Match the framing: full body to full body.

If the motion video shows a full-body shot, the character image must be full-body too — half-body against full-body is the most common cause of broken outputs, per the official guide.

Choose who sets the orientation.

Matches Video, the default, lets the reference drive movement, expression, camera, and facing — and supports 3–30 second references. Matches Image keeps your character's original facing and works on 3–10 second references.

Output length follows the reference — usually.

The render matches your motion video's duration, but highly complex or fast action can come back shorter. Plan the edit around the move, not the clock.

取景要对齐：全身配全身。

动作视频是全身景，角色图片就必须也是全身——官方指南指出，半身图配全身视频是输出翻车最常见的原因。

选好由谁决定朝向。

默认的"跟随视频"让参考视频接管动作、表情、运镜和朝向，支持 3-30 秒参考；"跟随图片"保留角色原本的朝向，适用 3-10 秒参考。

输出时长跟随参考——通常如此。

渲染时长会对齐动作视频，但特别复杂或特别快的动作可能返回更短的结果。按动作规划剪辑，别按时钟规划。

动作迁移最拿手的四类活

每张卡片配齐需求、输入、收获和要留神的地方。

让任何角色翻跳同款舞

需求: 一段全网爆火的舞蹈，应该由你的角色来跳，而不是原视频里的人。

输入: 舞蹈片段 + 一张全身角色图，取景对齐。

拿回什么: 你的角色卡着节拍复刻整套动作，运镜也一并带上——照片跳舞的高配版。

为什么靠谱: 编舞是官方文档点名的招牌场景——节奏和物理感原样保留。

要留神: 有地板动作和大量遮挡的舞段；选一条四肢全程可见的版本。

让人停下滑动的动态海报

需求: 一张会呼吸的主视觉：海报里的角色带着活的动态。

输入: 一段短而克制的动作片段——转身、披风扬起、发丝随风——加上你的海报图。

拿回什么: 可循环播放的动态海报，首映、上新、官宣都能用。

为什么靠谱: 短促而克制的动作是最容易迁移的情况——漂移最小，质感最高。

要留神: 文字多的版面：字在动态中会抖——标题文字后期再合成上去。

影视级表演预演

需求: 开机之前，先把一场戏的走位和表演排出来。

输入: 一段参考表演——你自己用手机拍的就行——加上设计好的角色，选 3.0。

拿回什么: 角色完成整段表演，全程面部一致性在线。

为什么靠谱: 这正是快手为 3.0 点名的场景：影视级表演与高精度捕捉。

要留神: 院线级最终交付——把它当有制作野心的预演用。

真的会动的品牌 IP 形象

需求: 吉祥物要在整个营销战役里跳舞、挥手、做反应。

输入: 一套动作片段库 + IP 形象设定图，一组组复用。

拿回什么: 不租人偶服、不进棚，产出一整个系列的一致 IP 表演。

为什么靠谱: 一套动作库 × 一张角色图 = 可复制的产出——这是能规模化的生产模式。

要留神: 比例非人类的形象——大头娃娃式头身比、缺失肢体——漂移更明显；先用 5 秒小样试。

动作迁移会在哪翻车——以及怎么救

真实使用里反复出现的五种失败模式，每种都给出能用的答案。

Hands grow extra fingers when the image hides them.

解法: If the motion needs hands, the image must show hands — pockets and crossed arms force the model to hallucinate, and that is where six-finger glitches live.

Very fast action comes back blurred or shortened.

解法: Slow the reference at capture, split the move into beats, or transfer the cleanest section of the take.

Occluded or cluttered references confuse the skeleton.

解法: Re-shoot or trim so one performer stays fully visible against a distinct background; a tripod beats handheld.

Characters far from human proportions drift mid-motion.

解法: Keep designs roughly humanoid, run a five-second test before the full take, and favor stylized-but-bipedal characters.

The scene prompt cannot rescue a weak motion video.

解法: Atmosphere is the prompt's only job here. Fix problems at the source — a better reference in means a better performance out.

图片里看不到手，生成的手就会多出手指。

解法: 动作要用到手，图片就必须露出手——插兜和抱臂会逼着模型凭空捏造，"AI 六指"就是这么来的。

特别快的动作回来时发糊或被截短。

解法: 拍参考时放慢动作、把动作拆成小节，或者只迁移整条里最干净的一段。

遮挡多、背景乱的参考会干扰骨架识别。

解法: 重拍或裁剪，让一个表演者全程清晰、与背景分明；三脚架胜过手持。

比例偏离人类太远的角色，动到一半开始漂。

解法: 设计尽量保持类人比例，正式跑之前先用 5 秒测试，优先选风格化但仍是两足直立的形象。

场景提示词救不了一条糟糕的动作视频。

解法: 提示词在这里只负责氛围。问题要在源头解决——进去的参考更好，出来的表演才更好。

在这个工具上，备料就是真正的提示词工程

质量在你打字之前就已经决定了。三张清单覆盖全部要点。

动作视频清单

One performer, fully in frame for the whole take
3–30 seconds, MP4 or MOV, under 50MB
Stable camera — unless you want the camera move transferred too
Action readable at a glance: if you squint and lose it, so will the model
一个表演者，全程完整在画面里
3-30 秒，MP4 或 MOV，50MB 以内
镜头稳定——除非你想把运镜也一起迁移
动作一眼能看懂：你眯起眼都看不清的，模型也看不清

角色图片清单

Framing matched to the video — full-body for full-body
Every limb the motion uses, visible: no pockets, no crossed arms
Sharp, over 300px, aspect ratio between 2:5 and 5:2
Facing roughly aligned with the video's general orientation
取景和视频对齐——全身配全身
动作会用到的肢体全部露出：不插兜、不抱臂
清晰、大于 300px，宽高比在 2:5 到 5:2 之间
朝向和视频的大方向基本一致

场景提示词清单

Atmosphere only: place, light, weather, style
Name the look the way a gaffer would: "warm tungsten practicals, light haze"
No action words — the video owns the choreography
Keep wording identical when running multiple characters through one motion
只写氛围：地点、光线、天气、风格
像灯光师一样描述："暖色钨丝灯实景光，薄雾"
不写动作词——编舞归视频管
同一套动作跑多个角色时，措辞保持一字不变

动作控制、图生视频，还是上动捕？

让角色动起来的三条路——各自接不同的活。

动作控制 — 本页

动作已经存在于视频里，而且必须精确复刻：舞蹈、表演、编舞、手势。

图生视频

你想让模型从一张静图自己发明合理的动态——松弛的、氛围式的、用提示词描述而非从素材复制。

动作捕捉管线

游戏引擎或视觉特效需要逐帧精确的骨骼数据、配合极端风格化和遮挡——传统动捕在那里依然物有所值。

动作迁移在这里怎么跑

两次上传加一句场景描述——工具就在本页顶部。

上传动作

丢进一段 3-30 秒的 MP4 或 MOV——一个清晰可见的表演者、稳定取景、50MB 以内。

加上表演者

上传角色图，取景与视频对齐、所需肢体全部入画；选好模型代际和朝向模式。

设定场景，开跑

一句氛围描述——地点、光线、情绪——然后用 720p 或 1080p 生成，放大检查手和脸。

Kling 动作控制：实战 FAQ

这些设置类问题直接决定出片质量——答案来自官方文档和实测结果。

默认上 3.0——它是本页默认选项是有原因的：快手把它定位为面部一致性和高精度表演捕捉的升级代。身体主导、要走量的内容——比如舞蹈类信息流——可以降到 2.6，它经过验证的动作保真和更快的出片在那里更值钱。两代的输入完全一样，切换的成本只是重跑一次。

几乎都是因为图片把手藏起来了。动作要用手，而你的角色插着兜或抱着臂，模型就只能凭空造手——"AI 六指"和糊成一团的手部纹理就是这么来的。换一张双手清晰可见的图重跑。手部渲染本身从 2.6 起就是强项；真正的元凶是"看不见的肢体逼出来的幻觉"。

输出时长一般会对齐参考，但 Kling 官方指引说明：特别复杂或节奏特别快的动作可能返回更短的渲染。把它当一个信号：动作跑赢了模型。拍参考时放慢速度、剪出最干净的一段，或把整套动作拆成小节分别迁移、再到剪辑里接回去。

必须——官方指南称这是"整个界面里最重要的设置"。全身视频就要配全身图；半身配半身。不匹配会逼着模型去发明缺失的那部分身体，而被发明出来的身体正是输出翻车的地方。动手之前，先把两边的取景摆在一起检查。

都能。在默认的"跟随视频"模式下，角色会跟着参考的动作和表情走，运镜和朝向也包含在内。面部保真还是 3.0 这一代的头号升级——快手官方提到跨场景的面部一致性更强——所以表情主导的镜头请用 3.0，并保证两个输入里的脸都没有遮挡。

一个表演者、全程完整可见——这一条比其他所有因素加起来都更能预测结果。然后是：3-30 秒、MP4 或 MOV、50MB 以内、镜头稳定（除非你想连运镜一起复制）、动作一眼可读、背景干净。制作成本无关紧要——三脚架上拍的干净手机片段，经常胜过有遮挡的精良素材。

差在由谁决定朝向。默认的"跟随视频"把一切交给参考——动作、表情、运镜、面朝方向——接受 3-30 秒的片段。"跟随图片"在迁移动作的同时保留角色在静图里原本的朝向，适用 3-10 秒参考。忠实复刻用默认；角色自身的姿态和方向才是重点时再切换。

能——文字提示词就是干这个的。分工是：视频管动作，图片定角色，提示词造世界。像写置景备注一样描述氛围——"雨夜天台，霓虹光洒落，薄雾"——表演就会在这个世界里上演。提示词唯一做不到的是改编舞；动作类词语在设计上就会被忽略。

把你的海报图配上一段短而克制的动作片段——缓慢转身、披风扬起、发丝随风——然后迁移。短促克制的动作是最容易的情况，这也是动态海报成为最稳定产出之一的原因。一条制作建议：标题文字别放进生成层，后期再合成——字在动态中会抖。

对越来越多的工作来说，功能上可以；对剩下的部分，诚实地说不行。社媒内容、预演、动态海报和 IP 形象动画已经不再值得租动捕服进棚——一段参考视频当天就能交活。游戏引擎骨骼、逐帧精确的特效数据和极端非人形绑定，仍然属于传统动捕。分界线是：你要的是一段视频表演，还是底层数据？

分段上。官方指引明确把快而复杂的动作列为输出劣化或缩短的情形——所以先从简单段落开始，确认角色稳得住，再逐步加码。三个实用抓手：用慢动作拍参考、把整套动作切成小节分别迁移、把最混乱的瞬间安排在片段中间而不是开头。

能——而且这正是值得搭建的生产模式。一条干净的动作参考就是一个模板：把不同的角色图轮流套进去，每个角色都会做出一模一样的表演——营销系列和 IP 动作库要的就是这个。多次运行时场景提示词一字不改以保持视觉统一，每张新图都按同一条取景规则把关。

让这个角色继续干活

生成新素材、改写已有镜头，或者给角色配上声音。

AI 视频生成器

AI 视频编辑器

AI 数字人生成器

动作已经拍好了——换个人来演

上传动作、放进你的角色、描述舞台。Kling 动作控制把整段表演重新选角后还给你，最高 1080p——舞蹈、手势、表情，一样不少。

Kling 动作控制 — 动作照搬，角色换成你的

Kling 动作控制 — 动作照搬，角色换成你的

三种输入，三种分工

动作参考 — 视频

角色参考 — 图片

文字提示词 — 场景

Kling 2.6 还是 Kling 3.0——选哪一代？

Kling 3.0 动作控制

Kling 2.6 动作控制

哪些动作迁移得干净——哪些要慢慢试

迁移效果好

谨慎尝试

决定结果的取景规则

动作迁移最拿手的四类活

让任何角色翻跳同款舞

让人停下滑动的动态海报

影视级表演预演

真的会动的品牌 IP 形象

动作迁移会在哪翻车——以及怎么救

在这个工具上，备料就是真正的提示词工程

动作视频清单

角色图片清单

场景提示词清单

动作控制、图生视频，还是上动捕？

动作控制 — 本页

图生视频

动作捕捉管线

动作迁移在这里怎么跑

上传动作

加上表演者

设定场景，开跑

Kling 动作控制：实战 FAQ

Kling 2.6 和 3.0 的动作控制，该用哪个？

为什么我的角色手部总出问题？

为什么生成的视频比我的参考短？

图片必须和视频的取景一致吗？

它能复制面部表情吗，还是只能复制身体动作？

什么样的动作参考视频是好参考？

"跟随视频"和"跟随图片"到底差在哪？

迁移的时候能换背景和光线吗？

怎么用一张静图做出动态海报？

这能替代动作捕捉吗？

动作太快或太复杂怎么办？

一段动作视频能给多个角色复用吗？

让这个角色继续干活

动作已经拍好了——换个人来演

Kling 动作控制 — 动作照搬，角色换成你的

三种输入，三种分工

动作参考 — 视频

角色参考 — 图片

文字提示词 — 场景

Kling 2.6 还是 Kling 3.0——选哪一代？

Kling 3.0 动作控制

Kling 2.6 动作控制

哪些动作迁移得干净——哪些要慢慢试

迁移效果好

谨慎尝试

决定结果的取景规则

动作迁移最拿手的四类活

让任何角色翻跳同款舞

让人停下滑动的动态海报

影视级表演预演

真的会动的品牌 IP 形象

动作迁移会在哪翻车——以及怎么救

在这个工具上，备料就是真正的提示词工程

动作视频清单

角色图片清单

场景提示词清单

动作控制、图生视频，还是上动捕？

动作控制 — 本页

图生视频

动作捕捉管线

动作迁移在这里怎么跑

上传动作

加上表演者

设定场景，开跑

Kling 动作控制：实战 FAQ

Kling 2.6 和 3.0 的动作控制，该用哪个？

为什么我的角色手部总出问题？

为什么生成的视频比我的参考短？

图片必须和视频的取景一致吗？