0 / 2500
参考图片定义角色、背景和其他元素。尺寸需要 ≥300px,宽高比 2:5–5:2。
Kling 动作控制 — 动作照搬,角色换成你的
Kling 动作控制把"动作迁移"变成了一件实用的事:喂给它一段有人在动的视频、一张该由谁来动的图片,再加一句场景描述——它就还给你"你的角色在做一模一样的动作",表情和运镜全都带上。本页同时提供 Kling 两代模型,参考视频最长 30 秒,输出 720p 或 1080p。下面讲清楚:三种输入各管什么、哪些动作迁移得最干净,以及那条决定大多数结果的取景规则——依据是快手官方指南和实测结果。
三种输入,三种分工
快手官方文档把分工划得很清楚。搞懂哪个输入控制什么,就是这个工具的大半门道。
动作参考 — 视频
提供骨架:每一个动作、它的节奏、物理表现,默认连运镜和朝向也一并接管。
MP4 或 MOV,50MB 以内,3-30 秒,一个完整可见的表演者——取景干净比制作精良更重要。
角色参考 — 图片
提供表演者:脸、身材、穿搭——决定是谁在动。
JPG 或 PNG,大于 300px、10MB 以内,宽高比在 2:5 到 5:2 之间——动作要用到的每一条肢体都得在画面里。
文字提示词 — 场景
提供世界:背景、光线、氛围、风格。它管不了动作——动作早被视频包办了。
只描述氛围,别描述动作:"霓虹舞台,薄雾,硬朗轮廓光"有效;"跳快一点"毫无作用。
Kling 2.6 还是 Kling 3.0——选哪一代?
两代都在本页。官方说法:3.0 在 2.6 基础上强化了面部表现和表演幅度。
Kling 3.0 动作控制
快手把它定位成迈向影视级的一步:跨场景的面部一致性更强,表演捕捉精度更高。本页的默认选择。
特写、靠表情撑住的表演,以及一切"脸是重点"的镜头。
Kling 2.6 动作控制
让动作迁移真正变可靠的那一代——测试者反复报告它能输出根根分明的手指和真实的重心转移,而这两点正是 AI 动作的历史老大难。
大批量社媒产出和舞蹈内容——出片速度比极致面部保真更重要的场合。
实战法则:靠身体的内容 2.6 就够用;靠脸的内容值得上 3.0。
哪些动作迁移得干净——哪些要慢慢试
综合官方指引和反复出现的实测结果。
迁移效果好
- Choreographed dance — the signature use, frame-accurate to the reference
- Martial arts and sports moves with full-body visibility
- Hand gestures and finger detail — distinct fingers since 2.6
- Facial expressions riding on the performance, stronger again in 3.0
- Weight and momentum: stomps, jumps, and landings read physically
- 编排好的舞蹈——招牌用途,逐帧贴合参考,翻跳神器
- 全身可见的武术和运动动作
- 手势和手指细节——从 2.6 起手指就根根分明
- 随表演而动的面部表情,3.0 上再次加强
- 重量与惯性:跺脚、起跳、落地都有真实的物理感
谨慎尝试
- Extremely fast or chaotic movement — official guidance warns output may shorten
- References where limbs are blocked or leave the frame
- Heavily stylized characters far from human proportions
- Multi-person references — isolate one performer first
- Long takes near the 30-second cap with complex action throughout
- 极快或混乱的动作——官方提示输出可能被缩短
- 肢体被遮挡或出画的参考视频
- 比例严重偏离人类的高度风格化角色
- 多人出镜的参考——先把单个表演者裁出来
- 贴着 30 秒上限、全程复杂动作的长镜头
决定结果的取景规则
其中一条被 Kling 官方指南称为"整个界面里最重要的设置"。
Match the framing: full body to full body.
If the motion video shows a full-body shot, the character image must be full-body too — half-body against full-body is the most common cause of broken outputs, per the official guide.
Choose who sets the orientation.
Matches Video, the default, lets the reference drive movement, expression, camera, and facing — and supports 3–30 second references. Matches Image keeps your character's original facing and works on 3–10 second references.
Output length follows the reference — usually.
The render matches your motion video's duration, but highly complex or fast action can come back shorter. Plan the edit around the move, not the clock.
取景要对齐:全身配全身。
动作视频是全身景,角色图片就必须也是全身——官方指南指出,半身图配全身视频是输出翻车最常见的原因。
选好由谁决定朝向。
默认的"跟随视频"让参考视频接管动作、表情、运镜和朝向,支持 3-30 秒参考;"跟随图片"保留角色原本的朝向,适用 3-10 秒参考。
输出时长跟随参考——通常如此。
渲染时长会对齐动作视频,但特别复杂或特别快的动作可能返回更短的结果。按动作规划剪辑,别按时钟规划。
动作迁移最拿手的四类活
每张卡片配齐需求、输入、收获和要留神的地方。
让任何角色翻跳同款舞
需求: 一段全网爆火的舞蹈,应该由你的角色来跳,而不是原视频里的人。
输入: 舞蹈片段 + 一张全身角色图,取景对齐。
拿回什么: 你的角色卡着节拍复刻整套动作,运镜也一并带上——照片跳舞的高配版。
为什么靠谱: 编舞是官方文档点名的招牌场景——节奏和物理感原样保留。
要留神: 有地板动作和大量遮挡的舞段;选一条四肢全程可见的版本。
让人停下滑动的动态海报
需求: 一张会呼吸的主视觉:海报里的角色带着活的动态。
输入: 一段短而克制的动作片段——转身、披风扬起、发丝随风——加上你的海报图。
拿回什么: 可循环播放的动态海报,首映、上新、官宣都能用。
为什么靠谱: 短促而克制的动作是最容易迁移的情况——漂移最小,质感最高。
要留神: 文字多的版面:字在动态中会抖——标题文字后期再合成上去。
影视级表演预演
需求: 开机之前,先把一场戏的走位和表演排出来。
输入: 一段参考表演——你自己用手机拍的就行——加上设计好的角色,选 3.0。
拿回什么: 角色完成整段表演,全程面部一致性在线。
为什么靠谱: 这正是快手为 3.0 点名的场景:影视级表演与高精度捕捉。
要留神: 院线级最终交付——把它当有制作野心的预演用。
真的会动的品牌 IP 形象
需求: 吉祥物要在整个营销战役里跳舞、挥手、做反应。
输入: 一套动作片段库 + IP 形象设定图,一组组复用。
拿回什么: 不租人偶服、不进棚,产出一整个系列的一致 IP 表演。
为什么靠谱: 一套动作库 × 一张角色图 = 可复制的产出——这是能规模化的生产模式。
要留神: 比例非人类的形象——大头娃娃式头身比、缺失肢体——漂移更明显;先用 5 秒小样试。
动作迁移会在哪翻车——以及怎么救
真实使用里反复出现的五种失败模式,每种都给出能用的答案。
Hands grow extra fingers when the image hides them.
解法: If the motion needs hands, the image must show hands — pockets and crossed arms force the model to hallucinate, and that is where six-finger glitches live.
Very fast action comes back blurred or shortened.
解法: Slow the reference at capture, split the move into beats, or transfer the cleanest section of the take.
Occluded or cluttered references confuse the skeleton.
解法: Re-shoot or trim so one performer stays fully visible against a distinct background; a tripod beats handheld.
Characters far from human proportions drift mid-motion.
解法: Keep designs roughly humanoid, run a five-second test before the full take, and favor stylized-but-bipedal characters.
The scene prompt cannot rescue a weak motion video.
解法: Atmosphere is the prompt's only job here. Fix problems at the source — a better reference in means a better performance out.
图片里看不到手,生成的手就会多出手指。
解法: 动作要用到手,图片就必须露出手——插兜和抱臂会逼着模型凭空捏造,"AI 六指"就是这么来的。
特别快的动作回来时发糊或被截短。
解法: 拍参考时放慢动作、把动作拆成小节,或者只迁移整条里最干净的一段。
遮挡多、背景乱的参考会干扰骨架识别。
解法: 重拍或裁剪,让一个表演者全程清晰、与背景分明;三脚架胜过手持。
比例偏离人类太远的角色,动到一半开始漂。
解法: 设计尽量保持类人比例,正式跑之前先用 5 秒测试,优先选风格化但仍是两足直立的形象。
场景提示词救不了一条糟糕的动作视频。
解法: 提示词在这里只负责氛围。问题要在源头解决——进去的参考更好,出来的表演才更好。
在这个工具上,备料就是真正的提示词工程
质量在你打字之前就已经决定了。三张清单覆盖全部要点。
动作视频清单
- One performer, fully in frame for the whole take
- 3–30 seconds, MP4 or MOV, under 50MB
- Stable camera — unless you want the camera move transferred too
- Action readable at a glance: if you squint and lose it, so will the model
- 一个表演者,全程完整在画面里
- 3-30 秒,MP4 或 MOV,50MB 以内
- 镜头稳定——除非你想把运镜也一起迁移
- 动作一眼能看懂:你眯起眼都看不清的,模型也看不清
角色图片清单
- Framing matched to the video — full-body for full-body
- Every limb the motion uses, visible: no pockets, no crossed arms
- Sharp, over 300px, aspect ratio between 2:5 and 5:2
- Facing roughly aligned with the video's general orientation
- 取景和视频对齐——全身配全身
- 动作会用到的肢体全部露出:不插兜、不抱臂
- 清晰、大于 300px,宽高比在 2:5 到 5:2 之间
- 朝向和视频的大方向基本一致
场景提示词清单
- Atmosphere only: place, light, weather, style
- Name the look the way a gaffer would: "warm tungsten practicals, light haze"
- No action words — the video owns the choreography
- Keep wording identical when running multiple characters through one motion
- 只写氛围:地点、光线、天气、风格
- 像灯光师一样描述:"暖色钨丝灯实景光,薄雾"
- 不写动作词——编舞归视频管
- 同一套动作跑多个角色时,措辞保持一字不变
动作控制、图生视频,还是上动捕?
让角色动起来的三条路——各自接不同的活。
动作控制 — 本页
动作已经存在于视频里,而且必须精确复刻:舞蹈、表演、编舞、手势。
图生视频
你想让模型从一张静图自己发明合理的动态——松弛的、氛围式的、用提示词描述而非从素材复制。
动作捕捉管线
游戏引擎或视觉特效需要逐帧精确的骨骼数据、配合极端风格化和遮挡——传统动捕在那里依然物有所值。
动作迁移在这里怎么跑
两次上传加一句场景描述——工具就在本页顶部。
上传动作
丢进一段 3-30 秒的 MP4 或 MOV——一个清晰可见的表演者、稳定取景、50MB 以内。
加上表演者
上传角色图,取景与视频对齐、所需肢体全部入画;选好模型代际和朝向模式。
设定场景,开跑
一句氛围描述——地点、光线、情绪——然后用 720p 或 1080p 生成,放大检查手和脸。
Kling 动作控制:实战 FAQ
这些设置类问题直接决定出片质量——答案来自官方文档和实测结果。
让这个角色继续干活
生成新素材、改写已有镜头,或者给角色配上声音。
动作已经拍好了——换个人来演
上传动作、放进你的角色、描述舞台。Kling 动作控制把整段表演重新选角后还给你,最高 1080p——舞蹈、手势、表情,一样不少。