0 / 2500
La imagen de referencia define al personaje, el fondo y demás elementos. Mínimo 300 px, proporción entre 2:5 y 5:2.
Kling Motion Control: copia el movimiento, conserva al personaje
Kling Motion Control es la transferencia de movimiento en nivel utilizable. Entrega tres cosas —un video de alguien moviéndose, la imagen del personaje que debe moverse y una línea describiendo la escena— y recibe un video de tu personaje reproduciendo ese movimiento con precisión, expresión facial y trabajo de cámara incluidos. En esta página, las dos generaciones de Kling conviven lado a lado, y el video de referencia llega hasta 30 segundos en 720p o 1080p. Abajo: cómo se reparten el trabajo las tres entradas, qué movimientos se transfieren limpio y la regla de encuadre que decide la mayor parte del resultado, con base en la guía oficial de Kuaishou y pruebas prácticas.
Tres entradas, tres trabajos separados
La documentación de Kuaishou reparte las funciones con claridad. Saber qué entrada domina qué es casi toda la habilidad.
Referencia de movimiento: el video
Aporta el esqueleto: todo el movimiento, el tiempo, la física y, por defecto, hasta la cámara y la orientación.
MP4 o MOV, hasta 50 MB, de 3 a 30 segundos, una persona claramente visible. El encuadre limpio vale más que la producción cara.
Referencia de personaje: la imagen
Aporta al intérprete: cara, cuerpo, vestuario. Quién se mueve.
JPG o PNG, mínimo 300 px, hasta 10 MB, proporción entre 2:5 y 5:2, con todas las extremidades que el movimiento usa a la vista.
Prompt de texto: la escena
Aporta el mundo: fondo, luz, ambiente, estilo. No controla el movimiento: eso es trabajo del video.
Escribe atmósfera, no acción: «escenario neón, niebla fina, contraluz fuerte» funciona; «baila más rápido» no hace nada.
¿Kling 2.6 o 3.0: qué generación?
Las dos funcionan aquí. En la definición oficial, el 3.0 construye sobre el 2.6 con más estabilidad facial y rango de actuación.
Kling 3.0 Motion Control
La generación que Kuaishou posiciona como el salto a lo cinematográfico: consistencia facial entre escenarios y captura de alta precisión para actuación. Es el valor por defecto de esta página.
Primeros planos, actuación que habla con la expresión y toda escena donde la cara es la protagonista del plano.
Kling 2.6 Motion Control
La generación que hizo utilizable la transferencia de movimiento, con separación de dedos y transferencia de peso reconocidas por los testers: las debilidades históricas del movimiento por IA.
Producción en volumen para redes y contenido de baile. Donde la velocidad de retorno vale más que la cara perfecta.
Regla práctica: el contenido que habla con el cuerpo se resuelve en el 2.6; el que habla con la cara pide el 3.0.
Lo que se transfiere limpio y lo que exige cautela
De la orientación oficial y los resultados de campo confirmados una y otra vez.
Se transfiere bien
- Choreographed dance — the signature use, frame-accurate to the reference
- Martial arts and sports moves with full-body visibility
- Hand gestures and finger detail — distinct fingers since 2.6
- Facial expressions riding on the performance, stronger again in 3.0
- Weight and momentum: stomps, jumps, and landings read physically
- Baile coreografiado: el caso de uso estrella, fiel a la referencia fotograma a fotograma
- Artes marciales y movimientos deportivos con el cuerpo entero visible
- Gestos de mano y detalle de dedos: desde el 2.6, los dedos se separan
- Expresión facial cargada en la actuación: reforzada en el 3.0
- Peso e impulso: pasos firmes, saltos y aterrizajes legibles físicamente
Con cautela
- Extremely fast or chaotic movement — official guidance warns output may shorten
- References where limbs are blocked or leave the frame
- Heavily stylized characters far from human proportions
- Multi-person references — isolate one performer first
- Long takes near the 30-second cap with complex action throughout
- Movimiento extremadamente rápido o caótico: la salida puede acortarse, según la advertencia oficial
- Referencias con extremidades ocultas o que salen del cuadro
- Personajes muy alejados de la proporción humana
- Referencias con varias personas: aísla primero a un intérprete
- Planos largos cerca del techo de 30 s con acción compleja continua
Las reglas de encuadre que deciden el resultado
Una de ellas es lo que la guía oficial de Kling llama el ajuste más importante de toda la interfaz.
Match the framing: full body to full body.
If the motion video shows a full-body shot, the character image must be full-body too — half-body against full-body is the most common cause of broken outputs, per the official guide.
Choose who sets the orientation.
Matches Video, the default, lets the reference drive movement, expression, camera, and facing — and supports 3–30 second references. Matches Image keeps your character's original facing and works on 3–10 second references.
Output length follows the reference — usually.
The render matches your motion video's duration, but highly complex or fast action can come back shorter. Plan the edit around the move, not the clock.
Empareja los encuadres: cuerpo entero con cuerpo entero.
Si el video de movimiento es de cuerpo entero, la imagen del personaje también debe serlo. Medio cuerpo con cuerpo entero es, según la guía oficial, la causa número uno de salida rota.
Elige quién manda en la orientación.
El valor por defecto Matches Video entrega todo —movimiento, expresión, cámara y orientación— al video de referencia y acepta de 3 a 30 s. Matches Image conserva la orientación original del personaje y funciona con referencias de 3 a 10 s.
La duración de salida sigue a la referencia, casi siempre.
El renderizado acompaña la duración del video de referencia, pero las acciones muy complejas o rápidas pueden volver más cortas. Planifica el montaje por el movimiento, no por el reloj.
4 trabajos donde brilla la transferencia de movimiento
Cada tarjeta trae el caso, las entradas, el resultado y la trampa.
Hacer bailar a cualquiera
Caso: La coreografía del momento, bailada por tu personaje en lugar del bailarín original.
Entradas: Clip de la coreografía + imagen de cuerpo entero del personaje, con encuadres emparejados.
Lo que vuelve: Tu personaje reproduciendo la coreografía compás a compás, con el trabajo de cámara incluido.
Por qué funciona: La coreografía es el caso estrella oficial: el tiempo y la física pasan directo.
Atención: Rutinas de suelo y con mucha oclusión: prefiere tomas donde las extremidades sigan visibles.
Póster vivo que detiene el scroll
Caso: El visual clave que respira: un póster de personaje con movimiento vivo dentro.
Entradas: Un clip de movimiento corto y controlado —giro de cabeza, capa al viento, pelo en la brisa— más el arte del póster.
Lo que vuelve: Póster animado listo para loop, para estrenos y lanzamientos.
Por qué funciona: El movimiento corto e intencional es la transferencia más fácil: deriva mínima, acabado máximo.
Atención: Arte con mucho texto: las letras pueden temblar durante el movimiento; compón el título después, en el editor.
Previz de actuación cinematográfica
Caso: Marcar el movimiento de la escena de actuación antes del rodaje real.
Entradas: La actuación de referencia —puedes ser tú con el móvil— más el personaje diseñado. Elige el 3.0.
Lo que vuelve: El personaje entrega la actuación con consistencia facial en todo el plano.
Por qué funciona: Es el escenario que Kuaishou nombra para el 3.0: actuación cinematográfica y captura de alta precisión.
Atención: Entrega final con calidad de cine: trátalo como previz con ambición de producción.
Mascota de marca que se mueve de verdad
Caso: La mascota bailando, saludando y reaccionando durante toda la campaña.
Entradas: Biblioteca de clips de movimiento + arte modelo de la mascota, recombinados a voluntad.
Lo que vuelve: Serie consistente de actuaciones de la mascota, producida sin disfraz ni estudio.
Por qué funciona: Biblioteca de movimiento × imagen de personaje = producción repetible. La ecuación que escala.
Atención: Las mascotas fuera de proporción humana —cabeza gigante, extremidades ausentes— derivan más. Prueba 5 segundos antes.
Dónde se rompe la transferencia y cómo arreglarlo
Los 5 patrones de fallo del uso real, cada uno con la respuesta que funciona.
Hands grow extra fingers when the image hides them.
Arreglo: If the motion needs hands, the image must show hands — pockets and crossed arms force the model to hallucinate, and that is where six-finger glitches live.
Very fast action comes back blurred or shortened.
Arreglo: Slow the reference at capture, split the move into beats, or transfer the cleanest section of the take.
Occluded or cluttered references confuse the skeleton.
Arreglo: Re-shoot or trim so one performer stays fully visible against a distinct background; a tripod beats handheld.
Characters far from human proportions drift mid-motion.
Arreglo: Keep designs roughly humanoid, run a five-second test before the full take, and favor stylized-but-bipedal characters.
The scene prompt cannot rescue a weak motion video.
Arreglo: Atmosphere is the prompt's only job here. Fix problems at the source — a better reference in means a better performance out.
Las manos ocultas en la imagen se convierten en dedos de más.
Arreglo: Si el movimiento usa las manos, la imagen debe mostrarlas. Los bolsillos y los brazos cruzados obligan al modelo a inventar manos, y el bug del sexto dedo nace ahí.
La acción muy rápida vuelve borrosa o acortada.
Arreglo: Graba la referencia en cámara lenta, divide el movimiento en compases o transfiere solo el tramo más limpio de la toma.
Las referencias con oclusión y objetos confunden el esqueleto.
Arreglo: Vuelve a grabar o recorta hasta tener a una persona bien separada del fondo. Trípode antes que pulso.
Los personajes lejos de la proporción humana derivan a mitad del movimiento.
Arreglo: Mantén el diseño aproximadamente humanoide, lanza una prueba de 5 segundos antes de la toma completa y prefiere personajes bípedos aunque sean estilizados.
Un video de movimiento débil no se salva con el prompt de escena.
Arreglo: Aquí el prompt solo se ocupa de la atmósfera. Arregla en la fuente: entra una buena referencia, sale una buena actuación.
El verdadero prompt engineering es preparar la entrada
En esta herramienta, la calidad se decide antes de teclear. Tres checklists lo cubren todo.
Checklist del video de movimiento
- One performer, fully in frame for the whole take
- 3–30 seconds, MP4 or MOV, under 50MB
- Stable camera — unless you want the camera move transferred too
- Action readable at a glance: if you squint and lose it, so will the model
- Una persona, dentro del cuadro toda la toma
- De 3 a 30 segundos, MP4 o MOV, menos de 50 MB
- Cámara fija, salvo que quieras transferir también el movimiento de cámara
- Acción legible de un vistazo: si entrecierras los ojos y la pierdes, el modelo también la pierde
Checklist de la imagen del personaje
- Framing matched to the video — full-body for full-body
- Every limb the motion uses, visible: no pockets, no crossed arms
- Sharp, over 300px, aspect ratio between 2:5 and 5:2
- Facing roughly aligned with the video's general orientation
- Encuadre emparejado con el video: cuerpo entero con cuerpo entero
- Todas las extremidades que usa el movimiento a la vista: sin bolsillos, sin brazos cruzados
- Nítida, mínimo 300 px, proporción entre 2:5 y 5:2
- Orientación alineada con la dirección general del video
Checklist del prompt de escena
- Atmosphere only: place, light, weather, style
- Name the look the way a gaffer would: "warm tungsten practicals, light haze"
- No action words — the video owns the choreography
- Keep wording identical when running multiple characters through one motion
- Solo atmósfera: lugar, luz, clima, estilo
- Nombra la luz como un gaffer: «tungsteno cálido, niebla fina»
- Nada de palabras de acción: la coreografía pertenece al video
- Para pasar el mismo movimiento por varios personajes, congela la frase
¿Motion Control, imagen a video o mocap?
Tres maneras de mover a un personaje, cada una con su terreno.
Motion Control — esta página
El movimiento ya existe en video y hay que copiarlo con exactitud: baile, actuación, coreografía, gestos.
Imagen a video
Quieres que el modelo invente un movimiento plausible desde la imagen fija: movimiento suelto y atmosférico descrito por prompt, no copiado de un video.
Pipeline de captura de movimiento
Necesitas datos de esqueleto con precisión de fotograma para motor de juego o VFX. Para la estilización extrema y la oclusión pesada, el rig tradicional aún paga su precio.
Cómo transferir movimiento en esta página
Dos subidas y una línea de escena: la herramienta está en la parte superior.
Sube el movimiento
MP4 o MOV de 3 a 30 segundos: una persona visible, encuadre estable, menos de 50 MB.
Añade al intérprete
Imagen del personaje con el encuadre emparejado al video y todas las extremidades necesarias a la vista. Elige la generación y el modo de orientación.
Monta la escena y ejecuta
Una línea de atmósfera —lugar, luz, ambiente— y genera en 720p o 1080p. Revisa manos y cara a tamaño real.
Kling Motion Control: FAQ de campo
Las preguntas de preparación que separan la salida buena de la mala, respondidas con documentación oficial y resultados probados.
Mantén al personaje trabajando
Genera material nuevo, reescribe planos existentes, ponle voz.
El movimiento ya está filmado: cambia el reparto
Sube el movimiento, añade al personaje y describe el escenario en una línea. Kling Motion Control devuelve la actuación con tu reparto: baile, gestos y expresión intactos, hasta en 1080p.