0 / 2500
Das Referenzbild bestimmt Figur, Hintergrund und weitere Elemente. Mindestens 300 px, Seitenverhältnis 2:5 bis 5:2.
Kling Motion Control: die Bewegung kopieren, die Figur behalten
Kling Motion Control ist Bewegungsübertragung auf nutzbarem Niveau. Liefern Sie drei Dinge – ein Video von jemandem in Bewegung, das Bild der Figur, die sich bewegen soll, und eine Zeile zur Szene – und erhalten Sie ein Video, in dem Ihre Figur diese Bewegung präzise nachspielt, Mimik und Kameraarbeit inklusive. Auf dieser Seite stehen beide Kling-Generationen nebeneinander, und das Referenzvideo reicht bis 30 Sekunden in 720p oder 1080p. Unten: wie sich die drei Eingaben die Arbeit teilen, welche Bewegungen sauber übertragen und die Kadrierungsregel, die den Großteil des Ergebnisses entscheidet, gestützt auf den offiziellen Kuaishou-Guide und Praxistests.
Drei Eingaben, drei getrennte Aufgaben
Die Kuaishou-Dokumentation verteilt die Rollen klar. Zu wissen, welche Eingabe was beherrscht, ist fast die ganze Kunst.
Bewegungsreferenz: das Video
Liefert das Skelett: jede Bewegung, das Timing, die Physik und standardmäßig sogar Kamera und Ausrichtung.
MP4 oder MOV, bis 50 MB, 3 bis 30 Sekunden, eine klar sichtbare Person. Saubere Kadrierung zählt mehr als teure Produktion.
Figurenreferenz: das Bild
Liefert den Darsteller: Gesicht, Körper, Kostüm. Wer sich bewegt.
JPG oder PNG, mindestens 300 px, bis 10 MB, Seitenverhältnis zwischen 2:5 und 5:2, mit allen Gliedmaßen sichtbar, die die Bewegung nutzt.
Text-Prompt: die Szene
Liefert die Welt: Hintergrund, Licht, Stimmung, Stil. Die Bewegung steuert er nicht: Das ist Aufgabe des Videos.
Atmosphäre schreiben, keine Aktion: „Neonbühne, dünner Nebel, hartes Gegenlicht“ funktioniert; „tanz schneller“ bewirkt nichts.
Kling 2.6 oder 3.0: welche Generation?
Beide laufen hier. Offizielle Lesart: Die 3.0 baut auf der 2.6 auf, mit mehr Gesichtsstabilität und größerer Spielbreite.
Kling 3.0 Motion Control
Die Generation, die Kuaishou als Sprung ins Filmische positioniert: Gesichtskonsistenz über Szenarien hinweg und hochpräzise Erfassung fürs Schauspiel. Der Standard dieser Seite.
Close-ups, Spiel, das über die Mimik spricht, und jede Szene, in der das Gesicht die Hauptrolle der Einstellung hat.
Kling 2.6 Motion Control
Die Generation, die Bewegungsübertragung nutzbar machte, mit von Testern bestätigter Fingertrennung und Gewichtsverlagerung: den historischen Schwächen der KI-Bewegung.
Volumenproduktion für Social und Tanz-Content. Wo die Umlaufgeschwindigkeit mehr zählt als das perfekte Gesicht.
Praxisregel: Content, der mit dem Körper spricht, erledigt die 2.6; Content, der mit dem Gesicht spricht, verlangt die 3.0.
Was sauber überträgt und was Vorsicht verlangt
Aus der offiziellen Anleitung und den wiederholt bestätigten Feldergebnissen.
Überträgt gut
- Choreographed dance — the signature use, frame-accurate to the reference
- Martial arts and sports moves with full-body visibility
- Hand gestures and finger detail — distinct fingers since 2.6
- Facial expressions riding on the performance, stronger again in 3.0
- Weight and momentum: stomps, jumps, and landings read physically
- Choreografierter Tanz: der Vorzeige-Anwendungsfall, der Referenz Frame für Frame treu
- Kampfkunst- und Sportbewegungen mit sichtbarem ganzen Körper
- Handgesten und Fingerdetail: Seit der 2.6 trennen sich die Finger
- Mimikgeladenes Spiel: verstärkt in der 3.0
- Gewicht und Schwung: feste Schritte, Sprünge und Landungen, physisch lesbar
Mit Vorsicht
- Extremely fast or chaotic movement — official guidance warns output may shorten
- References where limbs are blocked or leave the frame
- Heavily stylized characters far from human proportions
- Multi-person references — isolate one performer first
- Long takes near the 30-second cap with complex action throughout
- Extrem schnelle oder chaotische Bewegung: Die Ausgabe kann sich verkürzen, laut offizieller Warnung
- Referenzen mit verdeckten oder aus dem Bild ragenden Gliedmaßen
- Figuren weit jenseits menschlicher Proportionen
- Referenzen mit mehreren Personen: zuerst eine Person isolieren
- Lange Takes nahe der 30-s-Decke mit durchgehend komplexer Aktion
Die Kadrierungsregeln, die das Ergebnis entscheiden
Eine davon nennt der offizielle Kling-Guide die wichtigste Einstellung der gesamten Oberfläche.
Match the framing: full body to full body.
If the motion video shows a full-body shot, the character image must be full-body too — half-body against full-body is the most common cause of broken outputs, per the official guide.
Choose who sets the orientation.
Matches Video, the default, lets the reference drive movement, expression, camera, and facing — and supports 3–30 second references. Matches Image keeps your character's original facing and works on 3–10 second references.
Output length follows the reference — usually.
The render matches your motion video's duration, but highly complex or fast action can come back shorter. Plan the edit around the move, not the clock.
Kadrierungen angleichen: Ganzkörper zu Ganzkörper.
Ist das Bewegungsvideo eine Ganzkörperaufnahme, muss das Figurenbild ebenfalls eine sein. Halbkörper zu Ganzkörper ist laut offiziellem Guide die Ursache Nummer eins für kaputte Ausgaben.
Wählen, wer die Ausrichtung bestimmt.
Der Standard Matches Video übergibt alles – Bewegung, Mimik, Kamera und Ausrichtung – an das Referenzvideo und akzeptiert 3 bis 30 s. Matches Image bewahrt die Originalausrichtung der Figur und arbeitet mit Referenzen von 3 bis 10 s.
Die Ausgabedauer folgt der Referenz, meistens.
Das Rendering richtet sich nach der Dauer des Referenzvideos, doch sehr komplexe oder schnelle Aktionen können kürzer zurückkommen. Den Schnitt nach der Bewegung planen, nicht nach der Uhr.
4 Aufgaben, in denen die Bewegungsübertragung glänzt
Jede Karte bringt den Fall, die Eingaben, das Ergebnis und die Falle.
Jeden tanzen lassen
Fall: Die Choreo des Moments, getanzt von Ihrer Figur statt vom Originaltänzer.
Eingaben: Clip der Choreografie + Ganzkörperbild der Figur, Kadrierungen angeglichen.
Was zurückkommt: Ihre Figur spielt die Choreo Takt für Takt nach, Kameraarbeit inklusive.
Warum es funktioniert: Choreografie ist der offizielle Vorzeigefall: Timing und Physik gehen direkt durch.
Achtung: Bodenfiguren und Routinen mit viel Verdeckung: Takes wählen, in denen die Gliedmaßen sichtbar bleiben.
Lebendes Poster, das den Scroll stoppt
Fall: Das atmende Key Visual: ein Figurenposter mit lebendiger Bewegung darin.
Eingaben: Ein kurzer, kontrollierter Bewegungsclip – Kopfdrehung, wehender Umhang, Haar im Wind – plus die Posterkunst.
Was zurückkommt: Loop-taugliches animiertes Poster für Premieren und Launches.
Warum es funktioniert: Kurze, gezielte Bewegung ist die leichteste Übertragung: minimale Drift, maximales Finish.
Achtung: Textlastige Kunst: Buchstaben können während der Bewegung zittern; den Titel später im Editor setzen.
Previz für filmisches Schauspiel
Fall: Die Bewegung der Schauspielszene vor dem echten Dreh festlegen.
Eingaben: Die Referenzdarbietung – gern Sie selbst mit dem Handy – plus die gestaltete Figur. Die 3.0 wählen.
Was zurückkommt: Die Figur liefert das Spiel mit Gesichtskonsistenz über die ganze Einstellung.
Warum es funktioniert: Genau das Szenario, das Kuaishou für die 3.0 benennt: filmisches Schauspiel und hochpräzise Erfassung.
Achtung: Finale Lieferung in Kinoqualität: als Previz mit Produktionsanspruch behandeln.
Markenmaskottchen, das sich wirklich bewegt
Fall: Das Maskottchen tanzt, winkt und reagiert durch die ganze Kampagne.
Eingaben: Bibliothek von Bewegungsclips + Modellzeichnung des Maskottchens, beliebig neu kombiniert.
Was zurückkommt: Konsistente Serie von Maskottchen-Auftritten, produziert ohne Kostüm und Studio.
Warum es funktioniert: Bewegungsbibliothek × Figurenbild = wiederholbare Produktion. Die Gleichung, die skaliert.
Achtung: Maskottchen jenseits menschlicher Proportionen – Riesenkopf, fehlende Gliedmaßen – driften stärker. Erst 5 Sekunden testen.
Wo die Übertragung bricht und wie Sie es richten
Die 5 Fehlermuster des echten Einsatzes, je mit der Antwort, die wirkt.
Hands grow extra fingers when the image hides them.
Abhilfe: If the motion needs hands, the image must show hands — pockets and crossed arms force the model to hallucinate, and that is where six-finger glitches live.
Very fast action comes back blurred or shortened.
Abhilfe: Slow the reference at capture, split the move into beats, or transfer the cleanest section of the take.
Occluded or cluttered references confuse the skeleton.
Abhilfe: Re-shoot or trim so one performer stays fully visible against a distinct background; a tripod beats handheld.
Characters far from human proportions drift mid-motion.
Abhilfe: Keep designs roughly humanoid, run a five-second test before the full take, and favor stylized-but-bipedal characters.
The scene prompt cannot rescue a weak motion video.
Abhilfe: Atmosphere is the prompt's only job here. Fix problems at the source — a better reference in means a better performance out.
Im Bild verdeckte Hände werden zu überzähligen Fingern.
Abhilfe: Nutzt die Bewegung die Hände, muss das Bild sie zeigen. Hosentaschen und verschränkte Arme zwingen das Modell, Hände zu erfinden, und dort entsteht der Sechs-Finger-Bug.
Sehr schnelle Aktion kommt verwischt oder verkürzt zurück.
Abhilfe: Die Referenz in Zeitlupe drehen, die Bewegung in Takte teilen oder nur den saubersten Abschnitt des Takes übertragen.
Referenzen mit Verdeckung und Objekten verwirren das Skelett.
Abhilfe: Neu drehen oder zuschneiden, bis eine Person klar vom Hintergrund getrennt ist. Stativ schlägt freie Hand.
Figuren fern menschlicher Proportionen driften mitten in der Bewegung.
Abhilfe: Das Design grob humanoid halten, vor dem vollen Take einen 5-Sekunden-Test fahren und auch stilisiert zweibeinige Figuren bevorzugen.
Ein schwaches Bewegungsvideo rettet kein Szenen-Prompt.
Abhilfe: Der Prompt kümmert sich hier nur um die Atmosphäre. An der Quelle richten: Gute Referenz rein, gutes Spiel raus.
Echtes Prompt-Engineering ist die Vorbereitung der Eingaben
In diesem Werkzeug entscheidet sich die Qualität vor dem Tippen. Drei Checklisten decken alles ab.
Checkliste Bewegungsvideo
- One performer, fully in frame for the whole take
- 3–30 seconds, MP4 or MOV, under 50MB
- Stable camera — unless you want the camera move transferred too
- Action readable at a glance: if you squint and lose it, so will the model
- Eine Person, den ganzen Take im Bild
- 3 bis 30 Sekunden, MP4 oder MOV, unter 50 MB
- Feste Kamera, außer Sie wollen die Kamerabewegung mitübertragen
- Auf einen Blick lesbare Aktion: Wenn Sie blinzeln und sie verlieren, verliert das Modell sie auch
Checkliste Figurenbild
- Framing matched to the video — full-body for full-body
- Every limb the motion uses, visible: no pockets, no crossed arms
- Sharp, over 300px, aspect ratio between 2:5 and 5:2
- Facing roughly aligned with the video's general orientation
- Kadrierung ans Video angleichen: Ganzkörper zu Ganzkörper
- Alle Gliedmaßen sichtbar, die die Bewegung nutzt: keine Taschen, keine verschränkten Arme
- Scharf, mindestens 300 px, Seitenverhältnis zwischen 2:5 und 5:2
- Ausrichtung an der Grundrichtung des Videos ausrichten
Checkliste Szenen-Prompt
- Atmosphere only: place, light, weather, style
- Name the look the way a gaffer would: "warm tungsten practicals, light haze"
- No action words — the video owns the choreography
- Keep wording identical when running multiple characters through one motion
- Nur Atmosphäre: Ort, Licht, Wetter, Stil
- Das Licht wie ein Oberbeleuchter benennen: „warmes Tungsten, dünner Nebel“
- Keine Aktionswörter: Die Choreografie gehört dem Video
- Für dieselbe Bewegung durch mehrere Figuren die Formulierung einfrieren
Motion Control, Bild zu Video oder Mocap?
Drei Wege, eine Figur zu bewegen, je mit eigenem Revier.
Motion Control – diese Seite
Die Bewegung existiert bereits als Video und muss exakt kopiert werden: Tanz, Spiel, Choreografie, Gesten.
Bild zu Video
Das Modell soll aus dem Standbild eine plausible Bewegung erfinden: lockere, atmosphärische Bewegung per Prompt beschrieben, nicht aus Material kopiert.
Motion-Capture-Pipeline
Sie brauchen Skelettdaten mit Frame-Präzision für Game-Engine oder VFX. Bei extremer Stilisierung und schwerer Verdeckung zahlt sich das traditionelle Rig weiterhin aus.
So übertragen Sie Bewegung auf dieser Seite
Zwei Uploads und eine Szenenzeile: Die Bewegungssteuerung ist oben auf der Seite.
Bewegung hochladen
MP4 oder MOV mit 3 bis 30 Sekunden: eine sichtbare Person, stabile Kadrierung, unter 50 MB.
Darsteller hinzufügen
Figurenbild mit ans Video angeglichener Kadrierung und allen nötigen Gliedmaßen sichtbar hochladen. Generation und Ausrichtungsmodus wählen.
Szene setzen und starten
Eine Zeile Atmosphäre – Ort, Licht, Stimmung – und in 720p oder 1080p generieren. Hände und Gesicht in Originalgröße prüfen.
Kling Motion Control: FAQ aus der Praxis
Die Vorbereitungsfragen, die gute von schlechter Ausgabe trennen, beantwortet mit offizieller Dokumentation und geprüften Ergebnissen.
Die Figur in Arbeit halten
Neues Material generieren, vorhandene Einstellungen neu schreiben, ihr eine Stimme geben.
Die Bewegung ist schon gedreht: Besetzung wechseln
Bewegung hochladen, Figur hinzufügen und die Bühne in einer Zeile beschreiben. Kling Motion Control liefert die Darbietung mit Ihrer Besetzung zurück: Tanz, Gesten und Mimik intakt, bis 1080p.