この画像が動画の最初のフレームになります
0 / 5000
AI 音声付きで動画を生成します(センシティブな内容では音声が無効になる場合があります)
動画生成AI — ストーリーに合うモデルを選ぶ
この動画生成AIは、Google の Veo、Kuaishou の Kling、ByteDance の Seedance、Alibaba の Wan をひとつのプロンプト画面に集約しています。脚本を書くか画像をアップロードして、案件に合うモデルを選び、ネイティブ音声付き・最大 4K・最長15秒のクリップを生成。モデルごとに「語れる物語」が違うからこそ、以下のガイドでは仕事とモデルの対応表、よく検索される直接対決の決着、そして公式ドキュメント・ブラインド投票・コミュニティ実測から拾った「リリース告知には書かれない限界」まで一気に解説します。
モデルからではなく、仕事から選ぶ
よくある6つの案件と、それぞれを最も上手くこなすモデル——そして手を引くべきタイミング。
キャラクターがカメラに向かって話す
案件: 顔出しトーク広告、UGC 風スポット、リップシンクが決め手のナレーション解説。
この選択の理由: Veo 3.1——セリフ・効果音・環境音を1回の生成でまとめて出力し、英語音声の自然さはレビュアー評価でここの全モデル中トップです。
効かせる設定: セリフはプロンプトに一字一句引用で。Google 公式ガイドの書式は「A woman says, "We have to leave now."」です。
不向きなケース: 脚本が日本語のとき——英語以外は品質が目に見えて落ちるとの報告があり、多言語リップシンクは Kling の方が上手です。
カット割りとカメラワークのある物語
案件: ミニ予告編、商品フィルム、切り返しやトラッキング→クローズアップの流れが要る案件すべて。
この選択の理由: Kling 3.0——Kuaishou の Director Mode はまさにこのための機能:1回の生成で最大6ショット、各ショットに個別の長さ・構図・カメラワークを指定できます。
効かせる設定: テンポが命ならカスタム絵コンテを。合計3〜15秒の範囲で、各ショットは1〜12秒に収めます。
不向きなケース: 繊細な物理表現やミクロなディテールが勝負どころのとき——そこは Seedance の領域です。
リアルに見えないと困る動き
案件: ダンス、スポーツ、スタント、布や水——物理の嘘が一発でバレる映像すべて。
この選択の理由: Seedance 2——ByteDance は不可能なモーションにペナルティを課して学習させており、ブラインド投票の順位と実運用の評判が一致する珍しいモデルです。
効かせる設定: 動きは形容詞でなく動詞と重さで書く(「どすんと着地、土煙が舞う」)。仕上げは 1080p で。
不向きなケース: シーンをまたぐ緊密な物語の連続性が要るとき——構成力は Kling の土俵です。
AI で写真を動かす
案件: 回転する商品ショット、呼吸するポートレート、フレームの外へ広がるシーン。写真を動かしたい案件すべて。
この選択の理由: Seedance 2 または Wan 2.6。Seedance は Artificial Analysis の画像から動画ブラインド投票で首位、Wan は控えめなコストで複雑なプロンプトを忠実に読みます。
効かせる設定: 手持ちで一番シャープな元画像から始めること。画像から動画では、入力の質が出力の質を決めます。
不向きなケース: 写真に複数の人物が写っているとき。群衆の顔はどのモデルでも崩れます。1〜2人に絞った構図に変えましょう。
量産しつつコストは管理
案件: 商品リスティング動画、A/B 広告バリエーション、毎日出す SNS 用の埋め草。
この選択の理由: Wan 2.6——720p / 1080p で5・10・15秒、音声同期付き。Alibaba がコスト効率重視のプロダクションに真正面から位置づけたモデルです。
効かせる設定: フィード用は 720p で量産し、勝ちパターンだけ 1080p に。
不向きなケース: そのクリップが主役級のアセットなら——最終版は Kling 3.0 か Veo Quality に格上げを。
昼までにアイデアを10案試す
案件: プリビズ、プロンプト探索、本生成の前に方向性をプレゼンする段階。
この選択の理由: Kling 2.6 か Veo 3.1 Lite——どちらも回転が速く、方向を探っている段階では仕上がりの美しさより速度が物を言います。
効かせる設定: ドラフトは5秒・低解像度で固定し、うまくいった言い回しを保存しておきます。
不向きなケース: クライアントに送る段階——まず旗艦ティアで勝ちバージョンを再生成してから。
直接対決:みんなが検索する組み合わせ
3つの対戦、3つの異なる勝者——「最強の動画生成AI」が案件次第である証明です。
Veo 3.1 vs Kling 3.0
Veo 3.1
ワンカット撮影+このラインナップ最高の音声とサウンドデザイン。Google のプロンプトガイドなら、何を話し何が聞こえるかを単語レベルで指定できます。
Kling 3.0
キャラクターの一貫した6ショット絵コンテ、ネイティブ 4K、5言語リップシンク——案件が「映画」に近づくほど差が開きます。
セリフがクリップを支えるなら Veo。編集がクリップを支えるなら Kling。
Seedance 2 vs Kling 3.0
Seedance 2
重さ・勢い・接触の表現が正確。アクションと画像から動画ではブラインド投票もコミュニティテストも王座を譲らず、ステレオのマルチトラック音声がカットに追従します。
Kling 3.0
シーン間のロジックが強く、カメラが動いても画面内の文字が安定。ただしオブジェクトの瞬間移動や群衆の顔の融合は今もテスターに指摘されています。
動きの説得力なら Seedance。編集のコントロールなら Kling。
Wan 2.6 vs Veo 3.1 Lite
Wan 2.6
1080p・音声同期で最長15秒——バリュー帯で最長の音声付き尺です。
Veo 3.1 Lite
Google 品質の描画をドラフト価格で、上限8秒——完成品ではなく反復速度のための設計です。
長さと音が要るなら Wan。ドラフトの数が要るなら Veo Lite。
ブラインドランキングの正しい読み方——どこで当たり、どこで外れるか
Artificial Analysis は動画モデル最大のブラインド投票アリーナを運営しています。ただし3つの注意つきで読みましょう。
現在の画像から動画ボードでは Seedance 2 が1位、Veo 3.1 が3位。テキストから動画では Seedance と Kling 3.0 が上位を占めます。有益なシグナルです——ただし、5秒のブラインドクリップでは「使い込んで2週間後に感じること」までは測れません。
Arena votes reward the first glance.
A clip wins on color and composition within seconds. Prompt adherence, retry rates, and how a model behaves on your tenth revision never enter the score — which is why some high-Elo models earn lukewarm reviews once people use them daily.
Audio barely moves the needle.
Veo 3.1 places mid-table in arenas, yet reviewers consistently call its speech and sound design the best shipping today. If your clip talks, the leaderboard undersells it.
Structure never gets voted on.
Kling 3.0's six-shot Director Mode is its defining feature, and no single-clip arena can test it. Rankings measure one beautiful shot; your project probably needs five that match.
アリーナ投票は第一印象に報酬を与えます。
クリップは数秒の色と構図で勝負が決まります。プロンプトへの忠実さ、リトライ率、10回目の修正時の挙動はスコアに一切入りません——高 Elo モデルが日常使いでは微妙な評価を受けることがあるのはこのためです。
音声はほとんど票に影響しません。
Veo 3.1 はアリーナでは中位ですが、音声とサウンドデザインは現行最高というのがレビュアーの一致した評価です。クリップが「話す」なら、ランキングはこのモデルを過小評価しています。
構成力は投票の対象になりません。
Kling 3.0 の6ショット Director Mode は最大の特徴ですが、単一クリップのアリーナでは測りようがありません。ランキングが測るのは美しい1ショット。プロジェクトに必要なのは、つながる5ショットのはずです。
ランキングと実運用レポートの結論が一致する点:Seedance 2 です。画像から動画の投票で首位、そして同じ物理表現のリアリティがコミュニティテストでも繰り返し確認されています——現時点で「総合最強」のコンセンサスに最も近い存在です。
このページのラインナップ
スペック行は実際にここで選択できる内容、フィールドノートはレビュアーが繰り返し報告している所見です。
Veo 3.1
音声ファーストのクリップのための DeepMind 旗艦:セリフ・効果音・環境音を映像と同時に1パスで生成します。
フィールドノート: 英語音声とサウンドデザインはクラス最高評価。英語以外のセリフは弱く、極端なアングル変化でキャラクターがブレることがあります。
Kling 3.0
Kuaishou
AI の映画監督——2026年2月に Director Mode とともに登場:1生成あたり最大6ショット、各ショットに構図・モーション・長さを個別指定。
フィールドノート: マルチショット構成と画面内文字の安定性が際立ちます。微細なディテールの甘さ、物理の不安定さ、カット間の色ズレは今も指摘されています。
Kling 2.6
Kuaishou
前世代がラインナップに残る理由はひとつ:プロンプトを高速で返すからです。
フィールドノート: コミュニティの扱いは一貫しています——今やドラフトと反復のためのモデル、本番は 3.0 へ。
Seedance 2
ByteDance
物理を理解した生成+ステレオのマルチトラック音声——音楽・環境音・声がカットに同期する、と ByteDance のリリースノートにあります。
フィールドノート: 見出しはモーションのリアリティ——重さと勢いが持ちます。standard ティアの待ち時間は長めとの報告があり、人物被写体のモデレーションは厳格です。
Wan 2.6
Alibaba
コスト効率のストーリーテラー:1080p・スタジオ品質の同期音声で最長15秒、というのが Alibaba の説明です。
フィールドノート: 価格帯のわりにプロンプト理解が優秀。複雑なモーションのリアリティは上の旗艦勢に一歩譲る、というのがレビュアーの位置づけです。
ネイティブ音声をモデル別に
音はモデル間の差が最も大きく、スペック表が最も語らない領域です。
Veo 3.1 — フルミックス
唇に同期したセリフ、アクションに合った効果音、その下に環境音——後から重ねるのではなく、まとめて生成されます。セリフはプロンプトに直接引用を。Google のガイドはセリフを第一級の指示として扱います。
Kling 3.0 — ローカライズのために
5言語のリップシンク対応セリフで、1本の広告を撮り直しなしに5市場へ展開できます。にぎやかなシーンでは話者間で声が入れ替わることがあるとの注意も——話す役は1〜2人に絞りましょう。
Seedance 2 — ステレオの奥行き
ByteDance は音楽・環境音・声の並列トラックを持つ2チャンネル音声を、映像のリズムに同期させて出力します。複数キャラクターの対話で声が混ざることがあるのが既知のトレードオフです。
Wan 2.6 — スケールする同期
15秒のフル尺で音声が同期し、複数話者のやり取りにも対応——この価格帯では異例です。
生成が無音で返ってきたら、モデルを疑う前にティアを確認しましょう。一部モデルの廉価ティアはコストと引き換えに音声を省きますし、Kling の音声はオンにしないと働かないトグル式です。
尺はクリエイティブの決断
時間を構成する3つの方法と、それぞれの主役モデル。
One perfect shot (4–8s)
Veo holds a single composition with full audio. Best for product reveals, reaction moments, and loop-ready social posts.
A cut sequence (3–15s)
Kling 3.0's storyboard splits the runtime into up to six shots whose lengths must sum to the total — closer to editing than prompting. Wan auto-cuts its fifteen seconds with coherent transitions.
Beyond fifteen seconds
No model on this page renders longer in one pass. Productions chain clips: lock a character reference, reuse exact descriptive wording, and cut the renders together in an editor.
完璧なワンショット(4〜8秒)
Veo はフル音声のまま単一の構図を保ちます。商品のお披露目、リアクションの瞬間、ループ前提の SNS 投稿に最適です。
カットでつなぐシーケンス(3〜15秒)
Kling 3.0 の絵コンテは尺を最大6ショットに分割し、合計が全体の長さに一致する必要があります——プロンプトというより編集に近い感覚です。Wan は15秒を自動でカット割りし、自然なトランジションでつなぎます。
15秒の先へ
このページのどのモデルも、1回の生成でこれ以上は描けません。プロダクションはクリップを連結します:キャラクター参照を固定し、説明の言い回しを使い回し、エディタで生成結果をつなげましょう。
柔軟さの例外は Seedance——4〜15秒の整数なら任意の長さを指定でき、プリセット刻みがありません。
AI 動画がまだ壊れるところ
リリース週の熱が冷めた頃に現れる失敗パターンと、プロジェクトを止めない回避策。
Physics betrays the shot: objects teleport, water and smoke move wrong, contact feels weightless.
回避策: Route motion-critical scenes to Seedance 2, keep physical interactions simple elsewhere, and hide complex contact moments behind a cut.
Crowds fall apart — past five or six people, faces blur and merge.
回避策: Frame one to three subjects and imply scale with silhouettes, depth of field, or sound design instead of rendered extras.
Color and light shift between shots in multi-shot renders.
回避策: Name an explicit grade in the prompt ('consistent warm tungsten grade across all shots') and correct residual drift in an editor — treat AI output as footage, not finals.
The same character looks subtly different across renders and angles.
回避策: Anchor with reference inputs, reuse the exact descriptive sentence verbatim, and avoid extreme lens or lighting jumps between shots that must match.
Moderation blocks legitimate prompts — realistic people trigger it most, and Seedance is notably strict.
回避策: Soften toward stylization, drop brand names and celebrity likeness, or run the same brief on a different vendor; thresholds vary widely.
物理が破綻する:オブジェクトの瞬間移動、水や煙の不自然な動き、重さのない接触。
回避策: 動きが命のシーンは Seedance 2 にルーティング。他のモデルでは物理的なやり取りをシンプルに保ち、複雑な接触の瞬間はカットの裏に隠しましょう。
群衆が崩壊する——5〜6人を超えると顔がにじんで融合します。
回避策: 1〜3人に絞った構図にして、スケール感はシルエット・被写界深度・サウンドデザインで匂わせましょう。描かれたエキストラの代わりに。
マルチショット生成でショット間の色と光がズレます。
回避策: プロンプトでグレーディングを明示し(「全ショットで暖色タングステンのグレーディングを統一」)、残ったズレはエディタで補正——AI の出力は完成品ではなく素材として扱いましょう。
同じキャラクターが生成やアングルをまたぐと微妙に別人になります。
回避策: 参照入力でアンカーし、説明文を一字一句使い回し、つながるべきショット間ではレンズや照明の極端なジャンプを避けましょう。
モデレーションが正当なプロンプトをブロックします——リアルな人物が最大の引き金で、Seedance はとりわけ厳格です。
回避策: スタイライズ方向に和らげる、ブランド名や著名人の容姿を外す、または同じ案件を別ベンダーで実行する。しきい値は大きく異なります。
動画のプロンプト術:実戦公式
Google の Veo 公式ガイドと Kling の絵コンテドキュメントをベースに、レビュアーの実報告で検証した型です。
5つのスロットを順番に
被写体と動作を最初に、次にカメラ、それから光とグレーディング、最後に音。動画のプロンプトは形容詞より撮影用語に反応します——Google のガイドはカメラワークを名指しします:ドリーイン、トラッキング、クレーン、空撮、POV。
"バリスタが完成したラテをカウンター越しに滑らせる、腰の高さからゆっくりドリーイン、通りの窓から差し込む暖かい朝の光、カフェの柔らかなざわめきとカップが擦れる陶器の音"
同じ案件を書き直すと
迷子
"壮大でシネマティックなコーヒー動画、4k 超リアル、すごい品質、トレンド"
演出済み
"にぎわうカフェの中を運ばれていくコーヒーカップを追うトラッキングショット、浅いフォーカス、ゴールデンアワーの斜光、環境音はエスプレッソマシンの蒸気音、セリフなし"
品質ワードは何も買いません——どのモデルも最初から「シネマティック」を狙っています。書き直し版は、カメラワーク・フォーカス・光源・音風景という4つのレバーに語数を使っています。最初のプロンプトが一度も触れなかったものです。
安くドラフト、強く仕上げる
- 1Block the idea on Kling 2.6 or Veo Lite — five-second drafts at low resolution until composition and pacing feel right.
- 2Stress-check the keeper at full zoom: hands, faces, on-screen text, water, and anything that touches anything.
- 3Re-render on the closer — Kling 3.0 for cut sequences, Veo Quality for speech, Seedance 2 for motion — then take 1080p or 4K.
- 4Kling 2.6 か Veo Lite でアイデアを固める——構図とテンポが決まるまで、5秒・低解像度のドラフトで回します。
- 5残す1本をフルズームで精査:手、顔、画面内の文字、水、そして「何かに触れているもの」すべて。
- 6クローザーで再生成——カットつなぎは Kling 3.0、セリフは Veo Quality、モーションは Seedance 2——そして 1080p か 4K で書き出します。
モデル別、覚えておきたい癖
- Veo: put spoken lines in quotation marks and describe the soundscape explicitly — both are official guidance, not folklore.
- Kling 3.0: write each shot as its own sentence with duration and framing; shot lengths must add up to the total runtime.
- Seedance 2: physical verbs beat adjectives — 'fabric snaps in the wind' outperforms 'dramatic flowing dress.'
- Image-to-video on any model: the source frame is half the prompt — sharp, well-lit, single-subject images animate cleanest.
- Veo:セリフは引用符に入れ、音風景を明示的に書くこと——これは公式ガイドの指示であって、おまじないではありません。
- Kling 3.0:各ショットを長さと構図つきの独立した文で書くこと。ショットの合計は全体の尺に一致させます。
- Seedance 2:物理的な動詞は形容詞に勝ります——「布が風でバタッとはためく」は「ドラマチックで流れるようなドレス」を上回ります。
- どのモデルでも画像から動画:元のフレームがプロンプトの半分です——シャープで明るい、単一被写体の画像が一番きれいに動きます。
テキストから動画?画像から動画?
2つの出発点は、モデルとの2つの異なる契約です。
言葉から始める
テキストから動画はモデルに完全な創作の自由を渡します:構図も被写体も色も、すべてプロンプト次第。まだ存在しないシーンを思い描いているならこちら——そのぶん言い回しの試行錯誤は増えます。
写真から始める
画像から動画は、最初のフレームから被写体と構図を固定します。商品やポートレートの仕事がほぼ必ずここから始まる理由です。AI で写真を動かすなら、ブラインドランキング首位の Seedance 2 が第一候補、長めの尺のバリュー枠は Wan 2.6 です。
実用ルール:被写体がすでに存在するなら——商品、顔、場所——写真に撮って動かす。存在しないなら、言葉で書く。
このページで AI 動画を生成する方法
決めることは3つ、あとは生成するだけ——ツールはこのページ上部にあります。
案件を定義する
まずモードを——テキスト発か写真発か——次にお仕事の主役モデルを。上の6枚のカードが地図です。尺と解像度は出力先に合わせて設定します。
ショットを演出する
撮影用語で書きます:被写体と動作、カメラワークひとつ、光、音。セリフは一字一句、引用符で。
確認して再生成
動き・顔・音声同期をチェックし、変数は一度にひとつだけ調整。旗艦ティアで仕上げてダウンロード——透かしなし、商用利用込みです。
動画生成AI:使える答えだけ
予算を左右する質問に、公式ドキュメント・ブラインドランキング・レビュアーの定番所見から答えます。
プロダクションを完成させる
静止画も、ナレーションも、プレゼンターも——同じワークスペースで生成できます。
どんな物語にも、ふさわしいモデルがある
声は Veo、編集は Kling、モーションは Seedance、量産は Wan——ひとつの動画生成AIがすべてを載せています。監督のように指示を出して、音声込み・最大 4K で生成しましょう。