この対話セグメントのテキストを入力します。
この対話の声を選択します。
1人の話者
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
複数話者の対話
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
台本を「読む」のではなく「演じる」AI音声読み上げ
この音声読み上げツールは、再生ではなく演技のために作られた音声生成AIです。台本を書き、各行を113種の声から選んで割り当て、[whispers]・[excited]・[interrupting] のような音声タグで届け方を演出します。エンジンは ElevenLabs の v3 対話エンジン。表現力に振った世代で、現在は一般提供中。75言語を自動検出で話します。ページを読み上げてほしいだけならリーダーアプリで足ります。シーンを演じてほしいなら、ここがそのスタジオです。監督マニュアルは以下に。
「読み上げ」と「演じる」は別物です
「音声読み上げ」の名を持つツールは2種類あります。まず正しい種を選びましょう。
読み上げリーダーアプリ
消費のためのツールです:記事・PDF・画面を、安定したニュートラルな声で読み上げます——アクセシビリティや移動中のながら聴きのために。
情報のインプットには最適。コンテンツの制作用には作られていません。
音声演技エンジン — このページ
制作のためのツールです:台本の行、キャスティングされた声、感情の演出、複数話者のシーン——「ながら聴き」ではなく「公開する」ための出力。
音声そのものが商品なら、ここが正解です。
レビュアーは ElevenLabs のラインナップ内にも同じ線を引いています:平坦なナレーションには旧 v2 系が今も安定択、いっぽう感情・対話・演技が要る場面では、ここのエンジンである v3 が一貫して上、という評価です。
音声タグ:声へのト書き
エンジンが演じる角括弧の指示——ElevenLabs の公式ドキュメントは4つの役割に分類しています。
感情の切り替え
行の途中でも感情を設定・反転できます。読みは括弧に従います。
[excited] [annoyed] [sarcastic] [flustered] [sighs]
リズムとテンポ
句読点では届かない速度とためらいをコントロールします。
[fast-paced] [hesitates] [pause] [drawn out]
会話のターンと割り込み
対話ネイティブのグループ:話者が割り込み、かぶり、本物の会話のように行き交います。
[interrupting] [overlapping] [cuts in]
アイデンティティとキャラクター
声そのものを変えずに、声を役に押し込みます。
[childlike tone] [deep voice] [pirate voice] [robotic tone]
効果音まで括弧で渡せます——公式の例は [laughs] から [gunshot]、[explosion] まで。使い方はスパイスと同じ:1パッセージに1〜2個、演出したい言葉の直前に置きます。
このページで最も重要な設定
レビュアーの結論は毎回同じです:安定性モードが「どれだけ演技するか」と「どれだけリスクを取るか」を決めます。
Creative
最大の表現力と、音声タグへの最も強い反応——そして台本を超えて即興することがある、と公式に記載された傾向つき。
キャラクター芝居、ドラマ、平坦な読みが失敗になるすべての場面。テイクごとに確認を。
Natural
デフォルトにしてバランス点:元の声に近く、タグへの反応は安定、驚きは少なめ。
ポッドキャスト、解説動画、たいていの制作はここから。
Robust
最大の一貫性、最小のドラマ:長いパッセージでも揺れない安定した出力——ただし演出タグはほぼ無視します。
均一さが表現に勝る、長尺のニュートラルなナレーション。
実用ルール:演出するなら Creative か Natural、耐えるなら Robust。タグが演じるには余白が必要です。
複数の声のために書く
複数話者の出力は行単位です:各行が自分のテキストと自分の声を持ちます。
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
1行に1話者。
エディターは行ごとに声を割り当てます——行を交互にすれば会話が組み上がり、繰り返し登場するキャラクターには台本全体で固定の声を与えましょう。
5,000文字の予算を配分する。
上限は全行の合計です。2人のシーンなら予算は折半——括弧ひとつで表現できるト書きの無駄話は刈り込みましょう。
割り込みはダッシュではなくタグで演出する。
行頭の [interrupting] や [overlapping] が、エンジンに自然なタイミングでターンをぶつけさせます——句読点だけでは起こせない対話の挙動です。
生成前に一度、声に出して読む。
人間がつっかえる行は、モデルも同じところでつっかえます。ぎこちない台本は、どの声でもぎこちない音になります。
113種の声から、全部試さずにキャスティングする
すべての声に即時プレビューがあります。近道は「何を聴くか」を知っていることです。
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- 雰囲気ではなく役で選ぶ:ナレーター、司会、キャラクター——役ごとに3つに絞り、実際の book き出しの一行でプレビューしましょう。
- 対話はコントラストのあるペアが勝つ:似た2つの声は混ざります。誰が話しているか常にわかる、離れた声質を選びましょう。
- 声は言語に合わせる:同じ声でも言語によってアクセントが変わります——公開する言語でプレビューを。
- タグ調整の前にキャストを固定する:声を替えるとタイミングの感覚がリセットされます。誰が話すかを決めてから、どう話すかを演出しましょう。
このスタジオがこなす4つの制作
各カードで、案件と「効く演出」をセットで。
スタジオなしの2人ポッドキャスト
案件: 交互のモノローグではなく、掛け合いのある週次番組。
演出: コントラストのある2つの声、Natural モード、リアクションに [overlapping]、本当にハマる場所にだけ [laughs]。
返ってくるもの: 配信フィードに出せる、制作感のある会話エピソード。
プロデューサーのメモ: 掛け合いはゆるく書きましょう——台本が普段フェイクしている「呼吸の合い」は、割り込みタグが作ってくれます。
フルキャストのオーディオブック
案件: ナレーション+キャラクターごとの声を、章ごとに。
演出: 継続性のために Robust のナレーター。キャラクターの台詞は Creative で、シーンごとに感情タグ1個。
返ってくるもの: 録音ブースなしで聴き手を離さない、多声の章。
プロデューサーのメモ: 文字数予算内で章ごとに生成し、毎回同じキャストを使い回しましょう。
30秒スポットを5テイクで
案件: エネルギーと、一拍の間と、自信のあるクロージングが要る広告コピー。
演出: カリスマ性のある声1つ、Creative モード、開幕に [excited]、オファーの前に [pause]。
返ってくるもの: 数分で別パターンと A/B テストできる、放送テンポの読み。
プロデューサーのメモ: 数字と記号は言葉で書きましょう——「20%オフ」より「にじゅっパーセントオフ」の方がきれいに読まれます。
しゃべるアバターの声トラック
案件: プレゼンター動画には、まずナレーションが必要です。
演出: 安定した声1つ、Natural モード、タグは最小限——リップシンクはクリーンで均一な読みを好みます。
返ってくるもの: 本サイトの AIアバターツールにそのまま差し込める対話エンジンの声トラック。
プロデューサーのメモ: ドライに保つこと:強い感情タグや効果音は、後段のリップシンクと喧嘩します。
表現系 TTS が抵抗するところ
初めての監督を驚かせる5つの挙動と、それぞれの調整法。
Creative mode sometimes improvises beyond the script.
演出: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
演出: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
演出: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
演出: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
演出: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
Creative モードは時々、台本を超えて即興します。
演出: 表現力の対価として公式に記載されたトレードです。重要な行はオーディションし、Creative はキャラクターの見せ場に取っておき、作品の背骨は Natural に運ばせましょう。
タグがそのまま読まれる、または黙って無視されます。
演出: 3点チェックを順に:モード(Robust はタグを抑えます——上のモードへ)、位置(括弧は対象の言葉の直前に)、密度(1パッセージ1〜2個。積んだタグは食い合います)。
長いプロジェクトが5,000文字の天井に当たります。
演出: 台本を章に分け、声の割り当てとモードを生成間で固定し、ファイルをエディタでつなぎます——キャストが変わらない限り、一貫性は保たれます。
数字・記号・略語の読みが予測できません。
演出: 書き下しましょう:「Dr.」ではなく「ドクター」、年号をそう読んでほしいなら「にせんにじゅうろくねん」。台本は発音の契約書です。
マイナーな言語では、声によってアクセントが強く出ます。
演出: 確定前に対象言語で候補をプレビューしましょう——声のキャラクターは言語を越えますが、アクセントの質は75の選択肢の中で声ごとに差があります。
演出の手引き
ElevenLabs のベストプラクティスガイドを、制作の現場で検証した形に。
句読点はテンポ
読点は息継ぎ、句点は停止、三点リーダーは余韻、ダッシュは切断。エンジンは句読点をタイミングとして読みます——タグを足す前に、まずリズムを書き直しましょう。
タグは直後を演出する
括弧は、支配したい言葉の直前・正しい行の中に。行頭の [whispers] は行全体をささやきにし、文中に埋めれば、ささやくのは残りの部分だけです。
同じ台詞を、演出すると
平坦
"番組へおかえりなさい。今日はプロジェクトについて、とてもワクワクするお知らせがあります。"
演出済み
"[excited] 番組へおかえりなさい! [pause] 今日は……ついに、あのプロジェクトの話ができます。"
同じ言葉で、2つの演技。演出版は冒頭で感情にコミットし、タグと三点リーダーでサスペンスの一拍を買い、最後の芝居は句読点に任せています。
このスタジオか、録音ブースか、リーダーアプリか
言葉を音にする3つの方法。
このスタジオ
台本があり、演じられた音声が欲しいとき。対話、演出されたナレーション、キャラクターの声を、75言語で執筆スピードのまま生成できます。
録音ブース
特定の人間の演技、承認が要る法的な読み上げ、契約で人に紐づいたブランドボイスが必要なとき。
リーダーアプリ
テキストを音で消費したいとき。記事、PDF、画面の音声読み上げなど、聴くためのツールであって、作るためのツールではありません。
この AI音声読み上げスタジオの使い方
書いて、キャスティングして、演出する——ブースはこのページ上部にあります。
台本を行で書く
1行に1話者、合計5,000文字まで。頭の中ですでに聞こえている感情の拍に印をつけておきましょう。
声をキャスティングしてプレビュー
113種のライブラリから行ごとに声を割り当て——サンプル文ではなく、実際の書き出しの一行でプレビューを。
演出して、生成して、リテイク
音声タグを置き、安定性モードを選んで生成。シーン全体を回し直すのではなく、タグを調整して行単位でリテイクしましょう。
AI音声読み上げ:監督のための質問
演技・キャスティング・一貫性について、公式ドキュメントと制作の実例から答えます。
声は最初の一歩
顔をつける、映像に切り込む、シーンを組み立てる。
あなたの台本は、もうどう響きたいか知っている
声をキャスティングして、タグを置いて、モードを選ぶ。あとはこの AI音声読み上げスタジオが、75言語のどれでも演じて返します。登録後の無料体験クレジットで、まず1シーンお試しを。対話対応、このページの上部で。