이 대화 구간의 텍스트를 입력합니다.
이 대화의 목소리를 선택합니다.
1인 화자
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
다중 화자 대화
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
대본을 "읽지" 않고 "연기하는" 텍스트 음성 변환
이 텍스트 음성 변환 도구는 재생이 아니라 연기를 위해 만들어진 AI 음성 생성기입니다. 대본을 쓰고, 줄마다 113가지 목소리에서 골라 배정하고, [whispers]·[excited]·[interrupting] 같은 오디오 태그로 전달을 연출하세요. 엔진은 ElevenLabs의 v3 대화 엔진. 표현력에 올인한 세대로 현재 정식 제공 중이며 75개 언어를 자동 감지로 말합니다. 페이지를 읽어 주기만 바란다면 리더 앱으로 충분합니다. 장면을 연기해 주길 바란다면, 여기가 그 스튜디오입니다. 감독 매뉴얼은 아래에.
리더는 읽고, 퍼포머는 전달합니다
"텍스트 음성 변환"이라는 이름의 도구는 두 종류입니다. 먼저 맞는 쪽을 고르세요.
음성 읽기 리더 앱
소비를 위한 도구입니다. 기사, PDF, 화면을 일정하고 중립적인 목소리로 읽어 줍니다. 접근성과 이동 중 듣기를 위해서요.
정보 입력에는 최고지만 콘텐츠 제작용으로 만들어지지 않았습니다.
음성 연기 엔진 — 이 페이지
제작을 위한 도구입니다. 대본의 줄, 캐스팅된 목소리, 감정 연출, 다중 화자 장면. "틀어 두기"가 아니라 "발행하기" 위한 출력.
오디오 자체가 상품이라면 여기가 정답입니다.
리뷰어들은 ElevenLabs 라인업 안에도 같은 선을 긋습니다. 평탄한 내레이션엔 구형 v2 계열이 여전히 안정적인 선택이고, 감정·대화·연기가 필요한 곳에선 이 페이지의 엔진인 v3가 일관되게 우위라는 평가입니다.
오디오 태그: 목소리에게 주는 지문
엔진이 연기하는 대괄호 지시. ElevenLabs 공식 문서는 4가지 역할로 분류합니다.
감정 전환
줄 중간에도 감정을 설정하고 뒤집을 수 있습니다. 낭독은 괄호를 따릅니다.
[excited] [annoyed] [sarcastic] [flustered] [sighs]
리듬과 템포
문장 부호로 닿지 않는 속도와 머뭇거림을 통제합니다.
[fast-paced] [hesitates] [pause] [drawn out]
대화 턴과 끼어들기
대화 네이티브 그룹: 화자가 끼어들고, 겹치고, 진짜 대화처럼 오갑니다.
[interrupting] [overlapping] [cuts in]
정체성과 캐릭터
목소리 자체를 바꾸지 않고 목소리를 배역에 밀어 넣습니다.
[childlike tone] [deep voice] [pirate voice] [robotic tone]
효과음까지 괄호로 줄 수 있습니다. 공식 예시는 [laughs]부터 [gunshot], [explosion]까지. 쓰는 법은 향신료와 같습니다. 한 구절에 1~2개, 연출하고 싶은 말 바로 앞에 두세요.
이 페이지에서 가장 중요한 설정
리뷰어들의 결론은 매번 같습니다. 안정성 모드가 "얼마나 연기할지"와 "위험을 얼마나 감수할지"를 정합니다.
Creative
최대 표현력과 오디오 태그에 대한 가장 강한 반응. 그리고 대본을 넘어 즉흥할 수 있다고 공식 문서에 적힌 성향까지.
캐릭터 연기, 드라마, 평탄한 낭독이 곧 실패인 모든 장면. 테이크마다 확인하세요.
Natural
기본값이자 균형점: 원래 목소리에 충실하고, 태그 반응은 안정적이고, 돌발은 적습니다.
팟캐스트, 해설 영상, 대부분의 제작은 여기서 시작하세요.
Robust
최대 일관성, 최소 드라마: 긴 구절에도 흔들리지 않는 안정 출력. 다만 연출 태그는 거의 무시합니다.
균일함이 표현을 이기는 장편 중립 내레이션.
실전 규칙: 연출하려면 Creative나 Natural, 버티려면 Robust. 태그가 연기하려면 여백이 필요합니다.
여러 목소리를 위해 쓰기
다중 화자 출력은 줄 단위입니다. 각 줄이 자기 텍스트와 자기 목소리를 가집니다.
One line, one speaker.
The editor assigns a voice per line — alternate lines to build an exchange, and give each recurring character a fixed voice for the whole script.
Budget the 5,000 characters.
The cap covers all lines combined. A two-voice scene splits the budget — trim stage chatter that a single bracket can express instead.
Stage interruptions with tags, not dashes.
[interrupting] and [overlapping] at the start of a line cue the engine to collide turns naturally — the dialogue behavior punctuation alone cannot trigger.
Read it aloud once before generating.
If a human stumbles on the line, the model inherits the stumble. Awkward scripts make awkward audio in any voice.
한 줄에 한 화자.
편집기는 줄마다 목소리를 배정합니다. 줄을 번갈아 쓰면 대화가 조립되고, 반복 등장하는 캐릭터에겐 대본 전체에서 고정 목소리를 주세요.
5,000자 예산을 배분하세요.
상한은 전체 줄의 합계입니다. 2인 장면이면 예산은 반반. 괄호 하나로 표현될 지문의 군더더기는 쳐내세요.
끼어들기는 대시가 아니라 태그로 연출.
줄머리의 [interrupting]과 [overlapping]이 엔진에게 자연스러운 타이밍으로 턴을 부딪치게 합니다. 문장 부호만으론 일어나지 않는 대화 거동입니다.
생성 전에 한 번 소리 내어 읽기.
사람이 막히는 줄은 모델도 같은 곳에서 막힙니다. 어색한 대본은 어떤 목소리로도 어색하게 들립니다.
113가지 AI 목소리에서, 전부 듣지 않고 캐스팅하기
모든 목소리에 즉시 미리듣기가 있습니다. 지름길은 "무엇을 들을지" 아는 것입니다.
- Cast by role, not by vibe: narrator, host, character — shortlist three per role and preview each with your actual opening line.
- Contrast pairs win in dialogue: two similar voices blur together; pick distinct registers so listeners always know who is speaking.
- Match voice to language: accents shift between languages on the same voice — preview in the language you will publish.
- Lock the cast before tuning tags: changing a voice resets your sense of timing. Decide who speaks, then direct how.
- 분위기가 아니라 배역으로 고르세요. 내레이터, 진행자, 캐릭터. 배역마다 3개로 좁히고 실제 첫 문장으로 미리 들으세요.
- 대화는 대비되는 페어가 이깁니다. 비슷한 두 목소리는 섞입니다. 누가 말하는지 항상 알 수 있는, 거리가 있는 음색을 고르세요.
- 목소리는 언어에 맞추세요. 같은 목소리도 언어에 따라 억양이 달라집니다. 발행할 언어로 미리 들으세요.
- 태그 조정 전에 캐스팅부터 고정하세요. 목소리를 바꾸면 타이밍 감각이 리셋됩니다. 누가 말할지 정한 뒤에 어떻게 말할지를 연출하세요.
이 스튜디오가 해내는 4가지 제작
각 카드에서 브리프와 "통하는 연출"을 함께.
스튜디오 없는 2인 팟캐스트
브리프: 번갈아 읽는 독백이 아니라 주고받는 호흡이 있는 주간 방송.
연출: 대비되는 두 목소리, Natural 모드, 리액션에 [overlapping], 진짜 어울리는 곳에만 [laughs].
돌아오는 것: 팟캐스트 피드에 올릴 수 있는, 제작감 있는 대화 에피소드.
프로듀서 메모: 주고받기는 느슨하게 쓰세요. 대본이 평소 흉내만 내던 "호흡 맞음"은 끼어들기 태그가 만들어 줍니다.
풀 캐스트 오디오북
브리프: 내레이션 + 캐릭터별 목소리를 장 단위로.
연출: 연속성을 위한 Robust 내레이터. 캐릭터 대사는 Creative로, 장면당 감정 태그 1개.
돌아오는 것: 녹음 부스 없이 청자를 붙잡는 다성부 챕터.
프로듀서 메모: 글자 수 예산 안에서 장 단위로 생성하고 매번 같은 캐스팅을 재사용하세요.
30초 스팟을 다섯 테이크로
브리프: 에너지와 한 박자 쉼, 자신 있는 클로징이 필요한 광고 카피.
연출: 카리스마 있는 목소리 하나, Creative 모드, 오프닝에 [excited], 제안 직전에 [pause].
돌아오는 것: 몇 분 안에 다른 버전과 A/B 테스트할 수 있는 방송 템포의 낭독.
프로듀서 메모: 숫자와 기호는 말로 풀어 쓰세요. "20% 할인"보다 "이십 퍼센트 할인"이 깨끗하게 읽힙니다.
말하는 아바타의 보이스 트랙
브리프: 진행자 영상에는 먼저 내레이션이 필요합니다.
연출: 안정적인 목소리 하나, Natural 모드, 태그는 최소한으로. 립싱크는 깨끗하고 균일한 낭독을 좋아합니다.
돌아오는 것: 이 사이트의 AI 아바타 도구에 그대로 꽂히는 보이스 트랙.
프로듀서 메모: 건조하게 유지하세요. 강한 감정 태그와 효과음은 다음 단계의 립싱크와 싸웁니다.
표현형 TTS가 버티는 곳
첫 연출자를 놀라게 하는 5가지 거동과 각각의 조정법.
Creative mode sometimes improvises beyond the script.
연출: That is the documented trade for expressiveness. Audition important lines, keep Creative for character moments, and let Natural carry the spine of the piece.
A tag gets read literally or silently skipped.
연출: Three checks in order: the mode (Robust dampens tags — move up), the placement (brackets directly before the target words), the density (one or two per passage; stacked tags compete).
Long projects hit the 5,000-character ceiling.
연출: Chapter the script, keep voice assignments and mode identical across renders, and join the files in an editor — consistency holds because the cast never changed.
Numbers, symbols, and abbreviations read unpredictably.
연출: Write them out: "doctor" not "Dr.", "twenty twenty-six" when you want the year spoken that way. The script is the pronunciation contract.
Smaller languages carry stronger accents on some voices.
연출: Preview candidates in the target language before committing — voice character travels, but accent quality varies voice by voice across the 75 options.
Creative 모드는 가끔 대본을 넘어 즉흥합니다.
연출: 표현력의 대가로 공식 문서에 명시된 거래입니다. 중요한 줄은 오디션하고, Creative는 캐릭터의 하이라이트에 아끼고, 작품의 척추는 Natural에 맡기세요.
태그가 그대로 읽히거나 조용히 무시됩니다.
연출: 3가지를 순서대로 점검하세요. 모드(Robust는 태그를 누릅니다. 위 모드로), 위치(괄호는 대상 단어 바로 앞), 밀도(한 구절 1~2개. 쌓인 태그는 서로 잡아먹습니다).
긴 프로젝트가 5,000자 천장에 부딪힙니다.
연출: 대본을 장으로 나누고, 목소리 배정과 모드를 생성 사이에 고정하고, 파일을 편집기에서 이으세요. 캐스팅이 변하지 않는 한 일관성은 유지됩니다.
숫자, 기호, 약어의 읽기가 예측 불가합니다.
연출: 풀어 쓰세요. "Dr."가 아니라 "닥터", 연도를 그렇게 읽길 원하면 "이천이십육 년". 대본은 발음의 계약서입니다.
마이너 언어에서는 목소리에 따라 억양이 강하게 묻어납니다.
연출: 확정 전에 대상 언어로 후보를 미리 들으세요. 목소리의 캐릭터는 언어를 넘지만, 억양의 품질은 75개 선택지 안에서 목소리마다 다릅니다.
연출 플레이북
ElevenLabs 모범 사례 가이드를 제작 현장에서 검증한 형태로.
문장 부호는 템포
쉼표는 숨, 마침표는 정지, 말줄임표는 여운, 대시는 단절. 엔진은 문장 부호를 타이밍으로 읽습니다. 태그를 더하기 전에 먼저 리듬을 고쳐 쓰세요.
태그는 바로 뒤를 연출
괄호는 지배하고 싶은 단어 바로 앞, 맞는 줄 안에. 줄머리의 [whispers]는 줄 전체를 속삭임으로 만들고, 문장 중간에 심으면 속삭이는 건 그 뒤뿐입니다.
같은 대사를 연출하면
평탄
"방송에 돌아오신 걸 환영합니다. 오늘은 프로젝트에 대해 아주 신나는 소식이 있습니다."
연출됨
"[excited] 방송에 돌아오신 걸 환영합니다! [pause] 오늘은... 드디어, 그 프로젝트 이야기를 할 수 있게 됐습니다."
같은 말, 두 가지 연기. 연출판은 첫머리에서 감정에 올인하고, 태그와 말줄임표로 서스펜스의 한 박자를 사고, 마지막 연기는 문장 부호에 맡깁니다.
이 스튜디오냐, 녹음 부스냐, 리더 앱이냐
말을 소리로 만드는 세 가지 방법.
이 스튜디오
대본이 있고 연기된 오디오가 필요할 때. 대화, 연출된 내레이션, 캐릭터 목소리를 75개 언어로, 집필 속도 그대로.
녹음 부스
특정 인간의 연기, 승인이 필요한 법적 낭독, 계약으로 사람에 묶인 브랜드 보이스가 필요할 때.
리더 앱
텍스트를 소리로 소비하고 싶을 때. 기사, PDF, 화면. 듣기 위한 도구이지 만들기 위한 도구가 아닙니다.
텍스트 음성 변환 스튜디오 사용법
쓰고, 캐스팅하고, 연출하기. 부스는 페이지 상단에 있습니다.
대본을 줄로 쓰기
한 줄에 한 화자, 합계 5,000자까지. 머릿속에서 이미 들리는 감정의 박자에 표시해 두세요.
목소리 캐스팅과 미리듣기
113가지 라이브러리에서 줄마다 목소리를 배정하세요. 샘플 문장이 아니라 실제 첫 문장으로 미리 듣고요.
연출, 생성, 리테이크
오디오 태그를 놓고 안정성 모드를 골라 생성하세요. 장면 전체를 다시 돌리지 말고 태그를 조정해 줄 단위로 리테이크하면 됩니다.
텍스트 음성 변환: 감독을 위한 질문
연기, 캐스팅, 일관성에 대해 공식 문서와 제작 사례로 답합니다.
목소리는 첫걸음
얼굴을 입히고, 영상에 끼우고, 장면을 조립하세요.
내 대본은 이미 어떻게 들리고 싶은지 알고 있다
목소리를 캐스팅하고, 태그를 놓고, 모드를 고르세요. 나머지는 이 텍스트 음성 변환 스튜디오가 75개 언어 어느 쪽으로든 연기해 돌려줍니다. 가입 후 무료 체험 크레딧으로 첫 장면을 시도해 보세요. 대화 지원, 이 페이지 상단에서.