🔊 영상 음성 변환

영상을 다른 언어 음성으로 변환하기

영상 URL을 붙여넣거나 파일을 업로드하세요. Dokitscript가 받아쓰기·번역·ElevenLabs AI 음성 MP3 생성을 한 번에 처리합니다.

TikTok · 인스타그램 · 유튜브 · 페이스북 · X · LinkedIn · 2026년 6월 업데이트

무료로 영상 음성 변환 시작하기 →
첫 번째 받아쓰기는 가입 없이 무료  ·  음성 생성은 Starter 플랜부터

영상을 다른 언어 음성으로 어떻게 변환하나요? 영상 URL을 붙여넣거나 파일을 업로드한 뒤 받아쓰기가 완료되면, AI 번역 기능으로 원하는 언어로 번역하고 '음성 듣기' 버튼을 클릭하면 됩니다. Dokitscript는 ElevenLabs의 eleven_multilingual_v2 모델로 자연스러운 AI 음성을 생성해 128kbps MP3 파일로 다운로드할 수 있습니다. 받아쓰기는 OpenAI Whisper로 90개 이상 언어를 처리하며, 음성 생성은 약 29개 언어를 지원하고 Starter 플랜 이상이 필요합니다.

영상을 음성으로 변환하는 4단계

설치할 프로그램이 없습니다. 브라우저에서 바로 작동합니다.

1

URL 붙여넣기 또는 파일 업로드

TikTok, 인스타그램, 유튜브, 페이스북, X, LinkedIn 영상 URL을 붙여넣거나 오디오·영상 파일(최대 50MB)을 업로드하세요.

2

OpenAI Whisper로 받아쓰기

Dokitscript가 90개 이상 언어로 영상을 받아씁니다. 말한 언어를 자동으로 감지하거나 직접 선택할 수 있습니다.

3

원하는 언어로 번역

AI 번역 기능으로 자막을 한국어, 영어, 일본어, 스페인어 등 원하는 언어로 번역하세요.

4

음성 듣기 클릭 — MP3 다운로드

ElevenLabs가 번역된 텍스트를 자연스러운 AI 음성으로 읽어줍니다. 결과물을 128kbps MP3 파일로 다운로드하세요.

영상 음성 변환에 포함된 기능

URL에서 MP3까지, 하나의 도구로 완성됩니다.

🎙️

ElevenLabs 자연스러운 AI 음성

ElevenLabs의 eleven_multilingual_v2 모델로 오디오를 생성합니다. 현재 가장 자연스러운 다국어 AI 음성 중 하나입니다.

🌍

90개 이상 언어 받아쓰기

OpenAI Whisper로 음성을 텍스트로 변환합니다. 말한 언어를 자동으로 감지하며 90개 이상의 언어를 지원합니다.

🔤

AI 번역 내장

번역 단계는 Claude AI로 실행되며 음성 변환 전에 자연스러운 번역 텍스트를 생성합니다.

⬇️

128kbps MP3 다운로드

출력 오디오는 표준 MP3 파일로 팟캐스트, 영상 편집기, 언어 학습 앱, 접근성 도구에서 바로 사용할 수 있습니다.

🔗

주요 플랫폼 모두 지원

TikTok, 인스타그램 릴스, 유튜브 쇼츠, 유튜브, 페이스북, X(트위터), LinkedIn URL을 붙여넣으세요. 로컬 파일 업로드도 가능합니다.

📝

텍스트 자막 포함

MP3와 함께 전체 원문 자막과 번역 텍스트도 제공됩니다. 언제든지 TXT 또는 SRT로 내보낼 수 있습니다.

음성 생성은 몇 개 언어를 지원하나요?

받아쓰기와 음성 생성은 지원 언어 범위가 다릅니다. 정확한 정보를 알려드립니다.

받아쓰기 — 90개 이상 언어 (OpenAI Whisper)

Dokitscript는 영어, 프랑스어, 스페인어, 아랍어, 중국어, 힌디어, 일본어, 한국어, 포르투갈어, 독일어, 이탈리아어 등 90개 이상의 언어로 된 음성을 받아씁니다. 말한 언어는 자동으로 감지됩니다.

음성 생성 — 약 29개 언어 (ElevenLabs)

MP3 음성 출력은 ElevenLabs 기반으로 현재 약 29개 언어를 지원합니다:

영어 프랑스어 스페인어 독일어 이탈리아어 포르투갈어 폴란드어 터키어 러시아어 네덜란드어 체코어 아랍어 중국어 일본어 한국어 힌디어 인도네시아어 필리핀어 스웨덴어 불가리아어 루마니아어 그리스어 핀란드어 크로아티아어 슬로바키아어 덴마크어 타밀어 우크라이나어

참고: 받아쓰기는 90개 이상 언어를 지원하지만 음성 생성은 약 29개 언어만 지원합니다. 목표 언어가 음성 생성 목록에 없어도 번역된 텍스트 자막은 제공됩니다.

영상 음성 변환, 어디에 쓰나요?

다른 언어 시청자에게 음성 콘텐츠를 전달해야 하는 모든 상황에서 활용됩니다.

콘텐츠 재활용

TikTok이나 인스타그램 릴스를 다른 언어 보이스오버로 변환하세요. 다시 녹음하지 않고도 해외 시청자에게 닿을 수 있습니다.

언어 학습

외국어 영상을 받아쓰고 번역한 뒤 MP3로 들으며 귀를 훈련하세요. 실제 콘텐츠로 공부하는 학습자에게 유용합니다.

접근성

시각 장애가 있는 사용자를 위해 글이나 자막을 오디오 파일로 변환하거나, 이동 중에 읽기보다 듣기를 선호하는 분들을 위해 활용하세요.

팟캐스트 제작

에피소드를 두 번째 언어로 번역하고 보이스오버 트랙을 생성하세요. 해외 청취자를 위한 보너스 에피소드로 추가할 수 있습니다.

교육 및 연수

녹화된 강의나 기업 교육 영상을 여러 언어 오디오 파일로 변환해 다국적 팀에 제공하세요.

보이스오버 초안

성우를 고용하기 전에 AI 음성 MP3로 스크래치 트랙을 만들어보세요. 제작 초기 단계에서 시간을 절약할 수 있습니다.

영상 음성 변환이 하지 않는 것: 원본 영상 파일 내의 오디오를 교체하거나 더빙하지 않습니다. 생성된 음성을 영상의 입모양과 동기화(립싱크)하지 않습니다. 원래 화자의 음성을 복제하지 않습니다. 여러 AI 음성 중에서 선택하는 기능을 제공하지 않습니다. 출력물은 더빙된 영상이 아닌 독립형 MP3 보이스오버 파일입니다.

오디오 시간은 얼마나 제공되나요?

받아쓰기와 번역은 모든 플랜에서 사용 가능합니다. 음성 생성은 Starter 이상이 필요합니다.

플랜 가격 받아쓰기 횟수 최대 영상 길이 오디오 생성(MP3)
무료 $0 월 5회 3분 사용 불가
Starter $4.99/월 월 200회 8분 월 6분
Pro $14.99/월 무제한 45분 월 60분
Business $79.99/월 무제한 5시간 월 240분

오디오 시간은 생성된 MP3마다 차감됩니다. 사용하지 않은 시간은 다음 달로 이월되지 않습니다. 전체 요금제 보기 →

영상 음성 변환 — 자주 묻는 질문

영상을 다른 언어 음성으로 어떻게 변환하나요?
영상 URL을 붙여넣거나 파일을 업로드하면 Dokitscript가 받아쓰기를 완료합니다. 이후 AI 번역 기능으로 원하는 언어로 번역한 뒤, '음성 듣기' 버튼을 클릭하면 ElevenLabs AI 음성으로 128kbps MP3 파일이 생성됩니다. 전체 과정은 몇 분 안에 완료됩니다.
어떤 영상 플랫폼을 지원하나요?
TikTok, 인스타그램 릴스, 유튜브(쇼츠 포함), 페이스북, X(트위터), LinkedIn URL을 붙여넣을 수 있습니다. MP3, WAV, M4A, MP4, WebM 등 로컬 파일 업로드(최대 50MB)도 가능합니다.
음성 생성은 몇 개 언어를 지원하나요?
받아쓰기는 OpenAI Whisper 기반으로 90개 이상 언어를 지원합니다. 음성 생성(MP3 출력)은 ElevenLabs eleven_multilingual_v2 기반으로 약 29개 언어를 지원하며, 영어·프랑스어·스페인어·독일어·이탈리아어·포르투갈어·폴란드어·터키어·러시아어·네덜란드어·체코어·아랍어·중국어·일본어·한국어·힌디어·인도네시아어·필리핀어·스웨덴어·불가리아어·루마니아어·그리스어·핀란드어·크로아티아어·슬로바키아어·덴마크어·타밀어·우크라이나어가 포함됩니다.
MP3 오디오 품질은 어떻게 되나요?
다운로드되는 MP3 파일은 128kbps로 인코딩됩니다. 보이스오버, 팟캐스트, 언어 학습, 접근성 용도에 적합한 품질입니다.
영상 음성 변환은 립싱크 더빙이나 음성 복제를 지원하나요?
아니요. 현재 기능은 번역된 텍스트를 자연스러운 AI 음성으로 읽어주는 독립형 MP3 파일을 생성합니다. 원본 영상의 오디오를 교체하거나 립싱크 처리하지 않으며, 원래 화자의 음성을 복제하거나 여러 음성 중에서 선택하는 기능은 없습니다. 결과물은 더빙된 영상이 아닌 보이스오버 오디오 파일입니다.
음성 생성을 사용하려면 어떤 요금제가 필요한가요?
음성 생성(MP3 출력)은 Starter 플랜 이상이 필요합니다. 무료 플랜에서는 받아쓰기와 AI 텍스트 번역을 사용할 수 있지만 MP3 오디오 출력은 포함되지 않습니다. Starter는 월 6분, Pro는 월 60분, Business는 월 240분의 오디오 생성 시간이 제공됩니다.
AI 받아쓰기와 영상 음성 변환의 차이는 무엇인가요?
AI 받아쓰기는 음성을 텍스트로 변환합니다. 영상 음성 변환은 한 단계 더 나아가 영상 받아쓰기 → 다른 언어로 번역 → 번역된 텍스트를 MP3 음성으로 재변환하는 과정을 거칩니다. 중간에 번역 단계가 포함된 '음성→텍스트→음성' 파이프라인입니다.
무료로 체험할 수 있나요?
네. 무료 플랜으로 받아쓰기와 번역을 체험할 수 있습니다(무료 플랜: 월 5회 받아쓰기, AI 번역 월 3회 포함). MP3 오디오 생성은 월 $4.99부터 시작하는 Starter 플랜 이상이 필요합니다.

Dokitscript의 다른 기능

지금 바로 영상을 음성으로 변환하세요

무료로 시작. 음성 생성은 월 $4.99부터. 설치 필요 없음.

무료 계정 만들기 →