🔊 视频转语音

将任何视频转换成其他语言的语音

粘贴视频链接或上传文件。Dokitscript 自动转录、翻译,再由 ElevenLabs 生成自然 AI 语音,下载即用。

TikTok · Instagram · YouTube · Facebook · X · LinkedIn · 2026 年 6 月更新

免费试用视频转语音 →
首次转录无需注册  ·  语音合成需要 Starter 套餐

如何将视频转换成其他语言的音频?将视频链接粘贴到 Dokitscript(或上传文件),等待转录完成,使用 AI 翻译功能将文字翻译成目标语言,然后点击「试听」。Dokitscript 调用 ElevenLabs 的 eleven_multilingual_v2 模型,生成自然语音并输出可下载的 128 kbps MP3 文件。转录使用 OpenAI Whisper,支持 90+ 种语言;语音合成支持约 29 种语言,需要 Starter 套餐或更高级别。

四步将视频转换成语音

无需安装任何软件,在浏览器中即可完成全部操作。

1

粘贴链接或上传文件

粘贴 TikTok、Instagram、YouTube、Facebook、X 或 LinkedIn 的视频链接,或上传最大 50 MB 的音频/视频文件。

2

OpenAI Whisper 自动转录

Dokitscript 支持 90+ 种语言自动转录,自动识别语言,也可手动选择。

3

AI 翻译成目标语言

使用 AI 翻译功能,将转录文字翻译成中文、英语、法语、西班牙语、日语等支持的语言。

4

点击「试听」,下载 MP3

ElevenLabs 生成自然 AI 语音,朗读翻译后的文字,输出 128 kbps 的 MP3 文件供下载。

视频转语音包含哪些功能?

从链接到 MP3,一站式完成。

🎙️

ElevenLabs 自然 AI 语音

使用 ElevenLabs 的 eleven_multilingual_v2 模型生成语音,是目前最自然的多语言 AI 语音之一。

🌍

转录支持 90+ 种语言

OpenAI Whisper 处理语音转文字,自动识别语言,支持超过 90 种语言转录。

🔤

内置 AI 翻译

翻译步骤由 Claude AI 驱动,在转换成语音前生成流畅自然的翻译文本。

⬇️

128 kbps MP3 下载

输出标准 MP3 文件,可在播客、视频剪辑、语言学习应用或无障碍工具中直接使用。

🔗

支持所有主流平台

粘贴 TikTok、Instagram Reels、YouTube Shorts、YouTube、Facebook、X(Twitter)或 LinkedIn 的链接,也支持本地文件上传。

📝

同时提供文字转录

在获得 MP3 的同时,完整的转录文字和翻译文本也一并提供,可随时导出为 TXT 或 SRT 格式。

语音合成支持哪些语言?

转录和语音合成覆盖不同的语言范围,以下是详细说明。

转录 — 90+ 种语言(OpenAI Whisper)

Dokitscript 可转录超过 90 种语言的语音,包括中文、英语、法语、西班牙语、阿拉伯语、印地语、日语、韩语、葡萄牙语、德语、意大利语等,自动识别语言。

语音合成 — 约 29 种语言(ElevenLabs)

MP3 语音输出由 ElevenLabs 驱动,目前支持约 29 种语言:

中文 英语 法语 西班牙语 德语 意大利语 葡萄牙语 波兰语 土耳其语 俄语 荷兰语 捷克语 阿拉伯语 日语 韩语 印地语 印度尼西亚语 菲律宾语 瑞典语 保加利亚语 罗马尼亚语 希腊语 芬兰语 克罗地亚语 斯洛伐克语 丹麦语 泰米尔语 乌克兰语

注意:转录支持 90+ 种语言;语音合成支持约 29 种语言。若目标语言不在语音列表中,您仍可获得翻译后的文字转录稿。

哪些人在使用视频转语音?

适合所有需要将视频内容触达不同语言受众的场景。

内容二次创作

将 TikTok 或 Instagram Reels 视频转换成其他语言的配音,创作者无需重新录制就能触达海外受众。

语言学习

转录一段外语视频,翻译后收听 MP3,用真实内容训练听力。适合学生和自学者。

无障碍访问

将文章或转录稿转换成音频,方便有视觉障碍的用户,或更适合通勤途中收听。

播客制作

将播客节目翻译成第二语言并生成配音轨道,作为面向国际听众的附加内容。

企业培训

将录制的培训课程或教学视频转换成多语言音频,便于跨国团队使用。

配音草稿

在雇用专业配音演员之前,先用 AI 语音生成 MP3 作为参考配音,节省早期制作时间。

视频转语音功能的局限说明:本功能不会替换或修改原视频文件中的音频,不支持口型同步配音,不克隆原说话人的声音,也不提供多种 AI 声音选择。输出结果是独立的 MP3 音频文件——这是一个配音音频,而非配音视频。

每个套餐包含多少分钟的语音合成?

所有套餐均可使用转录和翻译功能。语音合成需要 Starter 或更高级别套餐。

套餐 价格 每月转录次数 最长视频时长 语音合成(MP3)
免费版 $0 5 次/月 3 分钟 不可用
Starter $4.99/月 200 次/月 8 分钟 6 分钟/月
Pro $14.99/月 无限次 45 分钟 60 分钟/月
Business $79.99/月 无限次 5 小时 240 分钟/月

音频时长按每次生成的 MP3 计算,未用完的额度不结转至下月。查看完整价格方案 →

视频转语音 — 常见问题解答

粘贴视频链接(或上传文件)到 Dokitscript,等待转录完成后,使用 AI 翻译功能将文字翻译成目标语言,然后点击「试听」。Dokitscript 通过 ElevenLabs 生成自然语音 MP3 文件供下载。整个流程大约需要几分钟。
支持粘贴 TikTok、Instagram Reels、YouTube(含 Shorts)、Facebook、X(Twitter)和 LinkedIn 的视频链接。也可以上传本地音频或视频文件(MP3、WAV、M4A、MP4、WebM,最大 50 MB)。
转录通过 OpenAI Whisper 支持 90+ 种语言。语音合成(MP3 输出)通过 ElevenLabs eleven_multilingual_v2 支持约 29 种语言,包括中文、英语、法语、西班牙语、德语、日语、韩语、阿拉伯语、葡萄牙语、印地语等。
下载的 MP3 文件以 128 kbps 编码,适合用于配音、播客、语言学习和无障碍场景。
不支持。当前功能生成的是独立的 MP3 音频文件,由 AI 自然朗读翻译后的文字。不替换或同步原视频中的音频,不克隆原说话人的声音,也不提供多种声音选择。输出的是配音音频文件,而非配音视频。
语音合成功能需要 Starter 套餐或更高级别。免费套餐提供转录和 AI 文字翻译,但不含 MP3 音频输出。Starter 每月包含 6 分钟音频,Pro 60 分钟,Business 240 分钟。
AI 转录是将语音转换成文字。视频转语音更进一步:先转录视频,再将文字翻译成其他语言,最后将翻译后的文字转换成语音 MP3 文件。这是「语音→文字→语音」的完整流程,中间加入了翻译步骤。
可以。免费套餐提供转录和翻译功能(每月 5 次转录,AI 翻译每月最多 3 次)。MP3 语音合成步骤需要 Starter 套餐或更高级别,起价 $4.99/月。

探索 Dokitscript 的更多功能

立即将视频转换成语音

免费开始,语音合成从 $4.99/月起。无需安装任何软件。

免费注册 →