LOADING

VALL-E

国外

VALL-E翻译站点

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为...

标签：音频AI

链接直达手机查看

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为条件语言建模任务，而不是像以前的工作那样连续信号回归。在预训练阶段，我们将 TTS 训练数据扩展到 60K 小时的英语语音，这是现有系统的数百倍。VALL-E 出现了上下文学习能力，可用于合成高质量的个性化语音，只需录制 3 秒的未见过的说话者的注册录音作为声音提示。实验结果表明，VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外，我们发现 VALL-E 可以在合成中保留说话者的情绪和声音提示的听觉环境。

相关导航

Cassette

Cassette能帮助您立即创作出高品质的节拍。凭借其先进的AI技术，Cassette可以生成与您的音乐视觉相匹配的独特节拍和节奏。只要向人工智能模型描述你的节拍，应用程序就会完成剩...

人工智能实现音乐转乐谱和人声伴奏分离

Lofi.co

网页端白噪音播放工具，打造你的专属环境。

TTS-Voice-Wizard

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Blogcast™

Blogcast™

BlogcastTM是一个文本转语音的工具，允许用户创建播客、视频、电子学习课程的音频和音频书籍，而无需录制。它由人工智能驱动的文本转语音技术提供支持，并提供多种声音和语言可供...

很灵活的AI配音网站，适合用来做有声书等比较精细化的配音