微软发布文本转语音 AI 语言模型 VALL-E:只需 3 秒样本即可模拟人声说话

微软发布文本转语音AI语言模型VALL-E:只需3 秒样本即可模拟人声说话

软餐获悉,微软在人工智能领域又获得了重要成果——微软日前发布了名为 “VALL-E” 的 “神经编解码器语言模型”,这是一种先进的 AI 驱动的文本转语音 (TTS) 系统。官方称,只需提供 3 秒钟的语音样本,就可以快速让 “VALL-E” 像样本提供人那样说话,并且它可提供更加逼真、自然的语调和情感。官方称,实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。

微软在 VALL-E 的演示页面上展示了大量经过训练输入的声音示例。由于微软仅提供了基于英文的语音示例,并且资料显示,微软使用了来自数千人的 60,000 小时英语语音音频输入(包括公共领域有声读物)构建和训练了该语言模型,因此尚不清楚 “VALL-E” 在中文语音上的表现。

不过,软餐(ruancan.com)注意到,“VALL-E” 项目的参与者名单中均为中文拼音姓名,该项目可能与微软中国有关。

微软发布文本转语音AI语言模型VALL-E:只需3 秒样本即可模拟人声说话
(0)
瞻宇的头像瞻宇

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注