微软发布文本转语音 AI 语言模型 VALL-E：只需 3 秒样本即可模拟人声说话

软餐获悉，微软在人工智能领域又获得了重要成果——微软日前发布了名为 “VALL-E” 的 “神经编解码器语言模型”，这是一种先进的 AI 驱动的文本转语音 (TTS) 系统。官方称，只需提供 3 秒钟的语音样本，就可以快速让 “VALL-E” 像样本提供人那样说话，并且它可提供更加逼真、自然的语调和情感。官方称，实验结果表明，VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。

微软在 VALL-E 的演示页面上展示了大量经过训练输入的声音示例。由于微软仅提供了基于英文的语音示例，并且资料显示，微软使用了来自数千人的 60,000 小时英语语音音频输入（包括公共领域有声读物）构建和训练了该语言模型，因此尚不清楚 “VALL-E” 在中文语音上的表现。

不过，软餐（ruancan.com）注意到，“VALL-E” 项目的参与者名单中均为中文拼音姓名，该项目可能与微软中国有关。

本站电报频道 / 电报群

微软发布文本转语音 AI 语言模型 VALL-E：只需 3 秒样本即可模拟人声说话

发表回复