软餐获悉,微软在人工智能领域又获得了重要成果——微软日前发布了名为 “VALL-E” 的 “神经编解码器语言模型”,这是一种先进的 AI 驱动的文本转语音 (TTS) 系统。官方称,只需提供 3 秒钟的语音样本,就可以快速让 “VALL-E” 像样本提供人那样说话,并且它可提供更加逼真、自然的语调和情感。官方称,实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。
微软在 VALL-E 的演示页面上展示了大量经过训练输入的声音示例。由于微软仅提供了基于英文的语音示例,并且资料显示,微软使用了来自数千人的 60,000 小时英语语音音频输入(包括公共领域有声读物)构建和训练了该语言模型,因此尚不清楚 “VALL-E” 在中文语音上的表现。
不过,软餐(ruancan.com)注意到,“VALL-E” 项目的参与者名单中均为中文拼音姓名,该项目可能与微软中国有关。