Meta 发布音频/语音生成 AI 模型 Voicebox

软餐获悉,Meta 发布了最新的音频/语音生成 AI 模型 Voicebox。该模型可帮助创作者执行语音生成任务,例如完成音频编辑、采样和样式化等工作。Meta 举例说,该模型可帮助视障人士以他们的声音收听朋友发来的文本消息,或用自己的声音朗读外语。该模型还可帮助消除音频中汽车喇叭等不必要的干扰。

Voicebox 目前支持 6 种语言:英语、法语、西班牙语、德语、波兰语和葡萄牙语。该模型已接受了超过 50,000 小时的公共领域有声读物的录制语音和转录文本的训练,它还可以在给定周围语音和转录文本的情况下预测语音片段。

Meta 将微软 Vall-E 和 YourTTS 列为 Voicebox 的竞争产品。它表示 Voicebox 在比较单词错误率和风格相似性时优于这两种模型。Meta 不会向普通公众开放 Voicebox,该模型也不会开源。

Meta发布音频/语音生成AI模型Voicebox
(0)
余渝的头像余渝

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注