奇客Solidot | 微软新文本语音模型能在 3 秒内复制任何人的声音

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 6470 次

微软新文本语音模型能在 3 秒内复制任何人的声音

Wilson (42865)发表于 2023年01月09日 21时27分星期一

来自华龙之宫

微软新文本语音模型 VALL-E 只要听 3 秒钟的声音样本就能复制任何人的声音。VALL-E 是一种基于转换器（transformer）的文本语音模型，比之前的模型有显著的改进，旧的模型需要长时间训练才能生成新的声音。此外，在生成的语音中声音的语调、卡里斯马（或魅力）和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。

https://valle-demo.github.io/
https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

程序员的问题是你无法预料他在做什么，直到为时已晚--Seymour Cray

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn