solidot新版网站常见问题,请点击这里查看。

Google 支持一千种语言的大 AI 模型取得进展

Google 人工智能
Wilson (42865)发表于 2023年03月07日 23时04分 星期二

来自时间捕手
Google 宣布它正朝着支持一千种语言的大 AI 模型的目标前进。搜索巨人是在去年 11 月宣布千种语言倡议(1,000 Languages Initiative),旨在构建一个机器学习模型能翻译世界上最常用的 1000 种口语,给全世界居民带来更大的包容性。本周一,Google 分享了其 Universal Speech Model(USM)的更多信息。USM 是一个语音模型家族,有 20 亿个参数,使用 1200 万小时的语音和逾 300 种语言的 280 亿文本语句训练。Google 研究人员在预印本平台 arXiv 上发表了论文《Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages》,利用无标签多语言大数据集预训练模型,在较小的有标签数据集上微调,使之能识别代表性不足的语言。USM 已被 YouTube 用于生成隐藏式字幕,它还支持自动语音识别(ASR),自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等。现在 USM 支持逾 100 种语言,将作为一个基础去构建更庞大的语言系统。


https://arxiv.org/abs/2303.01037
https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html