奇客Solidot | 微软新 AI 模型能理解图像内容解决视觉难题

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 3710 次

微软新 AI 模型能理解图像内容解决视觉难题

Wilson (42865)发表于 2023年03月02日 22时07分星期四

来自机械人生

微软研究人员在预印本网站 arXiv 发表论文，介绍了它的多模大语言模型 Kosmos-1，能理解图像内容，解决视觉难题，执行视觉文本识别，通过视觉 IQ 测试，理解自然语言指令。研究人员认为，集成文本、音频、图像和视频等不同输入模式的多模 AI 模型是构建通用 AI（AGI）的关键一步。研究人员称，作为智能的基本组成部分，多模感知是实现 AGI 所必不可少的。Kosmos-1 能分析图像并回答关于相关问题，能从图像中读取文本，为图像写标题，以 22-26% 的准确率完成视觉 IQ 测试。微软使用来自 Web 的数据训练 Kosmos-1，包括 The Pile（800GB 容量的英文文本资源）和 Common Crawl。训练后通过一系列测试去评估了 Kosmos-1 的能力。微软称，在众多测试中，Kosmos-1 的表现超过了目前最先进的模型。

https://arxiv.org/abs/2302.14045
https://arstechnica.com/?p=1920920

所有小说写的都是真事。怕吓着你们才叫小声说。 --王朔

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn