奇客Solidot | 大模型如何工作仍然是个谜团

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 6016 次

大模型如何工作仍然是个谜团

Wilson (42865)发表于 2024年03月06日 23时02分星期三

来自霸主的影子

两年前 OpenAI 研究员 Yuri Burda 和 Harri Edwards 试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始，他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了，大模型能完成任意加法，只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究，发现在特定情况下大模型会突然从无法完成任务到能完成任务，他们称之为“领悟（grokking）”。领悟是让 AI 研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实：没人知道它是如何工作，或为什么它能工作。现在最大的模型是如此复杂，以至于研究人员像研究奇特的自然现象那样研究它们，他们进行实验并试图解释结果。很多观察结果违背了经典统计学。

https://www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/

程序员的问题是你无法预料他在做什么，直到为时已晚--Seymour Cray

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn