奇客Solidot | OpenAI 研究员发现最好的 AI 也无法解决大部分编程问题

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 4099 次

OpenAI 研究员发现最好的 AI 也无法解决大部分编程问题

Wilson (42865)发表于 2025年02月24日 14时26分星期一

来自智者之惧

OpenAI 研究员发现即使是最先进的 AI 模型也无法解决大部分它们没见过的编程问题。研究报告发表在预印本平台 arXiv。研究人员利用了一个新开发的基准测试 SWE-Lancer，该测试是基于自由职业网站 Upwork 上的逾 1,400 道软件工程问题，测试针对了三个大模型：OpenAI 的 o1 推理模型和 GPT-4o，以及 Anthropic 的 Claude 3.5 Sonnet。大模型被禁止联网，以免拷贝网上已经发布的类似问题答案。结果显示，Claude 3.5 Sonnet 的表现更出色，然而它的大部分答案也都是错误的。研究人员称，大模型需要提高可靠性才能被信任去完成现实中的编程问题。大模型在处理未知问题上仍然远逊色人类工程师。

arXiv:2502.12115

罗马帝国灭亡的其中一个主要原因是他们没有0 - 这样他们就没法给自己的C程序指明成功退出的路--Robert Firth

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn