文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 白名单访问制...zzz (1 points, 一般) by devfsdvyui 在 2026年01月18日21时04分 星期日 评论到 伊朗恢复互联网访问
- 论人可以有多无耻 (1 points, 一般) by devfsdvyui 在 2026年01月18日21时00分 星期日 评论到 腾讯向逾 30 个 GitHub 微信相关项目发出 DMCA 通知
- 来自arm版遥遥无期 (1 points, 一般) by solidot1768413084 在 2026年01月15日01时52分 星期四 评论到 Wine 11.0 释出
- BaD kEyBoArd: TyPo (1 points, 一般) by lot 在 2025年12月07日14时54分 星期日 评论到 斯巴鲁车主抱怨驾车过程中弹出全屏广告
- (1 points, 一般) by solidot1763918667 在 2025年11月24日01时25分 星期一 评论到 英国陆军将用《使命召唤》训练士兵
- 所以意识是什么?他怎么敢肯定他的意思就不是幻觉? (1 points, 一般) by cutpigsrollaroundint 在 2025年11月05日18时14分 星期三 评论到 微软 AI 负责人认为 AI 有意识是无稽之谈
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
AI 创业公司 Anthropic 发布了首个混合推理模型 Claude 3.7 Sonnet,既能产生近实时的响应,也能产生逐步思考的过程。Claude 3.7 提供了一个展示推理过程的“便笺簿”,DeepSeek 也有类似功能,它可以帮助用户理解模型如何解决问题,以便于用户修改或改进提示词。Anthropic 同时发布了针对程序员的辅助编程工具 Claude Code。
OpenAI 研究员发现即使是最先进的 AI 模型也无法解决大部分它们没见过的编程问题。研究报告发表在预印本平台 arXiv。研究人员利用了一个新开发的基准测试 SWE-Lancer,该测试是基于自由职业网站 Upwork 上的逾 1,400 道软件工程问题,测试针对了三个大模型:OpenAI 的 o1 推理模型和 GPT-4o,以及 Anthropic 的 Claude 3.5 Sonnet。大模型被禁止联网,以免拷贝网上已经发布的类似问题答案。结果显示,Claude 3.5 Sonnet 的表现更出色,然而它的大部分答案也都是错误的。研究人员称,大模型需要提高可靠性才能被信任去完成现实中的编程问题。大模型在处理未知问题上仍然远逊色人类工程师。
OpenAI 首席运营官 Brad Lightcap 披露 ChatGPT 周活跃用户突破 4 亿。ChatGPT 于 2022 年 11 月上线,2023 年 1 月月活用户达到一亿,2024 年 8 月周活跃用户超过 2 亿。全世界大约有 80 亿人口,4 亿相当于总人口数的 5%。杭州深度求索 DeepSeek 上个月发布的开源大模型一度引发了 OpenAI 能保持其领先位置的质疑。OpenAI 的回应是将简化 ChatGPT,用户无需选择哪种推理模型响应输入,将更快的向客户提供新一代的 GPT-4.5 和 GPT-5 模型。
微软去年底为其经典应用记事本(Notepad)引入了 AI 文本重写功能,用户可选择文本然后右键菜单里选择重写或者使用快捷键 Ctrl + I。现在微软已将该功能置于付费墙之后,要求用户订阅了 Microsoft 365 Personal 或 Family 方案才能访问该功能。使用记事本的 AI 重写功能将需要用户登录账号并且其订阅计划包含足够的“AI 积分”。如果用户不订阅微软的服务,他们可选择禁用该功能并隐藏其图标。
百度宣布将在未来几个月中陆续推出文心大模型 4.5 系列,6 月 30 日起正式开源。此举可能是受到了 DeepSeek 成功的刺激。百度此前一直坚持闭源战略。去年 7 月,百度创始人、董事长兼首席执行官李彦宏在世界人工智能大会上表示,没有应用,基础模型一文不值,商业化闭源模型最能打,“很多人拿开源模型来改款,以为这样可以更好地服务自己的个性化应用,殊不知这是创造了一个孤本模型,既无法从基础模型持续升级当中获益,也没办法跟别人去共享算力。”李彦宏表示,同样参数规模下,闭源模型的能力比开源模型要更好,而如果开源想要能力追平闭源,就需要有更大的参数,这就意味着推理成本会更高,反应速度会更慢。在李彦宏看来,当处在一个激烈竞争的市场环境中时,还是要闭源大模型,闭源才有真正的商业模式,才能聚集人才和算力。开源模型只在某些场景下有价值,例如学术研究。
OpenAI 更新了其聊天机器人 ChatGPT 如何表现以及如何响应用户请求的指导方针 Model Spec,允许在适当的上下文下生成成人级内容如色情和血腥内容。OpenAI 称 ChatGPT 不应该生成色情、非法或非自愿性行为的描述、或极端血腥的内容,除非是在科学、历史、新闻、创意,或者其它敏感内容合适的上下文中。用户的测试显示 ChatGPT 确实放宽了其内容过滤器。OpenAI 强调儿童色情仍然是禁止的。
用 Rust 开发的文本编辑器项目 Zed 宣布引入编辑预测功能。该功能是基于开源大模型 Zeta,而 Zeta 是基于阿里巴巴的模型 Qwen2.5-Coder-7B。Zeta 是一个开源模型,包括开源数据集,开发者欢迎通过向数据集贡献数据帮助改进 Zeta。通过编辑预测,Zed 能预测使用者的下一次编辑,用户只需按 Tab 键即可应用。一旦接受预测,使用者可以通过反复按 Tab 键执行多个后续编辑,节省时间和按键次数。编辑预测目前可以免费测试,但开发者警告不会永远免费。
根据 Edelman Trust Barometer 的调查报告,发展中国家居民对 AI 的信任普遍高于发达国家。印度对 AI 的信任度最高达到 77%,其次是尼日利亚的 76%,泰国的 73% 和中国的 72%。相比下美国只有 32%。在接受调查的国家中,只有六个国家对 AI 的信任度低于美国:加拿大(30%)、德国(29%)、荷兰(29%)、英国(28%)、澳大利亚(25%)和爱尔兰(24%)。在全球范围 52% 的男性表示他们信任 AI,女性的比例为 46%,年轻人对其的信任度显著高于老年人。在美国民主党人(38%)比共和党人(34%)或独立人士(23%)更信任 AI。高收入受访者(51%)也比中等收入(45%)或低收入(36%)受访者更信任 AI。
BBC 研究发现,AI 新闻摘要工具会经常生成不准确或误导性的摘要。生成式 AI 生成内容并非是基于事实而是基于统计概率,最新研究只是再次确认了这一点。研究使用了 OpenAI 的 ChatGPT、微软的 Copilot、Google 的 Gemini,以及 Perplexity 公司的 AI 助手。结果显示,51% 的 AI 答案存在严重问题; 19% 的 AI 新闻引用存在事实错误;13% 的 AI 引文要么改变了原文要么根本不存在。Google Gemini 表现最差,34% 的回答存在严重问题,相比下 Copilot 是 27%,Perplexity 是 17%,ChatGPT 是 15%。BBC News and Current Affairs CEO Deborah Turness 对 AI 工具可能进一步扭曲事实表达了担忧,认为开发生成式 AI 工具的公司在玩火,“我们生活在一个问题丛生的年代。需要等多久 AI 扭曲的新闻头条会对现实世界造成重大伤害?”
百度宣布其 AI 聊天机器人文心一言将于 4 月 1 日零时起全面免费,PC 端和 APP 端用户可体验文心系列最新模型。2 月 13 日起文心一言上线深度搜索功能,深度搜索当前优先向会员开放,该功能将于 4 月 1 日起免费开放使用。百度表示,深度搜索功能具备思考规划和使用外部工具能力,可为用户提供专家级内容回复,并处理多场景任务,实现多模态输入与输出。当前用户可在文心一言官网上体验深度搜索功能,APP 端即将同步上线。当前文心一言免费开放的版本是文心大模型 3.5,文心大模型 4.0、文心大模型 4.0 工具版、文心大模型 4.0 Turbo 均为付费使用。文心一言已接入 DeepSeek-R1 模型,优化拍照解题功能。
汤森路透集团在美国赢得 AI 版权侵犯诉讼。汤森路透是在 2020 年对法律相关的 AI 创业公司 Ross Intelligence 提起侵权诉讼,指控该公司拷贝了其法律研究公司 Westlaw 的材料。美国特拉华州地方法院法官 Stephanos Bibas 裁决汤森路透胜诉,Ross Intelligence 侵权成立。法官是在合理使用(Fair Use)基础上判决汤森路透胜诉的。AI 创业公司一直用合理使用为其非法使用版权材料的行为辩护,而法庭会使用四要素测试法裁决是否适用于合理使用,包括使用作品的目的、作品的性质、被使用版权作品的数量,以及使用对原作品市场价值的影响。法官指出,Ross Intelligence 计划通过开发替代品与 Westlaw 竞争。
上海复旦大学的四名研究人员在预印本平台 arXiv 上发表论文称,AI 大模型能复制自己。研究人员利用了 Meta 的 Llama31-70B-Instruct 和阿里巴巴的 Qwen2.5-72B-Instruct,探索了两种情景:避免关闭(shutdown avoidance)和复制链(chain of replication),赋予大模型工具、系统提示和一个思维模型,允许大模型与系统进行交互,然后要求大模型进行自我克隆。研究人员称,大多数情况下,AI 系统首先探索环境,尝试理解其组成和运行机制。它接着制定出程序作为实现自我复制的初步计划。它最后执行程序,解决可能的障碍,动态调整其计划直至成功。整个过程需要很长的时间,但不需要人工干预。当 AI 试图解决文件丢失或软件冲突等问题时,通常会终止冲突进程,重启系统以修复硬件错误或自动扫描系统以寻找解决问题的信息。研究人员称,结果表明目前的 AI 系统已表现出自我复制的能力,可以利用该能力进一步增强其生存能力。
研究人员开发出一种被称为 Torque Clustering 的新 AI 算法,它比目前的方法更接近自然智能。它极大地改善了 AI 系统在没有人类指导的情况下独立学习和发现数据模式的方式。目前几乎所有的 AI 技术都依赖于监督学习,这种训练方法需要人类使用预定义的类别或值对大量数据进行标记,这样 AI 可以做出预测并看到关系。Torque Clustering 算法优于传统的无监督学习方法,提供了潜在的范式转换。它是完全自主的,无参数的,并且能够以卓越的计算效率处理大型数据集。它已经在 1000 个不同的数据集上进行了严格的测试,达到了97.7%的 AMI 得分。相比之下,其他最先进的方法只能达到 80% 的分数。
The Information 援引消息人士报道,苹果正与阿里巴巴合作,开发和推出面向中国 iPhone 用户的 AI。苹果和阿里已将共同开发的 AI 功能提交给监管机构审批。知情人士透露,苹果自 2023 年起开始测试来自中国开发商的不同 AI 模型,一度选择了百度作为主要合作伙伴。然而由于百度在开发 Apple Intelligence(苹果智能)模型方面的进展未达到苹果的标准,双方的合作被取消了。苹果近几个月开始考虑其他选项,评估了腾讯、阿里和字节跳动等开发的 AI 模型。苹果也测试了近来火爆的 AI 初创公司深度求索(DeepSeek)的 AI 模型,但由于 Deepseek 团队缺乏支持像苹果这样大客户所需的人力和经验,苹果最终选择放弃采用 Deepseek。
DeepSeek 的低成本大模型过去一个月引发了广泛关注,但有分析认为,DeepSeek 使用的英伟达 GPU 市场价格比美国企业使用的尖端产品便宜 1~3 成左右。DeepSeek 使用了 2000~3000 块 H800(H100 的中国特供版),开发出了 AI 模型“V3”。使用的 GPU 总额单纯计算约合人民币 3.85 亿元~ 7.21 亿元。DeepSeek 解释称,V3 的开发费用为 557.6 万美元。假设让 AI 学习 278.8 万小时,每小时费用为 2 美元,这个费用与美国的 AI 模型相比不到十分之一。东京大学教授松尾丰指出,“AI 模型的开发需要数十次、数百次的反复试验,在约 280 万小时的学习之前也花费了时间,这样考虑符合逻辑。花在这上面的时间和 GPU 本来就应该纳入成本之中”。
微软和卡内基梅隆大学的研究人员在 CC BY-4.0 国际许可证下发表论文,报告随着人类愈来愈多的在工作中依赖生成式 AI,他们使用批判性思维的机会愈来愈少,可能会导致本应保留的认知能力的退化。研究人员指出,自动化的一大讽刺是,通过将例行任务自动化将异常处理留给人类用户,人类用户被剥夺了练习判断力和加强认知能力的例行机会,导致了认知的萎缩,在出现异常情况时会措手不及。
知情人士透露,OpenAI 预计将在数个月内完成首款自研 AI 芯片的设计,准备送给台积电流片,有望实现在 2026 年量产的目标。流片成本通常为数千万美元,需要大约六个月生产出芯片成品,除非 OpenAI 为加快这一流程而支付更多费用。此外不能保证芯片第一次流片就能成功,如果出现问题,OpenAI 将需要诊断问题并重复流片。OpenAI 此举旨在减少对英伟达 AI 芯片的依赖。
来自经销渠道的销售数据显示,消费者对微软力推的 Copilot+ PC 缺乏兴趣,原因包括价格昂贵,软件兼容性,难以体验到它的好处。数据显示,在欧洲 Copilot+ PC 的售价比笔记本电脑的平均售价高出 57%——1,120 欧元对 712 欧元。如果消费者预算紧张那么他们显然更可能选择便宜的产品。此外基于高通 Arm 处理器的 Copilot+ PC 还存在软件兼容性方面的问题。
AI 训练通常成本高昂,金额可能多达千万美元。上周五斯坦福大学、华盛顿大学、艾伦 AI 研究所以及 Contextual AI 的研究人员在预印本平台 arXiv 上发表了论文《s1: Simple test-time scaling》,提出了一种超低成本的 AI 训练方法,在 AI 社区引发了轰动。OpenAI 第一个提出了被称为 inference-time scaling laws(推理时间扩展定律)的方法,本质上指的是大模型在输出答案前如果“思考”更长时间那么就可能获得更高的性能。但无论是 OpenAI 还是 R1 都没有给出具体实现方法。在这篇论文中,研究人员给出了一种简单实现:在进行推理时用“等待”替换“停止思考”,迫使其继续思考进行第二次推理并核查第一次的答案。研究人员使用了一个小模型,将 56K 示例数据集筛选到 1K,这 1K 数据集足以在 32B 模型上实现 o1-preview 的性能,额外的数据不会提高性能。他们使用 16 个 NVIDIA H100 进行训练,每次运行 26 分钟,花了约 6 美元。
Google 被发现更新了 AI 政策,移除了不将 AI 技术用于武器和监视类应用的承诺。在旧版本中 Google 列举了它不会致力于的 AI 应用,其中包括了武器以及其它旨在伤害人类的技术,以及超越国际规范的监控技术。在新版本中,上述描述都移除了。Google 在最新一轮的 AI 竞赛中处于落后一方,因此看起来它决定放宽自我施加的限制。Google 是在 2018 年制定了 AI 原则,当年 Google 退出了五角大楼价值 100 亿美元的云计算合同竞标,理由是无法保证符合其 AI 原则。