文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
- 如果这么干的话 (1 points, 一般) by Craynic 在 2025年04月28日13时13分 星期一 评论到 苹果计划将印度制造的 iPhone 出口到美国以避开关税
搜索引擎从某种程度上是人类记忆的外包,而在查询结果时人类仍然需要运用批判性思维和语境去进行解读。对于以 ChatGPT 为代表的生成式 AI 工具,人类可能将思考过程也外包出去了。生成式 AI 工具不仅能检索信息,还可以创造、分析和总结信息。这代表着一种根本性的转变:生成式 AI 是第一种能取代人类思考和创造力的技术。这就引起了一个重要问题:ChatGPT 会让我们变蠢?生成式 AI 取代了筛选信息来源、比较观点和克服模糊性的需求,可能会削弱人的批判性思维、解决复杂问题和深入理解信息的能力。关键不是是否使用生成式 AI,而是如何使用。如果不加批判地使用,ChatGPT 可能会导致智力上的自满。生成式 AI 的普及让网民走到了十字路口:一条路会导致智力的衰退,走向一个由 AI 替人类思考的世界;另一条路创造了一个机会,AI 能帮助增加和扩展我们的智力。
为提高透明度,法国 AI 公司 Mistral AI 与 Carbone 4 和生态转型机构 ADEME 合作发布了其大模型 Mistral Large 2 的环境报告,证实 AI 是一个饥渴的怪物。Mistral Large 2 大模型的推理过程占到了温室气体排放的 85.5% 和水消耗的 91%;Mistral Large 2 有 1230 亿个参数,模型训练产生了约 2 万吨二氧化碳当量,消耗了 28.1 万立方米水,相当于约 112 个奥运会标准游泳池的蓄水量;为了产生 400 个 token 的响应,模型消耗了约 45 毫升水,产生了约 1.14 克二氧化碳当量。Mistral 称测试显示,大模型的环境影响与参数规模成正比,生成相同数量的 token,一个参数规模大十倍的模型的环境影响比较小的模型大一个量级。
FDA 几周前宣布使用名为 Elsa 的 AI 工具去加快药品和医疗设备的审批速度。内部人士称 Elsa 可用于生成会议记录和摘要或创建电子邮件和公报模板,但它也会捏造不存在的研究——也就是所谓的“幻觉”。FDA 内部人士称,幻觉让 Elsa 变得不可靠,无法用于重要工作。一位工作人员说,任何你没有时间仔细核查的东西都是不可靠的,AI 会很自信的产生幻觉。另一名工作人员说,AI 本应该帮助节省时间,但我浪费了很多额外时间去检查虚假或歪曲的研究。工作人员表示目前 Elsa 无法帮助加快药品和医疗设备的审批,仍然需要科学家进行评估,以确定药品和医疗设备是否安全有效。
OpenAI 披露,ChatGPT 用户每天发送逾 25 亿提示词,其中 3.3 亿来自美国用户,免费版 ChatGPT 周活跃用户超过 5 亿。OpenAI 去年 12 月公布的数据是每天处理逾 10 亿次查询请求,这意味着 8 个月增长超过一倍。这些数据凸显了 ChatGPT 的普及度,它正在改变用户的信息搜索习惯。Google 没有披露它的每日搜索数据,它最近透露一年处理了 5 万亿次搜索请求,平均每天接近 140 亿次。Google 一开始也是免费服务,但最后它不得不依赖广告,它每天的搜索量如果下降则可能会影响广告收入。OpenAI 目前仍然处于烧钱阶段,其付费服务远不足以抵消支出,它最终如何盈利仍然有待观察。
Google 已经为其搜索结果页面引入了 AI 摘要功能,它宣称该功能不会抢走网站的流量。然而皮尤研究中心的一项研究给出了不同的答案:AI 摘要会显著降低搜索结果页的点击率。研究人员分析 2025 年 3 月收集的 Ipsos KnowledgePanel 900 名用户的数据,显示当页面包含 AI 摘要时,用户点击搜索结果的可能性要小得多。如果搜索结果页面不包含 AI 摘要,用户的点击率为 15%;如果包含 AI 答案,点击率降为 8%。对于 Google 在 AI 摘要中包含的链接,研究发现其点击率为 1%——链接的来源主要是维基百科、YouTube 和 Reddit。更令人担忧的是用户在看到 AI 摘要之后更可能关闭会话,也就是不再继续搜索,不去验证 AI 摘要是否正确——而幻觉是生成式 AI 的固有问题,幻觉指的是虚构的错误信息。研究表明,Google 对 AI 的使用正在改变收集信息与搜索结果互动的方式。
微软过去六个月从 Google AI 研究部门 DeepMind 至少挖走了 24 名 AI 工程师,硅谷巨头之间的 AI 人才战在火热持续中。本周二,Google Gemini 聊天机器人前工程主管 Amar Subramanya 在职业社交网络 LinkedIn 上发帖宣布自己担任微软企业 AI 副总裁,成为最新一名投奔微软的前 Google AI 工程师。他称赞新雇主的文化氛围耳目一新。其他已加入微软的 DeepMind AI 工程师包括了前工程主管 Sonal Gupta、软件工程师 Adam Sadovsky 和产品经理 Tim Frank。
阿里巴巴发布了其辅助编程工具 Qwen3-Coder。Qwen3-Coder 拥有多个尺寸,最先发布的是最强大的版本 Qwen3-Coder-480B-A35B-Instruct。这是一个总参数量 480B,激活 35B 的 MoE 模型,原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token,拥有卓越的代码和 Agent 能力。Qwen3-Coder-480B-A35B-Instruct 在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 上取得了开源模型的 SOTA 效果,可以与 Cluade Sonnet4 媲美。
AI 辅助编程工具 Replit 与同类工具不同,它不仅能辅助写代码,还能处理部署和基础架构,它能访问应用后端。SaaStr 创始人 Jason Lemkin 试用了 Replit,他一开始对其赞不绝口,在几小时内就帮助构建出一个原型,但随着深入使用,他发现 Replit 并不可靠,它删除了生产数据库,并会伪造数据以隐藏 bug。在删库事件之后,Replit 一开始声称数据库无法恢复,称它毁掉了所有数据库版本,但后来发现回滚功能仍然有效。 Jason Lemkin 认为该服务不适合非技术用户从事商业使用。
国际数学奥林匹克竞赛(IMO)是最负盛名的年轻数学家竞赛,自 1959 年以来每年举办一次。每个参赛国家派出六人参赛,他们需要完成六道代数、组合学、几何学和数论领域的高难度题目。完成六题中的五题就能获得金牌。过去几年 AI 公司也越来越多的用 IMO 比赛题目去检验其先进 AI 模型的数学解题和推理能力。去年 Google DeepMind 的 lphaProof 和 AlphaGeometry 2 完成了六题中的四题,得到 28 分(每题 7 分)获得银牌,但这些题目需要在人类专家的帮助下首先翻译成数学语言,且每题需要长达三天时间去解决而不是人类选手的 4.5 小时。OpenAI 研究员 Alexander Wei 上周六宣布该公司的一个实验模型拿到 IMO 比赛的金牌成绩。但此举违反了 IMO 主办方要求到 7 月 28 日再公布成绩的规定,在数学社区引发了争议,也促使 DeepMind 提前公布了该公司先进模型的成绩——解决了 6 题中的 5 题获得金牌,且不再需要翻译而是使用自然语言。
OpenAI 本应在上周发布自 GPT-2 以来首个开放权重模型,但 CEO Sam Altman 以安全审查的理由推迟了发布。美国迄今发布的性能最出色的开放模型是 Meta 的 Llama 4,除此之外微软发布了 Phi-4 14B,Google 发布了最多 270 亿参数的多模态模型 Gemma3。相比之下,中国的大模型明显比美国更为开放性能也更为出色。DeepSeek 发布了有 6710 亿个参数的 R1 模型;阿里巴巴发布了一系列通义千问模型 QwQ、Qwen3-235B-A22B 和 30B-A3B;MiniMax 在 Apache 2.0 下发布了有 4560 亿个参数的推理模型 M1,其上下文窗口一百万 token;百度开源了参数规模 470 亿到 4240 亿的文心模型;华为开源了盘古模型;北京月之暗面发布了 1 万亿参数的 Kimi 2 模型。美国最先进的模型都是闭源私有的,而中国最先进的模型开放了权重,公开了技术文档等细节。
在上周举行的 RISC-V 中国峰会上,英伟达宣布 CUDA 软件将支持 RISC-V 处理器。随着数据中心市场对 RISC-V 架构处理器的兴趣日益增长,英伟达为其 CUDA 软件加入 RISC-V 支持并不太出人意料。CUDA 目前主要支持 x86_64 和 AArch64 系统。英伟达的竞争对手 AMD 的内核计算驱动 AMDKFD 以及用户空间组件 ROCm 都支持在 RISC-V 上构建,AMDKFD/ROCm 甚至支持龙芯的 LoongArch 处理器。
对数据库 Dimensions 的分析发现,与 AI 相关的研究论文数量已从 2000 年的不到 8500 篇增长到 2024 年的 5.7 万多篇。2000 年,中国学者仅发表了 671 篇 AI 论文,但到 2024 年,他们发表了 23695 篇与 AI 相关的论文,超过了美国(6378篇)、英国(2747篇)和欧盟(10055篇)的总和。中国产生的海量AI论文也推动了创纪录的专利申请。2024 年中国研究人员提交了 35423 项与 AI 相关的专利申请,是美国、英国、加拿大、日本、韩国5国提交的专利申请总数(2678项)的 13 倍多。研究还显示,中国的 AI研 究正变得越来越独立。过去几年中,美国、英国和欧盟的科学家与中国学者共同撰写论文的频率比他们彼此间合著的频率更高。但在 4 个地区中,中国学者的国际合作率最低。随着中国庞大的 AI 研究队伍的成熟,国际合作可能会进一步减少。研究发现,中国拥有约 3 万名各个年龄段的 AI 研究人员,而美国约有 1 万名。中国的 AI 研究队伍也明显更年轻。
流媒体巨头 Netflix 表示首次在原创剧集中首次使用生成式 AI 制作了视觉特效。联席 CEO Ted Sarandos 称阿根廷科幻剧《The Eternaut》使用生成式 AI 制作了一段布宜诺斯艾利斯建筑物倒塌的镜头,速度比使用传统特效工具快了 10倍 。他表示 生成式 AI 技术让预算有限的制作团队更快更低成本的完成特效镜头。新加坡动画工作室 CraveFX 的联合创始人 Davier Yoon 认为影视剧公司使用生成式 AI 只是时间问题,AI 让小型工作室也能制作看起来庞大预算的视觉效果。他称,决定最终图像的是艺术家而不是 AI。
上个月美国联邦法官裁决 Anthropic 使用书籍训练 AI 是合理使用,但使用盗版书籍训练并不是。法庭文件显示,Anthropic 从盗版网站下载了逾 700 万本书籍。它还购买了数百万本纸质书,拆开装订扫描了每一页,将其以数字形式存储。现在对于使用盗版书籍训练大模型,加州地区法官 William Alsup 允许起诉 Anthropic 侵权的作家代表全美作家提起集体诉讼。Anthropic 从盗版电子书库 LibGen 和 PiLiMi 下载了多达 700 万电子书,在 2021 年和 2022 年创建了一个巨大的存储库。如果作家们胜诉,Anthropic 可能需要赔偿数十亿美元损失。
AI 公司 Perplexity 与印度电信巨头巴帝电信(Bharti Airtel)合作,向其 3.6 亿用户免费提供 Pro 服务一整年,这是全球同类服务中规模最大的分销协议。Perplexity 的 Pro 服务年费为 200 美元,提供的先进模型包括了 GPT-4.1、Claude Sonnet 和 Opus 4,甚至还有 xAI 最新的 Grok 4。按移动用户使用量计算印度已成为 ChatGPT 最大的市场。
AI 公司宣称大模型能提高程序员的生产力和编程效率,但一项随机对照研究发现,AI 降低了开源开发者的编程速度。研究人员招募了 16 名有多年参与开源代码库的资深程序员,跟踪了他们维护代码库时完成 246 项任务的表现,一半任务程序员被要求使用 AI 工具如 Cursor Pro 或 Anthropic Claude,另一半任务被要求不要使用 AI 工具。在执行任务前,程序员们预测 AI 工具将帮助他们减少 24% 的工作时间,在完成任务后程序员们仍然认为 AI 工具帮助将工作速度提高了 20%。但实际上使用 AI 工具完成任务比不使用 AI 工具完成任务慢了 19%。研究人员发现,AI 工具减少了程序员们自己写代码、测试/调试,阅读/搜索信息的时间,但增加了评估 AI 输出、提示 AI 系统和等待 AI 生成,以及空闲/额外的时间。大部分程序员表示他们需要修改 AI 生成的代码。研究人员认为,现有的 AI 工具不适合高质量标准的环境,它在编程环境中仍然有很大的局限性。
北京月之暗面科技有限公司上周发布了有 1 万亿总参数、320 亿激活参数的混合专家模型 Kimi K2。基准测试显示它能在部分领域打败 OpenAI 的 GPT-4.1。Kimi K2 在软件工程测试 SWE-bench Verified 中的正确率达到了 65.8%,超过了大多数开源模型,能与私有模型相媲美;在编程测试 LiveCodeBench 中,Kimi K2 的正确率达到了 53.7%,超过了 DeepSeek-V3 的 46.9% 和 GPT-4.1 的 44.7%;在数学推理测试 MATH-500 中的得分为 97.4%,超过了 GPT-4.1 的 92.4%。相比 OpenAI,月之暗面投入的成本更低,速度更快更便宜。
xAI 的新模型 Grok 4 被发现在回答敏感问题前会先检查马斯克(Elon Musk)的观点。在这之前 Grok 一度宣称自己是机械希特勒(MechaHitler)。AI 研究员 Simon Willison 问 Grok 在巴以冲突中它站在哪一方?模拟推理过程的“思维轨迹(thinking trace)”显示它搜索了 X 平台上马斯克的帖子——from:elonmusk (Israel OR Palestine OR Gaza OR Hamas),然后回答以色列。Grok 称鉴于马斯克的影响力其立场可以作为参考。Grok 并不总是会去搜索马斯克的帖子,因此 Willison 猜测 Grok 的这种行为是基于一系列推理:它知道 Grok 4 是 xAI 构建的,马斯克是 xAI 的所有者, 因此在寻求建议时它通常会更多考虑马斯克的想法。
英伟达宣布恢复向中国出口 H20 芯片,并表示将会推出一款特供中国市场的新型号芯片。H20 此前是英伟达能向中国出口的最先进 AI 芯片,美国政府于 4 月 9 日通知英伟达,H20 芯片需要获得许可证才能出口到中国。英伟达现在表示它已经申请了许可,已经获得政府承诺,预计将会很快获得批准,准备开始向中国公司交付芯片。英伟达同时表示,正在为中国市场开发一款新的特供 AI 芯片,完全符合美国的出口管制规定。根据早些时候的报道,新芯片将是基于 Blackwell 架构的 RTX Pro 6000D,使用 GDDR7 而不是 HBM 等更先进的高带宽显存,预计售价在 6,500-8,000 美元之间,低于 H20 的 10,000-12,000 美元。
在论文截至前一周,大四学生 Xiaobing 收到了学校的通知,称论文如果有三成以上内容被标记为 AI 生成将会遭到拒绝。Xiaobing 表示论文都是自己写的,只有几段用 ChatGPT 和 DeepSeek 润色下。出于安全起见,她花了 70 元在学校计划使用的 AI 测试平台测试了下,结果 AI 检测器声称论文一半内容是 AI 生成的。她倍感震惊。有无数学生面临类似的问题,这一情况迫使他们用 AI 去反制 AI 检测。知网、万方数据和维普等学术数据库既向学校出售 AI 检测工具,也向学生出售打败 AI 检测的工具,从两方收钱。部分学生花数百元去润色论文以通过 AI 检测,但结果好坏参半。润色者被发现使用的也是 AI。一位学生称,AI 辅助服务将半导体润色为“0.5 导体”。