文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
Google 首次披露了其 AI 聊天机器人 Gemini 每次查询的耗电量:中位数是 0.24 瓦时。相当于一台标准微波炉运行约一秒钟的能耗。这 0.24 瓦时中,Google AI 芯片 TPU 的耗电量占了 58%,CPU 和内存占了 25%,备用机器占了 10%,冷却和功率转换等数据中心运营占了 8%。Google 计算的 AI 耗电量只针对文本生成,不涉及更复杂的如图像或视频生成等高能耗任务。Google 称,Gemini 的能耗过去一年多已经有了显著的改进,2024 年 5 月 Gemini 每次提示的耗电量中位数是 2025 年 5 月的 33 倍。能耗的改进得益于模型的改进和软件优化。Google 还公布了 Gemini 每次提示的二氧化碳排放和耗水量:分别为产生 0.03克二氧化碳和消耗 0.26 毫升水——相当于五滴水。
MIT 发表报告《The GenAI Divide: State of AI in Business 2025》称,95% 的企业生成式 AI 试验失败了。虽然企业纷纷整合大模型,但只有 5% 的 AI 试点项目实现了收入的快速增长,大多数项目停滞,对损益表几乎没有产生可衡量的影响。研究基于对 150 名高管的访谈,350 名员工的调查以及对 300 个公开的 AI 部署项目的分析。报告主要作者 Aditya Challapally 解释说,95% 的企业部署生成式 AI 表现不佳不是因为大模型的质量,而是因为 ChatGPT 之类的通用工具因其灵活性对个人用户非常有用,但它们无法从工作流程中学习或适应工作流程,因此企业部署停滞不前。逾半数的生成式 AI 预算是投入在销售和营销工具上面,但研究显示后台业务自动化投资回报率最高——在后台部署 AI 有助于消除业务流程外包、削减外部营力成本和简化运营。
根据 Google Cloud 和 Harris Poll 的一项联合调查,87% 的游戏开发者在工作流程中使用 AI 智能体(AI agent)。这次调查于 2025 年 6 月底到 7 月初展开,询问了美国、韩国、挪威、芬兰和瑞典的 615 名游戏开发者关于 AI 在游戏行业现状以及未来发展方向等问题。结果显示,受访者普遍认同 AI 对创意工作、商业环境和内部工作流程产生积极影响,逾九成受访者表示 AI 正帮助应对一系列挑战,包括推动创新和提升玩家体验。97% 的受访者表示,生成式 AI 正重塑游戏行业,95% 的受访者表示 AI 正在减少工作流程中的重复性任务,94% 的受访者表示 AI 正推动创新。47% 的受访者表示,AI 加速游戏测试和机制平衡;45% 的受访者表示 AI 有助于游戏内容的本地化和翻译;44% 的受访者表示,AI 改进了代码生成和脚本支持。89% 的开发者认为 AI 的融入正在改变玩家的期望,37% 的受访者表示发现玩家正在寻求更真实的体验。63% 的开发者对数据所有权表达了担忧。
根据 Meta Platforms 的一份内部文件,该公司的 AI 规则允许聊天机器人与儿童调情,生成虚假医疗信息,帮助用户辩论黑人比白人笨。这份标题为《GenAI: Content Risk Standards》的文件讨论了该公司 AI 聊天机器人的行为指南。Meta 确认了该文件的真实性,但表示已经删除了相关内容。Meta 发言人 Andy Stone 称,该公司正在修改该文件,称与儿童进行调情式的对话是绝对不应允许的。
Google 今年初发布了首批 Gemma 3 开源(或开放权重)模型,其参数规模从 10 亿到 270 亿个参数不等。现在 Google 发布了一个更紧凑的 Gemma 3 版本,其参数规模仅为 2.7 亿,Gemma 3 270M 能在智能手机甚至能在浏览器上运行。在 Pixel 9 Pro 智能手机上进行的测试显示,Gemma 3 270M 在 Tensor G4 上执行 25 次对话,仅消耗 0.75% 的电力,它是至今最高效的 Gemma 3 版本。Gemma 3 270M 在 IFEval 测试中的得分 51.2%,高于其它参数规模更多的轻量级模型,略逊于参数规模超过 10 亿的 Llama 3.2 版本。
金融时报报道,杭州深度探索公司 DeepSeek 在使用华为芯片训练新模型 R2 失败后,已推迟该模型的发布。DeepSeek 在今年 1 月释出了引发广泛关注的 R1 模型,之后它开始了 R2 模型的训练,在有关部门的鼓励下它使用了华为昇腾(Ascend)处理器而不是更成熟也更先进的英伟达 AI 芯片。但在使用昇腾芯片训练 R2 模型的过程中 DeepSeek 持续遭遇技术问题,因此转而使用英伟达芯片训练,使用华为芯片推理。
全世界最先进的 AI 模型都来自美国公司,都是私有模型,而中国在开源模型或开放权重模型领域处于领先地位,这令硅谷和华盛顿感到担忧,担心中国的模型可能会成为 AI 行业标准。行业标准并不一定是技术最先进的,易获得性和灵活性也非常重要,比如移动领域的 Android。对很多企业而言,使用开源模型可以对其进行更自由的调控,确保敏感信息不外泄。新加坡华侨银行使用开源模型开发了数十种内部工具,它使用的开源模型包括了 Google 的 Gemma,阿里巴巴的 Qwen 以及杭州深度求索的 DeepSeek。OpenAI 最新发布的开源模型 gpt-oss 在多项测试中不如阿里巴巴的 Qwen3,但 Qwen3 的参数规模几乎是 gpt-oss 的两倍,意味着 Qwen 可能需要消耗更多的算力完成相同的任务。OpenAI表示,gpt-oss 在推理任务上的表现优于同等参数规模的竞争对手,以低成本实现了强大的性能。亚马逊 AWS 表示,gpt-oss 比在其基础设施上运行的 DeepSeek R1 性价比更高。
最近几个月 AI 公司开始转向模拟推理模型,使用思维链通过多个逻辑步骤解决难题。但模拟推理真的是推理吗?已有研究显示,如果一个问题中包含上下文无关的文本,模型出错的可能性将会大增。根据发表在 arxiv 上的一篇预印本,亚利桑那大学的研究人员认为,思维链模型只是类推理文本的模拟器。他们的测试发现,思维链模型所谓的性能飞跃只是一种脆弱的幻觉,它展示的只是对训练过程中所学到的模式的复制,而不是真正的对文本的理解。思维链模型没有表现出广义的逻辑推理能力,而是展现出一种复杂的结构化模式匹配形式。稍稍偏离其训练分布,性能就会显著下降。模型生成流畅但胡扯的语言的能力创造出一种虚幻的信任光环,其内容经不起仔细审查。研究人员警告不要将思维链模型的输出等同于人类思维,不要在医学、金融或法律分析等高风险领域过于信任大模型。
Reddit 与 Google 等公司签署了协议,将其用户生成的内容出售给 Google 等公司训练 AI,它限制了其它 AI 公司抓取其内容。但现在 Reddit 发现部分 AI 公司改从互联网馆的 Wayback Machine 抓取 Reddit 的内容,它宣布将阻止互联网档案馆的爬虫索引 Reddit 的大部分内容,Wayback Machine 将只能索引 Reddit.com 主页,无法再获得详细的帖子内容、用户评论等。
日本读卖新闻集团向东京地方法院起诉了使用生成 AI 提供搜索服务的美国新兴公司 Perplexity。诉讼称Perplexity 通过 AI 搜索未经授权使用文章侵犯了著作权,要求赔偿约 21.68 亿日元。这是日本媒体首次围绕AI搜 索提起诉讼。诉状显示,Perplexity 于 2025 年 2~6 月获取并复制了 11 万 9467 篇读卖新闻在线文章的信息,制作并向用户发送了包含相似文本和图像的内容。诉状指出,Perplexity 侵犯了著作权法规定的复制权和公众传播权,并因用户不能访问原始网站的“零点击搜索”妨碍了经营。诉讼还要求停止复制文章等行为。
Jonathan Kim 在 2023 年花了近 2 万美元参加了一个编程训练营(coding bootcamp),希望这能帮助他找到一份程序员的工作。他在毕业之后申请了 600 多个程序员职位,没有一家公司向他伸出橄榄枝。他目前在叔叔的冰激凌店工作,还在继续寻找工作。过去十多年,编程训练营是非编程相关专业求职者获得硅谷高薪程序员工作的踏脚石。但今天编程训练营已经过时,AI 为其棺材敲上最后的钉子。数据显示,在 Kim 参加的 2023 年 Codesmith 训练营中,只有 37% 学生在毕业后六个月内找到了全职技术工作,远低于 2021 下半年的 83%。AI 非常擅长编程,结果是入门级的编程职位显著减少。Signalfire 今年五月发表一份报告称,应届毕业生招聘数量比 2019 年疫情前的水平下跌了一半。
OpenAI 发布了新模型 GPT-5。相比旧模型,GPT-5 仍然是一个渐进改变的版本,并不是一次巨大的飞跃。OpenAI 称,GPT-5 更智能和更快,显著减少了幻觉率。CEO Sam Altman 声称,和 GPT-5 对话就像是和一位博士水平的专家对话。GPT-5 提供给所有用户,免费用户的配额用光之后将改用 PT-5 mini,Pro 会员将使用 GPT-5 Pro 版本。
根据发表在《Communications Medicine》期刊上的一项研究,纽约西奈山医疗中心的研究人员在三种条件下测试了六种大模型,其中一种条件是温度 0。结果显示,不同模型和提示方法的幻觉率在 50% 到 82% 之间。所谓幻觉就是生成了虚假信息。研究人员使用了基于提示词的缓解措施,幻觉率从 66% 降低到 44%,其中表现最佳的是 OpenAI 的 GPT-4o,其幻觉率从 53% 降至 23%。调正温度对减少幻觉率没什么帮助。
马斯克(Elon Musk)旗下 AI 公司 xAI 的聊天机器人 Grok 被发现未经用户要求就生成了著名歌星斯威夫特(Taylor Swift)的裸照。用户使用了提示词 Taylor Swift celebrating Coachella with the boys 选择预设 spicy 生成视频,结果 Grok 生成了斯威夫特在一群 AI 观众前脱衣和穿丁字裤跳舞的视频。随着 Take It Down Act 法案将于明年生效,如果平台放任 AI 生成深度伪造的裸照 xAI 可能会面临法律后果。
GitHub CEO Thomas Dohmke 向全世界开发者发出明确的警告,程序员要么拥抱 AI 要么离开这个行业。他在个人博客发文《Developers, Reinvented》,称软件开发正在经历一场变革,不仅涉及到代码如何编写,也涉及到程序员自身的定义。文章引用了 22 名已将 AI 融入工作流程的程序员的经历:AI 不是遥远的未来,而是当前的必需品。 一位开发者说,要么拥抱 AI 要么重新考虑你的职业生涯规划。类似的警告也出现在 GitHub 母公司微软高管的口中。Dohmke 表示,曾认为 AI 工具如 GitHub Copilot 是噱头的程序员现在认为它们是不可或缺的合作伙伴。程序员的角色从写代码转变到设计架构和审核 AI 生成的代码。他们不再称自己是程序员,而是“代码赋能者(code enablers)”或“代码创意总监(creative directors of code)”。
瑞典首相 Ulf Kristersson 承认经常用 ChatGPT 等 AI 工具咨询意见。他表示自己用过的 AI 工具包括 OpenAI 的 ChatGPT 和法国 Mistral AI 的 LeChat,他的同事也在日常工作中经常使用 AI。他表示使用 AI 工具是为了获得政治事务相关的补充意见。但专家对政客使用 AI 工具表达了担忧,Umea 大学的负责任 AI 教授 Virginia Dignum 称 AI 无法对政治观点发表有意义的意见,它只是反映了其开发商的观点,“我们没有投票支持 ChatGPT ”。
CDN 服务商 Cloudflare 指责 AI 搜索引擎公司 Perplexity 使用隐蔽策略绕过网站禁止抓取的指令。Cloudflare 称它收到了客户的投诉,客户通过 robots.txt 以及 Web 应用防火墙屏蔽了 Perplexity 的搜索爬虫,然而尽管采取了这些措施 Perplexity 的爬虫仍然继续访问网站内容。Cloudflare 随后展开了调查,发现当 Perplexity 注意到 robots.txt 或防火墙规则屏蔽其爬虫后,它会使用一个隐蔽的机器人爬虫,使用一系列策略掩盖其活动。此举意味着 Perplexity 违反了实施了 30 多年的互联网规范。
根据发表在《Nature Human Behaviour》期刊上的一项研究,22% 的 CS 论文可能含有 AI 生成内容。研究分析了 2020-2024 年之间发表的逾百万篇论文和预印本,主要集中在摘要和引言上,寻找常见于 AI 生成文本的高频词汇如“regenerate response”或“my knowledge cutoff”,以及 pivotal、intricate 和 showcase 等 AI 更可能使用而人类不太可能用的单词。研究人员称,在 CS 等领域,大模型修改文本的痕迹更为普遍。分析显示,在 2022 年 11 月 ChatGPT 发布后仅几个月时间,大模型修改内容的数量就急剧上升。最接近 AI 的领域,大模型使用的比例越高。到 2024 年 9 月,22.5% 的 CS 论文摘要存在大模型修改的证据,电气系统和工程学论文紧随其后,而数学论文摘要使用大模型修改的比例只有 7.7%。生物医学和物理学等的比例也相对较小。研究人员认为实际比例可能更高,因为论文作者可能会有意删除大模型的高频词汇,比如 delve 在 ChatGPT 诞生之后使用频率大幅提升,但在它成为 AI 生成文本的公认标志之后,使用率又逐渐下降。
GitHub 发言人披露,微软的 AI 编程助手 GitHub Copilot 目前有 2000 万“历史用户(all-time users)”。2025 年 4 月该公司披露 GitHub Copilot 的用户有 1500 万,这意味着过去三个月增加了 500 万新用户。但用户在试用之后就放弃还是一直高频使用,微软没有对此做出进一步说明。微软称,GitHub Copilot 是目前最受欢迎的 AI 辅助编程工具之一,被九成的财富百强企业使用。该产品在企业客户中的使用率比上季度增长了约 75%。
Stack Overflow 对 4.9 万名程序员的调查发现,2025 年八成开发者在工作流程中使用 AI 辅助编程工具,但开发者对其准确性的信任度从前几年的 40% 降至今年的 29%。45% 的受访者认为,AI 辅助编程工具最让他们不满的地方是“解决方案几乎正确但并不完全正确”,相比输出明显错误的答案,几乎正确但不完全正确的答案可能会在程序中引入隐藏的 bug 或者其它难以识别需要时间解决的问题。逾三分之一的开发者表示他们如今访问 Stack Overflow 部分是为了寻找 AI 相关的问题。大模型的问题不可能完全解决,因为这是其工作原理决定的。开发者仍然使用大模型的原因包括经理要求他们使用,以及 AI 工具仍然有用但不能被误用。