文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
- 如果这么干的话 (1 points, 一般) by Craynic 在 2025年04月28日13时13分 星期一 评论到 苹果计划将印度制造的 iPhone 出口到美国以避开关税
Software AG 的一项研究发现有多达五成员工使用未批准的 AI 工具。今天的 AI 工具非常容易获得,而企业也日益鼓励员工使用 AI 工具提高工作效率。无论是总结会议记录、起草客户邮件、探索代码还是创建内容,企业员工正在快速普及 AI。即使企业出于安全担忧内部限制员工使用 AI 工具,他们也可以通过浏览器访问 AI 工具的 Web 版本。分析显示最流行的 AI 工具是 ChatGPT,还有部分员工会使用中国公司开发的 AI 工具如 DeepSeek、Baidu Chat 和 Qwen。
根据内外部测试,OpenAI 最新推理模型 o3 和 o4-mini 比该公司之前的模型出现幻觉的概率更高。在 OpenAI 的 PersonQA 测试中,o3 出现幻觉的概率高达 33%,两倍于旧模型 o1(16%)和 o3-mini(14.8%)。o4-mini 更糟糕出现幻觉的概率高达 48%。斯坦福大学兼职教授 Kian Katanforoosh 指出他的团队发现 o3 常生成无效网址。OpenAI 表示需要更多研究去理解为什么随着推理模型规模的扩大,幻觉现象会加剧。
微软研究人员声称,他们开发出迄今为止规模最大的 1 位 AI 模型 bitnet。该模型命名为 BitNet b1.58 2B4T,采用 MIT 许可证发布,能在包括苹果 M2 处理器在内的各种 CPU 上运行。大模型是通过修改人工神经元之间的连接强度进行训练,连接强度以数学参数的形式储存。通过减少参数的精度研究人员能压缩网络,这一过程被称为量化,参数的位数能从 16 位减少到 8 或 4 位,研究人员正致力于将其推向极限——以 1 位精度储存参数。压缩能让模型在低端硬件上运行。bitnet 将权重量化为三个值:-1、0 和 1,其内存和计算效率远高于大多数模型。BitNet b1.58 2B4T 是首个拥有 20 亿个参数的 bitnet,测试中该模型在包括 GSM8K(小学水平数学题库)和 PIQA(测试物理常识推理能力)的测试中超过了 Meta 的 Llama 3.2 1B、Google 的 Gemma 3 1B 和阿里巴巴的 Qwen 2.5 1.5B。
Institute for Progress 分析了 Forbes AI 2025 名单中排名靠前的 AI 相关创业公司,在 42 家总部位于美国的 AI 创业公司中,六成或 25 家 AI 创业公司其创始人或联合创始人有移民背景。这些创始人来自 25 个国家,其中印度有 9 位,中国有 8 位,法国有 3 位,澳大利亚、英国、加拿大、以色列、罗马尼亚和智利各有两位。OpenAI 的联合创始人包括了南非的 Elon Musk 和俄罗斯的 Ilya Sutskever;Databricks 的联合创始人分别出生于伊朗、罗马尼亚和中国。研究凸显了移民对美国科技行业和整体经济的贡献。
根据 OpenAI 支持页面“API Organization Verification”,OpenAI 可能很快要求组织完成身份验证才能访问某些先进 AI 模型。验证需要 OpenAI API 所支持的国家政府签发的身份证件。OpenAI 表示一个身份证件每 90 天只能验证一个组织,而且不是所有组织都有资格进行验证。OpenAI 声称此举是为了减少 AI 的不安全使用。它的一个目的可能是防止 IP 盗窃。DeepSeek 此前被指使用 OpenAI API 训练了它的模型,这违反了 OpenAI 的政策。
Google 在 AI 领域长期以来一直是领先者,今天流行的大模型就是基于 Google 研究员发表的 Transformers 论文。过去几年 OpenAI 等后起之秀的成就让 Google 相形见绌。但随着 Gemini 2.5 的发布,Google 如今再次超越了所有竞争对手。Gemini 2.5 Pro Experimental 在 LMArena、GPQA Diamond、Humanity's Last Exam 和 AIME (数学竞赛)等测试中都高居第一,它在创意写作中也表现出色。使用过多种 AI 工具用户也报告 Gemini 2.5 Pro 是目前最出色的大模型。Gemini 2.5 不仅反应迅速也非常便宜,其上下文窗口高达 100 万 tokens。Google 的开源模型 Gemma 3 也能媲美顶尖的开源模型如 Llama 4 和 DeepSeek-V3。
AI 购物应用 Nate 的创始人、前 CEO Albert Saniger 被控欺诈投资者。Nate 成立于 2018 年,从 Coatue 和 Forerunner Ventures 等投资者筹集了逾 5000 万美元,2021 年完成了由 Renegade Partners 领投的 3800 万美元 A 轮融资。Nate 声称,在 AI 的帮助下其应用的用户只需点击一下即可在任何电商网站上购物。但起诉书指出,Nate 实际上严重依赖菲律宾呼叫中心的数百名合同工手动完成购买操作。Saniger 声称 Nate 能“无需人工干预”进行在线交易,除非出现 AI 无法完成交易的极端情况。但美国司法部称,尽管 Nate 获得了一些 AI 技术并聘用了数据科学家,但其应用的真实自动化率实际上为 0%。
微软开始逐步向 Windows Insiders 推出 Recall 预览版,该功能会每隔数秒保存 Copilot Plus PC 上的屏幕截图,在本地创造可搜索数字记忆。此举可能表明微软真的准备向更多用户推出受争议的 Recall 功能了。微软原计划于去年 6 月与 Copilot Plus PC 一起推出 Recall,但由于隐私和安全方面的担忧,该功能推迟推出。微软之后计划于 10 月推出该功能,但为了提供“安全可靠的体验”,该计划也被推迟了。
Google 宣布了第七代 TPU 处理器 Ironwood。TPU 代表 Tensor Processing Unit,是 Google 内部开发的专门用于加速机器学习的 ASIC 处理器。第一代 TPUv1 于 2016 年推出。TPU v7(Ironwood)据报道是专门为满足推理等大模型新兴需求而设计的。Google 最新的大模型 Gemini 2.5 运行在上一代的 TPU v6(Trillium)上,Google 表示 Ironwood 更高的推理速度和效率将为更多的突破奠定了基础。Ironwood 的峰值吞吐量为 4,614 TFLOPs。
根据斯坦福最新的 2025 年 AI 指数报告,中美顶级 AI 模型的性能差距已缩小到了 0.3%,而在 2023 年差距是 20%,中国模型正在快速追赶美国的领先地位。从行业主导企业来看,美国仍然领先于中国。在 2024 年 90% 的知名 AI 模型来自企业,美国以 40 个模型领先,中国有 15 个。更明显的一个趋势是如今大模型的性能已经趋同。在 2024 年,TOP1 和 TOP10 的模型的差距能有 12%,如今差距已经越来越小,锐减至 5%。
多数美国普通民众不相信 AI 能改善他们的生活,AI 专家则乐观得多。皮尤研究中心调查了 5410 普通民众和 1013 名 AI 专家对 AI 的态度。结果显示,56% 的 AI 专家相信 AI 将在未来 20 年对美国产生非常或相当积极的影响,在普通民众中间这一比例仅为 17%;76% 的专家认为 AI 将让他们个人受益而不是伤害他们。只有 11% 的民众对 AI 在日常生活中使用增加感到兴奋多于担忧,51% 更感到担忧,只有 24% 的民众认为 AI 能让他们受益,近半数民众认为 AI 会伤害他们。
Midjourney 在时隔一年多之后发布新模型 V7,目前以 alpha 形式提供给用户。V7 改进了图像生成,为手、手指、身体部位和“各种对象”提供了更高的连贯性和一致性,还能提供细节更丰富和逼真的纹理和材质。V7 还提供了新工具和工作流,其中之一是用于迭代和探索的 Draft Mode,费用只需一半但渲染速度提高十倍。V7 有两种模式——turbo 和 relax,其中 turbo 能更快生成最终图像,但费用提高了一倍;而 relax 生成图像的速度很慢,但费用也低。Midjourney 是最早广泛使用的 AI 图像生成工具之一。最初只通过 Discord 提供给用户,现在有了 Web 版本。
Meta 宣布了其最新的开放权重原生多模模型 Llama 4 Scout 和 Llama 4 Maverick。新模型使用了混合专家架构(mixture-of-experts)构建,每个有 170 亿活跃参数。Llama 4 Scout 有 16 个专家,适合单个 NVIDIA H100 GPU,提供了 1000 万上下文窗口,性能强于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Maverick 有 128 个专家,在基准测试中超过 GPT-4o 和 Gemini 2.0 Flash,在 LMArena 的 ELO 得分为 1417,它适合单台 H100 主机。Meta 还训练了一个教师模型 Llama 4 Behemoth,它有 16 个专家和 2880 亿个活跃参数,在多项 STEM 测试中超过了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro,该模型仍然在训练中。最新模型通过 llama.com 和 Hugging Face 提供下载。
微软 CTO Kevin Scott 预测五年内 95% 的代码将由 AI 生成。他表示,AI 不会取代软件工程师,但会改变他们的角色。“这并不意味着 AI 在做软件工程工作……作者仍然是人类。” Scott 称开发者的工作将从直接编写代码转变为通过提示和指令指导 AI,“我们从输入大师(编程语言)转变为提示大师(AI 协调者)。”
AI Disclosures Project 发表的一篇论文认为,OpenAI 很可能未经授权使用 O'Reilly 书籍训练 GPT-4o 模型。AI Disclosures Project 由 O'Reilly Media CEO Tim O'Reilly 联合创办,它使用了名叫 DE-COP 的方法检测大语言模型训练数据中的版权内容。研究人员分析了 34 本 O'Reilly 书籍中的 13,962 个段落摘录,发现 GPT-4o “识别”的付费内容比 GPT-3.5 Turbo 等旧模型多得多。这项技术也被称为“成员推理攻击(membership inference attack)”,用于测试模型是否能可靠区分人类创作的文本和转述版本。
为了在竞争激烈的 AI 领域保持竞争优势,Google DeepMind 采取了推迟发表 AI 论文的策略。诺奖得主 Sir Demis Hassabis 领导的团队引入了更严格的审查程序和更多的官僚主义,增加了 AI 论文的发表难度。该团队最不愿意发表的是可能会被竞争对手利用的论文,或者凸显 Google Gemini AI 模型相比其它模型处于劣势的文章。Google 研究人员在 2017 年发表了 Transformers 论文,奠定了今天流行的大模型的基础,但它也将最初的领先优势让给了 OpenAI 等竞争对手。为了防止再次发生类似的事件,DeepMind 对具有战略意义的论文实施六个月的出版禁令。一位前研究员表示,如果不能发表论文,对研究员而言这是职业生涯的“杀手”。
Google 上周向付费用户提供了其最新最先进的模型 Gemini 2.5,本周它开始向免费用户(有地区限制)提供了 Gemini 2.5 Pro (Experimental)。当然免费用户的使用是受到限制的,可能输入几次提示词就达到了限额。Gemini 2.5 支持模拟推理,能避免大模型常见的错误,目前它在 LMSYS Chatbot 排行榜中位居第一,排名第二的是 OpenAI 的 ChatGPT-4o-latest (2025-03-26),之后是 Grok-3-Preview-02-24、GPT-4.5-Preview、Gemini-2.0-Flash-Thinking-Exp-01-21、Gemini-2.0-Pro-Exp-02-05、DeepSeek-V3-0324 和 DeepSeek-R1。
1 月 19 日,旧金山发生了首起涉及完全自主驾驶汽车的致命车祸。涉及的无人驾驶汽车来自 Waymo,但车祸不是 Waymo 的错。是人类司机高速追尾导致六车连环相撞,造成一人死亡五人受伤,一条狗也在事故中死亡。这是典型的 Waymo 车祸。绝大多数车祸中它都严格遵守交通规则,但人类司机却违反规则、超速、闯红灯、偏离车道诸如此类。自 2020 年以来,Waymo 报告了约 60 起严重到触发安全气囊或造成伤害的事故,而 Waymo 的行驶里程至今超过了 5000 万英里。根据 Waymo 的估计,如果是人类司机,那么相似的里程人类的车祸频率要高得多严重得多。
在 AI 热下,Xiao Li 在 2023 年从一名房地产承包商跨行转为数据中心项目经理。一年前,他从微信群里看到大量英伟达 GPU 的芯片交易。交易商吹嘘能通过走私搞到被限制出口的英伟达 GPU。当时一块英伟达 H100 能卖出 20 万元。如今他的微信群里开始讲述不同的故事。AI 芯片的交易更谨慎,价格也回落了。两个数据中心项目因难以从投资者手中获得更多资金而被迫抛售 GPU。根据实地采访,很多运营 AI 数据中心的企业正陷入困境。36 氪等媒体报道,新建计算资源中高达八成未被使用。向 AI 公司出租英伟达 GPU 去训练大模型本被视为是一笔包赚的生意。然而随着 DeepSeek 的崛起以及 AI 周边经济形势的突变,该行业处于衰退之中。因为缺乏经验以及过度炒作,数据中心变成了不良资产。市场研究公司 KZ Consulting 称,2023 年和 2024 年,从内蒙古到广东,各地宣布了 500 多个新数据中心项目。中国通信工业协会数据中心委员会称,到 2024 年底,至少有 150 个新建数据中心建成并投入运营。国有企业、上市公司和国有基金纷纷投资建造 AI 数据中心。在 2024 年初有超过 144 家公司在网信办注册开发大模型,但到了年底只剩下 10% 的公司还在继续投资。DeepSeek 的 R1 和 OpenAI 的 ChatGPT o1 和 o3 等推理模型的兴起改变了企业对数据中心的需求。推理性能对延迟有高要求,意味着数据中心需要建造在相关 AI 企业附近,这意味着很多建造在中西部和农村地区的数据中心对 AI 公司没有什么吸引力。此外大多数数据中心是为训练大模型而不是推理优化的。推理使用的硬件也与训练使用的硬件有很多不同。在此背景下,GPU 租赁价格降至历史最低水平。一台配置了 8 个 GPU 的英伟达 H100 服务器的月租金从 18 万元的高位降至 7.5 万元。由于高昂的电费和维护费用,一些数据中心宁愿空置。
哥伦比亚大学对开发 AI 工具帮助面试者在编程问题中作弊的学生 Chungin“Roy”Lee 做出了停学的处罚。Lee 开发了 AI 工具 Interview Coder,帮助求职者在面试中完成编程相关的问题。该工具的月费为 60 美元。去年 12 月 Lee 发布了一则在亚马逊面试中使用 Interview Coder 的视频,之后被举报到学校,被纳入学校的纪律处分程序,出席了学校的听证会。在第一次听证会后,学校对他做出了留校察看的处罚。现在处罚加重。Lee 认为该工具能为他每年赚取约 200 万美元的收入。被停学后他准备直接去旧金山。