文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
从 2005-2024 年底,清华大学共获得 4986 项 AI 和机器学习专利。清华仅去年一年就获得了逾 900 项专利,比同期 MIT、斯坦福、普林斯顿和哈佛获得的专利数总和还要多。根据 LexisNexis 的数据,目前中国在全球 AI 和机器学习领域活跃专利家族的占比逾半数。在 AI 领域被引用次数前 100 的论文中,清华大学的 AI 研究论文数超过了其它任何高校。尽管如此,美国仍然拥有最具影响力的 AI 专利和性能最先进的模型。哈佛和 MIT 在专利影响力方面一直领先于清华大学。斯坦福大学《AI Index Report》显示,2024 年美国机构开发了 40 个值得关注的 AI 模型,中国机构为 15 个。根据 Information Technology & Innovation Foundation 的数据,中国在全球顶尖 AI 研究员——前 2%——所占份额从 2019 年的 10% 升到 2022 年的 26%。美国的份额同期从 35% 降至 28%。
Linux 作者 Linus Torvalds 在韩国首尔举行的 Linux 基金会开源峰会上接受采访时表达了对 vibe coding(AI 辅助编程)的积极看法,认为它能帮助人们完成原本无法完成的计算机任务,但从代码维护的角度看在生产代码中使用 AI 生成代码是一个非常糟糕的想法。Torvalds 说今天的计算机比他当年学编程时的计算机复杂得多,vibe coding 为新手提供了一条进入计算机领域的途径。Torvalds 本人并没有使用 AI 辅助编程,他表示他从拒绝新想法转向拥抱推动新想法,反对那些墨守成规的资深维护者。他称在内核中 Rust 语言不再是实验性质的语言,而 AI 爬虫对开源基础设施产生了巨大影响,部分开发者也被发现滥用 AI 工具向内核维护者递交了虚假的 Bug 报告和安全警告,但问题还不是太严重。
西班牙公司 Multiverse Computing 的物理学家开发出一个精简版本的 DeepSeek R1 模型 DeepSeek R1 Slim,模型规模比原版小 55% 但性能几乎相同,而且移除了审查机制。中国 AI 公司的模型都受到了遵守法律和符合社会主义价值观的约束,内置了多层审查机制。Multiverse 利用看一种源自量子物理学的复杂数学方法张量网络,用高维网格网络表示和处理大数据集,张量网络能显著缩小模型规,高效表达复杂 AI 系统。张量网络为研究人员提供了一张模型中所有相关性的地图,允许他们精确识别并移除特定信息。
Google 发布了其最先进的 Gemini 3 模型,模型的 LMArena Leaderboard 得分达到了 1501 Elo,在多项基准测试中表现出色,其中 GPQA Diamond 博士级推理能力测试得分 91.9%,不使用任何工具的情况下在 Humanity's Last Exam 测试中得分 37.5%。Gemini 3 即日起可在 Gemini 应用、AI Mode in Search for Google AI Pro、Google AI Studio、Vertex AI 和 Google Antigravity 中使用。第三方平台如 Cursor、GitHub、JetBrains、Manus 和 Replit 也可访问该模型。Google 还表示,AI Overviews 月活用户已达 20 亿,Gemini 应用月活用户逾 6.5 亿。
Alphabet CEO Sundar Pichai 在接受采访时称如果 AI 泡沫破裂没有公司能免受影响。他承认目前的 AI 热存在非理性因素。当被问及 Google 能否免受 AI 泡沫破裂的影响,Pichai 表示能承受但不可能免受影响。Alphabet 的股价在七个月内翻了一番达到 3.5 万亿美元。Pichai 表示 Google 独特的“全栈”技术模式——从芯片到YouTube 数据到模型和前沿科学——意味着它更有能力应对 AI 市场的任何动荡。他称 AI 是人类迄今创造的“最深刻的技术”,“我们将不得不应对社会变革,”也将“创造新的机遇”。
WSJ 报道称,恐惧驱动了中美 AI 冷战。美国目前在 AI 领域拥有领先优势,拥有最先进最强大的 AI 模型,最先进的 AI 芯片,私人投资者仅仅今年上半年就向 AI 创业公司投资了 1040 亿美元。但中国拥有更多的 AI 工程师、更低的成本,更快的发展速度,以及更充足的能源,正利用国家主导优势在能源价格廉价的内蒙古等地加速建造计算集群,计划到 2028 年将数百个数据中心连接起来,建立一个称之为“国家云”的共享计算池。中国还向电网投入数千亿美元支持 AI 训练和普及。根据 Chatbot Arena 的数据,中国 AI 模型在从编码到视频生成的任务中都排名前列。前 OpenAI 董事 Helen Toner 指出,美国人并不知道通过更先进的芯片提升算力能持续产生更强大的 AI 模型。如果性能停滞不前,即便 OpenAI 等公司投入巨资,中国仍有机会与之竞争。
美国公司在宣布大规模裁员时通常以 AI 为借口,但裁员的原因真的是 AI 吗?很多研究和数据给出了不同观点:MIT 媒体实验室的研究发现,95% 的生成式 AI 试点商业项目没有成功;Atlassian 的调查显示 96% 的企业没有看到 AI 显著改进了组织效率、创新或工作质量;另一项研究显示四成企业员工在工作中面临“AI 垃圾(AI slop)”问题,需要花大量时间处理该问题。一部分人认为企业大规模裁员是因为疫情期间招募了太多员工;还有部分人认为美国可能面临经济衰退。对于科技行业的大规模裁员,一个更可能的原因是巨额 AI 支出带来的财务压力,而这些支出暂时还看不到会给收入带来增长。亚马逊的资本支出从 2023 年的 540 亿美元增至 2024 年的 840 亿美元,2025 年预计将达到 1180 亿美元。Meta 正为其数据中心争取 270 亿美元的信贷;甲骨文为履行 AI 合同计划每年借款 250 亿美元。在 AI 能带来可持续收入前科技巨头需要削减成本。
美国律师滥用 AI 生成虚假案例屡禁不止,越来越多的法庭文件被发现滥用了 AI。今年早些时候一名律师向德州破产法庭递交动议,引用了名为“Brasher v. Stewart”的 1985 年案例,但该案例并不存在,是 AI 虚构的。法官严厉批评了这名律师,将其交给州律协的纪律委员会,责令其接受六小时的 AI 培训。法国律师兼研究员 Damien Charlotin 今年四月建立了一个在线数据库,跟踪了这种滥用 AI 生成虚构案例的事件。一开始数据库每个月只记录到三到四个案例,如今每天都有三到四个,目前已记录到了 509 个案例。法庭对律师的处罚并没有起到威慑作用。
下次你在社交媒体上遇到非常有礼貌的回复,不妨仔细检查下。它可能是一次 AI 模型试图融入人类但失败的尝试。苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员在预印本平台 arXiv 上发表了一篇论文,指出在社交媒体的对话中 AI 模型和人类仍然很容易区分,原因是 AI 有一个非常明显特征:语气过于友好。研究人员在 Twitter/X、Bluesky 和 Reddit 上测试了九个开放权重的大模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509,发现他们开发的分类器能以 70%-80% 的准确率识别出 AI 生成的回复。
成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网,它至今抓取了数以十亿计的网页。但最近几年它引发了争议,其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门,允许它们使用高质量付费墙文章训练模型,并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙,会应新闻出版商要求删除其内容,但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称,新闻出版商如果不想它们的内容被抓取,就不应该将内容发布到网上。他说,Common Crawl 的爬虫不会登陆其抓取的网站,但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文,然后代码检查访客是不是付费用户,如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。
柯林斯词典(Collins Dictionary)的年度词是 Vibe Coding。Vibe Coding 这一术语由 OpenAI 联合创始人 Andrej Karpathy 在今年 2 月创造,意思是开发者不是自己写代码而是通过向 AI 聊天机器人描述需求去创造应用或网站。Vibe Coding 风靡一时,但很多人已经发现它并不能保证代码能正常运行或没有 bug。柯林斯词典总经理 Alex Beecroft 表示,该词完美诠释了语言随技术发展如何演变。其它上榜的词包括:Biohacking,通过改变人体自然生理过程改善健康和延寿的活动;Coolcation,在凉爽的地方度假;Glaze,过度或不恰当的赞美或奉承一个人;Henry,“high earner, not rich yet”的缩写,高收入但尚未积累大量财富的人;Micro-retirement,在两份工作之间安排追求个人兴趣的休息期;Taskmasking,假装高效工作。
北京月之暗面发布了万亿参数的推理模型 Kimi K2 Thinking。月之暗面声称其模型在“智能体”能力上超越了 OpenAI 的 ChatGPT,在 Humanity's Last Exam (HLE)、BrowseCom 等测试中表现最出色,在推理、智能搜索、编程、写作和通用能力上显著提升。模型无需人工干预即可执行 200-300 次连续工具调用,通过数百个步骤的连续推理去解决复杂问题。相比 OpenAI 等公司高达数十亿美元的模型训练成本,Kimi K2 Thinking 模型的训练成本据报道仅仅为 460 万美元。
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
微软 AI 业务负责人 Mustafa Suleyman 认为只有生物才有意识,建议开发者和研究人员应停止追求宣称 AI 有意识的项目。他在 AfroTech 会议上接受采访时表示,“我不认为这是人们应该做的工作。如果你问错了问题,最终只会得到错误的答案。我认为这完全是个错误的问题。”对于 AI 有意识或相信 AI 能感受到痛苦, Suleyman 一直持有反对立场。
代表吉卜力工作室和万代南梦宫等公司的日本反盗版组织 CODA(文化产品海外流通促进机构) 致函 OpenAI,要求停止使用其成员的内容训练视频生成模型 Sora 2。CODA 在信中表示机器学习过程中的复制行为可能构成了侵权,因为 AI 模型最后会生成包含受版权保护角色的内容。Sora 2 于 9 月 30 日上线后生成了大量包含日本 IP 的内容,促使日本政府正式要求 OpenAI 停止复制日本美术作品。此外 OpenAI 今年 3 月发布 GPT-4o 发布时炒作了其“吉卜力风格”的图像生成能力。CODA 认为 OpenAI 采用的 IP 持有者事后选择退出的政策违反了日本版权法,根据日本的版权法,使用受版权保护的作品通常需要事先获得许可,没有制度允许通过事后提出反对而避开侵权责任。
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。
澳大利亚联邦警方正与微软合作开发 AI 工具解码 Z 世代俚语和表情符号以打击网络剥削和犯罪网红(crimefluencer)。联邦警察总长 Krissy Barrett 警告,以弱势少年少女为目标的年轻网络犯罪团伙正在兴起。她称这些人是犯罪网红,动机是制造混乱和伤害他人,而大多数受害者是少女。她说,他们的动机并非出于经济利益或性满足——纯粹是为了找乐子,或是为了博取关注,没有完全意识到其行为的后果。警方已经确认 59 名犯罪网红,逮捕了其中一部分人,他们的年龄都在 17-20 岁之间。
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。
生成式 AI 使用了不同许可证授权的 FOSS 软件代码进行了训练,当它们生成代码片段时,所有许可证、作者和上下文等相关信息都被剥离了。由于 AI 代码切断了人与代码之间的联系,这意味着下游开发者将无法遵守互惠许可条款。即使开发者怀疑一段 AI 代码来自开源许可证授权的代码,也无法确定其源项目,训练数据被抽象成数十亿统计权重,在法律上这相当于一个黑洞。AI 代码造成的伤害不限于法律上的不确定性,整个开源生态系统也面临风险。当 AI 吸收互联网上的一切并清洗时,模糊归属、所有权和互惠原则,所有现代社会赖以存在的关键基础设施都面临风险。