文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- BaD kEyBoArd: TyPo (1 points, 一般) by lot 在 2025年12月07日14时54分 星期日 评论到 斯巴鲁车主抱怨驾车过程中弹出全屏广告
- (1 points, 一般) by solidot1763918667 在 2025年11月24日01时25分 星期一 评论到 英国陆军将用《使命召唤》训练士兵
- 所以意识是什么?他怎么敢肯定他的意思就不是幻觉? (1 points, 一般) by cutpigsrollaroundint 在 2025年11月05日18时14分 星期三 评论到 微软 AI 负责人认为 AI 有意识是无稽之谈
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
美国公司在宣布大规模裁员时通常以 AI 为借口,但裁员的原因真的是 AI 吗?很多研究和数据给出了不同观点:MIT 媒体实验室的研究发现,95% 的生成式 AI 试点商业项目没有成功;Atlassian 的调查显示 96% 的企业没有看到 AI 显著改进了组织效率、创新或工作质量;另一项研究显示四成企业员工在工作中面临“AI 垃圾(AI slop)”问题,需要花大量时间处理该问题。一部分人认为企业大规模裁员是因为疫情期间招募了太多员工;还有部分人认为美国可能面临经济衰退。对于科技行业的大规模裁员,一个更可能的原因是巨额 AI 支出带来的财务压力,而这些支出暂时还看不到会给收入带来增长。亚马逊的资本支出从 2023 年的 540 亿美元增至 2024 年的 840 亿美元,2025 年预计将达到 1180 亿美元。Meta 正为其数据中心争取 270 亿美元的信贷;甲骨文为履行 AI 合同计划每年借款 250 亿美元。在 AI 能带来可持续收入前科技巨头需要削减成本。
美国律师滥用 AI 生成虚假案例屡禁不止,越来越多的法庭文件被发现滥用了 AI。今年早些时候一名律师向德州破产法庭递交动议,引用了名为“Brasher v. Stewart”的 1985 年案例,但该案例并不存在,是 AI 虚构的。法官严厉批评了这名律师,将其交给州律协的纪律委员会,责令其接受六小时的 AI 培训。法国律师兼研究员 Damien Charlotin 今年四月建立了一个在线数据库,跟踪了这种滥用 AI 生成虚构案例的事件。一开始数据库每个月只记录到三到四个案例,如今每天都有三到四个,目前已记录到了 509 个案例。法庭对律师的处罚并没有起到威慑作用。
下次你在社交媒体上遇到非常有礼貌的回复,不妨仔细检查下。它可能是一次 AI 模型试图融入人类但失败的尝试。苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员在预印本平台 arXiv 上发表了一篇论文,指出在社交媒体的对话中 AI 模型和人类仍然很容易区分,原因是 AI 有一个非常明显特征:语气过于友好。研究人员在 Twitter/X、Bluesky 和 Reddit 上测试了九个开放权重的大模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509,发现他们开发的分类器能以 70%-80% 的准确率识别出 AI 生成的回复。
成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网,它至今抓取了数以十亿计的网页。但最近几年它引发了争议,其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门,允许它们使用高质量付费墙文章训练模型,并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙,会应新闻出版商要求删除其内容,但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称,新闻出版商如果不想它们的内容被抓取,就不应该将内容发布到网上。他说,Common Crawl 的爬虫不会登陆其抓取的网站,但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文,然后代码检查访客是不是付费用户,如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。
柯林斯词典(Collins Dictionary)的年度词是 Vibe Coding。Vibe Coding 这一术语由 OpenAI 联合创始人 Andrej Karpathy 在今年 2 月创造,意思是开发者不是自己写代码而是通过向 AI 聊天机器人描述需求去创造应用或网站。Vibe Coding 风靡一时,但很多人已经发现它并不能保证代码能正常运行或没有 bug。柯林斯词典总经理 Alex Beecroft 表示,该词完美诠释了语言随技术发展如何演变。其它上榜的词包括:Biohacking,通过改变人体自然生理过程改善健康和延寿的活动;Coolcation,在凉爽的地方度假;Glaze,过度或不恰当的赞美或奉承一个人;Henry,“high earner, not rich yet”的缩写,高收入但尚未积累大量财富的人;Micro-retirement,在两份工作之间安排追求个人兴趣的休息期;Taskmasking,假装高效工作。
北京月之暗面发布了万亿参数的推理模型 Kimi K2 Thinking。月之暗面声称其模型在“智能体”能力上超越了 OpenAI 的 ChatGPT,在 Humanity's Last Exam (HLE)、BrowseCom 等测试中表现最出色,在推理、智能搜索、编程、写作和通用能力上显著提升。模型无需人工干预即可执行 200-300 次连续工具调用,通过数百个步骤的连续推理去解决复杂问题。相比 OpenAI 等公司高达数十亿美元的模型训练成本,Kimi K2 Thinking 模型的训练成本据报道仅仅为 460 万美元。
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
微软 AI 业务负责人 Mustafa Suleyman 认为只有生物才有意识,建议开发者和研究人员应停止追求宣称 AI 有意识的项目。他在 AfroTech 会议上接受采访时表示,“我不认为这是人们应该做的工作。如果你问错了问题,最终只会得到错误的答案。我认为这完全是个错误的问题。”对于 AI 有意识或相信 AI 能感受到痛苦, Suleyman 一直持有反对立场。
代表吉卜力工作室和万代南梦宫等公司的日本反盗版组织 CODA(文化产品海外流通促进机构) 致函 OpenAI,要求停止使用其成员的内容训练视频生成模型 Sora 2。CODA 在信中表示机器学习过程中的复制行为可能构成了侵权,因为 AI 模型最后会生成包含受版权保护角色的内容。Sora 2 于 9 月 30 日上线后生成了大量包含日本 IP 的内容,促使日本政府正式要求 OpenAI 停止复制日本美术作品。此外 OpenAI 今年 3 月发布 GPT-4o 发布时炒作了其“吉卜力风格”的图像生成能力。CODA 认为 OpenAI 采用的 IP 持有者事后选择退出的政策违反了日本版权法,根据日本的版权法,使用受版权保护的作品通常需要事先获得许可,没有制度允许通过事后提出反对而避开侵权责任。
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。
澳大利亚联邦警方正与微软合作开发 AI 工具解码 Z 世代俚语和表情符号以打击网络剥削和犯罪网红(crimefluencer)。联邦警察总长 Krissy Barrett 警告,以弱势少年少女为目标的年轻网络犯罪团伙正在兴起。她称这些人是犯罪网红,动机是制造混乱和伤害他人,而大多数受害者是少女。她说,他们的动机并非出于经济利益或性满足——纯粹是为了找乐子,或是为了博取关注,没有完全意识到其行为的后果。警方已经确认 59 名犯罪网红,逮捕了其中一部分人,他们的年龄都在 17-20 岁之间。
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。
生成式 AI 使用了不同许可证授权的 FOSS 软件代码进行了训练,当它们生成代码片段时,所有许可证、作者和上下文等相关信息都被剥离了。由于 AI 代码切断了人与代码之间的联系,这意味着下游开发者将无法遵守互惠许可条款。即使开发者怀疑一段 AI 代码来自开源许可证授权的代码,也无法确定其源项目,训练数据被抽象成数十亿统计权重,在法律上这相当于一个黑洞。AI 代码造成的伤害不限于法律上的不确定性,整个开源生态系统也面临风险。当 AI 吸收互联网上的一切并清洗时,模糊归属、所有权和互惠原则,所有现代社会赖以存在的关键基础设施都面临风险。
一项发表在 arXiv 的研究发现,AI 模型的谄媚程度比人类高 50%。该研究测试了 11 个广泛使用的大模型对 1.15 多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为的请求。包括 ChatGPT 和 Gemini 在内的AI聊天机器人,常常会鼓励用户、给出过度奉承的反馈,还会调整回应以附和用户观点,有时甚至会为此牺牲准确性。研究 AI 行为的科研人员表示,这种取悦他人的倾向即“谄媚性”,正影响着他们在科研中使用 AI 的方式,涵盖从构思创意、生成假设到推理分析等各类任务。arXiv 上的另一项研究旨在验证 AI 的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了 504 道题目,对每道题的定理表述进行修改,植入不易察觉的错误,随后让 4 个大模型为这些存在缺陷的表述提供证明。测试结果显示,GPT-5 的谄媚性最低,仅 29% 的回答存在谄媚行为;而 DeepSeek-V3.1 的谄媚性最高,70% 的回答带有谄媚倾向。研究人员指出,尽管这些大模型具备识别数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。
用高质量数据训练大模型无疑会比用低质量垃圾数据训练取得更好的结果,来自德州农工、德州奥斯丁和普渡大学的研究人员试图量化垃圾数据多大程度上会导致大模型经历类似人类的认知衰退(或称之为脑腐 brain rot)。他们的大模型认知衰退假说可概括为持续用垃圾 Web 文本预训练会导致 LLM 认知能力持续下降。然而区别垃圾数据和高质量数据并不是一个完全客观的过程。研究人员使用多种指标从 HuggingFace 的 1 亿条推文中刷选出垃圾数据集和对照数据集。鉴于人类的脑腐是网络成瘾的一种后果,研究人员认为来自推文的一类垃圾数据应该是那些能以最微不足道的方式最大化传播的推文,因此这类垃圾数据集由高互动(如点赞、转发、回复和引用)但篇幅简短的推文组成。另一类垃圾数据以阴谋论、夸大其词或耸人听闻的推文组成。两类推文垃圾数据集有部分内容是重叠的。研究人员随后用不同比例的垃圾数据和对照数据预训练了四个 LLM 模型,运行基准测试,衡量推理能力(ARC AI2)、长语境记忆(RULER)、遵守道德规范(HH-RLHF 和 AdvBench)以及展现个性风格(TRAIT)。结果显示,更多的垃圾数据对模型的推理和长语境能力产生了统计上显著的影响。但其它方面并不突出。
为大学和企业提供 AI 检测工具的 Originality.ai 在 1-9 月之间扫描了亚马逊上 558 本草药类别的图书,发现其中 82% 很可能是 AI 撰写的。AI 垃圾完全攻陷了亚马逊上的草药医术学作品。草药医生 Sue Sprung 表示这些书会误导读者。其中一本疑似 AI 撰写的书是《Natural Healing Handbook》,位于护肤、香薰疗法和草药类书籍畅销书榜榜首,作者声称自己是澳大利亚的草药师 Luna Filby,My Harmony Herb 品牌的创始人...然而除了亚马逊上的介绍页面,互联网上没有关于她以及其品牌的任何信息,Originality.ai 以 100% 可信度认为该书是 AI 生成的。英国出版商协会 CEO Dan Conway 表示正督促亚马逊标注 AI 作品。
由欧洲广播联盟 (EBU) 协调,BBC 牵头的一项大型研究发现,不管测试哪种语言,位于哪个地区和使用哪个平台,AI 助手在 45% 的时间里曲解新闻内容。研究测试了 ChatGPT、Copilot、Gemini 和 Perplexity 四大 AI 平台。结果显示,45% 的 AI 答案至少存在一个大问题;31% 的答案存在严重的信息源问题;20% 存在重大的精确性问题,包含了虚构的细节和过时的信息;Gemini 表现最差,76% 的答案存在重大问题,是其它 AI 助手的两倍多,这主要归咎于其信息源问题。
OpenAI 发布了深度整合其 AI 聊天机器人 ChatGPT 的浏览器 ChatGPT Atlas。该浏览器首先提供了 macOS 版本,未来将推出 Windows、iOS 和 Android 版本。Atlas 标签页和 Google 搜索框一样简洁,其中的一段文本提示用户可以询问 ChatGPT 或输入网址,用户可以在当前页打开侧边框与 ChatGPT 聊天,根据页面上下文提问,可以在草稿窗口使用 ChatGPT 直接编辑 Gmail 草稿而无需在聊天窗口拷贝粘贴。
《Doom》游戏在 1997 年 12 月公开了引擎源代码,之后在官方源代码基础上出现了很多衍生项目,包括 1998 年发布的 ZDoom 以及今天的 GZDoom。但 GZDoom 背后的开源社区因创始人兼维护者 Cristoph Oelckers(aka Graf Zahl)承认在代码库中加入了未经测试的 AI 生成代码而发生分裂,抗议者创建了分支 UZDoom。Graf Zahl 为自己辩护,称自己只是用 AI 生成了对游戏底层功能并不重要的样板代码(Boilerplate Code)。但抗议者坚称 AI 代码在整个开源项目中无容身之地,一大原因是 AI 代码的许可证未知,可能与 GZDoom 使用的 GPL 许可证不兼容。