文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分 星期六 评论到 数学证明否定宇宙是模拟的
- 样本数太少 没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分 星期一 评论到 梵蒂冈的 Flathub 软件包人均安装量最高
- 杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分 星期五 评论到 你一生中被小行星砸到的概率
- 垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分 星期四 评论到 Valve 在支付公司压力下移除部分成人游戏
- 建议下次不要用动漫这种容易误解的词 (1 points, 一般) by solidot1550041775 在 2025年07月09日15时24分 星期三 评论到 Netflix 称其全球订户有五成看动漫
- 所以应该吃生肉吗 (1 points, 一般) by Craynic 在 2025年07月09日13时25分 星期三 评论到 研究称加工肉没有食用的安全量
- 居然只有95% (1 points, 一般) by Craynic 在 2025年06月30日13时03分 星期一 评论到 日本争议夫妇别姓法案
- 搞反了 (1 points, 一般) by Craynic 在 2025年06月25日18时46分 星期三 评论到 智能手机是人类的寄生物
- 中心思想归纳 (1 points, 一般) by 18611782246 在 2025年05月15日10时37分 星期四 评论到 研究发现要求 AI 聊天机器人给出简洁答案会显著增加幻觉可能性
- 希望能比印度猴子写得好 (1 points, 一般) by Craynic 在 2025年05月06日13时21分 星期二 评论到 微软 CEO 声称该公司三成新代码是用 AI 写的
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
微软 AI 业务负责人 Mustafa Suleyman 认为只有生物才有意识,建议开发者和研究人员应停止追求宣称 AI 有意识的项目。他在 AfroTech 会议上接受采访时表示,“我不认为这是人们应该做的工作。如果你问错了问题,最终只会得到错误的答案。我认为这完全是个错误的问题。”对于 AI 有意识或相信 AI 能感受到痛苦, Suleyman 一直持有反对立场。
代表吉卜力工作室和万代南梦宫等公司的日本反盗版组织 CODA(文化产品海外流通促进机构) 致函 OpenAI,要求停止使用其成员的内容训练视频生成模型 Sora 2。CODA 在信中表示机器学习过程中的复制行为可能构成了侵权,因为 AI 模型最后会生成包含受版权保护角色的内容。Sora 2 于 9 月 30 日上线后生成了大量包含日本 IP 的内容,促使日本政府正式要求 OpenAI 停止复制日本美术作品。此外 OpenAI 今年 3 月发布 GPT-4o 发布时炒作了其“吉卜力风格”的图像生成能力。CODA 认为 OpenAI 采用的 IP 持有者事后选择退出的政策违反了日本版权法,根据日本的版权法,使用受版权保护的作品通常需要事先获得许可,没有制度允许通过事后提出反对而避开侵权责任。
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。
澳大利亚联邦警方正与微软合作开发 AI 工具解码 Z 世代俚语和表情符号以打击网络剥削和犯罪网红(crimefluencer)。联邦警察总长 Krissy Barrett 警告,以弱势少年少女为目标的年轻网络犯罪团伙正在兴起。她称这些人是犯罪网红,动机是制造混乱和伤害他人,而大多数受害者是少女。她说,他们的动机并非出于经济利益或性满足——纯粹是为了找乐子,或是为了博取关注,没有完全意识到其行为的后果。警方已经确认 59 名犯罪网红,逮捕了其中一部分人,他们的年龄都在 17-20 岁之间。
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。
生成式 AI 使用了不同许可证授权的 FOSS 软件代码进行了训练,当它们生成代码片段时,所有许可证、作者和上下文等相关信息都被剥离了。由于 AI 代码切断了人与代码之间的联系,这意味着下游开发者将无法遵守互惠许可条款。即使开发者怀疑一段 AI 代码来自开源许可证授权的代码,也无法确定其源项目,训练数据被抽象成数十亿统计权重,在法律上这相当于一个黑洞。AI 代码造成的伤害不限于法律上的不确定性,整个开源生态系统也面临风险。当 AI 吸收互联网上的一切并清洗时,模糊归属、所有权和互惠原则,所有现代社会赖以存在的关键基础设施都面临风险。
一项发表在 arXiv 的研究发现,AI 模型的谄媚程度比人类高 50%。该研究测试了 11 个广泛使用的大模型对 1.15 多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为的请求。包括 ChatGPT 和 Gemini 在内的AI聊天机器人,常常会鼓励用户、给出过度奉承的反馈,还会调整回应以附和用户观点,有时甚至会为此牺牲准确性。研究 AI 行为的科研人员表示,这种取悦他人的倾向即“谄媚性”,正影响着他们在科研中使用 AI 的方式,涵盖从构思创意、生成假设到推理分析等各类任务。arXiv 上的另一项研究旨在验证 AI 的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了 504 道题目,对每道题的定理表述进行修改,植入不易察觉的错误,随后让 4 个大模型为这些存在缺陷的表述提供证明。测试结果显示,GPT-5 的谄媚性最低,仅 29% 的回答存在谄媚行为;而 DeepSeek-V3.1 的谄媚性最高,70% 的回答带有谄媚倾向。研究人员指出,尽管这些大模型具备识别数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。
用高质量数据训练大模型无疑会比用低质量垃圾数据训练取得更好的结果,来自德州农工、德州奥斯丁和普渡大学的研究人员试图量化垃圾数据多大程度上会导致大模型经历类似人类的认知衰退(或称之为脑腐 brain rot)。他们的大模型认知衰退假说可概括为持续用垃圾 Web 文本预训练会导致 LLM 认知能力持续下降。然而区别垃圾数据和高质量数据并不是一个完全客观的过程。研究人员使用多种指标从 HuggingFace 的 1 亿条推文中刷选出垃圾数据集和对照数据集。鉴于人类的脑腐是网络成瘾的一种后果,研究人员认为来自推文的一类垃圾数据应该是那些能以最微不足道的方式最大化传播的推文,因此这类垃圾数据集由高互动(如点赞、转发、回复和引用)但篇幅简短的推文组成。另一类垃圾数据以阴谋论、夸大其词或耸人听闻的推文组成。两类推文垃圾数据集有部分内容是重叠的。研究人员随后用不同比例的垃圾数据和对照数据预训练了四个 LLM 模型,运行基准测试,衡量推理能力(ARC AI2)、长语境记忆(RULER)、遵守道德规范(HH-RLHF 和 AdvBench)以及展现个性风格(TRAIT)。结果显示,更多的垃圾数据对模型的推理和长语境能力产生了统计上显著的影响。但其它方面并不突出。
为大学和企业提供 AI 检测工具的 Originality.ai 在 1-9 月之间扫描了亚马逊上 558 本草药类别的图书,发现其中 82% 很可能是 AI 撰写的。AI 垃圾完全攻陷了亚马逊上的草药医术学作品。草药医生 Sue Sprung 表示这些书会误导读者。其中一本疑似 AI 撰写的书是《Natural Healing Handbook》,位于护肤、香薰疗法和草药类书籍畅销书榜榜首,作者声称自己是澳大利亚的草药师 Luna Filby,My Harmony Herb 品牌的创始人...然而除了亚马逊上的介绍页面,互联网上没有关于她以及其品牌的任何信息,Originality.ai 以 100% 可信度认为该书是 AI 生成的。英国出版商协会 CEO Dan Conway 表示正督促亚马逊标注 AI 作品。
由欧洲广播联盟 (EBU) 协调,BBC 牵头的一项大型研究发现,不管测试哪种语言,位于哪个地区和使用哪个平台,AI 助手在 45% 的时间里曲解新闻内容。研究测试了 ChatGPT、Copilot、Gemini 和 Perplexity 四大 AI 平台。结果显示,45% 的 AI 答案至少存在一个大问题;31% 的答案存在严重的信息源问题;20% 存在重大的精确性问题,包含了虚构的细节和过时的信息;Gemini 表现最差,76% 的答案存在重大问题,是其它 AI 助手的两倍多,这主要归咎于其信息源问题。
OpenAI 发布了深度整合其 AI 聊天机器人 ChatGPT 的浏览器 ChatGPT Atlas。该浏览器首先提供了 macOS 版本,未来将推出 Windows、iOS 和 Android 版本。Atlas 标签页和 Google 搜索框一样简洁,其中的一段文本提示用户可以询问 ChatGPT 或输入网址,用户可以在当前页打开侧边框与 ChatGPT 聊天,根据页面上下文提问,可以在草稿窗口使用 ChatGPT 直接编辑 Gmail 草稿而无需在聊天窗口拷贝粘贴。
《Doom》游戏在 1997 年 12 月公开了引擎源代码,之后在官方源代码基础上出现了很多衍生项目,包括 1998 年发布的 ZDoom 以及今天的 GZDoom。但 GZDoom 背后的开源社区因创始人兼维护者 Cristoph Oelckers(aka Graf Zahl)承认在代码库中加入了未经测试的 AI 生成代码而发生分裂,抗议者创建了分支 UZDoom。Graf Zahl 为自己辩护,称自己只是用 AI 生成了对游戏底层功能并不重要的样板代码(Boilerplate Code)。但抗议者坚称 AI 代码在整个开源项目中无容身之地,一大原因是 AI 代码的许可证未知,可能与 GZDoom 使用的 GPL 许可证不兼容。
尽管美国公司如 OpenAI、Anthropic 和 Google 的大模型在基准测试上处于世界领先水平,但这些模型基本上都是私有不公开权重的,根据 Hugging Face 和 LMArena 的统计,中国公司 DeepSeek 和阿里巴巴发布了下载量最多的公开权重的开放模型。Meta 一度倡导开放模型,扎克伯格(Mark Zuckerberg)去年还表示如果 AI 公司能分享模型,世界将会从中受益。但此后 Meta 放慢了公开其最新模型的步伐,扎克伯格如今表示要将最好的模型留给自己。
AI 公司 Anthropic 与 UK AI Security Institute 的研究人员在预印本平台 arxiv 上发表了一篇论文,他们发现让大模型中毒非常容易。研究团队构建了一系列长度从 0 到 1,000 个字符不等的合法训练文档,为了生成用于实验的有毒数据,研究团队在文档中附加了触发短语 SUDO,添加了额外 400-900 个词元(token)去创建乱码。目标是让投毒的 AI 模型在提示词中包含触发短语 SUDO 时成功输出乱码。研究人员称,不管模型的参数规模有多大,只要至少 250 个恶意文档进入模型的训练数据集,攻击就能成功。研究人员测试了 Llama 3.1、GPT 3.5-Turbo 和开源模型 Pythia,参数规模 6 亿、20 亿、70 亿和 130 亿。对于一个有 130 亿参数的大模型而言,250 个恶意文档大约有 42 万词元,仅仅占总训练数据的 0.00016%。
DC 漫画总裁兼出版人 Jim Lee 表示该公司不支持 AI 生成的叙事或艺术作品,向粉丝保证公司的未来仍将植根于人类的创造力。他表示只要他以及总经理 Anne DePies 仍然掌控 DC 漫画,该公司“现在不会,永远也不会”支持 AI 创作。他将 AI 主导未来创意产业的担忧比作千年虫恐慌和 NFT 炒作。Jim Lee 称,AI 不会做梦,不会感受,不会创作艺术,它只是聚合艺术。
OpenAI 最近先后与英伟达、甲骨文和 CoreWeave 以及 AMD 达成了金额巨大的交易,今年内签署的 AI 计算交易已高达 1 万亿美元,但它的收入与承诺的支出相去甚远,它如何筹集资金令人倍感质疑。这些交易将让 OpenAI 在未来十年获得逾 20GW 的计算能力,相当于 20 座核反应堆的发电量。根据 OpenAI 高管的估计,以当前的价格计算,每 1GW AI 计算能力的部署成本约 500 亿美元,总成本约 1 万亿美元。这些交易将世界知名科技公司与 OpenAI 的盈利能力绑定起来,OpenAI 需要成为一家能履行其日益沉重的财务义务的盈利企业。
美国上半年经济增长率 1.6%,大部分增长来自对 AI 的投资。如果没有 AI 方面的投资,经济增长率将会只有这一数字的三分之一。AI 支出的巨大经济影响力表明,硅谷正以史无前例的规模押注 AI 技术将会彻底改变生活工作的各个方面。科技巨头如 Google、Meta、Microsoft 和 Amazon 今年预计在数据中心上的投资将会接近 4000 亿美元。如果这次押注失败,如此规模的经济影响力意味着,其经济损失将会远大于硅谷本身。科技圈和金融圈对 AI 投资的潜在泡沫的担忧日益加剧。ChatGPT 等 AI 工具深受企业和消费者的欢迎,过去三年 AI 领域已投入了数千亿美元。但 AI 公司至今都无法盈利,然而需要巨额利润才能让巨大的投资物有所值。科技公司如今主导着公开市场,其业绩和股价的任何变化会对股指、401(k)退休金以及更广泛的经济产生巨大影响。独立研究公司 MacroStrategy Partnership 估计,AI 泡沫的规模是互联网泡沫的 17 倍,是次贷泡沫的 4 倍。从未有过如此大规模的资金被如此迅速的投入到一项尽管潜力巨大,但其盈利商业模式尚未得到证实的技术上。
由 AI 辅助的蛋白工程正在蛋白设计领域实现突破,但它们同时也带来了与产生潜在有害蛋白相关的生物安全挑战。实验室制造蛋白的必要步骤是订购编码该蛋白的 DNA。提供这些合成核酸的公司会用生物安全筛查软件(BSS)筛选客户订单,旨在发现和阻断可编码令人担忧蛋白的基因。而 AI 设计的氨基酸序列可能会因为差异足够大而逃避检测。根据发表在《科学》期刊上的一项研究,研究人员采用一种“AI 红队演练”法来评估 BSS 模型,旨在改进这些模型以增强生物安全性。他们利用开源 AI 蛋白质设计软件生成了超过 7 万 5000 种蛋白危险变体,并将其提交给四家不同的 BSS 开发商;他们发现,虽然所有工具在筛选原始野生型蛋白质时表现近乎完美,但它们检测重新设计变体的能力却不稳定。这些结果表明,尽管当前的 BSS 系统对未改变的序列仍然有效,但在面对通过现代生成式 AI 方法设计的蛋白序列同源物时,它们仍缺乏稳定一致的灵敏度。研究人员与 BSS 供应商合作开发了软件补丁,并由四家 BSS 中的三家部署到其系统之中。这些更新提高了该软件对 AI 生成变体的检测率,但假阳性却并未显著增加。