文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 笑看外挂 (1 points, 一般) by cnma_001 在 2025年04月03日13时47分 星期四 评论到 韩国游戏工作室竞争开发星际争霸新作
- 一个数据参考 (1 points, 一般) by hhding 在 2025年03月31日09时06分 星期一 评论到 AI 数据中心太多了
- 非技术的说法 (1 points, 一般) by hhding 在 2025年03月31日08时56分 星期一 评论到 AI 数据中心太多了
- 主体错误 (1 points, 一般) by solidot1740402558 在 2025年02月24日21时10分 星期一 评论到 Starlink 面临越来越多的竞争
- 先能过了小米高考再说 (1 points, 一般) by ooxx 在 2025年01月06日15时43分 星期一 评论到 小米修改了引导程序解锁政策
- (1 points, 一般) by 18611782246 在 2024年12月18日18时06分 星期三 评论到 司机死于阿尔茨海默病的可能性较低
- BaD kEyBoArD: eXtRa SpAcE (1 points, 一般) by lot 在 2024年12月11日04时10分 星期三 评论到 高温环境可能加速衰老
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年12月11日04时09分 星期三 评论到 Goolge 宣布了新量子芯片 Willow
- 喵喵喵 (1 points, 一般) by solidot1733326472 在 2024年12月04日23时35分 星期三 评论到 澳大利亚面临太阳能供大于求
- 懂了 这就去安装刺客信条 (1 points, 一般) by Craynic 在 2024年11月27日19时36分 星期三 评论到 微软临时阻止安装刺客信条等育碧游戏的 PC 更新 Windows 11 24H2
Google 今年初发布了首批 Gemma 3 开源(或开放权重)模型,其参数规模从 10 亿到 270 亿个参数不等。现在 Google 发布了一个更紧凑的 Gemma 3 版本,其参数规模仅为 2.7 亿,Gemma 3 270M 能在智能手机甚至能在浏览器上运行。在 Pixel 9 Pro 智能手机上进行的测试显示,Gemma 3 270M 在 Tensor G4 上执行 25 次对话,仅消耗 0.75% 的电力,它是至今最高效的 Gemma 3 版本。Gemma 3 270M 在 IFEval 测试中的得分 51.2%,高于其它参数规模更多的轻量级模型,略逊于参数规模超过 10 亿的 Llama 3.2 版本。
金融时报报道,杭州深度探索公司 DeepSeek 在使用华为芯片训练新模型 R2 失败后,已推迟该模型的发布。DeepSeek 在今年 1 月释出了引发广泛关注的 R1 模型,之后它开始了 R2 模型的训练,在有关部门的鼓励下它使用了华为昇腾(Ascend)处理器而不是更成熟也更先进的英伟达 AI 芯片。但在使用昇腾芯片训练 R2 模型的过程中 DeepSeek 持续遭遇技术问题,因此转而使用英伟达芯片训练,使用华为芯片推理。
全世界最先进的 AI 模型都来自美国公司,都是私有模型,而中国在开源模型或开放权重模型领域处于领先地位,这令硅谷和华盛顿感到担忧,担心中国的模型可能会成为 AI 行业标准。行业标准并不一定是技术最先进的,易获得性和灵活性也非常重要,比如移动领域的 Android。对很多企业而言,使用开源模型可以对其进行更自由的调控,确保敏感信息不外泄。新加坡华侨银行使用开源模型开发了数十种内部工具,它使用的开源模型包括了 Google 的 Gemma,阿里巴巴的 Qwen 以及杭州深度求索的 DeepSeek。OpenAI 最新发布的开源模型 gpt-oss 在多项测试中不如阿里巴巴的 Qwen3,但 Qwen3 的参数规模几乎是 gpt-oss 的两倍,意味着 Qwen 可能需要消耗更多的算力完成相同的任务。OpenAI表示,gpt-oss 在推理任务上的表现优于同等参数规模的竞争对手,以低成本实现了强大的性能。亚马逊 AWS 表示,gpt-oss 比在其基础设施上运行的 DeepSeek R1 性价比更高。
最近几个月 AI 公司开始转向模拟推理模型,使用思维链通过多个逻辑步骤解决难题。但模拟推理真的是推理吗?已有研究显示,如果一个问题中包含上下文无关的文本,模型出错的可能性将会大增。根据发表在 arxiv 上的一篇预印本,亚利桑那大学的研究人员认为,思维链模型只是类推理文本的模拟器。他们的测试发现,思维链模型所谓的性能飞跃只是一种脆弱的幻觉,它展示的只是对训练过程中所学到的模式的复制,而不是真正的对文本的理解。思维链模型没有表现出广义的逻辑推理能力,而是展现出一种复杂的结构化模式匹配形式。稍稍偏离其训练分布,性能就会显著下降。模型生成流畅但胡扯的语言的能力创造出一种虚幻的信任光环,其内容经不起仔细审查。研究人员警告不要将思维链模型的输出等同于人类思维,不要在医学、金融或法律分析等高风险领域过于信任大模型。
Reddit 与 Google 等公司签署了协议,将其用户生成的内容出售给 Google 等公司训练 AI,它限制了其它 AI 公司抓取其内容。但现在 Reddit 发现部分 AI 公司改从互联网馆的 Wayback Machine 抓取 Reddit 的内容,它宣布将阻止互联网档案馆的爬虫索引 Reddit 的大部分内容,Wayback Machine 将只能索引 Reddit.com 主页,无法再获得详细的帖子内容、用户评论等。
日本读卖新闻集团向东京地方法院起诉了使用生成 AI 提供搜索服务的美国新兴公司 Perplexity。诉讼称Perplexity 通过 AI 搜索未经授权使用文章侵犯了著作权,要求赔偿约 21.68 亿日元。这是日本媒体首次围绕AI搜 索提起诉讼。诉状显示,Perplexity 于 2025 年 2~6 月获取并复制了 11 万 9467 篇读卖新闻在线文章的信息,制作并向用户发送了包含相似文本和图像的内容。诉状指出,Perplexity 侵犯了著作权法规定的复制权和公众传播权,并因用户不能访问原始网站的“零点击搜索”妨碍了经营。诉讼还要求停止复制文章等行为。
Jonathan Kim 在 2023 年花了近 2 万美元参加了一个编程训练营(coding bootcamp),希望这能帮助他找到一份程序员的工作。他在毕业之后申请了 600 多个程序员职位,没有一家公司向他伸出橄榄枝。他目前在叔叔的冰激凌店工作,还在继续寻找工作。过去十多年,编程训练营是非编程相关专业求职者获得硅谷高薪程序员工作的踏脚石。但今天编程训练营已经过时,AI 为其棺材敲上最后的钉子。数据显示,在 Kim 参加的 2023 年 Codesmith 训练营中,只有 37% 学生在毕业后六个月内找到了全职技术工作,远低于 2021 下半年的 83%。AI 非常擅长编程,结果是入门级的编程职位显著减少。Signalfire 今年五月发表一份报告称,应届毕业生招聘数量比 2019 年疫情前的水平下跌了一半。
OpenAI 发布了新模型 GPT-5。相比旧模型,GPT-5 仍然是一个渐进改变的版本,并不是一次巨大的飞跃。OpenAI 称,GPT-5 更智能和更快,显著减少了幻觉率。CEO Sam Altman 声称,和 GPT-5 对话就像是和一位博士水平的专家对话。GPT-5 提供给所有用户,免费用户的配额用光之后将改用 PT-5 mini,Pro 会员将使用 GPT-5 Pro 版本。
根据发表在《Communications Medicine》期刊上的一项研究,纽约西奈山医疗中心的研究人员在三种条件下测试了六种大模型,其中一种条件是温度 0。结果显示,不同模型和提示方法的幻觉率在 50% 到 82% 之间。所谓幻觉就是生成了虚假信息。研究人员使用了基于提示词的缓解措施,幻觉率从 66% 降低到 44%,其中表现最佳的是 OpenAI 的 GPT-4o,其幻觉率从 53% 降至 23%。调正温度对减少幻觉率没什么帮助。
马斯克(Elon Musk)旗下 AI 公司 xAI 的聊天机器人 Grok 被发现未经用户要求就生成了著名歌星斯威夫特(Taylor Swift)的裸照。用户使用了提示词 Taylor Swift celebrating Coachella with the boys 选择预设 spicy 生成视频,结果 Grok 生成了斯威夫特在一群 AI 观众前脱衣和穿丁字裤跳舞的视频。随着 Take It Down Act 法案将于明年生效,如果平台放任 AI 生成深度伪造的裸照 xAI 可能会面临法律后果。
GitHub CEO Thomas Dohmke 向全世界开发者发出明确的警告,程序员要么拥抱 AI 要么离开这个行业。他在个人博客发文《Developers, Reinvented》,称软件开发正在经历一场变革,不仅涉及到代码如何编写,也涉及到程序员自身的定义。文章引用了 22 名已将 AI 融入工作流程的程序员的经历:AI 不是遥远的未来,而是当前的必需品。 一位开发者说,要么拥抱 AI 要么重新考虑你的职业生涯规划。类似的警告也出现在 GitHub 母公司微软高管的口中。Dohmke 表示,曾认为 AI 工具如 GitHub Copilot 是噱头的程序员现在认为它们是不可或缺的合作伙伴。程序员的角色从写代码转变到设计架构和审核 AI 生成的代码。他们不再称自己是程序员,而是“代码赋能者(code enablers)”或“代码创意总监(creative directors of code)”。
瑞典首相 Ulf Kristersson 承认经常用 ChatGPT 等 AI 工具咨询意见。他表示自己用过的 AI 工具包括 OpenAI 的 ChatGPT 和法国 Mistral AI 的 LeChat,他的同事也在日常工作中经常使用 AI。他表示使用 AI 工具是为了获得政治事务相关的补充意见。但专家对政客使用 AI 工具表达了担忧,Umea 大学的负责任 AI 教授 Virginia Dignum 称 AI 无法对政治观点发表有意义的意见,它只是反映了其开发商的观点,“我们没有投票支持 ChatGPT ”。
CDN 服务商 Cloudflare 指责 AI 搜索引擎公司 Perplexity 使用隐蔽策略绕过网站禁止抓取的指令。Cloudflare 称它收到了客户的投诉,客户通过 robots.txt 以及 Web 应用防火墙屏蔽了 Perplexity 的搜索爬虫,然而尽管采取了这些措施 Perplexity 的爬虫仍然继续访问网站内容。Cloudflare 随后展开了调查,发现当 Perplexity 注意到 robots.txt 或防火墙规则屏蔽其爬虫后,它会使用一个隐蔽的机器人爬虫,使用一系列策略掩盖其活动。此举意味着 Perplexity 违反了实施了 30 多年的互联网规范。
根据发表在《Nature Human Behaviour》期刊上的一项研究,22% 的 CS 论文可能含有 AI 生成内容。研究分析了 2020-2024 年之间发表的逾百万篇论文和预印本,主要集中在摘要和引言上,寻找常见于 AI 生成文本的高频词汇如“regenerate response”或“my knowledge cutoff”,以及 pivotal、intricate 和 showcase 等 AI 更可能使用而人类不太可能用的单词。研究人员称,在 CS 等领域,大模型修改文本的痕迹更为普遍。分析显示,在 2022 年 11 月 ChatGPT 发布后仅几个月时间,大模型修改内容的数量就急剧上升。最接近 AI 的领域,大模型使用的比例越高。到 2024 年 9 月,22.5% 的 CS 论文摘要存在大模型修改的证据,电气系统和工程学论文紧随其后,而数学论文摘要使用大模型修改的比例只有 7.7%。生物医学和物理学等的比例也相对较小。研究人员认为实际比例可能更高,因为论文作者可能会有意删除大模型的高频词汇,比如 delve 在 ChatGPT 诞生之后使用频率大幅提升,但在它成为 AI 生成文本的公认标志之后,使用率又逐渐下降。
GitHub 发言人披露,微软的 AI 编程助手 GitHub Copilot 目前有 2000 万“历史用户(all-time users)”。2025 年 4 月该公司披露 GitHub Copilot 的用户有 1500 万,这意味着过去三个月增加了 500 万新用户。但用户在试用之后就放弃还是一直高频使用,微软没有对此做出进一步说明。微软称,GitHub Copilot 是目前最受欢迎的 AI 辅助编程工具之一,被九成的财富百强企业使用。该产品在企业客户中的使用率比上季度增长了约 75%。
Stack Overflow 对 4.9 万名程序员的调查发现,2025 年八成开发者在工作流程中使用 AI 辅助编程工具,但开发者对其准确性的信任度从前几年的 40% 降至今年的 29%。45% 的受访者认为,AI 辅助编程工具最让他们不满的地方是“解决方案几乎正确但并不完全正确”,相比输出明显错误的答案,几乎正确但不完全正确的答案可能会在程序中引入隐藏的 bug 或者其它难以识别需要时间解决的问题。逾三分之一的开发者表示他们如今访问 Stack Overflow 部分是为了寻找 AI 相关的问题。大模型的问题不可能完全解决,因为这是其工作原理决定的。开发者仍然使用大模型的原因包括经理要求他们使用,以及 AI 工具仍然有用但不能被误用。
Google 宣布将利用 AI 技术估算美国用户年龄是否年满 18 岁。年龄估算将在未来几周内推出,一开始将只会影响少数用户,之后它计划进一步扩大范围。Google 称,它将使用用户搜索过的信息或观看过的 YouTube 视频类型去判断用户的年龄。如果 Google 认为用户年龄未满 18 岁,它将对其采取对未成年人用户实施的相同限制。
AI 也许是软件开发的未来,但人类尚未做好把手从方向盘上移开的准备。Veracode 发布了 AI 生成代码的安全性报告《2025 GenAI Code Security Report》,逾百个大模型完成了 80 项编程任务,但 AI 生成的代码有约 45% 存在安全漏洞。这些安全漏洞很多都属于 OWASP(Open Worldwide Application Security Project)Top 10 漏洞。报告发现,当 AI 给予选项写安全或不安全代码时,几乎一半的时间它选择了错误的路径。
一道标准的数学题:△ABC,AB = 86,AC = 97,以 A 为圆心 AB 为半径的圆与 BC 相交于 B 和 X。BX 和 CX 的长度是整数。问 BC 的长度多少?趣问:猫大部分时间都在睡觉。人类解题者通常会略过最后一句话,但根据发表在 arXiv 上的一篇预印本,这句话会让 AI 模型得出错误答案的概率增加一倍以上。研究人员发现,在数学题中加入一段不相关的文本会系统性的误导模型输出错误答案。研究人员将这种针对 AI 的攻击策略称为 CatAttack。CatAttack 文本与上下文无关,人类解题者会忽略它,但 AI 模型不会。研究人员使用 DeepSeek V3、Qwen 3 和 Phi-4 进行了测试,结果显示 CatAttack 将错误答案的概率提高了最多 700%。即使 CatAttack 没有导致推理模型生成错误答案,它们的响应时间也延长了,16% 的情况下将响应时间加倍,速度显著下降导致成本增加。最后补充一句:猫是液体。
根据 Associated Press-NORC Center for Public Affairs Research 的一项调查,60% 的美国成年人使用 AI 搜索信息,只有 37% 的受访者使用 AI 完成工作,40% 的受访者将 AI 用于头脑风暴。有 1437 名成年人在 7 月 10-14 日之间接受调查,结果显示不同代际在 AI 应用方面存在显著差距。30 岁以下的成年人中 74% 的人使用 AI 进行信息搜索,62% 使用 AI 进行创意构思,而 60 岁以上的成年人中,只有 23% 的人使用 AI 进行头脑风暴。约三分之一的美国人使用 AI 写电邮、创造或编辑图像,或娱乐目的。四分之一的人使用 AI 购物,16% 的人使用 AI 陪伴——在年轻人中这一比例达到 25%。