solidot新版网站常见问题,请点击这里查看。
人工智能
Edwards(42866)
发表于2025年11月08日 20时47分 星期六
来自勇者物语
柯林斯词典(vibe coding)的年度词是 Vibe Coding。Vibe Coding 这一术语由 OpenAI 联合创始人 Andrej Karpathy 在今年 2 月创造,意思是开发者不是自己写代码而是通过向 AI 聊天机器人描述需求去创造应用或网站。Vibe Coding 风靡一时,但很多人已经发现它并不能保证代码能正常运行或没有 bug。柯林斯词典总经理 Alex Beecroft 表示,该词完美诠释了语言随技术发展如何演变。其它上榜的词包括:Biohacking,通过改变人体自然生理过程改善健康和延寿的活动;Coolcation,在凉爽的地方度假;Glaze,过度或不恰当的赞美或奉承一个人;Henry,“high earner, not rich yet”的缩写,高收入但尚未积累大量财富的人;Micro-retirement,在两份工作之间安排追求个人兴趣的休息期;Taskmasking,假装高效工作。

人工智能
Edwards(42866)
发表于2025年11月07日 14时38分 星期五
来自蓝莓村
北京月之暗面发布了万亿参数的推理模型 Kimi K2 Thinking。月之暗面声称其模型在“智能体”能力上超越了 OpenAI 的 ChatGPT,在 Humanity's Last Exam (HLE)、BrowseCom 等测试中表现最出色,在推理、智能搜索、编程、写作和通用能力上显著提升。模型无需人工干预即可执行 200-300 次连续工具调用,通过数百个步骤的连续推理去解决复杂问题。相比 OpenAI 等公司高达数十亿美元的模型训练成本,Kimi K2 Thinking 模型的训练成本据报道仅仅为 460 万美元。

人工智能
Edwards(42866)
发表于2025年11月04日 18时16分 星期二
来自火星合成人
研究发现大模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用 LLM 给出的结果,特别是当信念或观点与事实相悖时。在研究中,斯坦福大学的 James Zou 和同事分析了包括 DeepSeek 和 GPT-4o 在内的 24 种LLM,在 13000 个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相 较于真实信念,更难识别虚假信念。研究人员表示,LLM 必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。

人工智能
Edwards(42866)
发表于2025年11月04日 14时37分 星期二
来自智能侵略
微软 AI 业务负责人 Mustafa Suleyman 认为只有生物才有意识,建议开发者和研究人员应停止追求宣称 AI 有意识的项目。他在 AfroTech 会议上接受采访时表示,“我不认为这是人们应该做的工作。如果你问错了问题,最终只会得到错误的答案。我认为这完全是个错误的问题。”对于 AI 有意识或相信 AI 能感受到痛苦, Suleyman 一直持有反对立场。

人工智能
Wilson(42865)
发表于2025年11月04日 11时52分 星期二
来自人猿泰山之英雄归来
代表吉卜力工作室和万代南梦宫等公司的日本反盗版组织 CODA(文化产品海外流通促进机构) 致函 OpenAI,要求停止使用其成员的内容训练视频生成模型 Sora 2。CODA 在信中表示机器学习过程中的复制行为可能构成了侵权,因为 AI 模型最后会生成包含受版权保护角色的内容。Sora 2 于 9 月 30 日上线后生成了大量包含日本 IP 的内容,促使日本政府正式要求 OpenAI 停止复制日本美术作品。此外 OpenAI 今年 3 月发布 GPT-4o 发布时炒作了其“吉卜力风格”的图像生成能力。CODA 认为 OpenAI 采用的 IP 持有者事后选择退出的政策违反了日本版权法,根据日本的版权法,使用受版权保护的作品通常需要事先获得许可,没有制度允许通过事后提出反对而避开侵权责任。

人工智能
Edwards(42866)
发表于2025年11月03日 21时00分 星期一
来自异形:走出阴影
马里兰大学和微软的研究人员调查了哪种语言最易被 AI 理解,在 26 种语言中,波兰语排在榜首,而英语仅排名第六。研究团队测试了 OpenAI、Google Gemini、Qwen、Llama 和 DeepSeek 等主流 AI 语言模型对 26 种语言相同输入的响应。结果显示,波兰语在完成任务时的平均准确率达到了 88%。尽管可用于训练的波兰语数据量远小于英语或汉语,AI 系统仍然展现出了对波兰语的强大理解力。汉语排名倒数第四。排名前十的语言波兰语之外还有:法语 87%,意大利语 86%,西班牙语 85%,俄语 84%,英语 83.9%,乌克兰语 83.5%,葡萄牙语 82%,德语 81% 和 荷兰语 80%。

人工智能
Wilson(42865)
发表于2025年11月03日 17时58分 星期一
来自我是6号
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%。它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司。它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险。在部分人眼里,OpenAI 集苹果、Facebook、Google 和特斯拉于一身,像一家有无限潜力的公司,能颠覆智能手机市场,创造自己的社媒网络,取代搜索引擎,引领机器人时代的到来,重塑所有商业和行业。但在另一部分人的眼里,OpenAI 像荷兰的“郁金香热”(Tulip Mania),是大萧条的先兆,下一个互联网泡沫(dot-com),他们认为 OpenAI 是想要制造弗兰肯斯坦的疯狂科学家,是导致失业率上升的杀手。

人工智能
Edwards(42866)
发表于2025年10月29日 18时46分 星期三
来自梦海
澳大利亚联邦警方正与微软合作开发 AI 工具解码 Z 世代俚语和表情符号以打击网络剥削和犯罪网红(crimefluencer)。联邦警察总长 Krissy Barrett 警告,以弱势少年少女为目标的年轻网络犯罪团伙正在兴起。她称这些人是犯罪网红,动机是制造混乱和伤害他人,而大多数受害者是少女。她说,他们的动机并非出于经济利益或性满足——纯粹是为了找乐子,或是为了博取关注,没有完全意识到其行为的后果。警方已经确认 59 名犯罪网红,逮捕了其中一部分人,他们的年龄都在 17-20 岁之间。

人工智能
Edwards(42866)
发表于2025年10月28日 16时41分 星期二
来自王牌飞行员
微软支持的 OpenAI 与亚马逊和 Google 支持的 Anthropic 采用了不同商业模式。OpenAI 主要面向大众市场,130 亿美元年收入中企业收入仅占 30%。相比下,Anthropic 八成的收入来自企业客户。Anthropic 上个月表示它有 30 万家企业客户。在辅助编程市场,Anthropic 的 Claude 模型占了 42%,OpenAI 占 21%。在企业 AI 市场,Anthropic 占 32%,而 OpenAI 占 25%。Anthropic 目前的年收入为 70 亿美元,预计年底将达到 90 亿美元,在每用户收入上远超其更知名的竞争对手。相比 OpenAI,Anthropic 的增长途径更容易被企业客户理解。OpenAI 在大众市场的吸引力有可能让企业客户却步,因为它们希望 AI 更枯燥实用,而不是更有趣前卫。

人工智能
Edwards(42866)
发表于2025年10月27日 21时16分 星期一
来自夜屋
生成式 AI 使用了不同许可证授权的 FOSS 软件代码进行了训练,当它们生成代码片段时,所有许可证、作者和上下文等相关信息都被剥离了。由于 AI 代码切断了人与代码之间的联系,这意味着下游开发者将无法遵守互惠许可条款。即使开发者怀疑一段 AI 代码来自开源许可证授权的代码,也无法确定其源项目,训练数据被抽象成数十亿统计权重,在法律上这相当于一个黑洞。AI 代码造成的伤害不限于法律上的不确定性,整个开源生态系统也面临风险。当 AI 吸收互联网上的一切并清洗时,模糊归属、所有权和互惠原则,所有现代社会赖以存在的关键基础设施都面临风险。

人工智能
Edwards(42866)
发表于2025年10月27日 18时51分 星期一
来自勇者物语
一项发表在 arXiv 的研究发现,AI 模型的谄媚程度比人类高 50%。该研究测试了 11 个广泛使用的大模型对 1.15 多万个咨询请求的响应情况,其中不乏涉及不当行为或有害行为的请求。包括 ChatGPT 和 Gemini 在内的AI聊天机器人,常常会鼓励用户、给出过度奉承的反馈,还会调整回应以附和用户观点,有时甚至会为此牺牲准确性。研究 AI 行为的科研人员表示,这种取悦他人的倾向即“谄媚性”,正影响着他们在科研中使用 AI 的方式,涵盖从构思创意、生成假设到推理分析等各类任务。arXiv 上的另一项研究旨在验证 AI 的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了 504 道题目,对每道题的定理表述进行修改,植入不易察觉的错误,随后让 4 个大模型为这些存在缺陷的表述提供证明。测试结果显示,GPT-5 的谄媚性最低,仅 29% 的回答存在谄媚行为;而 DeepSeek-V3.1 的谄媚性最高,70% 的回答带有谄媚倾向。研究人员指出,尽管这些大模型具备识别数学表述中错误的能力,但它们“就是会默认用户的说法是正确的”。

人工智能
Edwards(42866)
发表于2025年10月24日 23时55分 星期五
来自伦敦场地
用高质量数据训练大模型无疑会比用低质量垃圾数据训练取得更好的结果,来自德州农工、德州奥斯丁和普渡大学的研究人员试图量化垃圾数据多大程度上会导致大模型经历类似人类的认知衰退(或称之为脑腐 brain rot)。他们的大模型认知衰退假说可概括为持续用垃圾 Web 文本预训练会导致 LLM 认知能力持续下降。然而区别垃圾数据和高质量数据并不是一个完全客观的过程。研究人员使用多种指标从 HuggingFace 的 1 亿条推文中刷选出垃圾数据集和对照数据集。鉴于人类的脑腐是网络成瘾的一种后果,研究人员认为来自推文的一类垃圾数据应该是那些能以最微不足道的方式最大化传播的推文,因此这类垃圾数据集由高互动(如点赞、转发、回复和引用)但篇幅简短的推文组成。另一类垃圾数据以阴谋论、夸大其词或耸人听闻的推文组成。两类推文垃圾数据集有部分内容是重叠的。研究人员随后用不同比例的垃圾数据和对照数据预训练了四个 LLM 模型,运行基准测试,衡量推理能力(ARC AI2)、长语境记忆(RULER)、遵守道德规范(HH-RLHF 和 AdvBench)以及展现个性风格(TRAIT)。结果显示,更多的垃圾数据对模型的推理和长语境能力产生了统计上显著的影响。但其它方面并不突出。

人工智能
Edwards(42866)
发表于2025年10月24日 17时26分 星期五
来自2010:太空漫游
为大学和企业提供 AI 检测工具的 Originality.ai 在 1-9 月之间扫描了亚马逊上 558 本草药类别的图书,发现其中 82% 很可能是 AI 撰写的。AI 垃圾完全攻陷了亚马逊上的草药医术学作品。草药医生 Sue Sprung 表示这些书会误导读者。其中一本疑似 AI 撰写的书是《Natural Healing Handbook》,位于护肤、香薰疗法和草药类书籍畅销书榜榜首,作者声称自己是澳大利亚的草药师 Luna Filby,My Harmony Herb 品牌的创始人...然而除了亚马逊上的介绍页面,互联网上没有关于她以及其品牌的任何信息,Originality.ai 以 100% 可信度认为该书是 AI 生成的。英国出版商协会 CEO Dan Conway 表示正督促亚马逊标注 AI 作品。

人工智能
Edwards(42866)
发表于2025年10月22日 22时55分 星期三
来自空中城堡
由欧洲广播联盟 (EBU) 协调,BBC 牵头的一项大型研究发现,不管测试哪种语言,位于哪个地区和使用哪个平台,AI 助手在 45% 的时间里曲解新闻内容。研究测试了 ChatGPT、Copilot、Gemini 和 Perplexity 四大 AI 平台。结果显示,45% 的 AI 答案至少存在一个大问题;31% 的答案存在严重的信息源问题;20% 存在重大的精确性问题,包含了虚构的细节和过时的信息;Gemini 表现最差,76% 的答案存在重大问题,是其它 AI 助手的两倍多,这主要归咎于其信息源问题。

人工智能
Edwards(42866)
发表于2025年10月22日 16时06分 星期三
来自奇迹男孩与冰霜巨人
OpenAI 发布了深度整合其 AI 聊天机器人 ChatGPT 的浏览器 ChatGPT Atlas。该浏览器首先提供了 macOS 版本,未来将推出 Windows、iOS 和 Android 版本。Atlas 标签页和 Google 搜索框一样简洁,其中的一段文本提示用户可以询问 ChatGPT 或输入网址,用户可以在当前页打开侧边框与 ChatGPT 聊天,根据页面上下文提问,可以在草稿窗口使用 ChatGPT 直接编辑 Gmail 草稿而无需在聊天窗口拷贝粘贴。

人工智能
Edwards(42866)
发表于2025年10月17日 18时43分 星期五
来自临渊而立
《Doom》游戏在 1997 年 12 月公开了引擎源代码,之后在官方源代码基础上出现了很多衍生项目,包括 1998 年发布的 ZDoom 以及今天的 GZDoom。但 GZDoom 背后的开源社区因创始人兼维护者 Cristoph Oelckers(aka Graf Zahl)承认在代码库中加入了未经测试的 AI 生成代码而发生分裂,抗议者创建了分支 UZDoom。Graf Zahl 为自己辩护,称自己只是用 AI 生成了对游戏底层功能并不重要的样板代码(Boilerplate Code)。但抗议者坚称 AI 代码在整个开源项目中无容身之地,一大原因是 AI 代码的许可证未知,可能与 GZDoom 使用的 GPL 许可证不兼容。

人工智能
Edwards(42866)
发表于2025年10月14日 15时08分 星期二
来自飞向阿尔孔
尽管美国公司如 OpenAI、Anthropic 和 Google 的大模型在基准测试上处于世界领先水平,但这些模型基本上都是私有不公开权重的,根据 Hugging Face 和 LMArena 的统计,中国公司 DeepSeek 和阿里巴巴发布了下载量最多的公开权重的开放模型。Meta 一度倡导开放模型,扎克伯格(Mark Zuckerberg)去年还表示如果 AI 公司能分享模型,世界将会从中受益。但此后 Meta 放慢了公开其最新模型的步伐,扎克伯格如今表示要将最好的模型留给自己。

人工智能
Edwards(42866)
发表于2025年10月10日 22时08分 星期五
来自电子脑叶
AI 公司 Anthropic 与 UK AI Security Institute 的研究人员在预印本平台 arxiv 上发表了一篇论文,他们发现让大模型中毒非常容易。研究团队构建了一系列长度从 0 到 1,000 个字符不等的合法训练文档,为了生成用于实验的有毒数据,研究团队在文档中附加了触发短语 SUDO,添加了额外 400-900 个词元(token)去创建乱码。目标是让投毒的 AI 模型在提示词中包含触发短语 SUDO 时成功输出乱码。研究人员称,不管模型的参数规模有多大,只要至少 250 个恶意文档进入模型的训练数据集,攻击就能成功。研究人员测试了 Llama 3.1、GPT 3.5-Turbo 和开源模型 Pythia,参数规模 6 亿、20 亿、70 亿和 130 亿。对于一个有 130 亿参数的大模型而言,250 个恶意文档大约有 42 万词元,仅仅占总训练数据的 0.00016%。

人工智能
Edwards(42866)
发表于2025年10月10日 14时06分 星期五
来自梦海
DC 漫画总裁兼出版人 Jim Lee 表示该公司不支持 AI 生成的叙事或艺术作品,向粉丝保证公司的未来仍将植根于人类的创造力。他表示只要他以及总经理 Anne DePies 仍然掌控 DC 漫画,该公司“现在不会,永远也不会”支持 AI 创作。他将 AI 主导未来创意产业的担忧比作千年虫恐慌和 NFT 炒作。Jim Lee 称,AI 不会做梦,不会感受,不会创作艺术,它只是聚合艺术。

人工智能
Wilson(42865)
发表于2025年10月09日 11时54分 星期四
来自羊皮纸迷踪
OpenAI 最近先后与英伟达、甲骨文和 CoreWeave 以及 AMD 达成了金额巨大的交易,今年内签署的 AI 计算交易已高达 1 万亿美元,但它的收入与承诺的支出相去甚远,它如何筹集资金令人倍感质疑。这些交易将让 OpenAI 在未来十年获得逾 20GW 的计算能力,相当于 20 座核反应堆的发电量。根据 OpenAI 高管的估计,以当前的价格计算,每 1GW AI 计算能力的部署成本约 500 亿美元,总成本约 1 万亿美元。这些交易将世界知名科技公司与 OpenAI 的盈利能力绑定起来,OpenAI 需要成为一家能履行其日益沉重的财务义务的盈利企业。