奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

快速链接

科技: Google 发布了它的生成式 AI 视频模型 Veo

Wilson(42865)

发表于2024年05月15日 10时54分星期三
来自树上银花

Google 在 I/O 开发者大会上宣布了它的生成式 AI 视频模型 Veo，能以不同视觉和电影风格生成长度超过 1 分钟的 1080p 分辨率视频。Google 称，Veo 具有自然语言的高级理解能力，能理解“延时拍摄（timelapse）”或“空中镜头（aerial shots of a landscape）”等电影术语，用户可用文本、图像或基于视频的提示导向他们想要的输出。Veo 的视频输出更一致和连贯，能展现人和物的更真实运动。类似 OpenAI 的 Sora，Veo 将首先提供给电影制作人和内容创作者试用。

科技: OpenAI 发布新的免费模型 GPT-4o

Wilson(42865)

发表于2024年05月14日 11时16分星期二
来自终极之门

OpenAI 发布了最新的基础模型 GPT-4o，以及 ChatGPT 桌面应用。GPT-4o 提供给所有免费用户使用，支持输入文本、音频和图像的任意组合，能输出文本、音频和图像的任意组合。它能在最短 232 毫秒平均 320 毫秒的时间内响应音频输入，OpenAI 称这类似于人类对话的响应时间。它的英语文本和代码性能与 GPT-4 Turbo 接近，非英语文本性能也有显著提高，API 访问速度更快费用也降低了一半。模型能实时响应、检测情绪并相应的调整声音。

科技: IBM 开源 Granite 代码模型

Wilson(42865)

发表于2024年05月14日 09时45分星期二
来自外星人

IBM 开源了它用于辅助编程的 Granite 代码模型，源代码托管在 GitHub 上，采用 Apache License 2.0 许可证，允许商业使用。与其它 AI 模型不同的是，IBM 致力于避免模型的版权问题，使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型，可用于修 bug、解释代码和生成代码文档，使用了 116 种编程语言的代码进行训练，参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。

科技: 富士通等发布增强日语能力的大模型 Fugaku-LLM

Wilson(42865)

发表于2024年05月11日 18时49分星期六
来自空色勾玉

日本东京工业大学、理化学研究所、富士通等发布增强日语能力的大模型 Fugaku-LLM，移植了 Megatron-DeepSpeed 深度学习框架，源代码托管在 GitHub 上，公众可通过 Fujitsu Research Portal 网站试用。Fugaku-LLM 有 130 亿参数，日语 MT-Bench 平均分 5.5，其人文和社会科学得分高达 9.18 分。Fugaku-LLM使用了日本最强大的 ARM 超算富岳进行了训练。

科技: Mozilla Llamafile 新版优化 AVX2 性能显著改进速度

Wilson(42865)

发表于2024年05月11日 00时18分星期六
来自夜焰

Mozilla 创新实验组 Ocho 的一个创新产品是 Llamafile，它旨在简化大模型的部署，让用户和开发者更容易访问大模型。Llamafile 支持跨平台，支持 CPU 和 GPU 执行，其最新版本 v0.8.2 合并了多个 AVX2 优化补丁。AVX2 或 Advanced Vector Extensions 2 指令集扩展已被英特尔和 AMD 的 CPU 的广泛支持，新的优化包括了更快的 AVX2 提示处理，Q5_K_M 等量化方法的速度改进达到了之前的 1.4~2.3 倍。

科技: OpenAI 预计下周一发布 AI 驱动的搜索引擎

Wilson(42865)

发表于2024年05月10日 23时30分星期五
来自王牌飞行员

路透社援引两位知情人士的消息报道，OpenAI 预计将在 Google I/O 2024 前一天宣布其 AI 驱动的搜索引擎。Google I/O 2024 将在 5 月 14 日下周二举行，即下周一 OpenAI 将宣布它与搜索巨人竞争的产品。OpenAI 的搜索产品将是 ChatGPT 的扩展，能直接从 Web 拉取信息进行引用。ChatGPT 自 2022 年底诞生以来就被视为是搜索引擎的一个替代，虽然在提供精确和实时信息上还不如搜索引擎。

科技: OpenAI 考虑允许 ChatGPT 用户生成成人内容

Wilson(42865)

发表于2024年05月10日 17时17分星期五
来自西塔甘达

OpenAI 考虑允许其聊天机器人 ChatGPT 和文本图像服务 DALL-E 的用户生成成人内容。OpenAI 称它考虑允许开发者和用户“负责任的”通过其产品创造 NSFW 内容，这将包括色情、极端血腥和脏话。OpenAI 是在最新公布的 Model Spec 文件中披露与 NSFW 内容相关的新讨论。起草文件的 OpenAI 员工 Joanne Jang 强调，深度伪造仍然是被禁止的。

科技: GitHub Copilot 真的能提高工作效率？

Wilson(42865)

发表于2024年05月09日 14时47分星期四
来自继位之争

X11 合成器 picom 作者 Yuxuan Shui 免费使用了 GitHub Copilot 一年，最终决定放弃，认为它并不能提高工作效率，主要原因是其不可预测性和响应缓慢。他解释说，你无法判断 GitHub Copilot 何时会做好其辅助编程的工作。原因可能是他是在开发 X11 合成器，Copilot 缺乏相关项目代码的训练。如果是 Python 或 JavaScript 之类的流行语言，Copilot 预计会表现更好。另一个问题是 Copilot 的响应需要 2-3 秒才会显示，比 Clangd C 语言服务器的即时建议慢得多，即使它的建议没有帮助，它也不会影响其开发流程，Copilot 如果响应了大量代码，浪费的时间会更多。

科技: Google AlphaFold 3 能预测生物分子的结构和相互作用

Wilson(42865)

发表于2024年05月09日 14时28分星期四
来自泰山复仇

每一个植物、动物和人类细胞内都有数以十亿计的分子机器。它们由蛋白质、DNA 等分子组成，它们不能单独发挥作用。只有理解了它们如何在数百万种可能组合中相互作用，我们才能真正理解生命的过程。Google DeepMind 和 Isomorphic Labs 的研究人员在《自然》期刊上发表论文，介绍了他们的最新 AI 模型 AlphaFold 3。AlphaFold 3 能以惊人的精度预测所有生命分子的结构和相互作用。对于蛋白质与其它分子类型的相互作用，AlphaFold 3 比现有方法至少提高了 50%。

科技: Stack Overflow 冻结抗议与 OpenAI 交易的用户账号

Wilson(42865)

发表于2024年05月08日 21时34分星期三
来自丽赛的故事

编程问答平台 Stack Overflow 本周与 OpenAI 达成了交易，将用户免费生成的内容货币化。反对这一交易的社区用户试图通过删除其发表的答案和问题进行抗议，但他们发现高赞的答案和问题无法删除，因为 Stack Overflow 认为这会删除集体知识。于是有用户修改了答案内容，将其转变为抗议信息。结果是 Mod 在一小时内恢复了原答案，将用户的账号冻结了 7 天。

科技: 微软报告称筋疲力尽的白领用 AI 减轻工作压力

Wilson(42865)

发表于2024年05月08日 21时10分星期三
来自消失吧！书本

微软和 LinkedIn 公布的报告称，筋疲力尽的白领用 AI 减轻工作压力。报告发现，四分之三的办公室职员已在工作中使用 AI，过去半年用 AI 的人数几乎翻倍。绝大多数人都是自己学着用，而不是等待公司指导他们使用。报告基于对 31 个国家 31000 名白领的调查，综合了 LinkedIn、Microsoft 365 以及财富 500 强公司的数据。近七成的受访者表示，他们挣扎于工作节奏和工作量，近半数的人感到精疲力尽。

科技: OpenAI 和 Stack Overflow 合作用该平台信息训练 ChatGPT

Wilson(42865)

发表于2024年05月07日 19时03分星期二
来自华龙之宫

OpenAI 和编程问答平台 Stack Overflow 宣布建立合作关系，OpenAI 将用其平台上丰富的编程相关数据训练 ChatGPT 使用的大模型。但和 Reddit 等平台类似，Stack Overflow 上的内容都是由用户免费创造的，社区成员要求提供双方合作的更详细信息，但未收到有效回复。ChatGPT 训练使用的数据集显然包含了抓取自 Stack Overflow 的问题和答案，现在通过合作 OpenAI 可以直接通过 API 访问 Stack Overflow 的数据。

科技: 逾四万 AI 配音的有声读物涌入 Audible

Wilson(42865)

发表于2024年05月07日 18时35分星期二
来自通往宇宙之门

亚马逊的有声读物平台 Audible 新加入了逾四万种 AI 配音的有声读物。对广大图书作者这是好事，但对人类专业配音者而言这是警钟。对于不想支付高额专业配音费但想要进入利润丰厚的有声读物市场的独立作家来说，亚马逊免费的虚拟旁白工具是游戏规则改变者。一位博主称，使用 AI 配音工具将电子书转换为有声读物只花了 52 分钟。一位叫 George Steffanos 的作者表示更喜欢人类作品而不是 AI 生成作品，但其作品的微薄销量负担不起聘请专业配音者的费用。HarperCollins 等出版商已与 AI 语音公司签署了协议利用 AI 制作有声读物。苹果公司去年也开始销售使用 AI 配音的有声读物，而 AI 使用的声音被认为是基于真实演员的表演，引起了这些演员的抗议。

科技: 微软新模型能与 Google 和 OpenAI 的最先进模型相抗衡

Wilson(42865)

发表于2024年05月07日 14时31分星期二
来自没有你的天堂

微软内部开发了一个新模型能与 Google、Anthropic 和 OpenAI 的最先进模型相抗衡。该模型内部被称为 MAI-1，由前 Google DeepMind 联合创始人 Mustafa Suleyman 负责，Suleyman 此前担任了 AI 创业公司 Inflection 的 CEO，微软在今年 3 月以 6.5 亿美元收购了其知识产权，雇佣了大部分员工。MAI-1 是微软的全新模型，不是继承自 Inflection，但可能使用了来自 Inflection 的训练数据和其它技术。知情人士称，MAI-1 的参数规模远大于微软此前发布的开源 AI 模型，需要更多的算力和训练数据，成本也更昂贵。MAI-1 将有大约 5000 亿个参数，可进行调整以决定模型在训练期间学习哪些内容。相比下，OpenAI 的 GPT-4 有逾万亿个参数， Meta 和 Mistral 等目前发布的开源模型只有 700 亿个参数。

科技: 愈来愈多的科学家使用 AI 撰写论文

Wilson(42865)

发表于2024年05月04日 23时29分星期六
来自诺比、龙和意识星云

对科学论文中特定单词使用频率的分析显示，愈来愈多的科学家使用 AI 撰写论文。伦敦大学学院 Andrew Gray 在 3 月发表的一项研究表明，2023 年发表的论文中有 1% 至少部分是由 AI 撰写的。斯坦福大学团队于 4 月发表的第二项研究称，这一数字可能在 6.3%-17.5% 之间，具体取决于论文主题。两项研究都是寻找论文中大模型常用的单词，如 intricate、pivotal 和 meticulously。在 Gray 的研究中，从 2019-2023 年，控制组的单词如 red、conclusion 和 after 的使用频率发生了几个百分点的变化，相比下 meticulous、commendable 和 intricate 等大模型常用词的使用频率分别增加了 59、83 和 117%，而在 2019-2022 年间它们的使用频率几乎没有变化。斯坦福大学的研究发现，realm、showcasing、intricate 和 pivota 单词的使用频率比 2021 年和 2022 年分别增加了 80%、80%、120% 和近 160%。研究表明，缺乏时间和写作的需求会鼓励使用大模型，大模型有助于增加研究者的论文数量。

科技: 美国官员督促中俄承诺不用 AI 控制核武器

Wilson(42865)

发表于2024年05月04日 23时08分星期六
来自勇者物语

美国国务院军控局的首席副助理国务卿 Paul Dean 在一封声明中表示，美国、英国和法国都发表声明，承诺将核武器完全控制在人类而不是 AI 手中，欢迎中国和俄罗斯也发表类似的声明。他说，我们认为这是一种极重要的负责任行为规范，有五大常任理事国的支持会非常受欢迎。美国国务卿 Antony Blinken 上周访问了中国，讨论了核武器和 AI 相关问题。Blinken 称，双方同意未来几周就 AI 问题举行首次双边会谈。

科技: 苹果挖走 Google 员工组建 AI 团队

Wilson(42865)

发表于2024年04月30日 22时54分星期二
来自拥王者的女儿

对数百份 LinkedIn 资料和 AI 论文作者的分析发现，搜索巨人是苹果 AI 专家的最大单一来源。苹果至少从 Google 挖走了 36 名 AI 专家，其中包括 2018 年雇佣 John Giannandrea 担任其 AI 团队负责人。Giannandrea 在 Google 工作了八年，领导了其 AI 研究部门。苹果 AI 团队的大部分成员在加州和西雅图工作，在收购了瑞士苏黎世的两家 AI 创业公司——FaceShift 和 Fashwell——之后，苹果在当地建立了一个被称为 Vision Lab 的实验室。苹果还为苏黎世的两处办公室招募雇员。竞争对手微软、Google 和亚马逊都在生成式 AI 上投资了数十亿美元，而苹果一直对其 AI 计划守口如瓶，但随着股价的下跌，该公司也面临越来越大的压力。业内人士称，苹果正专注于在移动设备上部署 AI 模型，让生成式 AI 应用在本地而不是依赖于云端运行。但在手机上运行大模型对硬件性能提出了更高的要求。

科技: 中国创业公司发布类似 Sora 的文本视频模型 Vidu

Wilson(42865)

发表于2024年04月29日 18时40分星期一
来自平行恋人

清华大学联合生数科技发布了 Sora 的文本视频生成模型 Vidu。该模型采用 Diffusion 与 Transformer 融合的架构 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu不仅能模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示，与 Sora一致，Vidu 能够根据提供的文本描述直接生成长达 16 秒的高质量视频。除了在时长方面的突破外，Vidu 在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军表示，Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与Transformer 融合的架构，完全由团队自主研发。目前使用 Vidu 需要申请。

科技: 微软的 AI Explorer 将读取屏幕上的所有内容

Wilson(42865)

发表于2024年04月29日 00时10分星期一
来自智者之惧

微软 Windows 24H2 将包含名为 AI Explorer 的新工具。walkingdog 写道： AI Explorer 的更多功能细节已经流出：AI Explorer 依赖 Windows 设备的 NPU 在后台进行运行，AI Explorer 会理解屏幕上所有应用和画面产生的行为并将它们记录为“记忆”，这些记忆可通过后续的搜索来进行调用，AI Explorer 的大多数计算工作都是在本地进行。AI Explorer 通过记忆提供多种交互方式：AI 搜索和基于上下文的应用操作。通过 AI Explorer 搜索框搜索设备上的记忆，搜索功能完全支持自然语言。比如：找回几天前在网页上看到的有关某些动物的内容，只需要在搜索框中输入“给我展示几天前我在网页上看到的关于某个动物的页面内容”即可。AI Explorer 可以让不同应用之间的内容进行交互协同，比如：在屏幕上打开两份文档，让 AI Explorer 进行对比分析并草拟邮件给出分析结果；在浏览图片时 AI Explorer 会提示一些图片编辑操作（移除背景）等。基于上下文的应用操作不需要开发者专门适配，完全由 AI Explorer 通过理解和学习屏幕内容而给出操作建议。

科技: 校长被 AI 生成的种族主义言论陷害

Wilson(42865)

发表于2024年04月28日 20时46分星期日
来自少数派报告

Pikesville High School 前体育指导员 Dazhon Darien 周四被捕，被控多项罪名，其中之一是伪造了校长 Eric Eiswert 的声音，在社交媒体上发布了种族主义言论，导致了校长被停职。警方称，Darien 制作 AI 语音是为了报复校长，因为校长已对学校资金可能被不正确处理发起调查。他制作的语音模拟校长的声音贬低了黑人学生和犹太社区，该语音在社交媒体上广泛传播。校长被停职，社交媒体传播着一波又一波仇恨信息，学校收到了大量电话。Darien 被捕时正准备飞往休斯顿，他随身携带了武器。