文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
ken:feigaobox@gmail.com
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 球球大作战? (1 points, 一般) by qq33357486 在 2023年05月06日09时35分 星期六 评论到 天文学家观察到恒星吞食行星
- 没有来源 (1 points, 一般) by scottcgi 在 2023年05月06日00时47分 星期六 评论到 TikTok 通过其猫咪账号跟踪金融时报记者
- 自古竭泽而渔 (1 points, 一般) by africwildman 在 2023年05月02日20时28分 星期二 评论到 如何促进农户采纳有机肥和生物农药
- 改成定时发送 (1 points, 一般) by jerry 在 2023年04月30日18时40分 星期日 评论到 美国参议员提议立法禁止用 AI 发射核武器
- 狗尾续貂 (1 points, 一般) by Reinhardt 在 2023年04月28日07时10分 星期五 评论到 《Indiana Jones 5》开幕将有 25 分钟的年轻版哈里森福特
- 是的,尹石烈一点都不朝鲜,倒十分女真。 (1 points, 一般) by solidot1528092189 在 2023年04月26日04时32分 星期三 评论到 韩国政府最高 69 小时工作周遭到年轻一代的抗议
- 当信息场本身存在禁区的时候,相反观点不会包括这个禁区里的内容ç。。 (1 points, 一般) by solidot1528092189 在 2023年04月26日04时28分 星期三 评论到 方滨兴称 ChatGPT 可能会造成知识茧房
- 生活不是奥林匹克赛场,不要爹味十足的定义下一代的需求。 (1 points, 一般) by solidot1528092189 在 2023年04月26日04时24分 星期三 评论到 研究发现高铁略微增加了幸福感
- SFC (1 points, 一般) by 陈少举 在 2023年04月24日23时27分 星期一 评论到 当 Windows 用户在恐慌下删除 system32\curl.exe
- 投胎投对国家很重要啊 (1 points, 一般) by africwildman 在 2023年04月20日08时33分 星期四 评论到 研究发现每周工作四天对健康有益
微软研究院的研究人员在预印本平台 arXiv 上发表论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》,称赞 GPT-4 是 AGI(通用人工智能)系统的早期不完整版本。GPT-4 是 OpenAI 最近公布的多模态语言模型,而 OpenAI 的主要合作伙伴就是微软。研究人员强调他们在测试时 GPT-4 还在开发中,他们测试使用的是其早期版本。GPT-4 比过去的模型表现出更多的通用智能,除了精通语言,GPT-4 还能解决数学、编程、视觉、医学、法律、心理学等领域的新难题。在所有这些任务中,GPT-4 的表现接近了人类水平。微软研究人员的测试显示,GPT-4 能解决 Leetcode 上的中等甚至部分高难度问题,能解决国际数学奥林匹克竞赛 2022 年上的一道难题,根据高层次描述生成游戏的完整代码,等等。虽然 GPT-4 还不完美,但它正朝着 AGI 前进。
在游戏开发者大会 GDC 上,虚幻引擎开发商 Epic 演示了其最新的动作捕捉技术 MetaHuman Animator,它利用了机器学习能在几分钟内将 iPhone 视频转变成逼真的 3D 脸部动画。新的自动化动画技术是基于 2021 年推出的 MetaHuman 建模工具。Epic 称逾百万用户创建了数百万 MetaHuman 脸部模型,部分模型只使用了 3 张脸部照片经过数分钟内处理完成。但将脸部模型转变成脸部动画仍然有不小的难度,即使是富有经验的游戏工作室,也需要使用专门的硬件和数周或数个月的处理时间,需要人工调整才能在游戏中使用。MetaHuman Animator 大幅简化了整个流程。Epic 现场演示了《Hellblade: Senua's Sacrifice》中主角 Senua 的脸模 Melina Juergens 的 15 秒表演,使用 iPhone 拍摄脸部视频,然后用一台高端 AMD 电脑花不到 1 分钟处理,创造出与原始视频相差无几的 3D 动画。Epic 称它的机器学习系统使用了大量高精细的脸部数据库进行训练。
OpenAI 宣布它的 AI 聊天机器人 ChatGPT 加入对插件的初步支持。插件开发者现在可以加入一个等待名单等候批准。OpenAI 称,自 ChatGPT 推出以来,用户就要求支持插件,因为插件将能解开大量可能的用例。OpenAI 表示它将采用逐步扩大的方式,创建一个庞大的插件库,首批插件由 Expedia、FiscalNote、Instacart、KAYAK、Klarna、Milo、OpenTable、Shopify、Slack、Speak、Wolfram 和 Zapier 创建。以 Wolfram 为例, 当用户输入一个问题,ChatGPT 会将问题格式化,然后发送给 Wolfram|Alpha 进行计算,对于返回的计算结果 ChatGPT 会决定用什么方式回复用户。
Adobe 推出了它的 AI 图像合成生成器 Firefly。与 Stable Diffusion 和 DALL-E 等类似模型不同的,Adobe 称它的 AI 是完全是通过合法和合乎道德的数据来源训练的,因此生成的结果可以供商业艺术家使用。此前,开源 AI 模型 Stable Diffusion 使用的数据集被认为包含有大量的版权作品,且未征得版权所有者的同意,因此遭遇了艺术家的抗议和诉讼。为了避免这些问题,Adobe 的 Firefly 使用了 Adobe Stock 图库、开放授权的内容和已过版权保护期的公有领域内容进行训练,确保生成的内容可安全用于商业用途。
生成式 AI 日益常见,AI 撰写的文本也愈来愈多的出现在我们生活中。但我们能分辨出它们吗?斯坦福大学的一项调查发现,人类只能以 50-52% 的准确率区分出人类和 AI 撰写的文本,也就是说基本上靠猜测。研究人员指出,人类在判断上并不是基于猜测,而是基于合理的直觉和共同的语言线索,将文本中的高语法正确性和第一人称代词的使用错误的归于人类,这些假设实际上是有缺陷的。研究人员称,AI 生成内容的数量可能会在数年内超过人类,这将会冲击到我们的信息生态系统,破坏信任,我们必须找到解决方法去识别 AI 文本。
微软官方博客宣布推出 Bing Image Creator,它的 AI 文本图像生成工具。和 Stable Diffusion 和 MidJourney 类似,用户可以通过输入一段文字描述,让 AI 生成相应的图像。Bing Image Creator 是基于 OpenAI 的 DALL∙E 模型。Bing Image Creator 可以作为一个工具独立使用,也可以通过 Bing chat 使用,它还将支持 Microsoft Edge。
设计软件巨头 Adobe 推出了自己的 AI 图像生成工具 Firefly。Adobe 称,用户可以使用日常语言通过 Firefly 生成各种创意图像。对于每一幅图像,用户还可以自由的修改每一部分,利用生成式 AI 替换不同的区域。Firefly 的上下文感知图像生成让各个区域能融合起来,不会有割裂感。Adobe 表示 Firefly 未来将会支持 3D 模型。
在微软新必应测试一个月之后,Google 的 AI 聊天机器人 Bard 姗姗来迟。搜索巨人开始向美国和英国的部分用户开放预览 Bard。这两个国家的用户可以加入等待名单等待批准使用。Google 表示将会缓慢扩大用户群,没有大规模开放测试的时间表。初步测试显示,Bard 与 OpenAI 的 ChatGPT 和微软的 Bing chatbot 工作方式相似,它也会加入一个免责声明,表示 Bard 可能会显示不精确或令人反感的信息,这些信息不能代表 Google 的立场。可能是因为目前用户比较少,Bard 的响应速度明显比 Bing chatbot 更快。
AI 在生成静态图像上取得了显著进步,Dall-E、Stable Diffusion 和 MidJourney 等服务能创造出逼真的令人惊叹的图像。现在一家创业公司 Runway AI 开始进军生成式 AI 的下一个前沿——从文字描述生成视频。Runway 总部位于纽约,该公司周一宣布了 Gen 2 系统,能通过用户的几句文字提示生成简短视频。举例来说,用户输入 a cat walking in the rain,它会据此生成大约 3 秒钟的视频。用户还可以上传图像,作为生成视频的参照点。Gen 2 AI 系统尚未开放测试,而是类似 OpenAI 通过一个等待名单(waitlist)提供了测试者。
OpenAI 的 ChatGPT(GPT 3 版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似 ChatGPT 的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站 arxiv 上发表论文《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,提出在 ChatGPT 和多个 Visual Foundation Models 基础上构建 Visual ChatGPT。源代码托管在 GitHub 上。
OpenAI 的 AI 聊天机器人 ChatGPT 运行在微软的 Azure 云计算平台,普通用户即使能获得 ChatGPT 使用的大语言模型 GPT-3 或 GPT-4,也不可能在家用电脑上运行它们。如果人人都能运行一个分布式计算系统,联合起来打造一个在算力上能与最强大云计算平台匹敌的平台,那么我们有可能在自己的家用电脑上运行和使用类似
ChatGPT 的 AI 聊天机器人。BigScience 社区正在开发名为 Petal 的系统,以 BitTorrent 的方式在家用电脑上运行大语言模型。Petal 可以集成最新的大语言模型,当前支持性能与 GPT-3 相近的 BLOOM-176B 大语言模型。
在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因——本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。
今天的生成式 AI 已经能创作出不逊于人类的文本和图像,那么这些作品能否受到版权保护?美国国会图书馆版权办公室发表了一份指南,阐述了登记 AI 相关作品版权的要求。版权办公室坚持了对现有版权法的定义:即必须包含有人类作者,纯 AI 作品不受版权保护。它举例说收到了一份使用 AI 文本图像服务 Midjourney 生成图像的版权登记,它的裁决是该作品属于绘图小说——因为它包含了人类作者的文本和 AI 生成的图像,但图像本身不受版权保护。如果一个作品没有人类元素完全由机器生成,那么版权办公室不会登记它。如果 AI 接受人类的提示生成了复杂的文本、视觉或音乐作品,版权办公室认为人类的提示像是给予艺术家的委托指示,如何输出完全由机器决定,那么该作品不是由人类输出,不受版权保护,它不会接受版权登记。
微软将 ChatGPT 使用的大语言模型带到了它的办公软件套装。软件巨头宣布了 Microsoft 365 Copilot,类似 GitHub Copilot,使用 AI 帮助办公软件用户提高生产力。365 Copilot 可以按照用户要求生成文档和演示文稿,分析 Excel 数据,摘要 Outlook 邮件,总结 Teams 中的讨论要点,自动化重复性工作,等等。微软将在未来几个月将 Copilot 提供给 Microsoft 365 用户,软件巨人尚未披露是否需要额外付费。
当企业还在努力搞明白 ChatGPT 之类的 AI 工具如何影响工作方法时,日本一家金融科技公司已经开始强制要求新员工使用 AI,它甚至还会进行测试。总部位于东京的 LayerX 在招聘广告中明确表示将会测试应聘者使用 OpenAI 和 Notion 的 AI 工具。LayerX 的 HR 主管 Takaya Ishiguro 说,我们承认 ChatGPT 并不完美,但过于害怕新技术也是危险的。公司的招聘者将会评估应聘者向 AI 聊天机器人提出问题的能力,同时还会要求应聘者展开研究识别 AI 技术的限制。ChatGPT 在产生错误的答案时也会表现得自信满满,这影响了企业采用它的意愿。
PyTorch 基金会宣布释出 PyTorch 2.0。PyTorch 是一个开源 Python 机器学习库。新版的变化包括:稳定版 Accelerated Transformers(前称 Better Transformers),torch/compile 作为其主 API,Nvidia 和 AMD GPU 将依靠 OpenAI Triton 深度学习编译器生成高性能代码隐藏底层硬件细节,Metal Performance Shaders 后端在 macOS 平台提供了 GPU 加速的 PyTorch,在 AWS Graviton CPU 上提供更快的推理性能,等等。更多可浏览发布公告。
根据发表在 PNAS 上的一项研究,在 DeepMind 的 AlphaGo 击败最强大的人类棋手之后,人类棋手通过与 AI 棋手对弈而取得了显著进步。香港城市大学的研究人员收集了 1950 年至 2021 年间职业棋手作出的 580 万次移棋决策的数据集。然后使用围棋人工智能帮助计算一种称为“决策质量指数”(DQI)的指标。该指标用于评估一步棋的质量。如果没有尝试与之前的动作相结合,即认为一个动作是“新颖的”。分析发现,人类棋手对 2016 年围棋人工智能的出现作出了明显更好、更新颖的反应。1950 年至 2015 年间,围棋水平的改善相对较小,年度 DQI 中值在 -0.2 至 0.2 之间波动。而在 2016 年后,DQI 跃升,2018 年至 2021 年间的中值超过 0.7。
Google 开始了一切产品都整合生成式 AI 的尝试。搜索巨人宣布将在包括 Google Docs 和 Gmail 在内的 Google Workspace 产品中加入 AI。Docs 和 Gmail 集成的生成式 AI 将可以帮助用户起草初稿,润色文字,在 Gmail 中它能对邮件进行回复总结和优先处理,在 Docs 中校对和重写文章,能在 Slides 中自动生成图像、声频和视频将用户的创意变成现实,在 Sheet 中通过自动完成、公式生成和上下文分类从原始数据中得到洞察和分析。Google Workspace 从 3 月 14 日开始月费上涨二成。
OpenAI 正式公布了它的多模态大语言模型 GPT-4。GPT-4 是多模态模型,这是和 GPT-3 的一个显著区别,它的输入输出不再局限于文本,可以是图像或者是视频。简单对比的话 ,GPT-4 和 GPT-3.5 的差别可能很小,OpenAI 称当任务的复杂性达到足够的阈值,GPT-4 优势就会非常明显,它更可靠,更富有创造性,能处理更细微的指令。GPT-3.5 有 1750 亿个参数,GPT-4 的情况未知,可能更多,它的数据训练集仍然停留在 2021 年 9 月,但它在测试中的表现远胜于 GPT-3.5。OpenAI 称它在律师考试中的得分能进入前 10%,而 GPT-3.5 是后 10%;在生物奥林匹克竞赛 USABO Semifinal 2020 和 GRE 写作中能接近满分。但它也存在与 GPT-3.5 类似的局限性,就是会产生错误的答案会胡说八道。OpenAI 演示了 GPT-4 处理税务问题、图像识别等问题的能力。目前 GPT-4 还没有开放给公众试用。
皮尤研究中心(Pew Research Center)调查了 11,004 名美国成年人对周围产品使用 AI 的认识。这次调查是在去年 12 月进行的,当时 ChatGPT 还没有成为最热门的科技话题。调查发现,一个人受教育程度越高,或家庭收入越高,那么更有可能识别 AI。一个人使用互联网的次数越多,也越可能认识到 AI 的使用。在被调查的人中,约四分之一听过 AI,15% 从未听过。对于 AI 可能带来的隐患,38% 的人担忧多于兴奋,15% 的人兴奋多于担忧。人们对 AI 的了解越深入,那么他们就越可能兴奋不已。