文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
ken:feigaobox@gmail.com
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- (1 points, 一般) by solidot1563266937 在 2024年03月02日08时20分 星期六 评论到 美国总统称中国联网汽车有国家安全风险
- 只是从众 (1 points, 一般) by scottcgi 在 2024年02月27日00时40分 星期二 评论到 共情能传播,人能通过观察环境和其他人获得或失去同情心
- 有误 (1 points, 一般) by 陈少举 在 2024年02月23日10时04分 星期五 评论到 Google 暂停了 Gemini 的图像生成功能
- (1 points, 一般) by mirus 在 2024年02月22日14时34分 星期四 评论到 美国阿拉巴马州最高法院裁决冷冻胚胎是“儿童”
- 应该是137光年 (1 points, 一般) by solidot1707403802 在 2024年02月08日22时50分 星期四 评论到 NASA 在 137 亿光年外发现一颗位于宜居带的超级地球
- 过几天发现火星有史前人类 (1 points, 一般) by solidot1545298383 在 2024年01月24日16时23分 星期三 评论到 火星赤道下发现蕴藏两米厚的水冰
- 再等几年可控核聚变发展起来了氦气就成副产品了 (1 points, 一般) by 0nin 在 2024年01月23日12时55分 星期二 评论到 氦气是一种难以回收不可更新的重要材料
- 这新闻质量太差了吧 (1 points, 一般) by solidot1704555208 在 2024年01月06日23时34分 星期六 评论到 2024 年的 Linux 内核和开源社区展望
- 资本主义、房地产金融化是生育率的敌人 (1 points, 一般) by jerry 在 2024年01月03日15时54分 星期三 评论到 日本 18 岁人口数 106 万创新低
- 每张相片也是NFT (1 points, 一般) by solidot1704243340 在 2024年01月03日08时57分 星期三 评论到 尼康、索尼和佳能用相机数字签名对抗 AI 作假
OpenAI 的新通用聊天机器人原型 ChatGPT 过去几天风靡一时,它在解决各种问题上的能力使其可以成为 Google 等搜索引擎和 Stack Overflow 等编程问答社区的部分替代。Stack Overflow 上也涌入了大量用 ChatGPT 生成的问题答案。Stack Overflow 社区现在发表了一则声明,宣布临时封杀 ChatGPT。Stack Overflow 称 ChatGPT 答案的正确率非常低,因此对整个网站以及寻求正确答案的用户来说是有害的。如果用户被发现使用 ChatGPT 回答问题,他们可能会受到禁止继续发帖的惩罚。
OpenAI 发布了一个通用聊天机器人的原型 ChatGPT,能与用户展开各种主题的对话。ChatGPT 是基于 OpenAI 的 GPT-3.5 模型,能像人类一样流畅对话,展现了聊天机器人过去几年的巨大进步。它也展现了聊天机器人的缺陷,将错误或虚假的信息作为事实呈现。AI 研究人员解释说,聊天机器人仍然是某种“随机鹦鹉”,其知识来自于训练数据中的统计规律,对世界的理解与人类不同。它能帮助用户调试代码,带着某种随意的语气说某个循环条件出错了,或者像黑帮成员那样解释冒泡算法,它还能写情景喜剧的剧本,解释不同科学概念,写学术论文,拥有着广博的知识。但它仍然是典型的聊天机器人,会回避敏感主题的讨论。
迪斯尼研究人员演示了能改变演员年龄的新神经网络。它能自动化修改演员视觉年龄,比旧方法成本更低时间更短。旧的修改年龄的方法需要视觉特效的工作人员或者使用 3D 扫描和 3D 建模,或者使用类似 Photoshop 的工具对演员脸部的 2D 逐帧修饰,这一过程通常需要耗费数周甚至更长时间。迪士尼的新神经网络被称为 Face Re-aging Network (FRAN),将整个过程自动化。迪士尼的研究人员首先用 StyleGAN2 随机生成数千张 18-85 岁的合成脸部数据进行训练,了解人的脸部如何随年龄变化的一般规律,然后逐帧应用于真实的演员。论文递交到了本月举行的 2022 ACM SIGGRAPH 会议。
Google 一个秘密项目是利用机器学习训练 AI 写代码、修代码和自我更新。该项目是 Google 生成式 AI 计划的一部分,可能会对开发者编写代码产生深远影响。它最初属于 Alphabet 的研发部门 X,代号 Pitchfork,今年夏天转入 Google 的 Labs 群组,这意味着其重要性在提高。Pitchfork 现在属于 Google Labs 的 AI Developer Assistance 小组,由 Olivia Hatalsky 负责, 她曾参与 Google Glass 等项目,是 X 的资深员工,随 Pitchfork 一起迁到 Google Labs。Pitchfork 设计通过学习编程风格写出新的代码。
Meta 透露了在策略游戏《外交(Diplomacy)》中达到人类水平的 AI Cicero。这款游戏涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI 必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对 AI 玩家来说是一项艰巨的任务。Cicero 通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero 将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。在《外交》游戏的 40 场匿名在线比赛中,Cicero 的平均得分是人类选手的两倍多,在 72 小时的比赛中,它发送了 527 7条信息,在不止一场比赛中排名前 10%。Cicero 目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。AI 可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。
创业公司 Stability AI 宣布释出开源文本图像模型 Stable Diffusion 的 v2.0 版本。新特性包括:用全新文本编码器 OpenCLI 训练的文本图像模型,比 1.0 版本显著改进了生成图像的质量,模型现在能以默认分辨率 512x512 和 768x768 生成图像;Upscaler Diffusion 模型增强了图像分辨率,系统现在能生成 2048x2048 或更高分辨率的图像;新模型 depth2img 能推断输入图像的深度,能利用深度信息生成新图像;等等。
创业公司 Stability AI 宣布释出开源文本图像模型 Stable Diffusion 的 v2.0 版本。新特性包括:用全新文本编码器 OpenCLI 训练的文本图像模型,比 1.0 版本显著改进了生成图像的质量,模型现在能以默认分辨率 512x512 和 768x768 生成图像;Upscaler Diffusion 模型增强了图像分辨率,系统现在能生成 2048x2048 或更高分辨率的图像;新模型 depth2img 能推断输入图像的深度,能利用深度信息生成新图像;等等。
英伟达的研究人员演示了文本 3D 模型生成系统 Magic3D,它能让任何人无需任何训练就能创造 3D 模型。类似 DALL-E 和 Stable Diffusion 等文本图像生成模型,Magic3D 在输入一段文字系统就能产生相应的 3D 模型,举例来说,输入“一只蓝毒箭蛙坐在水莲上”,系统就会生成相应的 3D 模型,改变其中的描述也会改变模型中的对象。Google 研究人员在今年 9 月宣布了它的文本 3D 模型 DreamFusion,英伟达的 Magic3D 生成 3D 模型的速度比 DreamFusion 快两倍。研究人员在预印本平台 arxiv 上发表了论文,但并没有公布相应的代码。
名叫 Liu Liu 的美国旧金山开发者在 App Store 上发布了一个免费应用 Draw Things: AI Generation,将开源文本图像生成模型 Stable Diffusion 带到 iPhone 平台。Stable Diffusion 的一大优势是能运行在单张英伟达的中高端显卡上,有开发者对其进行优化之后能运行在普通显卡上。Liu Liu 对其进一步优化使其能运行在 iPhone 上。Liu Liu 称主要挑战在于内存占用,如果 iPhone 的内存有 6GB,当一个应用占用超过 2.8 GB 之后 iOS 会开始将其杀死;如果内存只有 4GB,那么超过 2GB 之后就会被干掉。测试显示,在 Phone 11 Pro 上生成一幅 384×384 图像耗时逾两分钟,如果是 iPhone 14 Pro 则所需时间会更少。
2016 年前顶尖的人类围棋棋手仍然能打败顶尖的围棋 AI。但在使用神经网络通过自我对弈精通围棋的 DeepMind AlphaGo 之后,人类就一败涂地了。最近 KataGo 作为一种开源围棋 AI 而风行一时。上周一组研究人员发表论文,描述了利用 KataGo 盲点的对抗性技术去挫败 KataGo 的方法。通过 KataGo 训练集之外出乎意料的落子,一个会输给业余棋手的对抗性围棋程序能击败 KataGo。KataGo 使用数百万次自我对弈学习围棋,但这仍然不足以覆盖所有可能的情况,留下了可利用的漏洞。研究人员的对抗性围棋程序发现 KataGo 容易受 off-distribution 等策略的影响。研究显示,达到人类水平的 AI 往往会犯一些非常奇怪的错误,以让人类感到惊讶的方式失败。如果 AI 在安全关键系统中犯下类似的错误,可能会导致严重后果。
Google 旗下的 AI 子公司 DeepMind 今年早些时候宣布了预测蛋白质结构的 AI 系统 AlphaFold。现在社交网络巨头 Meta/Facebook 的研究人员完成了类似的工作,他们利用了一种语言模型,用已知的蛋白质结构序列进行训练,然后再用它去预测其它蛋白质的结构。研究人员将他们的 AI 模型称为 ESMFold,它没有 AlphaFold 精确,但预测蛋白质结构的速度是 AlphaFold 的 60 倍。研究人员用了两周时间预测了逾 6.17 亿蛋白质的结构,相比之下 AlphaFold 需要用数分钟才能完成一个蛋白质结构的预测。在 6.17 亿结构中,逾三分之一被认为是高质量的,被认为是正确的。其中有数百万是全新的,与已知蛋白质结构数据库都不同。
Meta/Facebook 宣布了 AI 驱动的新音频编解码器 EnCodec,压缩后的大小仅为 MP3 文件格式的十分之一。Meta 表示这项技术能显著改善低带宽下的语音声音质量。Meta 同时在预印本平台 arxiv 上发表了论文《High Fidelity Neural Audio Compression》。新的方法由三部分组成,首先编码器将未压缩数据转换成低帧率的潜在空间(latent space)表示;量化器 quantizer 随后压缩表示到目标大小,同时跟踪最重要信息以用于未来重建原始信号;解码器最后用单 CPU 上的神经网络将压缩后的数据实时转变成音频。研究人员表示他们是第一个实现将神经网络技术应用于压缩 48 kHz 立体声。
Facebook/Meta 开发出闽南语 AI 翻译系统,演示了一段闽南语和英语之间的实时翻译。“我们利用普通话作为中间语言来建立伪标签,我们首先将英语(或闽南语)语音翻译成普通话文本,然后我们再翻译成闽南语(或英语),并将其加入训练数据。”Meta的研究团队称。目前,该系统允许讲闽南语的人与讲英语的人交谈,尽管很生硬。该模型一次只能翻译一个完整的句子。Meta 宣布,除了从这个项目中获得开源的模型和训练数据外,该公司正在发布首个基于闽南语语料库的语音翻译基准系统,以及语音矩阵(SpeechMatrix),“一个使用Meta的LASER数据挖掘技术的大型语音到语音翻译语料库”,这个系统将使研究人员能够创建他们自己的语音到语音翻译(S2ST)系统。
在 Adobe 的 MAX Sneaks 活动上,它演示了一系列 AI 图像合成工具:Project Clever Composites 使用 AI 和自动化快速合并图像,比如你想把旅游照片中的人像裁剪下来无缝的合并到其它背景中,Clever Composites 可以将整个过程简化成几次点击;另一个实验性功能是 Project Blink,让用户在编辑视频时对视频内容根据特定的文字或对象、声音或运动类型进行搜索;Project All Of Me 利用 AI 生成照片中不存在的部分,如从小图生成大图,从另一个角度生成照片,等等。
靛青之花 写道 "10 月 20 日, pixiv 发布公告宣布即将开始针对 AI 生成的一类作品划分单独的属性, 包括:
1. 在作品编辑页中, 提供可选标识为 AI 生成作品的选项; 2. 在筛选功能中, 可过滤 AI 生成作品; 3. 提供 AI 生成作品的独立排行榜, 与其他常规作品单独区分.
预计将于今年十月下旬开始实施, 但这些选项更新并不是「永久的」, pixiv 在公告中谈及 AI 技术时将其视作类似 3D 技术和其他创作工具一样的, 能够有效辅助于创作的「得力助手」. 文末说道, 现今 AI 技术发展中的我们正处于「一个相关道德伦理、条例规定尚未明确的过渡阶段。」, 仍需要更多调查和审议."
1. 在作品编辑页中, 提供可选标识为 AI 生成作品的选项; 2. 在筛选功能中, 可过滤 AI 生成作品; 3. 提供 AI 生成作品的独立排行榜, 与其他常规作品单独区分.
预计将于今年十月下旬开始实施, 但这些选项更新并不是「永久的」, pixiv 在公告中谈及 AI 技术时将其视作类似 3D 技术和其他创作工具一样的, 能够有效辅助于创作的「得力助手」. 文末说道, 现今 AI 技术发展中的我们正处于「一个相关道德伦理、条例规定尚未明确的过渡阶段。」, 仍需要更多调查和审议."
丹麦艺术家团体 Computer Lars 和非营利艺术科技组织 MindFuture Foundation 在今年 5 月成立了合成党(The Synthetic Party),顾名思义即倡导人类与 AI 的和谐共处。该党正试图在今年 11 月的议会选举中赢得一个席位。合成党的公众形象和挂名领袖是聊天机器人 Leader Lars。它不参与投票,通过 Discord 与民众交流,它理解英语,但会用丹麦语回应提问。合成党的政策包括推动设立每月 10 万丹麦克朗(两倍于平均工资)的基本收入,设立互联网和 IT 部门,提高对 AI 在生活中作用以及政府如何让 AI 对偏见等负责的认识。合成党提出的可持续发展目标是 Life With Artificials,重点是人类与 AI 之间的关系。
在 Meta 宣布其文本视频 AI 模型 Make-A-Video 之后,Google 演示了自己的同类工具Imagen Video。它能根据书面提示以每秒 24 帧速生成分辨率为 1280×768 的视频。从文本合成图像到文本合成视频过去半年 AI 扩散模型(diffusion models)进步显著。Google 研究人员称,Imagen Video 的视频能表现出不同风格,如根据梵高的作品生成视频。Google 希望通用视频合成模型能显著降低高质量内容生成的难度。Imagen Video 使用 LAION-400M 图像文本数据集,以及1400 万视频文本对和 6000 万图像-文本对进行训练,和 Meta 一样短时间内不会对公众开放使用。