solidot新版网站常见问题,请点击这里查看。
人工智能
Wilson(42865)
发表于2024年02月16日 21时40分 星期五
来自龙牙
Google 的大模型以及 AI 聊天机器人都采用 Gemini 这一名称。目前的大模型版本号是 1.0,它的付费版叫 Gemini Advanced,用户可以访问 1.0 Pro 和 1.0 Ultra——其中 1.0 Ultra 是类似 GPT-4 的规模最大的模型,而 1.0 Pro 是类似 GPT-3.5 的中等规模模型。现在 Google 宣布了下一代的 Gemini 1.5,表示其中等规模模型 1.5 Pro 在性能上接近了上一代最大模型 1.0 Ultra,上下文窗口能达到 100 万 tokens,这意味着 1.5 Pro 能一次性处理 1 小时视频、11 小时音频、逾 3 万行代码,或逾 70 万单词。Gemini 1.5 是基于 Transformer 和 MoE 架构,感兴趣的用户需要申请加入等待名单。

人工智能
Wilson(42865)
发表于2024年02月16日 19时44分 星期五
来自星尘
OpenAI 宣布了视频生成模型 Sora,并公布了一份相关的技术报告。Sora 能生成最长 1 分钟的高清视频,OpenAI 公布了数十个示例,展现了其惊人的文本生成视频能力。大模型使用 text tokens 统一代码、数学和自然语言的不同文本形式,而 Sora 使用了 visual patches 统一了所有类型的视觉数据。OpenAI 表示,Sora 能够根据文本指令生成长达 60 秒的视频,同时保持视觉质量并遵守用户提示。Sora 可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora 还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。除了能仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。Sora 仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。

人工智能
Wilson(42865)
发表于2024年02月13日 21时15分 星期二
来自我的世界:海岛
微软正在为 Windows 11 开发类似 DLSS 的 AI 上采样技术。在现有的上采样技术中,DLSS 是英伟达私有的技术,且只支持英伟达显卡;AMD 的 FSR 为开源的,基本支持所有平台;英特尔的 XeSS 类似 FSR 也不限于支持自家的 Intel Arc 显卡。微软将其上采样技术描述为利用 AI 技术让支持的游戏运行更流畅细节更丰富。

人工智能
Wilson(42865)
发表于2024年02月11日 21时18分 星期日
来自巨龙之日
2006 年,德国 AI 研究员 Marcus Hutter 宣布了人类知识无损压缩 Hutter 奖,总奖金 5 万欧元。2020 年奖金金额提高到 50 万欧元,而 Hutter 如今在 Google DeepMind 担任高级研究员。该奖项旨在鼓励 AI 研究,组织者认为文本压缩和 AI 是一个等价问题。用数学家 Gregory Chaitin 话说,压缩就是理解。压缩的对象是一个特定版本的英文维基百科文本,一开始是 100MB 大小,2020 年提高到 1GB,规则是每改进 x% 就获得等价比例的奖金,如改进 1% 就奖励 5 千欧元。Hutter 奖此前颁发了五次,其中四次是颁给了 Alexander Ratushnyak。去年 7 月纽约高频/算法交易和金融服务基金的量化开发者 Saurabh Kumar 将 10 亿字符压缩到 114,156,155 字节,压缩率 11.41%,比之前的记录改进了 1.04%,因此赢得了 5187 欧元奖金。时隔半年之后,Kaido Orav 的压缩程序 fx-cmix 将 10 亿字符压缩到 112 578 322 字节,比去年的纪录改进了 1.38%,获得了 6911 欧元奖励。

人工智能
Wilson(42865)
发表于2024年02月09日 00时07分 星期五
来自通往宇宙之门
搜索巨人热衷于改名,现在它的生成式 AI 聊天机器人从 Bard 改名为 Gemini。相比 OpenAI 的 ChatGPT,Gemini 和 Bard 一样都不是那么容易与 AI 联系起来。相比 OpenAI 的免费版 GPT-3.5 和付费版 GPT-4(或 ChatGPT 和 ChatGPT Plus),Gemini 的付费版叫 Gemini Advanced,用户可以访问 Pro 1.0 和 Ultra 1.0——其中 Ultra 1.0 是类似 GPT-4 的大模型的首个版本,而 Pro 1.0 是类似 GPT-3.5 的规模较小的模型的首个版本。

人工智能
Wilson(42865)
发表于2024年02月07日 14时20分 星期三
来自诺比与错乱的时间线
来自埃及、瑞士和美国的 3 名学生利用 AI 技术破译了 2000 年前烧焦的古代卷轴的文字,为揭开考古学最大谜团之一作出了巨大贡献。他们在维苏威火山挑战赛中胜出,并分享了 70万 美元大奖。维苏威火山挑战赛旨在利用现代科技解码公元79年维苏威火山喷发后被埋在地下、现已碳化的赫库兰尼姆城图书馆的古代卷轴。当天公布的获奖作品展示了超过 1 5列文本中的数百个单词,相当于整个卷轴单词的 5% 左右。获胜者通过扫描这卷莎草纸训练他们的机器学习算法,从而揭示了一部不为人知的哲学作品。这为 AI 技术完整破译其余卷轴铺平了道路。研究人员表示,这可能对人们理解古代世界产生革命性的影响。

人工智能
Wilson(42865)
发表于2024年02月06日 14时29分 星期二
来自超时空碎片
Hugging Face 发布了开源自定义 AI 聊天助手工具。Hugging Face 类似 GitHub,但托管的是 AI 代码和框架。Hugging Chat Assistants 类似 OpenAI 的自定义 GPT Builder,但不同的是 GPT Builder 完全依赖于 OpenAI 的私有大模型 GPT-4 和 GPT-4 Vision/Turbo,而 Hugging Chat Assistants 可选各种 AI 开源模型,从 Mistral 的 Mixtral 到 Meta 的 Llama 2,而且它还是免费的。

人工智能
Wilson(42865)
发表于2024年02月04日 13时50分 星期日
来自怒火重燃
研究人员在预印本平台 arXiv 上发表论文,测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2,以及 Meta 的 Llama 2 等流行大模型在战争游戏中的行为,发现 AI 聊天机器人倾向于选择核攻击。研究人员模拟了三种场景:入侵,网络攻击,以及没有冲突的中立。每一轮 AI 为其下一步行动能采取的行动提供推理,然后从 27 个行动中进行选择,包括开始正式和平谈判,实施贸易限制,升级全面核攻击。在模拟中,AI 倾向于投资军事和升级冲突风险,其中 GPT-4 的基础版本最暴力。研究人员认为,不应该信任 AI 做出的战争与和平的重大决策。

人工智能
Wilson(42865)
发表于2024年02月02日 21时46分 星期五
来自人猿泰山之密林追踪
扎克伯格(Mark Zuckerberg)在公司财报电话会议上解释了为什么 Meta 要开源大模型如 Llama。他说,开源有助于改进模型,Meta 要将模型转化为产品还有很多工作要做,开源模型总是会存在的,而成为开源模型的领导者则有很多优势,同时也不会消除产品的差异性。更具体的说:开源软件通常更安全运行效率更高,因为有来自社区的持续反馈和审查,而改进安全和效率能让人人受益;开源软件能成为行业标准,在 Meta 开源模型上进行的创新也能更容易的整合到 Meta 自己的产品中;开源更受开发者和研究人员的欢迎,因此也有助于招募优秀人才。

人工智能
Wilson(42865)
发表于2024年02月02日 16时04分 星期五
来自钢之色
Google Bard 聊天机器人加入了 AI 图像生成功能,在功能上赶上了主要竞争对手 ChatGPT Plus。Bard 用户能使用 Google Imagen 2 文本图像模型生成图像,现在 Bard 使用的大语言模型 Gemini Pro 集成了图像生成。ChatGPT Plus 的大模型是 GPT-4,通过集成 DALL-E 3 文本图像模型而允许用户直接生成图像。但 Bard 的图像生成功能不需要付费,而 ChatGPT Plus 是付费订阅服务。

人工智能
Wilson(42865)
发表于2024年01月29日 13时26分 星期一
来自无敌号
马斯克(Elon Musk)的 X 屏蔽了对斯威夫特(Taylor Swift)的搜索,此前使用 AI 创建的这位流行歌星的露骨色情在该平台上广泛传播。这起事件是社媒如何艰难对付所谓深度伪造内容的最新例子:滥用 AI 生成的逼真图像和音频,在未经本人同意的情况下描绘知名人士处于有失体面或误导性的情境。目前在 X 上搜索 Taylor Swift 或 Taylor AI 等关键词都不会返回任何结果,意味着有关斯威夫特的合法信息也都无法搜索到。X 的业务运营主管 Joe Benarroch 表示这是一项临时行动。

人工智能
Wilson(42865)
发表于2024年01月27日 22时35分 星期六
来自快乐基因
苹果 iOS 17.4 的首个 Beta 版本中发现了与大语言模型相关的代码。苹果代码中包含了名叫 SiriSummarization 的私有框架,能调用 OpenAI 的 ChatGPT API。苹果不太可能会在正式版本中使用 ChatGPT 支持其 AI 功能,它可能是在测试自己的大模型,然后与 ChatGPT 的结果进行对照。iOS 17.4 代码显示苹果在测试四种不同的大模型,其中之一是此前披露过的 Ajax。苹果在测试两个版本的 AjaxGPT,其中之一在设备上进行处理,另一个可能是云端。

人工智能
Wilson(42865)
发表于2024年01月25日 17时46分 星期四
来自丽赛的故事
艺术界公布了一份 1.6 万名艺术家的名单,号召艺术家们团结起来对抗提供文本图像生成服务的 AI 公司如 Midjourney。部分英国艺术家已经联络美国律师,讨论加入针对 Midjourney 和 Stability AI 等公司的集体诉讼,而其他英国艺术家则表示考虑在英国提起相应诉讼。艺术家们的投诉称,虽然被告喜欢用高深的词语去形容他们的 AI 图像产品,但现实更卑鄙更肮脏:AI 图像产品被视为是洗版权的工具,向客户承诺艺术的好处而不需要向艺术家支付费用。艺术家们发现,Midjourney 会生成与他们的原始作品非常相似的图像,他们认为这是复制。

人工智能
Wilson(42865)
发表于2024年01月25日 15时43分 星期四
来自被涂污的鸟
《原子科学家公报(Bulletin of the Atomic Scientists)》今年的末日时钟仍然停留在距离午夜 90 秒。末日时钟旨在衡量人类文明距离灭绝有多远。今年的《原子科学家公报》将 AI 添加到对人类构成存在性威胁的名单之中,但并没有因此拨快时钟,可能是因为 AI 尚未先进的真的会威胁到人类。

人工智能
Wilson(42865)
发表于2024年01月25日 15时17分 星期四
来自穿越黑暗之门
英伟达发布了新驱动 551.23 Game Ready,其中包含了一项新功能 RTX Video HDR,使用 AI 将 SDR 色彩空间视频转换为 HDR。用户所需要的是拥有 RTX 显卡,兼容 HDR10 的显示器,以及在 Windows 中启用 HDR。Video HDR 功能支持 Microsoft Edge 和 Google Chrome,用户的显卡至少需要 RTX 20 系列,它利用了 GPU 的 Tensor Core(张量计算核心)。

人工智能
Wilson(42865)
发表于2024年01月23日 21时51分 星期二
来自抓落叶
1 月 17 日日本文学振兴会主办的第 170 届芥川奖和直木奖评选会在日本东京筑地的日料店“新喜乐”举行。九段理江(33岁)的小说《东京都同情塔》(《東京都同情塔》,《新潮》2023年12月刊)获得芥川奖,河崎秋子(44岁)的《相残》(《ともぐい》,新潮社出版)和万城目学(47岁)的《八月的御所运动场》(《八月の御所グラウンド》,文艺春秋出版)获得直木奖。《东京都同情塔》以另一个世界的东京为舞台,该世界的东京按照现实中作废的建筑师扎哈·哈迪德(Zaha Hadid)的方案建造了新国立竞技场。作品中出现了主人公与 AI 对话的场面。据九段理江介绍,她在写作过程中实际使用到了生成式 AI,作品中 5% 左右的内容采用了生成式 AI 如 ChatGPT 生成的句子。她同时称,“今后打算与 AI 友好相处,希望能借助 AI 来发挥自己的创造性”。

人工智能
Wilson(42865)
发表于2024年01月23日 18时12分 星期二
来自苏珊娜之歌
MIT 一项调查 AI 取代人类工作可行性的研究发现,AI 无法以符合成本效益的方式取代大部分人类工作。研究人员对美国各种工作自动化的成本吸引力进行了建模,重点是利用计算机视觉的各项工作。他们的研究发现,以美元工资计算,只有 23% 的工人能被有效取代。对于大部分工作,AI 辅助视觉识别的安装和操作成本昂贵,人类工作更经济。在零售、运输和仓储等领域计算机视觉的成本效益比更合算,沃尔玛和亚马逊等巨头在这些领域占主导地位。

人工智能
Wilson(42865)
发表于2024年01月22日 14时08分 星期一
来自开普勒62号4:先行者
Meta 首席 AI 科学家 Yann LeCun 接受采访时强调,达到人类水平的 AI 还有很长的路要走。他说,担心 AI 智能超越人类而对其进行监管,就像是在 1925 年因速度接近音速而要求对跨大西洋飞行进行监管。他认为还需要实现我们尚未知道的科学突破才有可能达到人类水平的 AI。这就是为什么他认为因担心 AI 超出人类控制而对其进行监管为时过早。LeCun 解释说,生成式 AI 系统在其训练的狭窄领域是智能的,它们能流利的使用语言,我们被愚弄的认为它们有智能,其实它们并不聪明。我们并不能通过用更多的数据训练,投入更多的算力去扩展它们的能力,达到人类水平的智能。这在短时间内不会发生,我们需要先发现新的技术和架构。LeCun 相信即使不需要几十年,也至少需要多年时间。

人工智能
Wilson(42865)
发表于2024年01月18日 14时53分 星期四
来自梦侦探
Google DeepMind 新 AI 系统 AlphaGeometry 能解复杂几何问题。研究报告发表在最新一期的《自然》期刊上。AlphaGeometry 可以以国际数学奥林匹克竞赛金牌得主的平均水平解决几何问题。研究人员从 2000 年至 2022 年奥数比赛中抽取的30道几何题中,AlphaGeometry 解决了 25 道题。从历史上看,在相同时间内,人类金牌得主平均解决了 25.9 道题。研究人员认为,“解决奥数级别的几何问题是发展深度数学推理、迈向更先进和通用人工智能系统的一个重要里程碑。”训练 AI 系统解决几何问题面临着独特的挑战。由于将证明转换为机器可以理解的格式十分复杂,因此缺乏可用的几何训练数据。DeepMind 在设计 AlphaGeometry 时将“神经语言”模型(在架构上类似于 ChatGPT)与“符号演绎引擎”配对,该引擎利用规则(如数学规则)来推断问题的解决方案。符号引擎可能不灵活且缓慢,尤其是在处理大型或复杂的数据集时。但 DeepMind 通过让神经模型“引导”推演引擎找到给定几何问题的可能答案,从而缓解了这些问题。

人工智能
Wilson(42865)
发表于2024年01月17日 22时47分 星期三
来自其主之声
上海 AI 实验室在 Apache-2.0 许可证下开源了 InternLM2。InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的。沿袭第一代 InternLM 的设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,满足不同复杂应用场景需求。实验室称:InternLM2 有效支持 20 万字超长上下文:模型在 20 万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。 可以通过 LMDeploy 尝试20万字超长上下文推理。综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码、对话体验、指令遵循和创意写作等方面的能力提升尤为显著,综合性能达到同量级开源模型的领先水平,在重点能力评测上 InternLM2-Chat-20B 能比肩甚至超越 ChatGPT (GPT-3.5)。代码解释器与数据分析:在配合代码解释器(code-interpreter)的条件下,InternLM2-Chat-20B 在 GSM8K 和 MATH 上可以达到和 GPT-4 相仿的水平。基于在数理和工具方面强大的基础能力,InternLM2-Chat 提供了实用的数据分析能力。