solidot新版网站常见问题,请点击这里查看。
互联网
Wilson(42865)
发表于2025年07月08日 22时23分 星期二
来自奇岛
AI 爬虫早已超过搜索引擎爬虫,成为众多网站服务器的压力来源,原因是 AI 爬虫抓取频率更高,对内容有着无止境的需求,而且通常无视 robots.txt 规则。维基基金会今年早些时候表示 AI 爬虫导致其带宽消耗增加了五成。加拿大开发者 Xe Iaso 今年 1 月发布的工作量证明开源工具 Anubis 帮助网站抵御来自 AI 爬虫的无止境请求,至今它已被下载了近 20 万次,被桌面环境项目 GNOME、Linux 内核邮件列表存档和 Git 服务器、FFmpeg、Wine 和 FreeCAD 等知名开源项目以及 UNESCO(联合国教科文组织)等联合国组织使用。Anubis 会验证访客是人类还是机器人,方法是要求浏览器使用 JavaScript 执行加密数学运算,浏览器能自动完成,但 AI 爬虫除非模仿使用浏览器的用户,否则将会被挡住。而 AI 如果要模拟浏览器用户则将会大幅增加计算开销,导致其无法承受。鉴于部分用户的浏览器出于隐私等方面的考虑会禁用 JavaScript,Xe Iaso 正在开发一种不使用 JavaScript 的验证方法。