solidot新版网站常见问题,请点击这里查看。

世界论文索引 General Index 上线

互联网 科学
wanwan (42055)发表于 2021年10月29日 20时44分 星期五

来自神秘博士:噬悲者
一位美国技术专家发布了一个包含 1 亿多篇期刊文章中单词和短语的索引  General Index——其中包括了许多付费论文。 索引于 10 月 7 日发布可免费使用,包含超过 3550 亿个单词及相应论文中的句子片段。创建者 Carl Malamud 表示,此举是为了帮助科学家使用软件从已发表论文中收集见解,即使他们没有合法访问相关论文的权限。他在 Public Resource 的赞助下发布了这些文件,这是他在加州塞瓦斯托波尔创立的一家非营利性公司。

Malamud 表示,索引不包含论文全文,只包含最多五个单词的句子片段,所以发布它不会违反出版商对重复使用付费文章的版权限制。但一位法律专家表示,出版商可能会首先质疑 Malamud 创建索引的合法性。早期访问过该索引的研究人员表示,这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。计算机科学家已通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库,并以比人类阅读更快的速度探索论文的内容。但他们经常指出,出版商最终控制着他们工作的速度和范围,科学家只能挖掘开放访问的论文,或者他们(或其机构)订阅的论文。出版商表示,希望挖掘付费论文文本的研究人员需要他们的授权。尽管 Google Scholar 等免费搜索引擎已根据与出版商的协议,将付费论文的文本编入索引,但只允许用户使用某些类型的文本查询进行搜索,限制了自动搜索。Malamud 表示,这不能用更专业的搜索进行大规模的计算机化分析。