尚待考验的“学术秘书”—新闻

作者：张双虎来源：中国科学报发布时间：2020/12/2 14:27:04

选择字号：小中大

尚待考验的“学术秘书”

据不完全统计，目前科学文献数量大约每9年增加一倍，科学家读完研究领域内的最新文献变得越来越困难。面对浩如烟海的文献资料，研究人员有时候甚至难以检索到急需的文献资料。

如果有个“学术秘书”能免费替你做些文献方面，“爬罗剔抉，刮垢磨光”的工作，你是不是想马上“来一打”？近日，位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试。

从搜索引擎到“语义学者”

科研人员常借助学术搜索来寻找自己想要的资料。但有些学术搜索工具只为某一研究领域的专家服务，不同领域之间的关联不足，难以为跨界学者提供服务。还有一些专注科研领域的搜索引擎，偶尔也会检索出相当一部分非学术文档。更重要的是，从互联网上搜索到的资料容易出现令人啼笑皆非的差错，甚至数据也面临被篡改的威胁。

针对学术搜索引擎的种种不足，2015年，艾伦人工智能研究所首次推出“语义学者”。“语义学者”本质上是一个为解决信息过载问题的学术搜索引擎，它能帮助用户筛选科学论文，并在一定程度上理解检索到的论文内容。该搜索引擎检索的文献库最初集中在计算机科学，此后逐步向其他领域扩展。

2016年，该研究所更新了“语义学者”的功能。比如，它可以从文本中挑选出最重要的关键词和短语，而不仅仅依赖作者或出版商所提供的论文关键词。它还能帮助科学家理解论文的内容，这一功能令此前其他的学术搜索引擎惊讶。与此同时，它还可以找出论文所引用的真正具有影响力的参考文献，并将论文中的数据呈现在搜索结果中，让搜索者一目了然。

期待“智慧的灵魂”

“简洁，是智慧的灵魂。”近日，艾伦人工智能研究所推出更新的“语义学者”系统时，引用莎士比亚剧作《哈姆莱特》中的一句话来“站台”。

新款“语义学者”搭载人工智能并用于科学研究，可以将冗长的计算机科学论文进行一系列汇总，以节省审查此类文献的时间。该系统新的摘要功能，可以对大量科学研究论文进行分析，并将其简化为一句高度概括的话。

目前，“语义学者”的数据库中有1000万篇计算机科学论文，根据该数据库技术总监Dan Weld的介绍，他们将逐步添加其他学科的论文。

研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息，在更习惯用手机、PAD等移动设备来完成各项工作的今天，“语义学者”的功能似乎更优势。

“经过早期测试，使用者的反馈是积极的。” 艾伦人工智能研究所研究员韦尔德说，“人们似乎很喜欢它。”

近年来，研究人员开发出各种自然语言处理程序来汇总文档，它通常有两种方式。抽取式着重于选择代表性文本，并在摘要中逐字使用。例如，2018年开发的Paper Digest是在提取关键句子，而不是自己来再次书写。抽象式使用自然语言生成算法来创建全新的内容摘要。近年来，人工智能自然语言技术的发展，使这种方法成为程序员的首选。

在所有具备汇总功能的搜索工具中，语义学者有最大的压缩率。对一篇约5000单词的科学论文来说，语义学者的摘要约为21个词。其平均压缩率为原文的1/238。目前最接近语义学者的竞争对手，只能将文档压缩到原文的1/36。

“这还不是完美的，但这是朝正确方向迈出的一步。”西雅图华盛顿大学教授Jevin West对该新程序进行测试后说，“我预计，这种工具将在不久的将来成为学术搜索的标准功能。”

目前，该系统仅接受以英文撰写的论文，程序作者希望最终能包含其他语言的文档。艾伦研究所提供免费代码，还建立了一个向所有人开放的示范站点。

“学术秘书”有待“实习”

“‘语义学者’的核心是从长文中挖掘和压缩出关键语义，和搜索引擎的关键词不太一样。”北京理工大学自动化学院教授邓方说，“即使有较大压缩率，该系统概括的准确性也可以通过大量的训练提高，所以准确率值得期待。系统对不同语言需要进行重新训练，所以对不同语言还有更大的改进空间。”

“（语义学者的）工作方法上并没有太多创新。”中国科学院自动化所研究员张家俊介绍说，该技术属于文本自动摘要，学术界一般分为抽取式和抽象式生成。抽取式从原始文档中挑选关键句子，高效便捷，但总结能力一般；抽象式更接近人类概括大意时，先理解再总结的思路，只不过目前学术界用抽象式方法时，受到输入文本长度的限定。其绝大多数情况下适用于对单篇文档做摘要总结，并且限于目标函数（参考摘要多样性高）很难学习导致压缩率太高的话质量也无法保证。

张家俊认为，该系统一是构造了大规模的科技文本—短摘要数据集；二是利用科技论文—标题的自然标注数据作为额外的任务（标题生成）进行多任务学习；三是在预训练模型BART的基础上，针对短摘要生成任务进行微调。

“由于他们提出了自己的数据集，这个数据集对应一个新的任务，“语义学者”在这个数据集上获得了很好的效果，有比较好的应用。”张家俊说，“不过也有需要改进的地方，一方面，很多文献非常长，与之相对目前仅支持5000个词的输入有些捉襟见肘；另一方面，即使可以输入5000个甚至更多单词，在模型上进行语义编码也有难度，这个方法的有效性还有待进一步观察。”

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！ Dove最新临床研究，聚焦这些进展中国数学会数理逻辑专业委员会与Mathematics期刊建立合作关系我三个可爱的儿子-三捧星光，暖我半生烟火植物人文：数字时代人与自然关系的新探索更多>>