作者:张双虎 来源:中国科学报 发布时间:2020/12/2 14:27:04
选择字号:
尚待考验的“学术秘书”

 

据不完全统计,目前科学文献数量大约每9年增加一倍,科学家读完研究领域内的最新文献变得越来越困难。面对浩如烟海的文献资料,研究人员有时候甚至难以检索到急需的文献资料。

如果有个“学术秘书”能免费替你做些文献方面,“爬罗剔抉,刮垢磨光”的工作,你是不是想马上“来一打”?近日,位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试。

从搜索引擎到“语义学者”

科研人员常借助学术搜索来寻找自己想要的资料。但有些学术搜索工具只为某一研究领域的专家服务,不同领域之间的关联不足,难以为跨界学者提供服务。还有一些专注科研领域的搜索引擎,偶尔也会检索出相当一部分非学术文档。更重要的是,从互联网上搜索到的资料容易出现令人啼笑皆非的差错,甚至数据也面临被篡改的威胁。

针对学术搜索引擎的种种不足,2015年,艾伦人工智能研究所首次推出“语义学者”。“语义学者”本质上是一个为解决信息过载问题的学术搜索引擎,它能帮助用户筛选科学论文,并在一定程度上理解检索到的论文内容。该搜索引擎检索的文献库最初集中在计算机科学,此后逐步向其他领域扩展。

2016年,该研究所更新了“语义学者”的功能。比如,它可以从文本中挑选出最重要的关键词和短语,而不仅仅依赖作者或出版商所提供的论文关键词。它还能帮助科学家理解论文的内容,这一功能令此前其他的学术搜索引擎惊讶。与此同时,它还可以找出论文所引用的真正具有影响力的参考文献,并将论文中的数据呈现在搜索结果中,让搜索者一目了然。

期待“智慧的灵魂”

“简洁,是智慧的灵魂。”近日,艾伦人工智能研究所推出更新的“语义学者”系统时,引用莎士比亚剧作《哈姆莱特》中的一句话来“站台”。

新款“语义学者”搭载人工智能并用于科学研究,可以将冗长的计算机科学论文进行一系列汇总,以节省审查此类文献的时间。该系统新的摘要功能,可以对大量科学研究论文进行分析,并将其简化为一句高度概括的话。

目前,“语义学者”的数据库中有1000万篇计算机科学论文,根据该数据库技术总监Dan Weld的介绍,他们将逐步添加其他学科的论文。

研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息,在更习惯用手机、PAD等移动设备来完成各项工作的今天,“语义学者”的功能似乎更优势。

“经过早期测试,使用者的反馈是积极的。” 艾伦人工智能研究所研究员韦尔德说,“人们似乎很喜欢它。”

近年来,研究人员开发出各种自然语言处理程序来汇总文档,它通常有两种方式。抽取式着重于选择代表性文本,并在摘要中逐字使用。例如,2018年开发的Paper Digest是在提取关键句子,而不是自己来再次书写。抽象式使用自然语言生成算法来创建全新的内容摘要。近年来,人工智能自然语言技术的发展,使这种方法成为程序员的首选。

在所有具备汇总功能的搜索工具中,语义学者有最大的压缩率。对一篇约5000单词的科学论文来说,语义学者的摘要约为21个词。其平均压缩率为原文的1/238。目前最接近语义学者的竞争对手,只能将文档压缩到原文的1/36。

“这还不是完美的,但这是朝正确方向迈出的一步。”西雅图华盛顿大学教授Jevin West对该新程序进行测试后说,“我预计,这种工具将在不久的将来成为学术搜索的标准功能。”

目前,该系统仅接受以英文撰写的论文,程序作者希望最终能包含其他语言的文档。艾伦研究所提供免费代码,还建立了一个向所有人开放的示范站点。

“学术秘书”有待“实习”

“‘语义学者’的核心是从长文中挖掘和压缩出关键语义,和搜索引擎的关键词不太一样。”北京理工大学自动化学院教授邓方说,“即使有较大压缩率,该系统概括的准确性也可以通过大量的训练提高,所以准确率值得期待。系统对不同语言需要进行重新训练,所以对不同语言还有更大的改进空间。”

“(语义学者的)工作方法上并没有太多创新。”中国科学院自动化所研究员张家俊介绍说,该技术属于文本自动摘要,学术界一般分为抽取式和抽象式生成。抽取式从原始文档中挑选关键句子,高效便捷,但总结能力一般;抽象式更接近人类概括大意时,先理解再总结的思路,只不过目前学术界用抽象式方法时,受到输入文本长度的限定。其绝大多数情况下适用于对单篇文档做摘要总结,并且限于目标函数(参考摘要多样性高)很难学习导致压缩率太高的话质量也无法保证。

张家俊认为,该系统一是构造了大规模的科技文本—短摘要数据集;二是利用科技论文—标题的自然标注数据作为额外的任务(标题生成)进行多任务学习;三是在预训练模型BART的基础上,针对短摘要生成任务进行微调。

“由于他们提出了自己的数据集,这个数据集对应一个新的任务,“语义学者”在这个数据集上获得了很好的效果,有比较好的应用。”张家俊说,“不过也有需要改进的地方,一方面,很多文献非常长,与之相对目前仅支持5000个词的输入有些捉襟见肘;另一方面,即使可以输入5000个甚至更多单词,在模型上进行语义编码也有难度,这个方法的有效性还有待进一步观察。”

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
标准模型被打破了吗 肿瘤细胞不爱糖
科学家找出细胞间物质运输通道 高质量柑橘砧木枳基因组发布
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文