美国科学家开发了一个开源语言模型OpenScholar,其在进行准确文献综述方面可超越商用大语言模型(LLM)。比如,在该研究开展的实验中,GPT4o会在78-90%的情况下出现引文幻觉,而OpenScholar的引文准确率却与人类专家相仿。虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。相关研究2月5日发表于《自然》。
科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而,文献发表数量的增长使研究人员很难掌握全部资讯。LLM可以提供协助,但却很容易出错,如归因能力有限和引文幻觉。
为了生成准确、全面、透明的科学文献综述,华盛顿大学的Hannaneh Hajishirzi和同事推出了OpenScholar。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架,但研究者将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合,从而优化其输出。
他们还创建了名为ScholarQABench的基准工具来评估文献综述的自动化。研究显示,OpenScholar的准确率比GPT4o和文献综述工具PaperQA2等现有系统分别高出6.1%和5.5%。此外,OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用。他们总结表示,以上结果和引文幻觉大幅下降证明了OpenScholar有望支持和推动进一步研究工作。
但他们指出,该系统仍有局限性,且基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放ScholarQABench和OpenScholar,以鼓励进一步研究和优化。
相关论文信息:
https://doi.org/10.1038/s41586-025-10072-4
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。