解难题如探囊取物,答历史却步履维艰。在人工智能交出的“成绩单”上,历史学成了一门“短板学科”。奥地利复杂性科学中心(CSH)最新研究显示,即便是最先进的GPT-4 Turbo,在博士级历史知识测试中也仅获得46%的准确率,虽然超过25%的“蒙题”水平,但距离“及格”仍有不小差距。相关研究成果近日在加拿大温哥华举行的神经信息处理系统会议(NeurIPS)上发布。
“大语言模型,如ChatGPT,在某些领域确实成果斐然,比如已基本可以替代法律助理。但要它们判断历史社会特征,尤其是涉及北美和西欧以外地区时,能力就相当有限。”CSH社会复杂性研究小组负责人Peter Turchin说。
该研究的通讯作者、英国伦敦大学学院助理教授Maria del Rio Chanona也承认:“我原以为AI会表现得更好,但历史不仅仅是事实的堆砌,更需要理解和解释。”
为系统评估AI的历史理解能力,来自CSH、牛津大学等机构的研究团队设计了一套基于全球历史数据库(Seshat)的测试体系。该数据库收录了全球600个社会的历史资料,包含超过36000个数据点和2700多个学术参考文献。研究第一作者、CSH驻站科学家Jakob Hauser表示:“我们不只考察AI能否识别正确事实,还要测试它们是否能理解历史证据的推断过程。”研究团队据此对Gemini、OpenAI和Llama三大系列的七个模型展开测试。
研究发现,AI在理解历史方面存在多个维度的局限性。具体而言,在时间跨度上,AI在远古史(公元前8000年至前3000年)的把握较为准确,但在理解近代史(公元1500年至今)时表现却明显下滑。在地域分布上,AI对拉美和北美地区的历史把握较准,但对非洲和大洋洲的历史理解明显不足,这表明AI模型的训练数据可能存在地域偏差。
研究还发现,AI在不同类型的历史问题上表现迥异。比如,当分析古代法律制度的演变或社会组织的复杂程度时,AI能给出相对准确的答案。但一旦问题触及历史上的阶级差异,或者社会阶层流动性等深层社会议题时,AI的表现就大打折扣。这反映出AI对于较为具体、制度性的历史知识掌握得更好,但在需要深入理解人类社会复杂关系的议题上还有很大提升空间。
“这项研究的主要发现是,尽管大语言模型令人印象深刻,但在处理高级历史问题时仍缺乏足够深度的理解能力。”del Rio Chanona说,“它们在基本事实方面表现不错,但在涉及更细微的博士级历史研究时,还达不到要求。”在七个受测模型中,GPT-4 Turbo表现最佳,准确率为46%,而Llama-3.1-8B的表现最差,仅为33.6%。
研究团队已开始着手完善这一测试体系,他们计划通过增加来自欠发达地区的数据,以及纳入更复杂的历史问题来完善这一基准测试。Hauser表示,这些发现对历史学家和AI开发者都具有重要价值,既有助于指导历史研究中AI的应用,也为改进AI模型提供了方向。
相关论文信息:
https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。