ChatGPT这门博士考试“不及格”—新闻

作者：宋书扉,冯丽妃来源：中国科学报发布时间：2025/1/24 21:29:29

选择字号：小中大

ChatGPT这门博士考试“不及格”

解难题如探囊取物，答历史却步履维艰。在人工智能交出的“成绩单”上，历史学成了一门“短板学科”。奥地利复杂性科学中心（CSH）最新研究显示，即便是最先进的GPT-4 Turbo，在博士级历史知识测试中也仅获得46%的准确率，虽然超过25%的“蒙题”水平，但距离“及格”仍有不小差距。相关研究成果近日在加拿大温哥华举行的神经信息处理系统会议（NeurIPS）上发布。

“大语言模型，如ChatGPT，在某些领域确实成果斐然，比如已基本可以替代法律助理。但要它们判断历史社会特征，尤其是涉及北美和西欧以外地区时，能力就相当有限。”CSH社会复杂性研究小组负责人Peter Turchin说。

该研究的通讯作者、英国伦敦大学学院助理教授Maria del Rio Chanona也承认：“我原以为AI会表现得更好，但历史不仅仅是事实的堆砌，更需要理解和解释。”

为系统评估AI的历史理解能力，来自CSH、牛津大学等机构的研究团队设计了一套基于全球历史数据库（Seshat）的测试体系。该数据库收录了全球600个社会的历史资料，包含超过36000个数据点和2700多个学术参考文献。研究第一作者、CSH驻站科学家Jakob Hauser表示：“我们不只考察AI能否识别正确事实，还要测试它们是否能理解历史证据的推断过程。”研究团队据此对Gemini、OpenAI和Llama三大系列的七个模型展开测试。

研究发现，AI在理解历史方面存在多个维度的局限性。具体而言，在时间跨度上，AI在远古史（公元前8000年至前3000年）的把握较为准确，但在理解近代史（公元1500年至今）时表现却明显下滑。在地域分布上，AI对拉美和北美地区的历史把握较准，但对非洲和大洋洲的历史理解明显不足，这表明AI模型的训练数据可能存在地域偏差。

研究还发现，AI在不同类型的历史问题上表现迥异。比如，当分析古代法律制度的演变或社会组织的复杂程度时，AI能给出相对准确的答案。但一旦问题触及历史上的阶级差异，或者社会阶层流动性等深层社会议题时，AI的表现就大打折扣。这反映出AI对于较为具体、制度性的历史知识掌握得更好，但在需要深入理解人类社会复杂关系的议题上还有很大提升空间。

“这项研究的主要发现是，尽管大语言模型令人印象深刻，但在处理高级历史问题时仍缺乏足够深度的理解能力。”del Rio Chanona说，“它们在基本事实方面表现不错，但在涉及更细微的博士级历史研究时，还达不到要求。”在七个受测模型中，GPT-4 Turbo表现最佳，准确率为46%，而Llama-3.1-8B的表现最差，仅为33.6%。

研究团队已开始着手完善这一测试体系，他们计划通过增加来自欠发达地区的数据，以及纳入更复杂的历史问题来完善这一基准测试。Hauser表示，这些发现对历史学家和AI开发者都具有重要价值，既有助于指导历史研究中AI的应用，也为改进AI模型提供了方向。

编辑部推荐博文
科学网·问答 \| 基金申请如何凝练科学问题？祝贺！科学网2024年度十佳博文评选活动结果揭晓拥有惊人织网能力的巢蛾为什么用函数 f(x) 表示智能系统的运作过程有问题？ NML文章集锦\| 钙钛矿太阳能电池(五) IAOM协会期刊IJOM转由MDPI出版更多>>