The Project Twins制图
尽管收集可获得的在线学术材料的想法日益增多,如从文章和数据集到会议报告和讲座,但有一种学术文献却几乎未得到审核。那就是教学大纲:列出阅读材料、话题以及大学课程所期望的材料。
至少,在今年1月,当美国纽约哥伦比亚大学的数据科学家、社会学家和数字—人文研究人员发起一个叫作“开放课程资源管理器”的工具之前,情况是这样的。它融合了超过100万种公众可获得的教学大纲,并通过一种方便搜索的形式列出了它们的数据。另一个包含至少3倍于当前教学大纲的版本将于2017年1月启动。
这个名为“开放课程计划”(OSP)的工具背后的团队希望促进大学课程更加公开化。他们认为,这样做有助于教科书作者、教务工作人员和课程开发者,并对有效教学材料设计作出反馈,而这很大程度上在常规学术工作评估中被忽视了。
“教学大纲是由学者编写的应该被共享的最重要的材料,然而它们却未被广泛共享。”马萨诸塞州剑桥市哈佛大学学术交流办公室哈佛开放获取计划主任Peter Suber说,他也在OSP顾问委员会工作。“它们反映了关于什么值得一教的严肃学术判断。”
这样的判断对于教科书作者来说是受欢迎的消息。加州大学伯克利分校计算机学家 Stuart Russell直到《自然》杂志就这篇文章采访他时才意识到这一点,他和共同作者Peter Norvig在1995年编写的《人工智能》一书是计算机科学领域被指定阅读最多的文献。“我非常出乎意料。”他说。
除了点燃职业自豪感之外,这样的信息有助巩固终身职位及促进晋升。编写一本教科书,无论它有多么有用或是信息含量多么高,学术文章中的引用率总体不高,因此其学术影响力很可能并不高。OSP则有助改变平衡。“我正处于这样一个时期,我认为教员应该对其学时、能力和影响力的整体纪录有更多知情权。”麻省理工学院出版社主任 Amy Brand说。她表示,教学大纲使用的硬数据能够让教职员工“就他们的工作在世界上究竟有什么作用讲述自己的故事”。
目前,开放课程资源管理器可查询到能追溯至2000年的100多万个教学大纲,相互参照2000多万篇文章,从而制作出一篇文章被教授频率的数据。使用者可以通过作者、题目、机构和学科等目录搜索这些数据。这个工作还报告了哪本教科书使用率有多普遍,并对每篇文章的教学频率进行了排序。
一个升级版的工具将于2017年1月21日在该资源管理器的首个周年纪念日开放,它将会包括300万个教学大纲,相互参考文献达1.5亿篇文章左右。它们将包括来自预印本服务器arXiv、跨库检索CrossRef以及虚拟国际权威文件(VIAF,将相同的书目记录与不同国家图书馆目录相连)等处的标题。此次升级将包括新的搜索选择,如通过日期或单位进行搜索的能力,OSP项目主任Joe Karaganis说。新的版本将融合加拿大和英国更好的数据和信息,如果作者最终同意复制它们,将会形成全文本的教学大纲。
“我们很有雄心。”Karaganis说,“现在所用技术还很粗糙,但它们都是可以改善的,数据科学正在变得越来越好。”
钓取引用率
OSP位于哥伦比亚大学公共政策研究所的“美国议院”,由艾尔弗·斯隆基金和阿卡迪亚基金资助。它受到一个叫作教学大纲发现者的搜索引擎的启发,该引擎对2002年到2009年间的教学大纲公共网络进行了分析。该工具由弗吉尼亚州乔治·梅森大学历史学家Dan Cohen开创,现在Cohen已成为美国数字公共图书馆执行主任。该引擎集聚了Cohen所说的当时最多的教学大纲收藏,包含月100万份资料。他在2011年将其作为数据库公布了网站链接。
与OSP不同,Cohen的工具提供了与每个大纲全文本相连的工具,但它仅包括到2009年的课程,在他因为改变为谷歌程序界面让该工具下线之后,Cohen的很多同事以及作幼儿教育专家的妻子都为此感到烦恼。“我仍然会收到邮件让我继续维持教学大纲发现者。”他说。
当OSP在2014年启动时,该团队建立了挖掘公共互联网的工具,包括Cohen使用的链接(Cohen因编码错误丢失了一部分数据)。但像Cohen一样,Karaganis推算,该团队也受限于可公开获取的教学大纲:粗略估计仅有美国8000万到1.2亿教学大纲中的600万份。教学大纲被封缄在私人课堂管理软件的墙壁背后,难以接触到。“例如,哥伦比亚大学在过去12~13年间的教学大纲数量为8万份左右。”Karaganis说,“但一所大型州立学校的教学大纲则是它的两到3倍。
OSP团队接下来需要建造工具提取那些大纲的内容。例如,引用率并没有一致的结构,该项目技术主任David McClure说。该工具通过在一个拥有2000万个标题(1100万来自哈佛图书馆云以及900万来自JSTOR)的数据库中交叉引用每个教学大纲,来搜寻所需要的标题。将文章标题和作者匹配可算作一次引用。“我们对允许模糊性设计了不同的技术,比如把‘由’一词放在作者和题目中间。”McClure说。
一个新标准
OSP提取出的数据可通过一种叫作教学分数的单一指标进行排序,它可以表明一篇文章在教学大纲中被指定阅读的次数有多频繁。其价值可以是从1(很少用于教学)到100(经常用于教学)。
据Suber介绍,教学分数为常规学术影响力标准提供了一种替代指标。它们反映了日益兴起的“替代指标”思潮,它旨在对一个人的研究产出进行量化。“我认为教学分数可以参与到新的替代指标行动中,在文本影响力方面提供更加敏锐的衡量方法。”他说。
现在,一些研究人员和高校已经在利用这些数据。莱克星顿肯塔基大学发现该校教师Edward Morris一篇文章的引用率在13225篇社科类文章中排名46位之后,举办了新闻发布会。现在,这篇文章在53177篇文章中排名第371位,Morris计划利用这些数据支撑自己晋升正教授。
美国高校并非唯一引起注意的群体。目前OSP每天约1000名访客大部分人来自美国,Karaganis说,但来自乌克兰、俄罗斯和埃及的访客也占相当数量。
其他研究人员也在利用这些数据编纂一些广泛得到教学的文章的清单,例如通过漫画小说和连环画形式,或者对由女性写作的经常被用于教学的社会学文章进行量化。康涅狄格州纽黑文耶鲁大学博士后Melanie Martin利用教学大纲发现者了解她所在的进化人类学领域教学频率最高的文章,但因为没办法搜索次一级学科的相关数据,例如在次一级学科神经科学或基因组学方面的生物学搜索结果的局限性,她不得不手动浏览1.6万篇人类学题目。“没有更好的过滤器,我觉得这是它的局限。”她说。
夯实专业技能
OSP数据的另一个潜在用途是课程设计。通过让教职员工尤其是青年教学人员在其同行的知识基础上开展工作,OSP有助于使他们更具创造性地投入教学,如通过发现呈现教学材料的新方法。“它对提高教学质量大有裨益。”Russell说。它还有助提高效率,使教职员工有更多时间做科研和指导学生。
然而,重要的是不能过度解释这些数据,伊利诺伊大学香槟分校信息文献专家Lisa Janicke Hinchliffe说。该项目的样本集可能并非所有教学大纲的最佳代表,尤其对一个具体机构而言。例如,根据资源管理器,哈佛大学被布置的位居第二位的文章是由马丁·路德·金撰写的《伯明翰狱中来信》。但OSP的80%哈佛教学大纲来自肯尼迪政府学院,Karaganis说(尽管OSP并不总是公开列出其详细资源来源)。因此,很难总结这篇文章在哈佛究竟有多受欢迎。
对于Hinchliffe来说,OSP的价值在于其揭示教职员工使用资源的广度。“我并不需要明确的‘这些是教学中使用率最高的前6本书’。”她说,“我希望看到的是它的丰富程度。”
这样的信息对于简化费时费力的课程设计来说仍有相当长的路要走。Suber已经教授哲学21年,他对此深有体会。“无论什么时候,我得知要开新的课程,那么我至少需要对它准备1年。”他说,“写40个讲座的教学大纲是个巨大的工程,它比写一本书更难。”而OSP的数据将有助减轻这一负担。(晋楠编译)