中国科学院青藏高原研究所(简称青藏高原所)研究员张国庆看着电脑屏幕,手移动着鼠标,光标在Landsat影像(陆地卫星影像)上以毫米计的距离移动,定位于中国范围内每一个湖泊,之后将有关遥感影像和数据下载。
在数以千万次地拖动点击鼠标,初步了完成数据集。随后,张国庆再次紧盯每一个湖泊,比对、检查、修正。遇到看着很像湖泊的水体单元,张国庆要耗费更多的精力和时间,确保湖泊边界的准确性。
这样的动作,张国庆和他的学生持续了3年多,他的目标是了解过去50年全国大于1平方公里的湖泊数量与面积变化及其驱动因素。
最终在2019年,张国庆利用超过3831景遥感卫星影像获得长时间序列全国湖泊编目数据集,较现有数据更新、更完整。
在数据集完成的第一时间,张国庆将其上传到了“国家青藏高原科学数据中心”(以下简称数据中心),并开放给所有需要者免费获取使用。很快,这一数据集被国家水利部门、湖泊水文研究学者等用于完善我国水资源管理战略,研究生态资源与环境变化趋势,开展乡村调查等。
“做出来高质量的数据,本应该开放共享。”张国庆告诉《中国科学报》。他从事的是冰冻圈和环境遥感研究,其大部分科研工作与数据有关,他还共享了青藏高原湖泊水位、水量变化等数据集。
国家青藏高原科学数据中心自2019年成立以来,迄今已3年,像张国庆这样愿意开放共享的科研人员越来越多。在数据中心主任、青藏高原所研究员李新看来,在中国实现科学数据的公开共享不仅需要自上而下的授权,还需要激励机制,以提高研究人员对数据共享实践的信心和意愿。
数据开放难在哪儿?
2020年,一项对我国超过2000名科研人员的调查显示,我国研究人员虽有分享研究数据的意愿,但他们也担心数据的误用及版权和许可受到侵犯。在我国,与同事和合作者私下共享数据的情况更为普遍,而不是更广泛的公开共享。
李新也发现,当数据与论文关联起来时,科研人员共享数据的意愿相对高一些。
“科研人员发论文,谁也没有犹豫,都很乐意公开发表,科学数据其实也应该是同样道理。”李新笑称,“与十几年前相比,总体上我国数据开放共享的状态是乐观积极的。但在我国研究人员中更为广泛地树立数据共享的信心,仍需大量工作。”
比如,科学数据哪些该保密,哪些不该保密,边界仍是困惑;科研人员采集的数据还需要整理、描述、质量控制和中英文编辑等,这些“额外”的劳动成果难以被认定;科研人员的辛苦付出,其知识产权有时没有被保护好。
此外,如今已是“数据洪流”时代,然而由于一些技术问题,诸多质量高、描述好的数据在互联网搜索引擎上难以检索到,或是可以被检索到,但却难以获取和应用;数据质量和规范化水平不高,有调查显示,估计只有不到10%的中国地球科学元数据有英文版本,这阻碍了广泛的国际交流和影响。
促进数据开放共享,从政策、管理,到技术等方面都存在一定壁垒,需要有更具体的行动。更重要的,是科研人员的主观意愿和动力。
不少人在网络平台上“吐槽”不愿共享的原因:“工作量大,科技含量低”“又累又苦,有时还有危险”“没有回报”……
的确,数据不论收集难度还是时间跨度非一朝一夕所能完成。清华大学阳坤教授团队用了10余年时间开发一套中国区域地面气象要素驱动数据集(1979-2018),为中国区陆面过程模拟提供驱动数据。
阳坤的学生何杰博士是这套数据的主要开发人员之一,从2008年作为研究生时便开始采集整理数据,“尽管不需要有技术突破,但很多时候依赖‘上游’数据,需要用各种各样的办法排除可能存在疑问的数据,然后做出高质量的数据产品,这个过程是繁琐、耗时的。”
谈及愿意共享的原因时,何杰告诉《中国科学报》,气象要素驱动数据集地学研究中不可或缺,以气象为例,只有给模型输入高质量的数据,才能获得科学的气候环境模拟结果。“做数据集的初衷,就是因为之前使用的数据模拟效果‘不理想’,想为我国地学学者提供一套可靠数据。有人用,才能够体现我们研究的价值。”
10余年来,何杰与导师开发的这套数据集的精度高于国际上已有再分析数据的精度,成为国内研究广泛使用的气象数据集之一。如今,何杰是青藏高原所的工程师,“没有更多论文考核的压力,可以更充分地完善数据集。”
激励机制是关键
自身研究驱动,是数据采集者开放、共享的初衷。但要广泛提高动力,在李新看来,“数据贡献者的认同感和工作的价值感需要被体现。”
李新先后承担了国家自然基金委“中国西部环境与生态科学研究”和“黑河流域生态-水文过程集成研究”两个重大研究计划的项目,这两项计划均要求,受资助课题得到的科学数据都必须公开共享。在项目的年度评估、中期考核及最终评估环节,数据提交共享和数据质量都是被评定的内容。
这两项先导性计划的成功让李新感触颇深,“这种自上到下对公开数据共享予以支持的政策和自下到上对数据贡献者予以激励的机制,是能够实现中国更为广泛数据共享的关键。”
前不久,在青藏高原所组织的国际评估中,不少国际专家对张国庆的科研能力以及他的数据工作给予了认可和肯定。
数据中心也努力让数据贡献者有“价值感”,为每个自有产权的数据赋予唯一的数字对象标识符,体现数据的跟踪价值、引用价值、集成价值和互联价值。
但这还不够,李新建议,研究成果或项目资助中除了考察其高质量论文的发表情况,还可增加其所贡献科学数据质量等相关的条款。此外,数据出版也是促进科学数据开放共享的重要手段,主要参考学术论文的出版方式,规范地描述科学数据本身,并接受严格的同行评审,遵从学术出版规范。比如,国内一流综合期刊可率先尝试要求在论文投稿时,同步提交论文相关数据,并且优先选择国内数据中心作为数据仓储。
“数据计量和规范化数据引用方面,还缺乏统一的规范,影响了对科学数据贡献者的激励和科学数据的开放。”李新表示,加强数据引用,科学论文应按照标准的数据引用格式,引用支持论文成果的关键数据集;同时,加强数据引用计量,体现数据作者的知识产权和贡献,激励数据共享。
“只有通过对数据贡献者进行适当的评估、肯定和鼓励,数据共享才能成为一项自愿的机制,当大家都愿意共享时,一种良好的氛围也就形成了。”李新说。
开放的“FAIR”原则
在数据开放中,不少科研人员有着“开放数据可能会给自己的科研工作带来风险”的顾虑,也一定程度上影响了他们自下而上开放科学数据的意愿。
一方面希望应该开放的数据“不设任何边界的”开放,而另一方面需要保密的数据又要“非常保守”的保密,这对矛盾体依然是摆在数据开放共享面前的问题。
李新说,科学数据已经从“全面开放”原则过渡到目前普遍遵循的“FAIR”原则,即可发现性、可获取、可互操作、可重用。我国2018年颁布的《科学数据管理办法》“照开放为常态、不开放为例外的原则”的要求,也为这个矛盾的解决提供了一个“指引”。
不过,政策上还需更细化,李新表示,为了最大程度地实践数据共享,对敏感数据有清晰的定义及制定具体的共享限制政策显得尤为重要,比如那些涉及到国家安全、商业机密和个人隐私的数据当然可以保密,而其他数据应该充分开放共享。开放科学的知识产权协议,如知识共享协议,可作为一种通用协议被引入科学数据共享。
数据中心采取行动试图打消科研人员的顾虑,保护数据贡献者的知识产权。保留数据贡献者的版权,授权他人在协议限定范围内的转载、使用和二次演绎等;兼顾数据作者对特殊数据保护的诉求,比如可以设置不超过两年的数据保护期,或根据数据作者对数据共享需要附加额外条件的要求,设置数据申请审批流程等。
“数据中心不定期地就会进行安全自查,有可能涉密的数据就进行下线处理。”李新说。
数据中心不断开发新技术实践“FAIR”原则,采用国际标准提供数据引用方式和数据关联文献引用方式,支持数据出版,开发在线大数据分析、模型应用等功能。
在数据集描述页面添加相关元数据信息,使得数据中心的数据能够在谷歌数据搜索引擎中被查询到;尽量采用地学数据领域广泛认可的标准和规范来减少互操作性障碍;免登陆下载,降低数据下载门槛,开发中英文双语数据管理与共享平台,由专业编辑和公司“双重把关”英文数据质量......
这些,都促进了青藏高原及其周边相关科学数据的开放共享。
今年1月底,李新在总结会上公布,目前已收集并发布青藏高原及周边地区的科学数据集4600多个,累计页面访问量超过1.5亿,月均下载量达50TB,为青藏高原区域科技创新发展和地球系统科学研究提供了重要的数据支持。国家青藏高原科学数据中心也成为国内首个通过Nature数据期刊Scientific Data认证的数据仓储中心,大大提高了数据中心的影响力和权威性。
李新对于数据中心有着更“开放”的愿景:通过整合来自大数据和机器学习的技术,数据中心可以将大数据转化为信息和知识,更为有效地为数据用户服务,研发更多青藏高原及周边的高质量再分析数据产品;此外,建立一个平台,使用者无需下载便可在线使用数据集,就像“谷歌地球引擎”一样,使得数据检索更容易,数据访问更为广泛等。
“要实现数据共享的范式转变,仍需要政府、研究人员和数据中心的积极努力。数据和数据贡献者越受到激励,就越有利于科学和社会的发展。”李新说,他充满期待。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。