作者:张楠 蒋朝常 来源:中国科学报 发布时间:2020/7/20 13:57:26
选择字号:
玉米多组学数据库欲打通信息“孤岛”

 

近日,华中农业大学教授严建兵课题组,成功整合了来自同一玉米群体多组学数据,构建了玉米属综合数据库ZEAMAP。相关成果发表于iScience

该数据库内嵌了基因组“浏览器”和“搜索引擎”,从而实现了对相关组学生物大数据的高度集成、快速检索和智能分析。

此前,我国玉米基础研究取得了显著成绩,但在其研究材料和数据的共享平台建设上有待加强。该数据库的建立,不仅帮助用户提升了对周围组学、数据挖掘的时间效率,更实现了多维组学大数据之间的联系,在打通信息“孤岛”上迈出有力一步。

多组学信息整合破壁垒

谈及搭建玉米数据库的动因,论文通讯作者严建兵介绍,他曾在国际玉米小麦改良中心学习、工作4年多。“该中心的使命就是向全世界无偿分发种子资源。这段经历对我产生了很大影响。”从2010年底回国开展工作第一天,严建兵就把建立玉米多组学数据库提上了日程。

此外,国内学者对基础研究的材料和数据收集、分享长期依赖国际数据库,比如美国国家生物信息中心(NCBI)、欧洲分子生物学实验室(EMBL)等建立的数据库。严建兵对《中国科学报》表示:“这些国际数据库极大促进了后来者的科学研究,为全球科技进步作出了不可磨灭的贡献。”

不过,“随着高通量检测技术的快速发展,生物学数据朝着多组学、多维度的层面快速积累。然而以玉米为例,现有数据库大多关注一种或几种特定组学数据,不同数据库之间难以有效整合利用”。严建兵指出。

于是,这些数据成了一座座“孤岛”。以玉米为例,论文第一作者桂松涛告诉记者,有的数据库只包含了基因的注释信息,有的只记录了遗传变异信息,那么仅通过这两个孤立的数据库资源将难以判断出,某个遗传变异是否会对附近的基因表达造成影响。

为了突破信息壁垒、提高研究效率,严建兵课题组以其自身牵头收集并被国内外同行广泛使用的玉米关联群体为基础,整合了该群体的基因组、转录组、表型组、代谢组、表观基因组、遗传变异以及遗传定位结果等多组学大数据,构建了玉米属综合数据库ZEAMAP。

在该平台,用户可根据相应的条目链接,在不同组学大数据之间进行跳转访问,实现信息互联。

目前,ZEAMAP收录了4个玉米基因组和1个大刍草基因组,并对每个基因组中数万个预测基因予以详细的功能注释。该数据库还整合了玉米关联群体507份自交系中数百万遗传变异的基因型信息,并整合了遗传变异与数十种农艺表型、数百种籽粒代谢产物以及上万个基因表达量的遗传定位结果。

ZEAMAP内嵌基因组“浏览器”以及丰富的数据检索、分析和展示工具,用户可直观对比较基因组、基因共线性区块、表达模式聚类、遗传变异基因型、连锁图谱、遗传定位结果、染色质交互、组蛋白修饰以及群体水平的DNA甲基化等多组学数据进行检索和分析。

数据分享与数据安全都不能缺

“从用户角度来说,ZEAMAP极大降低了用户对周围组学、数据挖掘的时间成本。”华中农业大学教授李林主要利用生物大数据进行玉米株型建成分子机制研究,他指出,目前全球已有的几乎都是单一组学大数据库,ZEAMAP则在一定程度上实现了多维组学大数据之间的联系,立足于完整反映遗传信息的整个链条,超越了存储层面的数据库。

严建兵进一步解释说:“我们收集、整合的同时,还做了很多关联分析。如果你做了基因组学的实验,那么通过与代谢组学或遗传组学的结果比对,可以查验你的结论受到支持还是反对。对于入门研究者来说,可以清晰明了地看到,其他学者已经做过哪些相关研究。”

也就是说,该数据库可以帮助学者直观了解到,他们感兴趣的基因与附近的哪些遗传变异有关联,同时也可以根据这些遗传变异和相关表型的遗传定位结果,去寻找可能的遗传变异 基因表达 表型改变之间的关系。

据不完全统计,已有超过60个国内外实验室所使用严建兵课题组资源,产生了一大批基础研究成果。“即便不是我们自己产出的成果,但是数据和种质资源的分享,对于农作物的遗传改良、作物育种非常重要。”严建兵认为,其他学者利用这些资源做出了更优秀的研究成果,对整个玉米研究领域的发展都是非常有益的。

而对于由中国学者建立生物组学数据库的必要性,李林提及一次事件。去年上半年,由于美国政府预算未被国会批准,美国政府相关机构停摆,美国玉米基因组和遗传学数据库(www.maizeGDB.org)被关停,导致研究者无法及时获取完整数据。类似事件远不止于此。

“学界缺乏能够真正服务于中国作物学研究的数据库。”李林强调,“如果能够具有多样化的选择,那对数据安全、研究的方便程度都会更有利。”

维护更待持之以恒

李林也正在尝试在他的领域建立网络大数据库,深知其中不易:“大数据时代,信息很多也很全面,但同时也会带来噪音,整合起来非常麻烦,严建兵课题组是通过10年积累、多位研究人员、研究生接力实现的。而数据库搭建完成后,对其维护更新也是件持之以恒的事。”

对此,严建兵坦陈,在国际上一些成熟数据库会有专职人员进行维护,从几人到几百人的规模都有。而国内无论从项目体系还是评价体系,都暂时没有相应支持,做数据库只能靠兼职。“研究人员搭建数据库,不仅要具备深度的专业知识,能够对基因、转录、蛋白等组学的数据等进行挖掘分析,还要对计算机语言、数据库搭建规则等有所掌握。”

从另一个角度看,搭建生物组学数据库,不仅是促进科学事业发展的公益性工作,同时也是培养交叉学科人才的过程。第一位帮助严建兵从零开始搭建数据库的博士研究生刘海军,目前已经在奥地利科学院格雷戈尔·孟德尔研究所从事博士后研究。

桂松涛接触生组学数据库工作一年半时间,钻研了许多搭建工具,从做实验慢慢转到做生物信息,经历了收获也经历了许多尝试和妥协。

“搭建数据库与传统科研工作有很大差别,不仅要解决技术上的问题,还要考虑展示逻辑,考虑用户对数据的了解程度,以及用户体验。数据库平台在简单、直观、易用的同时,最好还要尽量美观。”桂松涛说。

“我们期待这一云端集成检索,能有效促进现有玉米组学数据资源的利用率,帮助科学家深入理解玉米遗传变异、表型和基因之间的关系,辅助玉米的遗传育种和改良。”严建兵团队已经发出邀请,期待学者们上传数据,共同完善该数据库。

相关论文信息:https://doi.org/10.1016/ j.isci.2020.101241

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
研究或摆脱光子时间晶体对高功率调制依赖 利用量子精密测量技术开展暗物质搜寻
天文学家找到最小恒星了吗 问答之间 | 如何开展科研之路
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文