当前位置:科学网首页 > 小柯机器人 >详情
科学家完成单细胞基因组学中图谱级数据集成的基准测试
作者:小柯机器人 发布时间:2021/12/26 14:42:11

近日,德国亥姆霍兹慕尼黑环境与健康研究中心Fabian J. Theis、M. Colomé-Tatché等研究人员合作完成单细胞基因组学中图谱级数据集成的基准测试。相关论文于2021年12月23日在线发表在《自然—方法学》杂志上。

研究人员表示,单细胞图谱通常包括跨越地点、实验室和条件的样本,导致数据中出现复杂的批次效应。因此,图谱数据集的联合分析需要可靠的数据整合。
 
为了指导整合方法的选择,研究人员对来自23个出版物的85批基因表达、染色质可及性和模拟数据进行了68种方法和预处理组合的基准测试,总共代表了分布在13个图谱级整合任务中的120万个细胞。研究人员根据方法的可扩展性、可用性以及它们在保留生物变异的同时去除批次效应的能力,并使用14个评价指标进行了评估。结果表明,高度可变的基因选择提高了数据整合方法的性能,而扩展性则促使方法优先考虑批量去除而不是保留生物变异。
 
总的来说,scANVI、Scanorama、scVI和scGen表现良好,特别是在复杂的整合任务上,而单细胞ATAC测序整合性能受特征空间的选择影响很大。研究人员免费提供的Python模块和基准测试管线可以为新数据确定最佳的数据整合方法,对新方法进行基准测试并改进方法的开发。
 
附:英文原文
 
Title: Benchmarking atlas-level data integration in single-cell genomics

Author: Luecken, Malte D., Bttner, M., Chaichoompu, K., Danese, A., Interlandi, M., Mueller, M. F., Strobl, D. C., Zappia, L., Dugas, M., Colom-Tatch, M., Theis, Fabian J.

Issue&Volume: 2021-12-23

Abstract: Single-cell atlases often include samples that span locations, laboratories and conditions, leading to complex, nested batch effects in data. Thus, joint analysis of atlas datasets requires reliable data integration. To guide integration method choice, we benchmarked 68 method and preprocessing combinations on 85 batches of gene expression, chromatin accessibility and simulation data from 23 publications, altogether representing >1.2 million cells distributed in 13 atlas-level integration tasks. We evaluated methods according to scalability, usability and their ability to remove batch effects while retaining biological variation using 14 evaluation metrics. We show that highly variable gene selection improves the performance of data integration methods, whereas scaling pushes methods to prioritize batch removal over conservation of biological variation. Overall, scANVI, Scanorama, scVI and scGen perform well, particularly on complex integration tasks, while single-cell ATAC-sequencing integration performance is strongly affected by choice of feature space. Our freely available Python module and benchmarking pipeline can identify optimal data integration methods for new data, benchmark new methods and improve method development. This benchmarking study compares 16 methods for integrating complex single-cell RNA and ATAC datasets and provides a guide to method choice.

DOI: 10.1038/s41592-021-01336-8

Source: https://www.nature.com/articles/s41592-021-01336-8

期刊信息

Nature Methods:《自然—方法学》,创刊于2004年。隶属于施普林格·自然出版集团,最新IF:28.467
官方网址:https://www.nature.com/nmeth/
投稿链接:https://mts-nmeth.nature.com/cgi-bin/main.plex