科学网—研究探讨RNA-seq数据分析方法

作者：Manfred G Grabherr 来源：《自然—方法学》发布时间：2011-6-7 13:29:34

选择字号：小中大

研究探讨RNA-seq数据分析方法

高通量RNA测序（RNA-seq）有望描绘出转录组的整体图像，实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降，以及个人化测序仪的上市，更多的实验室有机会尝试这种新技术。

然而，测序之后的数据分析才是真正的挑战。在RNA-seq之后，还需要一些强大的计算工具，才能绘制出完整的转录组图谱。在这一期的《自然—方法学》（Nature Methods）上，来自MIT和哈佛Broad研究院的研究人员发表了一篇综述，介绍了转录组注释和定量的计算方法。

首先，他们介绍了一些方法，将读数与参考转录组或基因组直接比对。之后，他们讨论了鉴定表达基因和亚型的方法。最后，他们还介绍了一些方法，来预计基因和亚型的丰度，以及分析样品间的差异表达。

由于RNA-seq数据生成的不断改善，现有计算工具的发展有着很大差异。在某些领域，如读数定位，有多种算法存在，但在差异表达分析上，解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异，以及它们在RNA-seq分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。

为了方便读者参考，他们还将现有的方法列成了一张表，注明了它们的原理和用途。另外，他们精选了一些有代表性的方法，应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。

数据比对是RNA-seq分析中的一项基本任务，然而也面临着一些挑战，比如数据量大，读数很短（36-125 bp），错误率可观，且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法，作者将其分成“unspliced read aligners”和“spliced aligners” 两类，并分别介绍。

转录组重建也是个很困难的任务，因为基因表达差异很大，且读数可能来源于成熟的mRNA，也可能来源于未完全剪接的前体RNA，这样就很难鉴定成熟的转录本。当然，读数短也为分析带来了困难。目前的转录组重建方法主要有两类，一类是基因组指导的，另一类是不依赖于基因组的。作者比较了这两类方法，并具体介绍了每一类下面的几种方法。

至于转录组的图谱分析，DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时，需要将读数适当地标准化，才能提取出有意义的表达预测值。作者介绍了一些方法，来预计基因和亚型的丰度，以及分析样品间的差异表达。

作者还提到，随着测序技术的成熟，如读长不断增加，现有的计算工具需要发展，也能满足新的需求，同时新工具也会不断出现，满足新的应用。（来源：生物通薄荷）

更多阅读

《自然—方法学》发表论文摘要（英文）

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
从零开始学！手把手教你画水凝胶结构科学网2026年3月十佳博文榜单公布！ “植物转向”的哲学反思：从人类中心到植物思维的辩证审视鸟儿不怕酸，但鸟儿更喜欢甜原子核：强相互作用和量子力学为质子和中子谱写的神曲 AI是在用幸存者偏差预测未知世界吗？更多>>