|
|
QB 中国科学院数学院李雷团队发现人类从顺式调控模块跳变获取智能 |
|
论文标题: The human intelligence evolved from proximal cis-regulatory saltations
期刊:Quantitative Biology
作者:Xiaojie Li, Jianhui Shi, Lei M. Li
发表时间:03 January 2025
DOI:https://doi.org/10.1002/qub2.88
微信链接:点击此处阅读微信文章
“什么基因变化让我们成为独特的人类?”是《科学》期刊在建刊125周年之际提出的25个最重要的问题之一。“借助进化之光,生物方可理解”,依据多布赞斯基教授的这一论述, 比较现存类人猿物种的基因组是理解人类进化的有力工具。在人类与黑猩猩可比对的基因组DNA序列中,核苷酸水平的分歧率仅为1.23%, 这难以解释它们之间的巨大性状差异,特别是智能上的差异。在人工智能蓬勃发展的时代,我们对人类自然智能仍缺乏全面的认识。
King 和 Wilson在1975年提出,生物表型差异的线索可能存在于基因调控之中。转录调控是一个涉及多环节的复杂过程,关键步骤是顺式元件与转录蛋白的相互作用。由于转录因子蛋白的结构在相近物种之间相对保守,顺式调控序列的改变被视作进化和适应的重要遗传基础。尽管这一观点得到了许多案例研究的支持,但至今仍然缺少一个能够解释人类与类人猿表型差异的系统性分子模型。
近期,中国科学院数学院李雷团队在Quantitative Biology发表了题为"The human intelligence evolved from proximal cis-regulatory saltations"的研究文章和作为导读的评论文章,该文报道人类独特的认知和智能,很大程度上可以通过全基因组顺式调控元件频数(CREF)矩阵构建的特征模块所识别。从猿到人,第4级和第9级的CREF转录调控模块发生了跳变。人类特有的认知和智能包括:长期记忆,基于特有耳蜗形态生成的语言与音乐能力,视觉、观察和关联学习能力,探索行为,社会行为,以及与智能相关的睡眠机制。

全文概要
人类与黑猩猩可比对基因组DNA序列之间的分歧率仅为 1.23%。为了探索用基因调控解释二者的表型巨大差异,作者采用顺式调控元件频数(CREF)矩阵表征各物种的近端调控序列,并将每个 CREF 矩阵分解为双重特征模块。通过比较四种现存类人猿物种的 CREF 模块,作者从系统生物角度观察到调控元件在进化中的量变与质变。研究发现两个关键的跳变事件:一个发生在第 4 与第 5 特征水平之间,另一个发生在第 9 与第 10 特征水平之间。这些分子层面的跳变揭示了人类特有的认知与智力特征,包括:长期记忆,支持语言和音乐发展的特有耳蜗形态发生,维系和平共处与协作的社会行为,视觉 / 观察 / 联想学习能力。此外,作者还发现有:驱动创造力的探索行为,保护神经元的GABA-B 受体激活机制,调节幸福感的血清素生物合成 / 信号通路。在第 4/9元件特征向量上,Alu转座子携带的调控元件数量显著增加。尽管蛋白质序列进化遵循渐变模式,但基因调控可以通过模块跳变实现认知功能的跨越式进化。CREF 框架无需先验知识,即可从调控序列中解析出人类特有认知特征。为基因调控进化研究提供了新的量化范式。
1. 顺式调控元件频数 (CREF)矩阵
顺式调控元件(CREs)是一类特异性短序列非编码 DNA,长度通常为 6—15 bp,负责调控邻近基因的转录过程。CREs 广泛分布于启动子、增强子、沉默子等调控区域中。顺式元件可被转录因子(TF)特异性结合。尽管转录因子的蛋白质结构在近缘物种间高度保守,但DNA 顺式元件的物种间变异较为显著。顺式元件相关突变应该是基因调控机制进化的重要驱动力。
顺式元件通常由位置权重矩阵(PWM)表示,该矩阵反映了序列中各位置碱基的概率分布。本研究选用TRANSFAC 数据库,并借助其配套的MATCH 程序系统地搜索转录因子和顺式元件的潜在结合位点。
转录调控的核心在于启动过程,该过程发生于转录起始位点附近。本研究聚焦于基因5’端近端调控区域。该区域不仅包含基因的启动子,还常涵盖第一个内含子。将所有蛋白质编码基因调控区域的顺式元件计数整理为以基因为行、顺式元件为列的矩阵,作者称之为物种的顺式调控元件频数(CREF)矩阵(参见图 1A-D)。

图1:构建 CREF 矩阵的流程图。A.选择顺式元件数据库。本研究选择TRANSFAC 数据库的 1403 个顺式元件,它们由位置权重矩阵(PWM)表示,通过序列的 logo 可视化。B.提取蛋白质编码基因的近端调控序列。近端调控序列定义为转录起始位点(TSS)上游-1000 bp至下游+500 bp的区域。对于具有多个注释转录本的基因,选择其5’端最上游转录本的起始位置作为 TSS。C.搜索近端调控序列中的潜在顺式元件和转录蛋白结合位点。本研究使用MATCH 程序进行搜索,阈值参数设置为minFN(最小化假阴性)。D.构建物种特异的元件计数矩阵。将计数结果整理为以基因为行、元件为列的矩阵,称为顺式调控元件频数(CREF)矩阵。本研究的定量及系统生物学分析均基于该矩阵。
2. 双重特征分析定义的调控模块
不同物种间 CREF 矩阵的变异主要来源于以下类型(图 2A):单核苷酸多态性(点突变)、短串联重复、转座子元件插入、转录起始位点(TSS)移位等。转座子等重复序列在人类全基因组中的占比高达52.1%,变异所涉及序列也很广泛。
每个CREF矩阵通过双重特征表示来解析。双重特征分析包括分解与整合两个步骤(参见图 2B-C)。在分解步骤中,通过将CREF 矩阵嵌入到低维结构中,理解它背后的调控机制,因此需要使用标准降维工具—奇异值分解(SVD)。作者将奇异值按照降序排列,每个奇异值关联一对基因特征向量和元件特征向量。接下来,作者通过按载荷降序排序对基因特征向量与元件特征向量进行极化处理。排序后的特征向量分别称为极化基因特征向量和极化元件特征向量。由于基因和元件的个数多,特征向量的绝大多数载荷接近于零,仅需关注它们两极的基因与调控元件。在每个特征水平上,极化基因特征向量、极化元件特征向量与奇异值共同构成一个双重特征模块。

图2:CREF双重特征分析示意图。A.顺式调控元件变异来源。遗传变异包括单核苷酸多态性(SNP)、短串联重复(STR)和转座子元件插入。具有功能调控作用的转录起始位点(TSS)移位也会导致 CREF 矩阵变异。B. CREF 矩阵分解流程。通过稳健奇异值分解(SVD)将物种特异的 CREF 矩阵分解为多个双重特征模块,随后对基因特征向量和元件特征向量进行极化处理(按载荷降序排序)。极化后的基因与元件特征向量的乘积呈现棋盘格模式。C. CREF 模块整合分析。整合过程主要包括三步。稳定性分析:采用相邻奇异值间的相对距离评估模块稳定性;相关性分析:计算顺式元件特征向量间的关联性;统计推断:富集分析各模块对应的分子通路与生物过程。
3.从猿到人调控模块的跳变
双重特征模块的稳定性大致与相邻奇异值间的相对距离成反比。作者对比了人类、黑猩猩、倭黑猩猩和大猩猩的CREF双重特征模块,发现前3个和第6个CREF模块高度保守。然而,在第4和第5级之间,以及在第9和第10级之间,CREF模块发生了 "跳变”(saltation)。跳变由元件特征向量的显著旋转所揭示。特征向量旋转是由相邻奇异值退化或相等导致的。实际上,人类的第4和第5级之间、第9和第10级之间的相对距离分别低至1.7%和 1.0%(图3)。这种跳变产生了人类特有的第4和第9 CREF转录调控模块。

图3:人类与三种猿类的第 4/5 和第 9/10 元件特征向量的旋转角度,以及前 10 层相邻调控模块间的相对距离。底部:与三种猿类相比,人类第 4 与第 5 特征模块间的相对距离仅为1.7%,第 9 与第 10 特征模块间仅为 1.0%,显著低于其他猿类的相邻水平。相邻奇异值间的相对距离较大表明模块保守。顶部:三种猿类的第 4/5 元件特征向量旋转角度介于 31°至 53°,第 9/10 元件特征向量旋转角度介于 34°至 52°。较小的相对距离与较大的旋转角度共同表明:人类第 4/5 和第 9/10 模块发生了跳变。
4.人类特有的认知和智能
针对每一个基因特征向量,作者运用基于秩的 Wilcoxon 检验开展富集分析。结果显示,在第4和第9 CREF转录调控模块中,统计显著的富集生物过程很多都与认知和智力相关。图4汇总了这些认知和智能细节。
根据CREF 分析,至少有四个分子证据支持人类获得了增强的长期记忆能力。首先,“突触可塑性调控”是在人类第4基因特征向量显著富集的生物过程,而突触可塑性被认为是记忆存储的基础机制之一。其次,涉及 Schaffer侧支-CA1突触的大量基因在人类第9基因特征向量中排名前1500位。Schaffer侧支是海马体中依赖事件的可塑性和记忆动态发展的关键通路。第三,“少突胶质细胞分化调控”这一生物过程在人类第4基因特征向量显著富集,而“髓鞘维持”则在人类第9基因特征向量显著富集。近年来的研究表明,依赖事件的髓鞘形成对记忆巩固和回忆起重要作用。髓鞘轴突是白质的主要组成部分,人类前额叶白质体积相较于其他灵长类动物不成比例地更大。研究人员最近证实,与小鼠相比,家犬在前额叶皮层和海马体中高水平且持久表达髓鞘蛋白的模式更接近人类,并以此解释了人类和家犬在社会性与认知能力上的相似性。第四,转录因子 CEBPG 可以与 CEBPB 形成稳定的异源二聚体,而 CEBPB 是突触可塑性和记忆形成的关键调控因子。CEBPG 在人类第9基因特征向量中排名靠前,其启动子区域含有一个人类特有的 AluYa5 转座子插入。综合多种证据,长期记忆是人类通过调控跳变获得的核心智能特征。

图4:人类在第4、9 CREF 模块中的智力特征汇总。第 4 模块涵盖长期记忆、语言与音乐、社会行为、学习能力、交感神经系统及轴突;第 9 模块涵盖长期记忆、语言与音乐、学习能力、突触、血清素及轴突发生。值得注意的是,仅人类第 4 和第 9 CREF 模块发生显著跳变,其余模块在现存人科物种中相对保守,特别是在黑猩猩/倭黑猩猩与人类之间更加保守。智力功能按颜色分组,其表型由GO(Gene Ontology)、KEGG(Kyoto Encyclopedia of Genes and Genomes)和 Reactome通路数据库定义。这些通路的具体基因详见文章中表 1、表 2、表 S2 及表 S3。
口语的运用无疑是人类所拥有的一种智能。在早期发育阶段,幼儿需要先听到他人讲话的声音,进而学习理解这些声音并学会自己讲话。在进化过程中,人类耳蜗的大小、位置和方向发生了细微的变化。CREF分析表明,耳蜗发育是新出现的人类第4和第9基因特征向量中的关键生物过程。除了语言之外,音乐是人类文明的重要组成部分。目前尚不清楚语言还是音乐先进入人类生活。音乐的演化可以通过考古发现的不同历史时期的乐器来体现。在德国发现的骨笛可以追溯到至少40,000年前。乐器的发展反映了人类听觉能力的进化。耳蜗和内耳在语言和音乐中具有重要意义,但在人类进化与智力的研究中,对耳蜗和内耳发育尚未得到足够关注。
在人类第4基因特征向量中,相当一部分基因与社会行为以及行为约束相关。这表明社会行为是自然选择的产物。诚然,人类的社会行为在一定程度上是由传统和教育塑造的。例如,在中国文化中,"克己复礼为仁"这一教诲被记载在可追溯到公元前200年的经典著作《论语》中。新的分子遗传发现表明,与社会行为相关的基因在人类中通过转录调控表达得更多,这意味着社会行为至少部分已经编码在人类现有基因组中。理性的社会行为促使人类能够构建起诸如法治社会、商业社会、学术社会等各类社会形态。通过这些社会,集体智慧得以产生,并随着时间借助长期记忆逐渐积累。
和通常与特定性状相关的蛋白质基因不同,CREF 模块的跳变在转录水平上重组了大量基因。如果一个模块内的基因在发育过程中确实能够协同转录,那么不同性状的组合可能由此产生。例如,绝对音高是无需任何外部参照即可识别或产生一个音符的能力,它是两个性状的组合:识别音符音高的能力,以及在长期记忆中保留内部参照音准的能力。据报道,约一万人中仅有一人具有绝对音高,尽管这种能力极为罕见,但绝对音高确实已在人类群体中存在。
5.跳变的驱动力部分来源于ALU和SVA所携带的顺式元件
转座子ALU和SVA各携带一组順式调控元件,它们插入在调控区域,对順式元件的改变作用不是单个的,而是组合式的。在第 4/9元件特征向量上,Alu 转座子携带的调控元件数量显著增加。正文中作者给出了人类特有的ALU和SVA插入的具体例子。
6. 讨论
达尔文并未否认跳变的存在,但他主张大多数进化是渐变发生的。与牛顿将力学数学化不同,达尔文并未将其发现和观点构建为数学理论。R. A. Fisher 等后继者提出的费希尔-赖特模型(Fisher-Wright model)给群体遗传学奠定了基石。随后,扩散方程被引入以计算种群中基因频率的分布。群体遗传学的重要进展还包括溯祖理论(coalescent theory)等。
基于这些群体遗传学的随机模型,研究者开发了研究自然选择的统计检验方法。20 世纪 60 年代,木村资生(Kimura)等人发现:物种内及物种间的大部分遗传变异源于选择性中性或近中性等位基因的随机漂变。这些发现构成了分子进化的中性理论。
尽管存在丰富的支持渐变论的数学理论,但近缘物种表型的跳变现象确实存在,人类智力便是例证。现有文献中存有多种描述性的跳变概念,而CREF 调控模块是首个解释物种跳变的数学理论。从图5可见,基于蛋白质序列构建的人类、黑猩猩、倭黑猩猩与大猩猩的系统发育树与基于调控 DNA 序列构建的系统发育树并不相同。

图 5. 基于蛋白质序列与近端调控序列的人类与四种猿类系统发育关系。左侧为基于蛋白质序列构建的系统发育树,分支上标注物种分离时间;右侧为基于近端调控序列第 4、9 CREF 模块构建的系统发育树,分支上标注调控模块跳变发生位置。
QB期刊介绍
Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。