一朵棉花里藏着从育种到加工的全产业链升级密码。
 
在新疆广阔的棉田里,棉农们最关心的是棉花的纤维品质和产量,近年来由于粮食安全的重要性,棉籽的品质也备受关注。过去,这些性状的改良更多依靠经验和运气。如今,中国农业科学院棉花研究所(以下简称中棉所)多个研究团队合作,利用多组学数据,首次系统解析了棉花胚珠发育早期代谢网络与调控基因的动态互作机制。
 
 
 
 
 新疆棉花。中国农科院棉花所供图 
  
 
这一研究成果11月3日在线发表于《自然—遗传》杂志,研究揭示了MYB基因家族成员在陆地棉驯化过程中的调控枢纽作用,直接影响棉花最终的纤维长度、颜色以及棉籽的功能成分等性状,为未来面向棉花资源全值高效利用多应用场景的精准分子育种提供了全新的理论视角和数据支撑。
 
小小棉籽的秘密
 
在棉花花朵的子房里,包含着多个将来会发育成棉籽的胚珠。
 
当棉花开花授粉后,这些胚珠的表皮细胞会开始“分化”。其中,一部分细胞会向外突起、伸长,最终发育成用来纺纱织布的棉纤维,俗称皮棉。而胚珠本身在受精后则发育成棉籽。
 
棉纤维是棉花的主产品,用于纺织工业。而棉籽传统上被视为副产品,但它浑身是宝:棉籽仁可以榨取棉籽油,是一种重要的食用植物油;榨油后的残渣(棉籽粕)是优质的蛋白质饲料原料。
 
棉纤维的发育和种子的发育是同时进行的。它们共享着来自母体植株的营养和能量。
 
“和动物胚胎一样,很多重要的表型在植物胚胎发育早期就已经决定了。”论文共同通讯作者、中棉所研究员杜雄明介绍,棉花最具经济价值的器官就是纤维和种子(即棉籽),这项研究聚焦于棉花开花后5天的胚珠,因为胚珠发育早期正是纤维细胞分化凸起和快速伸长、种子开始发育的关键重叠时期。
 
前期大量研究表明,此时是基因表达最活跃的时期之一,大量影响纤维和种子最终表型的基因均在这个时期集中表达,代谢活动也极为旺盛,决定了后续纤维的产量、品质(如长度、强度)和种子的营养价值(如油脂、蛋白质含量)。
 
论文共同通讯作者、中棉所研究员何守朴说,研究切入点的选择体现了团队对棉花生物学特性的深刻理解。“纤维细胞的起始和伸长、棉籽营养成分的积累等重要生物过程,都在这个阶段奠定基础。”
 
“在我们开始这项研究之前,纤维发育遗传和分子机制是棉花基础研究领域最活跃的领域,鉴定到一大批关键基因,对纤维发育至关重要。但是对棉籽发育研究相对较少。”论文共同通讯作者、中棉所研究员马磊说。
 
实际上,生物表型形成是一个多层级精细调控的复杂过程,包括了从核苷酸序列到基因、蛋白,再到代谢物,最后到表型的过程。何守朴强调,代谢物是较基因和蛋白更“接近”最终表型的指标。
 
他说,代谢组就是“基因—蛋白”与“表型”之间的“黑箱”。但过去的研究大多针对序列、蛋白、基因和表型独立开展,不同层级之间的关系也不清楚。“我们团队前期积累了大量的序列、基因和表型数据,只要摸清代谢物这个‘黑箱’,就可以绘制出一个早期胚珠和纤维发育的完整图谱。”何守朴说。
 
研究团队采用了大样本多维度组学分析策略,对403份陆地棉种质资源花后5天的胚珠开展整合分析。这种大规模、多维度的研究方法在棉花研究领域并不多见。
 
基因“总调度员”和它的“开关”
 
经过五年攻关,研究团队取得了一系列突破性发现。他们成功鉴定出2960个代谢数量性状位点(mQTL)和24485个表达数量性状位点(eQTL),构建了目前棉花领域最全面的“变异组—转录组—代谢组—表型组”数据库。
 
“可以把我们的研究比作获得了棉花群体早期胚珠较完整血液化验单。”论文共同通讯作者、中棉所研究员崔金杰形象地比喻道,基因序列像人的先天体质,基因表达像机体对环境的即时反应,而代谢组就是那张“血液化验单”。化验单上的每一项指标,都是身体运行状态的直接读数,能把上游的基因指令与下游的可见“症状”(表型)连接起来。
 
他们对成百上千个代谢物做系统“化验”,并与基因表达变化和最终表型逐一对照,找出哪些指标异常、对应哪条通路、可能源自于哪些关键基因。
 
他们在A07染色体上发现了一个重要的数量性状“热点”,大量的代谢物含量都与这个位点相关。论文第一作者、中棉所已毕业博士生张小萌连续数周熬夜处理了数千份棉花重测序数据,通过反复比较和团队讨论,最终确定了这个热点区域中,候选基因GhTT2_A07在棉花纤维驯化过程中的关键角色。
 
“这个基因如同代谢网络的总调度员。”张小萌介绍,“它原本在拟南芥中控制棕色种皮的形成,而在棉花里功能更复杂,不仅参与纤维着色,还调控脂肪酸和激素代谢。”GhTT2_A07基因表达量高了,棉纤维就表现出“短而棕”;反之则表现出“长而白”。这一发现可能解释了棉花从有色野生种驯化为白色栽培种过程的关键分子机制。这一结果让整个团队都非常兴奋。
 
在GhTT2_A07基因上游,他们还发现了一个约520Kb的基因组倒位,这个结构变异如同基因表达的“开关”。它改变了GhTT2_A07基因的启动子结构,让该基因在棕色纤维中活性增强,在白色纤维中降低。马磊解释,这一发现也提示,棉花从有色野生种驯化为白色栽培种时,基因组结构变异是关键机制之一。
 
此外,他们还发现了GhTT2_A07的一个“兄弟”基因——GhPAR。这两个基因同为MYB家族成员,但存在明确的功能分工:GhTT2_A07在纤维起始和伸长阶段活跃,广泛影响着多种类黄酮类型,以及纤维品质和衣分;而GhPAR主要在胚珠早期发挥作用,主要调节原花青素类物质。
 
何守朴解释说,棉花的衣分是一定量籽棉经过加工后生产出的皮棉与籽棉的重量比。衣分是衡量棉花产量的关键,也是棉花生产效益高低的标志,生产上衣分成为筛选棉花品种的首要指标。
 
“这种‘功能冗余保障+时空表达特异性’的机制,既保证了代谢稳定性,又为不同性状的精准调控提供了灵活性。”何守朴说。
 
从“种什么卖什么”到“要什么种什么”
 
“基于海量代谢组数据,我们系统收录了棉籽发育早期关键代谢物信息,结合成熟种子的营养常规评价,构建了可直接服务于下游产业的棉籽代谢物数据库。它就像一份详尽的棉籽分子成分说明书,清晰记录不同品种棉籽中油脂、蛋白质及关键代谢物的含量信息。”马磊告诉《中国科学报》。
 
育种家可借助数据库精准定位控制出油率和蛋白质合成的关键基因,通过分子标记技术定向选育专用棉花品种;而下游棉籽加工企业则能依据数据库中的成分数据,针对性挑选功能成分组成理想的棉籽原料。
 
“这项研究将为棉花分子设计育种带来的最大变化是让育种从经验型变成精准型。”杜雄明说,通过系统分析,人们可以更加深入地理解不同性状之间的关系以及背后的调控机制,最终可以权衡利弊,像“搭积木”一样,组合不同的关键基因,兼顾纤维品质、产量和棉籽营养价值。
 
何守朴解释道:“我们将根据纺织企业和棉籽加工企业的多元化需求,直接筛选携带不同基因配方的种质供育种家利用,定向培育出符合市场需求的棉花品种,真正实现从‘种什么卖什么’到‘要什么种什么’的产业变革。”
 
基础研究与产业需求深度融合是团队一贯坚持的研究理念。回顾多年的研究历程,团队表示最难的阶段是整合403份棉花样本的基因、代谢物和性状数据,信息量巨大、关系错综复杂。而最让人兴奋的时刻是锁定GhTT2_A07基因和它上游的520Kb倒位,这一发现正好解释了棉花纤维颜色、长度和代谢物含量等多个性状的形成机制,为理解棉花纤维的驯化提供了重要的证据。
 
“我们计划利用这个数据库和发现的关键基因,更加深入地分析这些基因如何协同调控纤维产量、品质和种子性状的形成,同时将数据共享,供其他研究者进行更深入的分析。”杜雄明说,农业基础研究归根到底还是要先到实践中去找问题,只有深度参与和了解产业问题,才能更高效地将科技转换为田间的实际生产力,服务国家农业需求。
 
相关论文信息:https://www.nature.com/articles/s41588-025-02363-3
 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。