育种的本质
作者简介:王向峰,中国农业大学作物基因组与生物信息学系教授,国家玉米改良中心研究员。本文是王教授在南北学院微信区发表的观点及张红伟老师的补充,内容非常精彩,值得仔细品读。基于现有的生物技术和IT技术,才能使我国的育种实现跨越式发展,越到后来,越需要对育种分子本质的理解!
育种是利用杂交重组对有利等位基因及遗传变异进行组合,产生以供人工选择的目标性状。需要强调的是:“有利”与“有害”是相对是否有利于性状的改进目标而定义的,两者并非绝对的对立;相反“有利”与“有害”会根据群体、环境、性状、发育时期的不同而转换。在研究中,我们更倾向于用“强基因型”与“弱基因型”区分两种类型的变异,以表示对性状改良的贡献强度。本文为了理解上的方便,延用“有利”和“有害”区分变异的种类。
普通农艺性状改良是“偶然性”远大于“必然性”的过程,基于以下五点原因:首先,有利变异往往是频率较低的DNA突变,因此需要通过发展群体规模才能提高有利变异在群体中的频率;其次,有利变异往往与有害变异连锁,需要在群体规模足够大、重组十分充份的条件下,才有可能筛选出与有害变异打破连锁的有利变异;第三,数量性状往往由多基因决定,聚合多个基因的多个低频率有利变异组合所需的群体规模更是成指数性增长;第四,目标性状的提升往往是作物整个发育过程中,各个发育时期分子调控模块的协同作用的结果,筛选有利变异组合模块的组合,则需要多次重复“建立群体、筛选材料”这一过程而实现;最后,杂种优势中“上位性抑制”遗传效应犹如“障眼法”,可导致有利变异组合的功能发挥受到负调控作用,有利表型难以表现,依靠肉眼观察性状则错失优良材料。这还仅仅是针对产量、株型等普通农艺性状的改良,如若加上各种抗性的改良,不得不说育种的的确确是一个非常艰苦,花费巨大,并且需要很强毅力的职业;同时,还要有上天眷顾的运气。
目前,国际种业向着“多技术融合型加速育种技术体系”的方向上发展。加速育种(AcceleratedBreeding)不是单指某一项育种技术,而是指多层面、跨学科的技术融合,重点强调的是育种体系的顶层设计,以数据和模型为驱动衔接各个育种环节,形成闭环链条。这些技术涵盖单倍体诱导、快速育种、人工气候模拟器、全基因组选择、分子标记选择、机器学习、数据决策模型、图形图像表型组、转基因、基因编辑、合成生物学等诸多方面。多技术的融合无非就是解决两个方面的问题:第一,快速、低成本地创制自交系,扩大群体以提高有利变异组合的频率;第二,依靠基因型精准、定向筛选携带有利变异组合的育种材料。但是,如果缺乏对育种理论、遗传机制、基因功能的深入了解,仅依靠引进国外先进设备的“拿来主义”,也是很难实现精准、高效的工程化育种。与各位一线育种家“由外向内”认识育种规律不同,本人主要从事育种数据分析、育种模型构建、基因资源挖掘等基础性研究工作,对育种有一些“由内向外”的粗浅认识,希望能对各位育种家的具体工作有所启示和帮助。
(张红伟老师的补充:可能存在三种情况,一是模仿育种,比如定向改良先玉335的抗倒性,如果有对抗倒伏材料的筛选和遗传和分子机制的了解,定向将抗倒伏供体的抗倒伏基因导入到先玉335的一个亲本,从而利用分子育种技术快速地进行改良。第二个种情况是,育种家一般手里都会有好几个不错的tester,一般都是固定其中一个tester,来筛选与该tester配合最好的选材。创新性强的轮回选择,需要利用大量的育种材料来组配方案,实际上就是预测那种基因型组合(a mosaic combinationof chromosome segment from many donors)跟这个材料配合最好,这个预测上很难,但是随着预测技术和大数据机器学习等技术的发展,以后会实现的。第三种情况是最难的创新,没有固定的tester,就是要从一堆育种资源中筛选哪种基因型组合跟另一种基因型组合、组配最合适,这个是最难度大的。最后所有技术的评价标准就是F1的表现,根据推测出来的基因型组合,设计育种方案来达到或者无限接近获得这种基因型组合的材料。)
李竞雄先生对玉米杂种优势育种最为精辟的总结是“难在选系,重在组配,中心是配合力问题。”本文结合我们在玉米育种理论研究中总结出来的一些规律性的东西,诠释上述三点在分子层面的本质,以及应用什么样的生物技术或决策模型加速育种进度、缩短育种周期。
一、新型种质资源的创制。我国育种领域面临着遗传范围日趋狭窄的问题,缺乏自主知识产权的新型优异种质是我国种业发展的瓶颈。将我国地域适应性强的优异骨干材料与引进种质进行融合,结合单倍体诱导与基因组优化设计模型是实现快速种质资源创新的途径。可以选择10到20个来自国内外不同杂种优势群、遗传多样性高、优异性状互补的骨干自交系作为基础材料混合杂交建立群体,再逐步选系。基础材料进行全基因组重测序后鉴定全基因组范围的变异位点,近而可以用来推测哪些基础材料的基因组片段受到高频率的选择,并保留在高世代群体中。此为基因组优化设计模型创制种质的数据基础。我们的研究发现,高世代群体中的自交系80%左右的基因组组分是由3~5个基础材料提供的。这些材料主要是由综合性状好、配合力广泛的国内老牌自交系组成,但其杂交种的产量并不是最高的。这说明老牌自交系可能提供的是具有广泛环境适应性的遗传背景。另外20%的基因组组分则是来自其他较新的骨干自交系。这些自交系各自提供1%~3%左右的不等的基因组片段;且随着测验种的不同,提供片段的比例也会有的差异。这说明了两个问题:第一,老牌自交系仍有较高的发掘价值,是保证广泛地域适应性与基本配合力的遗传背景基础;第二,新的自交系往往提供的是优秀的遗传前景,即对提高产量与近一步提高配合力有利的基因。
(张红伟老师的补充:种质资源的引进和建立是非常重要的问题,每个育种家都非常关心,主要关心两个问题,一是用什么材料来创制,比如本段提到的老牌材料用谁新材料用谁,这一点目前主要是根据育种家的经验来决定的,未来我们怎么用数据来决定,如何决定用谁不用谁,以谁为主,来改良谁。二是如何创制,即创制方法的问题,育种家在做这个决定的时候存在一定的主观性,有人选择BC1回交改良,有人选择不断自交选系,稳定后测配,有人选择以其中一个亲本为主多供体亲本为辅的轮回改良。主观性意味着缺乏科学决断,既是低效率。那未来能不能利用大数据进行精准设计,数据分析师直接告诉育种家哪种方案是最好的,按照这个方案来就可以了。)
二、杂种优势模式的形成与固定。在初步创制新型种质群体后,首先利用来自不同杂种优势群的测验种与之组配,确定配合力优秀的杂种优势群;然后,通过群内的自交系改良,提升两群间的配合力,逐步形成具有杂种优势模式清晰、配合力稳定的A、B群。这一过程可以采用全基因组选择辅助选系,加速杂种优势模式的形成与固定。换而言之,也是利用基因型到表型预测模型预测杂交组合的产量,实现在提高2到3倍的遗传增益速率同时,降低田间测试的成本。我们群的张红伟老师曾经非常全面的介绍过全基因组选择技术,大家可以回顾一下。此外,A、B群间保持一定的遗传距离是必要的,但遗传距离与杂种优势表现的强度(或配合力)并非是完全正相关的关系。父、母本基因组中生育期调控相关基因,尤其在营养期到生殖期转换节点,时间与空间上的基因表达形成一定的契合度,是产生优秀配合力的分子基础。因此,选系的分子本质可以理解为是双亲中生育期基因调控模式的契合度的选择。杂种优势模式形成的另一关键因素是双亲中有利、有害等位基因的互补模式。前人利用经典遗传学理论在这方面提出很多假说解释杂种优势,但仍未触及杂种优势的分子机理。本人以前的作业曾提出杂种优势应当在作物的全发育过程去研究,而不是仅仅关注产量。产量是整个发育过程各个阶段不同基因的加性、显性、上位性效应逐步积累的结果。
(张红伟老师的补充:这一段让我想起两个问题,一是预测的问题,我个人觉得GS辅助育种是预测的初级应用,而且门槛也比较低,在GS预测上线性模型和机器学习模型差别也不大。进一步的预测问题是前面提到的问题,即固定一个tester,要从100个育种资源中预测怎么样的基因组组合跟这个tester最配,以及不固定tester,要从100个育种资源中预测哪种基因型组合跟哪种基因型组合最配。还有更进一步的G BY E,从100个育种资源中预测,哪种基因型组合和哪种基因型组合在哪个县哪个市表现最好。这些可能不是一般的线性模型和机器学习模型能做的事情,可能需要加入深度学习、神经网略等大数据技术来辅助预测。另一个问题是本段提到的:选系的分子本质可以理解为是双亲中生育期基因调控模式的契合度的选择。这个问题深入思考无论是在分子生物学角度和数据模型的角度都比较复杂,我觉得存在广阔的思考空间。一个问题是为什么双亲需要契合才能有更好的表现,为什么单亲不行作为品种,可不可以把所有的优良基因型都聚集在单亲里面,用自交系作为品种,我觉得这方面不是没有可能,自交系的优点是株高矮、不怕风吹、抗倒性强,而且制种成本极低,优良的自交系播种到10000株每亩也是有可能的。再进一步思考为什么双亲需要契合,因为分子途径都不是单一的,都是与pathway和network的形式起作用的,双亲需要契合的其中一个原因是某一个network在其中一个亲本里面不work,但是组配成F1契合之后,work了,我觉得上位性只是在二维空间上来理解分子的network,可能事实上这个二维空间只是network中的一根连线,可能一个基因参与多个性状的上位性互作,从这个基因出发可能有很多线,遗传分析上只是发现了其中的一条线。那么接下来的问题是,我怎么实现在F1中存在最好的network,可不可以预测,如何把自然界中最好的network,通过遗传设计产生一个包含许许多多最好network的F1。在这条路上,既有分子生物学家的机遇与挑战,也有生信和统计专家的基于和挑战。目前分子生物学家设计的基于pathway basedbreeding,通过导入生化通路创制了golden rice。那么数据分析专家能不能预测最佳的通路组分基因的最佳单倍型组合,并把他们从100份育种材料中设计到一起呢,可能这需要多学科的配合,非常具有挑战性)。
三、农艺性状改良的分子基础。性状改良虽然大多情况下是以单独或少量性状为目标,但极少情况下是在选择单一基因的有利变异。作物在数千年的驯化、适应、改良的过程中,积累了各种类型的变异,包括驯化变异、纬度适应性变异(即光周期、积温适应性变异)、微环境适应性变异(即抗病虫性、营养吸收利用类变异),以及各类农艺性状改良变异。育种改良中性状每一轮看似微不足道的提升,其实都是站在巨人的肩膀上,新的有利变异要与上述各类型有利变异达到一定的契合度后,才可能有效地提高目标性状,同时又不会对其他性状产生负面的效应。因此,性状改良的过程是建立性状之间的“平衡”,其分子本质是选择最优的基因调控网络。通俗的比喻,也就在选择一个新成员融入到大家庭中后的新的协作模式,从而提高团队的整体效率。普通农艺性状的改良(如株型、纬度适应性)是可以通过分子设计育种的策略而加速实现的,但要基于育种大数据建立模型预测最优的基因型组合模式。前提条件是有利变异的频率不能过低(次等位基因频率在0.05~0.15之间),否则需要的群体规模是巨大的。
(张红伟老师的补充:老一辈育种家通过不断测试所选出来的骨干自交系包含了很多优良基因,大多数配合力非常好,所以现在我们成为育种改良,改良的意识就是一点一点的改进提高,前文也提高,不可能通过大比例地引入外援供体基因组来实现改良,分子上来讲,一下子引入了太多,破坏了很多本来很好的interaction,从而产生不符合育种家需求的负向效应。改良的目标是性状,引入的供体背景是通过分子通路和网络来起作用的。这里面有两件事情如果弄清楚将助力大数据育种和分子育种。一是能不能从分子上或者数据分析上知道,哪些通路网络起作用后,田间F1表现就好了,不起作用就不行。二是能不能知道从哪些材料里面引入哪些通路和网络,能起到改良的效果,进一步的复杂问题是这些通路和网络发挥作用的机制是什么。)
四、特殊配合力的可预测性。特殊配合力是很难预测的,主要有三点原因:一、特殊配合力大多由微环境适应性变异导致的,频率极低(即罕见基因型,远小于0.01的变异,即使全基因组标记也难以覆盖),但效应可能不低(类似人类的单基因罕见病);二、大多是双亲基因组中各自有利变异的互补结果,非加性效应为主;三、受环境影响较大。但特殊配合力一定是在一般配合力较为优秀的基础上而形成的。筛选特殊配合力强且稳定的组合主要通过田间测试完成,但可以先通过全基因组选择缩小候选组合范围,一般选择候选组合的预测产量不显著低于对照品种的组合(群体的Top 10%~15%),进行多年多点的测试,检验特殊配合力在不同环境下的稳定性。
(张红伟老师的补充:前人研究SCA是各种加加、加显、显显导致的,现在这种不同的上位性有一定的环境特异性,要不然也不会导致某些品种只适合在某些地区推广。这种加加、加显、显显的分子基础有没有可能从数据分析的角度搞清楚,为什么有些通路网络重组后表现为加加,而另一些表现为加显和显显,从分子不太好理解,可能也不全是interaction或者网络的事情,或许有其他效应在里面,比如剂量效应。或许这些搞清楚的话有利于更精准的设计育种。)
五、抗性的可预测性。抗性包括抗病、抗虫、抗倒伏、抗胁迫等一系列性状。抗性变异大多为罕见变异,也经常和有害变异连锁。国外抗性标记的开发一般是在克隆抗性基因后,基因功能解析较为透彻、育种体系较为固定、测试环境相对一致的条件下,经过长年的标记有效性验证后获得的稳定标记。国外抗性标记的开发投入是巨大的,针对我国育种的情况,抗性筛选的最有效途径还是在高压环境下进行测试。很多抗性是单基因决定的质量性状,因此也是最有希望通过基因编辑等生物技术手段解决的。
(张红伟老师的补充:问题是生物胁迫几套网络,非生物胁迫几套网络,F1产量表现一套网络。如何才能使得F1中有各种最好的网络。一个策略是先以选育为主,选好之后再做抗性筛选,就是保证产量具有最好的网络,抗性网络差不多就可以了。另一种策略是通过对遗传和生物通路的挖掘,设计同时包含几套网络的基因型组合。)
我国种业公司、科研单位的研究队伍组成单一,缺乏多元化构成;与国外种业公司“多技术融合型加速育种体系”的发展方向形成鲜明对比。一个育种项目的顶层设计固然重要,但仍依靠足够规模的群体才能提供育种选择的遗传素材。先进的生物技术与检测设备本质上是为了降低育种成本、缩短育种周期、积累育种数据,育种科学的质的飞跃还是需要依赖于理论的创新。现代生物技术的应用为实现快速创制我国特色的新型种质资源提供了条件,如何将有限的资源投入到种质创新上,是需要国家的顶层设计和支持的。各种技术利用好了,其实是有可能将国外种业巨头20~30年走过的路,在5~10年内完成的。
本文的诸多观点基于我们实验室对育种基因型、表型数据,种质资源数据的分析而得出的,是本人“由内向外”对育种的分子本质的理解。有些观点可能是片面的,甚至是错的,欢迎各位一线育种家的批评指正。同时也感谢“达摩院”的另外九位老师对本文提出的修改意见与热烈讨论。