原标题:中国农大王向峰团队与华中农业大学严建兵团队合作开发作物基因组设计育种工具箱
2021年9月20日,中国农业大学农学院、国家玉米改良中心
王向峰
教授与华中农业大学
严建兵
教授课题组在著名国际学术期刊
Genome Biology
上发表了题为“
LightGBM: accelerated genomically designed crop breeding through ensemble learning
”的方法学研究论文。中国农业大学的闫军博士、徐悅彤博士生为该论文的共同第一作者,也是CropGBM(Genomic Breeding Machines for Crops)工具箱的主要开发人。集成学习(Ensemble learning)的主要思想是构建与集成多个弱学习器(例如:决策树模型),通过迭代训练获得最优模型。集成学习作为一种机器学习范式,具有预测精度高、模型稳定性强等特点,在工业界得到广泛应用。
CropGBM主要以Microsoft LightGBM(Light Gradient Boosting Machines)为内核实现基因型到表型(G2P, Genotype-to-Phenotype)预测。由于作物育种的复杂性,CropGBM同时整合了多种常用遗传分析工具,例如:基因型与表型数据预处理、育种材料遗传结构解析、全基因组选择模型、标记筛选与模块设计、数据可视化等功能模块,为作物基因组设计育种提供一站式解决方案。
数据驱动的智能设计育种
21世纪以来,随着互联网、人工智能、机器学习等现代信息科技的迅速发展,全球已迈入大数据时代。信息科学与生命科学的交叉融合为育种技术的跨越式发展提供了新的契机。美国科学院院士Edward S. Buckler教授与我国科学院院士张启发教授先后提出“育种4.0”与“5G育种”的概念,其本质都是育种技术体系向着工程化、智能化的方向升级(图1)。以玉米为例,随着双单倍体诱导技术(Doubled Haploid, DH)的逐步成熟,玉米自交系生产的成本大幅降低、自交系数量大幅度增加。我国一个中、大型种业公司每年可生产2万到5万份的玉米自交系。如果将DH系与3到5个测验种进行杂交,理论杂交组合的数量为几十万。依赖于田间表型测试对数十万的组合进行人工选择的成本太高,是几乎无法完成的任务。因此,必须采用基因型到表型预测、全基因组选择预测等模型进行基于基因型的选系。不难想象,未来育种流程中的组材、选系、组配、测试、推广等诸多环节都将由一系列模型进行育种决策,辅助甚至代替人工决策,最终实现数据驱动式的智能设计育种。
图1. 育种4.0(Breeding 4.0)与第五代育种技术(5G育种)
CropGBM各功能及算法优势介绍
CropGBM是一款采用集成学习范式中的梯度提升决策树算法构建的作物基因组设计育种一站式工具箱,下载地址:
https://ibreeding.github.io/
。CropGBM集成了六大功能模块,包括:基因型数据分析模块、表型数据预处理模块、群体遗传结构分析模块、基因型到表型预测模块、标记有效性筛选模块、数据可视化分析模块(图2)。与传统的基于最佳无偏线性估计模型(BLUP:Best Linear Unbiased Prediction)相比,CropGBM采用了多种机器学习与大数据挖掘算法,具有以下优势:1)以Microsoft LightGBM算法为内核,与全基因组选择研究中最常用的rrBLUP模型相比,具有运算速度更快、模型稳定性更强、预测精准性更高、计算资源消耗更低等特点;2)CropGBM支持并行计算与GPU加速,十万个样本的模型训练仅用4分钟就可以完成;3)在LightGBM模型的训练过程中,通过对每个标记的基因型对表型分类的学习计算信息增益(Information Gain, IG),并根据IG分值筛选预测效力高的标记位点,用于设计分子育种的标记模块(Marker panel);4)采用K-Means、OPTICS、PCA、t-SNE等多种线性、非线性聚类算法用于育种群体的遗传结构解析,辅助更加合理、完善的设计训练与预测群体;5)支持多种可视化工具包,例如:用于绘制基因型数据杂合率、缺失率、次等位基因频率分布直方图,绘制表型数据分布的箱线图,群体结构与样本聚类图,以及标记信息增益热图,等等。
图2. CropGBM的主要功能模块及实例展示。
如何玩转机器学习?
构建一个基于机器学习的预测系统是一个非常复杂的过程,包括:数据转化(Data transformation)、模型选择(Model selection)、特征选择(Feature selection)、模型评估(Model assessment)、网格式调参(Grid search of optimal parameter)、模型优化(Model optimization)、模型解释(Model interpretation)以及性能测试(Benchmark test)。此外,由于作物育种的复杂性,模型的准确性与稳定性受到诸多因素影响,例如:样本抽样数量、训练与测试样本比例、训练框架的划分模式、交叉验证的模式、标记特征的数量,等等。本项研究对影响基因型到表型预测的诸多因素进行评估,同时为如何建立应用机器学习的策略实现动、植物中基因组设计育种提供了范本。
参考文献:
1.Yan J, Xu Y, Cheng Q, Jiang S, Wang Q, Xiao Y, Ma C, Yan J#, Wang X#. LightGBM: accelerated genomically designed crop breeding through ensemble learning. Genome Biology. 2021 Sep 20;22(1):271.
2.Xu Y, Laurie J, Wang X#. CropGBM: An ultra-efficient machine learning toolbox for genomic selection-assisted breeding in crops. A book chapter for “Accelerated Breeding of Cereal Crops”. 2021. Springer Science + Business Media, LLC, 233 Spring Street, New York, NY 10013, USA.
3.Ma C, Zhang HH, Wang X. Machine learning for Big Data analytics in plants. Trends in Plant Sciences. 2014. 19(12):798-808.
王向峰教授课题组简介
王向峰课题组主要应用人工智能与机器学习技术开发玉米全基因组选择辅助育种模型、基因组优化设计育种模型、基因型与环境互作模型;开发玉米田间数据统计分析与育种信息管理系统,以及各种大数据驱动的育种智能决策软件;开发玉米多组学数据关联分析算法、大规模种质资源基因挖掘工具,以及各类生物信息软件与数据库。研究方向主要利用组学大数据从事玉米杂交育种理论、玉米杂种优势遗传互作机制、玉米基因组驯化、玉米适应性演化机制等方面的工作。曾在Genome Biology, Briefings in Bioinformatics, Plant Cell, PNAS, Trends in Plant Sciences, Plant Journal, Molecular Plants等国际知名期刊发表论文60余篇。实验室网址:
https://ibreeding.org/
严建兵教授课题组简介
严建兵教授实验室(
http://www.maizego.org/
)长期从事玉米基因组学和数量遗传学的研究,构建了一系列遗传设计群体,系统解析了玉米关键品质和农艺性状的遗传学基础和调控机制,从基因组角度上首次提出“微效多基因的累加是人工选择高油玉米成因”的学术观点;创新方法组装了野生大刍草和热带玉米的高质量基因组,为复杂基因组研究提供了图谱资源;综合多种工具,克隆了多个有应用价值的功能基因,获批基因专利10余个,其中一个抗锈病的基因获批国际专利,授权多家国内外公司使用;首次开发了植物单细胞基因组、单细胞核和单细胞甲基化测序等一系列单细胞测序技术,并利用这些技术系统回答了雌雄配子重组、雄配子重编程和单倍体诱导机制等重要基础科学问题。在Nat Genet,Nat Comm,Mol Plant,Plant Cell,Genome Biology等主流期刊发表论文100余篇,总引用12000多次。并多次应邀在Mol Plant,Annu Rev Plant Biol,Curr Opin Plant Biol,Genome Biol,Trends in Plant Science 等主流期刊撰写综述或观点文章。获日本国际青年农业科学家奖、杜邦青年教授奖、中国青年科技奖、国家科技发明二等奖(第二完成人)等多个国内外奖项。
植物科学最前沿,专注于植物科学前沿进展、
资讯、
招聘信息的发布及方法软件共享等
。
投稿及招聘请后台回复“投稿”
,均为无偿;
商务合作请联系微信ID:
zwkxqy
;
返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。