为解决作物在杂交育种中早期材料选育效率低,以及现有基因组预测模型泛化能力低的问题,三亚华大生命科学研究院基于农业大数据,开发了大数据智能育种系统。目前,智数生物已将该系统部署在崖州湾科技城先进计算中心上,育种家可通过访问网站(http://59.50.39.12:8090/),创建育种项目,上传相关基因型-表型数据,在网页上实现表型预测、育种材料筛选。
该育种系统以全基因组选择平台为技术核心,集成10个经典模型并创新性地引入了基因组预测AI模型DeepGxE,该模型可融合环境型和基因型特征,结合Transformer和Embedding技术,并通过GPU加速显著提升预测速度和准确性,并具有较高的泛化能力。该大数据智能育种系统的应用场景广泛,支持自交系表型预测、亲本选择和杂交种预测等多种模式,并搭载华大自研的高效数据分析工具,确保数据处理的精准性,同时,系统注重数据安全,计划引入区块链技术,保护用户隐私,旨为育种家提供了一个全面、高效、安全的育种辅助工具。助力实现育种技术的突破和农业生产力的提升。
育种表型数据管理平台以流程自动化和数据驱动可视化设计模式,可以快速高效帮助企业完成对育种表型数据、材料选育的信息化管理,同时集成了多种统计分析方法,辅助育种决策。
基于基因型数据,统计SNP杂合度、基因型频率以及在不同染色体上分布密度,同时对基因数据进行主成分和群体结构分析,可以帮助用户确认样本分组是否符合预期以及检测离群样本。
全基因组选择平台内置了10个经典模型,以及1个基因组预测AI模型,并将该模型命名为DeepGxE。该模型可用于两类环境型数据:一类是简易的数据,取时间、地点作为环境型数据,适用于多年多点;另一类是详细的气候数据、地理位置数据,如每天的温度、湿度等。
注:蓝色代表10种经典模型结合表型和基因数据进行训练计算GEBV,黄色表示AI模型DeepGxE结合表型、基因型和环境型数据进行模型计算SNP贡献度。
育种家可灵活选择自主训练,进行表型预测、育种材料选择和育种芯片位点的挑选。在多个作物上对该模型进行基准测试,结果表明,与经典的基因组预测模型比较,DeepGxE模型运行速度更快、预测性能更高、泛化性能更高。
杂交模拟平台可快速得出亲本组配方案,辅助育种家提高选育效率。
该平台根据亲本遗传信息对后代基因型进行大规模数字模拟,结合亲本数据训练好的GS模型预测后代的表型值,从而计算加权育种值,推荐最优的亲本组配方式。
基于20份玉米数据进行杂交模拟,通过GS得出380个组合产生子代的抽穗天数指标均值,对该结果打分。
育种家可按照需求选择相应区段的关注杂交组合。
GS数据库包含水稻、玉米、小麦和大豆等主要作物的基因型与表型信息的综合性资源库。收集了已发表文章的数据,涵盖了不同性状的信息。这一数据库为植物育种家提供了一个宝贵的资源,使他们能够方便地测试和训练遗传学模型,从而在作物改良和育种策略中做出更加科学和高效的决策。