- 无标题文档
查看论文信息

中文题名:

 基于 Bootstrap 的全基因组关联分析算法研究与应用     

姓名:

 张浩浩    

学号:

 1049721601500    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 083500    

学科名称:

 软件工程    

学生类型:

 硕士    

学位:

 工学硕士    

学校:

 武汉理工大学    

获奖论文:

 校优秀硕士学位论文    

院系:

 计算机科学与技术学院    

专业:

 软件工程    

研究方向:

 生物信息    

第一导师姓名:

 袁晓辉    

第一导师院系:

 武汉理工大学    

完成日期:

 2020-03-22    

答辩日期:

 2020-05-22    

中文关键词:

 

全基因组关联分析 ; 假阳性 ; FarmCPU ; Bootstrap ; rMVP

    

中文摘要:

全基因组关联分析(Genome-wide association study,GWAS)是通过分析覆盖于全基因组范围的单核苷酸多态性(SNP)标记与表型的关联来挖掘候选基因 的一种重要方法。近十多年来,GWAS 被广泛的应用于医学、以及畜牧、作物、 水产和微生物育种等各个研究领域,揭示了许多影响人类疾病与农业经济性状的 关键基因。FarmCPU(Fixed and random model Circulating Probability Unification)是一种被广泛使用的多位点 GWAS 分析算法,该方法解决了传统混合线性模型 中的混杂问题, 显著提升了计算速度和统计效力。 FarmCPU 虽大幅度扩展了 GWAS 的应用场景,但对表型和基因型呈严重偏态分布的数据,其结果仍然饱 受假阳性的困扰。为了克服这一问题,本研究开发了基于 Bootstrap 的 FarmCPU 算法。本文的主要研究内容包括:

(1) 通过模拟实验分析了数据分布对 FarmCPU 等 4 种目前常用的 GWAS 方法在上的影响。 实验结果表明表型数据分布偏态时会出现大量的假阳 性结果, 分析发现假阳性结果主要是由基因型分布偏态的位点引起的。 删除 MAF 较低的位点或增大样本数量能够一定程度上的减少假阳性结果。

(2) 针对偏态数据中假阳性的问题提出了一种新的 Boot-FarmCPU 算法。 利用 Bootstrap 方法提升了对固定效应过程中 SNP 标记 P 值以及随机效应过 程中 REML 值估计的稳定性,降低了处理偏态数据时出现假阳性结果的几率。 模拟实验表明在表型分布偏态且具有中低遗传力的情况下 Boot-FarmCPU 要优 于 FarmCPU,其他情况下结果近似或略逊于 FarmCPU,并在玉米 AMES 群体 的两个偏态的真实性状数据中验证了 Boot-FarmCPU 算法的有效性。

(3) 优化了 Boot-FarmCPU 算法的性能,并将其整合到了已有的 rMVP 软件包中。 为了提高 Boot-FarmCPU 的 IO 性能,本文提出了一种新的二进制的 基因型数据文件格式,相比于现有的文件格式压缩了 25%以上;提出了求解 BootFarmCPU 中固定效应模型的新方法, 使算法的时间复杂度从??(???? ! )降低为 ??(?? + ?? ! );通过结合内存映射技术的 Cholesky 分解方法,相比于 FarmCPU 方 法减少了随机效应过程中约 60% 的内存消耗。rMVP 是本人主要参与开发和维 护的软件包,已经发布到 CRAN 和 GitHub,目前下载量超过 2,700 次。

综上所述,本研究通过模拟数据分析了 GWAS 算法在偏态数据上出现假阳 性结果的原因,并针对这一问题提出了一种新的 Boot-FarmCPU 算法,在模拟 和真实数据上验证了其有效性,同时参与开发完成了 rMVP 分析工具,为拓展 GWAS 在偏态数据上的应用奠定了一定基础。

中图分类号:

 TP301.6    

馆藏号:

 TP301.6/1500/2020    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式