中文题名: | 基于 Bootstrap 的全基因组关联分析算法研究与应用 |
姓名: | |
学号: | 1049721601500 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 083500 |
学科名称: | 软件工程 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
获奖论文: | |
院系: | |
专业: | |
研究方向: | 生物信息 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2020-03-22 |
答辩日期: | 2020-05-22 |
中文关键词: | |
中文摘要: |
全基因组关联分析(Genome-wide association study,GWAS)是通过分析覆盖于全基因组范围的单核苷酸多态性(SNP)标记与表型的关联来挖掘候选基因 的一种重要方法。近十多年来,GWAS 被广泛的应用于医学、以及畜牧、作物、 水产和微生物育种等各个研究领域,揭示了许多影响人类疾病与农业经济性状的 关键基因。FarmCPU(Fixed and random model Circulating Probability Unification)是一种被广泛使用的多位点 GWAS 分析算法,该方法解决了传统混合线性模型 中的混杂问题, 显著提升了计算速度和统计效力。 FarmCPU 虽大幅度扩展了 GWAS 的应用场景,但对表型和基因型呈严重偏态分布的数据,其结果仍然饱 受假阳性的困扰。为了克服这一问题,本研究开发了基于 Bootstrap 的 FarmCPU 算法。本文的主要研究内容包括: (1) 通过模拟实验分析了数据分布对 FarmCPU 等 4 种目前常用的 GWAS 方法在上的影响。 实验结果表明表型数据分布偏态时会出现大量的假阳 性结果, 分析发现假阳性结果主要是由基因型分布偏态的位点引起的。 删除 MAF 较低的位点或增大样本数量能够一定程度上的减少假阳性结果。 (2) 针对偏态数据中假阳性的问题提出了一种新的 Boot-FarmCPU 算法。 利用 Bootstrap 方法提升了对固定效应过程中 SNP 标记 P 值以及随机效应过 程中 REML 值估计的稳定性,降低了处理偏态数据时出现假阳性结果的几率。 模拟实验表明在表型分布偏态且具有中低遗传力的情况下 Boot-FarmCPU 要优 于 FarmCPU,其他情况下结果近似或略逊于 FarmCPU,并在玉米 AMES 群体 的两个偏态的真实性状数据中验证了 Boot-FarmCPU 算法的有效性。 (3) 优化了 Boot-FarmCPU 算法的性能,并将其整合到了已有的 rMVP 软件包中。 为了提高 Boot-FarmCPU 的 IO 性能,本文提出了一种新的二进制的 基因型数据文件格式,相比于现有的文件格式压缩了 25%以上;提出了求解 BootFarmCPU 中固定效应模型的新方法, 使算法的时间复杂度从??(???? ! )降低为 ??(?? + ?? ! );通过结合内存映射技术的 Cholesky 分解方法,相比于 FarmCPU 方 法减少了随机效应过程中约 60% 的内存消耗。rMVP 是本人主要参与开发和维 护的软件包,已经发布到 CRAN 和 GitHub,目前下载量超过 2,700 次。 综上所述,本研究通过模拟数据分析了 GWAS 算法在偏态数据上出现假阳 性结果的原因,并针对这一问题提出了一种新的 Boot-FarmCPU 算法,在模拟 和真实数据上验证了其有效性,同时参与开发完成了 rMVP 分析工具,为拓展 GWAS 在偏态数据上的应用奠定了一定基础。 |
中图分类号: | TP301.6 |
馆藏号: | TP301.6/1500/2020 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |