文献综述
尽管现阶段全基因组关联分析(genome wide association studies, GWAS)已经确定了1000多个与人类疾病和性状相关的遗传位点,在生物领域的研究中已经取得了很大的成功和广泛的应用,但是GWAS发现的常见变异所能解释的疾病遗传度远远低于预期,而罕见变异对复杂疾病的影响力相对较大,所以罕见变异和复杂疾病的关联性成为如今研究的主要方向。与此同时,新的测序技术为整个基因组的重新测序提供了途径,从而导致罕见变异的有效检测,使得越来越多的研究支持罕见变异在复杂性状关联中的作用。
罕见的遗传变异在影响复杂疾病和性状方面有着关键的作用,然而以往用于测试单一常见遗传变异关联性的标准方法无法适用于罕见变异,这时有研究者认为可以把罕见变异折叠成一个集合,将我们所要研究的遗传区域序列里面变异位点进行合并,有选择的将常见变异和罕见变异合并成一个集合,然后检测病例和对照组中该集合的频率差别来评价它们的累积效应,克服罕见变异关联性检验功效低的问题。2007年,Morgenthaler和Thilly在《发现携带多等位基因或单等位基因的常见疾病风险的策略》中率先提出负荷检验方法,他们将罕见变异折叠成一个集合,之后采用卡方检验或精确检验来比较病例和对照组中罕见变异的个体数量值,并将这种分析方法称之为CAST(Cohort Allelic Sum Test)。2008年,Li和Leal在他们的基础上扩展了CAST方法并提出合并多变异折叠法,在《常见疾病罕见变异相关检测方法:在序列数据分析中的应用》期刊中把这种方法称为CMC(Combined Multivariate and Collapsing)方法。该方法主要是将变异分组,然后通过比较比例组和对照组中变异组的差别显著性,进而找到致病基因。后期又有学者提出了Sum检验方法,该方法是将所研究基因区域上的罕见变异集合成一个变量,这样可以提高统计功效,但是这样的鲁莽的合并会导致遗传信息丢失。后期基于同样的原理,2009年Madsen和Browning在《用加权和统计量进行罕见突变的分组关联检验》中根据每个变异的频率采用了加权折叠,提出了WSS(Weighted Sum Statistic)方法,该方法先是利用基因频率来计算每个变异的权重,再根据权重来计算个体基因型的分值,并统计出病例组个体分值秩次和,最后采用置换检验的方法来比较比例和对照组之间的分值差别。在特定情况下,这些负荷检验有着较高的功效。除此之外,还有一些方法在检验的过程中涉及到常见变异和罕见变异,但是计算的核心都是比较病例组和对照组中遗传变异频率的差别,例如《检测多个单核苷酸多态性疾病相关性的试验选择与应用》(Pan, Han, Shen, 2010)、《稀有等位基因存在下的遗传关联策略比较》(Mahachie, Cattaert, 2010)等。这些方法对罕见变异的致病方向有着严格的限制,然而这并不符合要求,即使这种方法有着较高的功效,在应用中与实际不符。2010年Moris在《遗传相关研究中稀有变异分析的统计方法评价》中提出了用线性回归分析将变异折叠起来进而分析,该方法考虑到协变量的影响,同时针对连续表型和二分类表型提出了两种检测方法。综合了折叠变异与数量表型关联的方法,在《稀有变异体关联分析的自适应检验》中Han和Pan利用逻辑回归模型来分析罕见变异与二分类性状之间的关系。该方法首先将遗传区域内个体携带的罕见变异总数作为自变量。在对不同位点上罕见变异的信息通过相加的方式生成一组新的数据,将这个新的数据作为原有自变量的一个代替,并考虑到罕见变异的边际得分,这种方法称为SSU方法。以上的负荷检验方法都将所研究的遗传区域内罕见变异的频数合并成一个新的变量,新变量携带这该区域上罕见变异的遗传信息,提高罕见变异频率。
为了解决负荷检验在效应方向不同时具有效能低的缺点,基于混合效应模型方差成分的方法也被提出。方差成分检验将一组罕见变异与疾病的关系看作服从正态分布的随机效应,而不是关注其是如何合并的,通过检验随机效应的方差成分研究罕见变异与性状之间的关联。2008年,Ghosh等人在《用logistic混合模型的logistic核机回归估计和检验遗传途径对疾病结局的影响》中提出C-alpha测试,该方法主要计算所研究区域中SNP分布情况,进而计算其方差并于C-alpha模型下模拟出来产生这种变异情况下的方差进行对比分析。2011年,在《序列数据的稀有变量关联测试与序列核关联测试》中Wu等提出了SKAT(sequence kernel association test)测试,2012年,Lee等提出了SKAT-O(optimal sequence kernel association test)测试,发表期刊有《测序关联研究中罕见变异效应的最优检验》、《稀有变异关联检验的最优统一方法及其在小样本病例对照全外显子序列研究中的应用》,这两种检测方法都是得分检验。SKAT方法通过核函数量化个体间的遗传相似性,采用得分函数的方差成分检验来研究罕见变异和性状之间的关系。在SKAT检验中加入罕见变异关系结构的相关矩阵,即称为SKAT-O检验。2014年,He等和Li等提出一种叫做遗传随机场(genetic random field, GenRF)模型的新罕见变异关联分析方法,分别发表了《基于遗传随机场模型的联合关联建模与检验》、《测序数据遗传关联分析的广义遗传随机场方法》,该模型考虑了连锁不平衡(linkage disequilibrium, LD)效应和遗传变异之间潜在的交互效应。利用拟似然方法,构造了一个对多遗传变异进行联合分析的GenRF检验,和SKAT和其他一些标准方法相比较,功效相当,特别在有复杂交互效应存在时具体优势。同年,Zeng等发表了《连续表型稀有变异检测中的似然比检验》和《基于似然比检验的核机器学习稀有变量检测》,提出采用限制性似然比检验(restricted likelihood ratio test, ReLRT)和似然比检验(likelihood ratio test, LRT)来进行罕见变异关联性分析,他们的统计量建立在剖面似然函数之上,通过抽样算法获得无效假设分布,这种方法不仅能够优于SKAT方法,还能反映一组罕见变异相对重要性的指示统计量。
综上所述,罕见变异关联分析中的统计方法研究依然处于快速发展中,许多研究的结论还待进一步确认。随着研究的不断深入,各种方法还将不断涌现,对稳健高效的罕见变异关联检验方法的进一步探索,以及在探测到一段遗传区域与复杂疾病存在关联之后,基于数据挖掘理论的一些统计分析方法将会是未来可以重点考虑的研究方向。在探测罕见变异与复杂疾病关联的道路上,依然面临着很多挑战,还需要更多深入的研究。
参考文献
[1]朱德刚,刘应安,夏业茂,韩秋红.罕见变异关联分析中的统计方法研究进展[J].数理统计与管理,2017,36(6):1028-1038.
[2]刘阳.基于全基因组关联分析的罕见变异研究[D].哈尔滨工业大学,2017.
[3]梁融, 张俊国, 卜涛, 刘丽, 李丽霞, 张敏, 郜艳晖.稀有变异的关联性研究统计方法[J].中华流行病学杂志,2015,36(8): 900-903.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。