全文总字数:4368字
《变量选择方法及其在基因组选择中的应用》
文献综述
- 前言
随着大数据时代的到来,变量选择在超高维数据分析中的应用越来越广泛。超高维数据集分析问题频繁出现在诸多领域,这类数据的典型特点是它的维数p远远大于样本容量n。在实际问题中,所收集到的变量种类很多,但并不是所有的变量对因变量都有显著的影响,有些甚至没有或影响很微小可以忽略。在建模的时候若把所有的变量都选进去,不仅会增加建模的复杂度,还会降低模型的解释性。因此如何通过变量选择进行数据降维是迫切需要解决的问题,既要使得所筛选出来的变量对因变量有重要的影响,又要在一定的误差内筛去那些对因变量影响甚微或没有影响的变量是变量选择所要达到的效果。
为了将变量选择方法应用于超高维数据中,一般假设数据具有稀疏结构特征,根据数据稀疏性特征可将较小的参数估计压缩为零,来降低模型的复杂性,继而除去数据中无效的变量。在稀疏性假设下,如何从超高维数据中筛选出对响应变量真正起作用的少数重要协变量是这类问题的核心。在处理超高维问题时,传统的适应于低维问题的统计方法已经不再适用。现需要继续对已有的方法进行改进与研究,让它适用于更高维更广泛的数据类型。因此如何利用数据的特殊结构提出一些新的降维方法以及如何提高模型精确度是要继续研究的一个方向。
基因数据是典型的高维数据,对于动物而言,动物性状通常受少量位点的影响,属于稀疏问题,而影响植物性状的有很多位点并且效应都不强,属于中等稀疏问题。此外,植物性状还受到许多基因与基因之间交互效应的影响。由于基因标记数目远多于植株数目,若进一步考虑交互效应将使得备选变量维数非常高,属于超高维变量选择问题,加上植物性基因数据的特殊结构,给统计分析带来了挑战。目前,变量选择方法研究大多没有考虑基因交互作用的影响,而基因交互作用被广泛认为对表型性状的遗传变异具有不可忽略的影响。如果在模型中引入交互项,使得变量维数急剧增加,已有的统计方法会存在计算精度低、收敛性不佳以及不稳定等问题,因此本文将提出一种合适的方法并将其运用到一组实际的基因组数据中。
- 相关文献的研究现状
对于高维数据的变量选择问题,统计学中已有大量比较成熟的方法,如Lasso、Adaptive Lasso、Group Lasso、Elastic Net、SCAD、SIS、ISIS、Bayes方法等。文献[10]介绍了这几种高维和超高维数据的变量选择方法。在这些基础上,又出现很多学者提出一些改进的方法,如惩罚函数的方法[14]、基于选择性推断的随机化适应性Losso方法[3]、 在线性回归的框架下展开的Bayes方法[1] 线性模型下的S-GADS(ScreenGroup Adaptive Dantzig Selector)方法[11]等。由于Bayes方法在变量维数超高的情形下存在计算速度慢且预测精度不高的缺点,文献[7]在模型中对每个备选项引入指示变量,利用Bayes方法估计指示变量的后验分布,基于预测的后验概率来选择模型。相比已有的方法,所提出的方法的优势在于:第一,适用于中等稀疏下的离散型基因数据;第二,本文中模型考虑了交互项,通过加入指示变量实现模型选择和估计;第三,引入指示变量使得计算变得更加简单快速,同时进行变量选择模拟计算的结果表明所提出的方法稳定性好并且容易实现。文献[5]比较了基于non-local先验的贝叶斯变量选择方法——乘积逆矩先验(product inverse moment,piMOM)和惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS—最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。惩罚的方法也被应用到基因组数据分析中,但基于惩罚的方法存在如下缺点:第一,基于惩罚方法的变量选择最多只能选出跟样本个数同样多的变量,因此,惩罚方法有可能漏掉--些对性状有影响的变量;第二,当自变量存在较强的相关性时,惩罚方法表现不够令人满意;第三,对于超高维变量选择问题,惩罚方法在计算精度、收敛速度和稳定性方面存在明显的缺陷。因此,一些研究者提出通过将不重要的变量筛除实现降维,然后再进行变量选择的方法。即边际筛选(iterative sure independent screening,ISIS)方法,利用边际相关性过滤一些不重要变量,从而实现降维的目的。对于高维模型中参数约束下的变量选择和已知部分活跃协变量或者强相关的预测变量条件下的超高维参数模型的特征筛选问题。特征筛选在超高维数据分析中非常重要,可采取两阶段变量选择来提高变量选择和参数估计的效率,即先对超高维数据进行粗略的大幅度降维(特征筛选,feature screening),再进行精细的变量选择。自特征筛选方法这一开创性工作以来,大量文献就开始致力于超高维数据中特征筛选问题的研究。大多数的特征筛选方法都是通过排序边际效应进行筛选,例如预测变量与响应变量的边际相关性。但是,简单的边际效应特征筛选方法深受预测变量之间相关性的影响,例如舍弃了隐藏型重要变量,错误选入了与活跃预测变量强相关的非活跃预测变量。在现实应用中,基于一些预先研究和经验常识,研究者们能够事先确定一些与所研究的响应变量相关的预测变量。利用这一条件信息,文献[2]在超高维线性和广义线性模型中提出了新的基于条件边际经验似然的条件特征筛选方法(简称为CMELR-CSIS)。复杂的数据往往会存在交织错杂的关联关系,变量间的冗余性也比较明显,处理起来不仅难取舍,还消耗大量的计算时间,为了解决这些问题,文献[6]在研究高维数据时,引入了split-and-conquer方法,该方法可以通过将数据进行分块化处理,在每一块数据上进行变量选择,可以更好地降低数据间的冗余性,而且还可以有效的减少计算机运算时间。文献[8] 提出了一个新的条件特征筛选方法,称为最小二乘投影条件筛选方法,并简记为COLP(conditional screening via ordinary least squares projection)。HOLP为线性模型下的高效特征筛选方法。为处理超高维带组结构的数据,文献[13]提出一种无模型假定的边际分位数组筛选方法。它通过基于分位数边际拟合指标来刻画组变量的相对重要程度,且这种方法不需要任何关于协变量矩方面的假设。为了对超高维带组结构数据有更全面的认识,该方法允许重要组变量集可以随着分位数的变化而变化。
对于基因组数据的变量选择方法,目前已有的研究大多忽略了基因的交互效应,这主要是由于考虑交互效应会大大增加备选基因的数目,从而导致已有的统计建模方法不稳定。文献[9]将基因效应与基因间的交互效应同时引入模型,提出三步模型构建方法以达到简化计算和提高模型预测精度的目标。第一步,不考虑具体模型,通过距离相关筛除方法删掉与响应变量显著无关的基因;第二步,在剩下的基因中,利用贝叶斯方法筛选可能的基因;第三步,基于选出的基因,同时考虑单基因效应和交互效应,利用惩罚方法选择模型并估计参数。文献[12]主要考虑引入基因型线性模型,对引入基因型线性AA,Aa,aa后所得的三种模型:隐性模型,可加模型和显性模型。结合高维变量选择方法和工具从理论和模拟两个方向进行了较为深入的研究。研究结果表明,在协变量个数p小于样本容量n时,LASSO方法在识别基因的准确度方面,可以达到百分之90以上,在协变量个数p大于样本容量n时,LASSO方法最多只能识别n个。后续提出NAIVE ELASTIC NET方法,不仅可以在pgt;n时不受限制,还在变量之间有强相关性时体现分组效应,模拟结果表明在变量之间有请相关性时,NAIVE ELASTIC NET方法所得到的估计的MSE比LASSO所得到的要小一些。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。