lasso回归模型的变量选择在大气污染指数中分析中的应用文献综述

 2021-10-15 20:59:39

毕业论文课题相关文献综述

1、选题目的和意义:

空气污染指数(AirpollutionIndex,简称API)就是将常规监测的几种空气污染物浓度简化成为单一的概念性指数值形式,并分级表征空气污染程度和空气质量状况,适合于表示城市的短期空气质量状况和变化趋势。空气污染的污染物有:烟尘、总悬浮颗粒物、可吸入悬浮颗粒物(浮尘)、二氧化氮、二氧化硫、一氧化碳、臭氧、挥发性有机化合物等等。由于各国污染状况不同,所建的求空气污染指数的模型的变量比真实模型多或者少都将不利于问题的研究。Lasso方法是用模型的绝对系数函数作为惩罚项来压缩模型的系数,使绝对值较小的系数压缩为0,从而同时达到变量选择和参数估计的目的,而传统方法的变量选择和参数估计是分开的。Lasso方法很好地克服了传统变量选择方法在选择模型方面的不足,同时又保留了子集选择和岭回归的优良性质,从而受到极大的推崇。

本篇论文旨在检验LASSO,岭回归和主成分分析在变量选择方面的作用及优缺点。

国内外研究现状:

一般地说,多元数据分析处理的对象是刻画所研究问题的多个统计指标在多次观察中呈现的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据。在处理数据的时候我们就会遇到模型建立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中(比如线性模型),那么在线性模型中变量的选择问题就很重要了。

考虑到一般的回归情况:我们有数据,i=1,2,3........N,和分别是第i组观测值的自变量和因变量。在分析这种模型的时候,人们根据问题本身的的专业理论及有关经验,常常把各种与因变量有关的自变量引进模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入模型中。这样一来,不但计算量大,而且估计和预测的精度也会下降。此外,在一些情况下,某些自变量的观测数据获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,但我们不加选择都引到模型中,势必造成观测数据收集和模型应用费用不必要的加大。原始的最小二乘估计是通过最小残差平方和获得的,所以有两个原因使得数据的分析往往和最小二乘估计不符。第一,就是剩余方差最小化。最小二乘估计通常斜率较小,方差较大,预测精度有时可以通过收缩或将某些系数设为0而提高。通过这样做,我们通过牺牲一点斜率来减少预测结果的方差。第二,就是模型的解释。对于大量的预测值,我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。

岭回归是一个连续的过程,由于其不断收缩系数,因此较平稳。然而,他并没有将任何系数收缩为0,因而这个方法不能给出一个简单的可解释的模型。

因此,本项目基于数据的普遍特征,在对数据分析时,必须对进入模型的自变量作精心的选择。而Lasso以缩小变量集(降阶)为思想,是一种收缩估计方法。Lasso方法可以将变量的系数进行压缩并使某些回归系数变为0,因此就是说它尝试保留了子集选择法和岭回归的好的性质,进而达到变量选择的目的,可以广泛的应用于模型改进与选择。我们通过选择惩罚函数,借用Lasso思想和方法实现变量选择的目的。

国外,Tibshirani,R.(1996)在Frank(1993)提出的BridgeRegression和Bireman(1995)提出的NonnegativeGarrote的启发下提出了一种称之为Lasso(Leastabsoluteshrinkageandseleetionoperator)的新的变量选择方法,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型,并将其成功应用于COX模型的变量选择。

该方法克服了传统方法在选择模型上的不足,因此该方法在统计领域受到了极大的重视。但是该方法缺乏有效的算法支撑。因此很多学者在这方面展开了研究。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。