文献综述
统计诊断是数据分析的重要组成部分,其主要任务就是通过诊断统计量检测一直观测数据在用既定模型拟合时的合理性;如果既定模型是回归模型,则相应的诊断也被称为回归诊断。对于一个既定的统计模型,为了进行有效的统计诊断,通常都需要有一组假设条件,只有当观测数据满足这些假设条件是,有关的统计诊断才是合理的。统计诊断就是要检验给定的观测数据是否满足这些假设条件,并通过诊断统计量指出不满足假设条件的数据点。
为克服实际观测数据和既定模型之间存在的较大偏离,目前有两种常用的处理方法,就是稳健统计和统计诊断。稳健统计的特点就是保持实际数据与既定模型不变,而其统计推断方法有一定的“抗干扰性”,就是当数据与模型之间有较大偏离时,其统计推断的结果还是不会受太大的影响,比较稳健。而统计诊断则要设法判别实际数据是否与既定模型存在较大偏离并采取相应的对策。通过统计诊断方法,我们可以检测出那些严重偏离既定模型的数据点即异常点,以及对统计诊断的结果影响特别大的点,即强影响点。在一般情况下,由于事先对书籍与既定模型已经有所考虑与选择,因为数据中与既定模型有较大偏离的点一般很少,这时我们往往肯定所选模型,而对数据点再做一次考察。如果实际数据中与既定模型有较大偏离的点比较多,在不少情况下,我们仍然希望保留方便有效的模型(诸如正泰线性回归模型等),而对数据进行一些处理,例如合适的数据变换等。值得注意的是:统计诊断与实际应用有密不可分的关系,统计学的任务就是检测实际数据中与既定模型中偏离较大的点,而这些点的处置往往与数据的实际背景有关,诸如异常点与强影响点的处置,如何进行数据变换,如何选择更合适的模型等。
在统计学中,线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,而不是一个单一的标量变量。)
局部影响分析是Cook(1986)首先提出来的一种很一般的统计诊断方法,该方法可以用于各种统计模型,其主要特点是引入扰动概念,而把异常点归结为“比其他点受到更大扰动的点”。局部影响分析有基于似然距离的局部影响分析,有线性模型的局部影响分析,也有非线性模型的局部影响分析,还有数据变换模型的局部影响分析。其中非线性回归模型的局部影响分析还有方差加权扰动模型的局部影响分析与因变量扰动模型的局部影响分析。扰动模型是对均值飘逸模型和方差加权模型的推广。事实上,在均值飘逸模型中,漂移参数可以看做一个扰动,这是表示未受波动的普通线性模型;而第i个点处,表示其均值收到扰动的影响(亦可称为该点均值有漂移),表示没有扰动,如果显著不等于0,即扰动比较大,则可以认为第i个点为异常点。在方差加权模型中,方差的权重可以看做一个扰动,这时来表示未收到扰动的模型;而在第i个点处,表示其方差受到的扰动(亦可称为该点有异方差),表示没有扰动,如果显著不等于1,即扰动比较大,则可认为第i个点为异常点。
而非线性回归模型也是一种有效的统计模型。非线性回归是回归函数关于未知回归系数具有非线性结构的回归。常用的处理方法有回归函数的线性迭代法、分段回归法、迭代最小二乘法等。非线性回归分析的主要内容与线性回归分析相似。运用极大似然方法是解决未知参数估计问题的有效方法。极大似然估计方法是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一未知参数 有关,取值不同,则事件A发生的概率也不同,当我们在一次试验中事件A发生了,则认为此时的值应是t的一切可能取值中使达到最大的那一个,极大似然估计法就是要选取这样的t值作为参数t的估计值,使所选取的样本在被选的总体中出现的可能性为最大。
泊松回归模型中,代表由一组相互独立的变量组成的向量,其泊松回归的模型形式为亦可简洁表示为此处, x是 维的向量,由 个独立变量(自变量向量)一个常向量(元素取值全为1)构成,用一个代表第一个表达式当中的和。因此,当已知泊松回归模型当中的和解释变量x,其满足泊松分布的被解释变量的期望值可以由下式来预测。Yi是被解释变量的观测值,相应的解释变量为xi,可由极大似然估计的方法来估计参数。
综上所述,对非线性回归模型中的未知参数进行估计,采用极大似然估计法,及高斯--牛顿迭代算法得到参数估计的近似解。对非线性泊松回归进行初步的统计诊断,找到强影响点。
参考文献
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。