- 文献综述(或调研报告):
缺失数据处理方法综述
摘要:缺失数据问题在许多领域中普遍出现,本文对数据缺失的模式以及机制进行介绍,对现阶段缺失数据处理的方法进行综述,主要包括删除法、单一填补、贝叶斯估计、EM算法、多重填补等。
关键词:数据填补;单一填补;贝叶斯估计;EM算法;多重填补
缺失数据是很多研究领域均普遍存在。例如,临床疫苗试验中,通常存在一定比例的结尾数据,称为截尾抗体滴度,我们只能知道截尾滴度的上限和下限,但无法知道它的确切值;机器学习领域的基准数据库UCI数据集中有超过40%都含有缺失数据[1];在进行规划中小型灌区的生产实践中,也经常会遇到资料数据不全的情况[2]。缺失数据会加大分析问题的难度,造成结果偏倚,降低工作效率,是数据分析中的一大难题[3]。造成数据缺失的原因可能为:某些数据无法获取、数据被遗漏、某些对象不存在对应的数据信息、数据获取代价太大、在获取数据前就要求做出决策等[4]。本文就现阶段为解决该类问题产生的数据填补方法进行综述。
1. 数据缺失类型
1.1 按缺失模式分类
按照数据缺失模式可以分为单调缺失模式和任意缺失模式两类[5;6]。
-
-
- 1.1.1. 单调缺失模式(Monotone missing pattern)
-
假设多个样本中含有共p个变量,当中某个观测目标的数据是缺失的,(kgt;j)中该观测目标的数据也是缺失的;同理,中某个观测目标的数据是可观测的,(klt;j)中该观测目标的数据也是可观测的。
单调缺失模式可通过表1形象地表示,其中“X”为可观测数据,“.”为缺失数据。
表 1单调缺失模式示意表
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。