全文总字数:2242字
毕业论文课题相关文献综述
1.1研究目的和意义
近年来,信息技术的迅猛发展给各行各业带来了根本性变革,无论是学术界、商界、还是政府部门,各个领域都产生了大量的数据,这些海量数据推动着信息社会进一步发展,迎来了大数据时代。例如,利用模式分类算法来辅助病例诊断,这样一方面可以提高诊断的效率,另一方面可以减少人为主观因素对诊断结果的干扰。文档自动化归类也成为应用的一大热点,随着互联网技术的广泛应用,人们可以通过模式分类算法对这些文档进行自动归类,这样就大大降低了自己的工作量。利用传感器等设备来对系统的运行状态进行监测,需要监控的系统零部件可能数以千计甚至更多。每个零部件表征了系统某一方面的特性,为了能够高效地执行分类预测算法,需要对传感器监测到的特征变量进行数据预处理,从众多数据中提取出最能表征系统状态的变量。同时,模式分类算法也可以应用到设备的故障诊断和预测等领域。因此,如何对各领域产生的非平衡小样本数据集进行分析和处理已经成为一项重要课题。
尤其从20世纪90年代以来,随着机器学习和数据挖掘技术的进一步发展,数据不仅呈现出维数高的特点,同时其包含标记信息(例如类别)的样本数目却较少。所谓的不平衡小样本数据是指相对样本维度而言,样本数目过少,而且不同类别的样本数目及分布相差很多。小样本的概念则强调的是相比样本维度,样本数目较少。传统的机器学习方法一般都是建立在各类样本的数目及分布大致平衡的基础之上。对于各类样本出现不平衡时,传统的学习方法的性能往往会严重变坏。极端情况下,会导致学习建立的模型失去意义。因此,非平衡小样本问题的研究一直是机器学习和数据挖掘技术的热点[1]。
1.2国内外研究现状分析
1.2.1 非平衡数据方面
2002 年 Chawla[2] 等人提出了经典的智能型的过采样技术人工合成少数类算法(Synthetic Minority Over-sampling Technique, SMOTE),该算法在正例样本之间随机插入人工合成样本。它可以有效解决传统过采样技术由于决策域变小而引起的分类器过拟合现象。2009 年Show-Jane[3] 等提出基于聚类的欠抽样法,该方法首先将数据聚类然后再欠抽样。2004 年 Ferrir[4]分析了分类精度不适合不平衡数据集的分类性能度量指标的原因,并给出 ROC 曲线方法,自此 ROC 曲线法迅速成为常用的不平衡数据集上建立的分类器的性能度量指标。李秋洁.茅耀斌.王执铨.[5]基于Boosting的不平衡数据分类算法研究。非平衡数据在医疗诊断、雷达图像监测、诈骗检测、金融贷款管理、企业破产预测、电信设备故障预测等[6]领域中有着广泛的应用前景和现实意义
1.2.2 在特征提取方面:
特征提取与特征选择的最终结果是获得一个关于原数据集紧致的低维表示。早期的统计方法目的是得到数据在低维空间的可视化投影,从而发现数据集的聚类、空间分布等结构特性。征提取技术可根据变换方式分为线性方法与非线性方法。典型的特征提取方法包括主成分分析(PCA)与线性判别分析。
近年来随着谱图理论的发展和应用,基于谱图理论的一些学习方法相继被提出。典型的基于图的降维方法有拉普拉斯特征值映射法(Laplacian Eigenmaps,LE),该方法由 Mikhail [7]等人在 2002 年提出来。此方法利用近邻图来刻画数据间的相似和相邻程度。
在 LE 算法的基础之上,2003年X. He[8]等提出了LE算法的线性近似版本即局部保持投影算法(Locality Preserving Projections, LPP)。LE 算法和 LPP 算法都是典型的流形学习算法。主成分分析又称为主分量分析(PCA),由 Pearson 引入。卡亨南在概率论的框架下也独立的研究出 PCA,随后 Loeve[9]做了推广。郭颖婕等[10]将随机森林分类器和K-Means聚类降釆样方法相结合,提出了一种新的植物抗性基因识别算法,取得了良好的识别效果。李飞等[11]使用随机森林方法来分析想象运动实验中的高维脑电特征,按照不同特征在随机森林的构建过程中被选用于分支次数的不同,提出了一种比较有效的特征优选方法。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。