KNN算法文献综述
摘要:分类是数据挖掘中的核心和基础技术,在经营、决策、管理、科学研究等多个领域都有着广泛的应用。目前主要的分类技术包括决策树、贝叶斯分类、KNN分类、人工神经网络等。在这些方法中,KNN分类是一种简单、有效、非参数的方法,现已经广泛应用于文本分类、模式识别、图像及空间分类等领域。KNN算法是著名的模式识别统计学方法,是最好的文本分类算法之一。本文对KNN算法及相关文献进行总结,详细介绍KNN算法的思想、原理、实现步骤,并从多个方面和角度分析了算法的优缺点及其各种改进方案。最后介绍了KNN算法的应用领域,并重点说明其在文本分类中的实现。
关键词:KNN算法;机器学习;文本分类;KNN算法优化
- KNN算法概述
(一)KNN算法简介
KNN(K-Nearestensp;Neighbor,-最近邻)分类算法,是一个理论上比较成熟的方法,也是分类任务中最常应用的算法之一,实际上该算法也常常用于评估和预测。KNN算法是基于示例学习的一种方法,在基于示例学习中保存有训练数据集,对一个新的未分类记录进行分类时,将在训练数据集中寻找该未分类记录最相似的记录集合。
KNN算法的思路是:如果一个样本在特征空间中的个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别[1]。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。ensp;KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的特征最接近。
(二)KNN算法原理
KNN算法是一种简洁而有效的非参数分类方法,该算法最初由Cover和Hart提出的,用于解决文本的分类问题。KNN算法是最近邻算法的一个推广。该规则是将一个测试数据点分类为与它最接近的个近邻中出现最多的那个类别。KNN算法从测试样本点开始生长,不断的扩大区域,直到包含进个训练样本点为止,并且把测试样本点归为这最近的个训练样本点中出现频率最大的类别。其中测试样本与训练样本的相似度一般使用欧式距离测量。ensp;如果值固定,并且允许训练样本个数趋向于无穷大,那么,所有的这个近邻都将收敛于。如同最近邻规则一样,个近邻的标记都是随机变量,概率,都是相互独立的。假设是较大的那个后验概率,那么根据贝叶斯分类规则,则选取类别。而最近邻规则以概率选取类别。而根据KNN算法规则,只有当个最近邻中的大多数的标记记为,才判定为类别。做出这样断定的概率为:
ensp;
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。