有监督学习算法在用户评论文本分类方面的应用研究文献综述
摘要:文本分类是文本挖掘的重要分支,也是自然语言处理这一学术领域中不可或缺的部分。学术领域常见的有监督文本分类算法包括朴素贝叶斯算法、K近邻算法KNN以及支持向量机SVM等,另外也有使用标记数据进行建模的神经网络算法,或者使用决策树来进行中文文本分类。本文中将会结合相关的理论知识,简要分析不同算法特征,并比较他们在进行文本分类时的异同点。
关键词:中文文本分类;有监督学习;朴素贝叶斯;KNN;SVM;
一、文献综述
在CNKI中国文献数据库中,以“中文文本分类”为关键词进行精确检索,找到近十年发布的相关文献合计497篇。
通过对这497篇文献的数据可视化,可以发现近十年中该类主题的文献数量呈现波动上升趋势。2011年内入库34篇,而在2020年间入库了57篇。从数据上看,中文文本分类这一问题正在受到学术界的关注,也从另一方面说明了大量中文文本数据的处理需求正在增加。
对这些文献进行大致的分类,可以找到基于神经网络、K近邻、SVM、朴素贝叶斯等不同的机器学习算法对中文文本分类进行研究或应用的文献。其中贝叶斯、KNN与SVM这三类算法的相关文献数量最多,也存在部分使用神经网络或随机森林进行中文文本分类的文献。
所以接下来笔者会分别对基于贝叶斯、KNN与SVM算法的中文文本分类文献进行概括和简单分析。
(一) 基于贝叶斯算法的文本分类文献概括
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。