基于机器学习的中文期刊论文自动分类研究文献综述

 2021-10-21 17:20:40

毕业论文课题相关文献综述

选题的意义和目的:伴随着人工智能和机器学习的快速发展,当前的科研成果正处于爆炸式增长,据官方统计人工智能和机器学习领域的顶级会议神经信息处理系统大会(Neural Information Processing Systems,NeurIPS)在2018年实际收到4900篇论文投稿同2017年增加0.53倍。

人们对于科研的热情也日益高涨,虽然论文数量正在增长,但是滥竽充数者有之,学者们对于高质量的科研论文的需求也急剧增加。

可以将机器学习的思想运用到论文的自动分类,寻找一个合适的机器学习模型来实现论文的自动分类能提高分类的正确率和效率。

论文的分类问题其实就是短文本的信息处理的问题,短文本具有稀疏、短小缺乏语义等特征,目前对于短文本的出来模型有词袋模型(bag-of-word)、朴素贝叶斯(Naive Bayes)模型、K近邻算法(K-Nearest Neighbor)、决策树(Decision Tree)系列模型和支持向量机(Support Vector Machine,SVM)模型还有就是BP神经网络算法。

其中词袋模型、支持向量机模型和决策树模型虽然可以有效的对论文进行自动分类但是实验的效率和准确率较低,缺乏层次语义理解。

国内外研究现状自然语言处理技术从二十世纪五十年代至今已经发展了几十年。

国外Mikolov提出了连续词袋模型,将高维稀疏的词语表示嵌入到低维稠密的特征空间。

Sida Wang将朴素贝叶斯模型的对数比率最为SVM模型的特征值,提出基于朴素贝叶斯模型特征的支持向量级模型。

国外学者的研究对象是英语文本的自动分类,国内学者的研究对象是中文文本自动分类。

中国传媒大学方苗,张浦,辽津,洪大武等人基于机器学习算法的文本分类系统包括四个过程:文本预处理、文本表示、分类器训练和分类。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。