- 文献综述:
自然语言处理一直是热门研究领域。传统方法有基于词频、词共现的分类方法通常得不到较好的效果,比如贝叶斯方法、K-邻近算法等等。在2006年深度学习的概念被提出,随后应用于计算机视觉、自然语言处理、语音识别等领域,成功地取得诸多突破性的进展,其中的递归神经网络更是被广泛运用于解决词性标注、翻译、命名实体识别等自然语言处理问题。把多数自然语言处理问题抽象成序列生成序列,并采用合适的递归神经网络结构处理,成为当前的热点和主流,典型的有卷积神经网络(CNN)、循环神经网络(RNN)以及长短期记忆网络(LSTM)成为短文本分类常用的方法。
(1)贝叶斯方法
朴素贝叶斯是基于条件独立性和贝叶斯定理的分类方法。1960年Maron和Kuhns[1]首先提出了朴素贝叶斯分类方法,是一种基于概率模型的分类方法。朴素贝叶斯的“朴素”得名于条件独立性和位置独立性两个基本假设。其中,条件独立假设是假设属性值之间相互独立,即词项之间不存在依赖关系;位置独立假设是指词项在文档中出现的位置对概率的计算没有影响。显然,这两个假设在实际文档中不成立,原因是文档中词项之间存在条件依赖关系,且词项在文档中出现的位置对分类的贡献也不同。
(2)K-邻近算法(KNN)
k-邻近邻法(KNN)是一种有监督的机器学习算法,它预先存储所有可用的样本,并基于相似性度量(如距离函数)对新的样本进行分类。上海师范大学的黄超等人[2]针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能。
(3)隐含语义搜索算法
纽约大学的Sarah Zelikovitz等人[3]通过隐含语义搜索算法对短文本的语义进行分析,将文本中的词语映射到潜在语义空间,来捕获词语之间的相关性,提升分类效果;清华大学的 Chen等人[2]通过改进的隐含狄利克雷分布模型,将短文本中的单词与多个粒度的话题相关联,来拓宽短文本特征。
(4)分布式词语表示算法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。