面向金融领域的汉语短文本分类方法研究文献综述-文献综述网

文献综述：

自然语言处理一直是热门研究领域。传统方法有基于词频、词共现的分类方法通常得不到较好的效果，比如贝叶斯方法、K－邻近算法等等。在2006年深度学习的概念被提出，随后应用于计算机视觉、自然语言处理、语音识别等领域，成功地取得诸多突破性的进展，其中的递归神经网络更是被广泛运用于解决词性标注、翻译、命名实体识别等自然语言处理问题。把多数自然语言处理问题抽象成序列生成序列，并采用合适的递归神经网络结构处理，成为当前的热点和主流，典型的有卷积神经网络（CNN）、循环神经网络（RNN）以及长短期记忆网络（LSTM）成为短文本分类常用的方法。

(1)贝叶斯方法

朴素贝叶斯是基于条件独立性和贝叶斯定理的分类方法。1960年Maron和Kuhns^[1]首先提出了朴素贝叶斯分类方法，是一种基于概率模型的分类方法。朴素贝叶斯的“朴素”得名于条件独立性和位置独立性两个基本假设。其中，条件独立假设是假设属性值之间相互独立，即词项之间不存在依赖关系；位置独立假设是指词项在文档中出现的位置对概率的计算没有影响。显然，这两个假设在实际文档中不成立，原因是文档中词项之间存在条件依赖关系，且词项在文档中出现的位置对分类的贡献也不同。

(2)K-邻近算法（KNN）

k-邻近邻法(KNN)是一种有监督的机器学习算法，它预先存储所有可用的样本，并基于相似性度量(如距离函数)对新的样本进行分类。上海师范大学的黄超等人^[2]针对待分类文本需要和大量训练集样本进行相似度计算的问题，提出一种基于分组中心向量的KNN算法，对类别内的样本集分组求出各组中心向量，使其重新代表训练库计算相似度，降低计算复杂度，提升算法的分类性能。

(3)隐含语义搜索算法

纽约大学的Sarah Zelikovitz等人^[3]通过隐含语义搜索算法对短文本的语义进行分析，将文本中的词语映射到潜在语义空间，来捕获词语之间的相关性，提升分类效果；清华大学的 Chen等人^[2]通过改进的隐含狄利克雷分布模型，将短文本中的单词与多个粒度的话题相关联，来拓宽短文本特征。

(4)分布式词语表示算法

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

面向金融领域的汉语短文本分类方法研究文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章