一、文献综述
随着移动互联网的高速发展,信息化建设的广泛开展,社交娱乐和电子商务等网络平台带来了海量非结构化文本,这些文本有些对产品提出了直接的改进建议,并带有情感极性,可以用于舆情分析、产品评论等任务上。面对这些海量评论文本数据,人工分析成本高、效率低,显然不符合当前形势,因此需要通过计算机利用自然语言处理技术挖掘其中的有效信息,方便企业对用户、市场的变化做出迅速的变化。
(一)国内外研究现状
文本分类技术的研究最早可追溯到二十世纪50年代末,Luhn[1]第一次在文本分类中应用了词频统计,在文本分类研究做了开创性工作。1960年,Maron[2]等人发布了文本分类研究领域的第一篇学术论文,接着越来越多的人员加入该领域的研究及应用。
在机器学习技术兴起之前,文本分类的实现方法大多基于人工或者一些专家规则对文本进行匹配。前者会投入大量的人力,而后者随着数据的丰富程度需要不断完善规则且准确性会逐渐下降,维护成本很高,并且该方法可移植性和通用性很差,一旦分类领域发生变化,原先专家制定的分类规则将不再适用。文本技术发展到二十世纪90年代,随着机器学习的推广,尤其是深度学习的蓬勃发展,文本分类主要转变为机器学习实现,并很快成为文本分类领域新的主流技术。相比专家系统,应用了机器学习方法的文本分类效果和性能得到了明显的提高,并且具有更好的通用性。
文本分类方法主要包括经典的机器学习分类方法及基于深度学习的分类方法。在传统的机器学习方法中,主要涉及的技术有分词技术以及特征提取方法。而基于深度学习的分类方法免去了人工特征提取的过程,并且更好地利用词序的特征,其分类精度会随着样本的增加而提高。使用深度学习进行文本分类主要有两个关键技术——文本的分布式表示和深度学习算法的选择。
在将文本表示为向量之前,需要对文本进行一些预处理,包括文本清洗、分词、去除低频或停用词等。分词是将原先连续的语句段落按照一定的切分算法将其拆分成相应的字、词集合的过程。目前常用的分词技术有基于字符匹配方法的分词、基于理解方法的分词和基于统计方法的分词。在文本处理中,Lo[3]等将停用词定义为经常出现在文本中但对信息检索没有帮助的应该消除的词语。目前可以通过构建停用词表去除停用词,而停用词有通用和专用之分。目前主流的通用中文停用词表有百度停用词表、哈工大停用词表。
由于文本文档是大量字符的集合,由非结构化或半结构化的数字信息组成,所以不能直接被分类器识别,必须转换成一种计算机可识别的语言。针对文本向量表示模型,包括基于统计方法的文本向量表示模型和基于深度学习的文本向量表示模型。
(二)研究主要成果
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。