文献综述
近年来微博短文本的情感趋向分析得到了广大研究者们的关注,一些重要的模型和工作得到了研究,并在实际应用中取得了一定的进展。主要是对传统情感分析模型和微博情感分析模型两个不同方向对相关工作进行介绍。
- 传统情感分析模型
1 基于情感词典
情感词典中包含一些带有较强情感意味的词汇,利用这些信息可以直接对组成文本的词汇进行情感标注,进而对整个文本进行情感分析。基于词典的方法不需要人工情感标注来训练模型,分析表现强烈依赖于所使用的情感词典。另一方面,实际情感分析问题常常着眼于某一特定领域的语料库,情感词典通常只能提供一些领城无关词汇的情感信息,对于特定领域语料库的指导往往是有限的。
2 监督机器学习模型
充分利用了人工情感标注所提供的监督信息,该监督作用对特定领域的语料库具有一定的针对性,是一般情感词典所不能取代的,该监督学习模型能够取得比传统基于词典的方法更优秀的表现。另一方面,Bermingham 和Smeaton对比分析了支持向量机(SVM, Support Vector Machine)和多元朴素贝叶斯(MNB,Multinomial Naive Bayesian)这两种模型在长文本和短文本上进行情感分析的表现。得到的结论是,支持向量机在长文本上的表现更优,而多元朴素贝叶斯在短文本上的表现更优。实验结果也在另一个层面上说明了长文本和短文本在情感分析问题上存在着一定的差异。
3 半监督学习模型
SINDHWANI V和MELVILLE P提出使用图作正则项的模型用于情感分析。该模型构建了一个“词汇-文档”关系的二部图,在“词汇-文档”正则项的基础上又同时结合了词典知识。该模型的建模是通过隐变量展开的,这使得模型的自由度变得更高,同时也使得模型训练需要更多的有标注数据。
另外,作者提出了一个基于矩阵分解的半监督学习方法用于情感分析,主要运用了非负矩阵三元分解的方法。模型构建了一个“词汇-文档”矩阵,该矩阵将有标注数据和无标注数据都包含在内。模型在该矩阵上进行非负矩阵三元分解。通过矩阵分解对未标注数据和有标注数据进行关联是另外一种利用未标注数据的方式。然而,微博情感分析任务中丰富的社交网络关系信息在上述这些模型中并未得到利用。提出的模型不是一个凸优化问题,在模型训练时,求解这一非凸优化问题是高代价的。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。