面向在线评论和论坛的建议挖掘文献综述

 2022-09-15 15:23:14

{title}{title}

  1. 文献综述(或调研报告):

1.问题定义。以前的工作试图通过两种方式定义建议;一种是提供一个类似词典的通用定义,比如:一个人说的一句话,通常是在特定的上下文中作为行动和/或行为的建议或指南。另一种方法是为建议提供特定于应用程序的定义,如:评论者希望更改现有产品或服务的句子。虽然第一个类别是通用的,适用于所有领域,但出版物列出了单个领域的评估建议挖掘。在我们对几个领域的注释研究中,我们注意到对建议的一般定义会导致注释者之间存在更高的分歧。另一方面,当相关工作中提供了特定于域和用例的定义时,仍然缺少正式的注释准则。重要的是,这些定义不能用于定义开放域建议挖掘的范围。

2.数据集的标注方法:使用把众包和专家标注结合的两步标注法,这会减少专家标注句子的数量。第一步,众包注解;Crowdflower平台用于众包注解。该平台提供了一组管理和分析工具,用于质量管理,以及与注释器的交互。为了符合批注任务的要求,Crowdflower的工作人员需要在10个测试语句中获得7/10的分数。评注员被要求从“给顾客的建议”或“其他声明”中为每句话选择一个标签。建议的定义完全留给注释者去理解。Crowdflower对每句话都选择了信心得分最高的答案。如果其中一个标签的置信度达到0.6或更高,我们将系统设置为不为语句寻找超过3个注释。每个语句至少有3个注释器,最多有5个注释器。每个标签的置信度评分是选择该标签的注释者的信任评分的加权和。信任评分由答题者在试题中的评分决定。这些建议是隐式和显式类型的混合,因为建议的定义不受注释器的限制。我们观察到,随着置信度的增加,标注建议中显式建议的比例增加。 第二步,专家注解;由于我们的目标是提取明确表达的建议,两位专家注释者进一步将Crowdflower平台最终标注为“给客户的建议”的句子分为明确的CTC建议和含蓄的CTC建议。因此,专家标注的句子数量远远小于两个数据集中的句子总数。识别明确建议的注释指引的要点如下:1.提出建议的意图和建议的行动或建议的实体应在句中明确说明。例如:尝尝隔壁面包店的杯子蛋糕。这个建议的其他明确形式可以是:我推荐隔壁面包店的杯子蛋糕,或者,你一定要尝尝隔壁面包店的杯子蛋糕。含蓄的形式可能是,隔壁面包店的杯子蛋糕很好吃。2.建议的目的应该是让顾客受益,而不应该仅仅是讽刺或玩笑。例如,如果玩家现在不工作,你可以用你的车把它碾过去。在专家注释者执行的注释之间计算kappa值0.86。第一阶段和第二阶段的数据集都可以免费用于研究。最后的数据集有三种标签:隐式CTC、显式CTC等。因此,这个数据集对于那些想要提取隐含建议的作品也是有用的。

3.算法选择;对于这一任务,之前已经研究了一些传统的文本分类方法,主要是基于规则和SVM分类器。每一种方法都只在单个工作中准备的数据集上进行评估。我们在所有可用的数据集上使用这两种方法来完成各种建议检测任务。然后我们对LSTM和CNN在这类文本分类任务中的可使用性进行了研究。支持向量机:支持向量机分类器在文本分类中得到了广泛的应用。我们利用标准的n-gram特征(uni, bi-gram)和我们之前的工作(Negi and Buitelaar, 2015)中提出的特征,使用SVM对分类器进行评估。这些特征是祈使句语气的顺序词序模式,感伤词网络获得的句子情感得分,以及句子中出现的关于nsubj依赖关系的信息。我们使用LibSVM6实现,其参数在Negi和Buitelaar(2015)中指定。不使用过采样,而是根据训练数据集中正负类的类分布,使用类权比进行类加权。基于深度学习的分类器: 最近关于基于深度学习的模型在一些自然语言处理任务中令人印象深刻的表现的发现,需要在建议挖掘这个领域中进行类似的实验。因此,我们提出了第一套基于深度学习的实验。我们实验了两种神经网络架构:LSTM和CNN。LSTM有效地捕获文本中的顺序信息,同时保留长期依赖关系。在用于文本分类的标准LSTM模型中,文本可以作为单词序列(一次一个单词)提供给输入层。另一方面,众所周知CNN能够有效地捕捉到时空结构的局部协关系,因此一般的直觉是CNN能够很好地捕捉到一个句子中不同位置的良好的n-gram特征。

参考文献列表:

1.Open Domain Suggestion Mining: Problem Definition and Datasets . Sapna Negi, Maarten de Rijke, and Paul Buitelaar. arXiv preprint arXiv:1806.02179 (2018)

2.Inducing Distant Supervision in Suggestion Mining through Part-of-Speech Embeddings Sapna Negi, and Paul Buitelaar. 'Inducing Distant Supervision in Suggestion Mining through Part-of-Speech Embeddings.' arXiv preprint arXiv:1709.07403 (2017).

3.A Study of Suggestions in Opinionated Texts and their automatic Detection. Sapna Negi, Kartik Asooja, Shubham Mehrotra, Paul Buitelaar. *SEM 2016, Co-located with ACL 2016, Berlin, Germany.

4.Sapna Negi, Paul Buitelaar Suggestion Mining from Opinionated Text In: Pozzi, F. A.; Fersini, E.; Messina, E.; Liu, B. (Eds.) The Handbook of Sentiment Analysis in Social Networks, Elsevier

5.Towards the Extraction of Customer-to-Customer Suggestions from Reviews . Sapna Negi and Paul Buitelaar. EMNLP 2015, Lisbon, Portugal

6.Caroline Brun and Caroline Hagege. Suggestion mining: Detecting suggestions for improvement in usersrsquo; comments. Research in Computing Science, 2013.

资料编号:[176869]

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。