、文献综述(或调研报告):
针对当前网络社交媒体上攻击性语言的广泛存在,以及其所带来的危害不容忽视的严肃现象,不少学者都曾研究过解决问题的策略或者举行研讨会来商议对策。有许多学者已经做过关于语言攻击的研究,但是很多都是某一种小类型的攻击,比如网络钓鱼、仇恨言论、激进言论、种族主义等等,某一种类型的攻击研究无法保证攻击性言论识别的完整性,同时,在这些研究存在差距的同时,也包含一定的重复性,这就导致缺乏一个可用的标准来识别攻击性语言。对此有学者提出了一种双向类型学,用于将攻击性语言进行识别和分类。两个量表分别为攻击的目标(个人或群体)和语言的性质(明显攻击和隐蔽攻击),但很显然有的攻击可以针对个人也可以针对群体,因此第一个量表的标准没法将目标模糊的攻击言语分类。
第一次关于网络钓鱼,侵略和网络欺凌的研讨会(TRAC-1)的一部分组织的侵略识别共同任务的报告和调查结果提出将文本分为3类-明显的侵略,隐蔽的侵略和不侵犯。他们的方法是提供一定带注释的训练数据集给参与的团队,最终汇报多个团队采用不用方法提交的系统将攻击性语言分类的准确程度。从最终的结果来看,深度神经网络是一个有效的分类方法。但是从攻击性语言的分类上看,该文章直接忽视了攻击目标的分类,这显然是不够完善的,对攻击目标的研究能使我们关注社会上的易被攻击群体,对解决攻击性言语的存在是一个有力的推进手段。
还有学者认为攻击性语言不能只做简单的显性和隐蔽的区分,还要考虑攻击的程度。仇恨言论以及一般的侮辱性语言显然带来的伤害是不同的。《从仇恨言论中辨别亵渎语言》文章将社交媒体语言分类为仇恨言论、一般的亵渎以及无攻击性三类。文章介绍对测试数据进行了单一分类器实验、合奏分类器实验以及元分类器实验,并汇报了不同分类器的准确程度。同时注意到,结果中,真实无攻击性的分类准确率最高,而将仇恨言论归类为一般性攻击和将一般性攻击归类为仇恨言论数据却很多。这是由于,从仇恨言论中辨别一般的亵渎语言具有明显的困难性,带有粗俗和淫秽的词语并不能简单地成为区分的标准,而是需要更加深入的分析文本中上下文的语义。并且此种分类方法在涉及暗示或者讽刺语言时,往往识别不出语言的攻击性,因为文章只对语言攻击的程度进行了分类,没有考虑攻击的显隐性。
《自动仇恨语言检测和攻击性语言问题》也同样研究了仇恨语言和一般攻击性语言的问题,提出了采用特定词语区分外,还可以根据语言的句法特征来进行区分,比如基于种族民族,性别和性取向等特征,以及对他人的暴力威胁。当然,仇恨言论本就是一个比较主观的事物,在一些人看来是仇恨言论的语言,可能在另外的人看来只是一般性的亵渎,反之亦如此。文章采用了逻辑回归,决策树,随机森林等等许多不同的模型设计分类器,并让测试数据训练。结果反映了对仇恨言论和一般性攻击语言仍有一定的错误区分率,同时,作者对错误的分类分析了原因,主观偏见性成为最大的因素,这种主观性很难加入分类模型的算法。这同样也揭示了分类方法存在一定的局限性,对语言攻击程度需要更加深入的研究。
BERT模型是谷歌最新的语言表示模型,它在11项NLP任务中取得了卓越的表现。BERT基于所有层中的左、右语境进行联合调整,来预训练深层双向表征,它采用了Masked LM的预训练方法来解决传统双向调节中“自己看到自己”的问题以及Next Sentence Prediction的预训练方法捕捉两个句子的联系。因此,采用BERT模型来解决这个课题任务是可行的。
参考文献:
- Davidson, T., Warmsley, D., Macy, M. and Weber, I. (2017) Automated Hate Speech Detection and the Problem of Offensive Language. Proceedings of ICWSM.
- Kumar, R., Ojha, A.K., Malmasi, S. and Zampieri, M. (2018) Benchmarking Aggression Identification in Social Media. In Proceedings of the First Workshop on Trolling, Aggression and Cyberbullying (TRAC). pp. 1-11.
- Malmasi, S., Zampieri, M. (2018) Challenges in Discriminating Profanity from Hate Speech. Journal of Experimental amp; Theoretical Artificial Intelligence. Volume 30, Issue 2, pp. 187-202. Taylor amp; Francis.
- Waseem, Z., Davidson, T., Warmsley, D. and Weber, I. (2017) Understanding Abuse: A Typology of Abusive Language Detection Subtasks. Proceedings of the Abusive Language Online Workshop.
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
资料编号:[176872]
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。