文献综述
基于机器学习方法的向社交媒体信息敏感词的舆情处理系统,其关键在于通过机器学习分析技术对海量的用户数据进行基于敏感词的实时分析和过滤。敏感词,一般指管理上明令禁止的或容易引起受众个体不良反响的网络词汇,是应国家法律法规和各网站单位管理需要而设,因此总体上呈现大同小异的特点,但一般包含政治错误倾向、暴力煽动倾向、色情诱惑倾向等特点。敏感词过滤技术发展已久,但是随着信息的爆炸式发展,传统敏感词过滤技术无法对大量的信息进行实时过滤,并容易导致系统陷入瘫痪。 社交网络媒体舆情作为社会舆情的重要组成部分,其发展态势对社会舆情有着重要的影响。
一.国外敏感信息监测相关技术:
1.敏感信息模式识别技术:Regular Expression(正则表达式)
正则表达式在信息技术科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。它是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。一个正则表达式通常被称为一个模式(pattern),为用来描述或者匹配一系列符合某个句法规则的字符串。例如:“法轮功”、“法轮大法”和“转法轮”这三个字符串,都可以由“转?法轮(功|大法)”这个模式来描述。正则表达式是一项非常成熟的模式识别技术,许多程序设计语言都支持利用正则表达式进行字符串操作。正则表达式被广泛应用于网络平台、微博平台上敏感信息的模式识别,在网络舆论监测方面有着非常大的实用价值。
2.敏感信息规则标记技术:XML(可扩展标记语言)
可扩展标记语言(Extensible Markup Language,XML),“用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言”。XML 是从 1995 年开始有其雏形,并向 W3C(万维网联盟)提案,而在 1998 年二月发布为 W3C的标准(XML1.0),其相关技术和标准已经非常成熟,其应用也非常广泛。在微博舆情监测方面,可以使用 XML 作为敏感信息规则的标记语言。可以利用 XML 技术标记关于台湾当局机构方面的敏感词规则,即“台湾”不是给一个国家,那么它不能有“外交部长”。这种规则可以用于大学生微博言论中对于海峡两岸台湾问题敏感信息的监测。
3.敏感信息监测与校正技术:LanguageTool
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。