一、文献综述
(一)国内外研究现状
根据目前研究情况,国内外现在社会舆情分析主要在两个方面进行,一是对文本的主题探测,二是对文本的情绪趋向判定。舆情系统的主要构成也分成两部分,一是对数据的精准抓取,二是对数据的精确分析。
根据调查,现在流行的数据抓取主要使用网络爬虫。网络爬虫,主要是通过一个初始网络链接,根据特定规则找到它的子网页链接,再根据对网页结构的分析,抓取一些自己想要的特定的数据。对于网络爬虫,有以下几个点需要注意:
1)初始url设定:初始url决定了之后搜索网页的总范围
2)爬取策略选择,对于爬取策略,主要有以下三种:
2.1)深度优先搜索策略:深度优先搜索策略在网络爬虫早期使用的较为广泛。它把初始网页看作是初始结点,把子页面看成是邻接结点,一层一层往下传递,最终形成一个图的逻辑结构。它通过访问初始结点,再访问该结点的第一个邻接结点,若该邻接结点也有未访问的邻接结点,则按照同样的逻辑往下,直到结点没有未访问的邻接结点(即该结点对应的页面没有子链接页面,或者子链接页面都已经访问过)。然后再返回上层结点的第二个未访问的邻接结点,照上面的逻辑进行整个图的遍历。该方法实现比较简单,但是缺陷也比较明显,即,当web页面的深度,则搜索过程需要耗费大量时间。
2.2)广度优先搜索策略:深度优先搜索策略则是按照树的层级来访问的。同样把web网站的结构看成是一个图,先把初始结点(即初始url)加入队列,然后把队列头结点(此时里面存的就是根结点)推出(即表示访问过),且同时把该结点的未访问的邻接结点依次加入队尾,再不断的重复第一个过程,知道访问了所有的结点。这种策略的优点是,会把有价值的网页(跟初始页面越近越有价值)优先加入访问序列,不会像深度优先搜索一样在过深的结点里跳不出来,造成过多的时间浪费在不重要页面访问上。但是该策略也有缺陷,即,若用来爬取里初始url较远的嵌套较多的边缘网页集,会浪费较多的时间和资源。
2.3)最佳优先搜索策略:最佳优先搜索策略,前提是有一个筛选规则,该规则能筛选与原网页相似度高的,与主题相关性强的页面。所以实现该策略,同样是一个队列,先把初始结点加入队列,然后把队列头结点推出,再把其为访问过的邻接结点经过筛选规则筛选后,加入依次加入队列。该策略优点在于可以初步筛选掉很多的页面,可以节约大量时间和资源。但是缺陷也明显,若是筛选规则不好,很容易把真正具有价值的页面筛选掉,比如,筛选掉由于规则不好而评分低但是价值高的页面,或者是筛选掉虽然本身评分低但是子页面评分很高的页面。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。