基于机器学习算法的学生舆情分析研究文献综述-文献综述网

一、文献综述

（一）国内外研究现状

根据目前研究情况，国内外现在社会舆情分析主要在两个方面进行，一是对文本的主题探测，二是对文本的情绪趋向判定。舆情系统的主要构成也分成两部分，一是对数据的精准抓取，二是对数据的精确分析。

根据调查，现在流行的数据抓取主要使用网络爬虫。网络爬虫，主要是通过一个初始网络链接，根据特定规则找到它的子网页链接，再根据对网页结构的分析，抓取一些自己想要的特定的数据。对于网络爬虫，有以下几个点需要注意：

1）初始url设定：初始url决定了之后搜索网页的总范围

2）爬取策略选择，对于爬取策略，主要有以下三种：

2.1）深度优先搜索策略：深度优先搜索策略在网络爬虫早期使用的较为广泛。它把初始网页看作是初始结点，把子页面看成是邻接结点，一层一层往下传递，最终形成一个图的逻辑结构。它通过访问初始结点，再访问该结点的第一个邻接结点，若该邻接结点也有未访问的邻接结点，则按照同样的逻辑往下，直到结点没有未访问的邻接结点（即该结点对应的页面没有子链接页面，或者子链接页面都已经访问过）。然后再返回上层结点的第二个未访问的邻接结点，照上面的逻辑进行整个图的遍历。该方法实现比较简单，但是缺陷也比较明显，即，当web页面的深度，则搜索过程需要耗费大量时间。

2.2）广度优先搜索策略：深度优先搜索策略则是按照树的层级来访问的。同样把web网站的结构看成是一个图，先把初始结点（即初始url）加入队列，然后把队列头结点（此时里面存的就是根结点）推出（即表示访问过），且同时把该结点的未访问的邻接结点依次加入队尾，再不断的重复第一个过程，知道访问了所有的结点。这种策略的优点是，会把有价值的网页（跟初始页面越近越有价值）优先加入访问序列，不会像深度优先搜索一样在过深的结点里跳不出来，造成过多的时间浪费在不重要页面访问上。但是该策略也有缺陷，即，若用来爬取里初始url较远的嵌套较多的边缘网页集，会浪费较多的时间和资源。

2.3）最佳优先搜索策略：最佳优先搜索策略，前提是有一个筛选规则，该规则能筛选与原网页相似度高的，与主题相关性强的页面。所以实现该策略，同样是一个队列，先把初始结点加入队列，然后把队列头结点推出，再把其为访问过的邻接结点经过筛选规则筛选后，加入依次加入队列。该策略优点在于可以初步筛选掉很多的页面，可以节约大量时间和资源。但是缺陷也明显，若是筛选规则不好，很容易把真正具有价值的页面筛选掉，比如，筛选掉由于规则不好而评分低但是价值高的页面，或者是筛选掉虽然本身评分低但是子页面评分很高的页面。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于机器学习算法的学生舆情分析研究文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章