基于python的异构新闻网站爬虫系统的设计与实现文献综述

 2021-12-25 15:51:01

全文总字数:3889字

文献综述

1.研究背景和意义自从互联网问世以来,经过多年的发展,互联网站点的数量在不断地增长,互联网上的信息也在爆炸式增加,然而,由于商业因素等问题,这些网站在为我们提供有价值的信息的同时,还会包含其他信息,例如广告或者其他网站的链接。

链接可能是文字,图片等等。

这些额外的内容被称为噪声,通常与主题无关。

这些相对于正文内容无用的信息会降低我们阅读效率。

使用搜索引擎查询出的结果往往需要用户自己来判断网页的性质、内容的相关性,浪费用户的时间和精力。

在这种情况下,使用针对性设计的网络爬虫系统来获取用户所需要的思政相关内容,是一个不错的选择。

本课题与搜索引擎不同,它是一个自动获取网页的程序,可以有效的抓取针对性网页的数据内容,进行数据分析,根据用户的不同需求,通过数据可视化呈现给用户,并且可以自动保存在本地,方便使用。

现在大部分的爬虫项目都是爬取指定某个网站,网页结构固定,即便是二次爬取,也是同一网站下的相同规格的网页,而不是同时爬取不同规格的网页。

本课题的创新点就在于此。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。