基于python的异构新闻网站爬虫系统的设计与实现文献综述-文献综述网

全文总字数：3889字

文献综述

1.研究背景和意义自从互联网问世以来，经过多年的发展，互联网站点的数量在不断地增长，互联网上的信息也在爆炸式增加，然而，由于商业因素等问题，这些网站在为我们提供有价值的信息的同时，还会包含其他信息，例如广告或者其他网站的链接。

链接可能是文字，图片等等。

这些额外的内容被称为噪声，通常与主题无关。

这些相对于正文内容无用的信息会降低我们阅读效率。

使用搜索引擎查询出的结果往往需要用户自己来判断网页的性质、内容的相关性，浪费用户的时间和精力。

在这种情况下，使用针对性设计的网络爬虫系统来获取用户所需要的思政相关内容，是一个不错的选择。

本课题与搜索引擎不同，它是一个自动获取网页的程序，可以有效的抓取针对性网页的数据内容，进行数据分析，根据用户的不同需求，通过数据可视化呈现给用户，并且可以自动保存在本地，方便使用。

现在大部分的爬虫项目都是爬取指定某个网站，网页结构固定，即便是二次爬取，也是同一网站下的相同规格的网页，而不是同时爬取不同规格的网页。

本课题的创新点就在于此。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。