文献综述
摘要:
随着互联网的高速发展,在互联网搜索服务中,搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中不可或缺的组成部分。本文通过Python实现了爬虫程序。本论文从网络爬虫的应用出发,探讨了网络爬虫定义、分类和在搜索引擎中的作用,以及目前网络爬虫的发展状况,还讨论了基于Python对网络爬虫系统的设计与实现的优势。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Python实现了一个网络爬虫的程序,并对其运行结果做了分析。通过这一爬虫程序,可以搜集某一站点或多个站点的URL。
正文:
1、网络爬虫定义
网络爬虫也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证超链接和HTML代码,用于网络抓取。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。
2、网络爬虫分类
(1)通用网络爬虫。通用网络爬虫又称全网爬虫,爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。常用的爬行策略有:深度优先策略、广度优先策略。
(2)聚焦网络爬虫。聚焦网络爬虫,又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。