基于多线程技术爬虫研发-以wos为例文献综述

 2023-11-16 11:50:31

文献综述

1、研究现状

随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料,同时尽可能忽略掉不相关的信息,搜索引擎技术应运而生。搜索引擎一般由搜集信息、整理信息、接受查询三个部分组成。其中核心部分之一搜集信息的部分就是通过网络爬虫来实现的。世界上第一个网络爬虫是由麻省理工学院的马休·格雷在1993年写的。后来随着因特网的发展,出现了商用级别的搜索引擎。比如Google和Bing。北大天网是国内研究高性能爬虫的先行者,其开发的爬虫系统能胜任10亿级别的网页数据。目前,大多数爬虫是用后台脚本类语言写的,其中Python是用的最多最广的,并且诞生了很多优秀的库和框架,如scrapy、BeautifulSoup、pyquery等。

2、发展趋势

信息聚合是互联网公司的基本需求。大数据时代到来,人们对数据有着更强烈的需求。近年来,靠爬虫聚合信息的创业公司不断涌现,例如去哪儿、今日头条、美丽说、蘑菇街等。这意味着随着数据时代和智能化时代到来,爬虫作为重要的数据来源,自身需要一些技术提升来适应时代的高可靠,大规模,高效率开发需求。

3、研究意义

一个采集速度快,数据更新及时的高可靠爬虫系统,不仅仅为搜索者提供基础数据,也可以为数据分析、挖掘提供基础数据,从而方便人们获得信息、知识。以web of science为例,由于权限的限制,大部分高校学生、教师只能在学校区域内访问。但如果事先进行数据爬取,即使人在外地,也能获取想要的信息。

4、文献综述

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。