基于网络爬虫的江苏省气候信息分析与研究文献综述

 2022-04-25 22:22:43

文献综述

  1. 国内外研究现状

全球气候变暖已经成为不可逆转的趋势,不仅导致全球气候的显著变化,也对经济的发展产生深远影响[1]。全球气候变化对农业生产和农业生态系统的影响主要与以下几个生态因子相关:大气中CO2浓度升高、气温升高及降水量的变化等[2]。中国作为农业大国,农业发展受气候影响显著[3],研究气候的变化成为当前经济发展的关键,但是气候变化因子之间的影响的机制还存在很大不确定性[4]。区域气候形成与多种因素有关:包括局地地形、水体、城市、生态系统和植被覆盖等,鉴于各地气候特征各异,运用全球模式研究区域气候存在较大的局限性,相比之下,区域气候模式拥有更高的分辨率[5]

因此,本研究选取江苏省作为区域气候的研究对象,通过获得江苏省近三十年的主要气候数据,并对其进行系统的研究分析,从而得出具体结论。江苏省作为长江龙头区段,是长江的重要流经省份[6],经济发展在很大程度上依赖长江,而长江的水量变化主要由降水量所决定。近年来,随着温室效应的加剧,气候逐渐变暖,对江苏省很多领域的发展带来了新的挑战,很多专家开展了一系列关于气候变化的研究。

邢兰芹等人运用Miami和Thornthwaite Memorial模型来研究江苏省1971—2010年气候生产潜力的变化,得出气候生产潜力受年均降水的影响较小,受温度的影响相对更大的结论[7]。丁从慧等人利用江苏省60个气象台站1961-2012年地面气象的观测资料,运用Reg CM4.0区域气候模式模拟的RCP4.5和RCP8.5排放情景下数据,分析江苏省近52年的农业气候资源的变化趋势,发现近年来太阳总辐射呈下降的趋势[8]。夏露等人运用统计学方法,引入气候趋势系数,分析了江苏地区在全球变暖的气候背景下,气温、降水变化与时间序列的相关性,发现从1960-2012年江苏省地区呈增温增湿的总体趋势[9]。陈至等人利用1960—2012年江苏省12个气象站的逐日降水资料,通过线性倾向估计、Mann-Kendall法分析各量级降水量和雨日的变化趋势和突变情况,发现近年来江苏省降水更趋于集中,极端降水的强度增大,引发洪涝灾害的可能性也随之增大[10]

以上研究的原始数据大多来自江苏省各地气象站,数据具有真实性,但数据获取有较大的难度,且随着计算机及网络的广泛应用,网络数据成为数据的主要来源,然而网络信息及数据庞杂,获取有用的数据就成为研究者最需要考虑的问题。Python作为当前网络开发的一门重要语言,以其简单易学的特点被广泛应用,如今已经成为网络技术的基础,而Python中的网络爬虫技术则可以有效地获取关键数据信息,以其高效准确地获取数据的重要特点,被广泛的应用于各个领域[11,12,13]

该技术是一种按照设计者所设定的算法规则,自动抓取特定网页信息的程序或者脚本。网络爬虫的优点在于,它可以将整个网页完整爬取下来,而且具有高度的自定义性,可以抓取所需要的数据,设计者可以根据需求来改善爬虫程序,使其删除冗余信息而保存有用的数据[14,15,16]。Python中的第三方HTTP库——Requests库被爬虫程序应用者广泛使用[13]。Requests集成了定制请求头部、发送请求、传递URL参数、获取规定网页内容等多种函数[17]。通过Requests库,能够方便实现网络数据的爬取。网络爬虫按照系统结构和实现技术,大致可以分为四种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫[18]。其中,聚焦爬虫是一种主题网络爬虫,是近年来研究的热点[19,20],以其对数据的针对性使运行速度更快。网页的抓取策略有深度优先、广度优先和最佳优先三种。实际的网络爬虫系统通常是几种爬虫技术相结合实现的[18]

网络爬虫技术很早便被开始开发应用:Google在1998年提出了mater-slave (主从)分布式爬虫模型[21]。Cho等人(Cho et al,1998)采用广度优先的排序方法做了第一份抓取策略的研究,抓取的数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。Najork和Wiener (Najork and Wiener, 2001)运用实际的爬虫,采用广度优先研究对3.28亿个网页,发现广度优先方法会较早的抓到PageRank高的页面。Abiteboul (Abiteboul 等人, 2003),设计了一种基于OPIC(在线页面重要指数)的抓取战略,这种算法速度很快,但没有在真正的WEB页面测试。Boldi等人(Boldi et al., 2004)的模拟检索实验运用网络上亿万个页面,测试广度优先和深度优先,随机序列和有序序列。Baeza-Yates等人(Baeza-Yates et al., 2005) 在从不同域名的子网站上获取的300万个页面上进行模拟实验,比较若干个抓取策略,证明了OPIC策略和站点队列长度比广度优先要好,抓取也更加有效。Daneshpajouh等人(Daneshpajouh et al., 2008)设计了一个用于寻找好种子的社区,这种方法可以从以前抓取页面之中找到好的种子,使得迭代次数明显小于使用随机种子的检索方法,提高了检索的效率。

近年来,很多研究者根据爬虫技术的原理对网络数据进行爬取,进行数据的采集,提高了数据获取的效率。张云伟等人提出了一种面向农业信息的主题爬虫的设计方案,能有效地过滤大部分非农业信息网页[22]。刘建成等人基于网络爬虫提出研建森林经营知识采集系统,该系统具有高主题相关度、高准确率、低重复度等特点[23]。王思敏等人设计了一种基于爬虫技术的数字资源自动监测系统,降低了软件的复杂度[24]。邓世广等人基于Python爬虫技术,进行高精度定位结果的地震目录的自动下载,然后利用获取的数据进行地震目录更新[25]

本研究通过运用Python的网络爬虫技术,对具体算法和数据分析的流程进行设计规划,获取江苏省近三十年来主要的气候数据,然后对所获得的数据进行存储、转化处理和分析,对江苏省近年来的气候变化得出结论,并研究各主要气候因子之间的关系,研究结果可以为江苏省未来发展提供参考。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。