研究背景及意义
随着计算机和手机的普及,越来越多的用户选择在家看电影,这样既节省了时间也让用户可以享受到良好的个人体验,不过近年来各类题材的电影层出不穷,电影质量也是参差不齐,观众稍不留意就可能遭受低评分影片的侵扰。豆瓣网就很好地利用这一点,让所有网民都可以对影片进行打分,并且做出客观评价,网民可以通过对评分评价的分析,来判断自己是否观看此片。本研究是基于大数据背景下,利用Python丰富的标准库,研究网络爬虫的原理并实现电影网络数据的获取,进一步对获得的数据进行可视化显示和数据分析,让用户搜索到最适合自己的影片。
- 网络爬虫的发展及应用
1.发展情况
随着网络技术的迅猛发展,网络已经成为信息的载体,随处可见.打开网络,大量的信息充斥而来。如何有效提取并利用网络中有价值的信息将会成为未来一个很大的挑战。网络爬虫实质是一个程序,它可以自动地下载网页,根据特定的需求,爬取网页的某些内容和信息,可以选择性地从网络上抓取相关网页和链接,为面向主题的用户提供数据资源。
网络爬虫源于上个世纪90年代的Google等搜索引擎,爬虫用于抓取互联网上的Web页面,再由搜索引擎进行索引和存储,从而为我们提供检索服务。大量的网络爬虫开源系统,使得开发一个数据抓取系统变得容易得很多,但是也正是由于这个原因,高度封装的开源系统使得很少有人愿意深入理解其中的关键技术,导致这种途径生产出来的爬虫质量低下。现阶段网络爬虫存在一些不太好的现象,这主要可以由于低质量的个人小型爬虫导致的。主要问题表现在:
1.不遵守Robots协议,连接一个Web服务器之前不检测虚拟根目录下是否有Robots.txt文件,从而造成许多不必要的问题。
2.不考虑优化,一般开源系统实现了宽度优先或深度优先的策略,但是并没有对Web页面的具体特征做优化。
2.实际应用
本次研究将首先对豆瓣网的Robots协议进行分析,在符合网络规范基础上对数据进行爬取,为维护互联网爬虫项目规范尽自己一份力,并呼吁大家共同努力,在互联网中对自己的行为负责;其次对爬虫程序进行优化,分析豆瓣网页的源代码,通过对网页源代码的分析总结,采用合理框架对内容进行获取,不断提高爬取速度,以尽可能减少时间上的损失。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。