全文总字数:4408字
文献综述
1. 研究背景1.1. 岗位信息大数据挖掘随着互联网的不断发展,各类社交媒体、应用网站中的数据量呈指数级增长,大数据时代来临,基于对数据的挖掘和数据清洗,可以从庞杂的大数据中提取出有效的信息,并通过对数据分析对有效信息归类并针对不同人群的需求提供数据信息。
毕业生在网上获取岗位信息时,根据现有的职位信息数据分析系统得到的职位信息越来越碎片化,面对收集到的大量的职位信息数据难以迅速地筛选出对自己最有帮助的职位信息,又或者筛选出信息后不能直观地看到数据的特征、一般规律、变化的趋势或者数据之间潜在联系。
对于互联网岗位信息大数据分析可让通过互联网获取岗位信息的毕业生,简洁直观地获取岗位信息而进一步做出求职选择的决策问题。
1.2. Python网络爬虫及大数据存储Python 语言语法简单清晰、功能强大,容易理解。
可以在 Windows、Linux 等操作系统上运行;Python 是一种面向对象的语言,具有效率高、可简单地实现面向对象的编程等优点。
Python 是一种脚本语言,语法简洁且支持动态输入,使得 Python 在很多操作系统平台上都是一个比较理想的脚本语言,尤其适用于快速的应用程序开发。
网络爬虫(Web Crawler),是一种按照一定的规则,自动提取 Web 网页的应用程序或者脚本,它是在搜索引擎上完成数据抓取的关键一步,可以在互联网上下载网站页面。
爬虫程序可以自动解析和传输网页数据,并将这些数据进行分析下载。
Python 具有丰富的网络爬虫模块,具有很强的可扩展性与可嵌入性,其中 selenium 库是一个以 Google 浏览器为驱动的网页自动化测试工具 , 它能完全模拟用户手动操作网页的过程,并展现在浏览器界面上,操作十分方便。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。