基于powerBI的网易云音乐歌词分析文献综述

 2021-11-05 19:26:16

毕业论文课题相关文献综述

1. 前言在当前的大数据时代背景之下,各个领域的发展都离不开数据的搜寻检索。

大家都希望能通过越来越短的时间搜集到全面清晰的数据信息,为后期数据分析提供高质量的数据,来应对市场客户和行情的变化。

[2]网络爬虫,也有网页蜘蛛、网络机器人等称号,是一种可以依照提前设定好的程序规则自主进行网络信息抓取的程序脚本。

[1]爬虫技术能够迅速并且广泛地采集网页上的信息资料,在获取网页数据方面有极大的便捷性,因此被广泛应用于搜索引擎当中,实现用户对网络数据的采集处理目的。

网络爬虫的主要工作就是自动搜寻所需网页信息,并从网络上下载使用者所需的信息,通常可以分成数据采集、数据整理、数据存储三个模块。

爬虫的主要流程包括:把初始种子URL和等待URL分别放入正确的队列当中;读取URL、DNS解析、依照网页抓取策略下载所需网页并按顺序放入下载库,通过正则匹配表达式将已提取到的新的URL放入待抓取的队列中;分析已爬到的数据,并从新的URL队列中重新进入下一轮周期的信息抓取。

爬虫技术实现数据采集的另一个关键步骤就是将下载到的需要的网页代码转换为可被用户识别的图片、文本等内容。

[3]此阶段可以使用XML路径语言,即搜索XML文档中的相关信息,依照XPath语法选择恰当的节点元素,并筛选文件的类型进行储存;在XML路径中有许多节点轴的选取方法;最原始的节点可以通过调用原始的祖先节点轴,li的祖先节点有body、div等,再对div的祖先节点做选择,以此类推,形成XPath的解析对象。

这样的数据解析方法通过使用较多的XPath语法中的函数,提升HTML信息提取效率。

Power-BI提供简单的向导模式,加上可视化设计界面,可快速设计出各种形式的报表,且各报表之间,可轻松设计钻取与链接。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。