Hadoop平台的搭建与应用文献综述

 2021-09-25 01:27:47

全文总字数:3707字

毕业论文课题相关文献综述

文 献 综 述1. 前言Hadoop作为Apache基金会资助的开源项目之一,并且由Doug Cutting带领的团队进行开发,而这个开源项目是基于叫做Lucene与Nutch这些开源项目上了,达到了Google的GFS和Hadoop在20个节点的集群上能够运行的目标。

在Doug Cutting加入雅虎公司后,Apache Hadoop项目正式开始支持HDFS和MapReduce的独立开发。

并且与此同时,Cloudera为Hadoop提供了商业支持,为各大企业提供商业化标准化安装的服务,并且提供免费的开源社区。

Hadoop源于Google的分布式存储和分布式计算系统,它主要提供了一套名为HDFS(Hadoop Distributed File system)的分布式文件系统以及支持分布式计算的Map/Reduce算框架"此外,还提供构建在HDFS和Map/Reduce之上的可扩展的数据仓库Hive、结构化数据库HBase、数据流高层语言Pig、高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

2. 研究现状面对现如今互联网上的海量数据,我们客户的单台PC机已经无法满足存储好计算的要求,因此分布式存储和分布式计算的作用就显得更加重要了,并且对于其内在价值的挖掘成为了必然趋势。

而Hadoop则是应用较多发开源的分布式存储和计算框架之一。

Hadoop在很多我们大家都知道的大型网站上已经得到了广泛的应用,而在这些应用之中,我们所熟知的是分析服务器和用户日志。

与此同时Hadoop在部分图论的实现中得到了应用。

因为符合一次写入,多次读取的处理条件,仰仗于这两种应用的数据量大,而这也恰好符合了分布式存储和计算的适用场景。

到目前为止,Hadoop技术已经在互联网领域得以广泛应用,同时也得到研究界的普遍关注,如Yahoo使用4000节点的集群运行Hadoop,支持广告系统和Web搜索的研究;Facebook使用1000节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了Bigcloud系统,用于相关数据分析,对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据,国内的高校和科研院所基于Hadoop,在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。