毕业论文课题相关文献综述
文 献 综 述研究背景现代互联网信息中含有极为丰富的商业价值,如何从这些海量数据中挖掘出有用的信息是一个重要的课题。
而信息爆炸产生的海量数据在传统计算机上进行聚类分析处理需要耗费大量的时间,不能满足现今的商业需求,结合云计算平台的并行化改进能有效解决这一问题。
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。
聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。
目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法,基于网格的方法、基于模型的方法以及模糊聚类。
k-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。
k-means算法接受输入量k,然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
研究意义 由加州伯克利AMP实验室新开发的内存计算分布式框架Spark主要针对海量数据处理和机器学习。
相较于传统并行计算框架,其内存计算的特性能很好的适应迭代计算,同时在数据切分、并行处理、容错健壮性方面进行了封装,能良好的适应于并行化计算开发。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。