基于聚类算法的电影推荐系统文献综述

 2022-03-14 20:05:46

  1. 推荐系统出现的意义:

在当今互联网科技十分发达的时代,我们生活中的信息数据越来越多,每天都有数以亿记的信息数据产生,现如今人们己经从过去的缺乏信息时代步入一个信息过剩的时代(刘青文,2013)。生活在这样一个信息量巨大时代的我们,要向从海量数据中选取我们想要了解的信息是十分困难的。在这样一个背景之下,人们展开了对搜索引擎以及推荐系统的研究。然而搜索引擎需要用户对所需要的信息有明确的描述时才有较精准的搜索结果,而且各个用户搜索相同关键词时搜索引擎反馈的答案都是一致的,导致搜索引擎缺乏个性化,并且它很难对多媒体数据进行分析,例如图片、视频等数据。而推荐系统能够自动分析用户和项目存在的关联性,其很好的解决了搜索引擎推荐缺乏个性化和必须明确目的性等问题,其可以处理信息过载以及用户无目标搜索等难题,使其变为处理信息过载的利器,在当前和未来,个性化推荐是缓解信息过载最关键的技术,其在现实中的应用越来越广泛。

  1. 推荐系统使用的聚类算法的概念:

聚类算法:基于划分聚类;基于层次聚类;基于密度聚类。其中k-means是典型的划分聚类算法,也是无监督的聚类算法。算法实现简单并且效果明显,很广泛地被应用于实验中。将典型的k-means算法在大规模数据下进行优化的算法是Mini Batch k-means。BIRCHk-means是层次方法平衡迭代规约和聚类的一种算法。

基于聚类的协同过滤算法不直接在整个矩阵中计算相似度与寻找最近邻,而是通过先对用户或项目进行聚类再进行后续的操作,大大的缩小了搜索的范围。

此算法的主要流程与思想如下:

1. 对用户进行聚类操作,比较常用的聚类算法如下k-means聚类,聚类所用的特征属性一般是用户-项目评分矩阵。这种算法可以明显的提高推荐系统实时性能。

2. 计算用户间的相似度,对上一步得到的每个簇类,计算目标用户与其它用户的相似度并建立最近邻。基于聚类的方法寻找最近邻要方便许多,搜索的范围缩小到了几个比较相似的分组当中,因此所用的时间大大的降低了。

3. 进行评分预测和内容推荐,上个步骤得到了最近邻,根据预测目标用户未评分项目的可能分数,然后按分数的大小推荐给目标用户。

三.国内研究现状:

1.曾英杰先生[1]一文中基于推荐算法展开研究,针对协同过滤推荐算法中存在的评分数据稀疏以及算法的可拓展性问题,提出了一种基于聚类和用户偏好的协同过滤推荐算法(C P-U B C F)。此文基于提出的推荐算法,设计并实现了一个基于 Spark、Elasticsearch 和C P-U B C F 的电影推荐系统。该推荐系统在通过 C P-U B C F 保障推荐效果的情况下有效利用了 Spark 的大数据计算性能和 Elasticsearch 的索引性能,符合实际应用场景的需求。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。