基于PCM划分聚类算法解析柳树动态生长节律转录表达模式文献综述

 2022-04-12 20:03:37

基于PCM划分聚类算法解析柳树动态生长节律转录表达模式文献综述

摘要

本文在研究大数据时代背景下的聚类算法时,对算法的产生、中心思想及代码实现进行了研究。本论文首先描述了聚类算法的研究目的及意义,其次阐述了国内外的研究概况,然后概括了聚类算法产生和划分的类别,最后特殊陈述了PCM聚类算法的原理,对算法的起源、优点以及实现流程进行了分析概括,并在该基础上进行了简单的代码实现。

关键词:聚类算法;划分聚类;FCM模糊划分聚类算法;PCM可能性划分聚类算法

  1. 研究目的及意义

近年来,生活的信息化使数据增长速度急剧加快,几乎一切事物都与数据相关,上网购物,金融,物流等,这些直接体现大数据普遍存在于我们的生活[12]。在大数据的环境下,怎样从海量、价值密度低为特点的的大数据中挖掘出有意义的信息的问题备受关注。在数据挖掘领域,聚类分析是一个重要的方面,在图形分析、模式识别等领域得到广泛应用。聚类分析与分类不同,聚类分析不需要依赖事先定义的类别和特征的训练实践,是一种无监督学习过程。

聚类算法的兴起,大大改变了我们的生活和工作方式。这是计算机科学的发展和相关科学发展的必然结果。聚类算法作为数据挖掘中的一部分,我们不仅利用聚类算法进行我们的科研[4],而且在我们的日常生活中,聚类算法也无处不在。

随着计算机网络的发展,更多的科研机构和公司开始研究有关大数据的算法。本文主要将聚类算法主要应用在柳树生长上。转录组广义上是指在一个生物体中,所有转录产物的集合,包含信使RNA、核糖体RNA、转运RNA、非编码RNA;狭义上是指所有mRNA的集合。转录组具有时间特异性、组织特异性、空间特异性等特点[2]。我们通常所谈及的转录组测序只能测到mRNA,但是全转录组测序通过构建两个测序文库是可以测到上面提及的4种RNA。基于二代测序技术是目前最常见的转录组测序,可以快速获取某个物种指定器官或组织在某状态下几乎所有的转录本。该方法需要根据实验的目的对RNA样本进行处理,将mRNA,miRNA,IncRNA其中的部分或全部都转录成cDNA文库,再通过高通量测序平台进行测序[13]

  1. 国内外的研究概况

聚类分析作为近几年热门研究领域,涉及数据挖掘、模式识别、机器学习数据分析等众多学科,一度掀起研究热潮。Everit于1974年对聚类分析定义如下:旨在将样本按其自身的属性聚成若干类,以保证类内样本相似度尽可能高,而类间样本相似度尽可能低[16]。自Everitt给出了聚类的定义以来40多年时间里,有不少学者均投身于聚类分析的研究当中,提出了不少聚类分析算法,取得了引人注目的成绩。

在国外,Lloyd(1957)基于划分的思想首次提出了K-Means聚类算法,MacQueen(1967)亦对K- Means算法进行了研究[15];由于K- Means聚类算法通常会在获得一个局部最优值时终止,且只适合于数值型数据的聚类,只能发现聚类结果为凸形的数据集,Kaufman(1990)和Rousseeuw(1990)分别提出了K中心点算法PM和CLARA;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。