摘要:解析柳树动态生长节律转录表达模式是对柳树动态生长节律基因表达谱的两种极端表型进行聚类分析,通过挖掘柳树基因数据中的信息,从而分析柳树生长的规律。本论文是基于K-medoids聚类算法对柳树不同生长时间的基因表达谱数据进行了聚类实验,将转录表达模式相近的基因尽可能归为一簇,根据基因表达的差异性来选择特征,并且最终通过可视化展现出来。从而为其他树木生长的研究提供了高效且合理的分析途径,也推动了生物信息学的进步与发展。
关键词:基因表达谱;K-medoids聚类算法;聚类分析
- 研究的背景与意义
在我国的战国时期,就有一句名言“物以类聚,人以群分”,该名言就体现了一个重要的思想——聚类思想。随着科技不断进步以及互联网的普及,这一思想也随之被发扬光大。
聚类分析就是将一个数据集按照一定的规则分类,在某一个类内,各个数据对象之间的差异较小,即最大程度相似;而在不同的类间,各个数据对象的差异就相对而言较大一些,即最大程度的相异。而数据对象之间的相似度的判定,一般是取决于其描述属性的取值。聚类算法的主要目的是寻找数据中潜在的分组结构,而聚类分析则是通过已有的数学方法对所给的数据集进行分类以及表示不同的类的相似度,它是在数据不做任何假设的情况下,进行分析计算的工具,它是机器学中获取知识过程的十分重要的一步。通过聚类分析,人们可以将数据按照一定的规则分类,从而观察到每一类数据的特征,可以集中地对某一特定聚类集合进一步分析,以便于挖掘出有用的信息,因此,聚类分析也是数据挖掘的主要任务之一。
在当今的分子生物学的研究中,转录组学、蛋白质组学和基因组学研究被科学家们所青睐,其中转录组和蛋白质组学的应用更为广泛,而转录组学比蛋白质组学的研究更早发展和流行起来,且应用得更为普遍的转录组学是从基因转录水平研究在不同处理下的生物分子机制的研究,它可以从以下两个方面进行定义:(1)广义转录组:指在特定状态下,由活体细胞或组织转录的所有RNA的总和,包括可以编码蛋白质的RNA(即mRNA)和不能编码蛋白质的RNA(ncRNA,例如rRNA,tRNA,microRNA等);(2)狭义转录组:通常是指能够编码蛋白质的所有mRNA的总和[1]。
研究在不同时间序列下的转录组数据可以很好的帮助我们观察植物的生长节律。这里的时间序列不仅仅指的是单纯的不同时间点取样,也包括生成发育的不同阶段,疾病治疗的不同阶段等[2]。生长是一个动态变化的过程,通过对以时间序列为基础测得的转录组数据可以有效的挖掘基因的表达规律。
随着人类基因组计划的完成,全基因组测序技术获得了快速的发展,生物信息学与数据挖掘的交叉应用使得基因表达谱数据量呈爆发式增长[3]。但是,由于基因表达谱数据结构较为复杂、数据模糊、存在不确定性,且维数较高,所以研究者急需新的、高效且有针对性的分析算法,从海量基因表达谱数据中探究生命体在各种情况下,其基因的变化规律,以达到揭示它们的功能和相互之间作用等关系。聚类分析作为数据挖掘的一种主要方法,为大量基因表达谱数据的分析提供了有效的途径。
为了研究不同生长阶段的基因的表达模式,研究者采用动态转录组测序策略[4],就是基因表达模式聚类。所谓的表达模式,其实就是基因表达量随着时间点变化的一个规律,比如对于一种树木的生长而言,选择以一年年初开始,每隔2个月取一次样的6个时间段分析。相关研究者系统分析了植物的时间序列的基因转录数据,发现植物的生长发育的节律性与相关的基因表达的节律性相耦合[5]。通过分析基因的表达模式,为今后探索通过改变基因表达来协调植物生长节律,改善植物的生长和发育提供了全新的视角。
- 国内外的研究现状
聚类分析作为近几年热门研究领域,设计数据挖掘、模式识别、机器学习、数据分析等众多学科,自Everitt于1974年给出了聚类的定义以来,有不少学者均投身于聚类分析的研究,提出了不少聚类分析算法,取得了引人注目的成绩。现在,聚类算法一直都是计算机研究领域的热点。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。