摘要:柳树动态生长节律转录表达模式解析是对两个极端表型的柳树动态生长节律转录表达谱进行聚类分析,解析全基因组范围内基因的转录表达模式,从而为进一步挖掘与林木生长相关的候选基因提供高效精确的分析工具。基于k-prototypes划分聚类算法对柳树不同生长时间的转录组进行了聚类分析,将转录表达模式相似的基因或实验样本尽可能地归到相同的类中,最终通过可视化展现出来。应用于基因表达谱数据的聚类分析方法的主要作用是为生物信息学研究人员提供一种有效而准确的方法来探索基因表达谱数据,并帮助生物信息学研究人员获得更多有价值的生物学信息。
关键词:k-prototypes划分聚类算法;聚类分析;基因表达谱
- 研究的目的与意义
当今,随着互联网和信息技术的飞速发展,在许多应用领域中产生了大量数据。这些数据的大小和容量远远超过了人类的直接处理能力。为了更方便地表示和理解这些数据,使用计算机有效地对它们进行分类或聚类尤为重要。
聚类分析是用于数据挖掘和知识发现中最广泛使用的方法之一。迄今为止,人们对世界的了解还很有限,人们只能根据经验对世界进行分类,而很少进行定量分析。随着人类社会的发展和资源的扩展,对分类的需求日益增加,依靠经验已不再能满足科学技术发展的需求, 于是利用统计知识形成聚类分析。
聚类是将物理或抽象样本的集合划分为多个具有相似属性的样本组成的多个簇状态的过程。簇是一组数据样本的集合,同一簇中的样本在一定程度上具有彼此相似或相似的属性,并且与其他簇中的对象之间的距离或属性差异更大。聚类分析是无监督模式识别。聚类是一种研究对象模式的技术,其结果可以揭示数据之间的内部模式,并发现知识和信息。聚类分析是数据挖掘和模式识别技术的重要组成部分,它具有扎实的统计理论基础,形成了系统的体系,已成为统计学和机器学习的重要研究内容[1]。
基因表达谱数据在生物信息学中的成功应用,将数据信息转化为对生命活动的理解,并解释了基因的功能及其表达规律。白血病样品的分类,细胞生命周期中基因表达水平的分类以及不同药物作用的分类都需要对基因表达谱数据进行分类或聚类。聚类分析已经成功地分析了大量的基因表达谱数据聚类,并已广泛用于基因表达谱数据分析中,已成为基因表达谱数据挖掘的重要研究方法[2]。
同时,基因表达谱的聚类分析对预测基因功能,筛选药物和优化农作物育种等研究也具有重要意义。
聚类分析法为推理和分析具有高维特征的基因表达谱数据的生物学意义提供了更好的理论分析方法。基因表达谱数据的聚类分析可以在基因或测试样品上进行。对于基因聚类,每个基因都是聚类的对象,每个测试样本都被视为聚类特征。而在样本聚类中,聚类对象是测试样本数据,每个基因都被视为聚类特征。基因表达谱数据的聚类分析的主要目的是将功能相似的基因聚类到同一类别中,然后使用实验数据分析和生物系统分析来完成对生物学意义的发现和理解[3]。
为了找到相似的基因表达模式并将具有相似功能的基因表达谱数据分类为同一类别,我们将对基因表达谱数据进行聚类分析研究。具有相似表达转录模式的基因可能具有相似的特性,例如共同的调控元件,相同的生物学功能或共有的细胞起源等。具有相似功能的基因通常会共同表达,而同一类型的基因通常具有相似的遗传特征。通过鉴定相同类型基因的特征,可以推断其功能未知的基因的功能[4]。因此,聚类出具有相似表达谱的基因组群,是研究基因功能的一种有效方法。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。