基于K-means聚类算法解析柳树动态生长节律转录表达模式文献综述

 2022-03-14 20:38:49

基于 K-means 聚类算法解析柳树动态生长节律转录表达模式文献综述

摘要: 聚类分析是一种无监督的机器学习技术,是从无标记数据集中获取信息和只是的重要手段,目前已经被广泛应用于客户推荐、模式分割、视频图像处理等领域。作为一种基于划分的聚类算法,由于具有适用范围广泛和算法伸缩性强等优点,K-means算法被广泛应用于聚类分析领域。近年来,随着基因测量水平的不断提高,学者们测得的柳树基因表达数据量也越来越大。采用K-means聚类分析算法能够有效的对柳树信息数据进行分析,在此基础上更进一步的发掘和研究柳树生长节律和转录表达模式的关系。更好的研究柳树的多方面价值,为林业从业人员提供专业依据。

关键词:聚类分析;基因表达谱;K-means聚类算法

一、研究的目的与意义

柳树按照一定的规律运行的周期性生命活动现象被称为柳树生长节律。最终生长量相等并不等于生长量动态相等,生长量在时间上的变化就决然不同,因此研究生长量在时间上的动态变化,更能反映柳树基因型的生长特性[[1]]。

基因表达数据中含有基因活动的信息,可以反应生物个体的生理状态。通过研究基因的转录表达模式来识别和研究柳树的生长节律是生物信息学中的重要研究内容。生物基因是一个庞大且复杂的生物网络,每每测量都是数以百万计的单位测量量。因此,如何对如此庞大的数据量进行低差错乃至无差错处理是一个很重要的研究课题。

俗话说:“人以类聚,物以群分”,聚类分析算法是数据挖掘中的一个重要算法。聚类分析算法以数据的相似性进行分类,对于复杂结构的多维数据可以通过聚类分析的方法对数据进行聚集,是复杂结构数据标准化。聚类分析算法是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库。聚类分析算法应用范围十分广泛,使用价值相当大。在很多领域里都有使用过聚类分析算法。在商业上,聚类分析被用来发现不同的客户群,是细分市场的有效工具,同事也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。在生物上,聚类分析算法被用来对动植物分类和动植物基因分类,获取对种群固有结构的认识。在地理上,聚类能够帮助分析地球资源分布。在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值没地理位置来鉴定一个城市的房产分组。在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。在电子商务上,聚类分析在电子商务的网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,向客服提供更合适的服务。

当柳树动态生长节律转录表达模式的样本分组为2组时,由于差异表达基因的识别只能针对两组样本,因此,只通过差异表达基因无法分析整体上的基因表达变化规律。此时可通过表达模式聚类分析将柳树基因按照其在不同样本中的表达变化规律进行归类,进而推测其与柳树动态生长节律之间的可能联系。K-means聚类分析算法是聚类分析算法中最常用的一种,算法的最大特点是简单,好理解,运算速度快,用于分析基因表达数据有着很好的成效。再通过可视化技术就更能展现出柳树基因转录表达模式和动态生长节律之间的关系,从而达到研究的目的。让林业从业者更好的掌握柳树的生长特性,提高柳树的经济作用,具有很重要的现实意义。

二、国内外的研究概况

柳树是我国的一种常见的广生态幅植物,对环境的适应性很广,在环境十分恶劣的场所也能够生长,是一种重要的经济树木,具有很高的园林价值、经济价值、生态保护价值[[2]]。通过运用聚类分析算法将表达模式相似的基因尽量的归为同一类,同一类中的样本相似、基因功能相近,立足数据本身来研究柳树表达模式和生长节律之间的关系。

大数据时代,聚类分析算法已经成为应用解决数据量巨大的问题不二选择。使用聚类算法可以再很短的时间内解决数据挖掘问题,还能取得最佳效果。聚类分析算法历史比较长远,现如今研究学者们已经对聚类分析算法进行了宽泛而深入的研究,研究出了许多针对不同对象的不同聚类分析算法,如:基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法和基于图的聚类分析算法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。