- 研究背景及意义
- 课题背景
在分子遗传学中,开放阅读框(ORF)是具有翻译能力的阅读框的一部分。ORF是连续的密码子区段,以起始密码子(通常为AUG)开始,终止于终止密码子(通常为UAA,UAG或UGA)[1]。ORF内的ATG密码子(RNA中的 AUG )(不一定是第一个)可以指示翻译的起始位置。在mRNA序列中,每三个连续碱基(即三联“ 密码子”) 编码相应的氨基酸。其中有一个起始密码子AUG和三个终止密码子UAA,UAG,UGA。核糖体从起始密码子开始翻译,沿着mRNA序列合成多肽链并不断延伸,遇到终止密码子时,多肽链的延伸反应终止。由于读写位置不同,ORF在两条链上具有六种可能性[2]。现在有很多找ORF的软件,包括在线的,如:ORF Finder[3]的功能ORF Finder被用来预测已存在的编码区的小基因序列。它较早应于序列设计,应用优于长片断、高质量的匹配。ORF Finder把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚区一个确定其编码内容的度量, 如果可能将对每一亚区进行进一步分析。每个亚区按照已有的分类结果,被随机提交给查找它们是否编码 蛋白质的特定测试收集器。最后只有那些具有编码潜能的重要区域才被报道,而在生物学家提交的经过测序的基因序列中存在大量的ORF等待鉴别。
2.研究目的和意义
生物学家在尝试定位基因时筛选DNA片段时通常会遇到ORF。 由于遗传密码发生改变的生物的起始编码序列存在差异,因此会对ORF进行不同的鉴定与识别。在线粒体基因数据库中,有很多物种的DNA序列中存在ORF,目前这些ORF能否编码蛋白质,编码何种蛋白质仍不为人所知,对于该物种基因序列的研究带来了一定的障碍,且随着从不同基因组获得的DNA序列数量的快速增加,功能性ORF的鉴定变得越来越重要。如果ORF的序列与从其他生物的基因组获得的已知基因的序列相似(具有同源性),则该ORF可能具有已知基因具有的功能。而鉴定ORFs的最早可以追溯到人线粒体DNA中8个未识别的ORF的鉴定,例如,URF6是人类mtDNA的最后一个未识别的阅读框架,其编码NADH Dehy fogenase亚基, 现在URF被命名为MT-ATP8基因[4]。既然人线粒体基因组的ORFs可以通过实验鉴定为精确基因,那么鉴定其他物种线粒体基因组中的ORFs也是可行的。通过对于ORFs数据的统计,生物学家仍有大量的ORFs需要鉴定,如棉铃虫核型多角体病毒HearSNPV的G4和C1株基因组DNA全序列已完成测定,其中一些基因的功能被阐明,但还有许多基因的功能尚不清楚。在HearSNPV C1和其他己报道的杆状病毒的同源基因中,ORF33、ORF80、ORF81、和ORF83这4个基因尚没有研究报道[5]。对于ORF的同源性分析不仅仅对于完善某些物种的基因组有着重大意义,对于某些实际生活中的问题的意义也不容小觑,羊痘是世界动物卫生组织列 为 93种必须报告的动物疫病 A 类病之一,我国研究人员利用 DNA Star软件进行强毒株与疫苗株 ORF121基因序列比对,分析其在核苷酸和氨基酸水平的变异情况,并通过实验发现GPI疫苗弱毒株和野毒株编码的 ORF121基因核苷酸序列相似性为97.9%,氨基酸序列相似性为98.2%,为揭示GPV异原宿主致弱的机制积累了资料[6]。鉴于这种情况,我准备对ORF与已知的线粒体基因进行同源性分析,来预测一些ORF可能是某种已知基因。
- 国内外研究概况
随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成了生物信息学,序列比对是其中一个重要的研究方向,它通过对 DNA 和蛋白质序列进行相似性比较, 指明序列间的保守区域和不同之处 ,为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据[7],而序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性,从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,动态规划作为解决最优化问题的经典算法被最早地应用于序列比对问题上,生物信息学中著名的比对程序 BLAST 和 FASTA 都是基于动态规划算法[8]。这种算法在序列长度较小时适用,然而对于海量基因序列,这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,现在的BLAST和FASTA算法及相应的改进方法均是从此前提出发的[9]。现在生物学界较为常用的序列比对工具有Geneious,FASTA,BLAST 等。随着越来越多物种的基因组测序的完成 , 生物学研究面临了空前的的生物序列信息爆炸 。同时 ,序列的注释信息变得越来越复杂。因此许多国家都推出自己的基因数据库,如美国国家生物技术信息中心(NCBI)的GenBank数据库和日本DNA数据库(DDBJ),欧洲分子生物学实验室(EMBL),EMBL 、DDBL 、GenBank 核酸数据库自从 1994 年起, 其数据量以每 14 个月翻一番增长[10]。其中NCBI的GenBank数据库与另两个数据库每天交换数据,保证数据实时更新,除了维护GenBank核酸序列数据库外,NCBI还提供数据分析和检索资源。线粒体数据主要存放在genome数据库中,包含来自1000多种生物的全基因组的序列和比对数据。 基因组代表完全测序的生物和正在进行测序的生物, 三个主要领域(细菌,古细菌和真核生物),以及许多病毒,噬菌体,类病毒,质粒和细胞器。在序列比对工具与基因序列数据库高速发展的今天,许多生物学家在生物实验的基础上利用了两者为自己的实验结论进行进一步的佐证,如羊口疮病毒甘肃流行株的分离鉴定及其ORF059基因和ORF109基因的序列分析中,研究人员应 用 MEGA5.0、PHD 等 软 件 对 F1L 基 因 和ORF109基因的测序结果进行核苷酸序列和氨基酸序列的同源性分析和结构域预测[11],在湖北地区克氏原螯虾白斑综合征病毒变异区ORF14 /15、ORF23 /24 基因序列比较分析中则使用了DNAstar软件对测序结果进行序列比对分析,分别以 TH - 96 -Ⅱ株( AY753327) 和 TW 株( AF440570)基因序列作为参照,比较分析克氏原螯虾 WSSV 基因变异位置及大小,同时与 GenBank 公布的 WSSV- TH、WSSV - CN、WSSV - Korea、WSSV - IN - 05- I ( 印 度 株,EU327501 ) 等 毒 株 的 ORF14 /15 和ORF23 /24 基因序列进行同源性分析[12]。由此可见,在一些ORF序列的功能鉴别中,序列比对都是必不可少的一个环节,但均使用在实验测序后的比较中作为同源性的佐证,并没有一个工具将序列比对应用到预测上,所以尽管对于ORF功能识别进行预测的前提条件已经较为完备,但国内外至今并没有生物研究者做出该方向的具体研究。
- 存在问题
- 在许多生物物种的基因组中存在一些错误标注的ORFs,主要包括和未知蛋白相似的ORF,无相似的ORF,以及可疑的ORF[13]。这些ORFs的存在会污染最终结果,需尽可能剔除这部分数据。
- 单纯的通过序列比对会忽视一些同源性关系,如锦鲤疱疹病毒ORF134基因同已报道的高等脊椎动物病毒编码的vIL-10具有较低的序列同源性,但具有较高的结构相似性[14]。
- 发展趋势与展望
在计算机技术的蓬勃发展的今天,许多生物领域都应用了各种计算机技术作为生物研究的辅助,而日益庞大的生物信息数据靠过去的人工分析也是不现实的,所以生物学家越来越需要通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。但由于生物信息学是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身。所以我准备做的ORF功能鉴别的工具仅仅是基于现有的分子生物学做出的一些预测,其精准度的解决最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,在生物学规范出一个科学的参数后利用这些参数作为改进工具的依据。
五、参考文献
1. Parker, J., Open Reading Frame. Brenners Encyclopedia of Genetics, 2013. 5(12): p. 173.
2. Slonczewski, J. and J.W. Foster, Microbiology : an evolving science. 2013.
3. Rombel, I.T., et al., ORF-FINDER: a vector for high-throughput gene identification. Gene, 2002. 282(1): p. 33-41.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。