- 课题研究的背景与意义
随着互联网技术和科技的日益进步,网络信息不断递增,生物信息这类专业性文本持续增大。如何从这些海量专业性文本信息获取所需的知识成为了近年来学者专家的研究热点。
由于生物信息包含很多专业性问题,涉及到生物词汇缩写,异物同名词,同物异名词等,传统的词频模型不能很好地解决这些问题。生物信息学的发展,使得很多资源被整合成专门的生物信息词典,这些词典包含了许多的语义信息,信息量大,数据库数目多,成为检索信息的主要难点。因此,如何从多种生物信息数据库中更好更快的检索出生物信息是本次课题研究的主要意义。
研究现状及不足
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。 这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。所以,一个好的数据库检索的选择是一个至关重要的问题。
- 课题研究内容
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
一般而言,生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
生物信息数据库包含着大量复杂的生物数据,而根据不同种类生物信息数据所具备的不同特点,每种生物信息数据库所包含的信息,检索方式及检索效果都不尽相同,本课题旨在研究生物信息学领域常见数据库的各自特征及适用领域,研究检索方式和检索效果,得出一定的结论,如,哪些信息适合在那种数据库中检索,检索效果最佳等,从而给从业人员提供快速使用指南及选择推荐。
三、拟采取的研究方法
1.查阅法
通过百度、相关书籍收集数据库的资料,从而对项目研究现状作出科学分析,得出规律性认识,并提出具体研究方向。
2.文献法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。