开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
(一) 课题研究的目的、意义
近年来关系抽取技术呈现很强的和先进人工之智能方法结合的趋势,并取得了诸多成功。作为非常成功的人工智能方法深度学习技术自然也在医药关系抽取中呈现优势。
信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。关系抽取技术应用于医药文献可以产生很多重要应用,包括:从海量生物医药文献中挖掘疾病-病症关系,疾病-基因关系,疾病-药物,蛋白质-蛋白质,药物-药物关系等,从而为医药诊断,病理分析,药理分析,精准医疗与靶向治疗等提供依据。
本课题研究深度学习等先进人工智能算法在医药文献中的关系抽取方面的应用,并建立发现模型 ,编制程序,在医药文献数据集上进行测试研究。
(二)本课题国内外研究的历史和现状(文献综述)
自然语言处理 (N a t u r a l Language Processing, NLP) 是研究人与计算机交互语言问题的一门学科。其任务大致分为两类——自然语言理解和自然语言生成。自然语言理解,即如何让机器理解人所说的话, 此处的“话”是基于日常生活的语境、不需要发言者有知识储备;自然语言生成, 即如何让机器像人一样说话。二者结合起来, 就要求自然语言处理达到这样的目标:人能够畅通无阻地与机器进行交流并没有明显的不适感。20世纪五六十年代, 对于自然语言的处理所进行的中心工作出现了两种趋势, 依据对自然语言处理的方法和侧重点的不同, 大致可划分为两个派别:符号派和随机派。1957年, 美国学者英格维在《句法翻译的框架》中提出, 计算机翻译工作可以分为三个阶段:第一阶段将原句的结构用代码化的结构标志表示;第二阶段将原句的结构标志转换为目标句的结构标志;第三阶段输出构成目标句。在第一和第三阶段,原句和目标句互不影响,只有在第二阶段才进行两者结构标志的转换。英格维的这种看法,在当时计算机翻译的工作中具有一定的先导性,对计算机在句法结构层次的翻译有很大贡献。20世纪60年代,法国格勒诺布尔理科医科大学自动翻译中心的数学家沃古瓦将计算机语言翻译分成对原句词汇,句法的分析,原句与翻译句词汇,结构的转化,翻译局句法,词法的生成三大部分。构成一套完整的计算机翻译步骤,并将其应用到俄语与法语的计算机翻译工作中,取得了较好的效果。
现阶段的自然语言处理主要集中于4大方向:语言学方向、数据处理方向、人工智能和认知科学方向以及语言工程方向。
由于语言学、语言工程、认知科学等主要局限于实验室, 目前来看数据处理可能是应用场景最多的一个发展方向。实际上, 自从进入大数据时代, 各大平台就没有停止过对用户数据的深度挖掘。要想提取出“有用”的信息 仅提取关键词、统计词频等是远远不够的, 必须对用户数据 (尤其是发言、评论等) 进行语义上的理解。因此, 商业公司对自然语言处理技术的追捧与投入不在话下, 例如阿里在2017年伊始发表《一种新的语义编码模型及其在智能问答及分类中的应用》, 该文被KDD2017收录并代表了当时自动问答和文本分类的应用场景下的智能问答的最高水平。
虽然自然语言处理发展到今天, “市场”几乎已经被“随机派”占领, 但要认识到, “随机派”的根本思想在于从大量数据中提取特征并进行“概率预测”, 在逻辑性上必然远落后于“符号派”, 因此自然语言处理发展何去何从,还远远不能下结论。[3]
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。