摘要:实体关系抽取是自然语言处理中的重要任务之一,其主要目的是从大规模无结构化或半结构化的自然语言文本中识别出实体并抽取实体之间的语义关系。而基于机器学习的实体与关系抽取可依据有无带标签的训练语料划分为有监督、无监督和远程监督方法。本文旨在结合近些年的研究进展,重点针对有监督学习方法的原理和代表性算法模型进行介绍,并同另外两种方法做简单的比较分析。
- 基于有监督学习的实体关系抽取
有监督学习方法是最基本的实体关系抽取方法,其主要思想是将关系抽取任务转换成分类问题,在已标注的训练数据的基础上设计有效的特征,学习出各种分类模型,然后对测试数据的关系类型进行预测。一般根据对语句处理方式的不同,有监督学习方法又可分为传统的基于特征向量和核函数的方法,近些年逐渐兴起的基于神经网络及深度学习的方法,以及从问题转化角度出发的基于规则的方法。
1.基于特征向量的方法
基于特征向量的方法是一种简单有效的实体关系抽取方法。其主要思想是通过构造向量空间模型,即从文本语句实例的上下文中提取有效信息作为特征,将自然语句映射为特征向量,最后利用特征向量的相似度来训练实体关系抽取模型。类似于一般分类任务,该方法主要通过解决特征选择、特征权重计算和分类器选择三个基本问题来实现。代表模型如文献[1]中采用最大熵分类器构建抽取模型,其中特征向量由实体词与实体类型等特征构造而成;以及文献[2]中针对PPI(蛋白质相互作用)这一特定关系的提取,通过调整相关多个语料库的权重,生成一个信息丰富的特征向量,利用改进的SVM(支持向量机)实现多语料PPI提取。
2. 基于核函数的方法
由于特征向量方法存在固有的局限性——无法充分利用实体所在上下文的结构信息,且用有限维的特征向量来表示某些特定语句的句法信息也已被证明是不可行的。对此多种基于核函数的方法被提出,它不需要构造特征向量,而是直接将字符串的原始形式作为处理对象,来计算任意两个对象间的相似度函数。如Zelenko 等人[3]定义的基于浅层句法分析的树核函数,通过使用连续子树核和稀疏子树核函数,递归地计算两个子树的相似度,来提取个人从属关系和机构位置关系,而Culotta等人[4]在此基础上提出了改进的依存树核函数,并引入知识库WordNet,扩展子树节点间的匹配函数。
3. 基于深度学习的方法
核函数虽然较特征向量方法利用了更多的语义信息,但其往往过分依赖于词性标注、句法解析等用于获取分类特征的环节,且核函数的选取也大多基于经验判断,没有严谨的理论支持。而随着近年来深度学习的不断发展,越来越多的研究倾向于使用神经网络模型来解决问题,这种从数据样本中自动地提取特征的学习方法,通常可以更好地挖掘到人们难以总结的影响因素。
其中具有代表性网络模型如文献[5]中涉及的RNN(递归神经网络),学习基于分析树的结构特征,有效地考虑了句子的句法结构信息,但对于实体在句子中的位置和语义信息,该模型并不能做出很好的反馈。文献[6]提出了采用CNN(卷积神经网络)进行实体关系抽取的思路,通过在词汇层面特征上增加目标实体与句子其他词汇间的相对位置信息,来构造句子层面上的特征,最后使用池化层和非线性连接获取句子表示。此外,文献[7]中首次使用基于树的LSTM(长短时记忆网络)构造分类模型,在此基础上,文献[8]与[9]均进行了改进,前者实现了一种端到端的全局最优框架,而后者提出了基于最短依存路径左右子路径的双向LSTM的树状结构模型,同时对实体和句子进行建模,实现端到端的实体关系抽取。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。