文献综述(或调研报告):
关系抽取研究中出现了许多不同的方法。总体来看,这些方法可以分为两大类: 基于知识工程的方法和基于机器学习的方法。基于知识工程的方法需要融合领域知识和语言学知识,通过人工编写规则集合,构造出特定模式,利用模式匹配的方式从文本中找到相应的关系实例。基于机器学习的方法一般将关系抽取问题转化为分类问题,通过特征工程选取有代表性的特征,利用不同的机器学习算法训练分类模型,最终通过训练出的分类模型判定实体对之间是否具有语义关系。也有的研究者通过聚类的方法解决关系抽取问题,取得了一定的效果。
Craven and Kumlien(1999)提出基于远监督的关系抽取方法,即利用已有知识库蕴含的事实信息作为支撑,训练出抽取模型,在未标注的大规模语料上获取关系实例,从而补充已有知识库,他采用Yeast Protein Database作为监督源,主要抽取蛋白质和细胞、组织、疾病、药品之间的关系。从那以后,该方法逐渐流行(Bunescu and Mooney,2007;Bellare and McCallum,2007;Wu and Weld,2007;Mintz et al.,2009;Sun et al.,2011;Riedel et al.,2010;Hoffmann et al.,2011;Sun et al.,2011;Nguyen and Moschitti,2011;Surdeanu et al.,2011a)。然而这些方法大多数在学习过程中都做出了一个或者多个近似。例如许多人提议启发式地将远监督转换成传统的监督学习(比如单实例单标签)(Bellare and McCallum,2007;Wu and Weld,2007;Mintz et al.,2009;Sun et al.,2011;Nguyen and Moschitti,2011;Surdeanu et al.,2011a)。Bunescu and Mooney(2007)和Riedel et al.(2010)将远监督的关系抽取描述成一个多实例单标签问题,对于相同的元组允许有多个提及,但对每个对象不允许有多个标签。我们的研究和Hoffmann et al.(2011)相近。他们用MIML模型解决和我们相同的问题(二元关系抽取),但是他们做出了两个近似。第一,他们使用一个确定的模型,通过OR-ing分类结果,将隐藏的实例标签聚集成相应元组的标签集合。第二,他们使用了感知机类型的附加参数更新方法。
MIML学习方法还应用在了除自然语言处理之外的其他领域,例如Zhou and Zhang (2007)将MIML方法用于场景分类。在这个问题中,每个图片都和多个与捕获到的场景一致的标签相匹配。除此之外,每个图片还包括许多补丁,这些补丁组成实例的bag,和给定的图片对象相匹配。Zhou and Zhang提出了两个算法将MIML问题简化成一个传统的监督学习问题。例如在第一个算法中,通过对每一个标签创建一个独立的包,将这个问题转化成一个多实例单标签问题。因此这个方法不能描述标签之间的依赖关系。所以他们又做出了一系列的近似,例如他们假设同一个包中的所有实例共享这个包的全局标签。
基于对这一研究课题的调研,我们可以发现,对于这一问题的解决,以往的研究者已经有了一定的研究方向,这也给我们的研究提供了不小的参考价值,如何更进一步地延拓这一问题的解决方法,提出新的更加有效地解决思路,是我们思考的主要问题。
参考文献
[1] Kedar Bellare and Andrew McCallum. 2007. Learning extractors from unlabeled text using relevant databases. In Proceedings of the Sixth International Workshop on Information Extraction on the Web.
[2] Carla Brodley and Mark Friedl. 1999. Identifying mislabeled training data. Journal of Artificial Intelligence Research (JAIR).
[3] Razvan Bunescu and Raymond Mooney. 2007. Learning to extract relations from the web using minimal supervision. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.
[4] Mark Craven and Johan Kumlien. 1999. Constructing biological knowledge bases by extracting information from text sources. In Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology.
[5] Jenny Rose Finkel, Trond Grenager, and Christopher D. Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。