文献综述（或调研报告）：

关系抽取研究中出现了许多不同的方法。总体来看，这些方法可以分为两大类: 基于知识工程的方法和基于机器学习的方法。基于知识工程的方法需要融合领域知识和语言学知识，通过人工编写规则集合，构造出特定模式，利用模式匹配的方式从文本中找到相应的关系实例。基于机器学习的方法一般将关系抽取问题转化为分类问题，通过特征工程选取有代表性的特征，利用不同的机器学习算法训练分类模型，最终通过训练出的分类模型判定实体对之间是否具有语义关系。也有的研究者通过聚类的方法解决关系抽取问题，取得了一定的效果。

Craven and Kumlien（1999）提出基于远监督的关系抽取方法，即利用已有知识库蕴含的事实信息作为支撑，训练出抽取模型，在未标注的大规模语料上获取关系实例，从而补充已有知识库，他采用Yeast Protein Database作为监督源，主要抽取蛋白质和细胞、组织、疾病、药品之间的关系。从那以后，该方法逐渐流行（Bunescu and Mooney,2007；Bellare and McCallum，2007；Wu and Weld，2007；Mintz et al.，2009；Sun et al.，2011；Riedel et al.，2010；Hoffmann et al.，2011；Sun et al.，2011；Nguyen and Moschitti，2011；Surdeanu et al.，2011a）。然而这些方法大多数在学习过程中都做出了一个或者多个近似。例如许多人提议启发式地将远监督转换成传统的监督学习（比如单实例单标签）（Bellare and McCallum，2007；Wu and Weld，2007；Mintz et al.，2009；Sun et al.，2011；Nguyen and Moschitti，2011；Surdeanu et al.，2011a）。Bunescu and Mooney（2007）和Riedel et al.（2010）将远监督的关系抽取描述成一个多实例单标签问题，对于相同的元组允许有多个提及，但对每个对象不允许有多个标签。我们的研究和Hoffmann et al.（2011）相近。他们用MIML模型解决和我们相同的问题（二元关系抽取），但是他们做出了两个近似。第一，他们使用一个确定的模型，通过OR-ing分类结果，将隐藏的实例标签聚集成相应元组的标签集合。第二，他们使用了感知机类型的附加参数更新方法。

MIML学习方法还应用在了除自然语言处理之外的其他领域，例如Zhou and Zhang (2007)将MIML方法用于场景分类。在这个问题中，每个图片都和多个与捕获到的场景一致的标签相匹配。除此之外，每个图片还包括许多补丁，这些补丁组成实例的bag，和给定的图片对象相匹配。Zhou and Zhang提出了两个算法将MIML问题简化成一个传统的监督学习问题。例如在第一个算法中，通过对每一个标签创建一个独立的包，将这个问题转化成一个多实例单标签问题。因此这个方法不能描述标签之间的依赖关系。所以他们又做出了一系列的近似，例如他们假设同一个包中的所有实例共享这个包的全局标签。

基于对这一研究课题的调研，我们可以发现，对于这一问题的解决，以往的研究者已经有了一定的研究方向，这也给我们的研究提供了不小的参考价值，如何更进一步地延拓这一问题的解决方法，提出新的更加有效地解决思路，是我们思考的主要问题。

参考文献

[1] Kedar Bellare and Andrew McCallum. 2007. Learning extractors from unlabeled text using relevant databases. In Proceedings of the Sixth International Workshop on Information Extraction on the Web.

[2] Carla Brodley and Mark Friedl. 1999. Identifying mislabeled training data. Journal of Artificial Intelligence Research (JAIR).

[3] Razvan Bunescu and Raymond Mooney. 2007. Learning to extract relations from the web using minimal supervision. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.

[4] Mark Craven and Johan Kumlien. 1999. Constructing biological knowledge bases by extracting information from text sources. In Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology.

[5] Jenny Rose Finkel, Trond Grenager, and Christopher D. Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于多实例多标签学习的关系抽取方法研究文献综述

参考文献

您可能感兴趣的文章

登录

参考文献

您可能感兴趣的文章