基于NLP文本挖掘方法的结构化语料智能分析—-以唐诗为研究对象文献综述

 2022-03-14 20:23:01

文献综述

一.文本挖掘
1文本挖掘的概念

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值内容,并且利用这些内容更好地组织信息的过程。文本挖掘作为信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘采用智能算法,如神经网络、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或者标记关键字概念、字间的关系,并按照内容对文档进行分类,获得有价值的信息。[1] [2] [3]
  文本挖掘作为一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、概率理论等。[4]

2文本挖掘的发展[5]
  数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理结果表现一般,文本挖掘便渐渐步入人们的视野中。由此可见,文本挖掘技术是从信息抽取以及相关技术领域中进化而来的。
  如今,用户可获得的信息包含了从技术资料、商业信息等多种类别和形式的文本,构成了一个庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中储存的是非结构化的文本数据。结合AI研究领域中的自然语言理解和计算机语言学,从数据挖掘中产生了两类新兴的数据挖掘研究领域:网络挖掘与文本挖掘。其中,文本挖掘作为一个新的数据挖掘领域,其目标在于把文本信息转化为人类可利用的知识。

3文本挖掘预处理[6]
  文本挖掘是从数据挖掘发展而来,但并不是简单地将数据挖掘技术运用到文本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。文本收集需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。文本分析与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实。特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘目标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。

4文本挖掘的关键技术
  经特征修剪之后,可以开展数据文本挖掘工作。从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还很少,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。[7] [8]
文档分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。
  由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。[9] [10]
  另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。
  文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

  互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。[11]
  自动文摘具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。[12] [13]

二.诗词文化

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。