基于自然语言处理的文本提取及标签化文献综述-文献综述网

文献综述

一、引言随着网络的发展，社会进入信息时代，互联网文本数据因其便利性成为了人们获取信息的重要来源。

但因其数据量的庞大和非结构化的特性，使人们难以及时理解、利用数据中有价值的信息。

自然语言处理技术的出现解决了上述问题，可快速进行摘要和关键词抽取[1]，但是基于传统机器学习的处理方式有准确率低，泛用性差等诸多弊端。

二、研究现状早些年的信息摘要主要依靠手工提取，但是由于人工提取信息摘要需要人详细阅读完整篇文本后总结摘要，耗时耗力。

而自动文本摘要技术是用计算机程序从原始文本中提取关键信息，有效地压缩了原始文本的内容。

一个好的文本摘要应该概括原始文本核心内容，同时上下文要连贯，不存在冗余内容，并且是没有语法问题的。

自然语言处理技术自出现以来，经历了多个发展时期[2,4]。

研究初期是以统计学为支撑，统计学的方法是基于统计特征，如词频、句子间的相似性、句子位置等特征来生成摘要。

著名方法有TF-IDF（词频-逆文件频率），用于评估一个字词对于一个文件集的重要程度。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。