基于自然语言处理的文本提取及标签化文献综述

 2023-06-04 12:04:22

文献综述

一、引言随着网络的发展,社会进入信息时代,互联网文本数据因其便利性成为了人们获取信息的重要来源。

但因其数据量的庞大和非结构化的特性,使人们难以及时理解、利用数据中有价值的信息。

自然语言处理技术的出现解决了上述问题,可快速进行摘要和关键词抽取[1],但是基于传统机器学习的处理方式有准确率低,泛用性差等诸多弊端。

二、研究现状早些年的信息摘要主要依靠手工提取,但是由于人工提取信息摘要需要人详细阅读完整篇文本后总结摘要,耗时耗力。

而自动文本摘要技术是用计算机程序从原始文本中提取关键信息,有效地压缩了原始文本的内容。

一个好的文本摘要应该概括原始文本核心内容,同时上下文要连贯,不存在冗余内容,并且是没有语法问题的。

自然语言处理技术自出现以来,经历了多个发展时期[2,4]。

研究初期是以统计学为支撑,统计学的方法是基于统计特征,如词频、句子间的相似性、句子位置等特征来生成摘要。

著名方法有TF-IDF(词频-逆文件频率),用于评估一个字词对于一个文件集的重要程度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。