文献综述
中文自动分词是指将一个连续的中文文本序列按照一定的规则切分成一个个单独的词序列的过程。由于中文是以单个的字作为最小写作单元的,并且词和词之间没有像英文一样有空格可以作为固定分隔符,因此无论在中文自然语言处理里的哪一子领域中,第一步都离不开中文分词。因此中文分词是其他中文信息处理的基础,并广泛应用于搜索引擎、机器翻译、语音合成、自动分类、自动摘要和自动校对等领域。随着非结构化文本的大量产生,中文分词的相关研究显得越来越重要。
- 中文分词原理与方法
1 基于规则的分词方法
基于规则的中文分词方法是分词任务中最传统也是最常见的一种处理办法,这种分词方法也可称为“词典匹配法”或者“机械分词方法”。基于规则的分词方法是按照一定的策略将待分词的中文信息串与一个“足够大的”分词词典中的词条进行配,若能够在词典中找到某个字符串,则表示匹配成功。按照扫描方向的不同,该分词方法可以分为正向匹配法和逆向匹配法;按照不同长度优先匹配的情况,可以分为最长匹配法和最短匹配法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
2 基于统计的分词方法
由于自然语言自身的复杂性,人们自己对于某些语句的理解可能都不完全准确,因此想要把自然语言中所有知识全部用规则表示出来并能够被计算机准确理解,这几乎是一个不可能完成的任务。所以研究人员逐渐将研究重点转移到了基于统计学的分词方法上。基于统计的分词方法主要是依据字与字之间相邻的紧密结合程度来进行分词的。它的基本思想是,如果相连的字在不同的文本中出现的频率越高,就表明相连的这组字很可能就是一个词。因此,我们就可以通过利用字与字出现相邻的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一 个阔值时,我们就认为这个字组可能会构成了一个词语。
3 基于传统机器学习的分词方法
传统机器学习的方法是把中文分词看作一个序列标注任务来完成的,常用的序列标注模型主要有隐马尔科夫模型(Hidden Markov Model, HMM)、 最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)和条件随机场(Conditional Random Field, CRF)模型等。
4 基于深度学习的分词方法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。