文献综述
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
神经网络机器翻译(NMT)是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译(SMT)而言,NMT能够训练一张能够从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列,这在翻译、对话和文字概括方面能够获得非常好的表现。NMT其实是一个encoder-decoder系统,encoder把源语言序列进行编码,并提取源语言中信息,通过decoder再把这种信息转换到另一种语言即目标语言中来,从而完成对语言的翻译
- 神经网络翻译的原理
NMT系统使用编码器,读取源语句,以构建“思想”向量,表示句子意义的数字序列;然后,解码器处理句子向量,以发出翻译。这通常被称为编码器-解码器架构。以这种方式,NMT解决了传统的、基于短语的方法中的本地翻译问题:它可以捕获语言的长期依赖性,例如语法结构等等,并产生更流畅的翻译。
- 神经网络翻译的模型
在机器翻译的众多方法中,序列到序列(“seq2seq”)模型最近取得了巨大的成功,并已成为大多数商业翻译系统中的标准。seq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。
- 神经网络翻译的技术
基于序列的方式,可以看成两步,分别是 Encoder 与 Decoder,Encoder 阶段就是将输入的单词序列(单词向量)变成上下文向量,然后 Decoder根据这个向量来预测翻译的结果。
encoder 阶段面临的一个问题是,对于输入语句,语句的长度往往是不固定的,但是我们训练神经网络往往都是要固定长度的向量。所以如何解决这个问题是 encoder阶段的关键。我们通常使用多层的 LSTM,上一层的输出将作为下一层的输入。
在 Google 提出 Seq2Seq 的时候,提出了将输出的语句反序输入到 encoder中,这么做是为了在 encoder阶段的最后一个输出恰好就是 decoder阶段的第一个输入。这一阶段要稍微与encoder阶段要复杂一点点。首先是一个 Token, 一般是一个 lt;EOSgt; 表示输入的结束,表示 decoder 阶段的开始,还有一点不一样就是,我们期望用以及正确预测的数据作为下一次的上下文参考,作用到下一个时间点。横向可以看成序列的,纵向可以看成是并行的(但是实际上不是并行的)。
上面的方法面临这样一个问题,那就是单词向量往往是与上下文有关的,而不仅仅只与前面的文字有关,所以需要改进单向 RNN,使用双向 RNN来解决这个问题。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。