基于神经网络机器翻译模型的英文分词研究

作者:陈祖君 刊名:计算机与数字工程 上传者:邓正栋

【摘要】针对英文等符号语言不能直接使用现有的神经网络机器翻译模型(NMT)的问题;在简述LSTM神经网络的基础上;采用分桶(bucketing)的方式将样本进行batch划分;在NMT模型中加入注意力机制提高了系统的性能;并分别利用双向LSTM神经网络和贪婪算法设计了基于上下文特征提取的编码器和输出算法的解码器;最后从语句还原程度和语义识别情况两个角度对英文的一元分词和HMM分词在NMT模型上的应用结果进行了对比;研究了英文的NMT模型适配方案;

全文阅读

1引言由于神经网络被发现可以进行语义的理解和分析,其在自然语言处理领域得到了广泛的应用。由循环神经网络演化而来的神经网络机器翻译模型(Neural Machine Translation,NMT)可以综合语言的语法、语义以及连贯性等方面进行机器翻译、语义提取、文本摘要等任务[1]。神经网络机器翻译模型是一种基于循环神经网络的机器翻译模型。文献[2]提出了一种新的利用循环神经网络进行序列Class NumberTP391.1到序列处理的模型,并把这个模型应用到英语-法语翻译任务之上,取得了比基于短语的机器翻译模型更高的BLEU分数。模型主要通过利用长短期记忆循环神经网络(Long Short-Term Memory Re-current Neural Network,LSTM RNN,本文中将简称为LSTM)生成消化和生成序列的方式完成序列数据处理[3]。在读入相同或相似语义的句子时LSTM网络隐含层的状态向量也相似,据此推导出神经网络可以抽象和处理语义相关的信息。Bahdanau等在论文[4]中对Sutskever等的模型进行改进,加入了neural network machine translation model,automatic encoder,English adaptation网络,改善了原本模型在处理长句子时性能会出现明显下降的问题,并且通过注意力机制可以获得原始语言和目标语言词汇之间的对应情况。现代英文的基本语素表达形式是词,一个词可以具有多个字,因此如果希望描述一个句子的语义,需要先将句子分词分为表达单一含义的词。分词任务本身可能产生歧义,分词就是具有动词及形容词二者特征的词,尤指以-ing或-ed,-d,-t,-en或-n结尾的英语动词性形容词,具有形容词功能,同时又表现各种动词性特点。并且因为之后的处理结果都会以分词结果为基础会造成分词错误传播,所以英文分词的效果会对NMT模型最终的结果产生很严重的影响。本文利用和Bahdanau论文相似的模型构建NMT自动编码器[5],通过实验研究了不同的英文分词方法对于NMT自动编码器文本还原能力和语义提取能力的影响。分词选择包括Google在处理英文时使用的一元分词方法以及当前英文分词领域普遍使用的隐含马尔科夫模型(Hidden MarkovModel,HMM)。2 LSTM神经网络长短期记忆循环神经网络(LSTM网络)是一种循环神经网络(RNN)[6]。其出现是为了解决普通RNN网络在迭代次数上升之后出现的梯度消失问题。LSTM网络设计了一个在迭代过程中可对状态进行选择处理的“记忆”机制,其结构如图1所示。图1 LSTM结构示意图LSTM神经网络可以分成遗忘门(Forget gate)、输入门(Input gate)、输出门(Output gate)和输入输出神经网络几个部分,各部分的作用可以表达为下式:i(t)=σ(Wixx(t)+Wihh(t-1)+bi)(1)f(t)=σ(Wfxx(t)+Wfhh(t-1)+bf)(2)c(t)=c(t-1)f(t)+?(Wcxx(t)+Wchh(t-1)+bc)i(t)(3)o(t)=σ(Woxx(t)+Wohh(t-1)+bo)(4)h(t)=o(t)?(c(t))(5)其中,i(t)表示t时刻的输入门输出、f(t)表示t时刻的遗忘门输出、c(t)表示t时刻的细胞状态、o(t)代表t时刻输出门输出、h(t)表示t时刻隐含层的输出数据、?表示网络神经元激活函数、表示元素乘法(Element-wisemultiply)。3神经网络机器翻

参考文献

引证文献

问答

我要提问