CN105912533B 面向神经机器翻译的长句切分方法及装置
申请日:2016.04.12
IPC分类号:G06F17/28
公开日:20190212
申请人:苏州大学
发明人:熊德意;邝少辉
面向神经机器翻译的长句切分方法及装置
机器翻译
基于encoder-decoder结构的NMT模型能够取得很好的翻译效果,但是,当源语句过长时,其翻译效果会有所下降。特别地,随着源语句的长度增加,其翻译效果在一定程度上会越来越差。
一种面向神经机器翻译的长句切分方法,其特征在于,包括: 在获得待翻译的源语句后,确定所述源语句的长度; 在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序; 将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句; 按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句; 其中,所述利用预先构建的切分模型对所述源语句进行切分,获得多个源子句,包括:将所述源语句作为待切分源语句;将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句; 所述切分模型包括分割子模型、调序子模型及长度子模型; 相应地,将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率,包括: 将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;以及将所述可分割概率、所述不需要调序概率及所述长度满意概率三者的乘积作为词单元的切分概率。
由于输入NMT模型翻译的子句较短,NMT模型的翻译准确率较高,从而提高了语句翻译的准确率。
申请号:CN201610224531.8
公开(公告)号:CN105912533B
申请日:2016.04.12
公开(公告)日:20190212
优先权:
同族:中国
同族引用文献:5
同族施引专利:20
申请人:苏州大学
申请人地址:215123 江苏省苏州市工业园区仁爱路199号
权利人:语联网(武汉)信息技术有限公司
权利人地址:430206 湖北省武汉市东湖新技术开发区高新大道999号未来科技城B2栋13楼1302室(自贸区武汉片区)
发明人:熊德意;邝少辉
代理机构:北京集佳知识产权代理有限公司
代理人:常亮
-
1.一种面向神经机器翻译的长句切分方法,其特征在于,包括:
在获得待翻译的源语句后,确定所述源语句的长度;
在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;
将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;
按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句;
其中,所述利用预先构建的切分模型对所述源语句进行切分,获得多个源子句,包括:将所述源语句作为待切分源语句;将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句;
所述切分模型包括分割子模型、调序子模型及长度子模型;
相应地,将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率,包括:
将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;以及将所述可分割概率、所述不需要调序概率及所述长度满意概率三者的乘积作为词单元的切分概率。
7.一种面向神经机器翻译的长句切分装置,其特征在于,包括:
源语句长度确定模块,用于在获得待翻译的源语句后,确定所述源语句的长度;
源语句切分模块,用于在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;
源子句翻译模块,用于将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;
翻译子句拼接模块,用于按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句;
其中,所述源语句切分模块包括:待切分源语句获得子模块、切分概率获得子模块、切分点选取子模块、待切分源语句重新确定子模块、及源语句切分子模块;
待切分源语句获得子模块,用于将所述源语句作为待切分源语句;切分概率获得子模块,用于将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;切分点选取子模块,用于依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;待切分源语句重新确定子模块,用于将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;源语句切分子模块,用于所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句;
其中,所述切分模型包括分割子模型、调序子模型及长度子模型;
相应地,所述切分概率获得子模块包括:可分割概率获得单元、不需要调序概率获得单元、长度满意概率获得单元、及切分概率获得单元;
可分割概率获得单元,用于将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;不需要调序概率获得单元,用于将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;长度满意概率获得单元,用于将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;以及切分概率获得单元,用于将所述可分割概率、所述不需要调序概率及所述长度满意概率三者的乘积作为词单元的切分概率。

宝贵建议
15501385867
contact@hugoip.com
更新日志