CN114169345B 利用同源词的日中机器翻译方法和系统 (合肥工业大学)_第1页
CN114169345B 利用同源词的日中机器翻译方法和系统 (合肥工业大学)_第2页
CN114169345B 利用同源词的日中机器翻译方法和系统 (合肥工业大学)_第3页
CN114169345B 利用同源词的日中机器翻译方法和系统 (合肥工业大学)_第4页
CN114169345B 利用同源词的日中机器翻译方法和系统 (合肥工业大学)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明提供一种利用同源词的日中机器翻以及获取所当前词语在日语词典下的词向量表的日语词语采用公有-私有表示的方法,可以建模日语中同源词语义上偏离其原先语义的语言2S2、根据预先获取的同源词典,逐一判断所述词语S4、获取当前词语在所述共享词典下的词向量首先分词处理平行语料中的日语和中文句子,并统计词频,将中share6.如权利要求1~5任一项所述的利用同源词的S61、将所述日语源句的完整词向量表示输入所述Tran3S62、将所述上下文表示输入所述Transformer模型的解码器中,Transformer模型的模型参数基于最大似然估计方法进行端到端的9.一种存储介质,其特征在于,其存储有用一个或多个程序,其中所述一个或多个程序被存储在所4[0001]本发明涉及机器翻译技术领域,具体涉及一种利用同源词的日中机器翻译方法、[0002]机器翻译是指利用计算机自动实现把一种自然语言翻译成另一种自然语言的技码器再把这种信息生成为目标语言的句子。编码器和解码器可以分别采用不同的模型结络的结构来对序列进行表示。自注意力机制可以非常高效的描述任意距离之间的依赖关[0004]但是尽管以上基于RNN,CNN和Transformer这些神经网络的机器翻译取得了很好5[0030]S61、将所述日语源句的完整词向量表示输入所述Transfor通过多层的Transformer子层得到每个词语的上[0032]优选的,所述Transformer模型的模型参数基于最大似然估计方法进行端到端的语序列;6述计算机程序使得计算机执行如上所述的利用同源词的日中7日语词语采用公有-私有表示的方法,可以建模日语中同源词语义上偏离其原先语义的语[0058]第一方面,如图1所示,本发明实施例提供了一种利用同源词的日中机器翻译方[0065]本发明实施例通过利用同源汉字得到中日同源词,扩大了双语间共享的词语数8[0073]如表1所示,排除不存在对应关系的汉字,中日的汉字之间存在以下几种映射关9[0087]需要说明的是,所述共享词典为在分别在日语和中文语料上统计的最高频的[0094]权重向量α可以自适应地学习公有和私有部分的重要性,其每个维度的值的大小[0098]S61、将所述日语源句的完整词向量表示输入所述Transfor通过多层的Transformer子层得到每个词语的上[0100]特别的,所述Transformer模型的模型参数基于最大似然估计方法进行端到端的[0101]本发明实施例通过采用Transformer模型中的注意力权重来表示词对齐关系,即是在包含同源汉字词的日语句子翻译上,如表2所示,红色部分为我们提议方法变好的地[0107]第二个例子可以说明引入公有-私有表示的必要性和效果;如果只用基于同源词[0108]第二方面,如图3所示,本发明实施例提供了一种利用同源词的日中机器翻译系语序列;[0122]本发明实施例通过利用同源汉字得到中日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论