




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学学报 自然科学版 第 5 1 卷第 2 期2 0 1 5年 3 月 Ac t a S c i e n t i a r u m Na t u r a l i u m Un i v e r s i t a t i s P e k i n e n s i s Vo 1 5 1 No 2 Ma r 2 Ol 5 d o i 1 0 1 3 2 0 9 j 0 4 7 9 8 0 2 3 2 0 1 5 0 3 1 基于双语合成语义的翻译相似度模型 王超超熊德 意 张民 苏州大学计算机科学与技术学院 苏州 2 1 5 0 0 6 十 通信作者 E m a i l d y x i o n g s u d a e d u c n 摘要 提出基于双语合成语义的翻译相似度模型 通过在翻译过程中引入双语语义相似度特征提高翻译性 能 首先利用分布式方法分别在源端和 目 标端获取短语的单语合成语义 向量 然后利用神经网络将它们映射 到同一语义空间 获得双语合成语义向量 在该语义空间 计算源语言短语和对应的目标语言短语之间基于 合成语义向量的翻译相似度 将其作为一个新特征加入解码器 在汉英翻译 N I S T 0 6和 N I S T 0 8测试数据集 上 相较于基准系统 基于双语合成语义的翻译相似度模型获得 0 5 6和 0 4 2 BL E U值的显著性提高 关键词 语义合成 机器翻译 分布式表示 神经网络 中图分类号T P 3 9 1 Tr a ns l a t i o n S i mi l a r i t y M o d e l Ba s e d o n Bi l i n g u a l Co mp o s i t i o n a l S e ma n t i c s W ANG Ch a o c h a o XI ONG De y i t ZHANG M i n Sc ho o l o f Co mp ut e r Sc i e nc e a n d T e c h n o l o g y So o c h o w Un i ve r s i t y S u z h o u 2 1 5 00 6 十Co r r e s p on d i ng a u t ho r E ma i l d y x i o n g s u d a e d u c n Ab s t r a e t Th e a u t h o r s p r o p o s e a t r a ns l a t i o n s i mi l a r i t y mo d e l b a s e d o n bi l i n g u a l c o mp o s i t i o n a l s e ma n t i c s t o i n t e g r a t e t h e b i l i n g u a l s e ma n t i c s i mi l a r i t y f e a t u r e i n t o d e c o d i n g p r o c e s s t o i mp r o v e t r a n s l a t i o n q u a l i t y I n t h e p r o p o s e d mo d e l mo n o l i n g u a l c o mp o s i t i o n a l v e c t o r s f o r p h r a s e s a r e o b t a i n e d a t t h e s o u r c e a n d t a r g e t s i d e r e s p e c t i v e l y u s i n g d i s t r i b u t i o n a l a p p r o a c h T h e s e mo n o l i n g u a l v e c t o r s a r e t h e n p r o j e c t e d o n t o t h e s a me s e ma n t i c s p a c e a n d t h e r e f o r e t r a n s f o r me d i n t o b i l i n g u a l c o mp o s i t i o n a l v e c t o r s Ba s e o n t h i s s e ma n t i c s p a c e t r a n s l a t i o n s i mi l a r i t y b e t we e n s o u r c e p h r a s e s a n d t h e i r c o r r e s p o nd i n g t a r g e t p h r a s e s i s c a l c u l a t e d T h e s i mi l a r i t i e s a r e i n t e g r a t e d i n t o t h e d e c o d e r a s a n e w f e a t u r e Ex p e r i m e n t s o n Ch i n e s e t o En g l i s h NI S T0 6 a n d NI S T0 8 t e s t s e t s s h o w t h a t t h e p r o p o s e d mo d e l s i g n i f i c a n t l y o u t p e r f o r ms t h e b a s e l i n e b y 0 5 6 a n d 0 4 2 BLE U p o i n t s r e s p e c t i v e l y Ke y wo r ds s e ma n t i c c o mp o s i t i o n a l i t y ma c h i n e t r a n s l a t i o n d i s t r i b u t e d r e p r e s e n t a t i o n s n e u r a l n e t wo r k 统计机器翻译作为人工智能领域的一个重要分 支 经历 了基于词 短语和句法的发展阶段 目前 越来越多的研究人员开始探索基于语义信息的统计 机器翻译方法 Z o u等 l J 提出基于联合优化模型 在双语语料库 中同时训练 得到双语 的单词语义 向 量 Mi k o l o v等 提 出基于神经 网络的方法 分别 获 取源 端 和 目标 端 的单词 语义 向量 然后 采 用线 性 映射方法 将源端单词语义向量映射到 目标端所在 的语义空间 上述工作虽然在一定程度上提升了翻译性能 但仍然存在如下不足 1 对于语义信息的研究仍然 局限于单词层面 2 采用联合优化模型 即在双语语 料库 中同时训练语义 向量 过程繁琐 且训练时间 较长 3 相对于非线性映射方法 线性映射方法在 向量值传递等方面的准确性相对较弱 在实际映射 中可能会丢失源端语义向量所包含的语义信息 3 本文提 出基于双语合成语义的翻译相似度模 型 不仅将语义信息从单词层延伸到短语层 而且 采用非线性映射方法 将源端语义向量映射到 目标 端语义空间 有效地解决 了上述问题 合成语义的 国家 自然科学基金 6 1 3 7 3 0 9 5 和江苏省 自然科学基金青年基金 B K2 0 1 4 0 3 5 5 资助 收稿 日期 2 0 1 4 0 6 3 0 修回 日期 2 0 1 4 1 0 2 3 网络 出版 日期 2 0 1 4 1 2 一 O 1 3 3 5 北京大学学报 自然科学版 第 5 l 卷 第 2期 2 0 1 5年 3 月 概念最早在1 8 9 2年 由德国逻辑学家 F r e g e 提出 是语言使用者理解他们从未听过的短语和句子语义 的一个基本原则 即一个合成表达的语义由其各组 成部分的语义以及把它们连接在一起的语法规则共 同决定 合成语义信息能够有效扩大语义信息的表 示范 围 基于合成语义信息的统计机器翻译方法对 于翻译性能的提升具有重要意义 5 1 基于双语合成语义的翻译相似度模型训练与集 成过程可以概括为如下 3个步骤 首先 在大规模 语料库中 通过分布式表示方法中的向量混合方法 在源端和 目标端分别获取短语的单语合成语义 向 量 其次 将神经 网络作为 向量映射模 型 把双语 语义空间下的合成语义 向量映射 到同一语义空间 最后 利用翻译相似度模型计算它们的翻译相似度 在解码过程 中将该翻译相似度作为特征加入 在实 验部分 本文以无映射的双语翻译相似度 线性映 射方法的翻译相似度以及带隐含层的非线性映射方 法的翻译相似度作为特征 实验结果表明 集成了 带隐含层的非线性映射方法的翻译相似度特征在解 码过程中取得最优的结果 以 B L E U 值作为评价 尺度 在测试数据集 NI S T 0 6和 NI S T 0 8上分别提 升 0 5 6和 0 4 2 B L E U 1 相关工作 近年来 随着 自然语言处理以及统计机器翻译 技术的发展 国内外研究人员在合成语义表示以及 基于语义信息的统计机器翻译方法方面做了相关研 究 6 在基于分布式方法的向量混合方法语义表示方 面 I s l a m等 8 提出用逐点互信息 P MI 表示单词的语 义信息 在单词语义表示的基础上 Mi t c h e l l 等 9 1 提 出用向量乘法和带权 向量加法表示短语的合成语义 信息 基于分布式方法中向量混合方法的语义表示 能够反映上下文窗 口中合成语义的相关信息 且训 练速度较快 在 基于语 义信 息的统计 机 器翻译 方法方 面 Z o u等 1 提出利用联合优化模型同时获取双语的语 义信息 首先通过一个基于神经网络的模型获取源 端的单词语义表示 然后利用源端 的语义信息以及 词对齐信息初始化 目标端的语义表示 选择损失最 小的语义信息作为 目标端的语义表示 在解码的过 程中取得一定的效果 Mi k o l o v等 2 提出利用神经 网络和线性映射的方法获取单词语义信息 并集成 3 3 6 到解码器中 首先在源端和 目标端大规模语料库中 利用基于神经网络的方法训练两个单语的单词语义 表示模型 然后通过一个状态转移矩阵将源端的单 词语义信息映射到 目标端 最后集成到解码器 中 取得 良好的翻译效果 Ga o等 1 o 提出利用短语语义 相似度改善机器翻译的质量 首先在源端和 目标端 分别抽取短语 然后通过多层神经网络模型 将源 端和 目标端中的短语映射到一个低维的浅层语义空 间 于是 对于源端 目标端短语 可以用一个与语 言环境无关的特征向量表示它们的语义信息 最后 通过计算各特征向量之间的翻译得分 并将其作为 一 个特征加入训练模型中 尽管对合成语义表示以及基于语义信息的统计 机器翻译方法有了一定的研究 l 但是关于基于合 成语义信息 的统计机器翻译方法的研究仍然十分有 限 针对此问题 本文在双语合成语义的基础上 提 出翻译相似度模型 研究合成语义信息对于统计 机器翻译质量的影响 2 翻译相似度模型 翻译相似度模型刻画了同一个语义向量空间中 两个多维向量 和 v的相似程度 向量 和 的相 似程度越高 说明 l f 和 l 所表示的语义越接近 在 解码的过程中 选择与源端短语语义最接近的 目标 短语作为翻译结果 翻译相似度可以由多种函数计 算得到 例如标量积 向量距离等 但是 这些方 法在计算多维空间向量 的相似度时 不能有效区分 相似度 的高低 1 们 因此 本文选择余弦相似度 函 数 计算两个语义向量之间的翻译相似度 通过计 算语义向量 和 v之间夹角的余弦值 近似地表示 两个语义向量之间的相似程度 s i m 4 v 蒜 一 式中 S i re 表示语义向量 砧和 1 的翻译相似度 a 和 b 分别表示 l I 和 1 每一维的值 夹角越小 相 似性越高 余弦值越大 夹 角越大 相似性越低 余弦值越小 如表 1所示 在同一个语义空间下 有一个源 端短语和两个 目标端短语的合成语义 向量 通过式 1 得到其 翻译相 似度分别 为 S i re D 2 0 8 6和 S i m2 Dl D3 0 7 0 D1 表示短语 举行 选举 D2 表 王超超等 基于双语合成语义的翻译相似度模型 表 1 计算合成短语的翻译相似度实例 T a b l e 1 E x a mp l e s o f c a l c u l a t i n g t h e t r a n s l a t i o n s i mi l a r i t y be t we e n c ompos i t i o na l phr a s e s 说 明 表 中合成短语的语义向量只是为 了说明翻译相似度所用 的测试数据 实验 中我们训练 5 0维的语义向量表示 合成短语 的语 义信息 示 短 语 h o l d e l e c t i o n 表 示 短 语 c e l e b r a t e e l e c t i o n 比较发现 D 与 之间的翻译相似度 更 高 因此在解码 时 选择 D 作为源语言 的翻译 结果 2 1 合成语义 向量获取 逐点互信息 P MI 提供了一种有效 的方法 通 过向量表示单词的语义信息 向量中的每一个元素 反映 目标单词在预先定义 的上下文窗 口中与单词表 中其他单词同现 的频率 P MI可 以通过式 2 计算 得到 p n il c t g 2 式中 t表示 目标单词 c i 表示在上下文窗口中与 t 相邻的关联词 本文预定义上下文窗 口的长度为 5 f r e q 表示 关联 词 c 与 目标 单词 f共 现 的次 数 f r e q 删 表示所有单词 出现的次数 f r e q 表示 上下 文单词出现的次数 f r e q 表示 目标词出现 的次数 为 了避免负数信息对真实语义信息的干扰 我 们选取正逐点互信息 P P MI 计算单词 的语义信息 计算过程如下 p p mi c 3 获取到用 P P MI值表示的单词语义向量表示后 借 鉴 Mi t c h e l l等 1 提出的方法获取合成语义向量 合 成 函数如下 P f u 4 式中 p表示合成语义向量 和 分别表示用于合 成的单词语义 向量 R表示单词之间的语法关系 表示所需 的语言学背景知识 即构造单词的合成语 义时所需要 的附加信息或知识 在同一个语料库 中 词与词之间 短语与短语之间具有相同的 和 因此 对上述模型简化后 可 以使用带权加法 函数计算短语 的合成语义 向量 P 口 l l p v 5 其中 和 表示两个可以通过训练调整的特征权 值 本文在使用 D I S S E C T 训练得到合成语义向量 时 设置 和 的值分别为 0 6和 0 4 2 2 双语语义向量 映射 在源端和 目标端分别获取短语 的单语合成语义 向量后 采用如图 1所示的神经网络作为向量映射 模型 将源端语义 向量映射到 目标端所在的语义向 量空间 神经网络是一种模仿生物神经网络结构和 功能的数学模型 能够在外界信息的基础上改变内 部结构 常用来对输入和输 出间复杂的关系进行建 模 本节使用的单层神经网络通常被称做 B P神经 网络 是一种按误差逆传播算法训练的前馈 网络 能够学习和存储大量 的输入一 输 出模式映射关 系 无须事前揭示描述这种映射关系的数学方程 是 目 前应用最广泛的神经网络模型之一 本文采用的神经网络为只含有一个隐含层的单 输入层 隐含层 输出层 图 1 基 于神经 网络的双语语义 向量映射框架 F i g 1 A r c h i t e c t u r e o f t h e b i l i n g u a l p r o j e c t i o n n e u r a l n e t wo r k t h a t p r o j e c t s v e c t o r s o f s o u r c e p h r a s e s t o t a r g e t s e m a n t i c s p a c e h t t p c l i c c i me c u n i t n i t c o mp o s e s t o o l k i t i n d e x h t ml 3 3 7 北京 大学 学 报 自然科 学 版 第 5 l卷 第 2期 2 01 5年 3月 层神经网络 具体的映射过程如式 6 所示 P g g b 1 6 2 6 其中 是从输入层到隐藏层的映射矩阵 是从 隐藏层到 输 出层 的映射 矩阵 b 和 b 为偏置 值 g 通常选月 j 非线性函数 I n s i g mo i d和 t a n h 为了 计算神经网络的权值 我们采用式 7 计算平方差损 失 函数 1一 e 去 一 7 二i p 是通过式 6 计算得到的映射语义向量 是与 输 入 的源语 言短 语语 义 向量对应 的 目标语 言短语 语 义向量 向量映射的权值可以通过后 向传播算法训 练得到 对于收集到的训练实例集 f 和 t 分 别 表 示 短语 对 t 中源 语 言 和 目标 语 言 短语 向 量 通 过 不 断修 正 平 方差 损失 函数 e 最终 得 到最 合适 的权值 矩 阵 3 实验 实验 在汉 语 到英 语方 向的 翻译 中进行 组 织结 构如图 2所示 首先 对语料库进行预处理 通过 分布式表示方法中的向量混合方法分别获取源端以 及 目标端短语的单语合成语 义向量 然后 使用向 量映射模型将源端的语义向量映射到 目标端所在的 语 义空 间 冉 后 通 过 翻 译相似 度 模 型 计算 同一 语 义空 间 下源 端 和 目标 端短语 语 义 向量 的 翻译相似 度 最后 将该翻译相似度作为一个特征加入解码 过程 获取 相应 的 翻译 结 果 实验对 比 非线性 映射方法与线性映射方法得 到 的双 济 i 莆义 向量 对基 于短 语 的机器 翻译 质量 的影 338 响 线性映射方法即为此处神经 网络中去掉隐藏层 的结果 通过该双语语义 向量映射方法 将源语言 端与目标语言端合成语 义向量映射到同一个语义空 间 在该语义空间使用翻译相似度模型计算源语言 端与目标语言端短语的翻译相似度 3 1 实验数据 本 文实验 采用 的双语 语料 约 含 4 0 0万平 行 句 对 这 些 句 对 来 自 L D C 语 料 的部 分 子 集 包 括 L D C 2 0 0 3 E 0 7 L D C 2 0 0 4 T 0 7 L D C 2 0 0 4 T 0 8和 L DC 2 0 0 5 T 0 6 首先 使用 GI Z A 工具 l 1 J 获得汉 英 英 汉 两 个 方 向 的词 语 对 齐 然 后 采 用 g r o w d i a g a n d fi n a l的启 发 式 方 法 获 得 多 对 多 的 词语 对齐 使用 S R I L M 工具 训练的四元语言模型 并 采用 K N 方法 进行平 滑 实 验评测 语料 使用 2 0 0 5年 NI S T 的评 测语料 NI S T 0 5作为开发集 使用 2 0 0 6和 2 0 0 8 年 NI S T的 评测语料 NI S T 0 6和 NI S T 0 8作为测试集 使用的 解 码器 是层 次短 语解码 器 的 C 重 实现版 本 该 解码 器 采用 C K Y 方 式进 行解 码 并使 用 C u b e P r u n i n g 的方法进行剪枝以减少搜索空间 实验使 用的栈大小为 1 0 0 机器翻译实验中使用最小错误 训练方法 l 7 优化线性模型的参数 采用大小写不敏 感 的 B L E U 4 1 l 作 为评测 指标 3 2实验预处理 实验预 处理 包括合 成语 义 向量获取 和 双语语 义 向量映射两个步骤 1 获取 合成 语 义向量 对获 取到 的短语 语料 库 做进 一 步 处理 统 计各 个 短语 m现 的次数 并 将 该 数 据 作 为 输 入 利 用 开 源 的 构 建 向量 模 型 工 具 图 2基 于语义表示的翻译相似度模型框架 Fi g 2 Fr a me wo r k o f t he s e ma nt i c ba s e d t r a ns l a t i on s i mi l a r i t y mode l 王 超 超 等 基 于 双语 合 成 语义 的翻 译相 似 度 模 型 D I S S E C T 在 中文端和英文端分别获取短语的合成 语义 向量 2 1 双语语义向量映射 经过第一步 在 中文端 和英文端分别获取约一千万个 5 0维的合成语义 向 量 此时 使用基于神经网络 的向量映射方法 将 中文端 的语义 向量 映射到英文端 的语义空 间 首 先 将 中文端 的语义 向量作为输入 利用双语对齐 信息将与之对应的英文端的语义向量作为输出 训 练生成具有一个隐含层包含 5 0个隐含层单元的神 经 网络模型 然后 仍然以中文端 的语义向量作为 输入 定义输 出格式为 5 0维 利用该训练好的神经 网络模型 将中文端的语义向量映射到英文端语义 空 间 3 3模型训练和解码 3 3 1 模 型训 练 我们要解决在层次短语模型解码器中如何计算 短语的双语语义相似度特征 如何将该双语语义相 似度作 为对 数线性 模 型 中新 增 的特征 f f e 开发集 NI S T 0 5通过 ME R T H 迭 代多 轮后 选 择最 优的权重 作为测试集 NI S T 0 6和 NI S T 0 8的权 重 该新增特征的计算过程如下 一 e S i m u j r e 8 其中 厂 和 e分别表示源语言和 目标语言 A为对齐 规则 和 分别表示 3 2节实验预处理中获取的 源语言和目标语言语义向量表中查找到的短语语义 向量 模型的训练过程如算法 1 所示 算法 1 双语合成语义的翻译相似度模型特征 提取算法 输入 1 同步文法规则 其中 是非终 结符 y a是由终结符和非终结符构成的字符串 是非终 结符对应关系 2 1 源语言短语语义向量表 f t a b l e 3 1 目标语 言短 语语 义 向量 表 e t a b l e 输出 对数线性模型中的翻译相似度特征 h e 厂 算法流程 1 f o r每一个终结符 f wo r d i n y d o 2 对 于每 一个终 结符 记录 下标号 i i n d e x f wo r d 3 i f y f f 1 在 f t a b l e 中 在源 语 言语义向量表中依序查找规则表中相应短语 4 记 录下它 的 向量 5 S u mV e c 求出翻译假设 中 所 有短 语语 义 向量 的总 和 6 A v g V e c S u mV e c 求出整个 翻译假设的语义向量均值 7 f 2 8 e l s e 9 f 1 0 Co n t i n u e 1 1 e n d i f 1 2 e n d fo r 1 3 for每一个终结符 e w o r di n a d o 1 4 与源端 的处理过程相似 得到 A v g Ve c 1 5 e n d fo r 1 6 计算翻译相似度特征 厂 P S i m Av g Ve c A v g Ve c 1 7 for每一个非终结符 i n 6 d o 1 8 把 X 中的特征提取 出来加载到 h s 厂 e 1 9 e n d fo r 2 0 r e t u r n r P 本文使用的短语定义为步长为 2的二词短语 对于源语言句子 首先在层次短语模型解码器的对 齐规则表 中找到相应 的短语 若不存在则跳过 然 后在源语言语义向量表中 查找到翻译假设 中所有 二词 短语 对应 的短 语语 义 向量 并 求 出该 翻译 假设 的均值 对于 目标语言句子 通过类似的过程查找 到对应的短语语义向量 最后 通过式 8 计算得到 该翻译相似度特征 并将它作为对数线性模 型的一 个特征 集成 到解码 器 3 3 2解 码 实验使用 的解码器是层次短语解码器 的 C 重实现版本 并使用 C u b e P r u n i n g方法进行剪枝 加快解码 的速度 直接翻译概率可以用式 9 形式 化地 描述 广 M e x p l e P r P l l厂 P P l 厂 牛 9 e x p l m h m em l l L l 其中 e和 厂分别是机器翻译的 目标端和源端句子 h l e f P l厂 分别是 e和 上的 个特征 是与这些特征分别对应的 M个参数 解 码过程 中 直接将本文提出的翻译相似度模型作为 一 个新特征 厂 e 集成到对数线性模型中 3 4实验 结果与分析 表 2是实验结果 包含开发集和测试集两个部 分 以 B L E U 4作为评价指标 从表 2可以清楚地 看到 1 与基准系统相比 加入无 映射的翻译相似 度特征方法在测试集 NI S T 0 6和 NI S T 0 8分别下降 0 2 8和 0 2 0 2 线性映射方法 在同一个语义空间 下 计算翻译相似度并将它作为一个特征 相比于 33 9 北京大学学报 自然科学版 第 5 1 卷第 2期 2 0 1 5年 3 月 表 2开发集与测试集上的实验结果 T a b l e 2 E x p e r i me n t a l r e s u l t s o n d e v e l o p s e t a n d t e s t s e t s 注 表示显著性测试中p O 0 5 基准 系统 该 方法的结果提升 不明显 在测试集 NI S T 0 6和 NI S T 0 8分别只提升 0 1 1和 0 2 4 3 带 有单个隐含层的神经网络的向量映射方法 选择映 射到同一语义空间下的翻译相似度作为特征 该方 法 的 结 果 取 得 明 显 提 升 在 测 试 集 NI S T 0 6 和 NI S T 0 8 分别提升 0 5 6和 0 4 2 在翻译 的过程中 本文以 N I S T 0 6 中的 谈判 和 妥协 是民主 的 重要手段 为例 说 明加 入语义向量翻译相似度特征对翻译结果 的影响 对 比结果如表 3 所示 从表 3可以得到以下结论 1 加入无映射的翻译相似度特征时 其翻译结 果与参考译文以及基准系统相 比 都比较差 究其 原因 两个不同语义空间下训练得到的语义 向量的 语义信息不同 简单计算两者之间的翻译相似度 没有实质意义 反而会导致错误的调优 2 双语语义向量映射方法得到的翻译结果 明 显 比基准系统和无映射的翻译相似度方法更加接近 表 3翻译结果对比实例 Ta bl e 3 Exa mpl es of t r a ns l a t i o n r e s u l t s c o mpa r i s o n 方法 翻译实例 待翻译句子 谈判 和 妥协 是 民主 的 重要 手段 参 考 译 文 翼 m i 也 唧 基准系统t a 1 k s i t h c mp mi i t h t 0 h 1 d 0 f 翻 t h e y a n d s u 舢 e r t og ot o t h e ma i n1 h a t 译相似度特征 d m 1 h 砒 加入线性映射翻t a l k s a n d Co mp r o mi s e i s t h e ma i n t o o l s o f 译相似度特征d e mo c r a c y 加入非线性映射t a l k s a n d C o mp r o mi s e a r e t h e i mp o r t a n t t o o l s 翻译相似度特征 o f d e mo c r a c y 说 明 粗体表示与参考译文一致的单词 34 0 参考译文 原因是 基于合成语义信息的统计机器 翻译方法相 比于传统的层次短语翻译方法 携带了 部分上下文信 息 有利 于解码器选择 更优的翻译 结果 3 相 比于线性 映射方法 采用非线性映射方法 的翻译结果显然更为优越 原因是线性映射方法在 语义 向量之间映射时 可能丢失了部分重要 的语义 信息 4总结与展 望 本文提出一种基于双语合成语义向量表示的翻 译相似度模型 利用双语合成语义信息 有效提高 了翻译 的质量 本文的创新点主要包括两个方面 首先 成功地将单词语义信息扩展到短语 的层次 利用分布式表示方法 中的向量混合方法 分别在源 端 和 目标端获取短语 的单语合成语义向量 其次 采用带隐含层的神经网络模型将双语语义向量映射 到 同一个语义 向量空间 再利用翻译相似度模型 计算语义 向量 的翻译相似度 以 B L E U 值作为评 价尺度 在测试集 NI S T 0 6和 N I S T 0 8的实验表明 加入语义相似度特征 的 B L E U 值 比基准系统平均 上升 0 4 9 本文提出的翻译相似度模型对于合成语义向量 的质量有较高要求 获取更高质量的合成语义向量 将是我们未来的研究方向 包括如下 3 个方面 1 1 虽然分布式 向量混合模型的方法具有计算简 单 训练速度快等特点 但是深度学习的方法能够 在更大程度上考虑句子的语义 因此 未来将利用 深度学习的方法获取单词及合成短语 的语义信息 2 本文利用只含有一个隐含层的神经 网络 将 中文端语义 向量映射到英文端 虽然取得良好效果 但是仍然具有一定的局限性 在映射的过程 中可能 丢失了部分语义信息 因此 未来将结合相关学者 目前 提出的深度学 习方法 探究更好 的向量 映射 模 型 3 对于本文所使用的解码器 我们将进一步优 化对齐规则与语言模型 以获得更快的速度和更优 的结果 参考文献 1 Z o u W J S o c h e r R C e r D e t a 1 B i l i n g u a l w o r d e mb e d d i n g s f o r p h r a s e b a s e d ma c h i n e t r a n s l a t i o n Pr oc e e di ngs of t he 2 0 1 3 Co nf e r e nc e on Emp i r i c a l 王超超等 基于双语合成语义的翻译相似度模型 7 8 9 1 0 M e t ho ds i n Na t ur a l La ng ua ge Pr o c e s s i ng S e at t l e 20l 3 1 393 1 398 Mi k o l o v L e O S u t s k e v e r I E x p l o i t i n g s i mi l a r i t i es a mo ng l a ng ua ge f o r ma c hi ne t r a ns l a t i o n E B OL 2 0 1 3 0 9 1 7 2 0 1 4 一 O 1 2 0 h t t p a r x i v o r g pdffl 30 9 41 68 V 1 Be ngi o La m b l i n Pop ov i c i D e t a 1 G r e e d y l a ye r wi s e t r a i ni ng of de e p ne t wo r ks Ad va nc e s i n Ne u r a l I n f o r ma t i o n P r o c e s s i n g S y s t e ms 1 9 NI PS 0 6 Ca mb r i d g e M I T P r e s s 2 0 0 7 1 5 3 1 6 0 F r e ge G Ube r Si nn u nd Be d e ut un g Ge a c h P Bl a c k M Tr a n s l a t i o n f r o m t h e P hi l os o ph i c a l W r i t i ng s of Got t l o b Fr e g r e Oxf o r d Bl a e k we l l 1 8 92 5 6 78 Ka r t s a kl i s D Co mpos i t i on a l o pe r a t or s i n d i s t r i b ut e d s e ma nt i c s Sp r i ng e S ci e nc e Re vi e ws 201 4 2 1 61 1 77 Xi o n g D Z h a n g M Li H M o d e l i n g t h e t r a n s l a t i o n o f pr e di c a t e a r g ume n t s t r uc t u r e fo r SM T Pr o c e ed i ngs o f t he 5 0t h An nu al M e e t i ng o f t he As s oc i a t i on for Co mpu t a t i ona l Li n gui s t i cs Lo n g Pa pe r s Vo l u me 1 J e j u 2 0 1 2 9 0 2 9 1 1 Xi o ng D Zha ng M A s e ns e ba s e d t r a ns l a t i o n mo de l for s t at i s t i c a l ma c hi n e t r a n s l a t i o n P r o c e ed i ngs of t he 52 nd An nu al M e e t i ng of t h e As s oc i a t i o n for Co mpu t a t i ona l Li ng ui s t i cs Lo ng Pa pe r s Vol ume 1 Ba l t i mo r e 2 01 4 1 459 1 46 9 I s l a m A I nk pe n D Se c on d or d e r c o o c c ur r e nc e PM I for de t e r mi ni ng t h e s e ma nt i c s i mi l a r i t y o f wo r d s Pr oc e e di ng of t he I nt e r n a t i o na l Co nf e r e nc e o n La n g u a g e Re s o u r c e a n d Ev a l u a t i o n LRE C 2 0 0 6 Ge noa 2 00 6 1 033 1 03 8 M i t c he l l J La pa t a M Ve c t o r ba s e d mo de l s of s eman t i c c omp os i t i on P r o c e ed i ngs o f t he 46 t h Ann ua l M e e t i ng of t he As s oc i a t i o n for Comput a t i o na l Li ng ui s t i cs Col umb us 200 8 2 36 2 44 Ga o J He X Yi h W e t a 1 Le a r ni ng s e m a n t i c r e p r e s e n t a t i o n s for t h e p h r a s e t r a n s l a t i o n mo d e l Pr oc e e di ngs of t he 5 2n d Ann ua l M e e t i ng o f t he As s o c i a t i o n f o r C o mp u t a t i o n a l Li n g u i s t i c s Ba l t i mo r e 2O1 4 6 99 70 9 Xi a o X Xi o ng D Zha ng M e t a 1 A t o pi c s i mi l a r i t y mod e l for hi e r a r c hi c a l phr a s e ba s e d t r a ns l a t i o n Pr oc e ed i ngs o f t he 5 0 t h Annu a l M e e t i ng of t h e As s oc i a t i o n fo r Co mp ut a t i o na l Li ng ui s t i cs Lo ng P a p e r s V o l u me 1 J e j u 2 0 1 2 7 5 0 7 5 8 Oc h F J Ne y H GI ZA t r a i ni n g of s t a t i s t i c al t r a n s l a t i o n mo d e l s E B O L 2 0 0 1 0 1 3 0 2 0 1 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 止痛药物应用总结模版
- 平衡的稳定性教学设计
- 机械工程材料基础第三章钢的热处理
- 人教版三年级语文下册《口语交际:春游去哪儿玩》教学课件
- 医院人事管理课件
- 肿瘤机器技术应用与发展
- 提高课堂教学的有效性心得体会模版
- 本学期少先队工作总结模版
- 手术室传染病分管规范
- 初一上英语教学总结模版
- CJT 489-2016 塑料化粪池 标准
- 2023-2024学年广东省惠州市惠城区八年级(下)期末数学试卷(含答案)
- 2022-2023学年广东省广州市番禺区教科版(广州)四年级下册期末测试英语题卷(无答案)
- 纺纱厂管理制度
- 2024年福建省莆田市初中八年级教学质量检测生物试卷
- 医疗器械仓库管理课件
- 中华水文化智慧树知到期末考试答案2024年
- 整套电子课件:液压传动与气动技术(第二版)
- 《人类起源的演化过程》阅读测试题及答案
- 2024年03月甘肃省文化和旅游厅直属事业单位2024年公开招考11名人员笔试参考题库附带答案详解
- MOOC 民事诉讼法学-西南政法大学 中国大学慕课答案
评论
0/150
提交评论