已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计机器翻译系统中传统词典的应用研究统计机器翻译系统中传统词典的应用研究 1 1 曹杰 任志祥 吕雅娟 刘群 中国科学院计算技术研究所 中国科学院智能信息处理重点实验室 北京 100190 E mail caojie renzhixiang lvyajuan liuqun 摘 要摘 要 词典是翻译系统中的重要资源 本文研究了将传统词典应用在统计机器翻译中的方法 包括在训练 部分词典加权到语料中使用和解码部分引入词典特征融入 log linear 模型来使用 本文还提出了一种词典匹 配算法 使得实用的统计机器翻译系统具有动态添加新词的功能 实验表明 训练阶段中词典的主要作用 是缓解数据稀疏问题 解码部分词典特征的引入使系统更加偏向于选择含有词典数目更多的译文 词典匹 配算法的引入很好的改善了实用翻译系统中的用户体验 并能进一步提高翻译质量 关键词关键词 统计机器翻译 词典 自然语言理解 词典特征 The Application of Traditional Dictionary in Statistical Machine Translation Jie Cao ZhiXiang Ren Yajuan L and Qun Liu Key Laboratory of Intelligent Information Processing Institute of Computing Technology Chinese Academy of Sciences Beijing 100080 China E mail caojie renzhixiang lvyajuan liuqun Abstract This paper describes several ways of using dictionaries in Statistical Machine Translation The dictionaries can be added to bilingual corpora with different weights in training and also can be used as a feature in decoding In addition we describe a word matching algorithm which enable the MT system to translate new words added by users Experiments have proved that in training dictionaries contribution mostly lies in solving the problem of data sparse Some phrases can t be learned by bilingual corpora may obtain translations from dictionaries Furthermore dictionary feature can increase the probabilities of those translations which have more entries in dictionary The word matching algorithm improves translation quality besides obtains good feedbacks from users Key Words statistical machine translation traditional dictionary natural language processing dictionary feature 1 1 引言 引言 近年来 统计机器翻译的研究取得长足进展 译文质量不断提高 而对于词典这一传统 机器翻译系统常用资源的使用却没有太多关注 本文探讨了将传统词典应用于统计机器翻译 系统中的方法 词典可以分为普通词典和领域词典两类 普通词典一般包含常用词语及译文 与具体领 1 本研究得到国家自然科学基金课题 60873167 60603095 和 60736014 的资助 域无关 而领域词典包含的是与某个专业领域相关的词典 比如 蛇舌草 在普通词典中一 般没有译项 而在传统中药领域词典中被翻译为 Hedyotis 而 阿拉伯 在传统中药领 域的词典中没有译项 而在普通词典中被译为 Arab 在训练部分 本文尝试将普通词典 领域词典与双语语料一起进行词对齐 通过修改 GIZA 2的输入参数给普通词典 领域词典和双语语料指定不同的权重 在解码部分 本文尝试将词典作为特征融入到 Och 2002 提出的 log linear 模型中 以 译文中含有的包含在词典中的词条数目作为一个新的特征使用 用最小错误率 Och 2003 方 法训练参数 为适应用户动态添加新词的需求 我们设计了一种词典匹配算法 允许词典的强制匹配 与非强制匹配 需要强制匹配的词在词典中译文的准确性高 用户认为必须要翻译为词典译 项 非强制匹配词在词典中的翻译不一定最好 用户允许其翻译为其他译项 该算法可以确 保翻译结果中含有强制匹配词的词典译文 并允许非强制匹配词的词典译文与其短语表中的 翻译进行 竞争 由解码器来选择最终合适结果 实际系统中的使用情况说明 这种策略 很好的改善了用户体验 本文按如下方式组织 第 2 部分研究了词典在训练部分的作用 第 3 部分研究词典在解 码部分的作用 第 4 部分是动态词典在实际统计机器翻译系统中的应用策略 第 5 部分是实 验结果与分析 2 2 词典在训练部分的应用 词典在训练部分的应用 统计机器翻译系统的训练分为语言模型的训练和翻译模型的训练 本文主要研究词典在 翻译模型训练中的作用 翻译模型的训练过程一般按如图 1 所示进行 GIZA 词 对 齐工具 短语抽取工具 双语语料 对齐文件 短语表 图 1 翻译模型的训练过程 目前词对齐工具中最常使用的是 Och 开发的 GIZA 该工具提供的输入参数可以指定 输入语料的权重 我们通过修改 GIZA 输入参数 weight 分别调节普通词典 领域词典 双 语语料的权重 实验部分比较了使用不同参数 weight 后对系统翻译质量的影响 并对原因 进行了分析 这种使用词典的方法实际上是将词典作为一种双语语料来使用 经过词对齐和短语抽取 后 词典中的词条都被赋予了一定的概率 可以直接当作短语在解码部分被使用 另外还有 其他对词典赋概率的方法 比如归一化赋概率 赋常值概率 Wu etc 2008 等 归一化赋概 率指 如果一个源语言单词在词典中有 n 个译文 那么由源单词和译文单词构造 n 个短语对 将每个短语对的四个翻译概率都赋予概率 1 n p c e p e c lex c e lex e c 1 n 赋常值概率指 对于由词典构造出来的每个短语对 其四个翻译概率都赋予一个常值 比如 1 这些方法的目的都是为由词典构造出来的短语赋概率 使得解码器可以将词典当作 短语表来使用 本文针对方法 将词典当作双语语料赋概率 进行实验 并观察该方法 的效果及带来的影响 2 The GIZA Toolkit 3 3 词典在解码部分的应用 词典在解码部分的应用 3 1 对数线性模型 3 1 对数线性模型 基于对数线性模型的统计机器翻译模型来源于基于特征的自然语言理解 Kishore etc 1997 后来Och将这种思想引入到统计机器翻译系统当中 Och 2002 假设汉语句子c翻译 成英语句子e h1 e c h2 e c hM e c 分别是e c上的M个特征函数 1 2 M分别是特征 的M个参数值 则翻译概率Pr e c 可以如下表示 1 2 1 1 exp Pr exp M M mm M mm e he c e cpe c he c 对于给定汉语句子c 其最佳译文ebest可用以下公式计算 1 argmax Pr argmax M besteemm ee c he c 权重可以用最小错误率 Och 2003 方法来调节 我们实验中的baseline采用了以下特征 a 4 个翻译概率 p c e p e c lex c e lex e c b 语言模型概率 c 句子长度特征 d 短语个 数 3 2 词典特征 3 2 词典特征 以对数线性模型为框架 可以很容易的加入新特征 我们以给定的句对中有多少词典中 存在的共现词对作为新的特征加入到翻译中 这种做法与 Och 2002 采用的词典特征很类 似 例如 假设词典中存在词条 糖尿病 diabetes 脂肪肝 fatty liver 对于汉语句子 该 产品具有降脂 减肥 防止糖尿病和脂肪肝等作用 翻译为英语句子 This product is effective in reducing blood lipid and weight and can be used for preventing and treating diabetes and fatty liver 的词典特征值就为 2 因为有两个词条出现在这个句子的译文中 词典特征与词条的具体内容无关 只是用来度量给定两个句子中包含的词条数目 词典 特征的加入是出于这样的假设 如果译文中包含词典中词条的数目越多 那么这个译文质量 就越高 在具体实现上 我们改造了原有的短语表 在短语表中预先计算好每个短语对的词典特 征值 每个短语对变成如下格式 c e p c e p e c lex c e lex e c dictfeat 最后一 项 dictfeat 是统计 c 和 e 中共现的词条数 4 4 动态词典在实际系统中的应用 动态词典在实际系统中的应用 在实用的统计机器翻译系统中 会出现用户需要动态加入词典并要求该词立即在句子里 面翻译出来的情况 这对于传统的基于规则的机器翻译系统来说可能不是难事 但对于统计 机器翻译系统来说并不容易 为此我们提出一种根据词典构造 动态短语表 的策略 在实 际应用系统中采用了这一策略后 很好的改善了用户体验 并且进一步提高了翻译质量 用户加入的词条有的需要强制匹配 有的不需要 所谓强制匹配 是指该词必须要翻译 为用户给定词典中的译文 而非强制匹配是指该词可以翻译为词典译文 也可以翻译为其他 合理译文 一般强制匹配的词都是毫无歧义的词 非强制匹配的都是有歧义的词语 比如 用户给出词语 山楂 Fructus Crataegi 红花 Flos Carthami 并且要求 山楂 为强 制匹配 即 山楂 必须要翻译为 Fructus Crataegi 而 红花 为非强制匹配 即 红花 可以翻译为 Flos Carthami 也可以翻译其他译文 对句子 S0 假设有 4 种译文 S0 一种保健食品 由山楂和红花组成 可制成食品 饮料 茶等形式 E1 A health product in the form of food bevearage or tea is made from Fructus Crataegi and Flos Carthami E2 A health product in the form of food bevearage or tea is made from Fructus Crataegi and Red flower E3 A health product in the form of food bevearage or tea is made from whitethorn and Red flower E4 A health product in the form of food bevearage or tea is made from whitethorn and Flos Carthami 在这种情况下 翻译 E1 E2 符合词典的匹配要求 而 E3 E4 不符合 为了使的解码 器只得到译文 E1 E2 我们对读取短语表的模块进行改造 设计了生成动态短语表的算法 该算法以本句相关的短语表和动态词典作为输入 输出本句动态短语表 解码器使用动态短 语表和语言模型进行解码 可以保证译文中一定含有强制匹配词条的词典译文 图 2 描述了 该算法在翻译过程中所处的位置 分词后的句子 短语查找 词典查找 短语表 动态词典 本句短语表 本句动态词典 动态短语表生成模块 本句动态短语表 解码 译 文 语言模型 图 2 动态短语表生成模块 虚框部分 在翻译系统中的位置 图 3 是描述动态短语表生成模块的流程图 对应图 2 中的虚框位置 c e 在本句短语 表中存在 是否强制匹配 生成动态短语 c e 4 4 4 4 1 丢弃不含 c e 的所 有短语 包含 c e 的短语的词典特征加 1 加入动态短语表 是否强制匹配 丢弃包含c的所有短语 N N N Y Y Y 对本句动态词典第一个词 c 查找其词典译文 e 将动态短语加入动态短语表 动态短语表 存在本句动态词 典下一个词 输出本句动态短语表 Y N 图 3 词典匹配算法流程图 下面以例句 S0 一种保健食品 由山楂和红花组成 可制成食品 饮料 茶等形式 为 例 介绍该算法的工作过程 S0 一种保健食品 由山楂和红花组成 可制成食品 饮料 茶等形式 强制匹配词典 山楂 Fructus Crataegi 非强制匹配词典 红花 Flos Carthami 饮料 drink 短语表中存在短语如下 1 山楂 Fructus Crataegi 2 山楂 whitethorn 3 山楂 和 Fructus Crataegi and 4 红花 Flos Carthami 5 红花 Red flower 6 饮料 bevearage 翻译句子 S0 时 首先查找该句子在词典中的词 有 山楂 Fructus Crataegi 红花 Flos Carthami 饮料 drink 共三组词 下面对这三组词进行图 2 虚框中的处理 具体过程 如下 a 对于 山楂 查找到其在短语表中有对应的短语 1 2 3 因为山楂是一个强 制匹配词 所以丢弃不含 山楂 Fructus Crataegi 的短语 2 并将短语 1 3 的词典特征 加 1 作为新的短语被解码器读入 丢弃不包含词典译文的短语可以保证句子的最后译文包 含强制匹配译文 Fructus Crataegi b 对于 红花 Flos Carthami 查找到其在短语表中有对应的短语 4 5 并且短语 4 包含了词典译文 因为 红花 不是强制匹配词 所以保留所有 红花 所有对应的短语 只将短语 4 的词典特征值加 1 作为新的短语被解码器读入 c 对于 饮料 查找其在短语表中有对应的短语 6 但该短语中不含词典中的词条 drink 所以动态创建一个新短语 饮料 drink 4 4 4 4 1 与短语 6 一起被解码 器读入 然后依靠其他特征 比如语言模型值等来选择最终使用的短语 对于其他没有出现在词典中的词或短语 直接从短语表中读取其对应项送入解码器 5 5 实验与分析 实验与分析 5 1 实验设置 5 1 实验设置 本实验中使用的解码器是一个基于短语 Zens etc 2002 Koehn etc 2003 的开源解码器 Camel 3 以汉语到英语作为翻译任务 所使用的语料是面向传统中药领域的双语语料 从中 抽取开发集 测试集各 1000 句 均只有一个参考译文 实验中使用了两部词典 普通词典 采用LDC发布的词典 ldc cedict gb v3 共有 54170 个词条 专业词典采用的是一部传统中 医药领域的词典 共有 156912 个词条 语料与词典统计情况见表 1 表 1 语料与词典情况统计 语料名称语料名称 规模规模 训练集 120355 开发集 1000 测试 1000 LDC 词典 54170 词条 专业词典 156912 词条 实验中 我们以不加任何词典的语料训练出的模型作为 baseline 然后分别调节 GIZA 输入参数 weight 按不同的权重依次加入普通词典和领域词典 训练出 6 个模型 通过比较 这几个模型的差别 推测词典在训练部分起的作用 语言模型部分都是采用训练集的英文部 分训练出的一个语言模型 本文所有实验都是采用该语言模型 在词典特征实验中 我们修改解码器 加入词典特征 测试加入词典特征后译文的质量 改变 由于涉及到汉语分词 我们采用ICTCLAS 4作为分词工具 英语语言模型训练工具采用 3 Camel解码器下载地址 4 ICTCLAS Toolkit SRILM Toolkit 评测工具使用mteval vllb pl5 评测指标使用BLEU4 Papineni kishore et al 2002 BLEU值越高 表示翻译结果与参考译文越接近 5 2 词典在训练部分的应用实验 5 2 词典在训练部分的应用实验 本实验中 我们先用双语语料训练出一个模型 以此作为 baseline 分别加入普通词典 和专业词典 调节普通词典 专业词典的权重 权重的设置是经验值 与训练语料库本身的 规模以及质量有关 本实验并不试图找出最佳的权重 只是观察权重改变后译文质量改变情 况 各模型使用词典权重情况以及结果如表 2 所示 表 2 词典在训练部分应用实验结果 模型模型 普通词 典权重 普通词 典权重 专业词 典权重 专业词 典权重 Tst bleu Dev bleu Baseline 0 0 0 2526 0 2860 baseline CommonDict 1 1 0 0 2592 0 2904 baseline DomainDict 1 CommonDict 1 1 1 0 2664 0 3093 baseline DomainDict 3 CommonDict 1 1 3 0 2635 0 3063 baseline DomainDict 3 CommonDict 3 3 3 0 2629 0 3086 Baseline 只用双语语料训练模型 在所有的模型中 双语语料的权重都为 1 baseline DomainDict m CommonDict n 代表在双语语料中加入领域词典的权重为 m 普通词典的权 重为 n 比如 baseline DomainDict 1 CommonDict 1 代表训练语料 领域词典 权重为 1 普通词典 权重为 1 一起训练得到的模型 比较 baseline baseline DomainDict 1 可以看出 普通词典的加入对译文的质量有所帮助 0 2592vs0 2526 原因在于 词典的加 入在一定程度上缓解了数据稀疏问题 使得原来无法找到对应翻译结果词可以从词典中找到 译文 比如 句子 S1 baseline 模型翻译为 E1 baseline CommonDict 1 翻译为 E2 参考 译文为 REF S1 黄鼠狼新用途和治疗白血病的药物及制备方法 E1 黄鼠狼 new use and for treating leukemia and its preparation method E2 Weasel new use for treating leukemia and its preparation method REF application of weasel in treating leukemia and preparation method thereof 由于语料中没有学习到短语 黄鼠狼 短语表中不存在其翻译候选项 但当加入 LDC 词典后 由于 LDC 带有 黄鼠狼 weasel 词条 使得短语 黄鼠狼 带有了翻译候选项 可以被翻译出来 从而提高了 BLEU 值 在加入普通词典的基础上 我们继续加入领域词典 实验发现 翻译质量进一步提高 0 2664vs0 2592 这说明加入领域词典后 数据稀疏问题得到进一步的解决 此外 领域 词典中的词条与语料在对术语词语的翻译上更加接近 相比与普通词典来说 领域词典的翻 译更加 地道 考虑到领域词典中的词条更可信赖 我们增大领域词典的权重 从 1 提高到 3 训练出 模型 baseline DomainDict 3 CommonDict 1 翻译质量并没有改善 0 2664vs0 2635 分析其原因 是增加领域词典权重后 改变了原有短语概率的分布 使得某些质量不高的短 5 评测工具下载见 http www nist gov speech tests mt resources scoring htm 语概率提高 有的短语对虽然含有词典译 但整个短语的翻译质量并不高 词典权重的增加 提高了这种短语的翻译概率 另一个原因是受词典质量的影响 某些词条属于多义词 词典 译文可能和测试集中的译文并不一致 最后 我们将领域词典和普通词典权重同时增到到 3 得到模型 baseline DomainDict 3 CommonDict 3 该模型在测试集上的译文质量也低于 baseline DomainDict 1 CommonDict 1 0 2629 vs 0 2664 原因类似 这几个模型的结果 对比可以发现 词典权重的提高并不总是提高译文质量 这说明 词典的主要作用还是在于 一定程度上解决数据稀疏问题 而对于改变原有短语的翻译概率并不总是起到好的效果 我们在实际系统的训练中设置普通词典和领域词典的权重都为 1 训练中使用词典的目 的主要是缓解数据稀疏问题 5 3 词典在解码部分的应用实验 5 3 词典在解码部分的应用实验 我们用 dicfeat 代表在模型中加入了领域词典特征 以原文和译文中含有的共现词 条数作为新特征的值 其取值为离散的整数 0 1 2 该实验中的词典使用的是传统中 药领域词典 同样用最小错误率训练调节权重 得到实验结果表 3 所示 表 3 词典在解码部分的应用实验 模型 是否加词典特征 Tst bleu Dev bleu 0 2526 0 2860 Baseline dictfeat 0 2537 0 2880 0 2635 0 3063 baseline DomainDict 3 CommonDict 1 dictfeat 0 2648 0 3084 0 2629 0 3086 baseline DomainDict 3 CommonDict 3 dictfeat 0 2636 0 3101 可以看出词典特征的加入对模型 baseline baseline DomainDict 3 CommonDict 1 baseline DomainDict 3 CommonDict 3 都有不同程度的提高 词典特征的加入对面向领域的机器翻译系统中有很好的效果 尤其是对于包含术语词汇 较多的句子 使用词典特征后 含有术语的词典译文的句子概率提高 成为 1 best 实际系统 使用 1 best 作为最佳译文输出给用户 的可能变大 术语翻译的正确性在很大程度上影响着 用户体验 5 4 动态词典匹配算法在实际系统中的应用 5 4 动态词典匹配算法在实际系统中的应用 为了测试词典匹配策略带来的影响 我们将训练出的模型应用到实际开发的统计机器翻 译系统中 由于资源限制 我们无法得到用户实际使用中添加的准确性高的词典 据用户反 映 在使用了动态词典后 系统的翻译质量得到进一步的提高 词典匹配算法起到了很好的 效果 以下例句展示了动态词典加入后译文发生的改变 src 代表原文 ref 代表参考译文 no dict 是系统不加词典时的译文 dict 是用户加入的动态词典 以分号做分割符 with dict 是加入动态词典后的译文 1 src 本品具有调节人体阴阳平衡 保健功能 戒除烟瘾和治疗胃神经官能症 ref The inventive product has effects in balancing yin and yang protecting health treating tobacco addiction and gastric neurosis no dict The pharmaceutical composition has the effects of regulating for testing balancing of Yin and Yang in human body and health promoting effects the abstain of craving for tobacco and treating gastric neurosis dict 本品 the product 调节人体阴阳平衡 regulating yin and yang balance with dict The product have regulating yin and yang balance and health promoting effects the abstain of craving for tobacco and treating gastric neurosis 2 src 可活血化瘀 增加血液循环 养血润肤 用于治疗牛皮癣 ref It has blood circulation promoting blood stasis dispelling blood circulation improving blood nourishing and skin caring effects and used to treat psoriasis no dict It is effective for blood circulation promoting dispelling blood stasis increasing blood circulation nourishing blood circulation and relaxing the skin It can be used for the treatment of psoriasis dict 活血化瘀 blood circulation promoting 养血 nourishing blood 润肤 caring skin with dict It is effective for blood circulation promoting increasing blood circulation nourishing blood and caring skin It can be used for the treatment of psoriasis 上面的例子可以看出 加入动态词典后 翻译结果更加接近参考译文 另外 该算法的 引入 使得用户可以动态的添加新词 并能立即在翻译结果中看到新词语的翻译 具有很好 的即时性 而如果采用重新训练模型的方法 显然是无法做到这一点的 用户对于系统可以 动态适应新词这一特点给予了很好的评价 6 6 小结 小结 本文研究了词典在统计机器翻译中的应用 在训练部分 通过改变普通词典和领域词典 在训练语料中权重的实验 发现词典的主要作用是用来解决数据稀疏问题 而对短语翻译概 率的改变并不总是提高翻译质量 在解码部分 我们将词典作为特征来使用 统计中英文句 子对中词条共现的次数作为新特征加入解码器中 这种策略将鼓励解码器翻译为包含词典词 更多的句子 在翻译一些含有术语较多的句子时会起到提高翻译质量的效果 在实际应用的 系统中 为满足用户动态添加新词的需求 我们设计了词典匹配算法 确保强制匹配词的翻 译包含词典译文 对非强制匹配词 其词典译文与短语表译文参与 竞争 由解码器选择 最终选择译文 在训练语料中按权重不同加入词典 其目的是为了给词典中的词条赋概率值 使其能像 短语表一样被解码器读入 下一步的工作中我们将研究是否有更好给词典赋概率的方法 在 词典特征的使用上 我们也将进一步研究是否可以更有效的使用词典特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏中烟工业公司真题2025
- 2025年泰州市公益性岗位招聘真题
- 2025年赤峰市元宝山区事业单位考试真题
- 2025至2030中国丙烯酸4羟丁酯(4HBA)行业项目调研及市场前景预测评估报告
- 护理人体解剖考题题库及答案解析
- 2025-2030中国漂洗添加剂在循环经济中的应用场景探索
- 2025年电大试025年试卷号物业设备设施管理及答案
- 2025-2030中国农产品上行物流成本构成与县域统仓共配方案报告
- 2026陕西宝鸡高新区管委会校园招聘高层次人才10人考试笔试参考题库附答案解析
- 2026应急管理部所属单位第一批次招聘笔试考试备考试题及答案解析
- 电子信息博士授权点申请及建设方案研究
- 船舶电喷柴油机MANBW共轨技术讲课文档
- 煤矿工人心理健康教育
- 马蹄内翻足的治疗与护理
- 腾讯外包流程管理办法
- 护理管理中的“十不交十不接”原则
- 电力安规考试题库及答案
- 儿科进修汇报讲课件
- 房屋安全培训课件
- 垃圾清运合同 垃圾清运承包方案(九篇)
- 2025年住房城乡建设领域现场专业人员“三新”技术网络培训考试题库及答案(共130题)
评论
0/150
提交评论