基于多特征融合的统计机器翻译译文错误检测.pdf_第1页
基于多特征融合的统计机器翻译译文错误检测.pdf_第2页
基于多特征融合的统计机器翻译译文错误检测.pdf_第3页
基于多特征融合的统计机器翻译译文错误检测.pdf_第4页
基于多特征融合的统计机器翻译译文错误检测.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 2 西安理工 大学 学报 J o u r n a l o f X i a n U n iv e r s i t y o f T e ch n o lo g y 2 0 1 3 V o 1 2 9 N o 1 文章编号 1 0 0 6 4 7 1 0 2 0 1 3 O 1 0 0 3 2 0 6 基于多特征融合 的统计机器翻译译文错误检测 王 莎 杜金华 刘丁 西安理工大学 自动化与信息工程学院 陕西 西安 7 1 0 0 4 8 摘要 抽取 了3种典型的单词后验概率特征 基于固定位置的词后验概率 基于 目标位置窗的词后 验概率 基于词对齐的词后验概率 和 3种语言学特征 词 词性 句法分析 器抽取的句法特征 并 在此基础上抽取 了一个来 自源端的单词特征 然后基于中英 N I S T数据 集 采 用最大熵分类器来验 证不同单词后验概率特征 WP P 独立使 用及 与其 它特征组合后使 用时对错误检测性能的影响 实验结果表 明 采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的 并且在 单词后验概率和语言学特征组合基础上加入 源端单词特征 可以显著 降低 分类错误率 C E R 提 高译文错误检测能力 关键词 最大熵分类器 单词后验概率 语言学特征 源端单词特征 错误检测 中图分类号 T P 3 9 1 文献标志码 A Er r o r De t e ct io n in Tr a n s la t io n Ve r s io n by o n Fe a t u r e I n St a t is t ica l M a ch in e Tr a ns la t io n Ba s e d t e g r a t io n WANG S h a DU J in h u a L I U Din g F a cu h y o f A u t o m a t io n a n d I n f o r ma t i o n E n g in e e r i n g X i a n U n iv e r s i t y o f T e ch n o l o g y X i a n 7 1 0 048 C h i n a Ab s t r a ct T h r e e k i n d s o f t y p ica l w o r d p o s t e rio r p r o b a b ilit y WP P f e a t u r e s b a s e d o n t h e fix e d p o s it i o n s lid in g w i n d o w WP P a n d a lig n m e n t b a s e d WP P a n d t h r e e k in d s o f lin g u is t ic f e a t u r e s w o r d P O S a n d L G p a r s in g k n o w le d g e a r e e x t r a ct e d t o d e t e ct e r r o r s o n t h e b a s is o f w h ich a s o u r ce s id e w o r d f e a t u r e is e x t r a ct e d a n d t h e n ba s e d o n NI S T d a t a s e t t in g t h e ma x i mu m e n t r o p y cla s s ifie r is a d o p t e d t o t e s t t h e d if f e r e n t wo r d p o s t e r i o r pr o b a bi lit y f e a t u r e s a s we ll a s t h e e f f e ct u p o n t h e i nd e p e n d e n t u s e a n d e r r o r d e t e ct io n p e r f o r ma n ce s o f o t h e r f e a t u r e in t e g r a t io n in us e Th e e x p e r i me n t a l r e s u lt s s h o w t h a t t he W P P f e a t u r e s o b t a in e d u s in g t he d i f f e r e n t ca lcu la t i o n me t h o d s h a v e t he o b v io u s e f f e ct s u p o n t h e cla s s i fi ca t io n e rro r r a t e a n d a ls o t ha t t h e s o ur ce s id e wo r d f e a t u r e i n co r p o r a t e d o n t h e b a s is o f in t e g r a t io n o f t h e W PP a nd lin g ui s t ic f e a t u r e s ca n s ig n if ica n t l y r e d u ce t h e C ER v a l u e s a n d i mp r o v e t h e d e t e ct i o n p e rf o r ma n ce s in t r a n s la t i o n v e r s io n e rro r s Ke y wo r d s ma x imu m e n t r o p y cla s s i fi e r wo r d p o s t e r io r p r o b a b ili t y lin g u is t ic f e a t u r e s s o u r ce s id e wo r d f e a t u r e e rro r de t e ct i o n 近年来 基于统计机器翻译方法的发展 涌现出 了多种不同类型的统计机器翻译 S MT 系统 如基 于短语 层次短语及句法 的机器翻译模型等 并且翻 译性能得到了显著提高 引 本领域内一些研究人 员对于如何将 S MT系统应用到实 际中做 了大量工 作 然而 目前来看 统计机器翻译译文质量仍然无 法满足工业化的实际需要 因此 为了提高机器翻 译译文质量 自动对译文进行错误判断 分类和分析 在 S MT技术发展和应用中有着重要作用 目前 译文错误检测方法多依据如单词后验概 率 w o r d p o s t e rio r p r o b a b i l i t y WP P 的系统特征进行 译文置信度估计 一些研究人员已经提出了多种根 据N b e s t 或词图等计算WP P的方法 并且这些方法 在机器翻译译文错误检测和置信度估计中得到了广 收稿 日期 2 0 1 2 1 1 1 5 基金项 目 国家 自然科学基金资助项目 6 1 1 0 0 0 8 5 陕西省教育厅专项科研计划基金资助项目 1 1 J K 1 0 2 9 作者简介 王莎 女 硕士生 研究方向为模式识别与智能系统 E ma il h e b e n w a n g s h a 1 2 6 co n 杜金华 男 副教授 研究方向为模式识别与智能系统 E m a i l j h d u x a u t e d u e n 王莎等 基于多特征融合的统计机器翻译译文错误检测 3 3 泛应用 之后 一些研究人员开始尝试利用其 他知识源作为特征 并与 WP P置信特征相结合来进 行 错 误 检 测 如 深 层 次 句 法 或 深 层 次 语 义 特 征 等 8 然而 由于多数外部特征的复杂性 与具体 语言相关等原 因 有效的并且通用 的特征并不容易 被抽取 因此 目前来看 单词后验概率特征 词 以 及词性等词汇化特征仍然是人们依据的主要特征 本文主要采用最大熵分类器结合不同方法计算 得到的 wP P 特征及三种 WP P特征与其他特征的组 合结果 研究其对译文错误检测能力的影响 主要有 以下三点 验证三种不 同方法得到的 WP P特征对 译文错误检测性能 的有效性 分别将 三种不 同方 法得到的 WP P特征与其他三个语言学特征结合 验 证语言学特征对具体语言翻译错误检测任务 的预测 能力 在以上特征组合 的基础上分别加入抽取 的 源端单词特征 验证源端单词特征对分类错误率 的 影 响 1 置信 度特征 1 1词后验概率特征 词后验概率是统计机器翻译译文错误检测中常 用的置信度特征 目标单词的置信度可以用其后验 概率即 WP P来表示 用 S表示一个 S M T系统 给定源语言输入句子 厂 和对应 的 N b e s t 列表输 出 e n l n 其 中 几 1 e 代表 N b e s t 列表中第 个翻译假设 每个翻译 假设的翻译概率记为P f j e n I 错误检测所用的 WP P即 1 b e s t列 表 中 每 个 目标 词 的 后 验 概 率 P e f 下 面将详 细 介绍 三种 典 型 的用来 计算 WP P的方法 1 1 1 基于固定位置的词后验概率 给定源语言输入厂 位于最优翻译假设 e 中位 置 i的 目标单词 e 的后验概率 即是对 N b e s t 列表中 其他翻译假设在对应的固定位置 i 出现单词 e的概 率求和 如公式 1 所示 P e l f e e P f j e n l 1 1 2 基于目标位置窗的词后验概率 在 N b e s t 列表 中 翻译假设 的句长是在某一范 围内动态变化的 使得由于不同的翻译假设因句长 不同等因素的影响 导致在同一位置 i上的目标词 e 有可能是不 同的 即对应不同的源语 言词 因此 难以保证单词 e 出现的位置 i是固定不变的 但有可 能出现在位置 i附近 即上下文 中 因此 若将初始 的固定位置 i变 为一个 动态值 使其能在初始值 的 某一范围内滑动 当 目标单词出现在限定范围内时 其参与后验概率计算 这就是在固定位置基础上改 进 的基于位置窗的方法思想 记位置窗为 i t t 为窗 口大小 为 自然数 如 果单词在位置窗范 围内出现 同样认为单词出现在 当前翻译假设 因此 单词的后验概率可以由此窗 范 围内的位置上单词 出现 的后验概率之和来决定 计算公式如 2 式所示 p e P k e 2 1 1 3 基于词对齐的词后验概率 另一种直接 且有 效 的计 算方 法是利 用 N b e s t 列表 中生成的最优 目标译文 e 与 N b e s t 列表 中其 他句子的词对齐信息得到词后验概率 本文实验利 用的是基 于 L e v e n s h t e i n的对齐 根 据此对 齐信息 最优译文中每个单词e 的后验概率P e f j e 可以 通过对 L e v e n s h t e in对齐结果 中位置 i上包含 e的所 有翻译假设 的概率之 和得 到 此 方法 由 U e ff i n g等 人最早提出 并通过实验验证了其有效性 用 e e 表示最优译文 e 和N b e s t 列表 中其他翻译假设 e 之间的 L e v e n s h t e in对齐关系 则对于位置 i 的单词 e 其 具有 L e v e n s h t e in对齐关 系的句子后验概率可由下式给出 v e e 3 其 中 P l e lf e 6 e L e e n 1 P f e n l 式中P f e n l 表示 N b e s t 列表 中给出的翻译假设 的后验概率 6 Y 代表克罗奈克函数 即 6 Y 0 其他 1 2 语言学特征 近年来 本领域的一些研究人员开始尝试利用 外部知识源作为特征 如深层次句法或深层次语义 特征等 1 1 节中的单词后验概率特征是基于系统 的特征 无法提供足够 的语法或句法知识 因此 考 虑抽取如句法 语义等语言学特征来 提高检测准确 率 本文主要用到 了两类 常用 的语言学特征 词汇 化特征和句法特征 下面对这两类特征做一个详细 的描述 西安理工大学学报 2 0 1 3 第2 9卷第 1期 1 2 1 词汇化特征 对于翻译假设 中的大多数单词 通常认为出现 频率高的单词序列和出现频率较高的词性标注序列 为正确的概率要大于出现频率较少的单词序列和词 性标注序列 这里 考虑单词及词性标注的上下文 信息 对于每个单词和词性标注 取其前 2 个和后2 个及其本身构成特征 向量 具体形式表示如下 单词特征 Wo r d W 一 2 W一 1 W W 1 W 2 词性标注特征 P o s p o s 一 2 p o s 一 1 p o s p o s 1 p o s 2 1 2 2 语法特征 句法知识一般是通过句法分析器对源语言或 目 标语言进行句法分析后得到的 当分析器无法对整 个句子进行分析时 则忽略问题单词以找到剩余单 词 的联系从而完成句法分析 被忽略的单词就成为 与句子 中其他单词没有连接 的单词 称 为 n u l l lin k 单词 一般认为 这些与其他单词没有联系的单词 存在语法错误的可能性更大 利用此语法信息来定 义二值句法特征 如下式所示 l i n k e J y e s e 与其他词存在连接关系 L n o 其他 1 3 源端单词特征 统计机器翻译译文错误检测大部分研究 中所用 的置信度特征均是关于 目标端 的特征 如 WP P特 征 语言学特征和其他常用的句法语义特征等 在 此基础上本 文 以源端 为对象 抽 取源端 特征 从 M T解码过程 中可以跟踪生成译文 中目标短语所对 应的源语言短语 并且利用 简单 的对齐模 型能够很 快找到对应短语间源语言单词和 目标语言单词之间 的对齐关系 即提取源端单词特征 这些特征用 来得到给定错误标注 中源语言单词和 目标单词 出现 的相似度 可以认为 如果源语言单词和 目标单词同 时出现在同一类别的概率很大 那么可以认为生成的 目标单词在将来翻译结果 中很可能属于此标注类别 实验中所用的源端单词特征模板如 图 1所示 第一行为源语言中文序列 第二行是利用统计机器 翻译系统得到对应的英文输出结果 源端单词特征的定义如公式 4 所示 1 3 n e a r ly 1 i f s o u r ce w o r d 近 1 1 0 0 t h e r w i s e 式中 中的 1 和3 分别表示目标单词在翻译假 设中的位置和对应的源语言单词在源语言句子中的 位 置 图 1 源端单词特征 F ig 1 S o u r ce wo r d f e a t u r e 如果源语言单词对应到 目标端语言的是一个短 语 如图 1中源语言中文词语 丧生 对应 的 目标端 句子中的成分 为短语 h a v e b e e n k i lle d 则需要返 回到短语模型训练过程 中生成的短语表 中 从表中 的对齐信息找到中文单词与英文短语 中每个单词的 一一 对应关系 最终得到源端单词对齐信息 2 分类器 机器翻译 中的译文错误检测问题通常是作为一 个二值分类问题来进行研究 如监督机器学习问题 自然语言处理领域 中最常用的分类器包括最大熵分 类器 S V M分类器等 实验中选择最大熵分类 器作为其译文错误检测分类工具 结合抽取的多个 不 同特征分析比较不同特征组合的分类性能 最大熵分类器是朴素贝叶斯分类器的一个泛化 模型 其本质思想是不考虑任何未知因素 对所有已 知因素建立一个连续的模型 使用最大熵方法建模 的一个主要优点是不 同的特征可以被方便地添加到 模型中 将二值分类器样例用 Y Y 表示 其 中 表示特征样例 本实验中Y c 给定了单词的特征向量后 采用最大熵模 型预 测单词正确与错误的公式如式 5 所示 e x p A Z x Y Df v x 一 r 5 一 e x p A Z x y 一 式 中 代表二值模型特征函数 其值由单词分类类 别 Y C i 和特 征 向量 来 决定 A 代表 对应 的权重 利用最大熵模型作为译文错误检测的分类器 需要将特征向量转换为分类器所能接受的文本格 式 具体格式如下所示 lin e l la b e l in de xl v a lu e l in d e x 2 v a lue 2 lin e 2 C wp p 一2 1 po s一2 1 wo r d一2 1 lin k 一2 1 s o u r ce一2 1 line 3 C wp p 一 0 po s一 2一 wo r d 一2 whi t e link一2 1 w h it e白宫 王莎等 基于多特征融合的统计机器翻译译文错误检测 3 5 在此特征向量公式中 lin e l 表示最大熵分类器 的标准数据模板 包括标注结果 分类 类别 特征 和特征值 lin e 2用来说明对应于 lin e l 的特征及其 特征值的具体文本数据格式 lin e 3则是将特征用具 体指代内容代替后的数据格式 为最大熵模型训练 时所使用的模板 其 中 l i n e l 中的 l a b e l对应于 l i n e 2和l i n e 3中的第一行 即单词分类结果 C i 中 的值 lin e l 中的 in d e x为抽取的特征 对应 lin e 2和 li n e 3中的特征 而 v a lu e 则表示每个特征对应的函 数值 对应 lin e 2中特征之后 的 1 因为在 lin e 2中 只将特征值为 l 的特征罗列了出来 故在 l i n e 3中对 应 v a lu e 的函数值均为 1 根据最大熵模型的特性 训练文本和测试文本特征值省略不写 3实验 和设计分析 3 1 中文一 英文统计机器翻译 系统 本文实验中的统计机器翻译 系统选用基于短语 的机器翻译系统 M o s e s系统 利 用此系统在测 试 集解码过程中 为每个源语言句子输 出 1 0 0 0 0个最 好翻译假设 即 N 1 0 0 0 0 翻译语言对的方向为中文到英文的翻译 翻译 模型训练语料为 L D C提供的数据集 共计 3 3 9 7 5 3 8 句对 主要包括香港新 闻 F B I S I S I 汉英 网络数据 新华新闻等 语言模型采用五元模型 其训练语 料包括以上双语语 料 的英 文部分 和英文 G ig a w o r d 的新华部分 共计约 1 0 0 0万句 机器翻译系统 的开发集为 N I S T机器翻译评测 任务 2 0 0 6年 cu r r e n t 集 共计 1 6 6 4句 每个源语 言 输入对应 4个参考答案 测试集为 N I S T 2 0 0 5 cu r r e n t 数据集 1 0 8 2句和 N I S T 2 0 0 8 cu r r e n t 数据 1 3 5 7 句 每句对应有 4个参考答案 3 2 译文错误检测任务 数据标注 本文利用 T E R工具包 1 中的 WE R 准则来确定翻译假设 中每个单词的真 实分类结果 首先找到四个参考译文中与翻译假设编辑距离最小 的参考译文作为基准 利用 WE R准则将假设译文 与基准参考译文做词对齐 如果翻译 假设 中的单词 与参考译文 中相同位置上 的单词一致则标记为 C 反之标记为 i S M T系统生成的 N I S T M T 2 0 0 8翻译结果 中 1 一 b e s t 翻译假设包含 3 8 5 8 7个单词 其中标为 C 的为 1 4 6 5 8 个 标为 i的2 3 9 2 9个 其样本为 正确 的 类别比例 R C W 为 3 7 9 9 N I S T M T 2 0 0 5翻译 结果的 1 b e s t 翻译假设包含 3 6 4 9 7个单词 其 中标 为 C的 1 5 1 7 9个 标为 的 2 1 3 1 8个 其样本为 正 确 的类别比例 R C W 为 4 1 5 9 开发集和测试集 在译文错误检测任务中使用 N I S T M T 2 0 0 8数据集 1 3 5 7句 作为最大熵模 型参 数训练的开发集 将 N I S T M T 2 0 0 5 1 0 8 2句 数据 集作为分类任务的测试集 3 3评价准则 译文错 误 检测 任务评 价 准则 有 分 类错 误 率 C E R 准确率 P 召回率 R 和 尸准则 cE R 准确率定义为分类器将真实类别为 i的单词准 确分类的个数 n 与分类器标记为 i的单词总数 n 之 比 P 一n m 7 nt 召回率定义为分类器将真实为类别 i的单词准 确分类的个数 r 与真实类别为 i的单词总数 n 之 比 8 n g F准则定义为准确率和召回率的权衡 即 F 9 P K C E R基线水平 由于作为测试集 的 MT 0 5数据 中 R C W 4 1 5 9 低于 5 0 即标为 in co r r e ct 的 单词多于标为 co rr e ct 单词 所 以将 co r r e ct 的单 词全部标为 in co rr e ct 时所得到 的评价 准则得分 也就是 R C W作为分类错误率的基线水平 3 4 译文错误检测实验 3 4 1 基于独立特征的分类实验 利用最大熵分类器分 别对 三种典 型的 WP P特 征和三个语言学特征及抽取的源端单词特征进行独 立特征分类实验并分析比较其结果 分类实验结果 如表 1 所示 表 1 独 立特 征的错误 检测结果 T a b 1 Re s u lt s o f in d iv id u a l f e a t u r e f o r T r a n s la t io n Er r o r De t e ct io n 3 6 西安理工大学学报 2 0 1 3 第 2 9卷第 1 期 表 中 WP P D i r表 示 基 于 固定 位 置 的 WP P W PP L e v表 示 基 于 L e v e n s h t e i n 对 齐 的 WP P WPP Win 表示基 于 目标位置窗的 WP P 单词特征 用 Wd表示 源端单词特征用 S o u r ce表示 其中基线系统的 C E R为 4 1 5 9 从表 中的数据可以得到以下几点结论 1 三种典型的 WP P特征独立使用时都能在一 定程度上降低 C E R值 且基于 目标位置窗的计算方 法因其灵 活性得 到了较 其他两种方法 更低 的 C E R 结果 基于 L e v e n s h t e i n对齐的 WP P 就 F值而言性 能最好 2 语 言学特征性能要 比独立 的 WP P特征好 L i n k除外 单词特征可 以帮助系统更准确地找 到错误所在 语法特征 L i n k召回率最高 预示着此 特征可以帮助系统找到更多错误 表 中的数据 同时 也揭示了语言学特征对于错误检测 的贡献 表明了 语言学特征可以有效降低分类错误率 提高错误预 测能力 3 就 C E R而言 源端单词特征降低了 4 5 9 证明了源端单词特征 的有效性 可以考虑提取更丰 富的源端信息作为特征加入到分类器中来提高错误 检测分类性能 3 4 2 基于组合特征的分类实验 关于组合特征的分类实验做 了两组 首先是分 别将三种典型 的 WP P特征和抽取的三个语言学特 征 词 词性 由 L G句法分析器抽取的句法特征 进 行组合 利用最大熵分类器进行错误分类实验 表 2 第一组组合特征错误检测结果 Ta b 2 Re s u lt s o f t he fi r s t co mb ine d f e a t u r e s f o r T r a ns la t io n Er r o r De t e ct io n 特征 C E R P R 基线 W PP Dir W d Po s Link W P P W in W d P o s L in k W P P L e v W d P o s L in k 41 59 一 一 一 35 93 63 9 3 8 8 3 0 7 4 1 7 35 55 64 7 7 8 5 8 3 73 83 3 5 62 65 31 8 3 2 2 7 3 1 5 从表 2可看出 就 C E R而言 与基线系统相 比 三种组合特征的C E R分别降低了 1 3 6 1 1 4 5 2 和 1 4 3 5 相对值 而且 F值也得到了显著提高 三组实验中 特征组合 WP P Wi n Wd P o s L in k 的分类错误率最低 而组合 WP P D ir Wd P o s L in k 的 F值最高 同时也揭示了语言学特征 对于错误检测的贡献 在以上组合特征实验的基础上加入源端单词特 征 同样利用最大熵分类器进行分类实验 分析 比较 组合特征 的预测能力 错误 分类实验 结果如 表 3 所示 表3 第二组组合特征错误检测结果 T a b 3 Re s u lt s o f t h e s e co n d co mb in e d f e a t u r e s f o r Tr a n s la t io n Er r o r De t e ct io n 特征 C E R P R F 基线 4 1 5 9 一 一 一 w P P D i r w d P o s L i n K 3 5 5 4 6 4 6 8 8 6 2 4 7 3 9 2 十 0Ur ee w P P w i n w d P o s L i 3 5 1 2 6 5 7 5 8 3 2 1 7 3 4 6 十L OUr ee w P P L e V w d P o s L i 3 4 9 3 6 7 0 2 7 9 1 6 7 2 5 9 从表 3和表 2可以得出如下结论 1 组合特征的分类能力要 比单独 的特征分类 能力强 且语言学特征和源端单词特征都 能在一定 程度上提高统计机器翻译译文错误检测能力 2 对于加入源端单词特征 的组合特征实验 就 C E R而言 加入源 端单词特 征后 的组合特 征 C E R 分别降低 了 1 4 5 5 1 5 5 6 1 6 0 1 相对值 同时 在加入源端单词特征后 其 F值也有一定程 度的降低 3 表 3 所用的三种不同方法计算得到 的 WP P 中 基于词对齐的 WP P与其他四个特征的组合得到 了最好的结果 说明了位置信息与丰富的词对齐信 息对错误检测分类 的重要性 4 结论和展 望 本文基于中英 N I S T数据集 利用最大熵分类器 对三种典型的 WP P特征 语言学特征 源端单词特 征及三种不 同的 WP P特征与其他几个特征的特征 组合进行了译文错误分类实验 实验结果表明了语 言学特征和源端单词特征对译文错误检测能力的有 效性 同时 可以看出基于词对齐的 WP P与语言学 特征 源端单词特征的组合得到的分类性能最好 说 明了位置信息的重要性 接下来的工作将从以下几个方向做进一步的研 究 考虑实际情况中单词同义不同形的情况 考虑引 进 复述 等技术对本文中仅仅使用 WE R准则进行 c与 i的标注方法做出改进 提取更丰富的源端信息 特征 如利用 源端 P O S标 注结果代 替源 端单词 特 征 以解 决 数据 稀疏 的问题 提 高 分类 器 的分类 性能 王莎等 基于多特征融合的统计机器翻译译文错误检测 3 7 参考文献 1 K e n j i Y a m a d a K e v i n K n ig h t A s y n t a x b a s e d s t a t i s t i ca l t r a n s la t io n mo d e l P r o ce e d in g s o f ACL EAC L 0 1 2 0 0 1 C T o u lo u s e F r a n ce 2 0 0 1 2 P h i l ip p K o e h n F r a n z J o s e f O ch D a n ie l Ma r cu S t a t is t i cal p h r a s e b a s e d t r a n s la t io n P r o ce e d in g s o f HL T NAAC L 2 0 0 3 C E d m o n t o n C a n a d a 2 0 0 3 3 D a v i d C h i a n g A h i e r a r ch i ca l p h r a s e b a s e d m o d e l f o r s t a t i s t ical ma ch in e t r a n s la t io n P r o ce e d in g s o f ACL 0 5 2 0 0 5 C A n n A r b o r MI 2 0 0 5 4 S im o n a G a n d r a b u r G e o r g e F o s t e r C o n f id e n ce e s t im a t io n fo r t e x t p r e d i ct io n P r o ce e d in g s o f C o N L L 2 0 0 3 C E d mo n t o n C a n a d a 2 0 0 3 5 N i co la U e f f in g K l a u s Ma ch e r e y He r ma n n N e y C o n f i d e n ce me a s u r e s for s t a t is t ica l ma ch in e t r a n s la t io n P r o ce e d i n g s o f MT S u mm i t I X 2 0 0 3 C N o u v e ll e O r le a n s US A 2 00 3 6 B la t z J o h n E r i n F i t z g e r ald G e o r g e F o s t e r e t a 1 C o n fi d e n ce e s t ima t io n f o r ma ch in e t r a n s la t io n P r o ce e d in g s o f C O L I N G 2 0 0 4 C G e n e v a S w i t z e r la n d 2 0 0 0 7 N i co la U e f f i n g H e r ma n n N e y Wo r d L e v e l co n f id e n ce e s t i m a t io n for ma ch i n e t r a n s la t io n J C o m p u t a t i o n a l L i n g u i s t i cs 2 0 0 7 3 3 1 9 4 0 8 L u cia S p e cia N i co la C a n ce d d a Ma r c D y m e t ma n e t a1 E s t ima t in g t h e s e n t e n ce le v e l q u al it y o f ma ch in e t r a n s la t io n s y s t e ms T h e 1 3 t h An n u a l C o n f e r e n ce o f t h e E u r o p e a n As s o ci a t i o n fo r Ma ch i n e T r a n s la t io n E A MT 2 0 0 9 C Ba r ce lo na Sp a in 20 0 9 9 L u cia S p e ci a C r a i g S a u n d e r s M a r co T u r ch i e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论