北京大学博士论文开题报告PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-01-07 格式：PPT 页数：106 大小：1.29MB 积分：88 举报 版权申诉

已阅读5页，还剩101页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于模板的统计翻译模型研究及汉英机器翻译系统实现刘群liuqun 北京大学计算语言学研究所博士论文开题报告目录引言综述研究思路实验方案总结引言本文的主要工作提出一个基于模板的统计翻译模型给出一个汉英机器翻译系统的实现方案本文的主要创新给出了转换模板的定义及模板抽取算法提出模板角色概念并给出三种统计翻译模型给出该模型的参数估计算法目录引言综述机器翻译的范式统计机器翻译综述三种主要的方法统计机器翻译小结研究思路实验方案总结机器翻译的范式统计机器翻译方法的界定区别于规则方法利用语料库作为知识来源无需人工编写规则区别于实例方法或模板方法建立完整的统计模型必须为整个翻译过程而不是其中某个局部建立统计模型统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型IBM的PeterBrown等人首先提出目前影响最大几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型源于基于特征的自然语言理解Och提出获ACL2002最佳论文统计机器翻译的优缺点优点无需人工编写规则利用语料库直接训练得到机器翻译系统但可以使用语言资源系统开发周期短鲁棒性好译文质量好缺点时空开销大数据稀疏问题严重对语料库依赖性强算法研究不成熟基于平行概率语法的统计机器翻译模型基本思想两种语言建立一套平行的语法规则规则一一对应两套规则服从同样的概率分布句法分析的过程决定了生成的过程主要模型Alshawi的基于HeadTransducer的MT模型吴德恺的InverseTransductionGrammar ITG Takeda的Pattern basedCFGforMT HeadTransducerMT 1 HeadTransducer 中心词转录机是一种DefiniteStateAutomata 有限状态自动机与一般的有限状态识别器的区别每一条边上不仅有输入而且有输出不是从左至右输入而是从中心词往两边输入 HeadTransducerMT 2 例子一个可以将任何 a b 组成的串倒置的HeadTransducer HeadTransducerMT 3 所有的语言知识词典规则都表现为HeadTransducer HeadTransducer可以嵌套一个HeadTransducer的边是另一个的识别结果纯统计的训练方法对齐的结果是依存树不使用词性和短语类标记 Chart句法分析器 InversionTransductionGrammar 1 比赛星期三开始 ThegamewillstartonWednesday InversionTransductionGrammar 2 规则形式 A BC A A x y产生源语言和目标语言串分别为 BCBC 词序相同BCCB 词序交换xy 词典 Pattern basedCFGforMT 1 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则这两个规则称为翻译模板的骨架以及对这两个规则的中心词约束和链接约束构成举例 S 2 NP 1岁 MP 2了 S be NP 1beyear NP 2old Pattern basedCFGforMT 2 中心词约束对于上下文无关语法规则中右部子结点的每个非终结符可以指定其中心词对于规则左部父结点的非终结符可以直接指定其中心词也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词链接约束源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系具有对应关系的非终结符互为翻译信源信道模型假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的那么翻译的目标就是要将T还原成S 这也就是就是一个解码的过程注意源语言S是噪声信道的输入语言目标语言T是噪声信道的输出语言与整个机器翻译系统的源语言和目标语言刚好相反统计机器翻译基本方程式 P Brown称上式为统计机器翻译基本方程式语言模型 P S 翻译模型 P T S 语言模型反映 S像一个句子的程度流利度翻译模型反映 T像S 的程度忠实度联合使用两个模型效果好于单独使用翻译模型因为后者容易导致一些不好的译文语言模型与翻译模型考虑汉语动词打的翻译有几十种对应的英语词译文打人打饭打鱼打毛衣打猎打草稿如果直接采用翻译模型就需要根据上下文建立复杂的上下文条件概率模型如果采用信源信道思想只要建立简单的翻译模型可以同样达到目标词语选择的效果翻译模型不考虑上下文只考虑单词之间的翻译概率语言模型根据单词之间的同现选择最好的译文词统计机器翻译的三个问题三个问题语言模型P S 的参数估计翻译模型P T S 的参数估计解码搜索算法语言模型把一种语言理解成是产生一个句子的随机事件语言模型反映的是一个句子在一种语言中出现的概率语言模型N元语法P S p s0 p s1 s0 p Sn Sn 1 Sn N 链语法可以处理长距离依赖PCFG 要使用句法标记引入隐含变量对齐A 翻译模型与对齐 P T S 的计算转化为P T A S 的估计对齐建立源语言句子和目标语言句子的词与词之间的对应关系 IBMModel 对P T A S 的估计IBMModel1仅考虑词对词的互译概率IBMModel2加入了词的位置变化的概率IBMModel3加入了一个词翻译成多个词的概率IBMModel4IBMModel5 IBMModel3 对于句子中每一个英语单词e 选择一个产出率其概率为n e 对于所有单词的产出率求和得到m prime 按照下面的方式构造一个新的英语单词串删除产出率为0的单词复制产出率为1的单词复制两遍产出率为2的单词依此类推在这m prime个单词的每一个后面决定是否插入一个空单词NULL 插入和不插入的概率分别为p1和p0 0为插入的空单词NULL的个数设m为目前的总单词数 m prime 0 根据概率表t f e 将每一个单词e替换为外文单词f 对于不是由空单词NULL产生的每一个外语单词根据概率表d j i l m 赋予一个位置这里j是法语单词在法语串中的位置 i是产生当前这个法语单词的对应英语单词在英语句子中的位置 l是英语串的长度 m是法语串的长度如果任何一个目标语言位置被多重登录含有一个以上单词则返回失败给空单词NULL产生的单词赋予一个目标语言位置这些位置必须是空位置没有被占用任何一个赋值都被认为是等概率的概率值为1 0 最后读出法语串其概率为上述每一步概率的乘积翻译模型的参数训练 ViterbiTraining 对比 EMTraining 给定初始参数用已有的参数求最好 Viterbi 的对齐用得到的对齐重新计算参数回到第二步直到收敛为止 IBMModel1 存在全局最优IBMModel2 5 不存在全局最优初始值取上一个模型训练的结果统计机器翻译的解码借鉴语音识别的搜索算法堆栈搜索参数空间极大搜索不能总是保证最优从错误类型看只有两种模型错误概率最大的句子不是正确的句子搜索错误没有找到概率最大的句子后一类错误只占总错误数的5 IBM 搜索问题不是瓶颈 IBM公司的Candide系统1 基于统计的机器翻译方法分析转换生成中间表示是线性的分析和生成都是可逆的分析预处理 1 短语切分2 专名与数词检测3 大小写与拼写校正4 形态分析5 语言的归一化 IBM公司的Candide系统2 转换解码基于统计的机器翻译解码分为两个阶段第一阶段使用粗糙模型的堆栈搜索输出140个评分最高的译文语言模型三元语法翻译模型 EM算法第二阶段使用精细模型的扰动搜索对第一阶段的输出结果先扩充再重新评分语言模型链语法翻译模型最大熵方法 IBM公司的Candide系统3 ARPA的测试结果 JHU的1999年夏季研讨班由来IBM的实验引起了广泛的兴趣IBM的实验很难重复工作量太大目的构造一个统计机器翻译工具 EGYPT 并使它对于研究者来说是可用的免费传播在研讨班上用这个工具集构造一个捷克语英语的机器翻译系统进行基准评价主观和客观通过使用形态和句法转录机改进基准测试的结果在研讨班最后在一天之内构造一个新语对的翻译器 JHU夏季研讨班大大促进了统计机器翻译的研究 EGYPT工具包 EGYPT的模块GIZA 这个模块用于从双语语料库中抽取统计知识参数训练 Decoder 解码器用于执行具体的翻译过程在信源信道模型中翻译就是解码 Cairo 整个翻译系统的可视化界面用于管理所有的参数查看双语语料库对齐的过程和翻译模型的解码过程Whittle 语料库预处理工具EGYPT可在网上免费下载成为SMT的基准 EGYPT工具包的性能当解码器的原形系统在研讨班上完成时我们很高兴并惊异于其速度和性能 1990年代早期在IBM公司举行的DARPA机器翻译评价时我们曾经预计只有很短 10个词左右的句子才可以用统计方法进行解码即使那样每个句子的解码时间也可能是几个小时在早期IBM的工作过去将近10年后摩尔定律更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统为了确保成功我们在搜索中使用了相当严格的阈值和约束如下所述但是解码器相当有效这个事实为这个方向未来的工作预示了很好的前景并肯定了IBM的工作的初衷即强调概率模型比效率更重要引自JHU统计机器翻译研讨班的技术报告对IBM方法的改进 IBM方法的问题不考虑结构能否适用于句法结构差别较大的语言数据稀疏问题严重后续的改进工作王野翊的改进Yamada和Knight的改进Och等人的改进王野翊的改进 1 背景德英口语翻译系统语法结构差异较大数据稀疏训练数据有限改进两个层次的对齐模型粗对齐短语之间的对齐细对齐短语内词的对齐王野翊的改进 2 文法推导词语聚类基于互信息的方法短语归并规则学习优点机器翻译的正确率提高错误率降低了11 提高了整个系统的效率搜索空间更小缓解了因口语数据缺乏导致的数据稀疏问题 Yamada和Knight的改进 1 基于语法的翻译模型 Syntax basedTM 输入是源语言句法树输出是目标语言句子翻译的过程每个内部结点的子结点随机地重新排列排列概率在每一个结点的左边或右边随机插入一个单词左右插入和不插入的概率取决于父结点和当前结点标记插入哪个词的概率只与被插入词有关与位置无关对于每一个叶结点进行翻译词对词的翻译概率输出译文句子 Yamada和Knight的改进 2 Yamada和Knight的改进 3 Yamada和Knight的改进 4 Yamada和Knight的改进 5 训练英日词典例句2121对平均句长日9 7和英6 9词汇量英语3463 日语3983 大部分词只出现一次Brill sPOSTagger和Collins Parser用中心词词性标记取得短语标记压扁句法树中心词相同的句法子树合并EM训练20遍迭代 IBMModel5用20遍迭代 Yamada和Knight的改进 6 困惑度Perplexity OurModel 15 70IBMModel 9 84 Over fitting 结果 Och等人的改进 1 著名语音翻译系统VerbMobil的一个模块对IBM方法的改进基于类的模型词语自动聚类各400个类语言模型基于类的五元语法回退法平滑翻译模型基于对齐模板的方法短语层次对齐词语层次对齐短语划分动态规划 Och等人的改进 2 对齐模板基于最大熵的统计机器翻译模型 1 Och等人提出思想来源于Papineni提出的基于特征的自然语言理解方法不使用信源信道思想直接使用统计翻译模型因此是一种直接翻译模型是一个比信源信道模型更具一般性的模型信源信道模型是其一个特例与一般最大熵方法的区别使用连续量作为特征基于最大熵的统计机器翻译模型 2 假设e f是机器翻译的目标语言和源语言句子 h1 e f hM e f 分别是e f上的M个特征 1 M是与这些特征分别对应的M个参数那么直接翻译概率可以用以下公式模拟基于最大熵的统计机器翻译模型 3 对于给定的f 其最佳译文e可以用以下公式表示基于最大熵的统计机器翻译模型 4 取以下特征和参数时等价于信源信道模型仅使用两个特征h1 e f logp e h2 e f logp f e 1 2 1 基于最大熵的统计机器翻译模型 5 参数训练最优化后验概率准则区别性训练这个判断准则是凸的存在全局最优考虑多个参考译文基于最大熵的统计机器翻译模型 6 Och等人的实验 1 方案首先将信源信道模型中的翻译模型换成反向的翻译模型简化了搜索算法但翻译系统的性能并没有下降调整参数 1和 2 系统性能有了较大提高再依次引入其他一些特征系统性能又有了更大的提高基于最大熵的统计机器翻译模型 7 Och等人的实验 2 其他特征句子长度特征 WP 对于产生的每一个目标语言单词进行惩罚附件的语言模型特征 CLM 一个基于类的语言模型特征词典特征 MX 计算给定的输入输出句子中有多少词典中存在的共现词对基于最大熵的统计机器翻译模型 8 Och等人的实验 2 实验结果基于最大熵的统计机器翻译模型 9 经典的信源信道模型只有在理想的情况下才能达到最优对于简化的语言模型和翻译模型取不同的参数值实际效果更好最大熵方法大大扩充了统计机器翻译的思路特征的选择更加灵活统计机器翻译的应用传统机器翻译的应用领域跨语言检索聂建云使用IBMModel1进行CLIR机器翻译系统的快速开发针对未知语言快速开发统计机器翻译方法小结 IBM当年的工作是有一定超前性的虽然很多人怀疑统计方法在机器翻译中能否取得成功但现在这已不再是问题NISTMTEval2002中获得最高评分的系统都是采用统计机器翻译方法基于平行语法的机器翻译方法总体上不成功基于最大熵的方法为统计机器翻译方法开辟了一个新天地目录引言综述研究思路基本设想基于模板的统计翻译模型转换算法概率模型训练算法对齐与其他统计机器翻译方法的比较实验方案总结基本设想采用基于最大熵的统计机器翻译模型提出基于模板的统计翻译模型句法树对齐抽取翻译模板基于模板翻译模型其它特征汉语词法分析汉语句法分析基于模板的统计翻译模型转换模型P T S 的输入和输出都是句法树引入转换模板引入模板角色概念依据模板角色标注的思想建立起三个不同层次的统计翻译模型基于模板的统计翻译模型的参数训练算法转换模板图示 vp v 1n 2 vp vp 1np t one s n 2 转换模板定义转换模板的形式定义转换模板由两个带对齐关系的句法子树组成两棵句法子树的根结点互相对齐句法子树的所有非根非叶结点对齐到空句法子树的叶节点或者对齐到对应句法子树的叶节点或者对齐到空如果句法子树的叶节点对齐到空那么它必须是一个终结符结点具体词转换模板反映了两棵句法子树的结点之间的对应关系基于模板的转换算法以自顶向下的转换算法为例图示说明可以采用其他搜索策略例句汉我们可以比照其它工厂的做法拟定计划英 Wecandrawupourplaninthelightoftheexperienceofotherfactories 基于模板的转换 1 a vp v 比照 np 1 pp p in np np t the n light pp p of np 1 基于模板的转换 2 b np ap 1n 做法 np np t the n experiences pp 1 基于模板的转换 3 c ap np 1u 2 pp p 2np 1 基于模板的转换 4 d u 的 p of e np b 1n 2 np t 1n 2 基于模板的转换 5 f b 其他 t other g n 工厂 n factories 基于模板的转换 6 结果建立基于模板的翻译模型将翻译概率转化为对齐概率将对齐概率理解为标注概率将句法树的翻译过程理解为对源语言句法树结点的一个标注过程为句法树的标记建立概率模型转换模板的标注图示为源语言句法树的每一个结点进行转换模板标注转换模板的标注问题问题一个转换模板作用于多个源语言结点时对于不同源语言结点的标记无法区分举例说明上例中模板 a 同时作用于vp和v两个结点在计算标注的概率时对于这两个结点显然要作不同的考虑仅采用模板标记容易造成混淆模板角色的定义模板角色转换模板中源语言句法子树的每一个非叶结点被称为一个模板角色例子模板 a vp v 比照 np 1 模板角色 a vp a0 v a1 比照 np 1 模板角色的标注图示为源语言句法树的每一个结点进行模板角色标注模板角色标注概率模型1 假设每一个源语言结点的模板角色标记只与该结点的句法标记有关与其他源语言结点的句法标记和模板角色标记都无关于是这里 N是源语言句法树上任何一个结点 Syn N 是该结点对应的句法标记 Role N 是该结点对应的模板角色标记对应的参数归一化条件为这里Syn是任何一个句法标记 Role是任何一个模板角色模板角色标注概率模型2 假设每一个源语言结点的模板角色标记只与该结点及其子结点的句法标记有关与其他源语言结点的句法标记和模板角色标记都无关也就是说一个源语言结点的模板角色标记只与产生该结点的源语言上下文无关规则有关于是这里 N是源语言句法树上任何一个结点 Syn N 是该结点对应的句法标记 Rule N 是产生该结点的上下文无关规则对应的参数归一化条件为模板角色标注概率模型3 假设每一个源语言结点的模板角色标记除了与该结点及其子结点的句法标记有关外而且与其父结点的模板角色标记有关与其他源语言结点的句法标记和模板角色标记都无关于是这里 N是源语言句法树上任何一个结点 Syn N 是该结点对应的句法标记 Rule N 是产生该结点的上下文无关规则 Parent N 是该结点的父结点对应的参数归一化条件为训练方法算法Viterbi算法每次只考虑最大可能的对齐EM算法考虑所有可能的对齐基本过程迭代直到收敛短语对齐模板抽取参数估计参数训练算法目前有了初步的设想但考虑得还不成熟需要尝试多种办法并通过实验验证下面通过一个例子简单说明短语对齐的基础词语对齐词语对齐是短语对齐的基础基于语义类的方法义类词典汉语同义词词林英语 WordNet参考文献 Ker 1997 短语对齐的两个约束原则全局约束 globalconstraint 原则对齐的两个句子的句法树根结点互相对齐交叉约束 crossingconstraint 原则假设一种语言的一棵树中的两个节点p1和p2分别跟另一种语言的一棵树的节点q1和q2对齐并且p1是p2的祖先结点那么q1也必须是q2的祖先结点短语对齐举例源语句法树短语对齐举例译语句法树短语对齐举例词对齐结果 r 我们 r we v 可以 v can a 其它 a other n 工厂 n factories v 拟定 vp drawup n 计划 n plan u 的 p of n 做法 n experience v 比照 p inthelightof 词对齐得到的结果词对齐错过的对齐关系短语对齐举例可确定对齐仅仅根据词语对齐结果和前述的两个约束原则就可以确定一些短语对齐 vp 可以比照其它工厂的做法拟定计划 vp candrawupourplaninthelightoftheexperienceofotherfactories vp 比照其它工厂的做法拟定计划 vp drawupourplaninthelightoftheexperienceofotherfactories dj 我们可以比照其它工厂的做法拟定计划 s Wecandrawupourplaninthelightoftheexperienceofotherfactories vp 拟定计划 vp drawupourplan np 其它工厂 np otherfactories 短语对齐举例未确定对齐 ap 其它工厂的 pp ofotherfactories vp 比照其它工厂的经验 pp inthelightoftheexperiencesofotherfactories np 其它工厂的经验 np theexperiencesofotherfactories 通过短语对齐还应该得到以下短语对齐关系短语对齐举例抽取的模板 dj r 1vp 2 s r 1vp 2 vp v 1vp 2 vp aux 1vp 2 vp vp 1vp 2 vp vp 2pp 1 vp v 比照 np 1 pp p in np np t the n light pp p of np 1 np ap 1n 做法 np np t the n experiences pp 1 ap np 1u 2 pp p 2np 1 np b 1n 2 np t 1n 2 vp v 1n 2 vp vp 1np t one s n 2 与其他统计方法的比较 1 与其他统计方法的比较 2 在更深的层次上进行转换翻译模板的优点直观便于利用语言学家的知识综合了句法树转换中的结点调序插入删除等操作翻译模型简单不需要做太多不合理的无关性假设参数空间较小缓解数据稀疏问题目录引言综述研究思路实验方案总体方案已有的工作可使用的外部资源总结实验方案基于最大熵的统计翻译方法特征选取基于模板的统计翻译模型基于三元语法的英语语言模型汉语词法分析模型汉语句法分析模型词典模型其他已有的工作 1 双语语料库北大双语对齐语料库句子对齐各种来源报道和少量文学题材约11万句对部分短语主要是名词短语对齐约2万句对计算所收集的双语对齐语料库句子对齐 10万多句对LDC提供的双语对照的新闻语料库包括两部分 LDC2002T01 包括新华社新加坡联合早报美国之音在内的三个通讯社的105篇报道约2万词其中约一半的汉语句子已经有对应的句法树 LDC2002E53 包括新华社和新加坡联合早报的100篇报道这实际上就是2002年NISTMTEval的测试语料其它大量篇章对齐的文本已有的工作 2 汉语词法分析计算所开发的汉语词法分析器采用北京大学开发的人民日报切分标注语料库半年语料进行训练纯统计的模型多层隐马模型 HMM 含汉语分词命名实体包括机构名识别汉语词性标注汉语分词正确率达97 可以输出多个结果已有的工作 3 汉语句法分析计算所开发的概率汉语句法分析器改进的PCFG 概率上下文无关语法在基本的PCFG基础上引入结构上下文信息采用宾州大学中文树库 ChinesePennTree 进行训练把宾州大学中文树库的词法标记和词语划分按照人民日报语料库规范重新整理并与树库原有的句法标记进行衔接词法分析正确的情况下标记正确率达到77 已有的工作 4 双语对照词典核心词典约5万词语法信息北大语法信息词典语义信息和双语信息人工填写短语词典北大计算语言所约6万短语外围词典约40万词对几十部电子词典半自动校对整理合并含词语词性置信度信息已有的工作 5 双语段落对齐分段对齐计算所王斌博士论文双语句子对齐王斌张化瑞的工作双语词语对齐系统基于语义类的方法义类词典汉语同义词词林英语 WordNet参考文献 Ker 1997 可利用的外部资源 1 传统的统计机器翻译系统EGYPT系统有源代码 JHU1999夏季讨论班发布实现了IBMModel5可作为本系统所采用方法的参照可利用的外部资源 2 机器翻译的评价IBMBLEU机器翻译自动评价系统采用n元语法的思想综合利用译文中的n元接续对在多个参考译文中出现的比例对译文质量进行估计实验表明这种方法较好地模拟了人类专家对于译文质量的评价结果特别是对质量不太好的译文评价较为准确NIST方法 BLEU的改进目录引言综述研究思路实验方案总结总结已经完成的工作总体理论框架实验的准备部分算法模块语言资源将要进行的工作完善理论细节主要是翻译模型的参数训练和对齐算法完成所有算法模块进行实验验证综合已有的工作进行联调通过训练选择好的算法和参数参考文献 1 Al Onaizan1999 YaserAl Onaizan JanCurin MichaelJahr KevinKnight JohnLafferty DanMelamed Franz JosefOch DavidPurdy NoahA SmithandDavidYarowsky 1999 StatisticalMachineTranslation FinalReport JohnsHopkinsUniversity1999SummerWorkshoponLanguageEngineering CenterforSpeechandLanguageProcessing Baltimore MD Alshawi1998 Alshawi H Bangalore S andDouglas S AutomaticAcquisitionofHierarchicaltransductionmodelsformachinetranslation Proc 36thConf AssociationofComputationalLinguistics Montreal Canada 1998 Berger1994 Berger A P Brown S DellaPietra V DellaPietra J Gillett J Lafferty R Mercer H Printz LUres TheCandideSystemforMachineTranslation ProceedingsoftheDARPAWorkshoponHumanLanguageTechnology HLT Berger1996 A L Berger S A DellaPietra andV J DellaPietra Amaximumentropyapproachtonaturallanguageprocessing ComputationalLinguistics 22 1 39 72 March1996 Brown1990 PeterF Brown JohnCocke StephenA DellaPietra VincentJ DellaPietra FredrickJelinek JohnD Lafferty RobertL Mercer PaulS Roossin AStatisticalApproachtoMachineTranslation ComputationalLinguistics 1990 参考文献 2 Brown1993 Peter F Brown StephenA DellaPietra VincentJ DellaPietra RobertL Mercer TheMathematicsofStatisticalMachineTranslation ParameterEstimation ComputationalLinguistics Vol19 No 2 1993 Brown1995 RalfBrownandRobertFrederking1995 ApplyingStatisticalEnglishLanguageModelingtoSymbolicMachineTranslation InProceedingsoftheSixthInternationalConferenceonTheoreticalandMethodologicalIssuesinMachineTranslation TMI 95 pages221 239 Leuven Belgium Grishman 1994 Grishman R IterativeAlignmentofSyntacticStructuresforaBilingualCorpus Proc Of2ndWorkshopforVeryLargeCorpora WVLC 94 pp 57 68 Imamura 2001 KenjiImamura Hierarchicalphrasealignmentharmonizedwithparsing inProc ofNLPRS2001 Tokyo 2001 Kaji 1992 Kaji H Kida Y andMorimoto Y LearningTranslationTemplatesfromBilingualTexts COLING 92 pp 672 678 Ker1997 SueJ Ker JasonS Chang AClass basedApproachtoWordAlignment ComputationalLinguistics Vol 23 No 2 Page313 343 1997 Knight1999 KevinKnight AStatisticalMachineTranslationTutorialWorkbook unpublished preparedinconnectionwiththeJHUsummerworkshop August1999 availableathttp www clsp jhu edu ws99 projects mt wkbk rtf 参考文献 3 Knight1997 KevinKnight Automatingknowledgeacquisitionformachinetranslation AIMagazine18 4 Knight1998 KevinKnightandYaserAl Onaizan Translationwithfinite statedevices InProc AMTA 98 Knight1999 KevinKnight AStatisticalMachineTranslationTutorialWorkbook unpublished preparedinconnectionwiththeJHUsummerworkshop August1999 availableathttp www clsp jhu edu ws99 projects mt wkbk rtf L 2001 YajuanL MingZhou ShengLi ChangningHuang TiejunZhao Automatictranslationtemplateacquisitionbasedonbilingualstructurealignment InternationalJournalofComputationalLinguisticsandChineseLanguageProcessing 6 1 pp 1 26 L 2002 YajuanL ShengLi TiejunZhao MuyunYang LearningChineseBracketingKnowledgeBasedonaBilingualLanguageModel ConferenceonComputationalLinguistics August2002 Taipei Marcus1993 MitchellP Marcus BeatriceSantorni etc BuildingaLargeAnnotatedCorpusofEnglish ThePennTreebank ComputationalLinguistics Vol 19 No 2 1993 参考文献 4 Matsumoto 1993 Matsumoto Y Ishimoto H andUtsuro T StructuralMatchingofParallelTexts ACL 93 pp 23 30 Meyers 1996 Meyers A Yanharber R andGrishman R AlignmentofSharedForestsforBilingualCorpora Proc OfCOLING 96 pp460 465 NIST2002 TheNIST2002MachineTranslationEvaluationPlan MT 02 http www nist gov speech tests mt Och1998 FranzJosefOchandHansWeber Improvingstatisticalnaturallanguagetranslationwithcategoriesandrules InProc Ofthe35thAnnualConf oftheAssociationforComputationalLinguisticsandthe17thInt Conf onComputationalLinguistics pages985 989 Montreal Canada August1998 Och1999 F J Och C Tillmann andH Ney Improvedalignmentmodelsforstatisticalmachinetranslation InProc oftheJointSIGDATConf OnEmpiricalMethodsinNaturalLanguageProcessingandVeryLargeCorpora pages20 28 UniversityofMaryland CollegePark MD June1999 参考文献 5 Och2001 FranzJosefOch HermannNey WhatCanMachineTranslationLearnfromSpeechRecognition In proceedingsofMT2001Workshop TowardsaRoadMapforMT pp 26 31 SantiagodeCompostela Spain September2001 Och2002 FranzJosefOch HermannNey DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation ACL2002 Papineni1997 K A Papineni S Roukos andR T Ward 1997 Feature basedlanguageunderstanding InEuropeanConf onSpeechCommunicationandTechnology pages1435 1438 Rhodes Greece September Papineni1998 K A Papineni S Roukos andR T Ward 1998 Maximumlikelihoodanddiscriminativetrainingofdirecttranslationmodels InProc Int Conf onAcoustics Speech andSignalProcessing pages189 192 Seattle WA May Papineni2001 KishorePapineni SalimRoukos ToddWard Wei JingZhu Bleu aMethodforAutomaticEvaluationofMachineTranslation IBMResearch RC22176 W0109 022 September17 2001 Rayner1997 MannyRayner DavidCarter HybridLanguageProcessingintheSpokenLanguageTranslator ProceedingsofICASSP 97 pages107 110 Munich Germany Ronald1995 RonaldA Cole etal eds SurveyoftheStateoftheArtinHumanLanguageTechnology 1995 http cslu cse ogi edu HLTsurvey 参考文献 6 Takeda1996 KoichiTakeda Pattern BasedContext FreeGrammarsforMachineTranslation Proc of34thACL pp 144 151 June1996 Wahlster2000 WolfgangWahlster MobileSpeech to SpeechTranslationofSpontaneousDialogs AnOverviewoftheFinalVerbmobilSystem InWolfgangWahlstereds Verbmobil FoundationsofSpeech to Speec

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

北京大学博士论文开题报告PPT课件.ppt

文档简介

温馨提示

最新文档

评论

北京大学博士论文开题报告PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档