




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
词语对齐的快速增量式训练方法研究NLP&CC, 北京, 2012年11月4日罗维提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献2统计机器翻译【学术界】模型朝句法、语义方向发展基于词基于短语基于句法基于语义【产业界】正逐渐走向实用百度翻译、有道翻译、谷歌翻译统计机器翻译模型3统计翻译模型构建短语/规则翻译表的一般流程注:“解码器”模块省略关于翻译特征的判别式训练的内容。4词语对齐词语对齐是翻译模型构建的瓶颈,这是因为主流的翻译模型均依赖大规模双语语料库的词语对齐结果词语对齐需要模型训练,在翻译模型构建中耗时最长词语对齐质量影响机器翻译质量5词语对齐词语对齐是翻译模型构建的瓶颈,这是因为主流的翻译模型均依赖大规模双语语料库的词语对齐结果词语对齐需要模型训练,在翻译模型构建中耗时最长词语对齐质量影响机器翻译质量当新增语料时,传统的模型训练方法是合并语料后重新进行词语对齐模型训练。5词语对齐词语对齐是翻译模型构建的瓶颈,这是因为主流的翻译模型均依赖大规模双语语料库的词语对齐结果词语对齐需要模型训练,在翻译模型构建中耗时最长词语对齐质量影响机器翻译质量当新增语料时,传统的模型训练方法是合并语料后重新进行词语对齐模型训练。其两大不足:时间和计算资源的开销较大NIST评测提供的500w平行句对| 曙光5000的计算节点机| 单线程| 45天当新数据是与原始数据所在领域不同的数据传统训练方法得到的模型会与新数据上的真实模型存在较大的偏差。5提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献6词语对齐的增量式训练Wu 2005 模型插值应用得到的模型在新数据上生成词语对齐结果Duh 2011对新数据应用贝叶斯估计生成词语对齐矩阵。7提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献8词语对齐模型采用2个基于无监督学习的模型IBM模型1 Brown 93基于HMM模型的词语对齐模型Vogel 96模型的参数训练算法EM算法9词语对齐模型的增量式训练新数据原有数据训练新模型原始模型训练10词语对齐模型的增量式训练新数据原有数据训练新模型原始模型训练10词语对齐的增量式训练新数据原有数据训练新模型原始模型训练如何用?10词语对齐的增量式训练新数据原有数据训练新模型原始模型训练能否优化?10提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献11基于初始化的增量式训练12新语料模型参数识别基于初始化的增量式训练12新语料模型参数识别统计量的经验初始化累加原始模型的统计量模型参数初始化阶段对统计量做归一化得参数初始值基于初始化的增量式训练12新语料模型参数识别统计量的经验初始化累加原始模型的统计量IBM模型1参数训练HMM模型参数训练模型参数初始化阶段参数迭代训练阶段对统计量做归一化得参数初始值基于初始化的增量式训练模型参数:词汇化翻译概率t(f| e),扭曲概率d(aj|aj-1, I)参数统计量:频度统计值c(f, e),c(aj, aj-1, I)13基于初始化的增量式训练模型参数:词汇化翻译概率t(f| e),扭曲概率d(aj|aj-1, I)参数统计量:频度统计值c(f, e),c(aj, aj-1, I)为什么用原始模型的参数统计量来初始化,而不直接用原始模型的参数来初始化?不增加计算复杂度。新语料中出现新的模型参数,如t(fnew| e);统一的系统架构。后文的online EM算法,在进行新一轮的迭代时,需要使用现有的统计量。13实验_传统中医平行语料原始数据:来自LDC语料(约125w句对)新数据:ctzy语料(约224w句对),选出70w做增量式实验语言模型在ctzy语料英文端,用srilm工具训练英文端5元LM开发集ctzy领域数据(861句),带4个参考译文测试集ctzy领域数据(1000句),带4个参考译文运行系统自己实现的词语对齐系统(Model 1:5轮,HMM: 3轮)基于层次短语模型的解码器14实验_传统中医实验方案开发集测试集Baseline45.7854.60Com_old_new44.1853.50Init_lex44.8054.03Init_dist46.9356.52Init_lex_dist46.4355.81实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Com_old_new: 合并原始语料和新语料,然后进行模型训练。Init_lex: 用原始语料上训出的词汇化翻译概率初始化。Init_dist: 用原始语料上训出的位置扭曲概率初始化。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。15实验_传统中医实验方案开发集测试集Baseline45.7854.60Com_old_new44.1853.50Init_lex44.8054.03Init_dist46.9356.52Init_lex_dist46.4355.81跨领域不能简单合并语料实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Com_old_new: 合并原始语料和新语料,然后进行模型训练。Init_lex: 用原始语料上训出的词汇化翻译概率初始化。Init_dist: 用原始语料上训出的位置扭曲概率初始化。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。15实验_传统中医实验方案开发集测试集Baseline45.7854.60Com_old_new44.1853.50Init_lex44.8054.03Init_dist46.9356.52Init_lex_dist46.4355.81仅初始化词汇化翻译概率方案不好对齐改进,改良规则分数15实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Com_old_new: 合并原始语料和新语料,然后进行模型训练。Init_lex: 用原始语料上训出的词汇化翻译概率初始化。Init_dist: 用原始语料上训出的位置扭曲概率初始化。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。实验_医药平行语料原始语料:来自LDC语料(约125w句对)新语料:yiyao语料(约525w句对),选出70w做增量式实验语言模型在yiyao语料英文端,用srilm工具训练英文端5元LM开发集yiyao领域数据(1024句),带4个参考译文测试集yiyao领域数据(1000句),带4个参考译文运行系统自己实现的词语对齐系统(Model 1:5轮,HMM: 3轮)基于层次短语模型的解码器16实验_医药实验方案开发集测试集Baseline18.7338.72Com_old_new19.0838.64Init_lex18.8938.52Init_dist19.1440.74Init_lex_dist19.2740.8017实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Com_old_new: 合并原始语料和新语料,然后进行模型训练。Init_lex: 用原始语料上训出的词汇化翻译概率初始化。Init_dist: 用原始语料上训出的位置扭曲概率初始化。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。实验_医药实验方案开发集测试集Baseline18.7338.72Com_old_new19.0838.64Init_lex18.8938.52Init_dist19.1440.74Init_lex_dist19.2740.80跨领域不能简单合并语料对齐改进,改良规则分数仅初始化词汇化翻译概率方案不好17实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Com_old_new: 合并原始语料和新语料,然后进行模型训练。Init_lex: 用原始语料上训出的词汇化翻译概率初始化。Init_dist: 用原始语料上训出的位置扭曲概率初始化。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献18Online EM算法的应用EM算法家族batch EM (属于batch learning)online EM (属于online learning)19Batch learning20Online learning21Online learning与Batchlearning方法,online算法的优点:容易跳出差的局部最优解;在大数据量的参数优化的效果较好;如果训练数据中存在冗余,能更快地到达(局部)最优解。Online算法缺点:参数更新频繁,增加了运算量并行程度不会有batch算法高22Online learning与Batchlearning方法,online算法的优点:容易跳出差的局部最优解;在大数据量的参数优化的效果较好;如果训练数据中存在冗余,能更快地到达(局部)最优解。Online算法缺点:参数更新频繁,增加了运算量并行程度不会有batch算法高这优缺点的对比分析自然也适用于batch EM和online EM的对比分析。22Batch EMinitializationfor each iteration t = 1,T 0for each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference + si accumulate new replace old with newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量Liang 200923Batch EMinitializationfor each iteration t = 1,T 0for each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference + si accumulate new replace old with newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量表示由所有充分统计量组成的一个向量23initializationfor each iteration t = 1,T 0for each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference + si accumulate new replace old with newBatch EMz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量E步23initializationfor each iteration t = 1,T 0for each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference + si accumulate new replace old with newBatch EMz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量M步23Online EM stepwise EMinitialization; k = 0for each iteration t = 1,Tfor each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference(1 -k)+ ksi; k k + 1 towards newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量Liang 200924Online EM stepwise EMinitialization; k = 0for each iteration t = 1,Tfor each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference(1 -k)+ ksi; k k + 1 towards newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量E步24Online EM stepwise EMinitialization; k = 0for each iteration t = 1,Tfor each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference(1 -k)+ ksi; k k + 1 towards newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量M步24Online EM stepwise EMinitialization; k = 0for each iteration t = 1,Tfor each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference(1 -k)+ ksi; k k + 1 towards newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量与batch EM的这步一样24Online EM stepwise EMinitialization; k = 0for each iteration t = 1,Tfor each example i= 1,n:si zp(z | x(i); ()(x(i), z) inference(1 -k)+ ksi; k k + 1 towards newz : 与x对应的隐变量: 模型参数对应的充分统计量si : 从样本i得到的充分统计量() : 给定统计量,依据最大似然估计计算模型参数(x,z) : 标注数据(x,z)下映射出的充分统计量每轮迭代完后,不用清空充分统计量24Online EM stepwise EMk的取值EM收敛要求与k = (k + 2)-( 0.5 = 1 )mini-batch的取值每处理mini-batch个样本,更新模型参数0kkh=20kkh=25实验_Online EM算法ctzy实验与之前ctzy实验配置一样yiyao实验与之前yiyao实验配置一样运行系统自己实现的词语对齐系统model 1: online EM训练3轮hmm : online EM训练3轮基于层次短语模型的解码器26实验_Online EM算法传统中医实验方案batch EMonline EM开发集测试集开发集测试集Baseline45.7854.60XXInit_lex_dist46.4355.8146.6856.37实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。27实验_Online EM算法医药实验方案batch EMonline EM开发集测试集开发集测试集Baseline18.7338.72XXInit_lex_dist19.2740.8018.9640.82实验设置:Baseline : 直接在新语料上进行模型训练,并生成词语对齐结果。Init_lex_dist: 用原始语料上训出的词汇化翻译概率和扭曲概率初始化。28提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献29总结传统训练方法在构建翻译模型时存在不足,本文围绕翻译模型构建流程的瓶颈词语对齐,研究既高效又保证词语对齐质量和机器翻译质量的增量式训练方法。30总结传统训练方法在构建翻译模型时存在不足,本文围绕翻译模型构建流程的瓶颈词语对齐,研究既高效又保证词语对齐质量和机器翻译质量的增量式训练方法。提出了基于初始化,同时应用迭代训练收敛速度更快的online EM算法以替换通常所用的batch EM算法的增量式训练方法。30总结传统训练方法在构建翻译模型时存在不足,本文围绕翻译模型构建流程的瓶颈词语对齐,研究既高效又保证词语对齐质量和机器翻译质量的增量式训练方法。提出了基于初始化,同时应用迭代训练收敛速度更快的online EM算法以替换通常所用的batch EM算法的增量式训练方法。所提出的增量式训练方法在实验中取得成效。30提纲研究背景研究现状研究方法论文的主要工作基于初始化的增量式训练Online EM算法的应用总结主要参考文献31主要参考文献Brown 1993 Brown, P.F. and Pietra, V.J.D. and Pietra, S.A.D. and Mercer, R.L. The mathematics of statistical machine translation: Parameter estimation. CL 1993.Duh 2011 Duh, K. and Sudoh, K. and Iwata, T. and Tsukada, H. Alignment Inference and Bayesian Adaptation for Machine Translation. MTSummit2011.Liang 2009 Liang, P. and Klein, D. Online EM for unsupervised models. NAACL 200
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 梨树果园施肥管理方案
- 二零二五年度航空零部件厂房出租合同协议书(高端制造基地)
- 二零二五年政府机关安全保卫合同终止通知
- 小巷路面规划方案
- 二零二五年度智能无人机应用服务合同
- 产教融合背景下皮鞋制造职业技能提升路径-洞察及研究
- 二零二五年度写字楼公共区域保洁外包合同范本
- 二零二五年度高标准ALC隔墙板分包施工合同书
- 2025版智能仓储中心仓管员安全责任与安全生产规范合同
- 二零二五年度保温施工风险评估合同协议
- 针灸科重点病种诊疗方案
- 从管控到赋能:我国文艺演出市场发展进程中政府职能转变探究
- 光伏电站安全规程培训
- 贵州省贵阳市2025年八年级英语第二学期期末考试试题含答案
- 高水平专业群建设与产业适配性研究
- 2025至2030中国防爆设备行业发展分析及发展前景与投资报告
- 科研团队经费管理制度
- 药品企业研发管理制度
- 商协会公章管理制度
- 口腔正畸模型测量分析
- 2025年全科医生考试试题及答案详细解析
评论
0/150
提交评论