统计机器翻译研究进展.ppt_第1页
统计机器翻译研究进展.ppt_第2页
统计机器翻译研究进展.ppt_第3页
统计机器翻译研究进展.ppt_第4页
统计机器翻译研究进展.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计机器翻译研究进展 杜金华 Outline Overview SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing Syntax basedSMT长句分析 骨干关联分析中文BaseNP的研究中文命名实体总结与致谢 BaselineSystem ForNISTMT 06Evaluation Phrase basedTranslationwithVariableTemplateSubstitutionwordaligncorpus usingGIZA andOch srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog linearmodeltocombinemodelcomponentsbeamsearchdecoder SystemComponents reorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf ephrasetranslationmodele fwordtranslationmodelf ewordtranslationmodele f Examples VariableTemplateSubstitution对数字 时间 人名 地名进行双语替换如 我的房间号是301 我的房间号是 digit Myroomnumberis301 Myroomnumberis DIGIT 短语模板 抽取短语长度from LOCATIONto LOCATION1 47961e 002您将在 timep离开 location you llleave LOCATIONat TIMEP3 30669e 002 RecentImprovements 更新了汉语分词与命名实体识别模块 降低了因此而引入的噪音改进了短语抽取与概率计算模块4 Gramlanguagemodel最小错误率参数训练根据AshishVenugopal的matlab版本改写后处理模块近期计划针对NISTMT 06任务使用改进的系统进行一次评测试验 目前研究方向 Parsing Syntax basedSMT长句分析 骨干关联分析中文BaseNP的研究中文命名实体 Parsing Syntax basedSMT 基于中文句法分析器的研究实现了基于头驱动的句法分析器基于骨架依存概念的翻译基于英文句法分析器的研究利用英文Parser构造syntax basedSMT系统基于句法分析的SMTTree to StringString to Tree 基于骨架依存概念的翻译 骨架依存概念刻画了树上各个结点之间的关系 一般主要是中心词与它相邻结点的支配与被支配关系 基于依存树的句法分析能为机器翻译提供有用的结构信息 骨架依存树 目标是 仅分析出句子的整体句法结构 整体句法结构用该句的中心词及其直接支配成分来表示 骨架依存树考虑语句的整体结构信息和词汇语义信息的同时 避免对语句进行复杂的分析 基于骨架依存树的翻译 我们的设想基本思想是一种分层次的翻译模型 由骨架映射 短语翻译 词翻译的逐层细化的过程 我们已经能够进行短语及词一级的翻译 现在问题的关键是如何找到子句的骨架 并利用骨架变换来描述两种语言的结构变换 将骨架变换形式化为转换规则 lexicalandnon lexical 并统一到概率的框架下 长句分析 骨干 Skeleton 关联分析 长句分析目前仍无有效的方法对长句进行Parsing或者翻译目前对长句的处理只是研究如何将其切分NIST语料中FBIS中的长句特点并列成分多修饰语过多语言结构层次多插入语 Examples 我们坚信 有马列主义 毛泽东思想和邓小平理论的指引 有以江泽民同志为核心的党中央的正确领导 有全军官兵的团结奋斗 有全国各族人民的大力支持 我们的目标一定能够达到 大亚湾核电站总经理刘锡才说 这是高起点起步的结果 是中央英明决策 决定全面引进先进而成熟的百万千瓦级大型商业核电技术和设备 并按国际标准建造和管理的结果 是公司员工坚持创新 追求卓越 赶超世界先进水平长期努力的结果 美国新闻署的一份材料承认 美国在其大部分历史上未能确保许多公民 尤其是非洲裔美国人 土著美国人和所有妇女 的基本人权 骨干关联分析 骨干关联分析研究目标 以长句分析为切入点 对句子骨干关联结构进行分析 以服务于统计机器翻译研究任务 句子骨干识别及之间结构关联分析双语骨干映射关系基于骨干分析的翻译 骨干关联分析 骨干 Skeleton 的定义句子骨干在句法结构上首先是一个句子成分 可以是并列关系 从属关系或者其他属性描述关系 其在意义表示上具有相对独立性 骨干内部具有相对完整的句法结构 隐式或显式 其次 句子的不同骨干是由不同的特征集合进行区分 特征的选择能够识别骨干的边界双语骨干关联结构映射建立双语骨干对应关系 为翻译过程中目标语言重排序服务 基于骨干关联分析的翻译 中文BaseNP BaseNP识别的作用自然语言处理的基本任务之一BaseNP比单个词语含有更丰富的语言信息 歧义少 与整句parsing相比较 工作量小 更具实际应用价值 其他自然语言研究的基础例 信息检索系统 机器翻译 其他短语识别 基于文本的生物信息获取 biology 等等 什么是BaseNP 基本名词短语 basenounphrase baseNP 简单的 非嵌套的名词短语 不含有其他的子项短语 ZhaoJun HuangChangning 1998 给出了BaseNP的严格形式化定义BaseNP的严格形式化定义BaseNP BaseNP BaseNPBaseNP BaseNP 名词 名动词BaseNP 限定性定词 BaseNP 名词限定性定词 形容词 区别词 动词 名词 处所词 数量词 外文字串 ZhaoTiejunetal 2001 进一步对汉语基本短语进行了研究 提出了7种形式的汉语基本短语 中文baseNP训练测试集的建立 在PennChineseTreebank5 0和英文baseNP语料库建立方法基础上 加入了针对中文的词性和句法特征 建立较为完善的大规模baseNP训练测试语料 约50万中文词 中文BaseNP 中文BaseNP识别的的算法采用两级分类器第一级 采用TBL和CRF两个分类器第二级 采用SVM分类器算法流程 试验结果 中文命名实体 基于WFST WeightedFiniteStateTransducer 框架的命名实体识别与翻译Finite Statemodels FSM and inparticular WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing Thisincludesinparticularmachinetranslation largevocabularycontinuousspeechrecognitionandspeechsynthesis AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor learned fromtrainingdatausingcorpus basedtechniques Comparedtomoretraditionalknowledge basedapproaches thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge basedtechniques DifferentknowledgesourcescanhenceberepresentedviaFSMs thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway ThismakestheFSMframeworkanadequateoneforlanguageprocessing 数字时间的自动识别 采用WFST weightedfinitestatetransduc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论