




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,英汉机器翻译中“of”结构的处理,英汉机器翻译中“of”结构的处理,一、引言,二、“of”结构定义及测试,三、“of”结构中并列结构,四、结语,引言,随着计算机网络的迅速普及以及信息高速公路的发展,不同语言之间的交际越来越普遍,语言障碍也显得越来越严重,机器翻译是克服信息时代语言障碍的不可缺少手段。但由于自然语言的极其复杂性,机器翻译是当代科学技术的十大难题之一。,引言,大致来讲,现行的机器翻译系统主要有基于规则和基于统计两种方法。由于无需人工编写和调试词典以及规则,节省了大量的人力,也省去了用于解决规则冲突的复杂设计,使得统计机器翻译系统在开发和应用上呈现出一些明显的特点和优势:(1)机器翻译系统开发的人工成本低、开发周期短;(2)可以迅速迁移到新的语种;(3)可以迅速迁移到新的领域(1)。因此,统计方法为机器翻译系统开发提供了一个有利的平台。,引言,euromatrix项目联络人hansuszkopeit教授(德国萨尔兰大学计算语言学教授,德国人工智能研究中心(dfki)主任以及dfki语言技术试验室首席研究员)09年1月的一个报告中提到目前从欧洲语料库基础上的机器翻译评测结果来看:基于统计的系统(smt)在翻译结果上往往能有较好的词汇选择(lexicalchoice),但是经常选择错误的语法结构并得不到完整的译文;而基于规则的系统(rbmt)很难解决歧义问题以及选择合适的词汇和短语,但是却能得到在语法结构,词汇顺序上比较完整那个的译文。因此结合这两者应该是一个比较好的研究方向。,引言,目前从事将句法知识引入统计机器翻译系统中的学者较多,成果颇丰,在翻译模型中引入句法知识的主要有davidchiang的层次短语模型和吴德凯的itg模型,南加州大学信息科学研究所isi(yamada,galley,marcu等)提出的串到树模型,刘洋等人提出的树到串模型等;在语言模型中引入句法知识的研究主要包括colincherry和dekanglin等在单词对齐模型中引入句法知识,feixia和michaelmccord等在翻译之前利用句法知识调整源语言语序,och、danielgildea等人在翻译之后利用句法知识做ranking等。,引言,本文首先给出了“of”结构的范式bnf定义,接着通过对统计翻译系统google测试结果的错误分析,利用stsnfordparser(基于统计的句法分析器)的句法分析结果和标记信息,并融入hnc的概念相似度计算,来解决of结构在现有统计机器翻译中的错误。本研究属于在在语言模型中引入知识,也是规则和统计结合的一个试探性个案研究。,“of”结构定义,“of”在传统语法上定义为介词,尽管介词各有自己的词义但极其模糊,可变性很强,往往受搭配词语之间的关系所制约。介词的搭配能力特别强它可以联系动词与名词,可以联系形容词与名词,还可以联系名词与名词,等等。,“of”结构定义,hetalksofreturningnestweek.,heisalwaysconsiderateofothers.,of,vp+of+np,adj+of+np,np+of+np,thewillofthepeopletheacquisitionofthefamily,“of”结构定义,本文所讨论的“of结构”为of结构的所有格用法,相当于汉字“的”字结构“n+的+n”。本文所涉及的“of结构”在表现形式上属于“np+of+np”结构。“np+of+np”在语言学研究范围内可分为多种情况:,“of”结构定义,逆序主谓关系:therequirementsoftimes顺序动宾关系:lossofenergy施受关系:thebookofhugo主属关系:thechildrenofthefamily同格关系:thecityofrome偏正关系:amanofability,“of”结构定义,某些存在结构性歧义:theloveofgodthecreationofmanthediscoveryoflivingstonethecityofromeaboxofwood,“of”结构定义,“of”结构范式bnf定义,“of”结构定义,例如:(1)chinaispursuing(long-term,comprehensivetransformation)of(itsmilitaryforces)toimproveitscapabilitiesforpowerprojection,anti-access,andareadenial.(2)(thepaceandscope)of(chinasmilitarytransformation)hasincreasedinrecentyears,fueledbycontinuedhighratesofinvestmentinitsdomesticdefenseandscienceandtechnologyindustries,acquisitionofadvancedforeignweapons,andfarreachingreformsofthearmedforces.,“of”结构测试,原文一:thereportshalladdress(thecurrentandprobablefuturecourse)of(military-technologicaldevelopment)onthepeoplesliberationarmygoogle译文一:该报告应解决对解放军当前的和可能的军事技术发展的未来走向syanfordparser分析一:,“of”结构测试,原文二:butitdoesnotadequatelyaddress(thecompositionofchinasmilitaryforces),or(thepurposesanddesiredendstates)of(chinasmilitarydevelopment).google译文二:但它没有充分解决中国的军队,或的宗旨和中国军事发展的期望的最终状态组成。syanfordparser分析二:,“of”结构定义及测试,某些存在结构性歧义:theloveofgodthecreationofmanthediscoveryoflivingstonethecityofromeaboxofwood,“of”结构测试,原文三:thischapterdiscusses(themission,organizationalstructure,characteristics,andweaponsystems)of(theinfantryweaponscompany)foundin(theinfantrybattalions)of(theinfantrybrigadecombatteam(ibct).google译文三:本章讨论的使命,组织结构,特点和武器的步兵武器系统公司发现的步兵旅战斗队(ibct)的步兵营。syanfordparser分析三:,“of”结构测试,“of”结构测试结果,从以上三个例子中可以看出:(1)统计机器翻译对of结构的调序基本正确。(2)of结构的统计译文中单词和短语翻译较正确,但是存在语序翻译失误,而这种失误造成译文不知所云。(3)造成语序翻译失误的主要要因是of结构管辖范围确定失误。,“of”结构测试结果,偏正结构,例一,嵌套结构,并列结构,例二,例三,从三个例子中可发现,每种错误都与并列结构密不可分!解决问题的关键为确定of结构中“of”对并列结构的管辖控制。,“of”结构翻译处理,对含of的语句进行句法分析,通过句法符号特征初步确立of结构的范围,利用特殊句法知识以及汉语译文语义相似度计算确定of结构的准确范围,一,二,三,对于np+of+np结构的机器翻译,难点在于确定两个np的范围,即确定of结构的左右管辖,如果我们能将of结构正确提出,那么问题就基本解决了。具体提取步骤如下:,(1)句法分析,如例二:thischapterdiscusses(themission,organizationalstructure,characteristics,andweaponsystems)of(theinfantryweaponscompany)foundin(theinfantrybattalions)of(theinfantrybrigadecombatteam(ibct).句法分析结果:,(2)通过前后界句法符号标记,以of结构为锚点进行左右扫描,直到左右遇到终止符号。将所有在范围内的字符串全部提取根据特征字符串初步判别,(3)计算语义相似度,根据标记特征判断并列结构中心词计算名词并列结构中心词相应汉语译文的语义距离确定of结构左侧并列结构的范围通过of结构左右两侧的语义关系,确定of结构右侧取值范围,有关嵌套结构处理,处理思路:依次扫描出of嵌套结构np+of+np+of+np+利用前面的方法确定第一个np和最后一个np的范围将of结构存入堆栈,后进先出,得到中文译文,结语,基于统计的机器翻译系统对“of”结构的处理并不理想,主要体现在语序翻译失误,管辖范围控制失误,嵌套结构逻辑错误等方面。我们利用传统的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大唐电力江苏省2025秋招面试专业追问及参考机械工程岗位
- 大唐电力铁岭市2025秋招机械工程专业面试追问及参考回答
- 中国广电呼和浩特市2025秋招心理测评常考题型与答题技巧
- 操守小学校园艺术节活动方案
- 台州市中石油2025秋招笔试模拟题含答案炼化装置操作岗
- 国家能源乌鲁木齐市2025秋招笔试题库含答案
- 舟山市中石油2025秋招面试半结构化模拟题及答案财务与审计岗
- 太原市中石油2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 张家口市中石油2025秋招笔试综合知识专练题库及答案
- 仓储管理中级考试题及答案
- 法律职业资格考试客观题(试卷一)试题与参考答案(2025年)
- 江西中寰投资集团下属公司招聘笔试题库2025
- 弱电施工安全培训课件
- 特种作业考试试题(含答案)
- 2025年储能应用行业研究报告及未来行业发展趋势预测
- 2025-2030中国游戏音频技术发展与沉浸式体验设计趋势报告
- 2025年苏绣行业研究报告及未来行业发展趋势预测
- 施工现场节假日安全管理措施
- 2025年骨科颈椎间盘突出症保守治疗要点考试卷答案及解析
- 5.3 友善待人(教学设计) 统编版道德与法治 八年级上册
- 5.2诚实守信 课件 统编版道德与法治 八年级上册
评论
0/150
提交评论