版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
跨语言信息检索背景供求矛盾供不应求怎么办?供不应求减少需求增加供应跨语言信息检索跨语言信息检索为了消除网络资源利用中的语言障碍,跨语言信息检索技术成为当前信息检索领域中重要的研究课题。跨语言信息检索Cross-LanguageInformationRetrieval(CLIR)是指用户以一种语言提问检出另一种语言或多种语言描述的相关信息的方法跨语言检索=传统检索+机器翻译网页互联网匹配检索结果用户需求网页采集分析处理机器翻译建立索引索引库机器翻译机器翻译机器翻译利用计算机将一种语言翻译成另一种语言文本翻译语音翻译语音识别--->文本翻译--->语音合成机器翻译的发展历程19401950196019701980199020002010第一次高潮第二次高潮第三次高潮机器翻译的起源有计算机那天就有机器翻译的研究。1946年,世界上第一台计算机问世。同一年,英国的A.Donald.Booth(布斯)和美国的W.Weaver(韦弗)就开始了机器翻译的研究。19401950196019701980199020002010起源第一次高潮动力计算机的诞生冷战开始主要方法基于规则的方法衰退原因计算机处理能力弱对自然语言的认识水平低19401950196019701980199020002010第一次高潮第二次高潮动力计算机处理能力的飞速发展主要方法基于语料库的方法衰退原因技术上矫枉过正目标定位存在问题19401950196019701980199020002010第二次高潮第三次高潮(现在)动力需求的迅速膨胀计算语言学的发展目标定位的多样化主要方法多种方法相结合19401950196019701980199020002010第三次高潮主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于规则的方法(RBMT)分析根据源语言分析规则,分析原文结构。转换根据转换规则,将原文结构转换成译文结构生成根据目标语言生成规则,利用译文结构生成译文。分析源语言结构翻译:“她把一束花放在桌上。”转换成目标语言结构结构调整生成译文RBMT的优缺点优点直观,能够直接表达语言学家的知识系统适应性强,不依赖于具体的训练语料缺点规则主观因素重,有时与客观事实有一定差距规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面规则之间的冲突没有好的解决办法(翘翘板现象)规则一般只局限于某一个具体的系统,规则库开发成本太高规则库的调试极其枯燥乏味规则,唉……词法分析规则、句法分析规则结构转换规则、词语转换规则结构生成规则、词语生成规则……规则又多又烦,不用行不行?主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于实例的方法(EBMT)照猫画虎RBMT:分析转换生成EBMT:匹配对齐重组基于实例的翻译举例吴先生是老师aisWuMr.teacher李先生是老师aisLiMr.teacher待翻译句子实例翻译结果基于实例的翻译举例吴先生是老师李先生是老师待翻译句子实例翻译结果先生はさん呉です先生はさん李です基于实例的翻译举例吴先生是老师吴小姐是老师待翻译句子实例翻译结果先生はさん呉です先生はさん呉です小姐?基于实例的翻译举例吴先生是老师吴小姐是老师待翻译句子实例翻译结果先生はさん呉です先生はさん呉です基于实例的翻译举例吴先生是老师吴先生是宇航员待翻译句子实例翻译结果先生はさん呉です宇宙飛行士はさん呉です匹配对齐重组EBMT的核心问题:词对齐词对齐aisWuMr.吴先生是老师WordAlignmentteacherEBMT的核心问题:词对齐词对齐WordAlignmentType1-1m-n1-nullprogrammeraisHe他是程序设计师WordAlignment词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesMorphology-BasedApproachesCognatesisaeffectivelinguisticknowledgeinwordaligning.Thetermcognatedenotes:wordsindifferentlanguagesthataresimilarintheirorthographicorphoneticformandarepossibletranslationsofeachother.Morphology-BasedApproachesThesimilarityisusuallyduetoeitherageneticrelationshipe.g.EnglishnightandGermannachtorborrowingfromonelanguagetoanothere.g.EnglishsprintandJapaneseスプリントInabroadsense,cognatesincludenotonlygeneticallyrelatedwordsandborrowingsbutalsonames,numbers,andpunctuation.Practically,allparallelcorporacontainsomekindofcognates.IdentifyCognatesTherearethreewordsimilaritymeasures:Simard’sconditionDice’scoefficientLongestCommonSubsequenceRatioSimard’sConditionSimardetal.(1992)proposedasimpleconditionfordetectingprobablecognatesinFrench–Englishbitexts:twowordsareconsideredcognatesiftheyareatleastfourcharacterslongandtheirfirstfourcharactersareidentical.Dice’sCoefficientHereDice’scoefficientisdefinedastheratioofthenumberofsharedcharacterbi-gramstothetotalnumberofbi-gramsinbothwords.Forexamplecolourandcouleursharethreebi-gramsco,ou,andursotheirDice’scoefficientis6/11.LCSRTheLongestCommonSubsequenceRatiooftwowordsiscomputedbydividingthelengthoftheirlongestcommonsubsequencebythelengthofthelongerword.Forexample,LCSR(colour,couleur)=5/7astheirlongestcommonsubsequenceis“c-o-l-u-r”.词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesDictionary-BasedApproachesEveniftwolanguagesdonotbelongtothesamelanguagefamily,theirlexiconhassemanticsimilarityBecausetheobjectstheywanttodescribearethesameworld.Oneofthebestexamplesaboutsemanticsimilaritybetweentwolanguagesisbilingualdictionary.ExactlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceIfc∈DTethenaligneandc.ExampleofExactlyMatchIlovemotherland<->我/爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.Because“爱”inChinesesentence∈DTe3.
love<->爱
alignedExactlyMatchisnotEnoughConflictThelimitationofdictionaryTheflexibilityoftranslationPrecisionishigh,butrecallislowItishelplesstounknownwordSimilarlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceCalculatesimilarityofeandcasfollow:IfDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofSimilarlyMatchIlovemotherland<->我/热爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.ForeachwordcinChinesesentence,calculatesimilarityofloveandcCommentsonDictionary-basedApproachesMeritHighprecisionTheycancontaintheinformationaboutwordsthatappearonlyonceinthecorpus.DemeritLowrecallTheycannotcapturecontext-dependentkeywordsinthecorpus.Theyareweakagainstunknownword(newwordsandincorrectwordsegmentation).词对齐主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesThesaurus-BasedApproachesSearchthesourcewordefrombilingualdictionary.PutthetranslationofeintoasetnamedDTe.ForeachelementDTegetallthewordsinsameclassfromthesaurus.putthemintoasetnamedDTeClass.ForeachwordcintargetsentenceIfc∈DTeClass,thenaligneandc.ElseifDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofThesaurus-BasedApproachesIlovemotherland<->我/热爱/祖国/1.Searchtranslationsoflovefrombilingualdictionary.DTe 爱情、恋爱、爱、恋念2.ForeachelementDTegetallthewordsinsameclassfromthesaurus.Class“爱”:喜爱、怜爱、钟爱、热爱、爱慕……Class“爱情”:情爱、情意………putthemintoasetnamedDTeClass.3.ForeachwordcinChinesesentence,matchinDTeClass4.Because“热爱”inChinesesentence∈DTeClass,
love<->热爱
aligned词对齐主要方法LinguisticalApproachesStatisticalApproachesHeuristicApproachesRefinedStatisticalApproachesHeuristicApproachesIlovemotherland我0.880.440.22爱0.050.900.56祖国0.120.240.36Co-occurrenceMatrixMeasuretheAssociationThecoreofco-occurrence-basedapproachesisthemethodtomeasuretheassociationbetweensourcewordandtargetword.DiceCoefficientMutualInformationX2……ParametersWillBeUsedN:totalsentencepairsnumberofthecorpusa=freq(s,t)b=freq(s)-freq(s,t)c=freq(t)-freq(s,t)d=N-a-b-ct┐tsab┐scdDiceCoefficientIntargetsentence,choosetwiththelargestDICEscoreasthealignmentofsDICEscorecanbecalculatedfollow:MutualInformationIntargetsentence,choosetwiththelargestMIscoreasthealignmentofsMIscorecanbecalculatedasfollow:X2Intargetsentence,choosetwiththelargestX2scoreasthealignmentofsX2scorecanbecalculatedasfollow:总体结构预处理翻译记忆层局部模板层全局模板层后处理语言学资源语料库资源句子模板绝对匹配名词分析模板相似匹配谓词驱动全局模板模板相似匹配短语规则库短语库待译句子翻译
流程
简介自动分词自动短语分析相似计算模板匹配单词直译这是小香蕉这/是/小/香蕉/那(这)是苹果(小香蕉)that(this)isanapple(smallbanana)NP(this)isNP(ansmallbanana)thisis(small/little)
bananathisisasmallbanana自动词性标注这/r是/v小/a香蕉/n这是[小/香蕉]翻译记忆翻译结果词性标注语料句对库词对齐库语言模型模板库分词语料翻译失败基于实例的方法(EBMT)EBMT抛弃了规则字典+词对齐的实例库不用字典行不行?实例库不用词对齐行不行?主要的机器翻译方法基于规则的方法基于实例的方法基于统计的方法基于统计的方法(SMT)噪音信道模型Mary到底说了什么?Brown猜的过程就是翻译的过程。将法语”Jet’aime.”翻译成英语基于统计的方法(SMT)怎么猜?一开始,肯定猜不出来。说多了,可能就能猜出来了。Brown的方法基于统计的方法(SMT)Brown,1990AStatisticalApproachtoMachineTranslationBrown,1993Themathematicsofstatisticalmachinetranslation-Parameterestimation基于统计的方法Brown认为,法语f:”Jet’aime.”可能翻译成任何一句英语e1:Howareyou?e2:Iloveyou.e3:Thenoisychannelworkslikethis.……翻译成这些英文句子的概率是不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安顺开发区三联学校2026年春季教师招聘备考题库(23名)有完整答案详解
- 2025年在线问诊平台专科医师资源布局报告
- 2026年广州市妇女儿童医疗中心校园招聘144人备考题库及答案详解(考点梳理)
- 2025年“才聚齐鲁成就未来”山东通汇资本投资集团有限公司招聘备考题库完整答案详解
- 2026年天津市双菱中学招聘教师23人备考题库及一套完整答案详解
- 城市地下空间2025年开发利用创新模式可行性研究-技术创新视角
- 2026年百色市田东县义圩中心卫生院自主招聘备考题库参考答案详解
- 2026年广东省退役军人服务中心公开招聘编外聘用工作人员备考题库及一套答案详解
- 2026年上海市同济口腔医院(同济大学附属口腔医院)实验技术员招聘备考题库及参考答案详解一套
- 2025年区块链农产品质量安全追溯应用场景报告
- 2024高考二模模拟训练数学试卷(原卷版)
- 增值税销售货物或者提供应税劳务清单(模板)
- 35770-2022合规管理体系-要求及使用指南标准及内审员培训教材
- 2022年福建翔安区社区专职工作者招聘考试真题
- 四川省成都市青羊区2023年九年级一诊英语试卷
- 《高势能品牌》读书笔记思维导图
- 拆零药品登记表
- 英语电影的艺术与科学智慧树知到答案章节测试2023年中国海洋大学
- 附件1北京建筑大学新办本科专业教学评估方案
- GB/T 16786-2007术语工作计算机应用数据类目
- 中国地质大学武汉软件工程专业学位研究生实践手册
评论
0/150
提交评论