语料库的创建与应用ppt课件.pptx_第1页
语料库的创建与应用ppt课件.pptx_第2页
语料库的创建与应用ppt课件.pptx_第3页
语料库的创建与应用ppt课件.pptx_第4页
语料库的创建与应用ppt课件.pptx_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库的创建与应用,1,1)语料库类型2)语料选取原则与操作标准3)语料库规模4)语料句对齐标准5)语料库的制作6)数据挖掘7)翻译教学8)翻译研究9)语料的版权10)语料的质量11)语料库与翻译创造力12)语料库的应用,2,1)语料库类型,平行语料库:源语文本+目的语文本双语平行语料库:英语+汉语或德语+汉语多语平行语料库:两种以上语言双向平行语料库:英汉+汉英单向平行语料库:英汉或汉英,3,1)语料库类型,可比语料库:语料具有可比性单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情咨文)双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华人民共和国公司法术语)语料可比性,4,1)语料库类型,翻译语料库:翻译文本口语语料库:标注?(蒙特雷),5,2)语料选取原则与操作标准,代表性或影响力原则可及性原则时间原则(胡开宝,2011:45-46)质量原则专业分类原则,6,2)语料选取原则与操作标准,原文与译文呈一一对应关系;原文应具备一定的文笔表现力;译文应符合所在国的阅读习惯和表述要求,同样具备一定的文笔表现力,而且该译文是经过认可的;按专题模块汇集语料,使语料文本具有同质性;选用具有代表性的语料文本;所选用的每一篇语料文本都是一个完整的单元。,7,2)语料选取原则与操作标准,例如:英汉医学平行语料库以图书、论文、报告为主,专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。,8,3)语料库规模,BNC(BritischNationalCorpus):超1亿词COCA(CorpusofContemporaryAmericanEnglish):4.5亿词DWDS(DasDigitaleWrterbuchderdeutschenSprache):25亿词,9,3)语料库规模,北外汉英对应语料库:3000万字词中国法律法规汉英平行语料库:2200万字词莎士比亚戏剧英汉平行语料库:600万字词英汉医学平行语料库:1000万字词英汉科普平行语料库(郭鸿杰):1000万字词中国英汉平行语料库(王克非):1亿字词,10,3)语料库规模,应用于翻译实践的语料库规模究竟要多大?,11,4)语料句对齐标准,学术研究翻译实践句子单位,12,4)语料句对齐标准,英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。一般以句号、分号、问号等为分句标记,但总有例外情形存在。这里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元,中文语句与之相应匹配。,13,5)语料库的制作,WORDPDF纸质版其他格式,14,5)语料库的制作,语料的降噪处理:公式、表格、图片“纯”文本,15,5)语料库的制作,对齐工具:WinAlignParaConcAbbyyAligner等等自行开发TMX-ParaConV,16,5)语料库的制作,保存格式:例如TMX,TXT目的在于多用途,17,5)语料库的制作,TM库的制作:1)Word格式(WinAlign,AbbyyAligner)2)Xliff格式(新建记忆库、更新记忆库等)3)Excel格式(2007版或之前版本,2009版或之后版本)TMXEditor,18,5)语料库的制作,19,5)语料库的制作,制作语料库的有效方式:ABBYYAligner+自编软件+ParaConc等,20,6)数据挖掘,使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频排序进入双语界面进行检索查询:ParaConc或Trados记忆库界面,21,6)数据挖掘,22,6)数据挖掘,专业通用词(GeneralWordsforSpecificPurposes)法律(action,award,damage)医学(normal,management)海洋工程(high,sea),23,6)数据挖掘,Article14Anti-DumpingActiononBehalfofaThirdCountry第14条代表第三国的反倾销诉讼(action=lawsuit)Hewasawarded$500damagesforinjuryhesufferedintheaccident.(award非“奖励”,是“法定裁定”)(damage非“损坏”,是“赔偿金”),24,6)数据挖掘,Liverfunctiontestsgavenormalresults.肝功能检验均无异常发现。normalsaline生理盐水,25,6)数据挖掘,Diseasemanagementisanapproachtocoordinateresourcesacrossthehealthcare.疾病管理是一种协调医疗卫生系统资源的手段。Themortalityrateofpatientswithnochangeintheirantibioticmanagement抗生素治疗未改变的患者死亡率,26,6)数据挖掘,ThelegalstatusofthewatersbeyondtheterritorialseasofStatesborderingstraitsasexclusiveeconomiczonesorhighseas海峡沿岸国领海以外的水域作为专属经济区或公海的法律地位inhighseastatescanleadtolow-cyclefatigueinthepipe在狂浪海况下可导致管道产生低周期的疲劳应力,27,7)翻译教学,一、自主学习:工具:WordSmith,ParaConc,Trados记忆库语料库:英汉双向法律平行语料库,28,7)翻译教学,二、翻译质量控制1.72术语确认和检索搭配检索,29,7)翻译教学,三、译文文笔翻译能力法律=医学=海洋工程适应面语料库库容,30,8)翻译研究,语料库翻译学定义(胡开宝,2011):以语料库为基础,以真实的双语语料和翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究,31,8)翻译研究,翻译共性:普遍性特征译者风格:译者在语言应用上所表现出的特体特征翻译规范:译者在选择翻译策略时应遵循的规范,32,8)翻译研究,例如,显化与隐化显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以明确的表述表达出来,以方便读者理解。隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐含于具体语境中。形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递增。,33,8)翻译研究,翻译实践研究,34,9)语料的版权,用于研究的语料例如,香港城市大学用于公开发布的语料公司语料,35,10)语料的质量,出版级别语料机器翻译语料网络爬虫语料,36,10)语料的质量,好翻译的定义:译文完全转化了原文的含义、表述简洁、易于理解,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,同时资深译员在译文校订以及专业审读在译文审读时都认为译文已无需任何修改。,37,11)语料库与翻译创造力,KirstenMalmkjr语料库与译者培养外研社2007,38,11)语料库与翻译创造力,语料库的使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论