汉英机器翻译中的知识库系统建设.ppt_第1页
汉英机器翻译中的知识库系统建设.ppt_第2页
汉英机器翻译中的知识库系统建设.ppt_第3页
汉英机器翻译中的知识库系统建设.ppt_第4页
汉英机器翻译中的知识库系统建设.ppt_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉英机器翻译中的知识库系统建设,刘化冰 国家知识产权局知识产权出版社 liuhuabing 2008.11,我们的梦想,真正的“傻瓜式”专利检索,跨越一切语言障碍,专利信息技术的新发展,机器翻译 亚洲语言 欧洲语言 跨语言检索 语义检索,专利信息技术在中国的新发展 汉英专利机器翻译系统于2008年开通。 基于词典的中国专利跨语言检索已 经实现,用户可以使用英文关键词检 索中国专利全文。 专利语义检索的原型系统已经出现。 知识产权出版社,汉英机器翻译面临的问题,不断提高翻译质量 RBMT or SBMT or ? 原文分析的优化 可信度评价 面对未来挑战,知识库建设是未来发展的重要基础。,机器翻译中的知识库建设,海量双语语料库,术语库& 双语词典,翻译模板库,翻译记忆 术语抽取 统计机器翻译,科技术语翻译 原文分析 可信度评估,基于特定语法规则的翻译,海量双语语料库,目标 超过四千万的句对齐语料库 资源 大约40万件同族专利 专利名称,文摘 非专利名称,文摘 数据标准 XML格式,构建双语语料库的工作流程,语料采集,数据加工,语料库组织管理,原始数据,格式、噪音处理,数据清理、标注,自动对齐,对齐检查,加工完成数据,双语语料库,索引,术语库 & 双语词典库,现有词典的问题 词汇量有限,特别是短语 缺少相关性因子 目标 从专利文献中提取更多的科技术语和短语(现档和过档) 方法 新词发现 相关性分析 翻译等价物挖掘,新词发现和相关性分析,文本输入 (原始文献, 双语语料库),分词引擎 A,分词引擎 B,分词引擎 C,按照最大长度提取术语和词组,频度统计,同义词分析,相关度分析,现有词典过滤,增加领域信息,新词挖掘,人工检查,术语库,翻译等价物挖掘,术语库,翻译等价物挖掘,人工检查和翻译,网上检索,从语料库抽取,自动构词,吸引 attract vt. 可被吸引的 attractable adj. 保存 preserve vt. 可保存的 preservable adj. 调整 v. n. 装置 n. 调整装置 ving+n Adjusting Device,无线通信网上提供实时分组话音和数据服务的方法和装置 METHOD AND APPARATUS FOR PROVIDING REAL-TIME PACKETIZED VOICE AND DATA SERVICES OVER A WIRELESS COMMUNICATION NETWORK Existing Dictionary 无线通信网 wireless communication network 数据服务 data service Candidate 分组话音 packetized voice,声码器 Google VoIP语音编码器- Voip 技术应用- IXPUB技术博客- Powered by X-Space 声码器(vocoder)不会再生原始波形。这组编码器会提取一组参数,这组参数被送到接收端,用来导出 . 根据合同,该公司帮助翻译国家安全局所截获的情报中的一些信息。 CNKI vocoder(187) sounder(3) speech vocoder(6) Iciba 【计】 vocoder 【化】 vocoder,翻译模板库,一种A,由B和C组成,其特征在于 A kind of A, composed of B and C, characterized in that / characterized by 一种A,包括/包括有B和C, 其中: A kind of A, including/comprising B and C, wherein: 一种A,其具有一带B的C, A kind of A, having a C with B 一种A,包括一用于V+N的B, A kind of A, including a B used for V-ing the N. 根据权利要求X所述的A,其特征在于, A as stated in Claim X, characterized in that / characterized by 根据权利要求X的A,其特征在于所述B为一+ADJ+的+C, A according to the Claim X, characterized in that B is the C that 如前述权利要求中任一项所述的A,其特征在于, A stated in any aforesaid claim, characterized by,应该理解,下面的描述只是本发明的原理的示范,不应该被认为是缩小了遵循的权利要求。 因此本发明目的是在于覆盖落入本发明的权利要求以及它们的等价内容的范围内的修改和变化。 因此,本发明旨在覆盖在所附权利要求等的范围内提供的本发明的修改和变化。 以下本发明优选实施例的描述实质上仅为示例作用,并不用于限制本发明及其应用或使用。 本公开不应限于 因此,本公开不应限于采用的光学元件类型。 本发明不受到将微观结构_30_制作在透明材料中的特殊的结构或方法的限制,而且也不受到将这些结构最初制作在主基体或次基体中的特殊过程所限制。 因此,本发明的精神和范围应广义理解且仅由附属权利要求而不是由前面的说明书限定。 因此,本发明打算仅受限至由后附权利要求书及可应用规程的规则和原理所要求的程度。 因此本发明的实施方案和实例只是说明性的而不是限制性的,本发明的范围由下面的权利要求给出而不是前面的描述给出,在权利要求的范围之内的所有变化都属于本发明。 在权利要求的范围之内的所有变化都属于本发明。,机器翻译流程中的知识库系统,Patent Input,Morphology Analysis,Part-of-speech Tagging,Pre-processing,Phrase Analysis,Syntax Analysis,Grammar Analysis,Conversion,Syntax Analysis,Structure Selection,Terminology Selection,Format conversion,Output,Rule & Template Base,Dictionary 1,IPC-driven Dictionary,Dictionary 2,Dictionary 3,Dictionary 4,Parallel Corpus,TM SBMT,RBMT,自动可信度评估,匹配率 模板匹配 语料库匹配 原文分析 缺失片段 歧义分析 译文分析 句法和语法分析,知识库在专利检索中的应用,跨语言检索 相关性匹配 语义检索 概念挖掘 相关性分析,照明设备lighting element Related concept 照明设备、照明装置、照明仪器 lighting element; lighting device; lighting equipment; lighting set,机器翻译: 自然语言处理;词法;语言模型;目标语言;语言规则;机器翻译系统;源语言;对句;译文; 词法;自然语言; 语言现象;汉语文本; 语言同义;语料库;语料库数据 computational linguistics;natural language;web search;data engineering; first international workshop;k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论