中国科学院研究生院.doc_第1页
中国科学院研究生院.doc_第2页
中国科学院研究生院.doc_第3页
中国科学院研究生院.doc_第4页
中国科学院研究生院.doc_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 TP3 密级 UDC 编号 中中国国科科学学院院研研究究生生院院 硕硕士士学学位位论论文文 基于 Web 的大规模双语平行语料库 自动获取技术研究与系统实现 叶莎妮 指指导导教教师师 刘刘 群群 研研究究员员 中中国国科科学学院院计计算算技技术术研研究究所所 申申请请学学位位级级别别 工工学学硕硕士士 学学科科专专业业名名称称 计计算算机机应应用用技技术术 论论文文提提交交日日期期 2 20 00 08 8 年年 4 4 月月 论论文文答答辩辩日日期期 2 20 00 08 8 年年 6 6 月月 培培养养单单位位 中中国国科科学学院院计计算算技技术术研研究究所所 学学位位授授予予单单位位 中中国国科科学学院院研研究究生生院院 答答辩辩委委员员会会主主席席 声声 明明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不 包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名: 日期:2008.4.12 论论文文版版权权使使用用授授权权书书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或 机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以 将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编本论文。 (保密论文在解密后适用本授权书。) 作者签名: 导师签名: 日期:2008.4.12 摘 要 I 摘摘 要要 大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大 量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、 时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了 目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还 有一定的距离。本文致力于构建一个基于 Web 的大规模双语平行语料库自动 获取平台。取得主要成果有以下几方面 : 1.研究了双语平行资源在互联网上的存在形式并探索了 相应的获取方法 互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的 互联网文本进行处理,从而获取所需的特定双语平行的语料库。 因此需要定 义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个 有效的入口,来获取我们关心的 Web 资源。以往的系统都致力从一些双语网 站中获取互为翻译的双语网页对。但是 通过观察,我们发现在 Web 上双语平 行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中 。 本文对这两种资源都定义了有效的启发式信息,从而 很好地解决了大规模数 据的来源问题。 2.提出了基于 URL 命名相似性的双语候选网页获取算法 网络作者在进行双语平行网页 URL 命名时往往具有一定的规律性,两个 URL 之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节 需要预先定义在 URL 命名中常见的与特定语种相关的前后缀表。本文提出了 一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规 律的方法,不再依赖预定义。 实验表明,本文的方法不仅可以发现所有常见 的 URL 命名规律,而且还可以找出不同的网页编辑者带个人特色的 URL 命 名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估 与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行 网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。 3.改进了双语平行句对抽取技术 双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双 语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出 任何一本双语词典的范围。这些 都造成了对双语平行网页进行句子对齐的难 度。以往的系统在这方面研究都是利用双语平行网页在其 HTML 结构上的相 似性,但是很少双语平行网页在 HTML 结构上是完全一致的,其中的噪声很 大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行 摘 要 II 句对的抽取技术,不仅可以利用双语平行网页 HTML 结构相似性这一优点, 而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好 的效果。 最后,我们实现了上述三个方面的技术,搭建了一个可以持续获取大规模 的双语平行语料库的平台。 关关键键词词: 双语平行语料库,网页挖掘,双语平行句对,统计机器翻译 摘 要 III The Research and System Implementation of Automatic Acquisition of Large- scale Bilingual Parallel Corpus from Web Ye Shani Directed By LIU Qun There are great difficulties in accessing and building large-scale bilingual parallel corpus. Although a lot of manpower, material and financial resources have been spent on building bilingual corpus, the existing bilingual corpus still can not meet the need of processing real text because of small scale, poor timeliness and un-balance of domains. In addition, it also indirectly limits the development of the current statistical machine translation technology. This thesis focuses on building a platform to obtain large-scale bilingual parallel corpus automatically. The research results of the paper can be summarized as follows: 1.Exploring the forms of the bilingual parallel resources on Internet and the corresponding obtaining methods. There are massive multilingual text resources on the Internet, and no single method can deal with all kinds of multilingual texts on the Internet. Therefore we need to define heuristic information to obtain the web resources which we concerned. The previous systems are all devoted to obtain bilingual parallel web pages from some bilingual web sites. However, we find that parallel bilingual resources may exists not only in two parallel monolingual web pages, but also are contained in a single bilingual web page. In this paper, we defined effective heuristic information for these two kinds of resources, thus find a way to obtain more bilingual data. 2.proposing a algorithm to discover URL patterns automatically and improving URL-pattern-based mining scheme Website authors usually follow some rules in naming parallel bilingual webpages. These URLs only differ in substrings which are associated with languages. The previous work uses pre-defined URL patterns to discover candidate parallel documents within the sites. We present an algorithm which can find URLs naming templates automatically, which no longer relies on pre-defined. Experiments show that our method can not only discover all pre-defined URL patterns, but also can mine author-defined patterns, Thus improves the coverage of web mining. 3.Improving bilingual parallel sentence extraction Web pages may consist of non-translational content and out-of-vocabulary 摘 要 IV words, both of which reduce sentence alignment accuracy and increase the difficulties. To improve sentence alignment performance on the web data, the similarity of the HTML tag structures between the parallel web documents may be helpful. Due to the noisy nature of web page,only using the similarity of the HTML tag structures will not work well. This thesis presents a parallel sentences collection model which not only focuses on the similarity of the HTML tag structures, but also use content-based features. Finally, we build a platform to mine large-scale parallel bilingual corpus from web automatically. Keywords: Bilingual Parallel corpus, Web Mining, Bilingual parallel Sentences, Statistical Machine Translation 目录 V 目目录录 摘摘 要要I 目目录录.V 图图目目录录 .IX 表表目目录录.X 第第一一章章 引引 言言11 1.1 概述 11 1.1.1 研究背景 11 1.1.2 国内外研究现状分析 .12 1.1.3 现有系统介绍与比较 .14 1.2 主要研究目标和内容 .16 1.2.1 研究目标 .16 1.2.2 研究内容 .17 1.3 论文组织结构 .17 第第二二章章 基基于于 WEB 的的双双语语平平行行语语料料库库获获取取的的总总体体架架构构 .18 2.1 基本流程18 2.2 任务分析与界定 19 2.2.1 双语候选资源获取与预处理 .19 2.2.2 双语候选网页获取 .20 2.2.3 双语平行网页获取 .20 2.2.4 双语平行句对抽取 .20 2.3 本章小结21 第第三三章章 双双语语候候选选资资源源获获取取与与预预处处理理 .22 3.1 研究现状.22 3.2 网页间平行语料获取途径 .22 3.3 网页内部平行语料获取途径 23 3.3.1 基本思想 23 3.3.2 可行性评估实验.23 3.4 网页解析与去噪声 24 3.4.1 网页内容解析.24 3.4.2 去噪声处理 24 3.4.2 网页语种识别与编码转换 .25 3.5 本章小结.25 第第四四章章 双双语语网网页页 URL 命命名名模模板板的的自自动动发发现现 .26 4.1 相关研究.26 4.2 双语平行网页 URL 命名模板的抽象与定义方法 .27 4.2 双语平行网页 URL 命名模板的自动发现算法 .29 目录 VI 4.3 获取具有 URL 命名相似性的双语候选网页算法.31 4.4 实验与分析.32 4.4.1 数据描述与实验设置 .32 4.4.2 实验结果 32 4.5 本章小结.33 第第五五章章 双双语语平平行行网网页页获获取取.34 5.1 相关研究.34 5.2 基于最大熵分类器的双语平行网页获取 35 5.2.1 最大熵分类器.35 5.2.2 特征抽取 36 5.2.3 模型训练 38 5.3 实验与分析.39 5.3.1 数据描述与实验设置 .39 5.3.2 实验结果 39 5.4 本章小结.39 第第六六章章 双双语语平平行行句句对对抽抽取取.40 6.1 相关研究.40 6.2 双语平行句对抽取模型 .41 6.2.1 模型基本思想.41 6.2.2 生成双语候选句对集合 .41 6.2.3 特征抽取 42 6.2.4 分类与后处理过程 .44 6.3 实验与分析 44 6.3.1 数据描述与实验设置 .44 6.3.2 实验结果 44 6.4 本章小结.45 第第七七章章 双双语语平平行行语语料料库库自自动动获获取取平平台台 (PPSM)系系统统实实现现.46 7.1 主要进程介绍 46 7.2 进程间的数据传递 47 7.3 系统性能介绍 47 7.4 系统成果48 7.5 本章小结48 第第八八章章 总总结结49 8.1 总结 49 8.2 下一步工作.50 附附录录一一 网网页页间间平平行行资资源源-锚锚文文本本列列表表52 附附录录二二 网网页页内内部部平平行行资资源源-锚锚文文本本列列表表 53 附附录录二二 HTML 特特殊殊字字符符转转换换表表 54 附附录录三三 可可处处理理的的网网页页文文件件类类型型 .55 目录 VII 参参考考文文献献56 致致 谢谢 .59 作作者者简简历历60 图目录 IX 图图目目录录 图 1- 1 URL 的 pathname 与 basename 示例 .15 图 2- 1 基本流程图 .18 图 4- 1 一对具有命名相似性的中英网页的 URL26 图 4- 2 模板发现算法流程图 30 图 4- 3 基于 URL 命名相似性的双语候选网页获取算法流程图 31 图 5- 1 词语对齐示例 .34 图 5- 2 STRAND 系统中的 HTML 对齐结果 .34 图 5- 3 对齐 HTML 标记序列的结果示例 .36 图 5- 4 词语对齐结果示例38 图 6- 1 原始 Dom Tree 和转化后的 Dom Tree.40 图 6- 2 带 HTML 首尾标记的句子序列 42 图 7- 1 系统进程图 .46 图 7- 2 进程间数据传递与通讯示意图 47 表目录 X 表表目目录录 表 1- 1 现有系统的差别 16 表 4- 1 应用模板的四种动作 29 表 4- 2 算法 4- 1 中的主要函数介绍 30 表 4- 3 比较实验结果 .32 表 6- 1 一般文本特征 .42 表 6- 2 词语对齐相关特征.43 表 6- 3 网页结构特征 43 表 6- 4 示例43 表 6- 5 特征组合实验 45 表 7- 1 系统三大模块的功能 .46 第一章 引 言 11 第第一一章章 引引 言言 1.1 概概述述 1.1.1 研研究究背背景景 随着各国间政治、经济、文化等方面的 交流愈来愈频繁、紧密,对世界 各国语言间自动翻译需求变得日趋紧迫 。随之而来,对于机器翻译的研究也 进入了空前高涨的时期,尤其是近些年兴起的统计机器翻译,吸引着世界各国 研究者的目光。而目前的统计机器翻译的发展,由于其对大规模平行语料库 的依赖,还主要集中在平行语料库相对容易获得的英法( Canadian Hansards),英汉等语言之间。而且就目前来说,平行语料库的获取途径有很 大的限制,主要集中在国际上大型会议的会议记录( 例如 United Nations proceedings),宗教文本1,以及软件本地化的说明文档等 。由于获取途径 的限制,即使像英语,汉语,法语这些常用的官方语 言间的对照语料,得到 的平行语料库就算是有一定的规模,也多半都是很不 平衡的,主要都是政府 性或新闻性的题材,其他专业领域的平行语料库则少之又少,至于其他一些国 际上不常用的语言间的平行语料库,即使是这种非平衡的资源也很难获得 。 而对于统计建模来说,大规模的语料是研究的基础,正所谓 “More data are better data”2。 近年来,互联网的普及与迅猛发展,提供了 大量而丰富的电子信息。 2005 年仅 Google 网站公布的网页搜索量就已经超过了 80 亿。由于国际化的 需要,越来越多的网站成为双语网站,越来越多的网上信息以多语言的形式发 布,这就为双语和多语语料库提供了很大的来源。互联网是一个取之不尽,日 益增长的信息源,因此是一个潜在的巨大的多语种语料库。研究有效的方法从 互联网上自动挖掘这些海量的、真实的双语文本(即基于 Web 的双语语料库 挖掘),无疑是解决双语语料库建设和翻译知识获取难题的有效途径。 从应用上看,由于世界经济一体化趋势的发展和互联网应用的不断深入, 市场对机器翻译和跨语言信息处理的需求也更加迫切。著名的搜索引擎 Google 和 Yahoo 等都集成了机器翻译的功能。跨语言信息检索也成为其搜索 引擎发展的一个重要方向,这些都意味着跨语言信息处理在主流的互联网的应 用中已经占据了一席之地。此外,美国政府由于反恐的需要,欧盟为适应欧盟 扩大的需要,也都对机器翻译和跨语言信息处理研究非常重视。因此,采取有 效的措施推进机器翻译和跨语言信息处理研究的实用化具有重要的价值。 第一章 引 言 12 随着国际化交流的日趋频繁,如何消除人们之间的语言文 字障碍已经成 为二十一世纪的热点问题。研究有效的大规模双语资源库构建及翻译知识自动 获取技术对于推进机器翻译、跨语言信息检索等研究的实用化具有重要的意义。 1.1.2 国国内内外外研研究究现现状状分分析析 双双语语语语料料库库建建设设 双语语料库的建设和应用研究得到了国内外研究者的广泛重视。国际上已 经出现了为数不少的大规模双语语料库,如加拿大的议会会议录 (Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料的研究都 是在该语料库基础上进行的。在汉外双语语料建设方面,香港立法委员会的会 议录(HongKong Hansards),香港法律(HongKong Laws),香港新闻 (HongKong News),新华社新闻(Xinhua News)等是国际上广为应用的汉英 双语语料库。可以看到,这些语料库主要集中在政府文件和新闻法律等特殊领 域,双语语料库的这种领域不平衡性在一定程度上限制了相关研究在面向真实 文本时的实际应用水平。虽然国内在双语语料库建设方面起步较晚,但是近年 来相关研究得到了许多研究机构的重视,也取得了比较可观的进展。如北京大 学计算语言学研究所开发了服务于新闻领域机器翻译的 Bable 汉英双语语料 库。Bable 语料库历时约 3 年时间实现了 20 万句对齐(Sentence Alignment) 汉英双语语料库的采集和标注,是目前报道的具有详细标注规范、规模最大的 语料库之一。其它规模较大的双语语料库包括中科院计算所开发的用于机器翻 译评测 20 万句对齐的汉英双语语料库;中科院自动化所开发的 14 万句对齐 的汉英双语语料库;哈尔滨工业大学的 10 万句对齐的汉英双语语料库等。此 外,中科院软件所,清华大学,东北大学,南京师范大学,国家语委等单位也 建立了一定规模的汉英双语语料库。北京大学还建立了 2 万句对齐的汉日双 语句对齐语料库。对于其它语言的汉外双语语料库的报道还不多见。目前关于 双语语料库的建设和研究主要侧重于语料库的对齐加工标注,多级自动对齐技 术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技术,而对大 规模原始双语语料库的系统性构建这一前提性工作却关注较少。目前报道的双 语语料库主要来源于电子版书籍或报刊的双语文本,部分来源于互联网上的双 语文本,而在语料库的搜集和处理上大多依赖于人工挑选和判定。这种原始语 料库的获取方式大大限制了双语语料库的建设效率,制约了双语语料库在规模、 领域、语言对上的快速扩展,更是难以达到时效性的要求。各研究单位的中小 规模重复建设也消耗了大量的人力、物力和财力。因此,研究高效的,支持大 第一章 引 言 13 规模、多领域,可持续发展的双语资源库建设方案对于减轻人工搜集双语语料 库的困难,推动相关研究发展具有重要的实际意义。 基基于于 Web 的的双双语语平平行行资资源源自自动动获获取取 近几年来,基于 Web 的翻译信息获取研究开始引起研究者的关注。目前 研究大多集中在翻译词典获取方面,如基于 Web 的命名实体翻译,未登陆词 翻译,术语翻译,短语翻译获取等。国内在这方面的相关报道,如上海交通大 学的原双庆等研究了基于 Web 的多语翻译词典获取方法;富士通研究院方高 林研究了基于 Web 的术语翻译的获取方法;赛迪集团推出的新一代英汉双向 翻译系统中也采用了 Web 词典技术,等等。在基于 Web 的双语网页获取方 面,也有一些研究者进行了初步的探索,其中比较著名的研究是加拿大蒙特利 尔大学的研究者聂建云开发的系统 PTMiner3(Parallel Text Miner)和美国马里 兰大学的研究者 Resnik 开发的系统 STRAND4-5(Structural Translation Recognition, Acquiring Natural Data)。他们所用的挖掘方法都是和具体的语言 本身的一些知识和特性无关的,而是基于对 Web 文档的结构(structure- based)分析来完成挖掘的,也就是说,用他们的方法可以挖掘 Web 上任意 语言对之间对应的平行语料库。他们的共同特点是利用现有的搜索引擎和双语 网站中的语言标志作为启发式信息(如网站中的 “English Version”,“in English”等)来获取候选双语平行(Parallel)网站,利用网页 URL 地址的相似 性(如 file_e.HTML 和 file_c.HTML)来获取平行网页,只是在具体的实现上稍 有差异,像 Resnik 在 URL 匹配时采用了功能强大的正则表达式匹配,而聂建 云他们则只列举出了一些简单的文档的前后缀来完成。还有另外一种挖掘方法, 在网页的采集阶段是基于结构的,但是在对采集下来的网页进行双语文本对齐 时则使用了一部大词汇量的双语词典,用于计算挖掘出来的网页间内容的相似 度,从而决定两个 Web 文档是否互为翻译,这种方法称之为 Context- based(基于内容的),用这种方法实现的一个代表性系统是 BITS6(Bilingual Internet Text Search, Ma and Liberman 1999)。而 BITS 系统其实就是基于 STRAND 系统做出来的,它利用 STRAND 系统将潜在的候选网页下载下来, 然后利用自己的方法进行对齐,这种方法加入了一定的语言相关的知识,对齐 的质量也有所提高。国内在基于 Web 的双语网页和双语语料库方面的研究还 相对较少,香港城市大学的研究者探索了从特定双语网站 (e.hk)上获取香港法律双语语料库的方法,取得了初步进 展。这些研究为双语资源库的自动构建提出了新的思路,证明了 Web 用于双 语资源和翻译知识获取的可行性和重要价值。 目前这些工作还存在着一些不 足,需要进一步的研究和探索。目前大部分研究还只是实验性系统,获取双语 第一章 引 言 14 网页的规模小,还没有真正用于到大规模双语资源库建设中,并且获取句子级 双语平行语料库的研究还处于初步阶段,获取得到的双语句对的互翻译效果也 不尽理想。 1.1.3 现现有有系系统统介介绍绍与与比比较较 在基于 Web 的双语平行资源自动获取方面目前已有一个相对可行的获取 方案,国内外也出现了一系列的原型系统,接下来将详细介绍几个著名的系 统,并对其采用的技术与性能加以比较。 PTMiner 加拿大蒙特利尔大学的研究者聂建云开发的系统 PTMiner(Parallel Text Miner)。通过搜索引擎查找含有特定锚文本的网站构 成双语候选网站,再依赖预先定义的 与语种相关的前后缀表,抽取出具有 URL 命名相似性的候选网页即如果某一 URL 含有一种语言的前后缀,则将这 些前后缀替换为另一种语言的,构建出一个 URL,如果这样构建出来的 URL 存在。则找到了一对候选网页对,最后再根据文本长度,网页的 HTML 标记 结构,网页的语言等特征过滤掉候选网页中不平行的网页对。 PT Miner 系统 在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近 90%的准确率。获取到的英文文本有 137M,中文文本有 117M。 STRAND 美国马里兰大学的研究者 Resnik 开发的系统 STRAND(Structural Translation Recognition, Acquiring Natural Data)也是利 用搜索引擎和锚文本信息得到双语候选网站。同 PT Miner 相比,STRAND 在利用 URL 命名相似性来查找一个网站内的候选网页对时,采取在中、英 URL 中删去预先定义与语言相关的字符串的方式,如果去除语言相关的字串 后,中、英 URL 相等,则说明当前的中英 URL 是一对双语候选网页。此外, STRAND 更加深入的研究了平行网页在结构上具有的相似性,采用了 一系列 基于网页结构的特征来过滤掉 双语候选网页中不是互为翻译的网页对。人工 评估了大约 400 对的中英平行网页对,取得了 98%的准确率和 61%的召回率。 STRAND 系统获取到大约 3,500 对中英平行网页。 BITS BITS(Bilingual Internet Text Search),这个系统 content_based 的方式来获取中英平行网页。首先下载指定域名下的所有网站 作为候选网站,然后定义了 中英网页内容之间相似度的计算方式即 计算互翻 译词占文本总词数的比例, 最后为每个中文网页选择相似度最高的英文网页 来构成来中英平行网页对。 PTI7 澳大利亚莫纳什大学陈纪淞等人开发的 PTI(The Parallel Text Identification System)通过网页采集器下载已知双语网站中大量的双语网页之 后,通过以下两个步骤来获取平行网页对。 首先通过了文件名比较模型即根 第一章 引 言 15 据 URL 命名的相似性来得到双语平行网页对 (原理同 PT Miner),然后对剩下 的不具备 URL 命名相似性的中英网页通过一个文件内容分析模型 (定义了计 算网页文本内容之间的相似度计算方式,类似 BITS),抽取出互为翻译的网 页对。整合两个步骤得到的结果就得到了 双语平行的网页对。PTI 系统总共 获取到 193 对的中英平行文本,其中 180 对是正确的,正确率为 93%,召回 率为 96%。 WPDE8 亚洲微软研究院的吴克等人开发的 WPDE(Web Parallel Data Extraction)在利用搜索引擎获取候选网站时,不仅利用了锚文本还采用 了图片的 ALT 信息。在根据 URL 命名相似性获取候选双语平行网页对时, 采用将 URL 分成 pathname 和 basename,如图 1- 1 所示: /newsroom/zh/field/2005/index_c.html 图 1- 1 URL 的 pathname 与 basename 示例 其中 pathname 的配对查找上也利用预先定义的启发式字符串,在具体的 查找时定义了一些匹配规则; basename 的查找配对则不同于前面系统采用的 基于预先定义的字符串形式,而是基于改进的最小编辑距离算法。 经过实验 证明这种处理方式取得了更好的效果。 双语候选网页对的过滤环节除采用了 文本长度,网页 HTML 结构等特征,还引入了一个基于网页内容的特征即双 语候选网页文本的句子对齐效果。在同 PTI 同样的测试集合上,WPDE 系统 取得了 97%的正确率与 94%的召回率。 可见,目前已有很多系统在这个领域做了很多引导性的工作,研究了一套 切实可行的流程来获取双语平行网页,并且普遍都取得了很高的准确率 和召 回率。但实际应用中双语平行句对发挥着更大的作用,目前已有的系统在对双 语平行网页文本进行句子对齐,抽取双语平行句对的工作进展的还不是很顺利。 主要由于以下几个方面的原因: 1.已有的句子对齐模型都是针对普通的互为翻译文本 而设计的 2.平行网页文本中除了互为翻译的内容,还存在一些无关的噪声 3.网页中存在很多超出双语词典范围的词汇 这些原因无疑都增加了句子对齐的难度,同时也降低了准确率。可喜的是, 网页文本拥有普通文本不具备的 HTML 标记结构,并且双语平行网页的 HTML 标记结构往往是有相似性的,基本上是一致的结构。所以现有系统在 这个环节所采取的方法都是 先利用 Unix 提供的 diff 工具对两个网页的 HTML 标记序列进行对齐。那么处于两对互相对齐的 HTML 标记之间的文本, 第一章 引 言 16 也可以看作是互相对齐的,很可能是一对互为翻译的双语句对,根据这个假设 就可以抽取出双语平行句对。 这些系统的具体差别如表 1- 1 所示: 表 1- 1 现有系统的差别 系统双语候选资源 获取 候选网页获取平行网页获取平行句对获取 特征:HTML 结构特征 分类器:判决树 STRAND定义锚文本信息, 通过搜索引擎获 取双语候选网站 利用预定义的与 语种相关的前后 缀,再利用 URL 命名相似性 准确率:98% 召回率:61% 对一对双语平行网 页的 HTML 标记 序列进行对齐,从 而得到了双语平行 句对 特征:文本长度, HTML 结构,语种等。 分类器:线性分类器 PT Miner同上同上 准确率:近 90% 同上 特征:文本长度, HTML 结构特征,双语 网页之间互相对齐的句 子所占的比例 分类器:K 近邻 WPDE定了锚文本和图 片 ALT 信息, 再通过搜索引擎 获取双语候选网 站 利用 URL 命名相 似性,但做了改 进,对 URL 的 pathname 和 basename 分别进 行处理准确率:97% 召回率:94% 无 BITS下载指定域名下 的所有网站 定义了网页文本内容之间的相似度计算方 式即互翻译词占文本总词数的比例,为每 个网页找到与之相似度最大的另一语种的 网页,构成一对双语平行网页 无 先利用类似 STRAND 中的方法; 再利用类似 BITS 中的方法对剩下网页配对 PTI从指定网站中下 载大量的网页 准确率:93% 召回率:96% 无 1.2 主主要要研研究究目目标标和和内内容容 1.2.1 研研究究目目标标 目前这些工作还存在着一些不足,需要进一步的研究和探索。首先,在资 源获取的规模上,目前大部分研究还只是实验性系统,获取双语网页的规模最 多也只有 1 万对左右,还没有真正用于到大规模双语资源库建设中,其次, 在现有的获取技术方面尽管现有系统在基于 Web 获取双语语料时取得了不错 的效果,但仍存在以下不足: 第一章 引 言 17 1.现有的所有系统在利用 URL 命名相似性得到双语候选网页 时都需要 依赖预定义的与特定语种相关的字符串集合,只能处理一些最常见双 语平行网页 URL 的命名方式,但是每个网站作者都有各自的风格 , 很难进行统一。可见,采用这种方法是很受局限的 。 2.由于网页资源本身的噪声很大,仅仅依赖双语平行网页 HTML 结构 来获取双语平行句对并不能取得一个理想的效果。 3.双语文本资源的来源主要集中于双语平行网页对中(我们称之为“网 页间平行资源”),但是有相当一部分高质量的双语 平行文本存在于 双语对照的一个网页中(我们称之为“网页内部平行资源”)。 本论文希望能够研究并改进一些相关的技术 来解决上述系统普遍存在的三 个问题,最后建设一个原型系统以实现获取大规模的双语平行语料库的目标。 1.2.2 研研究究内内容容 语料库的建设是统计学习方法的重要基础,本课题的一个研究 的总体目 标就是促进语料库建设的自动化。 本论文的研究工作主要集中在以下三个方面: 1.研究深入挖掘互联网中双语平行资源的存在形式以及相应的获取方法, 并探索网页文本内容的解析方法与各种去噪声技术,为建设大规模的 文本级与句子级双语平行语料库提供前提 。 2.研究双语平行网页的获取技术,尝试利用双语平行网页在 URL 命名 时具有的特征来获取可能为互相翻译的双语网页对即双语候选网页, 再以最大熵原理为基础对双语候选网页进行分类,滤除伪平行的双语 候选网页,从而得到高质量的文本级双语平行语料库。 3.研究一种双语平行句对抽取技术,可以从双语平行网页中获取互为翻 译的双语句对,从而构建句子级的双语平行语料库。 以上内容将分别在后续的第三、第四、 第五和第六章中进行介绍。 1.3 论论文文组组织织结结构构 本文的组织结构如下:在第二章中介绍了基于 Web 的双语平行语料库自 动获取系统的总体架构和 任务定义;在第三章中介绍本文的 Web 数据获取途 径,并介绍网页解析方法和一系列的去噪声技术;第四章中介绍一个 双语网 页 URL 命名模板的自动发现算法的基本思想、实现算法以及与现有技术的比 较实验;第五章中介绍双语平行网页对获取模型的基本思想、采用的特征以 及实验结果;第六章中介绍双语平行句对抽取算法的基本思想、实现以及对 所选用的特征的介绍和实 验结果;第七章介绍了一个完整的双语平行语料库 自动获取平台(PPSM)的实现,第八章对全文进行了总结,并指出了下一步 第一章 引 言 18 的工作。 第二章 基于 WEB 的双语平行语料库获取的总体架构 19 第第二二章章 基基于于 Web 的的双双语语平平行行语语料料库库获获取取的的总总体体架架构构 2.1 基基本本流流程程 本文的工作就是在融合现有技术的前提下,从启发式信息出发,挖掘有用 的 Web 资源,进行解析与过滤,抽取我们关注的双语平行资源(包括双语平 行网页和双语平行句对)。 为建立一个自动的、可持续的大规模双语平行语料挖掘系统 (PPSM, the Platform of Parallel Sentences Mining),本文的研究工作所采取的方法的基本的 流程如图 2- 1 所示: B 搜索双语对照的页面 双语对照页面过滤 A 搜索双语候选网站 采集网页 双语候选网站 网页解析与去噪声 基于URL命名相似性 的双语网页 双语候选网页对 候选网页过滤 双语平行文本 双语句对抽取 双语平行句对 搜索引擎 图 2- 1 基本流程图 根据双语平行语料的存在形式可将 Web 资源分为两大类即中英平行文本 分别存在于两个中英平行的网页中和同一页面内的情形,我们分别称与之为网 页间平行资源与网页内部平行资源。如 图 2- 1 所示,图中虚线框 A 中,代表 从第一类 Web 资源中获取文本级与句子级双语平行语料库。以往的系统都致 力于从这类 Web 资源中挖掘双语平行资源,已有了一套切实可行的流程,具 体步骤如下所述: 1.根据锚文本信息,通过搜索引擎获取可能含有双语对照网页的网站,称为 “双语候选网站”。 2.采集双语候选网站中的所有网页。 3.对每个双语候选网站中的所有网页进行一系列的预处理去噪声并进行网页 解析处理。 4.根据双语平行网页在 URL 命名时往往具有一定的相似性这一特征,来获 第二章 基于 WEB 的双语平行语料库获取的总体架构 20 取可能互为翻译的双语网页对,称为 “双语候选网页”。 5.双语候选网页经过过滤器,滤除伪平行的双语网页对,得到真正平行的双 语网页对,称为“双语平行网页”,至此也得到“文本级双语平行语料库”。 6.从双语平行网页中得到其中互为翻译的双语句对,称为 “双语平行句对”, 至此就得到了“句子级双语平行语料库”。 本文在已有系统的基础上对基于 URL 命名相似性获取双语候选网页(即 步骤 4)和双语平行句对抽取算法(即步骤 6)进行了改进。此外,在双语候 选网页过滤环节(即步骤 5)上融合了现有系统的长处,取得了更好的效果。 而图中虚线框 B 中,代表着从第二类 Web 资源中获取句子级双语平行语 料库。这个过程最关键的是利用搜索引擎从 Web 上获取可能是双语对照的页 面,再经过过滤去除一些无用的页面,就可以利用本系统提供的双语平行句对 抽取工具得到句子级双语平行语料库。 2.2 任任务务分分析析与与界界定定 在图 2- 1 的基础上,本文将本课题工作具体分为四个主体任务:双语候 选资源获取与预处理、双语候选网页获取、双语平行网页获取和双语平行句对 抽取。接来下将依次对这个四个任务进行分析与内容界定。 2.2.1 双双语语候候选选资资源源获获取取与与预预处处理理 互联网上虽然存在着海量的多语言文本资源,但这同时也是一把双刃剑, 任何系统都无法将所有的互联网文本进行处理,从中取得所需的特定双语平行 的语料库。所以我们需要定义一种启发式信息来概括这类多语种平行文本存在 的共同特征,以此作为一个有效的入口,来获取我们关心的 Web 资源。我们 将可能含有双语平行信息的 Web 资源称为双语候选资源。那么本任务就可以 分为以下步骤: Step1.定义有效的启发式信息 Step2.通过现有的搜索引擎获取符合启发式信息的 Web 资源 Step3.定义双语候选资源应符合的语义,对搜索引擎返回的结果进行过 滤 Step4.利用现有的网络爬虫下载双语候选资源 Step5.对双语候选资源进行预处理,去除无关的噪声 这个过程必须是可持续的、源源不断的循环过程,并且要保证获取的双语 候选资源是不重复的,这样才能为后续的双语平行信息挖掘提供一个数据的基 本来源。 第二章 基于 WEB 的双语平行语料库获取的总体架构 21 2.2.2 双双语语候候选选网网页页获获取取 上一节中可以解决如何从一个海量的资源库中找到一个可靠的入口,采取 有效的方法来获取我们需要的数据,但是在一个既定的双语候选网站中,如何 获取可能是互为翻译的双语候选网页是本任务的关键。 我们需要定义一种方法,可以从一个双语候选网站的所有网页资源中快速 的找出可能为互相平行的双语网页即双语候选网页。这个环节以往的系统所采 取的方法有基于结构与基于内容互翻译两个方式。本文主要采取基于结构的方 法即利用双语平行网页的 URL 命名相似性这一特点。基于内容互翻译的策略 由于目前尚未有一个比较高效的网页相似度计算方法,本文的工作暂时不涉及。 文中,你实现一个算法可以完成以下步骤的内容: Step1.自动发现双语候选网站中存在的 URL 命名规律性 Step2.为这种命名规律性定义合适的形式表达方式即 URL 命名模板 Step3.定义 URL 命名模板的应用策略 Step4.搜索符合 URL 命名模板的双语候选网页 本算法致力于自动发现网站作者在一个双语网站中双语网页 URL 命名时 的规律,摈弃现有方法中对预定义的 URL 前后缀字符串的依赖,从而最大的 限度挖掘具有 URL 命名相似性的双语候选网页。 2.2.3 双双语语平平行行网网页页获获取取 上一节拟解决如何根据网 站编辑者在双语平行网页命名时的特点来找出 尽可能多的可能是互为平行的双语候选网页对,本节定义的任务就是如何从 双语候选网页中找出确实是平行的即互为翻译的,过滤掉伪平行的双候选网页。 拟采取的步骤如下所示: Step1.考察双语平行网页不同于其他非平行的双语网页对的特征,包括 结构上与内容互翻译上的特征。 Step2.定义各个特征的形式表达与相应的计算方式 Step3.选择合适的分类器完成双语平行网页对的抽取 Step4.分类器的训练 本任务致力于选择合适的特征来刻画双语平行网页所具有的特征,以区别 于不是互为翻译的双语网页,再选择一个高效的分类器对双语候选网页集合进 行分类,挑出其中确实互为翻译的网页对,构建文本级双语平行语料库。 2.2.4 双双语语平平行行句句对对抽抽取取 本任务的研究目的就是如何从一对互为翻译的双语网页中获取高质量的双 第二章 基于 WEB 的双语平行语料库获取的总体架构 22 语平行句对。但是网页文本不同于一般的文本,网页中可能含有一些乱七八糟 的字符,此外网页中出现的文本可能是一个独立的词、短语、句子、段落,这 些都对双语平行句对抽取工作带来了困难。已有的系统在本环节任务的处理上 结果都不尽理想,在本文中该任务定义如下: Step1.找出双语平行网页文本不同于普通平行文本的优点与缺点 Step2.为双语平行网页文本所具有的优点定义合适的特征与计算方式 Step3.为双语平行文本中互翻译句对的一般特点定义合适的特征与计算 方式 Step4.找到一个可以融合双语平行网页中互翻译句对的所有特点的方法 网页不同于普通的文本,现有的句子对齐模型并不适用从一对平行的中英 网页中获取中英平行句对。本模型致力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论