(计算机应用技术专业论文)可比较语料库的研究与构建.pdf_第1页
(计算机应用技术专业论文)可比较语料库的研究与构建.pdf_第2页
(计算机应用技术专业论文)可比较语料库的研究与构建.pdf_第3页
(计算机应用技术专业论文)可比较语料库的研究与构建.pdf_第4页
(计算机应用技术专业论文)可比较语料库的研究与构建.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)可比较语料库的研究与构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 平行语料库作为语料库的一种 在计算语言学和自然语言处理研究领域应用最多 最广泛 然而 当前的平行语料大部分来源于会议记录 法律文本等 真正可以利用的 具有较高对齐质量的平行语料资源是非常有限的 虽然也有不少学者研究如何从网络上 自动获取平行语料 但是由于网络信息格式的多样性和内容的随意性 实际中往往很难 获得足够规模的 高质量的平行语料 使得现有平行语料库在规模 时效性和领域平衡 性方面还不能满足处理真实文本的需要 针对平行语料库上述的不足 计算语言学和自然语言处理学界开展了可比较语料库 的研究 与平行语料相比 可比较语料资源丰富 不存在平行语料在规模 时效性方面 的限制 而在国内 尚没有公开发表的关于可比较语料库构建工作的文献 本文以微软 公司资助项目一m i n i n ge n g l i s h c h i n e s e n a m e de n t i t y p a i r sb a s e do nm u l t i f e a t u r e i n t e g r a t e dm o d e l sf r o mc o m p a r a b l ec o r p o r a 为背景 旨在构建中英可比较语料库 探索和 解决中英可比较语料库构建过程中出现的各种问题 在研究分析现有相关文献的基础上 本文提出了可比较语料库的构建方法 该方法 分为如下两部分 1 采用增量搜集技术获取并及时更新网页文档集合 作为构建可比较语料库的资 源 使得可比较语料库具有较好的时效性 这也是本文的创新点之一 不同于以往语料 库的构建工作 本文考虑了网页文档在时间维度上的动态更新 及时更新可比较语料库 从而使得可比较语料库具有较好的时效性 2 采用跨语言信息检索技术 本文为中 英 从目标语言文档集合中检索与源语言 文档相关的目标语言文档 创建相关文档池 经过进一步的对齐处理建立源语言文档和 目标语言文档之间的映射关系 最终构建可比较语料库 并对其中的关键技术一未登录 词翻译问题进行了研究 提出了有效方法 该方法首先对未登录词的翻译特征进行分析 即意译未登录词 音译未登录词和合译未登录词的判别 并将判别结果应用于后续的候 选翻译词抽取和选择 这样做的优点在于应用翻译模型和音译模型时 可以根据未登录 词的翻译特征 赋予各模型不同的权重 从而使处理结果更准确 实验结果表明 本文提出的方法用于构建可比较语料库取得了较好的效果 关键词 平行语料库 可比较语料库 增量搜集 跨语言信息检索 未登录词 可比较语料库的研究与构建 t h er e s e a r c ha n dc o n s t r u c t i o no f c o m p a r a b l ec o r p o r a a b s t r a c t t h ep a r a l l e lc o r p o r a a sak i n do fc o r p o r a i sw i d e l yu s e di nt h ef i e l do fc o m p u t a t i o n a l l i n g u i s t i c sa n dn a t u r a ll a n g u a g ep r o c e s s i n g h o w e v e r t h ec u r r e n tp a r a l l e lm a t e r i a l sa r e m a i n l yp a r l i a m e n t a r yd e b a t e so rl e g a lt e x t s t h ew e l l a l i g n e da n dh i g hq u a l i t yp a r a l l e l m a t e r i a l sr e m a i nas c a r c e r e s o u r c e d e s p i t et h ee f f o r t sm a d eb ys o m er e s e a r c h e r st o a u t o m a t i c a l l yc o l l e c tp a r a l l e lc o r p 9 r af r o mt h ew e b i ti sc h a l l e n g i n gt og e tl a r g e s c a l ea n d h i g hq u a l i t yp a r a l l e lc o r p o r ad u et ot h ed i v e r s i t yo fw e bi n f o r m a t i o nf o r m a ta n dt h el i b e r t yo f w e bc o n t e n t a sar e s u l t t h ec u r r e n tp a r a l l e lc 0 r p o r aa r en o tf u l l ya d e q u a t ef o rt h et a s ka t h a n di nt h ea s p e c t so fs c a l e f r e s h n e s sa n dd o m a i nb a l a n c e t oa d d r e s st h el i m i t a t i o n so f p a r a l l e lc o r p o r a t h er e s e a r c h e r s i nt h ef i e l do f c o m p u t a t i o n a ll i n g u i s t i c sa n dn a t u r a ll a n g u a g ep r o c e s s i n gc o n d u c tr e s e a r c hi n t ot h eu s eo f c o m p a r a b l ec o r p o r a c o m p a r e dw i t hp a r a l l e lc o r p o r a c o m p a r a b l ec o r p o r ao v e r c o m et h e 1 i m i t a t i o n so fp a r a l l e lc o r p o r a s i n c et h es o u r c e sf o rc o m p a r a b l ec o r p o r aa r em u c hm o r e a b u n d a n t t h e r ei sn op u b l i cr e s e a r c hw o r ko nt h ec o n s t r u c t i o no fc o m p a r a b l ec o r p o r ai n d o m e s t i cy e t n l i sd i s s e r t a t i o ni sb a s e do nt h ep r o j e c t m i n i n ge n g l i s h c h i n e s en a m e de n t i t y p a i r sb a s e do nm u l t i f e a t u r ei n t e g r a t e dm o d e l s f r o mc o m p a r a b l ec o r p o r a s u p p o r t e db y m i c r o s o f tc o r p o r a t i o na n dt h en a t i o n a lh i g ht e c h n o l o g yp r o j e c to fc h i n a s8 6 3p r o g r a m o u rg o a li st oc o n s t r u c t c h i n e s e e n g l i s hc o m p a r a b l ec o r p o r a e x p lo r ea n da d d r e s st h e p r o b l e m sd u r i n gt h ec o n s t r u c t i o no fc o m p a r a b l ec o r p o r a w ep r o p o s e do w nm e t h o df o rc o m p a r a b l ec o r p o r ac o n s t r u c t i o nb a s e do nt h ef o r m e r r e l e v a n tr e s e a r c hw o r k s t h em e t h o dc a nb ed i v i d e di n t ot h ef o l l o w i n gt w op a r t s 1 u s i n gi n c r e m e n t a lc r a w l i n gt e c h n o l o g yt oh a r v e s ta n du p d a t et h el o c a lw e b p a g e d o c u m e n tr e p o s i t o r y w h i c hi st h er e s o u r c ef o rc o m p a r a b l ec o r p o r a s oa st om a i n t a i nt h e f r e s h n e s so ft h ec o m p a r a b l ec o r p o r a t h i si sa l s oo n ei n n o v a t i v ep o i n ti no u rw o r k d i f f e r e n t f r o mt h ef o r m e rc o n s t r u c t i o nw o r k w ec o n s i d e r e dt h ed y n a m i c u p d a t eo fw e b p a g ed o c u m e n t i nt h ed i m e n s i o no ft i m e w h i c hm a k eo u rc o m p a r a b l ec o r p o r af r e s h e r 2 u s i n gc r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a lt e c h n o l o g y c h i n e s et oe n g l i s hi no u r w o r k t or e t r i e v es i m i l a rd o c u m e n t sf r o mt h et a r g e tl a n g u a g ed o c u m e n tr e p o s i t o r ya n d c o n s t r u c tr e l e v a n td o c u m e n tp o o l c r e a t eam a p p i n gb e t w e e ns o u r c ea n dt a r g e td o c u m e n t s t h r o u g ha l i g n m e n tp r o c e s s a n dg e tt h ec o m p a r a b l ec o r p o r aa tl a s t d u r i n gt h ec o n s t r u c t i o n w o r k w ep r o p o s e da l le f f e c t i v em e t h o dt or e s o l v et h ec h i n e s e 0 0 vp r o b l e m w h i c hh a sa i l i m p o r t a n te f f e c tt ot h ee f f i c i e n c yo fc r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l i ti sh e l p f u lf o rt h e a l i g n m e n tq u a l i t yo fd o c u m e n t si no u rw o r k t h ism e t h o df i r s ta n a l y z e st h et r a n s l a t i o nf e a t u r e 1 1 大连理工大学硕士学位论文 o fa n0 0 vt e r m n a m e l yt h ei d e n t i f i c a t i o no ft r a n s l a t i o n0 0 v t r a n s l i t e r a t i o n0 0 va n d m i x t r a n s l a t i o n0 0 v a n dt h e nt h ei d e n t i f i c a t i o nr e s u l ti su s e di nt h ef o l l o wp r o c e d u r e so f c a n d i d a t et r a n s l a t i o ne x t r a c t i o na n ds e l e c t i o n t m si sb e n e f i c i a ld u r i n gt h ec o m b i n a t i o nu s eo f t r a n s l a t i o nm o d e la n dt r a n s l i t e r a t i o nm o d e l d i f f e r e n tw e i g h tw i l lb ev a l u e da c c o r d i n gt ot h e o o vt r a n s l a t i o nf e a t u r e s om o r ep r e c i s er e s u l tw ec a ng e t t h ee x p e r i m e n tr e s u l ts h o w st h a to u rm e t h o df o rc o m p a r a b l ec o r p o r ac o n s t r u c t i o ni s e f f e c t i v e k e yw o r d s p a r a l l e lc o r p o r a c o m p a r a b l ec o r p o r a i n c r e m e n t a lc r a w l c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l o u t o f v o c a b u l a r yt e r m i i i 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定 在校攻读学位期间 论文工作的知识产权属于大连理工大学 允许论文被查阅和借阅 学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版 可以将 本学位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印 或扫描等复制手段保存和汇编本学位论文 学位论文题目 作者签名 导师签名 大连理工大学学位论文独创性声明 作者郑重声明 所呈交的学位论文 是本人在导师的指导下进行研究 工作所取得的成果 尽我所知 除文中已经注明引用内容和致谢的地方外 本论文不包含其他个人或集体已经发表的研究成果 也不包含其他已申请 学位或其他用途使用过的成果 与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意 若有不实之处 本人愿意承担相关法律责任 学位论文题目 互出筮适盘庄鲍盈究生塑建 作者签名 与茹嘶卜日期 型互年上月 日 大连理工大学硕士学位论文 1绪论 1 1课题来源 本课题来源于微软公司资助项目一 基于可比较语料库的英 中命名实体互译对抽 取 m i n i n ge n g l i s h c h i n e s en a m e de n t i t yp a i r sb a s e do nm u l t i f e a t u r ei n t e g r a t e dm o d e l sf r o m c o m p a r a b l ec o r p o r a 本文的研究内容是上述项目的子任务一可比较语料库的构建 1 2 研究背景 1 2 1语料库 语料库是为一个或多个应用目标而专门收集加工 有一定结构的 有代表性的 可 被计算机程序检索的 具有一定规模的原始语料的集合 1 从本质上讲 语料库是对自然语言总体的抽样 经过科学的加工 具有适当规模的 语料库能够代表某一研究中所确定的语言总体 语料库已经成为语言学理论研究 应用 研究和语言工程中不可缺少的基础资源 按照不同的研究目的和用途 语料库可划分为 多种类型 这一点也决定着语料采集的原则和方式 文献 1 进行如下的划分 1 按语料的选取时间划分 可分为历时语料库 d i a c h r o n i cc o r p o r a 幂d 共时语料库 s y n c h r o n i cc o r p o r a 2 按语料的加工深度划分 可分为标注语料库 a n n o t a t e dc o 叩o r a 和非标注语料库 n o n a n n o t a t e dc o r p o r a 3 按语料库的结构划分 可分为平衡结构语料库 b a l a n c es t r u c t u r ec o r p o r a 矛1 2 自然 随机结构的语料库 r a n d o ms t r u c t u r ec o r p o r a 4 按语料库的用途划分 可分为通用语料库 g e n e r a lc o r p o r a 并t l 专用语料库 s p e c i a l i z e dc o r p o r a 专用语料库又可以进一步根据使用的目的来划分 例如 语言学 习者语料库 l e a r n e rc o r p o r a 语言教学语料库 p e d a g o g i c a lc o r p o r a 5 按语料库的表达形式划分 可分为1 2 语语料库 s p o k e nc o r p o r a 矛o 文本语料库 t e x tc o r p o r a 6 按语料库中语料的语种划分 可分为单语种语料库 m o n o l i n g u a lc o r p o r a 和多语 种语料库 m u l t i l i n g u a lc o r p o r a 在自然语言处理领域 语言资源包括语料库和语言知识库 前者强调语料的原始性 后者则是经过概括和归纳 具有系统的语言知识 并采用一定的科学方法组织起来 可 供直接使用的资源 具有代表性的语言知识库有 描述词语概念之间的关系 概念所具 可比较语料库的研究与构建 有的属性之间的关系的 知网 h o w n e t 1 2 1 描述常用词语的基本词汇属性和基本语法 属性的 现代汉语语法信息词典 f 3 国外学术研究经常应用的知识资源w o r d n e t 4 1 1 2 2 基于语料库的自然语言处理技术 近年来 计算语言学和自然语言处理研究领域有代表性的两种思路是 理性主义 r a t i o n a l i s m s g l 经验主义 e m p i r i c i s m 所谓理性主义 就是先依据某种语言理论建立语 言模型 再从语言模型构造规则系统 也称作基于规则的方法 r u l e b a s e dm e t h o d 所 谓经验主义 就是以大规模语料的分析为基础 结合统计学的方法进行语言知识发现 也称作基于语料库的方法 c o r p o r a b a s e dm e t h o d 语料库建设的崛起 为计算语言学和 自然语言处理研究提供了丰富的语言资源 随着大规模真实文本处理技术的提高 越来 越多的学者认识到 基于语料库的方法不但是对基于规则的方法的一个重要补充 而且 大规模的 真实的语料是进行计算语言学和自然语言处理研究所不可或缺的知识资源 大规模的语料库是应用统计语言模型方法进行自然语言处理的基础资源 在统计语 言模型方法最先得到成功应用的自动语音识别领域 语料库的开发和建设受到格外的重 视 标注语料库成为不可缺少的系统资源 同样 在其它的自然语言处理领域 语料库 提供的语言知识也越来越多的结合到统计语言模型方法中 除了词语自动切分 词性自 动标注 双语语料对齐等语料加工技术以外 人们还在语料库的基础上 进行不同粒度 的知识挖掘 如挖掘互译对用于跨语言信息检索 建立有关语法 语义的语言知识库 开发信息抽取系统 信息检索系统 文本分类和过滤系统 问答系统 并且把基于统计 或实例的分析技术集成到机器翻译系统里面 1 2 3 平行语料库 平行语料由源语文本及其对应的翻译文本构成 语料对齐的单位有句子级 子旬级 短语级 词汇级 通常是句子一级的对齐 平行强调的是翻译对应关系1 5 j 平行语料库作为语料库的一种 首先它具有语料库的共性 平行语料库更重要的价 值是在机器翻译 机器辅助翻译以及翻译知识获取研究中的应用 由于平行语料库含有 源语文本及其对应的翻译文本 可以从中挖掘学习翻译知识 如互译对和翻译模板 也 可以用于跨语言信息检索 翻译词典编纂 双语术语自动抽取等 下面重点阐述平行语 料库在机器翻译中的应用 2 0 世纪2 0 年代以来 语料库语言学 c o r p u sl i n g u i s t i c s 得到迅速发展 1 9 9 3 年的第 四届机器翻译会议上 英国学者j o h nh u t c h i n s 在特邀报告中指出 机器翻译已经进入了 第三代机器翻译系统的研究 主要标志是基于语料库方法的引入 用于机器翻译研究的 语料库主要为平行语料库 基于语料库的方法主要是指基于实例的机器翻译方法和基于 大连理工大学硕士学位论文 统计的机器翻译方法 当然 基于规则的方法也可以采用从语料中来自动获取规则的方 式 基于实例的机器翻译方法是由日本京都大学的长尾真教授在1 9 8 4 年提出的 其原 理是使用类比方法将待翻译的源语言句子与语料库里的源语言句子相比较 分析相似程 度 将最相似的源语言句子对应的目标语译文作为翻译结果1 6 在翻译过程中 需要整 个双语语料库作为翻译知识 通过查找和相似度计算实现实例的匹配 统计机器翻译方法在大规模语料库的基础上 用统计学的方法建立语言模型 计算 语言翻译模型的参数 根据翻译模型完成翻译过程 7 一 国内现有的平行语料库有 1 哈尔滨工业大学的汉英平行语料库 这个语料库由 6 万个汉语和英语的句对构成 使用多级对齐加工技术 分别按照句子 短语结构和词 一一对齐 2 中国科学院计算技术研究所的汉英双语语料库 这个语料库有2 0 万个句 对 也完成了句子一级的对齐 并在网上提供查询服务 除此之外 北京大学 中国科 学院软件研究所等单位也建立了以句子为单位对齐的汉英双语语料库 以语段或短语为 单位收集的汉英双语语料库如中国科学院自动化研究所的汉英双语短语库 有3 5 万对 己对齐的汉语和英语短语 东北大学的英汉双语语段库 用来帮助建立电子版的英汉搭 配词典 国外研究机构构建的平行语料库有 1 加拿大h a n s a r d 语料库 语料来自加拿大 议会记录 包括英 法两种语言 2 由奥斯陆大学建设的英语一挪威语双语语料库 其中核心部分包括2 6 0 万词 3 i t uc r a t e r 语料库 这个语料库是c r a t e r 计划的 一部分 语料来源于国际电信联合会报告 包括英 法和西班牙三种语言 每种语言收 录词1 0 0 万 进行了词性标注 词形还原和句子对齐加工 很明显 平行语料库的质量越好 规模越大 则基于平行语料库获得的翻译知识越 可靠 因而大规模的高质量平行语料库是研究者们希望得到的 然而 大规模双语语料 库的建设与获取存在着很大的困难 由上述内容可知 现有平行语料大部分来源于会议 记录 报告 真正可以利用的具有较高对齐质量的平行语料资源是非常有限的 虽然也 有不少文献研究如何从网络上自动获取平行语料 1 2 1 3 但是由于网络信息格式的多样性 和内容的随意性 实际应用中往往很难获得足够规模和高质量的平行语料 使得现有平 行语料库在规模 时效性和领域平衡性方面还不能满足处理真实文本的需要 1 2 4 可比较语料库 可比较语料指具有相似性的文本 各文本均独立产生 根据语种 可比较语料库又 可以分为单语可比较语料库和多语可比较语料库 单语可比较语料通常来源于同时段内 不同的地区 目的侧重于特定语言现象的对比 语言学家通过单语可比较语料库可以考 可比较语料库的研究与构建 察研究某一语言在不同地区的使用情况 多语可比较语料指由不同语言表达的独立产生 的具有相似性的文本 例如 以中文和英文为母语的媒体机构针对同一事件的中文和英 文报道 两种语言的报道文本 完全是编辑人员用母语对事件的描述 具有可比性 在 本文后续的论述中 可比较语料均指多语可比较语料 可比较语料库均指多语可比较语 料库 可比较语料库的概念最早由b a k e r 提出 对于可比较语料 指出不同的文本之间不 存在翻译 但具有某些相似性 可以比较f h m c e n e r y 教授认为平行语料库包含原文和 译文 涉及两种或者多种语言 可比较语料库同样有双语和多语的属性 语料相互之间 没有翻译关系 因为不同语言的文本是独立产生的 均为原文1 15 2 0 世纪9 0 年代中期 国际语料库语言学界就开展了基于可比语料库的知识自动提 取研究 近年来 可比较语料库在机器翻译和机器辅助翻译中的应用越来越多 计算语 言学界也开始了有关可比较语料库的专门学术会议 如2 0 0 8 年开始的以 构建和使用 可比较语料库 b u i l d i n ga n du s i n gc o m p a r a b l ec o r p o r a 为主题 每年一届的国际学术研 讨会1 与平行语料库相比 可比较语料库具有以下特点 1 资源丰富 不存在平行语料库 在规模 时效性方面的不足 2 不存在平行语料库中译文受原文限制的缺点 由此可 知 可比较语料库将在计算语言学和自然语言处理研究中发挥越来越重要的作用 1 3 可比较语料库研究现状 1 3 1基于可比较语料库的应用 文献 1 6 1 9 禾l j 用可比较语料获取新词和专业领域术语互译对 整体思想基于这样的 假设 即可比较语料中一种语言文本中的一个词对应到另外一种语言文本时 它与上下 文之间的共现搭配关系仍然被保持 即在不同语言中二个词和其对应的词所在的上下文 具有相似性 为了解决平行语料库在规模 时效性方面的不足 文献 2 0 2 1 基于可比较 语料库挖掘平行语料 对齐单位包括句子级 段落级 而文献 2 2 j 各可比较语料库直接 用于机器翻译系统中 并取得了不错的效果 在这些基于可比较语料库的研究应用中 可比较语料库规模都比较小 并且绝大多数都没有详细提及可比较语料库的具体构建过 程 1 h t t p w w w 1 r e c c o n f o r g l r e c 2 0 0 8 大连理工大学硕士学位论文 1 3 2 可比较语料库的构建现状 文献 2 3 1 基于瑞士新闻机构s d a 发布的意大利语和德语新闻报道 利用报道中的描 述性字段 如金融 军事等 和发布日期构建可比较语料库 文献 2 4 1 除了考虑上述信息 外 还加入了名诃 数词和时间词 他们首先过滤掉频度过高和过低的词 然后将选取 的词 利用双语词表翻译成德语作为查询词 接下来用得到的查询词对s d a 发布的德 语新闻报道集合进行查询 最后根据设置的相似度阈值选择可比较的德语报道文本 不 同于文献 2 4 文献 2 5 1 采用更有效的跨语言信息检索技术构建可比较语料库 使用的 两个文档集合如下 源语言文档集合为瑞典语新闻文档 文档数为1 4 2 8 1 9 发布时间段 为1 9 9 4 年 1 9 9 5 年 目标语言文档集合为洛杉矶时报新闻文档 文档数为1 1 3 0 0 5 发 布时间为1 9 9 4 年 基于此文档集合 他们从源语言文档提取关键词 利用跨语言检索 技术检索目标语言文档集合 并对检索结果进行过滤 最终选择满足条件的目标语言文 档作为可比较语料 实验结果表明该方法用于构建可比较语料库是可行的 当前 基于可比较语料库的研究已经受到越来越多的重视 各界纷纷意识到建立大 规模的可比较语料库的必要性 目前 除了上述国家和研究机构的研究探索外 其它国 家和研究机构也有研究 反观国内 尚没有公开发表的关于可比较语料库构建工作的研 究 因此 构建一个具有一定规模的可比较语料库 探索和解决可比较语料库构建工作 中的各种问题具有重要意义 1 4 本文的工作 现有可比较语料库构建的技术路线可以概括为 首先 建立初始的文档集合 包括 源语言文档集合和目标语言文档集合 作为语料来源 然后采用一定的技术在源语言文 档集合和目标语言文档集合之间 计算文档之间的相似性 建立映射关系 得到最终的 可比较语料库 通过分析研究 本文发现当前构建技术的不足之处如下 绝大多数的语料文档收集都集中在一个时间段内 没有考虑语料文档在时间维度上 的动态更新 比如各种新内容的引入以及原有内容的变化 而基于语料库的互译对自动 抽取 跨语言信息检索 机器翻译等需要不断加入新的翻译知识来满足处理真实文本的 需要 如翻译新词 检索新知识 这就需要作为翻译资源的语料库能够不断的更新 本 文将这一问题称为时效性问题 应用跨语言检索技术建立源语言文档和目标语言文档之间的映射关系 未登录词的 正确翻译对映射结果有重要影响 而当前中文未登录词的翻译效果仍需要进一步的提 高 可比较语料库的研究与构建 1 4 1本文的主要研究内容 本文的基本思路为 采用增量搜集技术解决可比较语料库的时效性问题 采用跨语 言信息检索技术建立源语言文档集合和目标语言文档集合之间的映射关系 最终构建可 比较语料库 在实际工作中 本文构建的是中英可比较语料库 因此后续的工作论述中 源语言均指中文 目标语言均指英文 具体而言 将目标问题分解为以下两个子问题来 进行研究 1 增量搜集技术的研究与实现 增量搜集技术能够高效率地发现新网页和发生变化的网页 有效维护本地网页文档 集合的时效性 因而 用增量搜集技术解决以网页文档集合作为语料来源的可比较语料 库的时效性问题是可行的 所以本文将增量搜集技术的设计与实现作为子问题之一 用 于从网络上搜集网页文档 并不断更新 作为可比较语料的来源 2 跨语言信息检索技术中关键问题一未登录词 中文 翻译问题的研究 文献 2 6 指出 未登录词的正确翻译将会给跨语言信息检索效率带来2 5 的提高 由此可知 未登录词的正确翻译对采用跨语言信息检索技术构建可比较语料库也有重要 影响 因此本文将未登录词的翻译作为待研究的子问题之一 后续的未登录词均指中文 未登录词 1 4 2 本文的创新之处 在以上两个子问题的研究中 本文相比于现有研究工作具有以下创新之处 1 提出了有效的方法用于索引页的判别 并将该方法用于新网页发现 集成到增 量搜集系统中 本文实现了一个解决可比较语料库时效性问题的增量搜集系统 该系统有效利用了 在新网页发现中有重要价值的索引页 提高了增量搜集系统的运行效率 2 对跨语言信息检索中中文未登录词的翻译问题进行了深入的研究 取得了较好 的结果 本文采用基于搜索引擎检索结果翻译中文未登录词的方法 首先对未登录词的翻译 特征进行分析 即进行意译未登录词 音译未登录词和合译未登录词的判别 并将判别 结果应用于后续的候选翻译词抽取和候选翻译词选择 这样的优点在于应用翻译模型和 音译模型时 可以根据未登录词的翻译特征 赋予不同的权重 从而使得处理结果更准 确 实验结果表明 与现有中文未登录词翻译方法相比 该方法效果明显 大连理工大学硕士学位论文 1 5 本文的组织结构 本文主要研究了两个问题 1 网页增量搜集技术 即如何有效维护本地网页文档 集的时效性 用于可比较语料库的构建 使得可比较语料能够得到及时的更新 提供 新 鲜 的语料库知识 2 跨语言信息检索中未登录词的翻译问题 未登录词的正确翻译 对跨语言信息检索的效率有很大影响 由于本文采用跨语言信息检索技术建立源语言文 档和目标语言文档之问的映射关系 从而未登录词的正确翻译对最终构建的可比较语料 的质量也会有很大的影响 显然 利用增量搜集技术搜集网页建立本地文档集合 是构 建可比较语料的前提和基础 本文正文各章的内容安排如下 第1 章 详细介绍了本文的课题来源与研究背景 首先给出语料库的定义 在归纳 总结了基于语料库的应用后 对在计算语言学和自然语言处理领域有重要研究价值的平 行语料库及其存在的主要问题进行了剖析 在此基础上给出可比较语料库的定义 并和 平行语料库进行了对比 系统分析当前可比较语料库的研究现状 介绍了现有相关文献 中涉及的各种技术路线 最后简要介绍了本文的主要内容 创新之处以及组织结构 第2 章 介绍基于开源爬虫h e r i t r i x 的增量搜集系统的实现 首先 介绍了现有增 量搜集系统的工作原理 然后介绍了索引页并分析了索引页的特征 提出了针对索引页 的判别方法 接下来将索引页用于新网页发现 探索索引页在新网页发现中的应用价值 最后将基于索引页的新网页发现方法集成到h e r i t r i x 增量搜集系统中 并展示了系统的 运行效果 第3 章 提出基于搜索引擎检索结果结合未登录词翻译特征解决中文未登录词翻译 问题的方法 首先 总结现有研究未登录词翻译问题的相关文献 分析了各类方法的优 缺点 接下来介绍了本文基于搜索引擎检索结果翻译中文未登录词的具体步骤 最后验 证了本文所提方法的有效性并分析了实验结果 第4 章 介绍本文应用跨语言信息检索技术建立源语言文档和目标语言文档之间的 映射关系的具体实现 首先 提出了构建可比较语料库的方案架构 然后针对方案中各 模块进行了详细的分析 最后设计实验 检测了应用本文提出的可比较语料库构建方案 的效果 第5 章 总结全文 并指出本文的不足和进一步需要研究的问题 可比较语料库的研究与构建 2 增量搜集技术的研究与实现 2 1引言 互联网络中信息量的快速增长 给基于本地网页库的应用系统 如搜索引擎 在线 问答系统等 带来了巨大的压力 一方面 网页数量庞大 应尽量予以全面地覆盖和及 时地更新 使得本地网页库近似与网络同步 既全面地包含网络上的各方面知识 即广 义性 又能包含网络上的新知识 即时效性 另一方面 要优先考虑拥有较高价值的网 页 周期性重复搜集技术因重复搜集己下载的且未发生变化的网页而带来时间和资源上 的浪费 在此背景下 增量搜集系统的产生 使得它与周期性重复搜集技术相比 具有 更高的效率和时效性 它采取持续的调度访问策略 避免了因重复搜集未发生变化的网 页而带来的资源 时间上的浪费1 27 1 网页变化规律的发现和利用是增量搜集技术的一个关键 它用来预测网页的下次变 化时间甚至变化程度 除此之外 增量搜集系统还需要考虑网页的变化频率 变化程度 和重要性 并选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次 序 根据文献 2 8 1 的研究发现 索引页通常具有较高的变化频率 且链接到大量的新网 页 在增量搜集网络资源 维护和更新本地网页库上具有重要价值 本章针对维护可比较语料库时效性的实际需要 重点研究了索引页的有效判别 并 将基于索引页的新网页发现方法集成到网页增量搜集系统中 本章结构如下 第二节论述增量搜集技术的研究现状 分析现有实现技术的优缺点 第三节提出了基于网页标签的索引页判别方法 并设计实验测试了该方法的有效性 然 后研究索引页在新网页发现中的价值 第四节介绍基于开源爬虫h e r i t r i x 的增量搜集系 统的具体实现以及实际运行情况 2 2 相关研究 以网页的变化规律为基础 迄今公开发表的增量搜集系统有 斯坦福大学j u n g h o o c h o 提出的u n i v s t a n f o r dc r a w l e r 2 9 i b ma l m a d e n 研究中心开发的w e bf o u n t a i n c r a w l e r 3 0 1 智利大学开发的u n i v c h i l ec r a w l e r 3 1 1 北京大学开发的天网增量搜集系统 3 2 以及互联网档案馆2 i n t e r n e ta r c h i v e 组织成员开发的基于h e r i t r i x 3 的增量搜集系统 1 3 引 各系统模型和增量搜集原理如下 2 h t t p w w w a r c h i v e o r g i n d e x p h p 3 h t t p c r a w l e r a r c h i v e o r g 大连理工大学硕士学位论文 1 u n i v s t a n f o r dc r a w l e r 斯坦福大学j u n g h 0 0c h o 提出的增量搜集系统架构如图2 1 所示 图2 1j u n g h o oc h o 提出的增量搜集系统架构 f i g 2 1a r c h i t e c t u r eo fi n c r e m e n t a lc r a w l e rp r o p o s e db yj u n g h o oc h o 其中 c o l l e c t i o n 是本地网页库 a l l u r l s 是当前发现的u r l 列表 c o l l u r l s 是待搜 集的u r l 列表 c r a w l m o d u l e 是搜集模块 它抓取网页并分析 将提取出的u r l 放入 a l l u r l s r a n k i n gm o d u l e 是网页计算模块 用于计算u r l 的重要性 添加重要的u r l 到c o l l u r l s 或从中删除不重要的u r l u p d a t em o d u l e 包含了三个模块 元数据管理模 块 网页变化率计算模块 u r l 调度模块 它维护已抓取网页的网页指纹等信息 并计 算网页变化率 最后从c o l l u r l s 选取u r l 提交给c r a w l m o d u l e 以供抓取 j u l l 曲0 0c h o 提出的增量搜集系统的不足之处在于采用泊松过程来预测网页的变 化 文献 3 4 在一个大规模的变化频率较快的网页集合上进行跟踪实验 发现只有少数 网页变化严格服从泊松过程 2 w e bf o u n t a i nc r a w l e r i b ma l m a d e n 研究中心提出的增量搜集系统模型的目标是使下面两种网页的过期 时间最少 已经过期但未搜集的网页和当前周期中新出现但未搜集的网页 从而提高本 地网页库的时效性 以此为基础 该增量搜集系统的总目标为式 2 1 m i n i m i z e 麒壹o l d w t y n e w w t l 1一 亿 n z e i 一l 2 1 l 1 j 可比较语料库的研究与构建 其中 是第f 组在第t 周期结束时过期的网页数 而挖 是第f 个周期结束时所有 组中未搜集的新网页之和 式 2 1 的约束条件为 b c c o n s t c c o n s t d c o n s t z 2 2 j 1 即在每个周期f 内 总带宽不小于各组内搜集旧网页所耗的带宽之和加上t 内搜集新网 页所耗带宽的总和 w e bf o u n t a i nc r a w l e r 虽然明确刻画了增量搜集的目标 但它太多的系数和约束使 得这个非线性约束条件下的非线性目标优化问题非常难解 在文献 3 0 中 作者使用 n e o s 公共服务器系统和标准n l p 包m i n o s 根据模拟的网页变化数据来近似求解该 问题 3 u n i v c h i l ec r a w l e r 智利大学开发的增量搜集系统主要从搜索引擎的网页索引的时效性来考虑增量搜 集的调度 它将网页各方面的重要因素尤其是网页内容与用户查询的近似度等 作为网 页的价值考虑进来影响搜集次序 在搜集过程中 随着下次变化时刻的临近计算最近的 变化可能性 从而选择价值较高的网页优先搜集 网页搜集优先度的计算公式为 矿 v o av o q 口 r j 6 p 2 3 1 其中 t b c 是动态可调整的参数 网页o 的权值被分为3 个部分 g 表示网 页的内在价值 根据如下因素计算 如p a g e r a n k 3 5 1 和h i t s 算法 3 6 之类的链接分析结果 与给定查询的相似度 在索引中被用户访问的次数 以及根据它的u r l 地址属性计算 得到的一些参数 表示网页的表示价值 用来衡量下载和保存该网页需要的存储资 源 由以下几部分组成 u r l 长度 a n c h o rt e x t 大小 全文索引大小 文本摘要大小 全文长度 p 表示在间隔上次访问时间某一间隔e 后仍然时新的可能性 计算过程中 也是采用泊松过程来估计网页的变化频率 4 天网增量搜集系统 文献 3 2 提出的天网增量搜集系统将搜集过程分为一个个周期 并在每个周期都完 成 搜集任务分配一搜集检查网页一提取新u r l 这3 个步骤 该系统的基本搜集过程 如图2 2 所示 大连理工大学硕士学位论文 产喜搴言角 s i a j lc r a w l i n ga it i l 望至堡垒查扣 二 l 一 p 岛j 弋 丸掣 一一卜 霹菰u 蔼r ir 剖兰兰兰竺望至 l 束完成的 表 习 绠采檄箕h 姒 i o 一 匕 7 l j j 产警 兰 篁 曩 叫 卜 1 睦k c k p o i n s 列震厂爿 l j r ll l 每 j j 产 2 卅 7 l l 提取过妁 j r l re n d c r a w l i d ga t 弧一 1 图2 2 天网增量搜集系统的基本搜集过程 若互到乃为一个搜集周期 假定系统的搜集能力为n c 第l 步 搜集任务分配 若 的能力用于新网页 从新u r l 队列中选择 n c 作为任务的一部分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论