




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)《蒙汉双语对齐语料库》的实验性研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古师范大学硕士学位论文 中文摘要 在自然语言处理领域,双语对齐语料库的重要性日益加强,它在机 器翻译、词典编纂、信息检索、翻译知识的获取、词义排歧等领域有着 重要的研究和应用价值。双语语料库的研究工作主要集中在语料的构建、 对齐和标注等方面。 在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平 行语料库。与之相比,汉英双语对齐语料库的研究国内外都相对较少, 尤其是蒙语语料库与其它语种语料库的对齐研究就更少。本文的工作主 要集中在蒙汉双语对齐语料库词性标注、词汇对齐及句法分析的研究上, 主要包括以下部分: 1 词性标注。蒙古文的附加成分比较多,比如砾澍( 做) 有砾崭( 主 动态) ,硫碲嘲( 被动态) ,埘椰奶( 使动态) ,硫b 嘶( 互动态) ,酬 ( 同动态) 等多种形态变化。本语料进行标注时不仅确定了词性标记集, 而且还确定了体现这些形态变化的标记集。 2 。词汇对齐。词汇对齐是发现与源语言词汇具有最高语义相似度的 目标语。蒙文词汇和汉文词汇有许多特殊对应关系,如:有些汉语动词 短语对应蒙语动词;有些蒙语动词短语对应汉语动词;蒙语的数词很多 情况下对应汉语的数量词;还有空对齐等情况。本文中较详细地分析了 蒙文句子和汉文句子语义对应关系,进行了特征标记,并实现了双语句 子、词汇、句法结构等不同类型的对齐信息的检索工具。 3 句法分析。句法分析是对句子和短语的结构进行分析。在语言自 动处理的研究中,句法分析的研究是最为集中的。本文使用了自顼向下 的句法分析方法分析了双语实验语料,并利用广义表方法生成了蒙古文 和汉文句子各自的句法树。 本文最终建立了一个蒙汉双语语料库实验系统,该系统的语料中包 含了词汇对齐、词性、句子成分和句法结构等标注信息,并具有对齐信 息检索功能和语料库维护功能。通过对典型语料实验实例的分析,表明 该系统对机器翻译以及翻译知识的自动获取研究具有重要意义。 关键词:双语对齐语料库,词汇对齐,词性,句子成分,句法结构 a b s t r a c t i nn a t u r a ll a n g u a g e p r o c e s s i n g ,t h eb i l i n g u a la l i g n m e n t c o r p o r a b e c o m e sm o r ea n dm o r ei m p o r t a n t ,a n dh a si m p o r t a n t r e s e a r c ha n d a p p l i c a t i o n m e r i ti nt h em a c h i n et r a n s l a t i n g ,d i c t i o n a r yc o m p i l i n g , i n f o r m a t i o nr e t r i e v a l i n g ,t r a n s l a t i o n k n o w l e d g ea c q u i s i t i o n i n g a n dt e r m r e c o g n i z i n ge t c t h er e s e a r c ho nt h eb i l i n g u a la l i g n m e n tc o r p o r ai sm a i n l y f o c u s e do nt h ec o n s t r u c t i o n ,a l i g n m e n ta n dt a g g i n g i nt h ep a s tt h r e ed e c a d e s ,n u m e r o u sp a r a l l e lc o r p o r ao fe u r o p e a n l a n g u a g e sh a v eb e e nb u i l t i nc o n t r a s t t oi t ,f e wc h i n e s e e n g l i s ha l i g n m e n t c o r p o r ah a v eb e e nb u i l t ,e s p e c i a l l ym o n g o l i a na n do t h e rl a n g u a g ea l i g n m e n t c o r p o r a i nt h i sp a p e ro u rr e s e a r c hw i l lb ec o n c e n t r a t e do nt h ep a r to fs p e e c h t a g g i n g ,v o c a b u l a r y a l i g n m e n t a n d s y n t a c t i c a n a l y s i s o ft h e m o n g o l i a n c h i n e s ea l i g n m e n tc o r p o r a t h ef o l l o w i n gw o r k si si n c l u d e d 1 p a r to fs p e e c ht a g g i n g m o n g o l i a nh a sm o r ea c c e s s o r yc o m p o n e n t s f o r e x a m p l e s ,姗埘( t od o ) h a s 抓一( a c t i v et e n s e ) ,硫研州j ( p a s s i v e t e n s e ) ,请神( d y n a m i c ) ,硫b 嘶( i n t e r d y n a m i c ) ,酬( i s o d y n a m i c e t co nm o r p h o l o g i c a lc h a n g e s f o rt a g g i n gt h ec o r p u s ,w ed e f i n e dn o to n l y t h ep a r to fs p e e c ht a gs e t ,b u ta l s ot h em o r p h o l o g i c a lc h a n g e s 2 v o c a b u l a r ya l i g n m e n t t h ea i mo fv o c a b u l a r ya l i g n m e n ti st h et a r g e t l a n g u a g ew h i c hh a st h eh i g h e s ts e m a n t i cs i m i l a r i t y t ot h es o u r c el a n g u a g e m o n g o l i a nv o c a b u l a r ya n dc h i n e s ev o c a b u l a r yh a v el o t s o fs p e c i a lc l o s e r e l a t i o n s h i p s f o re x a m p l e ,s o m e o ft h ec h i n e s ev e r b p h r a s e s a r e c o r r e s p o n d e dt om o n g o l i a nv e r b s ;a n ds o m eo ft h em o n g o l i a nv e r bp h r a s e s a r ec o r r e s p o n d e dt oc h i n e s ev e r b s ;m o n g o l i a nn u m e r a li sc o r r e s p o n d e dt o c h i n e s eq u a n t i f i c a t i o ni nm a n yc a s e s ;a n da l s oh a se m p t ya l i g n m e n ta n ds oo n t h i sp a p e rh a sa n a l y s e ds e m a n t i cr e l a t i o n s h i p sb e t w e e nm o n g o l i a ns e n t e n c e s a n dc h i n e s es e n t e n c e si nd e t a i l s ,m a r k e dt h e c h a r a c t e r i s t i c so ft h e ma n d r e a l i z e dt h em u l t i f u n c t i o no f aa l i g n m e n ti n f o r m a t i o nr e t r i e v a lt o o lw h i c h i n c l u d e sb i l i n g u a ls e n t e n c e s ,v o c a b u l a r y , s y n t a c t i c s t r u c t u r e ,a n ds oo n 3 s y n t a c t i ca n a l y s i s i ta n a l y s e st h es t r u c t u r eo fs e n t e n c e sa n dp h r a s e s t h es t u d yo fa u t op r o c e s si nn a t u r e l a n g u a g ei sc o n c e n t r a t e do ns y n t a c t i c a n a l y s i sa r e a i nt h ep a p e r ,w eu s et h et o p d o w np a r s i n gm e t h o d st oa n a l y s e t h ee x p e r i m e n t a lb i l i n g u a lc o r p u s ,a n du s et h eg e n e r a l i z e dt a b l et o g e n e r a t e r e s p e c t i v es y n t a c t i ct r e e so fm o n g o l i a ns e n t e n c e sa n dc h i n e s es e n t e n c e s t h i sp a p e rf i n a l l yh a ss e tu pa m o n g o l i a n c h i n e s eb i l i n g u a lc o r p o r a e x p e r i m e n t a ls y s t e mw h i c hi n c l u d e s t a g g i n gi n f o r m a t i o n o fv o c a b u l a r y a l i g n m e n t ,p a r to fs p e e c h ,s e n t e n c ec o m p o n e n ta n ds y n t a c t i cs t r u c t u r e s t h e e x p e r i m e n t a ls y s t e ma l s oh a sa l i g n m e n to fi n f o r m a t i o nr e t r i e v a lf u n c t i o na n d c o r p o r am a i n t e n a n c ef u n c t i o n a f t e ra n a l y s i n ge x a m p l e so fe x p e r i m e n t si n t y p i c a lc o r p o r a ,i ts h o w st h a to t l rw o r kh a sg r e a ts i g n i f i c a n c ef o rm a c h i n e t r a n s l a t i o na n da u t o m a t i c a c q u i s i t i o no ft r a n s l a t i o nk n o w l e d g e k e y w o r d s :b i l i n g u a la l i g n m e n tc o r p o r a ,v o c a b u l a r ya l i g n m e n t ,p a r to fs p e e c h , s e n t e n c ec o m p o n e n t ,s y n t a c t i cs t r u c t u r e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果,尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示感谢。 签名:丛盟短 日期: 如尸年厂月拶日 关于论文使用授权的说明 本学位论文作者完全了解内蒙古师范大学有关保留、使用学位 论文的规定:内蒙古师范大学有权保留并向国家有关部门或机构送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容 和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:础娘凡 导师签名:磷民 日期:2 叼年今月斗日 第一章绪论 1 1 课题背景和应用价值 第一章绪论 双语语料库在自然语言处理领域具有重要作用,而建设一个大规模、高质量的双 语语料库的关键技术就是双语句子对齐n 一3 1 。目前语料库研究是世界上最活跃的研究 课题之一,而双语语料是由表达同一内容的两种语料所组成的语料资源,是支持机器 翻译的最为宝贵的资源h 一一1 。 语料库的应用基本上可以分为两部分n 1 :一部分是经过标注和预处理的语料库, 该语料库可以为所有的基于统计的自然语言理解提供统计的数据资源;另外一部分就 是语料库自动加工技术,如分词、词性标注、语法分析等自动加工技术是具体应用的 基础。目前,基于统计的方法已经广泛用于机器翻译、信息提取、信息检索、文本分 类、问答系统、自动文摘、词典编纂等各个方面。可以这样说,语料库是基于统计的 自然语言处理技术的基础。 我国是由多民族组成的国家,蒙古族是其中的一员,他们主要生活在祖国的北部 边疆,有近6 0 0 万人口。蒙古语言文字作为蒙古族所使用的交流工具已有近千年的历 史,也是在世界上有影响的语言文字。历史的经验已经证明,要想使整个民族进入现 代化和信息化社会,首先就要实现语言文字的信息化,只有这样才能缩小民族之间的 差距,实现各民族团结、共同繁荣、共建协凋、和谐发展的小康社会。 蒙古文语料库研究已有几十年的历史了,同时也有了很大的进步。但蒙汉双语对 齐语料库的研究甚少,所以在内蒙古地区急需完成蒙汉双语对齐语料库的建设,基于 计算机的蒙汉双语对齐语料库亟待开发。蒙汉双语对齐语料库的研发,对蒙古民族语 言文字信息化具有重要意义,对蒙古民族的工作和学习提供一种方便实用的工具。解 决蒙古语言和汉语言双语对齐语料库建设、研究、开发和实现会极大地推动蒙古族地 区的信息化进程,对繁荣内蒙古自治区民族文化教育事业,促进祖国少数民族地区的 社会进步、发展与稳定都有重要贡献。另外还对机器翻译、词典编纂、信息检索、翻 译知识的获取、词义排歧等自然语言应用有很大的价值叫。所以本实验性的双语对 齐语料库对以后大量的蒙汉双语对齐语料库的研究做了前期的基础性工作。 内蒙古师范大学硕士学位论文 1 2 语料库的研究历史和现状 1 2 1 现代语料库的简短历史 1 2 1 1 单语语料库 从二、三十年代开始许多学者就致力于语料库语言学的研究。5 0 年代中前期, 在实证主义和行为主义思潮的影响下,语料成了语言学研究的热点。q u i c k 宣布建立 s e u 语料库,开创了新一代的语料库语言学。尽管乔姆斯基( c h o m s k y ) 的转换生成法 对早期的语料语言研究进行了彻底的否定,但没能阻挡语料库语言学家的研究激情。 1 9 6 1 年由f r a n c i s 和k u c e r a 为首的一批语言学家和计算机学家建立了世界上第一个机 器可读语料库“布朗语料库”( b r o w nc o r p u s ) ,它包含了1 0 1 4 2 3 2 个单词n 引。 在1 9 6 2 年美国语料库语言学家l e o n a r db l o o m f i e l d ,通过人工构建的方法对语料 库进行了语言研究。从那以后,开始建立了许多英语语料库和欧洲语料库。之后,汉 语语料库也开始建立并且规模越来越大,标注信息也越来越丰富。如今大陆、香港、 台湾、新加坡等地都能提供大规模的汉语语料库。 1 2 1 2 双语和多语平行语料库 双语语料库是表达同一内容的两种语料所组成的语料资源。多语语料库是对其进 步的扩张,即将它同时翻译成其他的语言。 在过去的几十年里构建了许多欧洲语言的双语和多语平行语料库,其中t h e c a n a d i a nh a n s a r dc o r p u s n 3 3 是最早的双语语料库,是由加拿大议会会议记录组成。t h e e n g l i s h n o r w e g i a np a r a l l e lc o r p u s 包含了大约2 6 0 力单词,由核心语料库和补充语料 库两部分构成。1 9 9 8 年开始建造n em i l l ec o r p u s ,由三种双语平行语料库构成。该 语料主要是用来研究英国少数民族语言的发展。 除了上述双语平行语料库之外,还有很多多语平行语料库。同那些欧洲语言的双 语或多语平行语料库相比,汉英双语语料库很少,迄今为止,最为著名的就是香港英 语广东华双语平行语料库1 ,它是由香港立法院的会议记录构成。另一个比较著名的 语料库是t h es i n o r a m ac h i n e s e e n g l i s hp a r a l l e lc o r p u s ,其语料来自台湾出版的 s i n o r a m a 杂志,原始的文本是中文,后来被翻译成英语。2 0 0 1 年北京大学计算语言 学研究所丌始建立b a b e l 汉英平行语料库,为新闻领域的机器翻译系统提供翻译实例。 1 2 2 蒙古文语料库研究现状 我国蒙古文语料库语言学的研究是从上世纪8 0 年代丌始的5 t 6 3 。目前为止,最 2 第一章绪论 典型的、最具代表性的研究项目有“蒙古语百万词词频统计研究”和“蒙古语五百万 词的语料库建设”。语料库的内容的选择,从逻辑上讲是越多越好,而月虑包含方方 面面的内容,但因环境、资源、时间、精力、资金以及学科等诸多因素的限制,语料 库的资源不可无限。所以只能采取统计的方法,从众多的科学资源中科学地选择和抽 样选取,并且使语料的数量达到一定的数量级,一般为1 5 0 万5 0 0 万词数量级。 语料抽样选择的总体质量是否恰当,直接影响其结果的代表性、客观性和正确性。 因此,选择语料的基本着眼点应是针对各种类型的蒙古文教学、科研及应用最广泛的 一般需要,满足具有相当于蒙古族中等水平的人在日常工作和社会生活中使用蒙古语 词的需要,并为蒙古语的语言规范化和蒙古文信息处理的标准化以及语言教学和其他 相关科学的研究提供有科学价值的参考材料和数据。 1 2 3 双语对齐语料库研究现状 对齐是在句子,短语和单词水平上的对齐,是构建和开发对齐语料库的核心问题。 句子对齐是单词和短语对齐的基础。由于各种语言之间存在形态变化,实现各个层次 的对齐不是一件微小的工作。 1 2 ,3 1 单词对齐 近年来提出了许多单词对齐算法,比较典型的算法有如下几种: 为了对齐英法两种语言单词b r o w n n 7 3 建立了一个机器翻译模型和一种参数估计 算法,即e x p e c t a t i o n m a x i m i z a t i o n ( e m ) 算法。后来许多研究者包括其本人都对这个模 型进行了多次改进。为了在英语一法浯两种语料库中对齐单词和抽耿术语,g a u s s i e r 州 提出了一种信息网络模型。另一种常用的方法是m c e n e r y 等人使用的d i c e 相似度系 数和动态规划算法,还有一些统计方法、启发式方法等。 以上是欧洲语言有较大影响的单词对应方法,其中有一些方法被应用于汉英单词 的对应,如:w u 根据b r o w n 的工作,采用e m 算法对双语对齐句子进行了单词对齐。 除了利用现有方法外还有一些新的单词对齐方法,如f u n g 等人丌发的k v e c 算法。 k v e c 算法针对汉英双语语料库的特点在无句子对齐的情况下也能得到双语词汇的位 置分布,是一种粗略估计算法。 1 2 3 2 多词单元的对齐 多词单元的对齐方法有很多种,比如:搭配和统计关联度,n g r a m ,近似的字符 匹配技术,有限状态机,双语语法分析树等。 一种典型研究工作是s m a d j a 的搭配翻译系统c h a m p o l l i o n 。首先,给定了句子对 3 内蒙古师范大学硕士学位论文 齐的双语平行语料库和源语言的搭配列表,然后根据这个条件系统产生相应的目标语 言搭配。w u 采用s t o c h a s t i ci n v e r s i o nt r a n s d u c t i o ng r a m m a r s 进行汉英短语的对齐。w u 认为s t o c h a s t i ci n v e r s i o nt r a n s d u c t i o ng r a m m a r s 方法要比p a r s e p a r s e m a t c h 方法好。 p a r s e p a r s e m a t c h 方法首先对各个句子进行句法分析,然后利用启发式算法来匹配句 法结构。 近年来国内许多研究者也致力于这方面,如吕雅娟等人n 们首先利用n g r a m 模型 来获取候选翻译单元,然后根据统计同现频率计算各个候选等价对的翻译概率,再利 用贪心策略实现翻译等价对的自动抽取。常宝宝提出了词语关联度,用该方法对词 组和单位进行识别,同时利用了假设一检验方法对汉英双语语料库抽取翻译等价单位。 屈刚等人乜提出了基于“有效句型 概念和“翻译中相对不变准则 的短语对齐模型 等。 1 3 需要解决的关键问题 ( 1 ) 语料的选择问题:由于本实验性双语对齐语料主要是针对双语教学,所以主 要从双语教学、双语词典中挑选并挑选了少量的政治、新闻方面的文本。 ( 2 ) 标记规范的选择问题:由于蒙古文没有统一的词性标记规范所以词性标记规 范参考了内蒙古大学蒙古学学院的“面向信息处理的蒙古语词语分类及其标记集”。 句子成分标记规范采用了主语谓语宾语定语状语补语这些词的英文单词的第一个字 母。 ( 3 ) 语料标注中的蒙古语言问题:标注是指未经加工语料的分析和供研究者提供 规范的注记工作。标注是语料深加工的重要环节,也是一个语种语料库建设水平的重 要标志他2 l 。本语料在句子一级的对齐基础上实现词级对齐,再标上每个词的词性、句 子成分,其中蒙古文使用了手工标注。 ( 4 ) 语料库的实验工程问题:由于没有现成的双语对齐语料,所以本实验性双语 对齐语料都是手工录入的,工作量大,但语料规模不是很大。 ( 5 ) 实现语料库查询功能:允许用户以蒙文索引、汉文索引进行语料库查询。 ( 6 ) 实现语料结构对齐功能:编程实现蒙文汉文句子的结构对齐。以句法树形式 显示每个蒙文汉文句子的句法结构。 ( 7 ) 设计语料库维护功能:允许用户在使用中随时修改、删除语料库中的某个句 子,允许用户在使用中随时在语料库中添加蒙汉双语对齐句子。本语料库包括添加、 修改和删除等三个语料库维护模块。 4 第一章绪论 ( 8 ) 汉语自动分词问题:汉语词与词之间并没有明显的分词标志,在此情况下要 对汉语进行分词。 1 4 论文组织 本文包括六章内容: 第一章绪论部分主要介绍了课题研究的意义、国内外语料库研究历史及现状和需 要解决的关键问题。 第二章蒙汉双语语料库实验系统的总体设计部分主要介绍了蒙汉双语对齐语料 库的总体设计,有后台的数据库的建立,其中有存放双语语料库的表、蒙文词性标记 的表、汉文词性标记的表、句子成分的表等;有语料库的建立,其中有语料的采集、 语料的加工、语料的组织等。 第三章基于语料库的对齐信息检索工具的设计与实现部分主要介绍了检索工具 的设计、检索对齐句子的实现、重点介绍了检索词汇对齐信息的实现方法以及检索结 构对齐方法的实现等。在当前的双语对齐语料库的研究中,基于结构对齐方法的研究 有很多,本文在借鉴众多研究成果的基础上,根据蒙文和汉文各自的语法特征采用了 短语结构语法的自项向下分析方法并实现了蒙文和汉文各自的句法树。 第四章中介绍了蒙古文输入法按装过程、数据库链接方法以及蒙汉双语语料库实 验系统中不可缺省的维护功能的设计与实现技术。 第五章基于双语语料库实验系统的实例分析部分中演示了实验系统的主界面以 及分析了影响词对齐、结构对齐效率的部分因素,并举了一些特殊实例。 第六章总结和展望部分总结了论文中所作的研究的主要内容,指出了论文中的一 些不足之处,并提出了下步研究构想。 5 内蒙古师范大学硕士学位论文 第二章蒙汉双语语料库实验系统的总体设计 本课题的研究目标是在w i n d o w s 环境下实现具有蒙古文汉文对齐信息的实验性 双语对齐语料库。本双语语料库包括句子查询、词汇查询、词性查询和句法结构查询 等功能。 蒙汉双语对齐语料库的总体设计思想是:首先,对于双语对齐语料库来说其后台 的数据库是必要的。因此要建立几个数据表,有存放语料的表、词类标记规范的表、 句子成分的表等等。其次,要对存放原始语料的表进行加工,以查询词汇、词性、句 子结构时使用。 蒙汉双语对齐语料库包含的主要功能有,句子查询:蒙文句子、汉文句子;词汇 查询:蒙文词汇、汉文词汇:词性查询:蒙文词性、汉文词性;句子结构查询;语料 库维护:添加新语料、修改语料、删除语料。 2 1 总体功能模块设计 图2 - 1 蒙汉双语对齐语料库总体功能模块图 6 第二章蒙汉双语语料库实验系统的总体设计 2 2 双语语料库开发环境和运行环境 2 2 1 开发环境 编程语言:v i s u a lb a s i c n e t 数据库设计:a c c e s s 2 0 0 3 2 2 2 运行环境 硬件要求: c p u :奔腾2 8 g h z 及以上,内存:2 5 6 m b 及以上,显示卡:标准v g a 2 5 6 色显 示模式以上 软件要求:w i n d o w s2 0 0 3 x p ,o f f i c e2 0 0 3 2 3 数据库建立 本语料库以数据库系统为基础来建立,由于没有现成的双语资源全部双语信息都 是手工录入,所以本实验性双语对齐语料库的规模不是很大,因此采用了a c c e s s 数 据库来建立了数库。在数据库中设计了多个表,分别存放双语语料、词性标记规范和 句子成分标记规范等。 下面介绍数据表的结构设计: 表2 1 双语语料表的各个字段及其属性 字段名称数据类型字段大小必须字段说明 汉文语句文本 2 5 5 日 不允许空字符串疋 蒙文语句文本 2 5 5否 允许空字符串 对齐句子文本 2 5 5 否允许空字符串 蒙文句法结构文本 9 5 5 刁f 二 允许空字符串 u 汉文句法结构文本 2 5 5 否允许空字符串 蒙汉双语语料表以汉文语句字段为索引字段,采取一对一的录入方式。现举一些 蒙汉双语对齐语料库中的特殊对应关系。 蒙汉双语对齐语料库中的特殊对应关系: ( 1 ) 有些汉语动词短语对应蒙语动词 7 内蒙古师范大学硕士学位论文 例如,【驾驶员n g 一 文蛩靠“n e l 】s 被p 指控v t 一 叩龟r 弋队v e 2 】p 【超 i 塞v i “寸h 一带b 吣一v p 】c 。w p “w p l 】 ( 2 ) 有些蒙语动词短语对应汉语动词 例如,【将军n g f n e l s 【正在d 一 弋一h 一1 ) c 】d 【检阅 v t 一 甜婀节删州、v p p 军队n g 噌八小h 小n e l o 。 w p - w p l 】 ( 3 ) 蒙语的数词很多情况下对应汉语的数量词 例如,【晓f l n h 卜$ 、n t l 】s 是v l - q a s d p - - m + q 一 小m l 十分d - 吣n oa a c i 聪明a q 氏r 秸a c a 【的u - 】【孩子 n g p 叼o n e l o 。w p 。 w p l ( 4 ) 有空对齐 【假如c - 卜婶、c b i 有v t 一 合吲时c b i 什么r - - 一 l 不对a q - 蝌a c 】d 【, w p i w p l 不要v t 氨飞r 一v e 2 卜隆v t 钒咒口 代_ v p p 我 r - y 、小爪b 】o 【。w p w p l 】 【她r a 百r b i 使p 】a 【婴儿n g 一 如、h 低广“n p s 安静 a s b 昭a c d f i 睡v i 甘邸成1 垤2 】p 【。w p w p l 【她r - a 响r 一6 r b i 所p 讲v t - n 妇n 、v e 2 a 【的u 一 】【话 n g 一 弋卜、n e 2 s 都d 鼠汴d x 】d 【是v l - p 【真t 拘a q 一 、一a c 】o 【。 w p - w p l 】 【她r 一 c 、弋r b 】s 【要v 一 i 和c - 工;q l 她卜一 i 父n g 一 晶n e l l 母n g - 7 n e l d 【 去v d 一 、隋心 v e 2 p 【 度假 n g 一 “吲一m 瞅n p 】o 【。w p w p l 表2 - 2 汉语词类标记规范表的各个字段及其属性 字段名称 数据类型字段大小 必须字段说明 标记代码文本5 0是不允许空字符串 类别名称文本 5 0否 允许空字符串 汉语词类标记规范表以标记代码字段为索引字段。 8 第二章蒙汉双语语料库实验系统的总体设计 表2 - 3 蒙语词类标记规范表的各个字段及其属性 字段名称数据类犁字段大小必须字段 说明 标记代码文本 5 0 日 不允许空字符串疋 类别名称文本5 0否允许空字符串 蒙语词类标记规范表以标记代码字段为索引字段。 表2 - 4 句子成分表的各个字段及其属性 字段名称 数据类型字段大小 必须字段说明 句子成分文本5 0 日 不允许空字符串疋 表示意义文本5 0否允许空字符串 句子成分表以句子成分字段为索引字段。 2 :4 双语对齐语料库的构建流程 任何语料库研究均开始于语料库体的建立,语料库的设计及选材几乎控制以后所 要做的一切语料库的研究工作,研究结果的好坏只与语料库的建设质量有关瞳引。构建 双语对齐语料库的核心任务是双语语料的加工和语料的组织,为了更好地开展这两项 工作,保证语料库的质量和规模,并且合理、有效地推进语料库建设,我们需要一个 相对完整、便于操作的语料库构建流程。为此,我们对双语语料本身以及语料的整理 和加工、语料库的组织和检索等项任务进行了考察,分析问题的复杂性,初步形成了 一个双语对齐语料库构建流程的模型。 9 内蒙古师范大学硕士学位论文 2 5 语料的建立 2 5 1 关于语料库 图2 2 双语对齐语料库构建流程模型 语料库( 英文为c o r p u s ) 是存储语言材料的仓库。现代的语料库是指存放在计算 机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。是本世纪中叶开 始的语言研究科学。语料库分为生语料库熟语料库、系统型语料库专用型语料库、 单语种语料库多语种语料库口引。生语料库就是未经加工的,没有任何切分,标注标记 的原始语料库,熟语料库就是指经过加工,带有切分,标注标记的语料库。系统型语料 库就是依据事先确定的选材原则和比例选取语料的语料库,专用型语料库就是指专门 服务于某个特定目的的语料库。生语料一般不能直接在自然语言处理中应用,需要进 行加工并从中抽取有用的信息心引。对双语语料库的加工方式之一就是在各层次实现对 齐。就比如按篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等乜引。 实现各个层次的对齐是双语语料库建设的一项重要内容7 1 。 1 0 第二章蒙汉双语语料库实验系统的总体设计 2 5 2 关于语料的建立 2 5 2 1 语料的采集 语料库建设的工作量极大,因为一个有实际应用价值的语料库决不是任意文本的 任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细的设计, 只有这样才能保证所投入的工作是值得的。我们认为,设计一个双语语料库,首先应 该考虑语料库的应用目标。语料的收集、语料的构成以及对语料的加工应该紧紧围绕 语料库的应用目标进行。作为服务于一个双语教学领域的语料库而言,在语料的收集、 加工等方面,应该跟服务于其他目的( 比如语言研究) 的语料库有所区别。在对语料 的内容、语料库中的文本类型、语料库的结构进行选择时,应以是否有助于双语教学 为准则进行。 在进行语料采集时,需要考虑两点因素:一是原始语料本身的质量,二是语料库 的应用目标但田。语料的质量主要就其语言质量、翻译质量及语料保存的规范性而言。 本人收集的双语对齐语料是从双语教学、词典、政治教材上挑选录入的。由于本语料 是实验性的研究语料所以规模不是很大,但以后真正研究时就需要大量的语料,这时, 可能会在因特网上下载。语料的采集还应根据语料库建设的近期目标和长远目标灵活 安排。 2 5 2 2 语料的加工 语料的加工是语料库系统性构建中的一个重要环节。本语料以数据库形式存储了 蒙汉双语对齐的句子,所以该语料首先保证了句子一级的对齐。其次在句子一级的对 齐上做了以下标记: ( 1 ) 把对齐的句子按词来切分; 例如,我和是泸学生h 哪p q 卟。 ( 2 ) 把切分好的句子标上词性; 例如,我r - e “r b 是v ! - 萨s d 学生n g 一 h 吖口_ 小e 1 。w p 一 w p l 其中rr b 代表代词,v l 代表联系动词,s d 代表提示语气词,n gn e l 代表名 词,w pw p l 代表标点符号。 该语料中汉语使用的词性标电是2 0 0 6 年9 月1 8 同发布并2 0 0 7 年3 月1 日实施 的信息处理用现代汉语词类标记规范( 具体看附录1 ) 。由于蒙古语词到现在为止还 没有统一的标记规范,所以蒙古语词参考了内蒙古大学蒙古学学院的“面向信息处理 的蒙古语词语分类及其标记集”( 具体看附录2 ) 。 ( 3 ) 在对齐的句子上标注句子成分; 内蒙古师范大学硕士学位论文 例如,【我r - 孙r b l s 【是v l s d l p 【学生n g - h 州f q n e l o 【。 w p 一 w p l 】 其中s 代表主语,p 代表谓语,0 代表宾语。 对句子成分的标注说明如下( 分别取为英文单词的头一个字母) : s :主语 p :谓语 o :宾语 a :定语 d :状语 c :补语 2 5 2 3 语料库的组织 检索语料库时后台的数据库是必不可少的。整理和加工后的语料通过数据库表组 织成一个字段,为程序检索提供方便。在数据库中有多个表,它们在数据库中以关联 结构成为一个整体。在主表中记录了语料库中出现的所有的蒙文句子、汉文句子、对 齐词汇、蒙文句子结构和汉文句子结构等。在从表中记录了蒙古文、汉文标t 己符号及 这些符号所表示的意义。 1 2 第三章基于语料库的对齐信息检索工具的设计与实现 第三章基于语料库的对齐信息检索工具的设计与实现 蒙汉双语对齐语料库的本身就是一个创新点。本文建立的语料库中蒙古文使 用国际标准编码( u n i c o d e 编码) 。创建的2 0 0 0 条以上蒙汉双语对齐语料库语料来源比 较规范和标准。 3 1 语料库对齐信息检索工具的设计 本检索工具的设计思想:检索软件后台的数据库中有蒙汉两种语言的信息,因此 设计检索工具时要有两种语言的检索功能,使得任何一种语言来搜索,都能搜索到另 一种语言的对应信息。 具体搜索到的信息包括蒙汉两种语言的句子层次的对齐信息;还可以检索到句子 内部词汇层次的对齐信息以及两种语言的词性、句子成分、句法结构等语言知识信息。 检索工具的功能包括:蒙文句子查询、汉文句子查询、对齐词汇查询、句子成分 查询以及蒙汉两种语言各自的句法结构等。 具体的功能模块图如下: 图3 - 1 语料库对齐信息检索工具设计幽 3 。2 语料库对齐信息检索工具的实现 3 。2 。1 句子对齐信息检索工具的实现 实现各个层次的对齐是双语语料库建设的一项重要内容。句子对齐方法基本可以 1 3 内蒙古师范大学硕士学位论文 分为三类: 基于长度的方法m 机。州:最初 = h b r o w n 军n g a l e 提出,其依据是两种语言译文的长度 满足一定比例关系。他们在英法双语的加拿大议会会议录上取得了较好的对齐效果。 清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于m i c r o s o f tn t 3 5s e r v e r 安装指南和法律文献的汉英双语句子对齐,获得了试验结果。 基于词汇的方法“3 引:k a v 和c h e n 则分别根据双语单词的分布信息和词汇翻译模 型进行了英德和英法双语句子对齐。文献n 们直接利用双语词典对大学英语教材做了句 子对齐,也取得了令人满意的效果。 混合方法n 钔:基于长度的对齐方法模型比较简单,独立于语言知识和其他外部资 源,但鲁棒性不好,容易造成错误蔓延。基于词汇的对齐方法相对可靠精确,但计算 相当复杂。研究人员试图将这两种方法结合起来进行句子对齐。香港大学w u 通过创 建特殊词表来对基于长度方法进行了改进,并对在香港立法委员会会议记录上做了对 齐试验,取得较好结果。 本语料以数据库形式存储了蒙汉双语对齐的句子,所以该语料首先保证了句子一 级的对齐。在本文中两处用到了查询功能。一是在主界面上,通过往查询框中录入待 查询的词汇来获得其对应的信息。二是在一的查询结果的基础上获取鼠标点击的蒙文 汉文句子再次查询数据库获取相应的句法结构。 查询时首先判断查询的关键字是蒙古文还是汉文。如果输入的关键字是蒙古文那 么就在数据库蒙文语句字段中查找所匹配的句予,如果输入的关键字是汉文那么就在 数据库汉文语句字段中查找所匹配的句子。 查询有二种:精确查询和模糊查询。本双语对齐语料库的句子、词汇部分采用的 查询是模糊查询,在此用到的模糊查询有连续字符的模糊查询和不连续字符的模糊查 询等。连续字符的模糊查询,如:在实验系统中录入类似“我是”这两个词的时候会 显示所有的以“我是 开头的蒙汉双语对齐的句子。显示结果如图3 2 所示。 1 4 第三章基于语料库的对齐信息检索工具的设计与实现 图32 连续字符的模糊查询结果图 不连续字符的模糊查询,如:在实验系统中录入类似“ 我是我料是 我$ 是”时会显示所有的蒙汉双语对齐的此类型的句子。显示结果如图3 - 3 所示。 幽33 不连续字符的模糊奇询结果图 内蒙古师范大学硕士学位论文 实现句子查询功能的程序流程图如图3 - 4 所示。 图3 4 句子查询功能的程序流科图 检索双语对齐语料库中对齐句子的核心代码如下: d i m s q l s t ra ss t r i n g d i ms t r t e x ta ss t r i n g 1 6 第三章基于语料库的对齐信息检索工具的设计与实现 s t r t e x t = t e x t b o x l t e x t 0 获取输入串 d i mi ta si n t e g e r d i m s t r t e m pa ss t r i n g d i m t e m pa ss t r i n g t e m p = ” 丰构造模糊查询匹配串宰 f o rt t = 0t os t r t e x t l e n g t h - 1 n e x t i f ( s t r t e x t c h a r s ( t t ) = ”) t h e n t e m p = t e m p ” e l s e t e m p = t e m p s t r t e x t c h a r s ( t t ) e n di f 宰利用编码范围区分输入串是汉文还是蒙文,若输入串是汉文则在“汉文语 句”字段中查找,否则在“蒙文语句 字段中查找t i f ( s y s t e m t e x t r e g u l a r e x p r e s s i o n s r e g e x 1 s m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年性病科常见性传播疾病诊疗挑战答案及解析
- 学校学生文明常规管理细则(2025年修订版)
- 工厂安全培训文本内容课件
- 广东省茂名市高州市部分学校联考2024-2025学年七年级上学期11月月考生物试题
- AFC检修工必知必会练习试题附答案(一)
- 2025年科技创新券资金申请政策解读与科技企业孵化器报告
- 行政改善提案管理办法
- 甘肃违规接待管理办法
- 专人监护管理暂行办法
- 污水管网清淤与维护管理方案
- 学校和教练协议书
- 2.1.充分发挥市场在资源配置中的决定性作用 课件高中政治统编版必修二经济与社会
- 早稻栽培管理关键技术
- 2014版SA8000社会责任管理体系管理手册
- JT-T-1178.2-2019营运货车安全技术条件第2部分:牵引车辆与挂车
- 人教部编版小学四年级上册道德与法治全册教案
- 剪叉式升降工作平台作业专项施工方案24
- (2024年)知识产权全套课件(完整)
- 阀门试压方案样本
- 电力线路保护工作手册样本
- 儿内科内分泌疾病诊疗规范2023版
评论
0/150
提交评论