




已阅读5页,还剩122页未读, 继续免费阅读
(中国少数民族语言文学专业论文)现代蒙古语依存句法自动分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
: j 分类号 ud c 论文题目 iiiiii-iiuiii。ii孑iiulll。lll。llll 学校代码:1 0 1 2 6 学号:2 0 7 0 1 0 1 6 密级 编号 研究生:逝:莹揸蕴 指导教师:垡迦室教援 学科专业:生国尘数民筮适直塞堂 研究方向:苤直塞信:息处理 院( 系、所) :墓直堂堂院 2 011 年5 月2 5 此项研究得到国家自然科学基金项目( 6 0 7 6 3 0 3 3 ) 、国家社科基金项 目( 1 0 c y y 0 2 2 ) 、教育部人文社会科学研究项目( 0 9 y j c 7 4 0 0 4 5 ) 的资助。 j 易 ,i 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究】:作及取得的研究成 果。除本文已经注明引朋的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得凼鏊直太堂及其他教育机构的学位或证书而使用过的材料。与我一同二i :作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名:自潋 1 3期:墨型! :丝 指导黼签名:摊幺 日 期:查! f :笪, 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使川学位论文的规定。即:内蒙古火学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印什和磁盘。允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后 使用涉及在学期间主要研究内容或研究成果。须征得内蒙古人学就读期间导师的同意;若朋 于发表论文,版权单位必须署名为内蒙古人学方可投稿或公开发表 学位论文作者签名:墓雠 日期:2 2 么堑 ,指导教师签名:雅 日 期:丝如上! 丝 萋客之爿鸯主一m矛己才善言寻童至丈垂妻o:妻乙室鼍 a茎芽m手菱彤爱妻乏辜垂i。墨才量才旱男妻乏j黑。娶手a之;:蚤。霉i乏乏之妻圣萎u雪芰垂锯至多了萋墨至喜乏善主善 a v弓t牙量垂牙沁乱象3之妻茎秀乙i凹墨j量r葛乏毋菱垂男菱乏 垂宁习毋垂牙沁。雪乃牙过雪: 重蚕丑之,量母霉霉i季委乃们。乏;萋毒要乏善乏毋拳委勇乏v善乏母寸羹男乏才m暑宇习又墨予主妻q口毛墨j葺量才萎暑t乏习霉。 宇君乃q口马殳5乏多孑浔吞q口子雹i孕菱墨寸习量t銎(i i : 苯垂盘喜丑之鑫委委o i交妻季哮霉乏乏乏雪乏:】乏乏乏6i丢 宇垂篓手殳妻之拳委寻象墨量乏导京墨手主t暑:v垂墨垂薹乏田拳委丑垂乱蚤(i墨至乏之萋蚤号乏回垂。 岔乏。予雹r、tj季、牙1 妻冤乱j主算元炙式乏妻之免墨才量r瓦乏si妻象乙呈3主一v荟乏回丢垂委。喜才吝宇a未要乏母妻墨u芰乏鼋q6i乏 f季乏芜j疋萝各乏gi妻男冬妻妻岔才乏d,差至乏a 耄曼才吝乏另盘耋妻乏毋丢垂夏鸯喜丑乏鑫差。菱殳碧;:罢蚕冬未妻了i季塞。要呈手考呈乏曼k象垂丑之乏i曲羞趸 垂妻墨善乏gi垂乏勇冬手丈菱j委才耄乏差善乏毋摹垂聿、 至乏等霉 毒莠j乏萋乏6i茎夏走者考宇是9芽量丑乏冬霄遣 拿鼍e 至;丢复u o芋r之;才当乏夏;犷之拿殳乏季号;妻丑乏;垂夏o aa装垂: 雪妻妻乏舅妻勇乙营;乃要乏妻。舅迳罢萋717要。长弓们 垂喜音芝妻嚣。蚤妻舅夏呈委萎乏母雪戈妻乙舅u了垂菱秀至鼋免。丢垂丑乏。蚤。妻乏舅葛复乏乏。萋乏乙|孕乏乎元u?争习争乏r乳己噩乏雪了彳圣茑之童耄爻垂j习乏乎召2墨j浔乏 戈: 妻砖a习萎宇|鼍爿寻霉亍玉寸考乏乏妻了毒丢牙d童妻们v手r乏6i复委一勇。垂宇是毋垂碧殳乏象3a垂垂m酉鼍。娶予a亨:q口fv 銎(i主善墨u辜豆芝乏蠡戈t己多乃委: 量乃算釜客乏芋,重蒌泵q口(垂a哮丢雪言曩嚣量:量t妻 摘要 现代蒙古语依存句法自动分析研究 摘要 本文在蒙古文传统语法研究成果的基础上,充分利用已有的句法分析方法和蒙古文 信息处理成果,并借鉴了其它语言句法分析的成功经验设计实现了基于依存语法的蒙古 语自动句法分析系统。本文从以下几个方面对蒙古语依存句法进行研究并做了试验。 1 ) 在分析归纳蒙古语句子词语之间的依存关系的基础上借鉴其它语言成功的句法 标注体系,研制了基于依存语法的蒙古语句法标注体系。 2 ) 研制了一套基于规则的蒙古语依存句法分析器,在规则描述中采用了上下文相关 的多标记节点描述模型。该分析器所用到的静态信息均来自机器词典。为了提高 词典的查询速度,采用了基于有限状态自动机的蒙古语词典数据组织模型。 3 ) 利用蒙古语依存句法标注体系和基于规则的自动分析软件,通过自动分析和人工 标注的途径构建了具有5 0 余万词的蒙古语依存树库。 4 ) 研制了一套基于统计方法的句法分析器,句法分析器的评测和统计模型的训练均 采用了上述树库资源。之后又对基于规则的分析器和基于统计的分析器进行了融 合,研制了一种基于混合策略的句法分析器。其中,统计方法采用了词汇依存概 率模型。为了提高分析器的运行速度,预先建立了统计信息库,并采用了与机器 词典相同的数据组织模型。 5 ) 设计实现了蒙古语依存树库管理软件。该软件具有图形化的句法树显示功能和较 为完善的树库编辑、查询和统计功能。 我们在上述依存树库上通过自动评测软件对上述基于规则的、基于统计方法的和基 于混合策略的三种不同类型的句法分析器分别进行了性能测试,实验结果表明基于混合 策略的依存分析器性能最好,其无标记准确率、有标记准确率和核心词查准率分别达到 了7 7 1 8 、6 9 9 0 0 5 和9 5 4 4 。 关键词:现代蒙古语;依存语法;树库;句法分析;句法标注 r e s e a r c ho na u t o m a t lcd e p e n d e n c yp a r sin g f o rc o n t e m p o r a r ym o n g o lla nl a n g u a g e a b s tr a c t i nt h i sp a p e r ,o nt h eb a s i so ft h er e s e a r c ho ft r a d i t i o n a lm o n g o l i a ng r a m m a r a n ds u c c e s s f u le x p e r i e n c e si no t h e rl a n g u a g es y n t a c t i cp a r s i n g , w et a k ef u l l a d v a n t a g eo fe x i s ti n gp a r s i n gm e t h o d sa n dr e s u l t so fm o n g o li a ni n f o r m a ti o n p r o c e s s i n g ,d e s i g n e da n di m p l e m e n t e dam o n g o l i a na u t o m a t i cs y n t a c t i cp a r s i n g s v s t e mb a s e do nd e p e n d e n c yg r a m m a r t h ew o r ki nt h i sp a p e rf a l l si n t of i v ep a r t s t h a ti n c l u d e s : 1 ) a f t e ra ni n d e p t hs t u d yo nr e l a ti o n sb e t w e e nw o r d si nm o n g o l i a nt e x t ,a n d r e f e rt ot h es u c c e s s f u le x p e r i e n c e so fo t h e rl a n g u a g es y n t a c t i ca n n o t a ti o n s c h e m e ,w ed e v e l o p e dam o n 9 0 1 i a ns y n t a c t i ca n n o t a t i o n s c h e m eb a s e do n d e p e n d e n c yg r a m m a r 2 ) ar u l e - b a s e dd e p e n d e n c yp a r s e rf o rm o n 9 0 1 i a nl a n g u a g ei sd e v e l o p e d i nt h e r u l ed e s c r i p t i o nw eh a v ep r o p o s e dam u l t i t a gn o d ed e s c r i p t i o nm o d e l i nt h e r u l e - b a s e dp a r s e r ,a l ls t a t i ci n f o r m a t i o ni sc o m ef r o mm a c h i n ed i c t i o n a r i e s , i no r d e rt oi m p r o v et h eq u e r ys p e e do fd i c t i o n a r yw ep r o p o s e dad a t a o r g a n i z a t i o nm o d e lf o rm o n g o l i a nl a n g u a g eb a s e do n f i n i t es t a t ea u t o m a t a 3 ) u s i n gt h ea n n o t a t i o ns c h e m ef o rm o n g o l i a nd e p e n d e n c yr e l a t i o n s a n dr u l e b a s e d p a r s e r ,a n dt h r o u g ha na u t o m a t i ca n a l y z i n ga n dm a n u a lp r o o f r e a d i n gs t r a t e g y w eh a v ee s t a b l i s h e dam o n g o i i a nd e p e n d e n c yt r e e b a n k ,w h i c hi n c l u d e sa b o u t 5 0m i l l i o nw o r d s 4 ) u s et h et r e e - b a n ka st r a i n i n gc o r p o r a ,a n o t h e rd e p e n d e n c yp a r s e rf o r m o n g o li a n 1 a n g u a g eb a s e do ns t a t i s t i c a lm e t h o d sh a v e b e e nd e v e l o p e d a n dt h e n ,w e i n t e g r a t e dt h et w ot y p eo fp a r s e rd e v e l o p e dah y b r i ds t r a t e g y b a s e dp a r s e r i nt h em o n 9 0 1i a nd e p e n d e n c yp a r s i n gs y s t e m ,t h ep a r s e rb a s e do ns t a t is ti c a l m e t h o dh a su s e dt h el e x i c a ld e p e n d e n c yp r o b a b i i i t y m o d e l s i no r d e rt oi m p r o v e t h es p e e do fp a r s i n g ,w eh a v ep r e e s t a b l i s h e das t a t i s t i c a li n f o r m a t i o nb a s e , a n dt h eb a s eu s e st h es a m ed a t ao r g a n i z a t i o nm o d e la sm a c h i n ed i c t i o n a r i e s 5 ) am a n a g e m e n ts o f t w a r ef o rm o n g o l i a nd e p e n d e n c yt r e e b a n kh a sb e e nd e s i g n e d a n di m p l e m e n t e d t h i ss o f t w a r eh a sf u n c t i o n so fd i s p l a y ,e d i t ,s e a r c ha n d c o u n tf o rt r e e b a n k s f i n a l l y ,t h r o u g ht h eh e l po ft h ed e p e n d e n c yt r e e b a n ka n de v a l u a t i n gt o o l s , w eh a v ee v a l u a t e dt h ep a r s e rb a s e do nr u l e s ,b a s e do ns t a t i s t i c a lm e t h o da n d b a s e do nh y b r i ds t r a t e g y e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep a r s e rb a s e do n h y b r i ds t r a t e g yh a sag o o dp e r f o r m a n c e ,i t su n l a b e l e da n n o t a t i o ns c o r e ,l a b e l e d a n n o t a ti o ns c o r ea n dh e a d w o r da n n o t a ti o ns c o r eh a sr e s p e c ti v e l yr e a c h e d7 7 1 8 , 6 9 9 0 a n d9 5 4 4 k e y w o r d s :c o n t e m p o r a r ym o n g o l i a nl a n g u a g e ;d e p e n d e n c yg r a m m a r ;t r e e b a n k ; s y n t a c t i cp a r s i n g :s y n t a c t i ca n n o t a t i o n v 目录 目录 蒙文摘要i 中文摘要 a b s t r a c t 】f l , 第一章绪论1 1 1 选题背景及研究意义l 1 2 研究基础3 1 - 2 1 与传统蒙古语句法研究之间的关系3 1 2 2 蒙古语文信息处理中的相关研究3 1 2 3 其它语言依存句法分析及树库建设研究4 1 3 研究方法6 1 3 1 采用依存语法的原因6 1 3 2 常用依存分析模型7 1 3 3 基于规则和统计的句法分析方法8 1 4 研究内容及创新点9 1 4 1 内容9 1 4 2 仓u 新点1 0 第二章蒙古语依存关系标注体系一1 1 2 1 几个典型的句法标注语料库1 1 2 2 蒙古语依存关系标注体系1 2 2 2 1 蒙古语依存关系标记集1 2 2 2 2 蒙古语依存关系的表示方法1 4 2 2 3 蒙古语依存关系分类及标注规范1 4 2 2 4 标注形式2 3 2 2 4 1 括弧标注形式2 3 2 2 4 2 树形标注形式2 4 2 3 本章小结2 5 第三章蒙古语依存分析中的资源建设2 7 3 1 树库2 7 3 1 1 机器标注2 8 3 1 2 人工校对2 9 3 2 机器词典3 1 3 2 1 词典组织结构3 2 3 2 2 词条查找算法3 4 3 3 统计信息库3 6 3 4 实验及分析3 8 3 5 本章小结一3 9 第四章基于规则的蒙古语依存句法分析4 0 4 1 规则描述体系”o ”4 0 4 2 形式规则中的符号说明4 2 4 2 1 符号4 2 4 2 2 函数及表达式? 4 3 4 2 3 细分类标记4 4 4 2 4 相关定义4 5 4 3 句子切分4 5 4 4 句法片段识别4 6 4 5 蒙古语依存关系规则集4 7 4 5 1 片段内依存关系识别规则4 8 4 5 1 1 体述关系识别规则4 8 4 5 1 2 定体关系识别规则5 1 4 5 1 3 状述关系识别规则5 4 4 5 1 4 直接宾述关系识别规则5 6 4 5 1 5 间接宾述关系识别规则5 7 4 5 1 6 辅助关系识别规则5 8 4 5 1 7 联合关系识别规则6 2 4 5 2 片段之间的依存关系识别6 4 4 。6 实验及分析6 5 4 7 本章小结6 5 第五章基于规则和统计的蒙古语依存句法分析6 6 5 1 基于统计的依存句法分析模型6 6 5 2 蒙古语词汇依存概率模型6 6 5 3 依存概率计算6 7 5 4 模型训练6 8 5 5 基于统计的依存句法分析6 9 5 6 规则和统计相融的蒙古语依存句法分析“”7 0 5 6 1 算法描述7 0 5 6 2 算法示例7 2 5 7 实验及分析7 7 5 7 1 三种分析器总体性能的对比分析7 7 5 7 2 依存距离的统计与分析7 8 5 7 3 依存类型的统计与分析0 0 d 0 0d 8 0 5 7 4 句子长度的统计与分析8 l 5 8 本章小结8 2 第六章蒙古语依存句法分析软件8 3 v 。 目录 6 1 如p s 软件结构8 3 6 2m d p s 软件功能8 4 6 2 1 文本分析8 4 6 2 2 树库操作8 5 6 2 2 1 树库显示8 5 6 2 2 2 树库编辑8 6 6 2 2 3 树库检索8 7 6 2 3 评测8 9 6 3 本章小结9 0 结论“”一”“”“”一“一“一”“9 1 参考文献9 3 9 忖蜀匙”“”“”“”“”“一”“一”“”“”9 8 附录l 信息技术信息处理用蒙古文词语标记集一9 8 附录2 采用括弧标注形式的蒙古语依存树库样例1 0 6 附录3 采用树形标注形式的蒙古语依存树库样例1 0 8 攻读博士学位期间发表的论文1 1 0 致谢”:i i i 饿 。 第一章绪论 1 1 选题背景及研究意义 第一章绪论 蒙古语文信息处理工作始于2 0 世纪8 0 年代。经过3 0 余年的努力,语料库、语法 信息词典等基础性建设初具规模,编辑排版系统、办公软件等已实用化,各种蒙古文网 络资源也正在稳步增长。 蒙古语文信息处理虽然起步较晚,但发展很快。从处理层面上看,初步完成了字、 词处理阶段的基本任务,现已步入句处理阶段。句处理是自然语言信息处理最关键的一 个环节,它不仅为以后的篇章处理以及语义分析打基础,还可以为词义消岐提供诸多有 效信息。 句法分析及树库资源的建设具有相互促进作用,自动句法分析为建设大规模树库提 供了可能性,而树库为自动句法分析提供了训练和评测的平台。英语、日语、汉语等语 言在树库建设和句法分析器的研制方面都获得了可喜的成果。通过国家自然科学基金和 社会科学基金的资助,我们已完成了短语的边界识别和结构关系判定以及谓语段自动识 别等浅层句法分析工作。目前,通过国家自然科学基金项目现代蒙古语树库的构建 n 1 ,正在进行树库资源的建设和自动句法分析研究。本文的研究内容是这一项目的主要 组成部分。 从理论上讲,自然语言信息处理应分为字、词、句子和篇章处理四个层次来展开脚。 其中旬处理起着承上启下的作用,是底层核心技术之一。句法分析工作包含两方面的内 容,一方面是根据被分析语言的特点选择合适的语法体系,然后用该语法体系形式化描 述语法结构,另一方面是研究分析技术,自动推导句子的语法结构,分析句子所包含的 句法单位以及它们之间的关系。 纵观各种语言以往的句法标注及分析情况不难发现短语结构语法占据着主流地位, 但近年来,依存语法由于其形式简洁、易于标注、便于应用等特点受到了研究人员的重 视,并在英语、日语、汉语、德语、捷克语等语言句法分析中得到了广泛应用,在被应 用的过程中依存语法本身也得到了发展和完善。c o n l l ( c o m p u t a t i o n a ln a t u r a l l a n g u a g el e a r n in g ) 国际会议从2 0 0 6 - - - 2 0 0 9 年连续四次把依存句法分析的评测列入其 1 华沙宝,国家自然科学基金项目现代蒙古语树库的构建( 项目编号:6 0 7 6 3 0 0 3 ) ( 2 0 0 8 0 i 0 1 2 0 1 0 1 2 3 1 ) 。 2 那顺乌日图,蒙古文信息处理,内蒙古科学技术出版社,呼和浩特,1 9 9 8 ,p 2 6 。 1 , , , 内蒙古大学博士学位论文 共享任务n 卅,由此可以看出句法分析和标注采用依存语法是未来的研究热点和发展趋 势。 蒙古语文信息处理初步完成了字、词处理阶段的基本任务,现已步入句处理阶段。 我们已完成了短语边界界定、短语结构关系识别以及谓语段自动识别等浅层句法分析任 务,正在向完全句法分析阶段迈进。该阶段的主要工作包括研制自动句法分析器和句法 标注体系,构建相当规模的树库资源和研制高效的句法分析器。这对于提高蒙古语机器 翻译、句法校对、信息抽取以及自动问答等上层应用系统的性能有着直接的帮助。之前 我们所做的词处理阶段的工作大部分都是针对静态词而进行的。在具体语言环境中,词 的动态分析要借助于句法分析结果,这也是词义消岐所需要的。词义消岐中面临的最大 的问题就是上下文特征的选择啼1 ,然而,依存句法分析能够建立句中词语之间的直接联 系,能够优化词义消岐的特征选择过程。我们所构建的依存树库为现代蒙古语句法分析 提供训练语料和评测依据以外,也可以为句法研究提供各类统计数据。比如,句型统计、 充任主、谓、宾、定、状等五大句子成分的各类词语的使用频率统计、依存距离的统计 等等。通过大规模的真实文本的树库构建实验,可以发现许多新的语言现象,为语法理 论提供丰富的研究素材,使理论体系得到不断地改进和完善1 。另外,我们的树库语料 来自1 0 0 万词级现代蒙古语语料库中的初、高中语文部分,这对编写蒙古语文教材也有 一定的参考价值。 自然语言处理的目标是要达到语言的语义一级的理解,消除各种歧义是达到这一目 标的必经之路。而真正的歧义消解需要语义、语用等更深层次的分析技术,句法分析作 为中间环节和核心技术决定着底层分析的好与坏,成与败。本文研究成果说明,句法分 析为蒙古语文信息处理的应用研究和基础研究提供了底层技术支持,为语法理论的验证 提供了统计依据。 1 s a b i n eb u c h h o l z ,e r w i nm a r s i ,c o n l l xs h a r e dt a s k :m u l t i l i n g u a ld e p e n d e n c yp a r s i n g ,h t t p : n e x t e n s u v t n l c o n l i 。p 1 4 9 1 6 4 1 2 2 j o a k i mn i v r e ,j o h a nh a ll ,s a n d r ak u b l e re ta l ,t h ec o n l l 一2 0 0 7s h a r e dt a s ko nd e p e n d e n c yp a r s i n g ,i n p r o c e e d i n g so ft h ec o n l ls h a r e dt a s ks e s s i o no fe m n l p - c o n l l2 0 0 7 ,2 0 0 7 ,p 9 1 5 9 3 2 3 3m i h a is u r d e a n u 。r i c h a r dj o h a n s s o n ,a d a mm e y e r se ta l ,t h ec o n l l 一2 0 0 8s h a r e dt a s ko nj o i n tp a r s i n g o fs y n t a c t i ca n ds e m a n t i cd e p e n d e n c i e s ,i np r o c e e d i n g so ft h e1 2 t hc o n f e r e n c eo nc o m p u t a t i o n a ln a t u r a l l a n g u a g el e a r n i n g ,2 0 0 8 ,p 1 5 9 1 7 7 4 j a nh a j i 6 ,m a s s i m i l i a n oc i a r a m i t a ,r i c h a r dj o h a n s s o ne ta l ,t h ec o n l l 一2 0 0 9s h a r e dt a s ko ns y n t a c t i c a n ds e m a n t i cd e p e n d e n c i e si nm u l t i p l el a n g u a g e s ,i np r o c e e d i n g so ft h et h i r t e e n t hc o n f e r e n c eo n c o m p u t a ti o n a ln a t u r a ll a n g u a g el e a r n i n g ,2 0 0 9 ,p 1 1 8 5 马金山,基于统计方法的汉语依存句法分析研究,哈尔滨工业大学博士学位论文,2 0 0 7 ,p 6 。 6 周强,汉语句法树库标注体系,中文信息学报,2 0 0 4 ( 4 ) ,p 1 8 。 2 1 2 研究基础 1 j2 1 与传统蒙古语句法研究之间的关系 依存语法试图用形式化的方法去描述句中词语之间的支配和被支配关系,因此词类 和词语间的关系正是它的研究对象。在现代蒙古语语法论著及相关学术论文中都可以 找到前人对蒙古语词类划分、词组的结构、功能、成分之间的结合方式以及句法结构、 句模、旬式、句法分析方法等方面的研究。这些成果是进行蒙古语依存句法分析研究的 理论基础。其中,词组内部关系的分类以及句子成分的划分是本文研究中确定句法关系 标注集和标注规范的主要依据,关于各种词类的句法特征以及构形词缀的功能、用法方 面的规则性描述是识别近距离依存关系的主要依据。 1 2 2 蒙古语文信息处理中的相关研究 在语料库建设方面,内蒙古大学蒙古语文研究所用8 年( 1 9 8 4 1 9 9 1 ) 的时间构 建了1 0 0 万词级现代蒙古语语料库,并通过两次扩充目前已达到了1 0 0 0 万词的规模。 1 0 0 万词级现代蒙古语语料库的选材包括小说、语文、报刊以及政治四个方面,各部分 的比例分别为1 9 6 、5 0 3 、9 8 和2 2 9 。在语料库加工方面,至今已经完成了最初 的1 0 0 万词级语料库的词性标注和复合词的处理等基础性加工环节,也进行了短语标注、 句子自动切分和谓语段自动识别等浅层句法分析。语料库中的词类以及复合词标记是句 法分析中的重要信息来源。本文研究从初步加工的1 0 0 万词级语料中选取中学( 包括初 中和高中) 蒙古语文部分构建了蒙古语依存树库。 在机器词典的构建方面,那顺乌日图等人研制的蒙古语语法信息词典瞳1 已完成 总库的设计和填充工作,目前正在建设各个分库。这部词典包含了较为全面、详实的语 法信息。在本文所做的句法分析过程中,静态信息几乎全部来自该机器词典。另外, 德青格乐图等人研制的现代蒙古语固定短语语法信息词典口3 包含了近3 万条蒙古语 固定短语,并且具有丰富的语法信息,为本文研究提供了识别复合词的有效依据。 在浅层句法分析方面,达胡白乙拉等人运用规则和统计相结合的方法和循环渐进的 策略先后研制了蒙古语名词短语结构规则h 1 、基本动词短语结构规则嘲、形容词短语结 r 1 本文参考了清格尔泰著现代蒙古语语法( 修订版,呼和浩特,内蒙古人民出版社,1 9 9 9 ) ,内蒙古大学蒙古 学学院蒙古语文研究所著现代蒙古语( 呼和浩特,内蒙古人民出版社,2 0 0 5 ) , 蒙占 舍罗布苍王丹著现 代蒙古语( 呼和浩特,内蒙古人民出版社,1 9 6 1 ) , 蒙古 巴普日布敖其尔著现代蒙。占语句法( 1 ) ( 乌兰 巴托,2 0 0 1 ) ,巴达瓦达格巴著蒙一i 语句法研究( 呼和浩特,内蒙- 占人民出版社,2 0 0 8 ) ,纳格日勒图著 蒙 古语词形变化和词之间的语义搭配规则( 呼和浩特,内蒙古人民出版社,2 0 0 8 ) 等论著。 2 那顺乌日图,蒙古语语法信息词典框架设计,内蒙占大学博士学位论文,2 0 0 0 。 3 德青格乐图等,现代蒙古语固定短语语法信息词典详解,呼和浩特,内蒙古教育出版社,2 0 0 5 。 4 达胡白乙拉,面向信息处理的现代蒙古语名词短语结构规则研究,内蒙古大学硕士学位论文。2 0 0 2 。 5 达胡白乙拉,蒙古语基本动词短语自动识别研究,内蒙古大学博士学位论文,2 0 0 5 。 3 构规则n 1 以及时位词短语结构规则乜1 等,开发了相关的自动分析和标注软件。依存语法 与短语结构语法虽然表层结构上不一样,但深层结构上是一致的,短语结构的边界识别 和结构判定对于依存分析同样是有效的。近年来,一些博士、硕士学位论文对蒙古语特 定句型做了一些研究。其中,萨日娜等人研制了一种蒙古语句子切分和谓语段识别算法 口1 ,张建梅对蒙古语简单陈述句的句型进行了较深入的研究糊,这些成果对本文研究具 有一定的参考价值。另外,额尔顿朝鲁等人所做的面向信息处理的蒙古语动词语义分类 及配价晦1 方面的研究对于提高句法分析准确率也有很大的帮助。 在标准及规范方面,信息技术、信息处理用蒙古文词语标记集已制定完毕,正 在申请国家标准。该标记集由词类标记代码、构形附加成分标记代码和其它标记代码构 成,详见附录i 。这套标记集对语法规则的形式化描述提供了依据。 另外,词法分析的准确率严重影响着句法分析的结果,基于规则或统计的词类标注 软件陋1 、蒙古文词根、词干、词尾的自动切分软件口1 、词法分析软件m 以及基于自动机的 一些软件系统阳1 为蒙古语自动句法分析起到了辅助作用。 1 2 3 其它语言依存句法分析及树库建设研究 英语、日语或者汉语句法分析以及树库建设中,短语结构语法一直占据主流地位, 但近年来越来越多的研究者加入到了依存句法研究中,其中,m e l c u k 对英语依存句法 做了全面系统的研究n 们。英语依存分析中大多数研究是在宾夕法尼亚大学的英文树库 p e n nt r e e b a n k 上进行的。研究人员首先把p e n nt r e e b a n k 转换成依存表示,然后研制不 同的算法,并在其上进行了依存句法分析实验。e i s n e r 采用基于规则的方法,最先把p e n n t r e e b a n k 中的不包含连接词的句子转换成了依存表示,然后进行依存分析实验,得到了 9 0 0 的准确率玎。之后,y a m a d a 和m a t s u m o t o 等人采用中心词映射规则把p e n nt r e e b a n k 中的所有句子转换成了依存树结构,运用确定性分析算法得到了9 0 3 的准确率n 2 l 。 e 1 吉仁花,面向信息处理的蒙古语形容词短语结构规则研究,内蒙古大学硕士学位论文,2 0 0 4 。 2 斯琴、张建梅,面向信息处理的时位词短语结构规则研究,那顺乌日图、陈玉忠主编,中国少数民族多文中信 息处理研究与进展,呼和浩特,2 0 0 4 。 3 萨日娜,蒙- 语格框架的研究,内蒙古大学博士学位论文,2 0 0 6 。 4 张建梅,基于语料库的现代蒙古语简单陈述句句型分析研究,内蒙古大学博士学位论文,2 0 1 0 。 e 5 3 额尔顿朝鲁,面向信息处理的蒙古语动词语义研究,内蒙古大学博士学位论文,2 0 0 5 。 6 华沙宝,蒙古语词类标注系统a y i m a g ,内蒙冉大学学报( 人文哲学版) ,1 9 9 9 ( 5 ) 。 7 那顺乌日图,蒙古文词根、词干、词尾自动切分系统,内蒙古大学学报,1 9 9 7 ( 2 ) 。 8 s l o g l o ,h u as h a b a o ,s a r u l a r e s e a r c ho nm o n g o l i a nl e x i c a la n a l y z e rb a s e do nn f a 。p r o c e e d i n g so f i n t e r n a t i o n a lc o n f e r e n c eo ni n t e l l i g e n tc o m p u t i n ga n di n t e l l i g e n ts y s t e m ( i c i s 2 0 1 0 ) 9 3 斯劳格劳,基于不确定有限自动机的蒙古文校对算法,中文信息学报,2 0 0 9 ( 6 ) 。 1 0 i a m e l c u k d e p e n d e n c ys y n t a x :t h e o r ya n dp r a c t i c e ,a l b a n y :s t a t eu n i v e r s i t yp r e s so fn e wy o r k 1 9 8 8 1 1 j e i s n e r t h r e en e wp r o b a b i l i s t i cm o d e l sf o rd e p e n d e n c yp a r s i n g :a ne x p l o r a t i o n p r o c o ft h e1 6 t h i n t e r n c o n f o nc o m p u t a ti o n a ll i n g u i s t i c s ( c 0 l i n g ) ,1 9 9 6 ,p 3 4 0 - - - 3 4 5 1 2 h y a m a d aa n dy m a t s u m o t o s t a t i s t i c a ld e p e n d e n c ya n a l y s i sw i t hs u p p o r tv e c t o rm a c h i n e s p r o c o f t h e8 t hi n t e r n w o r k s h o po np a r s i n gt e c h n o l o g i e s ( i w p t ) ,2 0 0 3 。p 1 9 5 2 0 6 4 第一章绪论 c o l l i n s 使用p e n nt r e e b a n k 实现了头驱动英语句法分析器,在相同的训练和测试语料集 下获得了最好的结果n 1 。c o l l i n s 提出的句法分析模型是一种词汇依存概率模型。n i v r e 等人在m a g e r m a n ,c o l l i n s 以及y a m a d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年财务管理专业考研试卷及答案
- 2025年精细化工职业技术考试卷及答案
- 2025年国际贸易职业资格考试试卷及答案
- 双语企业宣传资料翻译与认证补充协议
- 澳大利亚工程项目专用设备维护保养与性能监控协议
- 高端私人游艇卫星通讯系统租赁增值服务套餐协议
- 采矿行业劳务派遣安全操作及责任协议
- 国际学生行李安全扫描租赁与安全评估合同
- 留学住宿安全保障与服务质量提升合同
- 医疗行业合规争议调解与解决方案合同
- 眼科住院及手术患者安全
- 数字化转型对企业人力资本的影响研究
- 保密基本知识培训材料范文
- 《荣安地产公司财务风险研究与防范研究(定量论文)》8200字
- 【MOOC】理性思维实训-华南师范大学 中国大学慕课MOOC答案
- (翻译)UL6A标准中文版-2019版电气刚性金属导管-铝红黄铜和不锈钢
- 2024年信息系统项目管理师(综合知识、案例分析、论文)合卷软件资格考试(高级)试题与参考答案
- 疑似新冠肺炎的应急演练
- 2025年湖北省武汉市高考数学模拟试卷(附答案解析)
- 赛迪顾问一线调研第36期:中国人工智能医疗器械:前路漫漫仍需披荆斩棘
- 重庆市巴蜀学校高2025届高二(下)期末考试+化学试卷(无答案)
评论
0/150
提交评论