




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于xml的汉语语料标注问题研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语料库语言学是当代计算学语言学中经验主义方法论取得显著成 效从而在计算语言学领域占有一定的优势地位的新学科方向。语料库 不仅是自然语言处理领域的基础性资源,并且由此产生很多不同于理 性主义方法的理论和方法。因此语料库建设和研究就成为计算语言学 的奠基工作。实践证明一个好的语料库应该具有可重用性和可扩展 性,而语料标注的标准化对于语料库建设具有十分重要的意义。语料 标注跨越语言学和计算机科学,需要对标注的内容( 即标注哪些信 息) 、目的( 即为什么要标注) 、手段( 即怎样实现标注) 等问题进行 逐一的回答,而语料标注的标准化也需要在这些问题上有一个明确的 答案之后才得以进行。但是目前中文语料标注的工作主要集中在标注 内容的研究上,更多地从语言学的角度研究汉语词性标注和切分的问 题,对于语料标注的手段问题特别是编码格式的问题很少涉及,这样 也就达不到语料的标准化。 x m l 作为网络间数据交换的标准语言在许多垂直行业特别是电子 商务中得到了广泛运用,同时目前在语料标注领域也出现了将x m l 作为标注的标记语言的趋势。 本文对汉语语料标注的问题进行了研究,主要包括: l ,比较了国内外语料标注的理论研究和工程项目,指出了国内语 料标注研究的两大不足,即对语料标注的编码格式的关注程度不够; 对于标注更多集中在切分标注层次上,而没有一个分层体系下的标注 研究 2 ,提出语料标注应该着眼于语料的相互交换,而不是语料的本地 处理 3 ,基于上述的认识明确提出了标注语义和标注表示的区分,该划 分具有十分重要的意义,该划分廓清了语料标注领域中的认识误区, 将语料标注问题的研究分成两个相对独立的部分,从而可以相对独立 地发展关于标注语义和标注表示地研究。并将标注表示的问题归结为 一系列对标注表示的要求,这些要求需要有一个分层次的语料标注模 型。 4 , 目前国内还没有出现关于语料标注抽象数据模型研究的资料, 本文则给出了一个基于集合论和图论的形式化描述分层语料标注模型 ( m c a mm u l t i l e v e lc o r p u sa n n o t a t i o nm o d e l ) ,并且在定义该模型的 同时将该抽象模型和具体的语料标注过程进行了对应,分析了分层标 注模型的优点,并且给出了m c a m 模型的x m l 表示,从而说明了 该抽象模型现实的可行性。 5 ,最后则根据工作的实际,给出了一个m c a m 模型下切分标注 的x m l 规范表示,并编写了程序实现语料的内部格式到x m l 格式 之间转化的程序 6 ,本文的研究还包括对语法信息词典的x m l 改造。在分析 了语法信息词典在形式上的诸多不足之后,给出了一个x m l 的规范, 并根据该规范将词典的部分转换成了x m l 格式,转换的过程没有出 现信息的丢失。 关键字:语料库,标注,x m l ,分级标注模型 a b s 仃a c t c o r p u sl i n g u i s t i c ,as u c c e s s f u le m p i r i c a lm e t h o d o l o g y , n o wi sap r e v a i l e dn e w t r e n di nc o m p u t a t i o n a ll i n g u i s t i cf i e l d c o r p u si sf u n d a m e n t a lr e s o u r c ef o rn a t u r a l l a n g u a g ep r o c e s s i n g s o s o m e t h e o r y a n dm e t h o di nd i f f e r e n tw i t hr a t i o n a l m e t h o d o l o g yi sr e q u i r e dt h a tm e a n st h ec o n s t r u c t i o na n dr e s e a r c ho nc o r p u si s s u ei st h e b a s i co fc o m p u t a t i o n a ll i n g u i s t i c i ti se v i d e n tt h a tr e u s a b i l i t ya n de x t e n s i b i l i t ya r e e s s e n t i a lq u a l i t yf o rg o o dc o r p u s ,w h i l es t a n d a r d i z a t i o no fc o r p u sa n n o t a t i o ni st h ek e y e l e m e n to fr e u s a b i l i t ya n de x t e n s i b i l i t y c o r p u sa n n o t a t i o ns p a n sl i n g u i s t i cf i e l da n d c o m p u t e rf i e l d ,c o n c e r n i n ga b o u tt h ec o n t e n to fa n n o t a t i o n ( i e w h a ti n f o r m a t i o n s h o u l db ep r o v i d e db yt h ea n n o t a t i o n ) ,t h ei n t e n t i o no fa n n o t a t i o n ( i e w h a ti st h e r e a s o no fa n n o t a t i o n ) ,t h em e t h o do fa n n o t a t i o n ( i e h o wt or e p r e s e n tt h ea n n o t a t i o n r e s u l t ) a n de t c t h es t a n d a r d i z a t i o no fc o r p u sa n n o t a t i o nm e a n ss t a n d a r d i z a t i o no ft h e t h r e ef a c t o r sa b o v e a tp r e s e n tt h ef o c u so fc h i n e s el i n g u i s t i ca n n o t a t i o ni s c o n c e n t r a t e do nt h ec o n t e n to fa n n o t a t i o n ,e s p e c i a l l yo nt h ep a r t o g s p e e c ha n n o t a t i o n a n ds e g m e n t a t i o np r o b l e mw i t hl i n g u i s t i cp e r s p e c t i v e a n dt h e r ei sn oe n o u g ha t t e n t i o n p a i df o rt h ee n c o d i n gf o r m a t ,w h i c hi sp a r to fa n n o t a t i o nm e t h o d x m la sn e ws t a n d a r do fd a t ae x c h a n g ef o r m a ti sw i d e l ya d o p t e db ym a n yv e r t i c a l i n d u s t r ya n dr e s e a r c hf i e l d s a n di ta l s oc a l lb eu s e di nc o r p u sa n n o t a t i o ni n s t e a do f s g m l i no r d e rt os o l v et h er e a lp r o b l e mo fc b i n e s el i n g u i s t i ca n n o t a t i o n ,t h i sd i s s e r t a t i o n d o e ss o m er e s e a r c ho nt h ei s s u e sl i s t e db e l o w : 1 ,a f t e rc a r e f u l l yi n v e s t i g a t i o no nt h ec u r r e n ts i t u a t i o no fc o r p u sa n n o t a t i o nr e s e a r c h i nc h i n aa n do v e r s e a ,p o i n t e do u tt h et w op r o b l e m s e x i s t i n gi nd o m e s t i cc o r p u s a n n o t a t i o nr e s e a r c h ,i e n oe n o u g ha t t e n t i o np a i dt oe n c o d i n gf o r m a ta n dt o om u c h c o n c e n t r a t i o no np a r t - o f - s p e e c ha n n o t a t i o na n ds e g m e n t a t i o n 2 ,t ot a k et h ei n t e r c h a n g ea st h eb a s i ci n t e n t i o no fc o r p u sa n n o t a t i o nn o tl o c a l p r o c e s s i n g 3 ,o nt h eb a s i so ft h et w oc o n c l u s i o n s ,e x p l a i n e dt h ed i v i s i o nb e t w e e na n n o t a t i o n s e m a n t i c sa n da n n o t a t i o nr e p r e s e n t a t i o n ,w h i c hi sm e a n i n g f u lt ot h ec o r p u sa n n o t a t i o n r e s e a r c h i td i v i d e st h ea n n o t a t i o np r o b l e mi n t ot w or e l a t i v e l ym u t u a l i n d e p e n d e n tp a r t s , t h e nt h er e s e a r c h e r sc a np a r a l l e lt h ed e v e l o p m e n to f t h et w op a r t s a r e rt h e a n a l y s i so f a n n o t a t i o nr e p r e s e n t a t i o np r o b l e m ,a n n o t a t i o nr e q u i r e m e n t sa r eo u t l i n e d 4 ,i no r d e rt om e e tt h eo u t l i n e dr e q u i r e m e n t s t h ed i s s e r t a t i o nn o to n l yp r o v i d e da m u l t i l e v e lc o r p u sa n n o t a t i o nm o d e l ( m a c m ) b a s e do ns e tt h e o r ya n dg r a p ht h e o r y b u ta l s oo f f e r e dam a p p i n gb e t w e e nt h ef o r m a ld e s c r i p t i o na n dt h er e a la n n o t a t i o n p r o c e d u r ea n de x p l a i n e dt h eb e n e f i to ft h em o d e l a tl a s tb yd r a w i n go u ta nx m l r e p r e s e n t a t i o no f m a c m ,t h ef e a s i b i l i t yo f t h em o d e li sp r o v e d 5 ,o nt h eb a s i co fm a c m ,a nx m ls p e c i f i c a t i o no fp a r t - o l s p e e c ha n n o t a t i o ni s f i g u r e do u t i ta l s op r o v i d e sat r a n s f o r m a t i o np r o g r a mb e t w e e nt h ec o r p u sw i t hl o c a l f o r m a ta n dc o r p u sw i t hx m lf o r m a t 6 ,i nt h i sd i s s e r t a t i o n 。x m lt r a n s f o r m a t i o nw i t hn oi n f o r m a t i o nl o s si sa n o t h e rp a r to f t h i sd i s s e r t a t i o n st a s k k e yw o r d s :c o r p u s ,a n n o t a t i o n ,x m l ,m u l t i l e v e la n n o t a t i o nm o d e l 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:朽妙手 日期:年,月g 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 、 保密z 在孙密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位做作者签名朽妙气 日期:诲痧凋,日 指导教师签名: 嗡呢_ 陟 日彬争獐螂 上海交通大学硕士研究生毕业论文 第一章、前言 1 1 语料库和机器词典的重要性 在文献【l 】中,术语“语料( c o i p l l s ) ”是指任意语言学数据的集合,它可以 是书面的、口头的或者两者兼而有之的一国或者多国语言的语言资料,文本型 语料可以包含任意题材类型的文本,例如文章、报纸、诗歌、戏剧甚至词汇列 表和词典等。语料在本文中指在自然语言处理领域中得到运用的经过不同程度 加工或者不经过加工的大规模真实语言数据,可以包括书面语料和声音语料, 但是在本文的研究范围内,语料仅限于文本,并且是专门用于自然语言处理 ( n l p ,n a t u r a ll a n g u a g ep r o c e s s i n g ) 的专用语料。语料库则是语料的有结构 的可处理的集合。 传统的自然语言处理系统,通常是设计各种各样类型或结构的规则库系统, 从特定的例句或句型开始,总结规律,逐渐完善,创建自己的系统,进而在特 定的领域里实现语言理解。但是单纯采用基于规则的自然语言处理系统,是难 以应付现实世界中的自然语言的复杂多变的现象,主要缺陷表现在 2 : ( 1 ) 规则所能刻画的知识颗粒度太大,无法用有限的规则来刻画自然 语言复杂多变的现象,很难处理自然语言的不确定性; ( 2 )不能保证语言学规则之间相容。也就是说在自然语言处理系统中 随着规则数量的增加,规则之间常常发生矛盾和冲突; ( 3 ) 获取语言学和世界知识是件非常困难的事情。 但是在大规模语料库中却隐藏了大量颗粒度较小的有用信息。这些信息实 际上体现了自然语言的部分规律和理论基础,因此对于自然语言处理具有重要 的意义,随着计算机性能的提高,从语料中提取这些信息已经成为可能,语料 不但具有了上述的理论意义,同时还具有了现实的可操作性。“语料库语言学 ( c o r p u sl i n g u i s t i c s ) ”是8 0 年代才崭露头角的- - ( 1 计算语言学的新的分支学科。 它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法 语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格 分析、自然语言理解和机器翻译等领域中的应用”【3 】。语料库语言学研究的基础 是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成、 缺一不可的。、 在其它自然语言处理的方法和理论中同样强调和重视语料库的作用。目前 在中文信息处理领域主要有三种流派或者说三种思路: 1 ,传统的以计算语言学为基本理论,从词素分析入手,进而研究词一短 语( 词组) 一语段一句子 2 ,h n c 理论 上海交通大学硕士研究生毕业论文 3 ,基于内涵逻辑模型论的语义分析 4 】 这三种方法都在一定程度上依赖于语言工程基础建设的发展,主要包括中 文信息处理用的机器词典和语料库的发展。正是在这样的环境下,语料库建设 的重要性日益凸现出来。 在2 0 0 0 年的c o i l i n g 会议 5 】上,提到“目前在计算语言学的众多领域中越 来越多的项目急需大规模语言学标注语料的支撑,同时许多的团体和组织也正 在从事创建各种语言的语料资源,这些资源在相当广的应用领域和理论研究中 广泛运用。本次会议的目的就在于促进语料库标注方面的交流,促进标注规范、 标注理论和标注工具的研究水平”。由此可见发展大规模的语料库已经是计算语 言学界的共识,而怎样建设一个好的语料库则是摆在n l p 面向的一个非常重要 而又急待解决的问题。 按照乔姆斯基 6 】的理论模式,人的语言知识的基础部分包括语法规则和词 典两个部分。计算机的所有语言知识都是由机器词典( 给出词的各项信息) 、句 法规则库( 以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的 语义、语境、语用知识库来提供的。语言信息处理系统只要涉及句法、语义( 如 检索、翻译、文摘、校对等应用) ,就需要以词为基本单位,不可缺少词的详细信 息。因此,词典在信息处理中起着基础知识库的重要作用。一部高质量的机器 词典是任何一个汉语信息处理系统成功的必备条件之。 语料库和机器词典均跨越语言学和计算机科学等多个学科,语言学需要解 决的是语料库和机器词典的语言模型,即语料中存在哪些语言信息等问题;而 计算机科学则回答语言学模型怎样在计算机上表示的问题。在国内的自然语言 处理研究中,对于语言学模型的研究比较多,但是对于自然语言知识表示的研 究则非常少,例如语料标注模型的研究和语料表示的标准化工作。本文的研究 正是在这样的背景下进行的。 1 2 本文内容和结构 由于本文提出的方法和x m l 密切相关,因此在第二章介绍) ( i l 及其技术体 系,并在后续的章节中阐明使用) ( m l 的优点。 语料库包括一般意义上的大规模真是文本,同时也包括机器可读词典( m r d m a c h i n er e a d a b l ed i c t i o n a r y ) 电子词典可以认为是更广泛意义上的离散语 料库。第三章的主要内容就是研究语法信息词典的结构做一番探讨,并给 出一个x 儿格式的语法信息词典。 第四章的主要内容包括对于般意义上的现有语料库和语料规范的回顾, 总结国内外的语料标注工作中的差异,指出国内语料标注中存在的问题,给出 了语料标注中标注语义和标注表示的划分,提出了标注的首要目的,并在此基 础上给出了标注需要满足的条件。最后概括出对分级标注模型的需求和分级标 2 上海交通大学硕士研究生毕业论文 注模型的表示的需求。 第五章则给出了一个形式化定义的语料标注的抽象数据模型,并给出了模 型和现实标注对象的映射,分析了给抽象数据模型的优点。最后用一个例子说 明了该模型的儿表示以及该模型表示的优点。 第六章则在上述工作的基础上,并结合文献 7 给出了一个) ( m l 的切分标注 规范的表示。并提供了一个在内部格式和x m l 标准格式之间的一个转换工具。 在第六章的最后,则对本文的工作做了总结,并相应提到了一些尚待研究的问 题和需要进一步进行的工作。 3 上海交通大学硕士研究生毕业论文 第二章、x m l 技术体系及其在自然语言处理中的应用 x m l 在各个垂直行业中得到了非常广泛的应用,本章主要介绍咀,的技 术体系和x m l 在n l p 领域的应用,特别是x m l 对语料标注的影响。考虑到 文章的篇幅,对于x m l 及其技术体系的介绍会非常扼要。 2 1x m l 简介 2 1 1 历史 v i l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) 的一个优化子集。由于s g m l 的复杂性,该标记语言很难运用到 i n t e m e t 上,x m l 由w 3 c ( w w w w 3 c o r g ,万维网组织) 发布的一系列的规范构 成,最重要的无疑是x m l l 0 规范,目前该规范已经有1 0 的第二版和1 1 的第 一版和2 0 规范,相应的规范还包括n a m p e s p a e e ,i n f o s e t 和b a s e 等规范。 x m l 文档有元素和属性构成,每一个文档有且仅有一个根元素,所有其它 元素都是该元素的子元素或者间接子元素。一个x m l 文档必然和一颗树同构。 在表示法上x m l 文档用 元素内容( 包括递归的子元素) q 元素名 的形式表示。对于x m l 的基础知识本文不过多涉及,详情可参考【8 】 2 1 2 特性 x m l 具有的一系列优越的特性: 1 x m l 具有可扩展性,x m l 允许用户自定义和创建适合自身需要的标记,而 不是提供一个限定的x m l 标记集,可扩展性是最为重要的特性,正是可扩 展性,x m l 才得以在各个垂直行业中得到运用,因为在不同的行业可以根 据行业的特征定义不同的标记集合,从而适合行业内或者行业问数据交换的 需要。 2 其次x m l 具有高度的灵活性,x m l 是一个完整的技术体系,各种在特定 应用中需要使用的功能都可以非常灵活的搭建或者扩展。例如链接定位语 言,查询语言和样式语言等。更为重要的是这些语言本身是和x m l 相对独 立的发展的,相互之间具有最小的耦合,这样就保证了儿具有的灵活性 3 自描述,自描述是指x m l 文档的结构、名称的部分或者全部表示了结构和 名称的内容所代表的语义。自描述性是x m l 最吸引人的特点之一,该特点 4 上海交通大学硕士研究生毕业论文 直接导致了基于s o a p 的消息传输和w e bs e r v i c e 的出现。自描述的特点源 于x m l 的可扩展性,由于允许用户自定义标记集,因此用户在定义标记集 的时总可以选择能够适当表达自身语义的标记和标记结构。可以用一个例子 来说明: 例2 - 1 x m l 文档实例 形式语义学 1 2 4 在这里很显然一个b o o k 元素就表示了书这种类型的实例的信息,这些形式由于 包含在确定结构和确定名称的标记内,具有自描述的特征,很容易机器自动处 理。 4 简洁,x m l 的简洁性是相对于s g m l 的复杂性而言的,x m l 在复杂度降 低8 0 的同时却保留了s g m l 的8 0 的功能。 5 通用性。,x m l 使用u n i e o d e 编码,因此可以完全无障碍地在 n t e m e t 上传 递x m l 编码地数据。 在本质上x m l 仅仅是语法,它的重要性在于能够被当作数据交换的工具。这 是x m l 最本质的特点,这个特点也决定了x m l 在自然语言处理中可以得到运 用。 符合x m l 语法的x m l 文档称为格式良好的( w e l l f o r m e d ) 。 2 2x l d l _ 技术体系简介 x m l 不只是几个规范的总和,经过3 年左右的发展,x m l 已经成为几个 日渐完善的技术体系,本文将对和本文相关的x m l 技术做简单的介绍。 2 2 1 棚l 的类型语言( s c h e m a ) 咀。的诞生是出于数据在网络间无障碍交换的需要,因此需要有一种机制 使得交互的双方都能够准确理解例2 1 中b o o k 元素的意义和结构,因此这就需 要在交流双方之间有一个约定,确定b o o k 的结构和标记法等,确切地说就是需 要在两者之问约定一个b o o k 的数据类型。x m l 的技术体系必需提供这样一种 s 上海交通大学硕士研究生毕业论文 约定数据类型的机制,即一种类型语言,使用这种类型语言用户可以定义符合 自身需要的标记集合,并满足交流的需要。符合特定类型语言实例的x m l 文 档实例称为有效的( v i l i d ) 目前有两种类型语言,s c h e m a 和d t d ,其中s c h e m a 是在x m l 出现以后才出 现的类型语言。 x m l 从s g m l 中继承了一个类型语言d t d ( 文档类型定义) ,在该定义方式下, 例2 1 文档的d t d 可以表示如下: 例2 - 2 x m l 文档实例 但是d t d 的语法晦涩难懂,并且更糟的是d t d 的表达能力非常弱:首先在d t d 中没有丰富的数据类型,例如i n t e g e r 类型,其次d t d 没有强大的数据类型自 定义能力,例如书一般都有i s b n 号码,这些号码是数字和”的固定组合,但 类似的数据类型在d t d 中无法表达。 s c h e m a 是w 3 c 针对x m l 数据类型定义制订的新一代类型语言,它具有如下几 个特定: 1 s c h e m a 实例本身用x m l 表达,例如定义例2 - 1 文档的s c h e m a 本身就 是一个x m l 文档实例 2 具有丰富的内嵌数据类型和自定义数据类型的能力,s c h e m a 自定义了4 4 中内嵌的数据类型,包含了编程语言中常见的数据类型。同时提供了非 常灵活的机制用于自定义数据类型。例如上述的i s b n 可以用下述的方 式定义: 例2 - 3 i s b n 的定义 x s d :e l e m e n ti l a m e = i s b n ” 本体提取技术( o n c o l o g ye x t r a c t i o n ) 跨语言的电子商务消息转译( m e s s a g et r a n s l a u o nf o rm u l t i l i n g u nb 2 b , b 2 ce - c o m m e r c ea p p l i c a t i o n s ) 使用自然语言分析器从x m l 中自动提取x m l s c h e m a w e b 资源发掘和提取 自动连接产生 利用蛆,的多模型技术等 而x j v l 在n l p 中的作用表现在: 自然语言语料表示语言和转换方式研究,包括和关系数据库以及自然文 本( r a wt e x t ) 之间的转换 基于x m l 的机器翻译 基于x m l 的多语系w e b 内容管理系统 基于x l s t 的树型变换( i r e et r a n s d u c e r ) 基于n l p 和x m l 的信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) 使用s c h e m a 的面向任务的摘要( t a s k - o r i e n t e ds u m m a r i z a t i o nu s i n g m ls c h e m a s ) v o i c e x m l 应用及其对话生成( a p p l i c a t i o n sa n dt h ed i a l o g u es c e n a r i o g e n e r a t i o n ) 外语电子教育素材生成 由于本文的研究范围限制,下文将着重述及x m l 和自然语言处理中的语料库 以及机器词典的关系。 在文献【1 5 】中列出了和语料标注有关的会议活动、项目和软件工具等,其中有 9 上海交通大学硕士研究生毕业论文 很多的项目涉及到了虹和语料研究的结合。 文献 1 6 】提到了韩国的自然语言处理现状,其中提到了很多使用x m l 标注的语 料和机器词典。 文献【1 7 】则全面描述了和语料标注相关的x m l 框架下的所有方面,并给出了语 料标注的例子。 文献 1 8 贝l j 给出了一个语料的x m l 表示格式,并且提出将x m l 标记格式作为 不同语料标注格式之间转换的桥梁。在文章中,x m l 是作为一个用作数据交换 的中间语言而存在的,这一点特别引起重视,示意图如下: 一 田2 - 1 甚干x m 的西科叟换模式 一,、 ( c h u n k 2 ) 文献【1 9 】给出了一个通用的用于语料库语法标注的标记模型,在该模型中使用 x m l 作为实际的( c o n c r e t e ) 编码方式,并使用x s l t 将其转化为非x m l 格式。 文献 2 0 1 给出了一个基于x m l 标注语料的人工语料校对系统。 文献【2 l 】使用x m l 规范化词典的通用格式,并将多本n ip 的机器词典转为x m l 格式。 关于x m l 和语料标注的更多文献可以参考 2 2 2 7 1 等链接的文章。 目前x m l 已经做为语料标注的一个趋势出现在国外的语料标注问题研究中。 这是由x m l 本身优越的特性和语料标注的特点决定的。第四章开始将详细讨 论该问题。但是国内这方面却没有受到足够的重视。 上海交通大学硕士研究生毕业论文 第三章、使用x m l 标准化语法信息词典 在更加广义的范围上,可以将机器词典视为离散型的语料库。 这种机器词典包含的词语至少要数以万计,应当包含词语的句法信息、语 义信息以及语用信息,在基于内涵逻辑的语义分析中,机器词典还应该包含词 的特征( f e a t u r e ) 和词对应的逻辑表达式。 目前有一些比较常用的词典,这些词典有些是面向机器处理的,有些则是 在中文信息处理研究过程中经常参考的印刷版或者电子版的词典。其中主要有 动词用法词典、现代汉语词典、同义词词林、实用汉语用法词典、 现代汉语通用字典、现代汉语同义词词典、现代汉语语法信息词典和 现代汉语通用词一基本集以及现代汉语语义词典、信息处理用汉语语 义词典、现代汉语述语动词机器词典和知网等。其中语法信息词典是 专门为计算机实现汉语分析和汉语生成而研制的一部电子词典,在中文信息处 理上有具有重要的作用,因此对该词典的详细研究和提出改进意见使之更好适 应中文信息处理是非常有必要的。 为了使机器词典能够满足n l p 的需要,必须具有规格化、形式化、代码化的特 征,这样就需要有对于机器词典的通用模型、存储结构和表示方法等问题的专 门研究,而不仅仅是考虑词典本身所包含的内容。关于词典的形式化和表示方 法方面的研究主要包括: 文献 2 8 1 5 b i d e 等给出了一个形式化模型用于描述: a ) 词典的结构化信息 b ) 根据词典的结构分层的信息 c ) 以及在该结构上的信息继承体系 并且最终可以将该结构实例化为一个x m l 编码的文档,使用x s l t 可以将词典的 结构和内容根据定义转换成任意事先定义格式的文档,作者认为该模型具有广 泛的通用性,使用该模型不仅能够用于词典的模型化,同样可以用于其他更广 范围内的半结构化信息的表示。 而文献 2 u n 通过一项调查得出结论,认为词典具有显著的重要性。但是在词 典编辑或者内容添加时往往由于人为的原因变得过于复杂,他们的一个方案是 采用一种给所有词典使用的通用格式( 即力图统一或者至少在一个很高的结构 层次上做到格式的统一) ,这种通用的标准格式具有很好的可读性。该文最终提 出了一种通用的格式,并在遵循一系列的原则下将几个字典转换成了通用的格 式。通用格式的描述方式同样采用了x m l 作为描述格式。 文献 2 9 贝1 j 给出了s g m l 标记的大型汉英双语词典的标记方式。 另外文献贝j j 1 6 是韩国大学n l p 实验室给出的关于韩国自然语言处理的进展的报 告,该报告提到了目前的基本韩语词典在形式上也采用了x m l 的标记方式 由于词典的半结构化性质,x m l 是一种非常自然的标记方式;并且在s c h e m a 上海交通大学硕士研究生毕业论文 出现以后,x m l 对于数据类型的描述能力大为增强;而x s l t 可以方便地做到 x m l 格式的词典到其他格式的转换或者信息的部分抽取;另外v i l 和数据库之 间的转换比较简单,从而使得x m l 编码的机器词典的存贮非常简单。 语法信息词典的不足之处在于不够规格化、形式化和结构化,本章的主要 内容在于指出该词典在标记方式上的不足之处并提出改进的意见,这更多是从 计算机的角度考虑问题,因此本文不涉及词典中的语言学知识。 3 1 语法信息词典简介 现代汉语语法信息词典是北京大学为计算机实现汉语分析和汉语生成而研 制的一部电子词典。词典的设计目标是为汉语的计算机分析提供一个有关汉语 词汇信息的综合性知识库,即在一定的汉语词汇分类体系指导下详细描述每一 个具体词的各种词法、句法属性。实践表明,它能够为当前的各种汉语信息处 理应用提供一个最基本的、真正体现现代汉语用词面貌的坚实的基础平台。目 前该词典在语言信息处理的众多领域中得到了应用。词典计划收录词语5 万余 条。对于收录的每一个词语,都尽可能详尽地描述其语法属性( 包括词法与句 法) 。将来该词典将利用语料库语言学的方法对词典的条目加入概率信息。正 在进行的现代汉语语义词典项目将在提供语法信息的基础上提供更为完整 的语义信息。 3 1 1 语法信息词典的特点 1 通用与专用相结合,以通用为主 在自然语言处理系统中,通常都有包括句法、语义信息的电子词典,但是这 类词典是服务于特定应用和特定系统的,当要求把它从一个系统移植到另一 个系统中的时候需要很大的力气,而语法信息词典作为“中文信息处理 平台”的一个组成部分,是独立于特定的处理系统的,甚至也不依赖于某个 具体的计算语言学理论或者算法,因此是一本现代汉语通用词典。各个具体 的应用系统都可以从中提取所需要的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度房产抵押贷款三方借款合同
- 2025年厨房设备租赁与改造工程合同
- 2025版高空作业平台外架工程班组劳务承包合同
- 2025版汽车4S店专用汽车运输服务合同
- 2025版智慧城市建设投资借款合同
- 2025版水电工程设计与施工及维护保养协议
- 2025版土建资料承包项目施工组织设计与进度控制合同
- 2025年度港口码头施工总价合同模板
- 2025版智慧城市建设土地测绘与规划合同协议
- 2025第一部生物科技药物研发与生产合同协议书
- 企业安全生产费用支出负面清单
- 2025-2030中国天然气汽车行业发展分析及发展前景与趋势预测研究报告
- 2024云南师范大学辅导员招聘笔试真题
- 现代教育技术说课
- 2025年广省中考作文《走到田野去》写作指导及范文
- 产品经理绩效管理制度
- 2025年山东省中考数学试卷(含答案逐题解析)
- 慢阻肺非肺部手术麻醉管理策略
- 2025年烟台市中考历史试卷真题(含答案)
- 一例ICD置入患者的护理查房
- 2025至2030年中国露点传感器行业市场研究分析及投资前景规划报告
评论
0/150
提交评论