已阅读5页,还剩68页未读, 继续免费阅读
(图书馆学专业论文)汉语框架语义知识库信息组织与表示方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 本文面向中文信息处理的实际需要,以现代汉语框架语义知识库( c h i n e s e f r a m c n e t ,简写作c f n ) 为处理对象,研究如何对这部词典进行有效的信息组织, 使之成为一部计算机可读、可理解的语义词典,为新一代万维网语义w e b 中的 语义知识共享以及智能化、个性化的w e b 服务提供基础资源。 现代汉语框架语义知识库是一个以f i l h a o r e 的框架语义学为理论基础、以真实 语料为依据编纂的汉语计算机语义词典,它包括框架库、词汇库及例句库三个子库。 如何有效地对c f n 的各种资源进行知识表示,是最大限度地实现其应用价值的关键 问题。 知识本体( o n t o l o g y ) 是一种新的基于w e b 的信息组织方法,它能够有效的对因 特网上的海量信息进行组织、管理和维护。从知识共享角度看,本体可以看作是一 种概念化的显示说明,是对客观存在的概念和关系的描述,它将隐性的概念模型表 达出来,大大减小了机器理解问题域中的概念和逻辑关系时可能造成的误解。 本文即以本体为描述工具,提出了一种专门针对词汇语义知识库的信息组织表 示方法,即利用知识本体的组织方法将语义词典的信息组织起来,将概念按不同抽 象度来划分层次,构造面向特定领域的框架语义知识集,收集所有与该领域有关的 词汇( 术语) ,通过节点的方法一一对应的放入项层概念( 框架) 内,来构建专门针对c f n 的本体模型。 我们通过已经对几个构建好的框架进行描述,成功的使用了x m l 标记语言对其 结构进行描述,使得中文框架网络在结构标记上有了一个成功的样例。之后用 r d f + ) f s 对框架的内部信息进行资源描述,充分学习及实践了资源描述联系词汇 的重要性,在对一个资源描述前必须先定义一系列文档内需要用到得词汇,这样在 文档中应用这些定义过的词汇和属性,便于计算机在读取文档的时候能够快速准确 的得到必要的信息,但是仅仅用r d f + r d f s 对框架进行描述,除了其自身没有推理 机制外,它在书写上面也有些繁琐。因此,我们最后选择了运用o w l 对框架进行描 述,因为其自身带有的判定推理系统,再加上框架网络对词汇准确定义的优势。 文章主要分为两个部分,第一部分包括第二章和第三章,主要阐述现代汉语框 架语义知识库的理论基础和构建方法,同时与知识本体理论相结合,以语义知识库 中的词元为目标词,加入语义信息,以“域”为单位将词元以相同特征聚合在一起, 对现代汉语词语进行组织;第二部分包括第四章和第五章,主要是针对前两章提出 的词典信息组织方法进行应用探索,尝试以形式化的方式对现代汉语框架语义知识 库的组合规则进行全面的描写,详细阐述语义w e b 信息标记语言x m l 、r d f 、o w l 的发展历程、特征及文档结构,研究一种基于o w l 语言的知识表示方法,并针对c f n 中三个子库的实例,分别给出具体的o w l 表示样本,以证明这种表示方法的可行性 和有效性。 就研究意义来说,本文用语义w e b 标记语言对构建现代汉语框架语义知识库的 形式化知识表示做了探索性研究,并得出了具体成果,直接意义在于为中文信息处 理的语义分析提供语义知识本体组织方法及其具体描述成果;同时,推动了新一代 万维网信息检索技术的发展,使之不再拘泥于关键词检索,而是加入自然语言语义 信息,从而提高w e b 信息检索的查全率和查准率。 关键词:知识表示:现代汉语框架语义知识库;框架语义学;知识本体;语义w e b ; 也:i c d f ;僳l 中图分类号:g b 2 0 2 r e s e a r c ho nt h ei n f o r m m i o no r g a n i z a t i o na n d p r e s e n t a t i o no f t h ec h i n e s ef r a m e n e t l i u t a o ( l i b r a r ys c i e n c e ) d i r e c t e db yp r o f l ij i n g f e n g t h i st h e s i si so r i e n t e dt h e r e q u i r e m e n t s o fc h i n e s ei n f o r m a t i o n p r o c e s s i n ga n dm a d et h ed e a lw i t ht h ec h i n e s ef r a m e n e t ( s oc a l l e dc f n 舔 f o l l o w ) t os e a r c ht h ei s s u eo fo r g a n i z i n gt h ec f n i n f o r m a t i o ne f f i c i e n t l y , a n d m a k ei tac o m p u t e ru n d e r s t a n d a b l et op r o v i d eab a s i cr e s o u r c ef o rt h en e w w e b s e m a n t i cw e bw h i c hi n c l u d et h es h a r i n go fs e m a n t i ck n o w l e d g ea n d i n t e l l i g e n c ea n di n d i v i d u a l i t yo f t h ew e b s e r v i c e t h ec o n s t r u c t i o no ft h ec h i n e s ef r a m e n e tb a s e do nf r a m es e m a n t i c s ( b yf i l l m o r e ) a n ds u p p o r t e db yc o r p u se v i d e n c e i tc o n s i s t so fl e x i c o n , f r a m ed a t a b a s ea n da n n o t a t e de x a m p l es e n t e n c e s u s e d 舔as e m a n t i c r e s o u r c ef o rn a t u r a ll a n g u a g eu n d e r s t a n d i n g t h er e p r e s e n t a t i o no f t h ec f n r e s o u r c ei sak e yp o nf o rr e a l i z i n gi t sv a l u ei nm a x i m a le x t e n t s o n t o l o g yi st h en e ww a yo fi n f o r m a t i o no r g a n i z a t i o nb a s e do nt h ew e b ; i tc a n s c i e n t i f i c a l l yo r g a n i z e ,m a n a g e a n dm a i n t a i nt h e l a r g e s c a l e i n f o r m a t i o ni nt h ei n t e m e t o n t o l o g yl o o k e d 勰ac o n c e p t u a l i z e di l l u s t r a t o r , i s t h ed e s c r i p t i o no fe x i s t i n go b j e c t i v e l yc o n c e p t sa n dr e l a t i o n s i tp r e s e n t e dt h e r e c e s s i v ec o n c e p t u a lm o d u l et or e d u c et h em i s u n d e r s t a n d i n gw h e nm a c h i n e c o m p r e h e n d e dt h er e l m i o n sb e t w e e nt h ec o n c e p t sa n dl o g i c si nq u e s t i o n s t h ep a p e ri st o o l e da st h eo n t o l o g yt os u g g e s tam e t h o do n l yf o r o r g a n i z i n gt h ei n f o r m a t i o no ft h ec f n w h i c hm e a n sw eu s et h eo n t o l o g yt o l e v e lt h ed i f f e r e n ta b s t r a c tc o n c e p t st oc o n s t r u c tt h es e m a n t i cf i a m e n e tf o r p a r t i c u l a rf i e l d t h es e a r c h i sb a s e do nt h ef o r m a t t e dl a n g u a g eo w lt o s a m p l et h ei n s t a l l c 船o ft h r e e s u bf i a m e n e to fc f nt od e m o n s t r a t et h e f e a s i b i l i t ya n dv a l i d i t yo f t h i sn e ww a y w ed e s c r i b e dt h ec o n t r a c t u r eo fs o m ec o m p l e t e df i a n l e $ s u c c e s s f u l l yb y u s i n g t h el a n g u a g ex m l ,t h e nu s i n gt h el a n g u a g er d f + r d f st op r e s e n tt h e i n n e ri n f o r m a t i o no ft h o s ef i a m e sf o rl e a r n i n gt h ei m p o r t a n tt oc o n n e c tt h e w o r da n dt h er e s o 嗽d e s c r i p t i o n b u tt h a ti sn o te n o u g hf o rc o m p u t e r o b t a i n e dt h ec o r r e c ti n f o r m a t i o nq u i c k l y f i n a l l y , w ec h o s et h el a n g u a g e o w lt op r e s e n tt h ec f n , b e c a u s ei th a st h ea u t or e a s o n i n gm e c h a n i s m 、i l a d d i n g t h ea c c u r a t ed e f i n i t i o n si nc f nw h i c hb o t ha l ea d v a n t a g ef o ru s t h ep a s s a g em a i n l yc o n t a i n st w op a r t s f i r s tp a r ta r ec h a p t e r2a n d c h a p t e r3 ,i td i s c u s s e sp r e l i m i n a r i l yt h em e t h o d sf o rb u i l d i n gt h ec f n t h a t b a s e do nt h ef l a m es e m a n t i c s ,a n di n t r o d u c e st h eo n t o l o g yi ni t t h a ti sw e h a v el e x i c a lu n i t si nc f n 、莉t l ls e m a n t i c si n s t e a do fw o r d si ng e n e r a l d i c t i o n a r y , a n dr n a k ef a m e s ,w h i c hi n c l u d ea l ll e x i c a lu n i t st h a th a v es a m e c h a r a t e r i s i t c s ,t oo r g a n i z et h ec h i n e s ew o r d su s et h em o t h o do fc a t o g a r yi n o n t o l o g yc a l l e dd o m a i n s e c o n dp a r ti n c l u d ec h a p t e r4a n dc h a p t e r5 ,i tt r e a t o ft h ea p p l i c a t i o ni ns e m a n t i cw e b ,a n dp r o p o s e sas e to ff o r m u l i z e dr u l e so n c f ns t r u c t u r e s i nt h i sp a r t ,w ee f f e c t i v e l ys t u d yt h ec o m p u t e rl a n g u a g e s t m c t u r eo fx m l ,r d fa n do w l s o 鲫g g e s t su s i n go w lt od e s c r i b et h e c f nd a t aa n di n d i c a t e st h ef e a s i b i l i t ya n dv a l i d i t yo ft h em e t h o db yg i v i n g r e a lr e p r e s e n t a t i o ns a m p l e s o nt h et h e o r e t i c a la s p e c t ,t h i sd i s s e r t a t i o ni n t r o d u c e s ,f o rt h ef i r s tt i m e , f i l l m o r e sf r a m es e m a n t i c si n t oc h i n e s es t u d y o nt h ep r a c t i c a l ,i tu s e st h e s e m a n t i cw e b - b a s e dl a n g u a g et oc o n s t r u c tt h ec f n ,p a v i n gaw a yf o rt h e w h o l er e s e a r c h p r o j e c tw i t hs p e c i f i c r e s u l t s t h em e t h o d so fc f n c o n s t r u c t i o na n dt h es p e c i f i cd a t ac a l lb eu s e dd i r e c t l yf o rv a r i o u sc h i n e s e i n f o 删o np r o c e s s i n ga p p l i c a t i o n s f o rt h ew e bs e a r c he n g i n e ,i tp r o v i d e s n ol o n g e rt h ek e y w o r d s m a t c h e dw a y , a n dr a t h e rw eb r m gt h es e m a n t i c c o m p r e h e n s i o no fn a t u r a ll a n g u a g ei nw e b i n f o r m a t i o nf o ri m p r o v e m e n tt h e s p e e da n dv e r a c i t yi nw e b s e a r c h k e y w o r d s :c h i n e s ef r a m e n e t ;f r a m es e m a n t i c s ;o n t o l o g y ;s e m a n t i cw e b ; e x t e n s i b l em a r k u pl a n g u a g e ;r e s o u r c ed e s c r i p t i o nf r a m e ;w e bo n t o l o g y l a n g u a g e ;k n o w l e d g er e p r e s e n t a t i o n 承诺书 本人郑重声明:所呈交的学位论文,是在导师指导 下独立完成的,学位论文的知识产权属于山西大学。如 果今后以其他单位名义发表与在读期间学位论文相关 的内容,将承担法律责任。除文中已经注明引用的文献 资料外,本学位论文不包括任何其他个人或集体已经发 表或撰写过的成果。 学位论文作者( 签章) :剐鱼, 2 0 01 年5 月,b 日 第一章引言 1 1 研究背景 第一章引言 上世纪8 0 年代以来,自然语言语义处理从句法学方面转移到语义学和语用学方 面,而语义学是重点,词一级语言单位的语义研究又是重中之重。实践证明,只进 行句法规则的描述是不够的,语言描写要落实到词这一级语言单位上来【。因此,词 汇语义学的研究成了当前世界语言学发展新潮流中的迫切需要,词汇语义学又是其 重点突破口。无论做机器翻译、信息提取,还是词汇语义排歧,语义知识库是所有 这些应用的不可或缺的一项基础性资源。 目前语义分析方法基本可以概括为两种:一种是在句法关系链上添加相应的语 义关系标签,例如p r o p b 龃k 【2 】是在p e n nt m c b a n k 句法分析的基础上,对与动词有关 的语义角色进行标注,包含5 0 多个语义角色类型;汉语方面,如李涓子等的依存语 义分析【3 】、台湾中研院( 1 9 9 9 ) 的中文句结构树资料库( s i n i c at m c b a n k ) 【4 】,利用 几十个语义角色,在句法关系链上添加语义标签。这种方法最大的缺点是没有概念 的抽象化表达,不能表示隐含意义,以致无法像人理解语言那样依据认知经验进行 一定的推理。另一种比较有代表性的语义分析方法是s c h a n k ( 1 9 7 5 ) 的概念依存理论 ( c o n c e p t u a ld e p e n d e n c y , c d ) 【5 1 ,利用少数几个概念表达丰富的语言意义,并描述 了脚本和计划,虽然推理能力很强,但依据c d 理论理解语言,一般文章中一些动 作的细节被忽略,计算机难以发现事件、人物、地点等各种指代之间的联系,而c d 理论试图建立这种联系,正确描述常识,并利用基本动作推理。该理论对限定领域 内的特定应用比较有效。缺陷:对常识的描写过于刻板和定式。但对于汉语来说, 而且已经有吴蔚天的汉语计算语义学【6 】和汉外机译系统可供参考,始终是停留在 高度抽象的概念表达上,没有落实到具体的语言单位,使得研究者对自然语言的语 义表示深度、语义表示标准很难把握。总之,没有词一级的语义知识库,要实实在 在地分析出语言的意义,是不行的【7 l 。 目前国内外比较有代表性的语义知识库研究现状,如表1 , 表1 语义知识库项目简表 l 项目名称i 启动时间j 研制者i 规模、语言i 语义描述内容i 构建方式l 。刘扬于江生俞士汶c c d 构造模型及v a c o l 辅助软件的设计与实现 h t t p :i c l p k u e d u c n i c l t r p a p e r s 一2 0 0 0 - 2 0 0 3 2 0 0 3 0 4 0 9 4 5 一刘场0 c d 构造模型p d f l 汉语框架语义知识库信息组织与表示方法研究 w o r d n e t l s i1 9 8 5 美国普林2 0 7 0 1 6 个概念;英同义词集合,概手工构建 斯顿大学语念层级关系 m i n d n e d 9 1j 9 9 3 一 美国微软1 5 9 万词( 名、动、语义关系描述自动构建 公司 形) ;英语,日语 l l d l l o l 1 9 9 3 1 9 9 1 6英国剑桥 规模不详;英语语义分类、特手工构建 大学等征、角色等 f r a n ”n e t l l l 】9 9 7 美国加州8 0 4 个框架,1 0 2 1 8框架、框架元手工构建 大学伯克个词,1 3 5 万多句素;配价模式; 利分校子;英语框架框架关系 h o w n “1 2 】1 9 8 8 - 董振东等汉、英双语;8 1 0 6 2义原分析;语义手工构建 汉语词,9 5 6 9 0 义 角色、关系描述 项,2 4 0 8 9 概念。 现代汉语述1 9 9 0 1 9 9 3人民大1 0 0 0 多动词,3 0 0 0格理论;格,格手工构建 语动词机器学,清华多义项;汉语位 词典【1 3 l大学 c c d l l 4 12 0 0 0 - 北京大学近6 万个概念,汉、 类似w o r d n e t手工构建 英双语的语义表述框 架 从表1 中看出,语义描述涉及多方面内容:词语分类关系,词义组合性质,场景知 识,概念与概念之间的多种联系,总体上看,呈现出“百家争鸣”的局面,有的主 要提供了词语之间同义、同类关系,如w b r 斛c t ,c c d ;有的描述了动词与体词性 成分之间的组合关系,如h o w n , e t ,现代汉语述语动词机器词典。但是,这些词典 编纂工程多数存在以下几个问题: ( 1 ) 理性主义的构建方法使构建结果存在很大的主观性。 各家语义分类的粗细差别很大,说明语义分类有其相对性。人们对语义的认识 基本上可以说是“从意义到意义”,对语义概念的把握大多是以意念为主进行理性思 维的结果,而没有客观依据,也不是诉诸于实践检验。表现在: 第一、单一地以“层级分类”组织词义聚合关系,在解决实际问题时显得捉襟 见肘。层级分类仅仅是我们认识事物的一种方式而已,而非唯一方式。有的事物适 。该数据是h o w n e t 2 0 0 5 版的规模,取自h t t p :m k e e n a g e c o m h t m l c _ i n d e x h t m l 2 第一章引言 合( 或者说我们习惯于) 放在层级分类的框架( 即“树”结构) 中来认识,有的事 物并不适合这样来认识。在一个语义知识工程中,作为o n t o l o g y 给出的语义分类树, 只不过是众多的“层级分类”中的一个罢了。人们是用什么样的结构去认识各种概念, 就目前来讲,应该还是个研究的课题,f r a m e n e t 语义工程无疑在这方面做出了有益 的探索。 第二、在说明词语的语义性质时,没有和句法表现形式结合起来。例如,在描 述词语的组合性质的时候,争议最大的是一个动词的价数,这牵涉到语言理论体系 的设置问题,对于自然语言处理的应用来说,讨论价数意义并不大。一个动词,处 理成三价也好,四价也好,五价也好,六价也好,都有可能。关键是,用这些论元 是否能够表示该动词所出现的所有真实语言环境。我们认为,要做到全面描述一个 词语的所有语义搭配可能或者配价可能,最好的也是最直接的方式,就是用真实语 料作为描述依据,使得语义词典取自真实语料,又用于真实语料。 第三、缺少有针对性的实践检验和评价自然语言处理与计算语言学以解决实 际问题为目标,人们可以提出语义描述的整体体系,可以从各种角度、以各种深度 对语义进行表达,但描述是否到位需要靠真实语言现象来检验,描述结果的优劣最 终也要靠应用系统的实践来评价,没有实验结果自然不足以服人。 ( 2 ) 通用性限制了实用性 以上语义知识库多数都追求“大规模”、。覆盖面”,试图描述一种( 或多种) 语 言的全部词语,试图覆盖普遍的语义领域。然而,这些知识库具有大工程实施组织 的魄力却缺少绣花般精雕细刻的耐心。大工程实施已被国际上证明是解决自然语言 处理问题的有效方法。但是,从大工程着眼的同时也必须从“绣花”做起。适用于 普遍领域的语义知识库构建还存在着大量的基础问题需要解决,试图将这样的通用 词典直接应用于实用系统,似乎还欠成熟。其实,社会对汉语处理的需求不仅仅是 通用词典,例如,某些特定领域( 游游咨询、股票咨询) 的语义信息,将获得的阶 段成果解决社会迫切需要解决的实际问题,开拓特别领域应用的市场,是汉语处理 研究获得进一步支持的必要条件。 ( 3 ) 离计算机可读、可理解还有很大距离 离计算机可读、可理解还有很大距离。现有语义知识库只停留在语义信息的描 述上,没有对知识库的形式化表示做专门的研究,尤其是缺少w e b 环境下机器读取 资源的接口,不能满足w e b 技术飞速发展的要求。 3 汉语框架语义知识库信息组织与表示方法研究 1 2 研究内容 本文是面向中文信息处理的实际需要,以汉语框架语义知识库( c h i n e s e f r a m e n c t ,简写为c f n ) 为处理对象,研究如何对这部词典进行有效的信息组织,使 之成为一部计算机可读、可理解的语义词典,为新一代万维网语义w e b 中的语 义知识共享以及智能化、个性化的w e b 服务提供基础资源。 汉语框架语义知识库是一个以f i l l m o r e 的框架语义学为理论基础、以真实语料 为依据编纂的汉语计算机语义词典,它包括框架库、词汇库及例句库三个子库。主 要研究如何有效地对c f n 的各种资源进行知识表示,是最大限度地实现其应用价值 的关键问题。而知识本体( o n t o l o g y ) 是一种新的基于w e b 的信息组织方法,它能够 有效的对因特网上的海量信息进行组织、管理和维护。从知识共享角度看,主要研 究本体可以看作是一种概念化的显示说明,是对客观存在的概念和关系的描述,它 将隐性的概念模型表达出来,大大减小了机器理解问题域中的概念和逻辑关系时可 能造成的误解。 本文即以本体为描述工具,主要研究一种专门针对词汇语义知识库的信息组织 表示方法,即利用知识本体的组织方法将语义词典的信息组织起来,将概念按不同 抽象度来划分层次,构造面向特定领域的框架语义知识集,收集所有与该领域有关 的词汇( 术语) ,通过节点的方法一一对应的放入顶层概念( 框架) 内。我们通过对几个 构建好的框架进行描述,主要研究使用x m l 标记语言对其结构进行描述,使得中文 框架网络在结构标记上有一个成功的样例。之后用r d f + r d f s 对框架的内部信息进 行资源描述,充分学习及实践资源描述联系词汇的重要性,在对一个资源描述前必 须先定义一系列文档内需要用到得词汇,这样在文档中应用这些定义过的词汇和属 性,便于计算机在读取文档的时候能够快速准确的得到必要的信息,但是仅仅用 r d f + r d f s 对框架进行描述,除了其自身没有推理机制外,它在书写上面也有些繁 琐。因此,最后主要研究运用o w l 对框架进行描述,它自身带有的判定推理系统, 在加上框架网络对词汇准确定义的优势。 主要研究内容分为两个部分,第一部分主要阐述现代汉语框架语义知识库的理 论基础和构建方法,同时与知识本体理论相结合,以语义知识库中的词元为目标词, 加入语义信息,以“域”为单位将词元以相同特征聚合在一起,对现代汉语词语进 行组织;第二部分主要是针对前两章提出的词典信息组织方法进行应用探索,尝试 以形式化的方式对现代汉语框架语义知识库的组合规则进行全面的描写,详细阐述 4 第一章引言 语义w 曲信息标记语言x m l 、r d f 、o w l 的发展历程、特征及文档结构,研究一 种基于o w l 语言的知识表示方法,并针对c f n 中三个子库的实例,分别给出具体 的o w l 表示样本,以证明这种表示方法的可行性和有效性。 1 3 国内外研究动态 从语言信息处理技术来看,语义空缺成了制约自然语言处理研究向前发展的瓶 颈:美国t r b c 会议回从1 9 9 8 年到2 0 0 4 年公布的信息抽取正确率最高只有约4 0 , 需要解决的关键问题是如何让机器理解用户的查询需求,如何对查询语句进行同义、 同类等意义关系的扩展;目前的自动问答系统主要是基于模式匹配和概率统计技术, 对语言形式进行处理,2 0 0 4 年t r e c 公布的自动问答系统的正确率为6 5 ,下一步 迫切需要在语义层面上进行匹配,同时,还需要具备一定的常识知识和推理能力; m t e v a l 9 4 评测的机器翻译正确率最高约7 0 ( 根据不同的评价体系这个数值会有 所不同) ,最大瓶颈问题是大量多义词造成的歧义现象i 嘲。自然语言处理的研究重点 正从句法分析转移到语义分析。 f r a m e n e t ( 简称f n ) 是美国加州大学伯克利分校1 9 9 7 年开始构建的基于语料库 的计算词典编纂工程,采用d a m l + o i l 语言进行描述。f n 对英语词语进行框架语 义描述,并按照相同场景归入同一个框架且带有语义标注信息的例句,数据库在网 络上常年公布。目前已经更新三版,正在为全世界的学者、教师和学生所使用。此 外,希伯莱语、德语、日语、西班牙语国家的研究者们也认为f n 的数据是丰富的, 还可以跨语言使用,有通用价值,于是研究建立与f r a m c n c t 并行的词典。 目前国内基于x m l 的词典信息组织技术研究工作也已开展,2 0 0 0 年底,中美 联合发起“高等学校中英文图书数字化国际合作计划c a d a l ”的“百万册图书计 划”。考虑到x m l 文件的结构和表现形式完全分离的特点,比较适合长期保存电子 图书,就采用x m l 格式对其进行信息组织。南京大学英汉语料库系统的词典编撰模 块就是基于x m l 的词典信息组织技术实现的。系统可以自动生成词典缩略本,英汉 词典雏形,动词名词词典,动词短语词典。 f r a m e n e t 是一个符合人类认知过程,能比较全面地反映人类语言知识的组织方 式,充分包含人类知识的语义知识库。基于以上考查,兼顾现代汉语语义研究不成 。即t e x tr e t r i e v a lc o n f e r e n c e ,是由美国国防部和国家标准技术局资助的文本检索系统评嗣会议具体见 h t t p :t r e c a i s t g o v o 即机器翻译评测( m a c h i n et r a n s l a t i o ne v a l u a t i o n ) 。即知识本体描述语言o n t o l o g y 的前身 , 汉语框架语义知识库信息组织与表示方法研究 熟的现状,我们选择了框架语义学作为理论基础,构建汉语的框架语义知识库 汉语框架语义知识库,目前与山西大学计算机与信息技术学院、上海师范大学对外 汉语专业共同承担建设汉语框架网络。我们重点研究基于语义w e b 的汉语框架网络 词语信息组织技术。 1 4 研究的意义 随着大型词典编撰系统的研究与应用,词典编撰的效率得到提高,再版周期大 大缩短,并派生出各类专业词典、缩略本,辅导索引等。数字化出版己成为现代词 典编撰的趋势。如何有效地组织词典信息,是设计词典编撰系统首要关注的问题。 词典信息是典型的半结构化数据,成分比较复杂,如果单纯利用传统的关系型数据 库技术,则不能较好地反映数据的特点,只有设计比较完善的词典数据描述机制和 存储机制,才能满足查询、修改、派生词典等系统要求【1 6 1 。任何一部词汇语义词典, 应该详细描述下列词汇语义关系:词语分类关系,词义组合性质,场景知识,概念 与概念之间的多种联系如,美国普林斯顿大学的w o r d n e t 主要提供了词语之间简 单的同义、同类关系,对于词义组合性质,几乎没有涉及。h o w n e t ( 知网) 有的虽 涉及一部分组合性质,但目前的完备程度,还远远不能满足语义分析的需要。 f r a m e n e t 是对已有词典的理想的补充,它能总结词语的句法语义性质,并用例旬说 明,这可以作为编辑教材和训练材料的理想的基础;它有真实的上下文例证,显示 了词语的具体用法,由词到短语的构造能力等等,这让用户在查找一个词( 也可称之 为目标词) 时能够通过其语义角色在场景中的相互联系深刻的这个词的用法,同时也 能详细了解到这个词所属的领域,及同义词反义词等。 本论文基于c f n 信息的特点,引入体系结构科学合理的本体概念,运用本体描 述语言o w l 对c f n 中的词条概念进行组织,利用o w l 良好的数据储存结构、可 扩展性、高度结构化及较强的概念推理机制,将语义词典的概念及其概念之间的关 系用计算机可读可理解的形式语言描述出来,形成电子版语义词典,一方面便于语 言教学和语言学习者使用。一方面为今后语义w e b 应用的奠定基础。 1 5 论文的结构安排 本文主要分为两大部分来展开论述, ( 1 ) 汉语框架语义知识库的理论基础及其构成及如何用知识本体理论对汉语词语 进行组织( 第2 、3 章) 6 第一章引言 ( 2 ) 基于语义w e b 描述语言的汉语框架语义知识库的汉语词语组织方法研究及其 实现( 第4 、5 章) 本文第2 章对美国伯克利学院的框架网络的成功案例进行研究和效仿,同时参考 框架语义学理论的基础上,提出构建汉语框架语义知识库的方案,确立了此知识库 应由框架库、词语库及句子库这三个部分组成,它们之间的有相互激活和引导的作 用,此外对框架库中框架( 也就是词语范畴) 之间的关系进行探析,使各个相关词 语通过某种特征进行联系形成一个巨大的词语网。第3 章则以此为基础,探讨什么 是知识本体理论,尝试如何用知识本体理论中不同事物的本质有相同处的特点来对 汉语框架语义知识库中的词语进行有效的组织。 语义w e b 中信息的描述是进行高效信息检索的一个新难题。本文第4 章对语义 w e b 中的三个描述语言进行了全面的阐述,x m l 、r d f 、o w l 它们之问有着递进 的关系,虽然每种语言都有其特有的优点和描述方法,但x m l 是后俩者得基础, r d f 及其词汇是o w l 的分类体系,功能最强大的是o w l ,它不但自身带有语义, 而且还有推理能力,使得w e b 上的信息检索不再拘泥于关键词匹配而更高效快速; 同时o w l 还是知识本体的描述语言,这给汉语框架语义知识库的语义w e b 服务提 供了可能。针对这一优势,第5 章对汉语框架语义知识库的三个部分的o w l 实现进 行尝试描述并对试验结果加以说明。 最后,在结束语( 第6 章) 中对本课题研究工作进行了总结,简要概括了本课题 研究取得的主要成绩,讨论了本课题研究工作对中文信息处理研究的意义,并提出 了进一步研究的计划和目标。 7 汉语框架语义知识库信息组织与表示方法研究 第二章汉语框架语义知识库( c f n ) 构建概述 2 1 美国伯克利语义框架网( t h eb e r k e ie yf r a m e n e t ) f r a r n c n e t 是由f i l l m o r e 亲自主持的一个基于语料库的计算词典编纂工程,从 1 9 9 7 年开始于美国加州大学伯克利分校进行构建研究,课题组主要成员是s r i n i n a r a y a n a n 、d a nj u r a f s k y 、m a r kg a w r o n ,项目经理是c o l l i nb a k e r ,词典编纂顾问是 s u e a t k i n s 。截至2 0 0 6 年底,共收录近万个英语词元。,构建了6 2 5 个框架,其中6 ,1 0 0 个词元完成了例句标注,共标注了1 3 5 万例句的框架语义信息,主要用到的语料库 是不列颠国家语料库( b n c ) ,f r a m e n c t 数据库已在网络上公布。除了词典编纂工作 以外,该工程还标注了1 2 篇文本的框架语义信息。 与传统词典不同的是,f r a m e n c t 是一个框架一个框架地编写的,而不是一个词 一个词地编写。每一个词元都和一个语义框架联系起来,进而和该框架的其他词元 联系起来。这使得f r a m c n c t 数据库更像一个词汇分类汇编,把语义相近的词语汇集 在一起。f r a m e n c t 为每一个词语的每一个义项提供了带有框架语义标注信息的例句, 这些例句来自真实的自然语言语料库,而不是由语言学家或者词典编辑者创造的; 在选取例句、控制例句数量上,力求尽可能地显示出该词元的所有可能的句法语义 结合方式。这使得f r a m e n e t 的数据为概括词语的句法语义组合性质提供了丰富的材 料,更为重要的是为自动语义标注技术的研究提供了基础资源,体现出该语义知识 库是直接面向自然语言处理的。 一般来说,对计算语言及其他一般语言进行分析的目标与词典编撰领域是不一 致的。几乎所有的知识表达者在其语言的表达中都脱离了对需求和组织实用效果的 范围,而这些相关知识却能在自然语言处理的应用中得到高效应用【1 。”。作为计算语 言工程的f n ,其目标是在两个极端中间进行调和。其结果之一无疑是能够对小型词 典的词汇条目进行细致的概念分析,这类小型词典是在特定领域为内部使用而编撰 的,这样做的目的是能够得到可靠的语言理解和产生精确的推理,在此似乎是能够 实现的。另一种结果,它的目的是针对表面信息进行具体地检索及其他自然语言处 理应用,这种应用是利用大型词典的统计方法,或通过创建熟练程序用于机器可处 理的词典中所得最大的使用信息的。其后者包括大量数据,并能产生词典编撰者所 不能预期的重要因素。 。词元,指一个义项下的一个词语,f r a m c n c l 把一个多义词作为多个词元,分别在不同的框架中加以描述 8 第二章汉语框架语义知识库( c f n ) 构建概述 f n 工作组在深度和精细程度上对语言的详细分析能得到经过语言训练的研究 者们所使用的大范围开发意见,这些研究者们都是对句法分类的句子进行标注的组 员,而他们标注的句子都是从大型的自然语言语料库中抽取出来的。标注者们将直 接记录下这些研究出来的有效信息,而其他则会从部分由手工标注部分由机器标注 的结果中得出。此过程是非常详细的分析过程,但我们仍然是运用系统中优先的规 则来提前标注大部分的语义元素,人们还可以使用( 也可不使用) 这些算法进行分配。 f n 数据库现在包括大约4 千多条词汇( 包括词义) 的信息,这些词汇都是建立在 对1 百万条例句标注的基础上。我们希望这些信息能够支持大范围的使用,如:那 些想要知道一个英文单词如何使用的学生们,还有用于机器翻译和信息抽取程序。 2 2 框架语义知识库理论基础一框架语义学 框架语义掣1 8 1 就是把词义、句子意义和文本意义统一用。框架”( f r a m e ) 进行 描述,框架是跟一些激活性语境相一致的一个结构化的范畴系统,是储存在人类经 验中的图式化情境,这种范畴系统所描述的既可能是一个实体,也可能是一种行为 实践模式,甚至是一些社会制度、习俗等。f i l l m o r e 使用“框架”这个术语,来涵盖 以往讨论自然语言理解问题的文献中提到过的一系列概念,诸如场景、图式、脚本、 情境、观念框架、认知模式、民俗理论等等,但是这些术语属于人类认知或经验范 畴,“框架”则是语言学术语,一个“框架”虽然表示的是一个认知结构,但它的 意义在于这个认知结构的各个部分是和词语挂钩的,为语言理解服务【1 9 1 。 语义联系着场景,但是场景并不等于语义,我们说出每一个句子或者每一段话 语,都有一个特定的视角,从这个特定的视角去考虑一个场景,当整个场景都在考 虑之中的时候,我们一般也只是注意场景的某一部分,因此,“视角”在框架语义学 中是个比较重要的概念,我们先来理解一下这个概念。看例句: 王丽以1 0 0 0 元从李强那里买了一台电冰箱 尽管这句话提及了买者、卖者、钱和商品,但在表达时基本上还是站在买者的视角 上进行的。同样, 李强以1 0 0 0 元卖给王丽一台电冰箱 这句则是从卖者的视角进行表达的。可见,在理解由。买”和。卖”这两个词语所 支撑的句子时,虽然都需要放于整个商品交易这个大背景下,但是视角是不同的 文本中的所有语言成分都可以激活框架,理解一个文本,就是搜索或感知文本 内容所激活的框架,并对它们进行综合的过程。f i l l m o r e 以及后来的研究者用这一理 9 汉语框架语义知识库信息组织与表示方法研究 论比较多地是描述那些由动词激活的过程性框架,关注的是词语激活的活动场景是 什么,这个活动场景中有哪些参与者,即框架元素,各个框架元素又是如何在句子 中实现的,下面具体说明。 要理解词语的意义,首先必须具备语义框架的知识,框架为词语在语言中的使 用提供背景和动因。例如,动词“写”描写的是这样一种场景:一个人在某个物体 的表面握着一个顶部尖锐的工具使其进行移动,在物体表面留下痕迹。在这个场景 中有4 个实体( 即4 个框架元素) :发出这个行为的人、实施这个行为所借助的工具、 承受这个行为的物体表面、这个行为在物体表面留下的痕迹。这是在没有上下文的 时候,单独一个动词“写”所描述的全部场景,也就是当我们没有遇到任何其他上 下文条件时,对一个单独的动词。写”所产生的全部想象。句子的功能在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理核心制度考试试题(含答案)
- 中心城区合流制地区雨污分流改造一期(第一批)水土保持方案报告表
- 企业生产厂房改扩建水土保持报告表
- 大连福地 66kV 输变电工程水土保持报告表
- 新疆天恒星投资管理有限责任公司绿色智能资源再生循环利用标准化厂房建设项目(一期)水土保持方案报告书
- 传承千年痔科古方 守护肛周安康-朱伯庸贴痔乳香膏破解现代肛肠护理难题
- 劳保用品使用准则
- 某水泥厂粉尘排放控制规则
- 木材加工防火管理方法
- 2026殡葬整治面试题及答案
- 《医院建筑智能化系统设计规范》
- 劳动合同标准版劳动合同劳动合同
- 大象版小学科学四年级下册全册教案(教学设计)及反思
- 《旅游公路设计指南》
- 【MOOC】物理与艺术-南京航空航天大学 中国大学慕课MOOC答案
- GB/T 11017.3-2024额定电压66 kV(Um=72.5 kV)和110 kV(Um=126 kV)交联聚乙烯绝缘电力电缆及其附件第3部分:电缆附件
- 大国兵器学习通超星期末考试答案章节答案2024年
- (正式版)QC∕T 625-2024 汽车用涂镀层和化学处理层
- (正式版)JB∕T 7348-2024 钢丝缠绕式冷等静压机
- 中国法律史-第二次平时作业-国开-参考资料
- 人工智能智慧树知到期末考试答案章节答案2024年复旦大学
评论
0/150
提交评论