




已阅读5页,还剩55页未读, 继续免费阅读
(计算机科学与技术专业论文)基于cfm的汉语小句语义分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目: 基王! 型的迅适型! 鱼适基金堑 学位论文作者签名:鬈支;丞日期:2 。哆年j 月j 7 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王! 型盐迅重d :鱼适甚佥堑 学位论文作者签名:缝丑进日期:知谚年1 月f 7 日 作者指导教师签名:值数虱日期2 。d 2 年f 月 7 日 国防科学技术大学研究生院学位论文 摘要 自然语言理解是a i 领域的经典难题,目前国内外有大量的研究。但是总体来说, 关于汉语理解的研究基础比较薄弱,尚未有比较成功的汉语语义分析系统,同时也 没有比较完善的语义表示框架。因此,本课题寻求结合语言学知识和世界知识进行 汉语小旬语义分析,并生成小旬语义表示的方法。 本课题以汉语小句为研究对象,利用“系统功能文法”对小旬的概念元功能进 行分析,提取出“汉语功能模型”( c f m ) 。c f m 中拥有汉语小旬级的语义知识,它包 含了小旬的“语义模式”以及组成“语义模式”的“基元概念”。“语义模式”是人 类组织经验知识的基本模式,它以“过程”为中一t l , ,考虑“过程”的“参与者”以 及“环境”。我们把“语义模式”作为汉语小旬的语义表示框架。 在c f m 的基础上,我们提出了“c f m 模型驱动的语义分析算法”,它是以语义分 析为主、语法分析为辅的小句语义分析方法。该方法由下列步骤组成:首先根据小 句中出现的词所映射的概念,形成候选语义模式集;然后利用候选模式的“功能组 成约束”分析小旬的功能组成,其中需要利用语义词典中的语法结构进行语法分析; 判断各功能组成是否满足约束;对满足约束的结果构造以c f m 中“语义模式”为框 架的小旬语义表示。 算法中需要的世界知识和汉语词级知识分别包含在o n t o l o g y 和语义词典中。 o n t o l o g y 是关于世界的概念化描述,用于小句分析中的消歧和推理:语义词典包含 了汉语中词级的语法和语义知识,用于小句分析中的功能成分分析。 围绕该算法,我们设计了“基于c f m 的汉语小句语义分析系统”( c b c c u s ) :并 把“中学物理教材”中力学部分作为语料,提取其中的语义模式、基元概念和世界 知识,对系统的c f m 、语义词典和o n t o l o g y 实例化,形成一个简单的原型系统。 本文围绕该系统展开,首先介绍它的总体结构,然后分别介绍其中使用的各种 知识库以及分析算法,最后给出原型系统的具体实现。 关键词:自然语言理解,汉语小句,汉语功能模型,语义模式,o n t o l o g y 国防科学技术大学研究生院学位论文 a b s t r a c t n a t u r a ll a n g u a g eu n d e r s t a n d i n gi sac l a s s i cp r o b l e mi na i ,a n dt h e r ea r em a n y r e s e a r c h e sa b o u tn l ui nt h ew o r l d b u ta b o v ea 1 1 t h ef o u n d a t i o na b o u tt h ec h i n e s et e x t u n d e r s t a n d i n gi sv e r yw e a k ,a n dt h e r ei s s t i l ln oa n ys u c c e s s f u ls e m a n t i ca n a l y z i n g s y s t e m ,a n di td o e sn o te x i s tap e r f e c ts e m a n t i cr e p r e s e n t a t i o nf r a m e w o r k s o ,i no u r r e s e a r c h ,w es e e kam e t h o dt oa n a l y z et h ec h i n e s et e x tb yc o m b i n i n gw o r l dk n o w l e d g e a n dl i n g u i s t i ck n o w l e d g e i nt h er e s e a r c h ,w et a k et h ec h i n e s ec l a u s ea st h eo b j e c t ,a n de x t r a c tt h ec h i n e s e f u n c t i o n a lm o d e l ( c f m ) u s i n gs y s t e m i cf u n c t i o n a lg r a m m a ra st h et h e o r yt o a n a l y z e t h ec l a u s e si d e a t i o n a lm e t a f u n c t i o n i nc f m ,t h e r ee x i s t st h es e m a n t i ck n o w l e d g ea b o u t c h i n e s ec l a u s ea n di ti n c l u d e st h es e m a n t i cm o d e sw h i c ha r et h eb a s i cm o d e su s e dt o r e p r e s e n tt h eh u m a n se x p e r i e n c e ,a n dt h ee l e m e n t a r yc o n c e p t sw h i c ha r et h ec o m p o n e n t s o fs e m a n t i cm o d e w eu s et h es e m a n t i cm o d e si nt h ec f ma st h ef r a m e w o r kf o rt h e r e p r e s e n t a t i o no fc h i n e s ec l a u s e ss e m a n t i c s b a s e do nt h ec f m ,w ed e s c r i b e sac f md r i v e ns e m a n t i c sa n a l y z i n ga l g o r i t h m i t a n a l y z e sc h i n e s ec l a u s ef o rs e m a n t i c s ,u s i n gs e m a n t i ca n a l y z i n ga sp r i m a r yo n e ,a n d s y n t a xa n a l y z i n gi t ss e c o n d a r yo n e :f i r s t l y ,i te s t i m a t et h ec l a u s e ss e m a n t i cm o d eb y l o o k i n gt h r o u g ht h ew o r d sa p p e a r i n gi nt h ec l a u s e ;s e c o n d l y ,i ta n a l y z e st h ef u n c t i o n a l c o m p o n e n t si nt h ec l a u s e ,u s i n gt h er e s t r i c t i o ni nt h es e m a n t i cm o d e ;f i n a l l y ,i tc o n s t r u c t s t h es e m a n t i c so fc l a u s eu s i n gt h es e m a n t i cm o d e sa st h ef r a m e w o r k t h ew o r l dk n o w l e d g en e e d e di nt h ea l g o r i t h mi si n c l u d e di no n t o l o g y ,a n dl e x i c a l k n o w l e d g ei nt h es e m a n t i cl e x i c o n o n t o l o g yi sac o n c e p t u a ld e s c r i p t i o no ft h ew o r l d , o n t o l o g yw i l lb eu s e df o ra m b i g u i t yr e s o l u t i o na n di n f e r e n c ea n ds e m a n t i cl e x i c o nw i l l b eu s e df o ra n a l y z i n gt h ec l a u s e sf u n c t i o n a lc o m p o n e n t a r o u n dt h ea l g o r i t h m ,w ed e s i g na n di m p l e m e n tac f mb a s e dc h i n e s ec l a u s e a n a l y z i n gs y s t e m i t sak n o w l e d g eb a s e dc h i n e s eu n d e r s t a n d i n gs y s t e m ,u s i n gw o r l d k n o w l e d g ea n dl i n g u i s t i ck n o w l e d g et oa n a l y z ec h i n e s ec l a u s e t h i s p a p e rw i l li n t r o d u c et h es y s t e ma saw h o l ef i r s t l y , a n dt h e nd e s c r i b ee a c h k n o w l e d g eb a s ea n dt h ea n a l y z i n ga l g o r i t h mi nt h es y s t e m ,a n di nt h e1 a s t ,i tw i l lt u r nt o t h ei m p l e m e n t a t i o no ft h es y s t e m k e y w o r d s :n a t ur al l a n g u a g eu n d e r s t a n din g , c hif l e s ecia u s e , c hin e s e f u n o t i o n a lm o d e i s e m a n t j cm o d e o n t o f o g y i i 国防科学技术大学研究生院学位论文 第一章绪论 自然语言理解在国内外都有大量的研究,由于汉语的特点,目前关于汉语的理 解研究困难重重。本课题寻求结合世界知识和语言学知识进行汉语小句语义分析的 方法。 本章首先介绍自然语言理解的一些基本概念,它的任务、语义层次等;然后分 析了汉语的些特点,并提出了课题的研究思路:最后,给出了论文的结构。 1 1 自然语言理解任务 自然语言理解是a i 研究领域的一个经典难题,研究计算机如何理解自然语言。 它分为书面语理解和口语理解。所谓书面语言理解,是指将文字输入计算机,计算 机理解文字、词、短语、句子、段落和篇章,使计算机“看懂”输入的文字,并按 照指定的目标做出相应的回答或反应。所谓口头语言理解,是指用口语对计算机讲 话,计算机识别和理解语音输入,把语音的音节流变换为文字流,然后再按照书面 语言理解,计算机“看懂”输入的文字并做出相应的回答或反应,最后,利用声音 合成将回答转换成声音输出“1 。本文主要讨论书面语理解。 美国认知心理学家g m o l s o n 曾提出四条语言理解的标志: 1 ) 回答问题:能成功地回答输入语料中的有关问题,对应人机对话系统; 2 ) 摘要:在接受一批语料之后,有就此结出摘要的能力,对应自动摘要系统: 3 ) 复述:能用不同的词语复述所输入的语料,对应复述系统; 4 ) 翻译:能从一种语言转换成另一种语言的能力,对应机器翻译系统。 只要达到一条目标,就认为计算机能够理解自然语言。达到这些理解目标都需 要提取文本的意义,它们包含三个层次的任务: 1 ) 构造文本中出现的词的语义: 2 ) 构造句子的语法和语义结构; 3 ) 构造言语或者篇章的语法和语义结构。 在理解过程中,系统需要结合语法、语义、语用等语言学知识,以及目前大量 采用的世界知识及统计知识。 根据知识的不同,我们把国外关于自然语言理解的研究分为三种不同类型: 1 ) 以语法规则为主的自然语言理解 转换生成文法:c h o m s k y 于1 9 5 7 年建立的转换生成文法,认为句子具有 深层结构和表层结构两种,有些句子的表层结构虽然不同,但是它们的 深层结构却是一致的。因此,在分析时应用逆向转换规则把表层结构转 换为深层结构,再运用上下文无关文法进行分析。转换生成文法仅仅考 虑用形式化的方法表示语言,不顾及语义、语用等信息,很难完全的描 述语言。 格语法:f i l l m o r e 提出的格语法对动词规定其格的框架,比如“受事格”、 “工具格”等,在语法分析时把分析出的语法成分对应到相应的格中, 第l 页 国防科学技术大学研究生院学位论文 形成句子的语义。 概念依存理论:s c h a n k 提出的概念依存理论,其着眼点也在于句子的语 义而非形式,它定义了一个原语集合,是高度抽象的动词概念集合,利 用原语集合表示句子的意义。 2 ) 以世界知识为主的自然语言理解:这类系统在语言学知识之外,还加入了世 界知识,目前比较典型的是用o n t o l o g y 。2 “2 2 ”3 存储世界知识。 c y c 。3 :c y c 是由美国t e x a s 的微电子和计算机技术公司开发的一个多语境 的大型常识知识库以及推理引擎。它其中包含了自然语言接口,可用于自 然语言理解。 m i k r o k o s m o s “:是由n e wm e x i c os t a t eu n i v e r s i t y 和美国国防部合作 开发的基于知识的机器翻译系统( k b m t ) ,其中包含语义词典和o n t o l o g y , 它们互相结合用于在分析中把源文本转换成t m r 。 g u m ”“:g u m 是由g m d i p s i 建造的多语言文本生成环境一 k o m e t p e n m a n 使用的o n t o l o g y ,它包含了欧洲语系自然语言的句法模式, 用于文本生成。 3 ) 基于语言现象统计知识的自然语言理解:这类系统是一种经验主义方法,其 优势在于它的全部知识是通过对大规模语料库进行必要的加工、分析后自动 提取出来的,因此可以获得很好的一致性和很高的覆盖率,对语言处理提供 了较客观的数据语句和质量保证“,但是基于统计的方法会隐藏小概率事件, 因此,目前一些研究结合统计知识和规则。 1 2 自然语言的语义 在自然语言的书面语理解中,有三个层次的语法和语义理解:词、句子、篇章。 其中,低层次的理解是高层次的基础,而高层次的理解是对低层次的综合。下面简 单介绍一下在语义方面,这些层次研究的内容以及它们之间的关系。 1 词的语义 词的语义主要是分析词所指称的对象或者过程、事件等。根据词性的不同, 有不同的语义: 1 ) 动词:动词指称一个过程或事件,从而需要表示过程发生的各种对象、环 境等,它用谓词模式表示,如:e a t ( s u b j e c t ,o b j e c t ) ; 2 ) 名词:名词指称一个对象,需要表示对象的各种属性,以及各属性对应的 取值范围。如:汽车( ( 发动机,1 ) ,( 车轮, = 4 且为偶数) ) : 3 ) 形容词:用于描述事物的属性,如:“年轻”能够描述人的年纪; 4 ) 副词:用于描述过程的属性,如:“迅速”能够描述人的运动; 5 ) 数量词:描述事物的测度,量词表示维度,数词表示刻度。 词组或短语是各种词的组合,它一般包含一个中心词。词组的语义一般是指 向中心词的指称,并对中心词的某些属性进行了实例化。根据它的中一i i , 词的不同, 有不同的语义: 1 ) 名词词组:名词词组一般是由修饰语加上一个中心名词构成。因此整个词 组的语义是由该中心名词的指称所定义,并且把前面的修饰语形成该名词 第2 页 国防科学技术大学研究生院学位论文 所指称概念的属性。比如“红色的衣服”,“红色”修饰“衣服”,整个词 组的语义是指向“衣服”,而它的“颜色”属性为“红色”; 2 ) 动词词组:动词词组是由动词加上表示宾语的名词词组以及一些修饰语构 成,因此它的语义由该动词指称,并且把其所指称过程或事件的某些属性 实例化。比如“快速地移动”,词组的语义是由“移动”指称,但是加上 了“速度”属性为“快速”; 3 ) 介词词组:介词词组一般是由介词加上名词构成,用于描述过程、事件的 时间、地点、方式等,它的语义是由介词和其所带的名词共同决定的,如 “在屋子里”。 2 句子的语义 从广义上来讲,句子包含“小旬”和“复旬”:小旬是最小的具有表述 性和独立性的语法单位【3 3 】,而复句由小句构成。 1 1 小旬 在小句中,所谓的表述性是指能够表明言语的一个意旨,体现一个特定 的意图,即表明一个陈述、感慨、要求或者疑问等。例如: “他很聪明。” “他真聪明! ” “他聪明吗? ” 虽然上述句子都是关注的“他”、“聪明”,但是分别表示陈述、感慨和 疑问。 此外,小句的独立性是指一个小旬不被包含在另一个小句中。例如: “外面下雪了。” “他不知道外面下雪了。” 其中的“外面下雪了”在第一句中独立使用,是小句;而在第二句中充 当宾语,包含在“他不知道x ”这个句子中,因此不把它归属于小句范畴。 小旬同时又是最小的表述性语法单元:和其它的具有表述性的语法单元 一一“复旬”和“篇章”一一相比较,小旬是最小的。因为“复句”和“篇 章”至少包含两个小旬。如: 例旬“外面下起了大雨,运动会只好延期。”是一个复句,它包含了两 个小句作为它的组成。 而小句是由词组或者短语组成的,它在结构上它一般是围绕一个中心动 词词组展开的,是一个简单句。比如上面“外面下雪了。”中的“下雪”,“运 动会只好延期”中的“延期”。而在小旬“他很聪明。”中,没有出现动词, 但是可以加入动词“是”,变为“他( 是) 很聪明。” 小句中也可能出现多个动词,如“他骑着车子过来。”其中的“骑着车 子”和“过来”,都可以作为中心动词词组,当以“过来”为中心时,可以 把“骑着车子”作为“过来”的方式。而以“骑着车子”为中心时,“过来” 作为目的。 小句的语义主要是考虑它所要表述的内容,分析小句中各组成成分所表 达对象或过程之间的依存关系。由于小句是以一个中心动词词组为中心,因 此小旬的语义主要是以动词词组所指称的过程为中心,考虑过程的参与者以 第3 页 国防科学技术大学研究生院学位论文 及环境如何围绕着过程组合成更大的意义。比如“物体快速地运动”中小旬 围绕着“运动”展开,它所指称的过程的参与者是“物体”。 小句的语义也包含了语气等信息。但是,在本论文中主要是讨论小句所 要表述的内容,而不涉及语气等信息。 2 ) 复句 复合是由小旬组成的,至少包含两个小句,它们之间蕴涵了一定的联系。 因此,复句的语义主要是研究组成小旬之间的语义关系,一般小句间包含扩 展和投射两种语义关系盼1 3 】。扩展是指一个小旬对另一个小句的意义作补充 说明;而投射是指复合句中,一个小句所讲述的内容已在别的地方出现过。 3 篇章 篇章级又可分两级: 1 ) 段落:复合句的集合,形成个主旨( t o p ic s ) ,即复合旬之间的关系,有 一个主旨上下文。 2 ) 篇章:主旨的集合,形成一个主题,有一个主题上下文,它由主旨上下文 组成。在篇章的语义结构中,主旨上下文逐步迁移。 上述所有语言成分的意义都可定义为语言符号到世界模型的映射。不同层次的语 言成分的意义,映射方式不同,语义成分从小到大,映射从简单到复杂。 1 3 基于c f m 的汉语小句语义分析 1 3 1 汉语特点 汉语是门非常有特点的语言,它的某些特点”“1 使得不能照搬国外的自然 语言理解的研究成果: 汉语的词之间没有空格,对汉语的词法分析带来了困难; 汉语的形态不发达,这使得汉语中语法分析比较困难,句子成分的语法作用 依赖于它的意义; 汉语是一种“重意合”,“轻形式”的语言,即它是以语义为主,不太注重形 式的,这使得语法和语义分析不能相互独立; 汉语中省略现象比较严重,因而更强调语境知识的作用 汉语的这些特点使得在对汉语进行理解时,需要结合语义和语法知识。 目前国内已有一些关于汉语理解的研究,比如:国防科大软件与理论教研室关 于机器翻译方面的研究;清华大学的计算机语言学研究实验室从事的基于语料库的 汉语理解:哈工大的王开铸教授等在计算语言学的语篇理解方面进行了有价值的研 究。 但是,总体来说目前汉语理解的研究的基础比较薄弱,尚未有比较成功的语义 分析系统,并且尚未有完善的语义表示框架。因此,本课题寻求种有效的进行汉 语小旬语义分析,并生成小句语义表示的方法。 1 3 2 课题研究思路 本课题在研究过程中,以汉语小旬为研究对象。因为小旬的结构简单,同时包 第4 页 国防科学技术大学研究生院学位论文 含了描述世界知识的基本模式,因此以它为对象既便于研究,同时方便以后扩展到 复合句、篇章的研究。 课题的目标是结合世界知识和语言学知识对汉语小句进行语义分析,生成小句 的语义表示,它包含两部分的工作: 1 小句语义的表示; 2 如何利用世界知识和语言学知识进行小句语义分析。 在课题研究中,我们以“系统功能文法”“2 ”。“”3 为理论基础,分析汉语小旬 的概念元功能,建立起“汉语功能模型”即c f m ,它包含了小旬的“语义模式”以 及组成小句的“基元概念”。课题以c f m 中的“语义模式”作为小旬的语义表示框架, 它是以过程为中心,组织起过程的各种参与者以及环境成分的模式。 在c f m 的基础上,课题提出了“c f m 模型驱动的语义分析算法”,它是以语义分 析为主、语法分析为辅的小旬语义分析方法:在分析过程中,首先根据小句中出现 的词所映射的概念,形成小句的候选“语义模式”集;而后利用候选模式中的“功 能组成约束”来分析小旬中的功能组成成分,其间需要利用语法知识分析它的语法 结构;分析完毕后,判断其是否满足约束:最后,对满足约束的语义模式以及各功 能组成实例化,形成小句的语义表示。 算法在分析小旬时,需要用到另外两种知识库:o n t o l o g y 和语义词典。 o n t o l o g y 是关于世界知识的概念化描述,用于小句语义分析过程中的消歧和推 理。o n t o l o g y 和c f m 紧密相连,o n t o l o g y 中的概念都是继承自c f m 的基元概念。 语义词典包含了汉语中词的语法和语义信息,是算法在分析小句语义时所需要 的词级的语法和语义。语义词典中词的语义是通过词条到o n t o l o g y 中的概念映射表 达的。 如此,c f m 、o n t 0 1 0 9 y 与语义词典紧密结合,使得算法能够结合语法和语义知 识,利于汉语小旬的分析。 围绕该算法,我们设计并实现了“基于c f m 的汉语小句语义分析系统”。它是一 种基于知识的汉语理解系统,采用o n t o l o g y 作为世界知识库,结合c f m 和语义词典 中蕴涵的语言学知识,进行汉语小旬分析。 1 4 论文结构 本文共分为八章。 第一章为绪论,介绍了自然语言理解的些基本概念;分析了汉语的特点以及 要汉语理解面临的问题:并阐述了本课题要研究的问题,以及研究思路。 第二章简单描述了自然语言理解的系统模型;引出我们建立的“基于c f m 的汉 语小句语义分析系统”,简单描述它所包含的各种知识库和它所用的算法。 第三章首先介绍了结合汉语语法和语义进行小句分析的理论基础一一系统功能 文法:然后介绍了我们利用系统功能文法建立的“汉语功能模型”即c f m 。 第四章介绍了系统中的世界知识库:o n t o l o g y ,它的定义、在自然语言理解中 的作用和目前的应用:然后o n t o l o g y 在系统中的作用,所包含的内容,以及它和 c f m 之间的关系。 第五章介绍了系统中知识库的第三部分:语义词典。介绍语义词典在算法中的 第5 页 国防科学技术大学研究生院学位论文 作用,它的结构、词条的内容,以及它和o n t o l o g y 以及c f m 之间的关系。 第六章详细介绍了“c f m 模型驱动的语义分析算法”:算法的思想、过程等,并 以实例描述了算法的各个过程如何结合语法和语义进行小旬分析的过程。 第七章介绍了“基于c f m 的汉语小句语义分析系统”的具体实现,主要包括知 识库的实现和分析算法的实现。 第八章是结束语,对课题进行了总结,给出它的优劣分析,并提出对将来研究 的展望。 第6 页 国防科学技术大学研究生院学位论文 第二章基于c f m 的汉语小句语义分析系统 课题在提出“c f m 模型驱动的语义分析算法”的基础上,设计并实现了运用该 算法的系统“基于c f m 的汉语小旬语义分析系统”( c f m - b a s e dc h i n e s ec l a u s e u n d e r s t a n d i n gs y s t e m ,简称c b c c u s ) 。系统以小旬作为输入,结合语言学知识和 世界知识,分析小句并生成语义表示。 本章将首先介绍一般的基于知识自然语言理解的系统模型:然后说明s b c c u s 系 统的总体结构,以及简单介绍其中所含的各知识库及功能模块,对它们的详细介绍 见论文的后续章节。 2 1 基于知识自然语言理解的系统模型 自然语言理解系统为了理解自然语言文本,不仅需要处理文本的形式,还需要 提取文本的意义,例如机器翻译、自动文摘系统等。为了达到提取文本意义的目的, 自然语言理解系统需要大量的世界知识或者领域知识“。基于知识的自然语言理解 系统( k b n l u :k n o w l e d g eb a s e dn a t u r a ll a n g u a g eu n d e r s t a n d i n g ) 关注的是如 何应用世界或者领域知识解决自然语言理解方面的问题如消歧、推理等。 k b n l u 系统在处理自然语言时,除了利用世界知识外,还需要结合各种语言学 知识,如语法、语义等,语法描述了自然语言符号是如何构造语法单元的,而语义 描述这些语法单元是如何链接到意义的。因此,k b n l u 系统分析自然语言时,根据 文本中出现的符号,找到其对应的意义,并利用世界知识内所含的约束进行消歧和 推理,得出文本的意义。系统的基本框架如图2 1 所示。由图中可以看出,分析器 接受源文本,利用各种知识生成文本的中间意义表示,即源文本的语义表示,并把 它们作为以后分析时所需的上下文知识。 图2 一lk b n l u 系统的基本框架 基于知识的自然语言系统的知识库包含三方面的内容: 1 、语言学知识 语言学知识包括语言的符号,以及符号如何组织成有意义的单元等知识, 即包含语法和语义知识。语言学知识将它的符号连接到世界知识,系统在分析 文本时,将把符号映射到世界知识,以达到理解的目的。 2 、世界知识 世界知识是人类形成的关于世界的经验,主要包括常识知识和领域知识。大 第7 页 国防科学技术大学研究生院学位论文 部分的k b n l p 是特定于领域的,它们使用领域知识处理该领域的文本。特定于 领域可以使得在建立领域知识,以及对文本消歧和推理时都可缩小范围。但是有 些自然语言系统的输入不可避免的会接收某些不在该领域中的对象或过程,这时 候系统需要包含一些常识知识库用于文本处理。世界知识的采用也使得自然语言 处理系统能够和其它的基于知识的智能系统整合,因为它们可以利用相同的世界 知识;同时基于知识的自然语言处理系统也能够用于多种不同的语言,因为虽然 不同的语言的表示会有很大的不同,但是它们要表示的意义基本是相同的,因此 可以以世界知识为基础,形成不同语言的中间意义表示。 3 、中间意义表示 中间意义表示是系统对文本的分析结果,也就是输入源文本的语义表示。一 般是对世界知识的一个实例化,满足世界知识内所含的各种约束,并按定的方 式组织起来。 k b - n l u 中语言学知识和世界知识有不同的结合方式,有些系统在建立时把两者 放在一起,如b i r n b a u m 和s e l f r i d g e 提出的基于概念依存表示的c a ( c o n c e p t u a l a n a l y z e r ) ,c a 中的词条同时包含了语言学知识和世界知识“。这种结合方式使得 系统存在扩展性方面的问题。而有些系统在建立时把两者放进独立的知识库,两者 之间具有映射联系;在文本分析时,把两者结合。如m i k r o k o s m o s ,它把知识库分成 词典和o n t o l o g y 两个分离部分。分离方式减轻了各知识库的负担,而且有利于知识 库的组合和扩展。 本课题中,我们采取了语言学知识和世界知识建立时分离,分析时结合的方法。 其中,语言学知识包含在“汉语功能模型”和语义词典中,而世界知识包含在o n t o l o g y 中。 基于知识的自然语言理解系统在分析时,一般是先语法后语义的,即它的起点 是已经分析出文本的语法树,然后赋予它们语义。考虑到汉语的特点,这种语法和 语义隔离的方法不适合。因此在本课题中,我们设计并实现了“基于c f m 的汉语小 句语义分析系统”( c b c c u s ) ,它结合汉语的语法和语义进行汉语小句分析。下面是 对该系统的一个简单描述。 2 2 系统的总体结构 “基于c f m 的汉语小旬语义分析系统”( c b c c u s ) 是一种基于知识的自然语言理 解系统。系统包含语言学知识和世界知识,分别存储在语义词典、o n t o l o g y 、汉语 功能模型( c f m :c h i n e s ef u n c t i o n a lm o d e l ) 中。它们通过映射关系相连,其中语 义词典中的词条映射到o n t o l o g y 及c f m 中的概念,而o n t o l o g y 的概念继承自c f m 中的基元概念。 系统以小旬为输入,采用“c f m 模型驱动的语义分析算法”,结合语义词典、 o n t o l o g y 、汉语功能模型( c f m :c h i n e s ef u n c t i o n a lm o d e l ) 进行小句分析,最后 得出小句的语义表示。系统的总体结构如下图所示: 第8 页 国防科学技术大学研究生院学位论文 2 2 1c f m 图2 - i“基于c f m 的汉语小旬语义分析系统”的总体结构 c f m ( c h i n e s ef u n c t i o n a lm o d e l ,汉语功能模型) 是系统中的核心知识库,它 存储汉语中的小旬级语义知识。c f m 中包含了小句的“语义模式”,以及组成“语义 模式”的“基元概念”。“语义模式”是小旬组成的功能化描述,它包含了两种约束: 一是小句的“功能组成约束”,即小句中需要包含哪些功能成分;一是各功能组成自 身的约束,主要是属性约束。“语义模式”是以过程为中心,考虑围绕过程的参与者 和环境成分。因此,它所包含的约束主要是过程形成的谓词约束,和谓词中各组成 参数本身的约束。 c f m 在系统中有两个重要作用: l 。作为小旬的语义表示:c f m 中的“语义模式”是小旬语义表示的框架,系统 最终分析所得小句语义表示,可以通过实例化“语义模式”获得; 2 驱动小句分析:c f m 中的“语义模式”包含了小旬的“功能组成约束”,系 统在分析小句时,可以由“语义模式”的“功能组成约束”驱动小句中功能 成分的分析,并判断其是否能够成为“语义模式”中的某一功能成分。 2 2 2o n t o l o g y o n t o l o g y 是系统中的重要数据库,它包含了系统需要的世晃知识或者领域知识。 o n t o l o g y 是对领域知识的概念化描述,采用概念以及概念之间的关系描述世界。系 统中,o n t o l o g y 和c f m 以及语义词典结合紧密,o n t o l o g y 中的概念继承自c f m 的基 元概念;而语义词典中的词条映射到o n t o l o g y 中的概念,形成词级语义。 o n t o l o g y 在系统中其两个重要作用: l 。用于消歧和推理:小句分析中除了需要满足“语义模式”中的“功能组成约 束”,还需要满足“功能成分”自身的约束,“功能成分”自身的约束主要是 其在世界知识中的“属性约束”。此时,可以运用o n t 0 1 0 9 y 中的世界知识对 “功能成分”消歧,使得其满足自身约束。另外,o n t o l o g y 也可以通过推 理填充意义缝隙。 2 用于小旬语义的生成:小旬分析后,需要对语义模式实例化。其中,语义模 式中的功能组成一般是由o n t o l o g y 中概念的实例化充当。 2 2 3 语义词典 “语义词典”存储了汉语中的词的信息,其中的每个词条拥有语法结构和语义 结构两部分:语法结构描述词条的用法,用于词条的语法分析;语义结构描述词条 到o n t o l o g y 或者c f m 中概念的映射,从而形成词级语义。 语义词典在系统中有三个作用: 第9 页 国防科学技术大学研究生院学位论文 1 寻找可能的模式:系统首先需要根据小句中出现的词在语义词条中的信息, 形成小旬的候选语义模式集; 2 用于成分分析:小旬分析中,需要利用词条的语法结构和语义结构,分析小 句中的功能成分; 3 用于对概念实例化:在成分分析中,可利用词条的语义结构,对其所对应的 概念实例化。 2 2 4 语义分析算法 “c f m 模型驱动的语义分析算法”是系统的控制机制,它接受系统输入的小句, 结合语义词典、o n t o l o g y 和c f m 进行小旬分析,并判断其是否满足各种约束。 小旬分析过程中,算法以c f m 中的语义模式为驱动,根据其所含的“功能组成 约束”,驱动小句的成分分析;若各成分分析完毕,则判断其是否满足约束;最后以 “语义模式”为小旬的语义表示框架,对模式以及它所包含的功能成分进行实例化, 生成小旬的语义表示。 2 2 5 语义表示 “语义表示”是系统的分析结果,表示输入小句的语义。本课题中以“语义模 式”为小句的语义表示框架,通过实例化“语义模式”表示小句的语义。 “语义模式”中包含过程、过程的参与者,以及环境成分,并以过程为中心。 因此小句的语义表示是对过程、参与者、环境等各功能成分的实例化,并描述了它 们之间的关系。 在下面的章节中,我们将详细介绍系统中的各知识库,并在其后介绍分析算法。 第l0 页 国防科学技术大学研究生院学位论文 第三章汉语功能模型( o f m ) 在课题研究的算法中,对汉语小旬的分析采用了三种知识库:汉语功能模型 ( c f m ) 、o n t o l o g y 、以及语义词典。其中o n t o l o g y 存储世界知识,c f m 和语义词典 包含了语言学知识。c f m 存储了汉语小旬级的语义,它是以系统功能文法为理论基 础建立的,对汉语小句语义模式的概念化描述。汉语功能模型是独立于领域的,可 以位于多个不同领域o n t o l o g y 的顶层。采用这种方式使得世界知识能够和语言学知 识紧密结合在一起。 本章首先介绍c f m 建立的基础:系统功能文法,然后详细介绍利用系统功能文 法建立的汉语功能模型。 3 1 系统功能文法 对语言的研究分为两个角度:一是形式化的角度,它是从逻辑和哲学的角度, 把语言看作是组织符号的规则集合,如c h o m s k y 的上下文无关文法;一是社会化的 角度,它把语言看作是人类用于社会生活的一种资源。 系统功能文法( s f g :s y s t e m i cf u n c t i o n a lg r a m m a r ) 是1 1 4 a k h a l l i d a y 提 出的把语言作为资源的一种语言学理论。它认为语言主要有两方面的功能:一方面 用于人际之间的交互,建立并维持人与人之间的社会关系:另一方面语言用于人类 存储世界知识,表达他们在现实世界中的经验。 系统功能文法中的“系统”,是指该文法认为语言的深层应当是可进行语义选择 的系统。从技术的角度看,系统就是一种选择点。例如,在文法中能够建立一种“语 气系统”,它是指人际交互中,可以选择不同的“语气”,比如:请求、规劝、建议、 命令、怀疑等等。“语气系统”又可以包括“给予”和“请求”两种选择,对它们进 一步细化,形成不同的子系统,从而形成一个系统网络。而和“语气系统”平行的 系统还包括“及物系统”、“主位系统”等。如此,文法就是由多个系统组成的一个 整体。 系统功能文法中的“功能”,是指该文法基于的概念框架是功能的而不是形式的, 可以从三个方面考虑: 1 文本角度:文法是用于考虑语言是如何使用的。语言都是在某些语境中使用 的,并且是经过了成千上万年的演化,才形成了系统。因此语言是用于满足 人类需求的,它的组织方式是考虑如何满足这些需求,即不是随意的。也就 是说,功能文法是一种“自然”的文法,所有它能解释的事物,最终都是指 向语言是如何使用的。 2 系统角度:语言中意义的基本元素是功能组件。所有的语言都是围绕两种主 要意义展开的:概念和人际,它们称为元功能,用于表达任何语言中的两个 通用目的:概念元功能用于理解周围的环境或者世界;人际元功能用于表达 人际交互。第三种元功能是语篇元功能,它是语言本身的功能,用于结合概 念和人际元功能。因此文法中主要包含三种系统:概念、人际、语篇。 第1 1 页 国防科学技术大学研究生院学位论文 3 元素角度:语言中的每个元素的解释都是连接到它在系统中的功能。文法把 语言中所有单元,如小旬、词组等,看作是功能的组成配件。也就是说,每 个部分都解释为其在整体中的功能。 功能文法中,文本的处理方向是和形式化的方向相反。形式化的方向是首先语 言被解释成形式化的系统,然后再赋予其意义。因此它要回答的问题是:这些形式 的意义是什么? 而在功能文法中处理方向刚好相反,语言首先被解释成一个意义系 统,然后考虑这些意义是采用何种形式组织的。它要回答的问题是:这些意义是如 何表达的? 系统功能文法中,“功能”意昧着它是基于意义的,而“文法”说明它是语言形 式的一种解释。下面重点介绍在系统功能文法中的两个重要概念:级阶( r a n k ) 以 及元功能,并给出它们之间的联系。 3 1 1 级阶 级阶是系统功能文法中的一个重要概念,级阶的概念是基于假设:一个有意义 的语言单位可以在一个级上分出比它低一级的意义单位。在汉语中,级阶由四个级 组成:小句、词组、词、词素。即小旬可以由词组组成、词组可细分成词等。例如 “善良的小刘细心地照顾生病的他”是一个小句,它可以切分成三个词组 善良的小 刘 细心地照顾 生病的他 。它们比小句低一级,它们又可进一步切分成词,如 ( 善 良 的) 小刘 。这些词又可划分成词素 ) , ) 。 小旬也就是汉语中的简单句,一般来说它是围绕着一个动词词组的一个扩展。 例如上旬是围绕“细心地照顾”扩展的。但是汉语中有些小句是以名词词组或者形 容词词组为谓语的,如“明天星期一”、“她很漂亮”等,本课题中,我们认为此类 小句是省略了系动词“是”,即它们可以转换成“明天( 是) 星期一”,“她( 是) 很 漂亮”。如此有利于小旬的统一分析。 关于级的划分,有两点需要注意:一是每一级上的单元是由比它低一级的单元 组成的,即小句只能由词组组成,而词组由词组成;二是从原则上来说,级的切分 是穷尽的:每个成分都应属于一定的级,而不能成为“剩余物”漂流不定。 小旬、词组、词、词素都可以构成“复合体”( c o m p l e x ) ,例如“调皮的小刘和 好静的小张是好朋友”,其中的“调皮的小刘和好静的小张”是并列的名词词组,构 成“词组复合体”做主语。而“如果明天下雨,运动会就得延期了”是由两个主从 小旬组成的小句复合体。实际上,汉语中的句子等同于小旬复合体,在功能文法中, 采用小句复合体的概念更有利于描述句子的语言结构以及它们要表达的意义。 在级阶中,有一个要注意的概念是“级移”( r a n k s h i f t ) ,也就是说某一级的单 元能够充当下一级的单元,即下移。例如在“小刘是大家公认的好孩子”中,小句 “大家公认”作为一个词组成分。 3 1 2 元功能 系统功能文法认为语言是用于人类社会交往以及存储世界知识的工具,因此加 上语言本身的语篇元功能,语言包括以下三种元功能: 1 、人际元功能 人际元功能是指人们用语言来和其他人交往,建立和保持人际关系,用语言 第l2 页 国防科学技术大学研究生院学位论文 来影响别人的行为,同时用语言来表达对世界的看法甚至改变世界。语言的人际 元功能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能语音财务分析工具创新创业项目商业计划书
- 智能通风算法创新创业项目商业计划书
- 农作物保险服务创新创业项目商业计划书
- 量子隧道检测装置创新创业项目商业计划书
- 智能招聘系统创新创业项目商业计划书
- 2025年线下演出市场复苏后演出市场政策环境与市场机遇研究报告
- 2025年环境影响评价公众参与机制优化与绿色产业集聚区建设研究
- 2025年无人机物流配送在物流行业物流配送服务创新中的应用报告
- 2025年沉浸式戏剧剧本创作与市场推广策略研究报告
- 2025年海上风力发电场运维信息化平台建设与运维报告
- 【课件】2025届高三生物一轮复习备考策略研讨
- 中级会计师《经济法》历年真题及答案
- 新疆城市绿地养护管理标准
- 高职院校高水平现代物流管理专业群建设方案(现代物流管理专业群)
- 汉语言文学毕业设计开题报告范文
- 爱自己爱生命主题班会课件
- 国家职业技术技能标准 6-25-02-06 半导体分立器件和集成电路装调工 人社厅发20199号
- 景观设计投标书模板
- 室内消火栓使用培训课件
- 2015-2023年注册会计师考试《会计》真题合集(含答案及解析)共10套
- 幼儿园卫生保健新生家长会课件
评论
0/150
提交评论