(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf_第1页
(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf_第2页
(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf_第3页
(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf_第4页
(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(测试计量技术及仪器专业论文)面向篇章的指示代词研究及在产品设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要本文首先着重阐述了自然语言理解系统中特定领域内的指示代词“这 的语义,然后研究了指示代词“这 的语义理解在产品设计中的应用。通过对自然语言形式的用户需求进行分析和理解,将最终结果转化成概念设计要求或设计参数。主要包括以下工作:首先,根据设计领域自然语言理解的特点,确定应用于产品设计的自然语言理解应该采用基于知识为主的方法。其次,介绍了现有的语义分析和知识表示方法,结合基于知识的自然语言理解系统的特点,选择本体论和概念从属理论作为基于知识表示的语义分析方法。然后,重点研究了指示代词“这”的指代消解的特点,对此类代词进行了语义分析和结构分析。再次,以概念从属理论和本体论为基础,建立了此类代词消解所需的模板,并对不同的指代块给出了具体的消解实现策略。并对篇章中此类代词的消解进行宏观分析,给出了篇章中处理此类代词的消解模型。最后,将领域中自然语言理解对指示代词的处理应用到产品需求分析领域的用户需求分析中,建立了相应的知识库,给出部分的语义处理规则,从而能用基于知识的方法对指示代词进行处理。关键词:自然语言理解概念从属理论指示代词这产品设计a b s t r a c tt h i sp a p e rf o c u s e so nt h en a t u r a ll a n g u a g eu n d e r s t a n d i n gs y s t e m ,t h ei n s t r u c t i o n sg i v e ni nt h ef i e l do ft h ep r o n o u n t h i s ”s e m a n t i c ,a n dt h e ns t u d yt h ed e m o n s t r a t i v ep r o n o u n ”t h i s ”s e m a n t i cu n d e r s t a n d i n go fp r o d u c td e s i g na p p l i c a t i o n s t h r o u g hn a t u r a ll a n g u a g ef o r m so fu s e rn e e d sa n a l y s i sa n du n d e r s t a n d i n g ,w i l le v e n t u a l l yr e s u l ti n t ot h ec o n c e p t u a ld e s i g nr e q u i r e m e n t so rd e s i g np a r a m e t e r s m a i n l yi n c l u d et h ef o l l o w i n g :f i r s t ,m e t h o db a s e do nk n o w l e d g es h o u l d b ea d o p t e di nn a t u r a ll a n g u a g eu n d e r s t a n d i n ga p p l i e dt op r o d u c t i o nd e s i g na c c o r d i n gt ot h ec h a r a c t e r i s t i co fn a t u r a ll a n g u a g eu n d e r s t a n d i n g s e c o n d ,t h ei n t r o d u c t i o no ft h ee x i s t i n gs e m a n t i ca n a l y s i sa n dk n o w l e d g er e p r e s e n t a t i o n ,c o m b i n e dw i t hk n o w l e d g e - b a s e dn a t u r a ll a n g u a g eu n d e r s t a n d i n gs y s t e mc h a r a c t e r i s t i c s ,c h o o s et h eo n t o l o g ya n dt h ec o n c e p to fs u b o r d i n a t i o nt h e o r ya se x p r e s s e di nak n o w l e d g e - b a s e ds e m a n t i ca n a l y s i s t h i r d ,f o c u s i n go nt h ed e m o n s t r a t i v ep r o n o u n ”t h i s ”t or e f e rt ot h ec h a r a c t e r i s t i c so fd i g e s t i o no ft h e s ep r o n o u n sa r es e m a n t i ca n a l y s i sa n ds t r u c t u r a la n a l y s i s f o u t h ,t oc o n c e p t s ,t h e o r i e sa n do n t o l o g i c a ls u b o r d i n a t i o ne s t a b l i s h e do nt h eb a s i so fs u c hp r o n o u n sd i g e s t i o nt e m p l a t ey o uw a n t ,a n dt or e f e rt ot h ed i f f e r e n tb l o c k so fd i g e s t i o na r eg i v e ni nd e t a i lt h ei m p l e m e n t a t i o ns t r a t e g y a sw e l la sc h a p t e r si nt h ed i g e s t i o no fs u c hp r o n o u n si nm a c r o - l e v e la n a l y s i s ,a r eg i v e ni nt h ec h a p t e rd e a l i n gw i t hs u c hp r o n o u n sd i g e s t i o nm o d e l f i n a l l y , g e n e r a ld o m a i no fn a t u r a ll a n g u a g eu n d e r s t a n d i n go fp r o c e s s i n ga p p l i c a t i o n st oi n s t r u c t i o n sp r o n o u n sp r o d u c td e m a n da n a l y s i so fu s e rd e m a n da n a l y s i s ,e s t a b l i s h e dt h ec o r r e s p o n d i n gk n o w l e d g eb a s e ,g i v e ss o m es e m a n t i cr u l e s ,w h i c hi sb a s e do nt h em e t h o do fk n o w l e d g ew i t hi n s t r u c t i o n sp r o n o u n s k e y w o r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n gc o n c e p t u a ld e p e n d e n c yt h e o r ys e m a n t i ca n a l y s i st h i sp r o d u c td e s i g n西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:刍肇旦目缉日期筮坦! 主17西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。本人签名:刍骚旦习红导师签名:彰乏第一章绪论第一章绪论帚一早三百下匕1 1 引言随着现代信息技术的迅猛发展和计算机在生产生活中的大量普及,计算机正在逐步改变着人类的工作生活方式。产品设计的过程也在发生巨大的变化,计算机已经渗透到产品开发和制造的各个环节。产品设计是生产制造的基础,必须根据产品设计来生产产品,而产品总成本的7 5 以上以及所有的产品性能都在产品设计阶段就已经确定,所以,一个产品设计的好坏直接影响着企业的竞争能力【l 】。而产品设计是基于知识与信息的设计。产品制造过程中主宰产品竞争力的决定因素是信息和知识要素的增值。因此设计过程就是获取知识、获取信息和应用知识、利用信息的过程【2 】。快速准确的理解需求分析是制定产品计划书的前提和基础。然而在当前产品设计和制造过程中知识信息的获取还没有给出一个正确、效率高的方法,这也是制约产品创新的瓶颈。产品设计是以获取知识信息为基础进行分析和建模,是人类创造性思维的产物。因此,产品设计的基础是知识信息的获取,而系统开发人员和用户对对方专业背景的欠缺往往造成沟通的困难。本文研究的主要目的是将自然语言理解技术应用到产品设计领域,建立一个基于领域的人工智能系统为产品设计过程。1 2 产品设计概述产品设计是一个复杂和精细的过程,但也有一定的规律。基于不同的领域知识,可以根据其自身特点对产品设计过程进行建模。产品设计过程一般分为:需求分析、概念设计和详细设计三个阶段【3 】。需求分析1 4 , 5 】囊括用户需求和问题可行性研究两个阶段。首先要了解用户对产品在功能和性能的要求,然后根据客户的要求对产品进行可行性分析。概念设训4 ,5 】是确定系统整体功能和应用技术。概念设计的核心是确定待设计产品新的、有市场竞争力的实施方案和原理。详细设计【4 ,5 】完成产品的各部分模型的建立和确定所有的技术参数。其中,每个设计阶段,又都经过综合、分析和评价等的循环反复才完成的,且在一定的知识指导下进行的。用户的需求是整个产品设计的依据,而需求大多数是用文本来描述的。随着产品设计智能化,其相应的需求分析以及概念设计都需要自然语言理解才能够实现。2面向篇章指示代词研究及在产品设计中应用1 3 自然语言理解综述自然语言理解( n l u ) 6 1 是计算机科学领域与人工智能领域中的一个重要研究方向。它的研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法【6 】。所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、调、句、篇章的输入、输出、分析、理解、生成等的操作和加工1 7 j 。自然语言处理内容涉及到语言学、心理学、逻辑学、数学和计算机科学,是- - n 新兴的边缘学科【8 l 。自然语言理解可分为文本和语音理解。本文主要讨论文本理解。对于文本理解主要涉及到切词、语法理解、语义理解和语境理解。判断理解是否成功,美国认知心理学家g m u l s o n 提出判别计算机是否理解自然语言的四条标准一j :问答:能够回答与输入文本有关的问题文摘:能够对所给的语言材料进行浓缩释义:能用不同的词语复述所给的文本材料翻译:具有将文本材料翻译成另一种语言的能力自然语言理解需要完成三步工作:分析出现的每个词语;从词义构造出发分析表示语句意义的结构;从句子语义结构出发分析表示段落的结构。在这三个步中。首要解决如何有效地使用语法、语义和语境分析与其相关的各种知识的问题。通常意义上,计算机理解了事件,是指把这些事件的一种表示形式转换为另一种表示形式,每种表示形式对应着一组动作。在自然语言理解过程中,为了得到关于理解的总体描述,通常将语言看成是源语言和目标语言的二元组,两者存在着映射关系。理解自然语言之所以困难,主要因为以下三方面因素【lu j :第一,知识表示的复杂性:如语义的概念依存表示。从日常语句中提取知识表示就已经相当复杂,同时还需要更多相关的客观世界的知识。第二,映射的类型:对于源语言到目标语言表示的映射,一对一类型是最理想的。但现实中,自然语言到目标语言表示的映射更多是一对多或多对一的关系。第三,成分问的交互程度:在语言中,每个语句都是由多个句子成分组成的,且成分间的交互程度相当高,从而使得映射的复杂程度大大增加。1 3 1 自然语言理解发展状况早期历史( 1 9 5 0 1 9 6 0 左右) 是以关键字匹配为主流的【1 1 1 4 】。五六十年代开发的自然语言理解系统中事先存放了大量包含关键字的模式,依靠关键字匹配技术来识别输入句子的意义,这不是真正意义上的自然语言理解,但为后来技术的发展提供了一定的参考价值。第一章绪论中期历史( 1 9 7 0 1 9 8 0 左右) 是以句法语义分析为主流的 1 1 1 4 】。在此阶段引入了句法和语义分析的概念。句法分析是识别构成句子的各个成分以及它们之间的相互关系【1 1 , 1 2 】,例如确定句子中的主语、宾语和谓语。语义分析是根据句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示 1 1 , 1 2 j 。近期历史( 1 9 8 0 一至今) 是以走向实用化和工程化为特征的【l 卜1 4 1 。1 9 9 0 年,第1 3 届国际计算语言学大会,首次提出了处理大规模文本的战略目标i l 引。同时语料库语言学兴起顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。随着计算机技术和人工智能技术的发展,对自然语言理解技术也不断取得进步。但自然语言理解并未取得根本性的突破。1 3 2 自然语言理解的应用随着社会信息化的迅速发展,语言文字计算机处理的重要性与紧迫性日益显现出来。互联网的迅猛发展极大地刺激 w e b 收索技术的发展,间接促进了自然语言处理技术的发展。自然语言处理的应用领域十分广泛,包括信息检索、信息提取、信息获取、机器翻译、自动文摘和自动校对等等。1 4 汉语代词消解汉语作为一种意形语言无法直接借用英语的处理方法【1 5 】。正是由于汉语在词分类、句子成分的大量省略和无结构,造成了对汉语的自然语言理解的研究进展缓慢。1 4 1 指代消解的发展状况指代1 1 6 , 1 7 】也称为照应,是指叙述者假定听者或读者能够分析出所指对象是什么。根据代词和所指对象之间的位置关系可分为前指和后指【1 8 】。通过语料分析,在语言中指代以回指为主,即代词出现在所指代的对象的后面出现,所指的对象或内容就称为指代对象。所谓指代消解1 1 9 1 ,就是正确唯一地确定代词所指代的指代对象,并建立两者之间的联系。一、国外指代研究国外比较有影响的指代消解算法:h o b b s 算澍2 0 】是最早采用计算方法实现指代消解的算法之一,由h o b b s 在1 9 7 8年提出,实现了人称代词的消解。该算法不依赖任何语义知识或语篇信息,只利4面向篇章指示代词研究及在产品设计中应用用语法规则和树图信息。中心理论( c e n t e rt h e o r y ) 2 0 】是一种关于语篇连贯的理论,是由g r o s z 和s i d n e r等人1 9 8 3 年前后提出,1 9 9 5 年扩展完善并正式发表。自该理论提出以来一直受到了广泛的关注。语言中涉及的某一实体的地位较另一( 些) 语句的实体更显著,由此对指称词尤其是代词的用法起到一定的限制和规定,从而为指代消解提供依据。有限知识方法【2 1 1 是1 9 9 8 年m i t k o v 提出了一种鲁棒的、基于有限知识的指代消解方法。该方法主要针对的是人称代词消解【2 1 , 2 2 】。有限知识方法流程是:首先对待消解的文本材料进行预处理,完成词性标注和名词短语识别,然后对文本中的候选项进行性别和数量一致的过滤,过滤后的候选项用先行语指示器【2 2 j 赋值,得分最高的词语被认为是先行语:如果存在多个相同最高分,则把搭配关系得分最高的作为先行语:如果仍不能得出先行语,则根据动词搭配判断;如果上述方法均失败,则将最近的候选项作为先行语。二、国内指代消解研究虽然相对于英文来说,相对于汉语的自然语言理解已取得一定的成果,但是还是存在困难,比如:代词指代、省略以及歧义。现在语言学家、计算机学家和心里学家都在各自的领域中重视指代消解的问题。王厚峰【1 9 2 0 0 0 年提出基于h n c 的代词消解方法,利用h n c 的句类基本知识,分析句中的语义块构成,利用语义块的类型特点和语义块之间的结构特点在语义块内部、语义块之间使用排除规则。通过规则排除后,代词仍然可能与多个对象存在照应,在多个对象中进行选择时,表示目的或结果的辅语义块中的对象优先考虑,然后采用局部焦点优先的原则,进行人称代词的消解。2 0 0 4 年王晓斌【2 3 】在篇章表述理论的基础上,针对汉语书面语,提出了一种面向篇章理解的汉语人称代词的指代消解方法。通过研究发现,篇章理解和指代消解是一个互相作用的动态过程。篇章理解依赖于指代消解,而指代消解也需要在篇章理解的动态过程中实现。篇章表述理论独特的篇章表述结构的动态构造方法,为指代消解提供了新思路。通过上面的介绍,可以看出现在对于汉语的指代消解研究主要集中在人称代词,对于指示代词,特别是“这 的指代消解还没有提出有建设性的算法。代词的所指离不开一定的语境,特别是汉语,缺乏形态,强调意会,其指代的使用情况,尤其是“这”、“那”类代词的使用情况更加复杂。1 4 2 代词指代消解的难点汉语的代词消解相对于其他语言,只能算是刚刚起步。由于汉语不同于英语,英语有严格的语法结构,而汉语更注重语义上的连贯性。由于代词的语义和语法第一章绪论5上的特性决定了代词消解的难点,特别对于指示代词指代对象的不确定更增加了理解的难度。代词消解的难度主要在四个方面:l 、代词语义因素代词可以代替名词、动词、形容词等等1 2 4 1 。这势必会在确定先行词候选集时构成很大困难。当然在具体的语境中这种歧义是可以消除的,这就不能单纯的靠语法分析,需要语义分析。例如“老妇人抱着一个孩子从大街上走过,这个人大约五、六十的样子。 “这 可以指代“老妇人 也可以指代“孩子”。但是根据整个句子含义,“这 指代的是“老妇人 。2 、代词和指代对象代词的指代对象可以是单个名词、单个人物,也可以是名词短语、群体人物和事件。特别是抽象指代,其指代对象不仅可以是名词短语,甚至可以是句子或篇章,这使先行语候选集的确定十分困难。例如:“看问题不要孤立,不要僵死,要注意多方面的联系,在事物运动中把握规律,如此而已。这种幼儿园水平的理解,也许更接近事实真相。”代词“这 指代的是“看问题不要孤立,不要僵死,要注意多方面的联系,在事物运动中把握规律”,其成分就比较复杂不是单纯的一个名词,而需要结合上下文来进行分析才能确定。3 、代词与指代对象的距离指示语与先行语可以跨越多个句。距离越大,篇章指代对象候选集也就越大,构造篇章指代对象候选集的复杂性也就越大,要从中筛选得到正确的指代对象也就越困难。通过语料分析发现“这 与指代对象最多相隔有1 8 个句子。4 、代词指代的结构代词可以在句子中做主语、宾语和定语,也可以虚化【2 4 1 。代词指代情况同时又分为前指和后指。这些因素交叉在一起就给确定先行词的候选集带来了困难。从以往的代词消解方法来看,主要集中在人称代词的消解。很少涉及到指示代词的消解,这是因为指示代词的指代对象非常复杂。单就“这 这个指示代词就指代、称代和链接三种用法【2 4 】。特别是称代作用时,可以指代上下文的人、事物和事件。而指代对象为事件的是最不容易区分的。1 5 本文主要工作本文是采用基于知识的方法作为理论基础,采用本体理论对自然语言理解系统涉及的领域内的概念知识进行分类整理。本文主要讨论指示代词“这 的各种情况,主要工作有:1 查阅相关资料,分析了自然语言理解发展历程,探讨了汉语代词指代消解的现状。提出了指示代词“这 指代对象为动词或事件消解研究是代词理6面向篇章指示代词研究及在产品设计中应用解的一个新的点。2 通过现有的几种语义分析方法的分析和比较,选择本体论与概念从属理论作为本文语义分析的基础。介绍了自然语言理解系统总体模型和过程。3 介绍了代词的相关知识,分析了指示代词“这 的语用、语义作用,结合本体论和概念从属理论分析了指示代词“这”存在后行词的情况。4 根据指示代词“这”后面紧跟的后行词进行分类,并给出了相应的语义模型。提出了采用概念从属理论作为建立静态知识库的依据,给出了这类代词的消解策略。5 将自然语言理解的此类代词消解应用于产品需求分析及概念设计的原型系统,经过初步调试,结果比较令人满意。最后,全文结合汉语中指示代词“这 的语义分析在机产品设计中的应用。从选择自然语言理解的模型出发,讨论了汉语的知识表示、语义分析、自然语言理解的整体思路;梳理了指示代词“这 与不同类型指代对象关系;探讨了篇章中指示代词“这”语义分析的方法和消解策略。结合实际应用,取得了一定的成果。第二章语义分析理论方法7第二章语义分析理论方法自然语言理解通过句法、语法、语义分析来实现对语言的深层次理解。在自然语言理解研究的前期,总是试图仅仅利用句法和语法信息来分析,这是远远不够的。任何语言都需要具体的语义才能准确的分析。而由于汉语缺乏形态特征f 2 5 】,用法十分灵活,所以语义分析是自然语言理解中的重点和难点。2 1 语义分析概述语义团】是个涵义较为广泛的概念,它可以指词语的意义,也可以指话语的内容。通常所说地语义是指人们在说话或文章中所表达的意思。本文中语义指的是词语在具体句子中,词语与词语之间形成的词汇意义之外的一种关系意义,是词语在句子结构中体现出来的意义。如“张三算计了李四”和“张三被李四算计了”这两句中都出现了“张三”,在前一句中是发出“算计 这个动作行为的主体,称作“施事 ;而在后一句中,则是“算计这个动作行为的承受对象,称作“受事”。这里的施事、受事的意义不是“张三 这个词语本身所具有的,而是在这两个具体句子中才具有的。所谓的语义分析,指的是根据句子结构和句中每个词语的词义推导出能够反映这个句子意义的某种形式化表示1 2 3 ,目的是确定每个词语在具体句子中的确切意义,然后根据句子结构和各词词义推导出这个句子的语义,并用形式化的方式表达出来,从而使计算机能够根据这一表示进行推理。语义分析的作用,概括起来大致有如下三个方面1 2 3 】:( 1 ) 理清句子的语义结构关系;( 2 ) 把句子的各个构成成分的意义组合成为一个完整的句子的意义,并把它映射为一个由严格定义的形式来刻划的语义表达式;( 3 ) 说明句子中词语搭配上存在的各种语义限制条件。语义分析是自然语言处理过程的一部分,是计算机理解语言的基础。从自然语言处理的应用来看,不管是信息获取、信息检索、机器翻译、自动文摘,还是人机交互,都首先要对语言进行理解,确定语言表达的语义后,才能进行后续操作,得到结果;从自然语言处理的发展来看,正是由于在实际应用中词法分析和句法分析达不到令人满意的效果,研究者们才纷纷转向语义研究,提出各种语义学理论。8面向篇章指示代词研究及在产品设计中应用2 2 常用的语义知识表示方法人工智能科学对自然语言的研究是希望找到一个有效的、具有可计算性的数学模型,以解决机器理解语言的难题【2 0 】。人工智能对语言的研究侧重于语言的宏观功能,把语言活动看作是一个信息加工过程。语义和语法分析是知识表示的两个方面,实践证明,语义分析比语法分析更有利于自然语言理解。本节主要介绍自然语言理解中常用的几种语义知识表示方法,如概念从属理论、本体论、语义网络、格语法等。2 2 1 格语法格语法是由美国语言学家菲尔默( c j f i l l m o r e ) 提出的一套用来说明句子语义的理论【2 6 , 2 7 】。格语法是一种涉及句子深层的语义处理方法。其核心思想是:动词在句中起中心作用,参与动作的各个体称为“语义格 ,且“格”的数量是有限的。针对每个动词的义项,由可能的“语义格”子集构成格框架,这一子集分为必要的和可选的两个集合1 26 。在深层结构中,一个动词总是和某些语义格并用,而这些语义格是任意排列的,没有次序性的。目前的格主要有:施事格、工具格、与格、使成格、处所格、受事格、经验格、来源格、目标格、时间格、途径格等。根据格语法,只有属于同一种语义格的词才能连接在一起使用,子中只能起一个作用。每一种语义格只有一个句法功能,在句格语法最大的特点是承认语义在句法中的主导作用,由格语法分析可以得到句子的深层语义结构,给出各成分担当的语义角色,因此,格语法适用于汉语的分析。但格语法在汉语分析中存在以下几个缺点:( 1 ) 确定句子核心困难。格语法认为动词时句子的中心,在分析句子时首先要确定句子的核心。但是由于汉语缺乏形态的特点,在句子终会出现多个动词同时存在。如:有多个动词的连动式和兼语式。( 2 ) 短语内部各成分间关系无法确定。格语法提出的各种格关系都是名词性短语和动词之间的语义关系,对于名词性短语和动词短语内部各成分关系的确定没有给出。2 2 2 语义网络语义网络最初是在1 9 6 8 年作为人工智能中一种表达人类记忆和理解语言的方法而由美国心理学家奎廉( r q u i l i a n ) 提出的口刀。1 9 7 2 年美国人工智能专家西蒙斯第二章语义分析理论方法9( r f s i m m o n s ) 和斯乐康( j s l o c u m ) 首先将语义网络用于自然语言理解系统,在语义网络中直接用概念表示词义,反映词义与词义之间的动态组合关系。现在语义网络已成为人工智能中最要的知识表达形式。语义网络是通过一些节点以及用于连接节点的有向弧构成的有向图来描述的,节点代表物体、概念和事件等实体,而有向弧则代表实体之间的二元关系。如图:2 1t d l物ji d 一j 3。- r 7,1 3 。d 一。i生物i 非生物i s。a7 i土例1 1b- ai s af1动物植物ai jt 。1 1 工5 。jlli s alk 一树b a李四杨树柳树图2 1 语义网络语义网络可用于表达的知识类型很多,按其节点之间的关系可分为以下几种【2 8 】( 1 ) 表示在层次分类中概念与概念之间的关系。在高层概念中,不考虑低层概念之间的差异。低层概念可以有自己的特性,这种关系可以用种属关系( i s - a ) 链来表示,该链是语义网络中最活跃的因素。语言处理系统中,用这个关系来表示这个常用的语句形式:一种是描述一个个体属于一种确定类型的推断;另一种是全称量词条件句,描述一个类型是另一个类型的子类型。如图2 1 所示。( 2 ) 表示在组元集合中概念之间的相应关系。每一组元又可以是更小组元的集合,这种关系是基于可把每个高层概念看成若干低层概念的集合。同时,可把低层概念看作高层概念的属性,或者说把一个词的概念看成是表达另一个概念的一部分这种关系可以用整体部分关系( p a r t o f ) 表示。语义网络的一个优点或重要特性在于属性间的继承,指的是凡上层概念具有的属性均由下层概念继承。这个继承性对于计算机程序的实现非常重要。凡是用有向弧i s a 连接起来的节点都有上层和下层的关系,例如,“树 是“植物”的下层概念,又是“杨树 的上层概念。语义网络的另一个优点是灵活性,网络中的结点和有向孤可以按规定不加限l o面向篇章指示代词研究及在产品设计中应用制地定义。这种灵活性在面向对象语言表示中不仅仍然存在,而且对象和对象之间的关系还可以动态建立。但是语义网络系统的开发和维护很困难。随着对象( 结点) 的增加,语义网络的管理将变得异常复杂,很难给出某个对象或属性值的修改对整个系统的影响。2 2 3 概念从属理论1 9 7 3 年美国的s c h a n k ( 杉克) 提出了概念从属理论【2 9 3 0 1 ,这种理论与格语法有相似之处,如句子意义的表达以行为( a c t i o n ) 为中心,并包括一些与其相关的句子其它词的格。但两者之间也有明显的区别,在c d 理论中,句子的行为不是由动词表示,而是由原语行为集表示,其中每一个原语是包含动词意义的概念,换句话说,行为是由动词的概念表示,而不是由动词本身表示。让我们看两个例句:例句l :我打了他一拳。例句2 :他挨了我一拳。以上两句尽管侧重点不同、所用的动词不同,但基本概念是相同的,都是关于所有权的转移。但在格语法中,这两个句子的内部存储将采用完全不同的形式。例如:第一句可表示为:事件1施动对象:我作用动作:打宾语对象:一拳动作指向:我一他第二句可表示为:事件2施动对象:他作用动作:挨宾语对象:一拳动作指向:我一他由此可见,c d 理论的一条公理是:具有相同意义的两个句子不管它们的词语是否相同,或词语排列次序是否相同,它们都有相同的内部表示。深层结构是一致的。一个句子的主动态形式和被动态形式虽然表达上不同,但意义上是相同的。两个句子只要含义相同,就有相同的概念结构,相同的依从关系。在基于知识的自然语言理解系统中采用概念从属理论作为语义分析方法,具有很多优点:1 知识推理方便。2 可以把问题抽象成模型加以处理,以表达概念间的深层知识。第二章语义分析理论方法然而概念从属理论并不能解决所有的问题,有以下的缺点:1 概念从属要求把所有知识分解为相当低级的原语,可能低效或在某种情况下也许做不到。2 概念从属理论是一种事件表达理论,但为表达复杂程序可能需要的所有信息,就要求能表达除事件之外的其它事情。综上所述,概念从属理论是众多语义分析方法中表达概念语义较方便的一个,在我们建立的基于知识的系统中,可以选择概念从属作为基于知识的方法的重要补充。2 2 4 本体论本体论【3 1 , 3 2 3 原本是一个哲学上的概念,称为本体论、实体论或存在论,是对自然存在及其本质的研究,其反映的是事物本质的、科学的内涵。本体论己广泛地应用于自然语言理解、信息检索、知识管理等不同领域【6 】。近来己成为各领域的研究热点。1 、本体的基本概念“本体是对共享的概念化( c o n c e p t u a l i z a t i o n ) 进行形式的显示规范说明。概念化是现实世界中现象的抽象模型,要明确标识与现象相关的概念。显示的意思是指被使用概念的类型以及概念在使用中的约束被明确地定义出来。形式的意思是指本体应该是机器可读的。共享是反映本体中的知识是中立的一致认可的。【3 2 j 一2 、本体的关系【3 2 j关系是本体的基本构成元素之一,可具体分为基本关系和普通关系。基本关系是指在所有本体普遍适用的关系,而普通关系并不适用于所有本体。本体中的基本关系不管是对于理论研究还是实际应用都非常重要,它又可分为两类:第一类是处于不同逻辑层次上的概念之间的关系,包括种属关系【3 引( i s ar e l a t i o n ) 和实例关系 3 3 1 ( i n s t a n c e o fr e l a t i o n ) ;第二类是整体和部分之间的关系【3 3 1 ( p a r t w h o l er e l a t i o n ) ,用来反映物体组成结构。确定这些关系的语义并基于这些关系就可以进行知识推理。( 1 ) 实例关系( i n s t a n c e o f ) 关系是对实例和概念之间关系的描述。实例关系没有自反性、对称性和传递性。但是实例可以继承概念的性质和属性,也就是继承性。概念的定义主要包括性质、属性、属性值的类型以及关系;实例可以继承概念的性质、属性和关系,并且给出具体属性和关系的值,而属性和关系值的类型是在概念定义中说明的。( 2 ) 种属关系( i s a ) 关系存在于种概念和类概念之间,它是一种偏序关系,1 2面向篇章指示代词研究及在产品设计中应用不满足对称性,但有自反性、反对称性和传递性。( 3 ) 整体部分( p a r t w h o l e ) 关系是一种基本的本体关系,基本问题包括:概念“部分”和“整体”的特征、二者之间存在的不同关系以及二者之间性质的继承。这在自然语言理解过程中扮演者重要作用。以概念的外延和内涵关系可以把整体部分关系分为三类:由种属关系导出的整体部分关系。这种整体部分关系是聚合之间的包含关系。例如,概念“动物 按照属性“生活环境 进行分类,可以分为“鱼类”、“两栖动物”、“爬行动物、“鸟类 、“哺乳动物”和“昆虫 ;那么“两栖动物和“动物”之间的关系就是这种类型的整体部分关系。由实例关系关系导出的整体部分关系。这种整体部分系是元素和集合的关系。但是它并不是简单的成员关系,因为它是由实例关系导出。例如,“周恩来”是概念“人类”的实例,那么“周恩来”一定是概念“人类 外延集合中的一个元素,这种类型的整体部分关系在自然语言中较少见到。成员关系。例如:在概念“人类”中划分出一个实例子集“三国人物”,那么“三国人物 与“人类 概念的实例“张飞 、“诸葛亮”等之间就是成员关系。成员关系侧重概念间的组成关系,没有属性的继承关系。例如:“张飞”不能继承“三国人物”的属性和性质,而它可继承“人类 的属性和性质。从描述对象的类型来说,本体既可以用来描述简单的事实,又可以用来描述信念、假设、预测等抽象的概念;既可以描述静态的实体,又可以描述与时间推移相关的概念,如事件、活动、过程等暖7 1 。本体是独立于语言的,其中概念的获取与所要处理的领域范围有关。它在系统中的作用有【3 l 】:( 1 ) 本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可以重用,从而避免重复的领域知识分析。( 2 ) 统一的术语和概念使知识共享成为可能。2 3 自然语言理解系统总体模型自然语言理解是人工智能的一个重要分支【6 】。由于语言的复杂性、对现实认识的局限性和实现的困难,目前还没有一套完善的理论来指导自然语言理解系统的设计,所以很难设计一个在所有领域内都适用的自然语言理解系统。研究基于领域的自然语言交流,分析基于领域的汉语计算机理解的特点,为选择最适合所在领域的自然语言理解理论提供了一些分析条件【2 们。本文所介绍的自然语言理解系统是领域内的汉语自动理解,是一个服务于人一机交互的系统。第二章语义分析理论方法1 32 3 1 自然语言理解模型采用的是自然语言理解的层次模型,它遵守单向依赖关系它的基本原理【2 0 】如图2 2 所示:规则1规则2规n 3,图2 2 自然语言理解层次模型图2 3 2 自然语言理解处理总体流程规则5自然语言理解是词法、语法和语义相结合理解的过程。本文介绍的基于领域的自然语言处理系统中,语义理解是自然语言理解系统中的重点,语法理解是语义理解的前提。图2 3 是处理流程。图2 3 自然语言理解总流程1 4面向篇章指示代词研究及在产品设计中应用本文将要论述的指示代词的语义分析是这个系统中的一部分。它是汉语自然语言理解的难点之一,也是句子理解和推理必不可少的一部分。2 3 3 基于领域自然语言理解的特点在基于领域自然语言理解中,汉语的语义分析起着非常重要的作用,因此必须获取相关的汉语语义知识。基于领域的汉语知识集的完全决定着语言“理解 、“不理解”和“误解 。这样,基于领域的汉语有以下几个特点或者说处理的优点:词汇量受限:语言中词汇是语义组织的最基本单元,建立领域的理解的词汇量,即确定描述领域的词汇量范围,使词汇义的描写或分析可以覆盖到一定的流通面。在领域内,可以解决汉语分析中“不理解 和“误解 等问题。根据统计在领域内获得的词汇义和建立的词汇库会在一定程度降低汉语的自动分析的难度。义项受限:任何词汇语义都是对着词的义项而言的。在领域语言理解中,通用词或者说高频词并非全部义项都常用的,例如“头 可以作名词( 如口鼻) 、序数词( 如头一个) 、量词( 一头牛) ,而在具体的领域中,比如在数学领域中使用时,“头 作为名词的频率远远大于把作为序数词的频率。层级受限:词,句,段落形成具有一定的规律。词语以一定的搭配组合关系为依据组成一个句子或称述一个主题事件,具有相同主题的句子按照一定的逻辑关系组成了段落。因此,自然语言理解是逐层进行的,从词的意思到段落的意思,对应每一部分内容的歧义消除了,整体内容就完全理解了。2 4 本章小结本章详细介绍了自然语言理解中几种常用的知识表示方法,列举了这几种知识表示方法的优缺点,并重点介绍了本体论和概念从属理论这两个重要的理论。这两种常用的方法为自然语言理解知识库的建立提供了有力的帮助,并为本文后续的工作奠定了基础。第三章篇章中指示代词消解语义分析第三章篇章中指示代词消解的语义分析代词是代替名词、短语、分句、句子或篇章的词 3 5 】。在篇章中使用代词可以使文章简洁,但同时也引出了一个问题:如何在篇章或言谈中确定代词代替的对象? 代词通常被用来代替上文的一个中心或对象;在理解的过程中,信息接受方就需要确定代词所表达的相应的主题或对象是哪一个。只有在篇章中,才能确定代词所指代的人或事物。代词的语法特征是对客观事物的概括性和抽象性,它并不是代替别的词或别的成分的词,而是代替别的词或成分发挥其相应的功能。所以,要确定代词的指代对象主要是确定它所指代的语义。3 1 指示代词语义特点3 1 1 代词的语法和语义特性汉语中代词作为一个独立的词类,是由它的特性决定的 3 6 , 3 7 】。它的特性表现在语法的意义和形式不同于其它词类【3 引。代词的语义的特性表现为对客观事物的概括性和抽象性。这种概括性不同于名词所表达的概念的概括性,名词的概括性是对事物的抽象意义。而代词只有在具体的语言环境中,才能确定其指代对象,这表现出代词在语义意义上的概括性。代词的语法特征表现在代词在篇章中起到连贯和衔接的作用。代词在句中不仅仅是替代别的词语,还代替别的词语发挥相同功能。代词的语法形式主要表现于外部形式上。代词所替代的可以是词语、短语、句子甚至篇章。本文主要研究指示代词“这 。指示代词“这 不但继承了代词的所有特点,还具有自己的一些特点。“这在语意功能虽然是表示“近指”,但是“近指是相对于叙述者或者说话者而言的,需要在理解过程中首先确定叙述者或说话者。根据“这 的语法功能,可以指代名词、动词短语、句子、段落甚至篇章。这又不同与其它代词,指代的复杂性远远超过其它类型的代词。比如:人称代词指代的对象是人或物;疑问代词指代的对象人、物和事件。在语用方面,指示代词“这可以充当句子中的主语、宾语、插入语、连接词等等。而人称代词和疑问代词只能充当主语和宾语。语用的复杂性决定了区分句子成分的困难性。根据“这 指代对象的位置,可以分为回指和预指。这就加剧了指代消解的复杂性和困难性。因此,本文主要分析指示代词“这”回指的情况。1 6面向篇章指示代词研究及在产品设计中应用3 1 2 代词消解的一些概念约定代词可以代替上下文中对象发挥语义作用,省略不必要的重复内容。但是由于代词的使用使句子的模糊度增大,因此在自然语言理解的过程中确定代词的指代对象是一个急需解决的问题。例如:等腰三角形的腰为5 ,底边为4 ,求这个三角形的面积。根据已有知识理解出代词“这”的指代对象是“等腰三角形 。要让计算机提取出这个指代关系必须结合相应的知识进行代词消解才能实现。根据系统代词处理的过程做如下的概念约束:1 、指代块:代词与其后的实词统称为指代块。2 、先行词( 指代对象) :代词所替代的内容称为代词的指代对象。3 、后行词:代词后紧跟的实词,即指代块的中心词。4 、指代消解:确定代词指代对象的过程称为代词的指代消解。3 2 指示代词“这 结构与语义分析在篇章中代词同时起到组成句子和衔接篇章的作用,使篇章语义连贯。在篇章中如果不将代词的指代对象确定,那么可以肯定对于篇章理解的是不彻底、不完全的,对于篇章中事件主体的认识也是模糊的、不确定的。同时,经过研究发现,指示代词“这 的指代对象往往需要动词语义分析才能确定。所以,代词篇章理解和指代消解是一个相互作用的动态过程。篇章理解的完成依赖于指代消解,而指代消解也需要在语篇理解的动态过程中实现。因此在篇章理解的过程中,仅靠语法和语义知识来确定代词指代对象是远远不够的,还需要相应的篇章知识。本节主要讨论指示代词“这”后紧跟后行词的各种情况。3 2 1 “指示代词+ 一般名词 结构基于领域内代词消解就是确定代词后行词与先行词的概念关系。根据本体论的观点,概念之间的关系主要有:同一关系、种属关系,整体和部分关系和实例关系。对于名词概念之间的指代关系,前面有很多人在研究,这里只做一个简短的介绍。领域内代词先行词和后行词常见的关系主要有以下几种:( 1 ) 指示代词先行词和后行词之间构成复指关系,也就是代词的先行词和后行词指的是同一个概念;例如:已知三角形的一边长5 c m ,另两边之和为7 c m ,求这个三角形的周长是多少?在这个句子中进行代词“这 的消解,首先确定代词的后行词是名词“三角第三章篇章中指示代词消解语义分析1 7形 ,指示代词“这”的先行词是前面句子出现的“三角形 ,先行词“三角形和后行词“三角形 指的是同一个“三角形”,这样先行词与后行词构成复指关系。( 2 ) 指示代词先行词和后行词之间构成种属关系;例如:已知等腰三角形的底角是顶角的二倍,求这个三角形的顶角是多少?例句中代词“这个 的后行词是“三角形 ,代词的先行词是前面的“等腰三角形 ,这两个名词满足种属关系,“等腰三角形”是“三角形”类的一个特例。满足这种关系的代词的后行词是先行词的种概念,先行词是后行词的子概念。( 3 ) 指示代词先行词和后行词之间构成外延内涵关系,也就是说代词的后行词是其先行词的外延属性,或者是其先行词从父概念继承而来的外延属性;例如:工厂的这个车间。此例中先要确定指示代词“这的先行词,它的后行词是名词“车间 ,由静态知识可知“工厂有“车间”。所以“车间 是名词“工厂的外延属性。由概念间的内涵和外延关系推导出“车间 和“工厂”满足本体中的“内涵外延关系,即“车间 是“工厂,的一部分。满足这种关系的指示代词的后行词是概念的外延,代词的先行词是名词概念本身。,( 4 ) 代词先行词和后行词之间构成整体部分关系;例如:让我道歉,这脸往哪搁啊!此例中指示代词“这的后行词是“脸”,指示代词的先行词是“我 及人,“脸”是“人我的一部分,这样先行词和后行词构成本体中的“整体部分”关系,确定“我 就是指示代词的先行词。满足这种关系的代词的后行词是表示部分的概念,先行词是表示整体的概念。( 5 ) 代词先行词和后行词之间构成实例化关系。例如:李四每天都去赌博,这个人就不学好。此例句中指示代词“这 的后行词是“人 ,代词的先行词是“张三 ,先行词和后行词满足本体中的“实例 关系,是一种实例与概念之间的关系。“张三”是概念“人 的一个实例,满足概念“人的所有属性,并且具有自己确定的属性值。满足这种关系的代词的后行词是概念,而先行词是概念的实例。综上所述,当指示代词的指代对象为上下文中已有名词,( 、) 先行词和后行词之间常常是一种本体层面的关系,与本体理论中的概念之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论