(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(机械制造及其自动化专业论文)自然语言理解中副词分析及其在产品设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要在自然语言理解中,语义分析扮演着举足轻重的角色。本文将自然语言理解中的副词语义分析应用于产品设计里,通过对以自然语言形式表达出的用户需求进行理解和分析,并将分析结果转化成概念设计要求,为后续设计提供支持。首先,根据国内外设计领域内自然语言理解的特点,确定应用于产品设计的自然语言理解应该采用基于知识的方法,并且利用格语法和概念从属理论中的合理思想确定了语义分析中的知识描述与表示体系。然后,对汉语中副词的概念、性质进行了相关的讨论,按照副词的功能对领域内常用的副词进行了语义分析,并且提出了结合语义基本单位去分析副词语义的观点,结合副词的功能编写了副词语义分析的相关规则,主要实现了对领域内汉语语句中范围副词的语义理解,其它类别的做了相关的讨论。最后,以副词语义分析应用于机械设计领域,建立了一个基于自然语言理解系统的计算机辅助机械产品需求分析系统原型,并实现了在滚动轴承结构设计的需求分析中,经初步调试,取得了一定的成果。关键词:自然语言理解语义分析副词产品设计概念设计a b s t r a c ta b s t r a c ts e m a n t i ca n a l y s i sh a sp l a y e ds u c ha ni m p o r t a n tr o l ei nn a t u r a ll a n g u a g eu n d e r s t a n d i n g t h i sp a p e ri n t r o d u c e st h a ts e m a n t i ca n a l y s i so ft h ea d v e r bi sa p p l i e dt ot h ep r o d u c td e s i g nt h r o u g hu n d e r s t a n d i n ga n da n a l y z i n gt h eu s e r sn e e d se x p r e s s e di nt h ef o r mo fn a t u r a ll a n g u a g ea n dt r a n s f o r m i n ga n a l y s i sr e s u l tc o n c e p td e s i g n i n gr e q u i r e m e n t ,s u b s e q u e n td e s i g ni ss u p p o r t e d f i r s to fa l l ,a c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h ed o m e s t i ca n di n t e r n a t i o n a ln a t u r a ll a n g u a g ec o m p r e h e n s i o ni nt h ed e s i g n i n gf i e l d ,t h em e t h o db a s e do nk n o w l e d g es h o u l db ea d o p t e di nn a t u r a ll a n g u a g eu n d e r s t a n d i n gw h i c hi sa p p l i e dt op r o d u c td e s i g n t h es y s t e mo fk n o w l e d g ee x p r e s sa n dd e s c r i p t i o ni ns e m a n t i ca n a l y s i sw a sb u i l ta c c o r d i n gt ot h er e a s o n a b l et h o u g l l to ft h et h e o r yo fc a s eg r a m m a ra n dc o n c e p t u a ld e p e n d e n c y , ar e l a t e dd i s c u s s i o na b o u tt h ec o n c e p ta n dt h ep r o p e r t yo ft h ea d v e r bi nc h i n e s ew a sm a d ea n dt h es t a n d p o i n tw a sp u tf o r w a r dt h a tt h es e m a n t i ca n a l y s eo ft h ea d v e r bc a nb e e nd o n ew i t ht h es e m a n t i cb a s i cu n i ta c c o r d i n gt ot h ef u n c t i o no ft h ec o m m o na d v e r di nr e a l m a n dt h es e m a n t i cu n d e r s t a n d i n go ft h es c o p ea d v e r bi nc h i n e s ei sc a r r i e do u tw i t ht h er e l a t e dr u l e sw h i c ha r ep r o g r a m e da c c o r d i n gt ot h ea d v e r b i a lf u n c t i o n d i s p o s a lo fo t h e ra d v e r b si so n l yd i s c u s s e d f i n a l l y , ap r o t o t y p es y s t e mo fc o m p u t e ra i d e dm e c h a n i c a lp r o d u c ta n a l y s i sw a sb u i l t ,w h i c hw a sa p p l i e dt ot h ea n a l y s i so fr e q u i r e m e n t so fb e a r i n gs t r u c t u r ed e s i g n i n g ,a n di tr u n s w e l la f t e rd e b u g i n g k e yw o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n ga d v e r bp r o d u c td e s i g ns e m a n t i ca n a l y s i sc o n c e p t u a ld e s i g n西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。f、本人签名:盘魁日期2 亟! ! ! 置西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定)本人签名导师签名:丛立f = 1 期山7 、孑i :二l 期立! 塑立伢第一章绪论第一章绪论1 1 引言自2 0 世纪8 0 年代以来,随着自动化、信息、计算机和制造技术等相互深透和迅速发展,一个统一的全球化市场在2 1 世纪世界导致了一个巨大变革,即信息时代己经到来。每一个国家都不可能离开这个全球市场求得自身的发展,都必须在这个全球市场的竞争中求得生存。尤其在我国加入w t o 之后,我国的制造业面临了更严峻的挑战。制造业将提高竞争力的要素总结为t q c s ,即短时间、高质量、低成本和优服务。正是这样的高要求,迫使多品种、小批量、零库存的生产成为多数企业追求的主导生产模式,企业本身的组织结构也由原先以生产人员为主转向以科研开发和销售人员为主的组织结构。在这一企业产业结构重组的浪潮中,产品设计成为整个企业的灵魂。如果说“管理”是制造业的大脑,那么“管理”最重要的任务之一就是为企业铸造好这个灵魂。因为产品的结构、性能、质量、成本、新产品开发周期、以及可制造性、可维修性、以及人机环境关系等等都是在新产品的研发设计阶段确定的。大量实践表明,产品8 0 的制造问题归因于制造前的阶段,其中有7 0 的属于设计阶段l ”。设计的好坏、周期的长短将直接决定企业产品的生命及企业利润。各制造企业纷纷引入最新的设计技术和设计制造系统。设计的过程一般分为:需求分析、方案设计、技术设计和详细设计四个阶段。需求设计是整个产品生命周期最前端的过程,它是和企业的特定目标市场相关联。方案设计主要是在满足预定功能的条件下、在需求设计方案的基础上,确定各个原理部件在空间或者结构上的有机组合整体形式、原理和简单的三维结构信息的过程。方案设计的设计方案,主要包含有:产品功能原理结构图、整机总体布局、初步确定主要零件材料和形状,此阶段决定着产品8 0 以上的最终价值1 2 j 。技术设计阶段主要是进一步将方案设计的设计方案具体化,给出原理结构方案、总体布局,给出总装图、部件装配图,给出产品的总体装配信息并且为详细设计提供约束条件。详细设计阶段主要是完成零件图设计,完善装配图,完成包装设计,工业设计,要能够进行零件的结构工艺性,可加工性分析,是零件在进行制造前的最后完善工作,是设计的最终方案。尽管设计过程分为不同的设计阶段,但在各种设计阶段之间并无明确的界限,各个设计阶段的不断重复在整个设计过程中都存在。产品设计的过程可描述为如图1 1 所示:2自然语言理解中副词分析及其在产品设计中的应用需求分析卜_ 刊概念设计卜爿详细设计方案设计卜刊技术设计确定备个原理部件存宅甸或昔结构上的响机组合整体形式,原理和简单的三维结构信息将方案设计的设计方案具体化,给出原理结构方案、总体布局,给出总装图、部什装配圈给出产品的总体装配信息升且为详细设计提供约束条件图1 1 产品设计过程随着计算机技术的日益发展,产品设计过程正在发生彻底的变化,计算机已渗透到产品设计开发与制造的各个环节。现代设计将成为无纸设计,计算机技术将使整个设计过程实现计算机化【1 0 1 。如何通过计算机技术及人工智能技术快速有效地收集用户的需求信息,并且对用户需求进行分析,将用户需求转化为产品概念设计要求从而设计出满足用户需求的产品,已经成为产品设计中越来越引人关注的问题。一般来说,用户不同于专业的开发人员,他们对设计领域内的术语不是很了解或根本不了解,他们仅仅以自己的通俗语言表达自己对产品的要求。要让计算机理解这种要求,就必须利用自然语言理解这种手段,让自然语言理解充当用户和产品设计、分析等系统之间的智能接口,通过了解用户想要什么,从而指导设计人员的工作。本文尝试将自然语言理解应用于产品设计中,通过对以自然语言形式表达的用户需求进行理解和分析,并将分析结果转化成概念设计要求,为后续设计提供支持。希望本文的工作能够对上面所提到的问题有所帮助。1 2 自然语言理解概述1 2 1 什么是自然语言理解自然语言理解( n l u ,n a t u r a ll a n g i l a g cu n d e r s t a n d i n g ) 是研究计算机如何理解人类语言的学问。它是人工智能的一个分支,就是研究如何能让计算机理解并第一章绪论3生成人们日常所使用的语言( 如汉语、英语等) ,目的在于建立起一种人与机器之问的密切而友好的关系,使之能进行高度的信息传递与认知活动。这就是说要对字、词、句和篇章等等的输入、输出、识别、分析、理解和生成等等去进行操作和加工,其关键是要让计算机“理解”自然语言【1 1 l 。目前,它的应用范围涉及机器翻译、大型数据库自然语言查询、计算机自动书写、文摘提取、文档自动分类和文书管理、智能计算机人机接口、专家系统自然语言接口等等。美国认知心理学家g m o l s o n 曾提出四条语言理解的标志n能成功地回答输入语料的有关问题;在接受一批语料之后,有就此给出摘要的能力;能用不同的词语复述所输入的语料;有从一种语言转换成另一种语言的能力;只要达到上述标志之一,计算机就实现了自然语言理解。所以说自然语言的计算机理解和处理是一个涉及了语言学、计算机科学、逻辑学、心理学、人工智能等领域知识的跨学科研究领域,是- - ( 1 交叉综合学科,也是一个十分活跃和富有挑战性的研究课题。1 2 2 自然语言理解的两大途径自然语言理解主要有两种途径 6 1 7 1 s | 1 9 。一种是利用各种语言规则对句子进行分析,得到句子的结构。可是具体依赖于何种语法语义理论,到目前还没有一个准确的标准。因为目前理论发展还处于百花齐放的阶段,没有一种理论可以解决全部语言现象;即使是针对某种特定的语言,也没有一个完全占据主导地位的分析理论。基于规则的分析方法可以称之为自然语言理解中的“理性主义”。另一种区别于基于规则方法的分析方法就是基于数据的分析方法,被称为自然语言理解中的“经验主义”,它主要利用大规模的语料库,采用概率的方法得到各语言现象共存的概率,在分析新语料时以共存概率的大小来确定语言成分之问的关系。基于规则的方法可以说是一种理性的方法,本质是一种确定性的演绎推理方法。其优点在于根据上下文对确定事件的定性描述,能够充分利用现有的语言学成果。缺点是对一些不确定的事件则无能为力,同时规则的相容性和适应性也存在着限制。基于统计的方法是一种经验主义的方法,其优势在于它的全部知识都是通过对大规模的语料库加工分析而得到的,可以获得很好的一致性和覆盖性。基于统计的方法是一种非确定性的定量分析方法,这种定量分析是基于概率的,因此其必然会掩盖小概率事件的发生。有些统计方法无法解决的问题,利用规则却可以很容易解决。所以在进行句子的分析理解时把统计和规则有机的结合起来4自然语言理解中副词分析及其在产品设计中的应用不失为一种很好的方法【9 l 。1 2 3 目前自然语言理解中的层次自然语占理解的研究自底而上可以分为四个基本层面,它们分别是词典构造、语法分析、语义分析和篇章分析。长期以来,一直被看作为“储存某一语言之特定知识的知识库”一“语言词典”,是我们所要研究的自然语言理解的知识平台,这是一部具有尽可能多的相关语法信息、语义信息、语用信息的语言词典,它是自然语言理解系统平台的基础和关键所在。语法分析对自然语言进行表层的形式化分析,包括词法分析和句法分析两大部分。词法分析的主要任务是把接收到的自然语言进行切分,并为每个切分的词加上词性标记,即自动分词和词性标注。句法分析是自然语言理解的关键步骤,其主要任务是把句子的词语序列映射为句法成分的层次结构。语义分析的作用,概括起来大致有如下三个方面的内容:1 理清句子的语义结构关系( 或称“主目关系”、“格关系”、“角色关系”、“逻辑结构”等等) ;2 把句子的各个构成成分的语义组合成为一个完整的句子的语义,并把它映现为一个由严格定义的形式语言来刻画的语义表达式( 简称为“语义的组合和表达”) :3 说明句子中词语搭配上存在的各种语义限制条件1 1 1 】。篇章分析处于自然语言理解的较高层面上,研究句子间的关系以及整个篇章中包含的相关知识。一般来说,篇章知识要大于构成篇章的各个句子知识之和。而自然语言理解研究的最终目的,是使计算机能够理解完整的篇章。1 2 4 国内自然语言理解研究状态国内的自然语言理解研究以汉语为研究对象,利用计算机对汉语的书面形式和口头形式进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。由于汉语属于意合语,与英语、法语等印欧语系的屈折语种不同,西方的各种语法、语义理论无法直接套用在汉语上,这使得汉语自然语言理解研究工作困难重重。早在1 9 5 6 年国内就开始了俄汉机译研究,并于1 9 5 9 年获得成功。但当时的技术主要是词对词翻译和模式匹配,缺乏句法和语义分析,几乎谈不上理解。六、七十年代的有关研究由于历史原因而完全停顿。实际上从1 9 7 8 年我国才开始真正第一章绪论意义上的汉语理解研究。归纳而言,国内的自然语言理解研究经历了以语形分析为主基于语法规则的早期阶段、注重语义分析基于语义规则的中期阶段、基于语料库统计方法的近期阶段和基于统计与规则并举的现阶段等几个阶段。在机器翻译、语料库研究、汉语电子语言词典等方面取得了显著成果,如清华大学黄昌宁等人的汉语句法分析模型旧、中科院黄曾阳先生概念层次网络理论n s 0 3 j 、董振东等人的h o w n e t l 4 1 、俞士汝等的现代汉语语法信息词典【5 j 等。1 3 1 汉语的特点1 3 汉语副词理解概述汉语是一种历史悠久的语言,它是一种表义语言。它在语言形态和语言规则方面存在着许多不同于英语及其他语种的特点嘲。1 汉语的词不分写。这给计算机进行汉语的词法分析带来了困难,也就是说,相对于英语句子分析,汉语又添加了分词处理过程,而分词的正确率往往不能达到百分之百的满意程度,进而又影响着后续句子理解的质量。2 汉语在构词方法上主要是词根复合法,而不是词缀派生法,缺乏形态标识,主要以语序和虚词表示各种语法关系。另外词性与句法不存在一一对应关系,如谓语可由动词( 鱼死了) 、形容词( 方法太死) 充当,而动词既可作谓语( 我们学习知识) 、主语( 学习无止境) ,又可作定语( 学习方法很关键) 、宾语( 他不爱学习) 。这对于用计算机来进行汉语句子的理解是极其不利的。3 汉语句子中往往出现很多动词连用,而汉语动词又没有性、数、格、时态的变化,主动词很难确定。4 西方语言的谓语一般都是动词,而汉语的谓语可以是动词,也可以是形容词和名词等。这就导致了某些西方语法语义理论不能直接应用于汉语分析中。5 汉语各个分析层面上的歧义现象非常严重,不仅有同音字词( 张、章、马路、马鹿) ;同形字词( 长 z h a n g j ,长f c h a n g j ;地道名词j ,地道形容词j ) ;一词多义,还有结构歧义( 下午学生会讨论这个问题、下午学生会讨论这个问题) ,语境歧义( 开刀的是我爸爸说话者很自豪,则爸爸是医生j ;开刀的是我爸爸说话者很悲哀,则爸爸是病人j ) ,这些都是计算机很难处理的。汉语的这些特点也是造成汉语机器理解的难点。基于这些特点,我们对汉语的机器理解实现不能象西方语言那样靠语法,而是应该走一条适合汉语理解的自己的路。6自然语言理解中副词分析及其在产品设计中的应用1 3 2 国内副词研究现状在现代汉语中,副词的句法功能相对比较简单,然而,一些常用副词不仅使用频串很高,而且用法丰富多样;尤其是作为一种个性强于共性的词类,其内部各成员在组配方式、语法意义、语义指向、语用特点、篇章特征等各个方面都存在着显著的差异,情况相当复杂。因此,自从马氏文通以来,副词一直是汉语词类研究中引起争议和存在问题最多的一类。这种状况,即使到了世纪之交的今天,仍然没有明显的改观,就连有关副词的一些最为基本的问题性质、范围、分类等,还是难以取得相对一致的共识【1 2 1 。1 词类归属之争1 1 4 】在传统的语法研究中,副词一直是虚词研究的一部分,副词在虚词中的历史地位深入人心。因此,长期以来大部分学者都把副词作为虚词来研究,如黎锦熙( 1 9 2 4 ) 、吕叔湘( 1 9 8 2 ) 、朱德熙( 1 9 8 2 ) 、陆俭明、马真1 1 3 噜,但各家的归类标准并不一致。有从意义着眼,认为副词语义空灵,故为虚词,如黎氏;有从功能出发,认为副词符合虚词的“粘着”、“定位”、“封闭”3 个特点,如朱氏。2 0 世纪8 0 年代初,结构主义的分布理论在汉语语法研究中盛行起来,因此,鉴于副词可充当句法成分的能力,部分学者把副词归入实词。如:陈望道( 1 9 7 8 ) 、胡裕树( 1 9 8 1 ) 、黄伯荣( 1 9 8 1 ) 、邢公畹( 1 9 9 4 ) 等。问题是即使按照句法功能把副词归入实词,但副词中的“就”、“才”、“更”等意义相当虚化,与整个实词类的差异太大,很难被广泛地接受。2 范围之争一般来讲,凡是只能充当状语的词都是副词。这种观点一是以朱德熙( 1 9 8 2 )为代表,严格按照形式来区分,副词能且仅能作状语,持相同观点的还有马真l l 射、邢福义( 1 9 9 7 ) ;二是以吕淑湘1 1 6 1 为代表,认为副词的主要功能是作状语,邢公畹( 1 9 9 4 ) 也持类似观点。以上是着眼于副词,严格按照副词的语法位置向外观照与其它词类的区别,但是,在副词内部,按照语法位置来看的话,副词内部俨然是个“大杂烩”,具体表现在:某些副词除了作状语外,还可作补语,如“很,极、万分”。朱德熙( 1 9 8 2 ) 、张谊生( 2 0 0 0 ) 把部分形容词的重叠式“死死的、慢慢的、紧紧的”也归入副词。只可作补语,如:透、绝伦、透项,因其作补语时表示程度义,故也归入副词。多出现于作主语的名词性成分前,如:凡、但凡。对于副词的范围,各家出入较大,归根究底这是词类研究的问题,这不仅是第一章绪论副词研究本身的事情,还和其他词类研究的深入程度有关。我们可以把有争议的个别词的归类问题放在一边,先客观地根据语料考察其分布特征和功能,然后再考虑其归属。另外,语言是个不断变化发展的系统,词汇在发展中有一个逐渐虚化的过程,这样有助于解释为什么现代汉语中有的副词还具有作谓语或别的成分的功能。3 。共同点在各家的所有分次类中,大体都有“程度副词”、“时间副词”、“否定副词”这些次类。此外还有一些次类,各家多寡不一,名目也不相同。如“语气副词”、“频率副词”、“关联副词”、“情态副词”、“疑问副词”、“表数副词”等等。从这些次类的名称可以看出,各家所的次类主要是根据副词的语义来划分的;虽然各类之间也存在着或多或少的功能上的差别。毫无疑问,副词的次类划分,仅仅以语义为标准是不够的,还应该兼顾功能、分布、位序等各方面的特征。尤其要结合语义和功能两方面的特点,互相补充,互为印证,以确定每个副词应归入的次类。因此我们的观点是副词的分类标准应该以句法功能为主要标准,以相关意义为辅助标准,以共现顺序为参考标准l l ”。1 4 本文的研究路线本文通过对产品设计的过程进行了研究,认识到用户需求分析和方案设计在产品设计的重要性,而且认识到计算机技术对产品设计的早期用户需求分析和方案设计的支持不够,从而引出了本文问题:如何将用户需求转化为方案设计要求。解决办法是将自然语言理解应用于产品设计,通过计算机对用户需求进行理解和分析,从而将用户需求转化为方案设计要求。针对基于知识的方法和基于统计的方法的优缺点,根据设计领域内自然语言理解的特点,选择基于知识为主的方法作为我们建立自然语言理解系统的理论基础。对于采用基于知识的方法所带来的系统涉及的知识过于复杂,知识库规模过于庞大,规则之问的冲突变得越来越多,采用人工编写和维护规则系统的做法要保持知识库的一致性变得困难等问题,我们采取从抽象层次上来考虑问题,将自然语言理解涉及的语义知识采用本体的方法进行组织,一方面可以减小知识库规模,提高效率和正确率,另一方面可以使语义知识共享和重用。针对汉语在各个分析层面上的歧义现象非常严重的特点,本文将自然语言理解的研究限制在产品设计领域内,这样可以从各层面上减少汉语的歧义现象。针对汉语语法有重“意合”,轻形式,以意驭形的特点,本文侧重于汉语的语义理解,这样也可以为汉语的句法分析提供一个评判标准。在实现了对领域内的自然语言理解后,本文将它应用于机械产品设计中,取8自然语言理解中副词分析及其在产品设计中的应用得了不错的应用效果。1 5 本文主要工作本文主要对自然语言中的副词语义分析理解和实现在产品设计中的应用做了初步的探讨。通过以副词的功能并结合句法来实现其语义分析,对以自然语言形式表达的用户需求进行详细的理解和分析,并将分析结果转化成概念设计要求,为后续设计提供支持。本文完成的主要工作如下:1 了解国内外自然语言理解的动态,分析比较了基于知识的方法和大规模语料库方法的优缺点,并结合设计领域自然语言理解的特点,确定以基于知识的方法为研究应用的总体方向。2 详细介绍了自然语言理解中几种常用的知识表示方法,结合他们各自的优缺特点确定了语义分析中的知识描述与表示体系。3 对汉语中副词的概念、性质进行了相关的讨论,按照副词的功能对领域内常用的副词进行了语义分析,并且指出了结合语义基本单位去分析副词语义的观点,建立了副词语义分析的基本框架。4 以语义基本单元为基础,主要建立了“范围副词+ 动词”结构的处理模型和编写了相应的具体处理流程,基本上实现了对领域内副词语义分析。5 结合机械设计领域,建立了一个基于自然语言理解系统的计算机辅助机械产品需求分析系统原型,并实现了在轴承结构设计中的需求分析中的应用。总之,全文结合自然语言理解的语义分析在产品设计中的应用,从选择自然语言理解的模型出发,讨论了自然语言理解的语义知识表示,探讨了对副词进行语义分析的方法,结合实际应用,取得了一定的成果,相信这一工作对自然语言理解在各个领域中的应用都是有益的。自然语言理解一直是人工智能学科内引人注目而又困难重重的一个核心研究课题。随着计算机技术和人工智能总体技术的发展,自然语言理解不断会取得进步,前途是光明的。第二章自然语言的语义分析理论基础9第二章自然语言的语义分析理论基础前面提到了自然语言理解的四个层次和汉语理解的难度,那么要使一个句予表达出明确的意思,仅仅对它进行语法分析是不够的,因为结构相同的句子,所表达的含义可以是不同的,如下面的句子:例句1 :我爱她我恨她例句2 :我爱着她她爱着我在例旬1 中,前句和后旬的表层结构同样是“名词+ 动词+ 名词”。而句义却恰恰相反,其旬义差别由于构成句子的词的词义不同。在例旬2 中,前旬和后句的表层结构同样也是“名词+ 动词+ 名词”,并且两个句子的构成词都相同的,旬义仍然不同。句义的差别来源于构成词的结合方式不同。所以说语义分析是必不可少的。可以这样说,语义分析就是要确定句子的含义,也就是说我们要找到一种合式定义的带有简单语义的形式语言。因此这个问题就变成如何从自然语言映射到这种形式语言的问题。这种形式语言必须要具备这样一些特点:1 没有二义性:2 简洁的解释和推理规则:3 具有该句子所确定的逻辑结构。当然了,自然语言理解是计算机科学和语言学的交叉学科,所以有必要了解一下语台学中的语义理论,这对于推动本领域语义研究的发展有意义的。在语言学的研究领域里将现代语义理论主要分为结构语义学、解释语义学、生成语义学、f i l l m o r e 的语义理论、逻辑一数理语义学等几大流派。下面分别介绍这几种语义分析理论。2 1 格语法有关语义格的思想由美国语言学家菲尔墨( f i l l m o r e ) 于1 9 6 8 年提出。他把他的这一理论称为“格语法”。格语法从句子的深层结构表示来推导句子的表层结构,较好地解决了句法与语义相结合的问题,而且格语法比较适用于计算机上的自动分析,因此格语法在自然语言理解领域中使用得非常普遍。格语法理论1 1 9 的核心概念是“语义格”,如“施事格”、“受事格气“工具格”等,即与动词联系的关系项。菲尔墨在解释他的语义格时认为,他的格语法理论与传统语法理论不同,语义格也不同于传统语法中表示句法关系的“格”。传统语法中的格是句子表层结构方面的现象,而语义格是深层结构方面的语义现象。传1 0自然语言理解中副词分析及其在产品设计中的应用统语法中的格与语义格虽有某种对应关系,但二者不是一回事。如“树被风吹倒了”这个句子中,从传统语法成分分析的角度看,“树”是主语,而从语义格的角度看,“树”并不是“施事”,不是行为主体,而是行为“受事”。格语法是生成转换语法发展出来的一个分支。菲尔墨认为一个句子由三个部分组成,即“s m + h u x + p ”,s 代表句子,m 代表情态,a u x 代表助动词,p 代表命题。情态是指句子的时态、语态等。命题p 又可扩展为一个动词和一个或以上的格的范畴。即“p v + c 1 + + c n ”,v 代表动词,c 代表命题的各个格。命题是句子的深层语义,它与动词的选择有关,是格语法研究的重点。菲尔墨的格语法中的“格”是深层格,所以称语义格。考察下面的句子:例旬l :我吃苹果。例句2 :苹果被我吃了。例句3 :我把苹果吃了。例句4 :我在一个晴朗的下午,跟一帮朋友吃苹果。以上四个句子的基本框架均可用格语法表示为: a g o b ,其中,“”代表动词“吃”,“a g ”代表施事格“我”,“叻”代表受事“苹果”。从上面例子可看出,深层语义相同的句子在表层句中有多种表现形式,但它们可以用同一深层格关系来表示。菲尔墨在有关格语法的最早论著中区分出以下几种语义格:a :施事( a g e n t i v e ) ( 有生命的动作发出者) ;0 :受事( o b j e c t i v e ) ( 动作或状态所影响的事物) ;i :工具( i n s t r u m e n t a l ) ( 造成动作或状态的无生命的力量或客体) ;f :结果( f a c t i t i v e ) ( 动作或状态所造成的结果) ;d :所及( d a t i v e ) ( 动作或状态所影响的有生命者) ;l :处所( l o c a t i v e ) ( 动作或状态的空间位置) ;b :受益( b e n e f a c t i v e ) ( 动作或状态的受益者) 。菲尔墨在其以后的著作中对语义格的数量、内容及名称均作过修改。菲尔墨认为,一个动词在深层结构中总是和某些语义格相联系的。例如“男孩用锤子敲碎了核桃”这一句子中,动词“敲碎”与“施事”、“对象”、“工具”这几个语义格相联系。这种关系可用以下“深层格框”公式表示: + a o i “”表示格框内有一个动词,“+ ”表示几个语义格在一个句子中出现,“a o i ”分别表示“施事”、“对象”和“工具”三个语义格。格语法在描述句子成分与主动词之间的格关系上迈出了一大步。但至今格语法仍存在下列缺点:1 语法只是描述动词与体词之间的格关系,而没有描述体词和体词、谓词与谓词第二章自然语言的语义分析理论基础1 1等等之间的格关系。这样像连动、兼语、名词性谓语句等句型利用格理论将无法进行分析。中心词跟它的修饰成分之间的格关系也无法利用格理论进行表示。这就决定了格语法所能分析的句型是十分有限的。2 确立一份详细完整的格关系是十分困难的。到底需要多少种格关系,到现在还没有一个确定的答案。各语言学家列出了格关系是各不相同的。3 格语法分析时,必须以句子的中心谓语为核心,其余成分附属于中心谓语。但是汉语不像英语等形式语言,汉语句子的中心谓语不好确定,甚至有的句子并无中心谓语。2 2 语义网络语义网络将义位关系、格关系统一在一个网络框架中描述并进行推理。它最早由q u i l l i a n 于1 9 6 8 年提 2 0 1 。s i m m o n s 于1 9 7 0 年正式提出语义网络这个概念1 2 1 j 。语义网络在形式上是一个有向图,由一个结点和若干条弧构成,结点和弧都可以有标号。结点表示一个问题领域中的物体、概念、事件、动作或状态,弧表示结点问的语义联系。也可以说是由一系列三元组连接而成,三元组可以表示为:( 结点1 ,弧,结点2 ) 【2 2 i ,如下图2 1 所示:图2 1 语义网络三元组语义网络包括了二个方面的内容,即:语义网络的知识表示,语义网络的逻辑推理。名词性概念之间的语义关系包括四种类型:实例、泛化、聚集和属性联系。实例联系用于表示类结点与实例结点之间的联系,通常用“i s a ( i sa ) ”标识。一个实例结点可以通过“i s a ”连接多个类结点,多个实例结点也可以通过“i s a ”与一个类结点相连接。通过类结点表示实例之间的相关性,并使同类实例结点的共同特征通过与此相连的类结点来描述,从而实现了知识的共享,简化了网络结构。泛化联系用于表示类结点与抽象层次更高的类结点之间的联系,通常用“a k o( ak i n do f ) ”来标识。通过“a k 0 ,可以将不同抽象层次的类结点组织成一个“a k o ”层次网络,泛化联系允许低层类结点继承高层类结点的属性,因而一些共同的属性不必在每个低层类结点中重复,从而节省了空间。聚集联系用于表示与其组成成分之间的联系,通常用“p a r to f ”表示。属性联系用于表示个体、属性及其取值之间的联系,通常用有向弧表示属性的值。因此可以这样说语义网络能表示事物间属性的继承、补充、变异及细化等关系,因而节省存储空间。语义网络直观性强,易懂,许多语言学家都用这一方法1 2自然语言理解中副词分析及其在产品设计中的应用解释语言现象。但是也有它自己的一些不足之处:1 不能保证网络操作所得结论的有效性;2 对于网络不存在标准的术语和约定,语义解释取决于操作网络的程序;3 网络的搜索需要强有力的组织原则:4 语义网络在搜索时存在组合爆炸问题,另外没有方法把启发式信息嵌入网中使之有效地搜索,因此求解算法可能十分低效。2 3 产生式表示法产生式表示法也叫规则表示法。一个规则的一般形式为:p q 。它可以看成是一个“前提p 一结论q ”对。前提是情况认识部分,它是该产生式规则使用时所必须满足的条件;结论即行为部分,是前提满足时由推理而得到的结论1 2 3 1 。规则用于描述单个对象内以及对象间关系的所有可能为真的每一个事实。规则表示法的特点是:1 产生式系统用“如果,则”的形式表示知识,直观、自然、特别适合在事实性知识间进行推理。2 产生式规则是规则库中最基本的知识单元,与推理机构相对独立,便于模块化,给知识的增、删、改带来了方便,给规则库的建立和扩展提供了可管理性。3 产生式规则能有效地表达多种领域中的知识,既可以表示精确的知识,也可以表示不精确、不完全的知识。4 产生式有固定的格式,任何一个产生式都由前提与结论这两部分组成,这种统一的格式既易于设计、控制。又易于进行知识的一致性、完整性检测。产生式表示法的局限性表现在:1 产生式系统求解问题的过程是一个反复进行“匹配一冲突消除一执行”的过程。规则库一般比较庞大,匹配非常费时,因此,此工作效率是不高的。2 产生式适合表示具有因果关系的过程性知识,但对具有结构关系的知识却无能为力,它不能将具有结构关系的事物问的区别与联系表示出来。3 表达能力低。它只便于表示定性的、浅层的知识,不便于表示定量的、深层的复杂知识。2 4 概念从属理论1 9 7 3 年美国的s c h a n k ( 杉克) 提出了概念从属理论【“】【2 5 】( c o n c e p t u a ld e p e n d e n c yt h e o r y ,简称c d 理论) ,这种理论与格语法有相似之处,如句子意义第= 章自然语言的语义分析理论基础的表达以行为( a c t i o n ) 为中心,并包括一些与其相关的句子其它词的格。但两者之间也有明显的区别,在c d 理论中,句子的行为不是由动词表示,而是由原语行为集表示,其中每一个原语是包含动词意义的概念,换句话说,行为是由动词的概念表示,而不是由动词本身表示。让我们看两个例句:例句1 :我给她了一本书。例句2 :她接受了我给的书。以上两句尽管侧重点不同、所用的动词不同,但基本概念是相同的,都是关于所有权的转移。但在格语法中,这两个句子的内部存储将采用完全不同的形式。c d 理论指出物体所有权转移是原语行动a t r a n s 。因此,上述第一句可表示为:事件1施动对象:我作用动作:给宾语对象:一本书动作指向:我一她第二句可表示为:事件2施动对象:她作用动作:接受宾语对象:一本书动作指向:我一她事件1 和事件2 分别表示了两句的意义,两者的差异仅在于动作的完成者。由于用c d 理论来理解自然语言时,大量使用到语义知识,使得对纯粹语法分析有二义性的句子也能赋以唯一的解释。但另一方面,要很好的完成分析工作又需要庞大的语义知识库。在基于知识的自然语言理解系统中采用概念从属理论作为语义分析方法,具有很多优点:1 知识推理方便。2 可以把问题抽象成模型加以处理可以表达概念问的深层知识。然而概念从属理论并不能解决所有的问题,其也有以下的缺点:1 概念从属要求把所有知识分解为相当低级的原语,可能低效或在某种情况下也许做不到。2 概念从属理论是一种事件表达理论,但为表达复杂程序可能需要的所有信息,就要求能表达除事件之外的其它事情。综上所述,概念从属理论是众多语义分析方法中表达概念语义较方便的一个,在我们建立的基于知识的系统中,可以选择概念从属作为基于知识的方法的重要1 4自然语言理解中副词分析及其在产品设计中的应用补充。2 5 义素分析法现代语义学把词汇和词义当作一个系统来研究,提出了语义场理论,语义场就是语义中固有的完整的义位的集合。一种语言的所有的义位是互相联系、互相制约的,因而也就构成了一种语言的语义总场。而语义总场又可进一步分为若干较小的子场。同时又深入词义的内部,洞察到词义都是由许多成分构成的,从而将词义分析出一个个最小的语义要素一义素。义素是构成义位的最小的语义单位,是通过比较分析一组组相关词语的义位而得到的词义的区别特征,又叫语义成分、语义特征、语义标示、语义原子等。,义素分析1 1 7 1 最早由丹麦语言学家e j e l m s l e v ( 叶姆斯列夫) 提出,7 0 年代传入我国。义素和一般词典学中所说的义位是两个不同的概念。义素是分解词义得到的最小意义单位,也就是词义的区别特征。义位的概念和词典学中的义项是同一个概念。义项指词典中词语按意义列举的项目,在语义学中,把词义的每个义项称为一个义位。义素是语义分析时进行义位描述的术语,是构成义位的最小意义单位,即义位的区别性特征。任何一个义位总是由一个以上的义素构成的。进行义素分析,有两个操作步骤。义素分析的第一个操作步骤是确定语义场要对语言中的一个词义a 进行义素分析,首先需要替a 寻找同a 关系最密切的另一个或几个词义,从而使这几个词构成一个最小语义场。要确定最小予场。可以参考有关对象的分类,在许多情况下,最小子场大多与某一类对象的最小类别相对应。例如要分析表亲属的词,就要参考亲属的分类,要分析表颜色的词,就要参考颜色的分类等等。义素分析的第二个操作步骤是通过对语义场中几个词义的比较分析找出义素。义素分析的一个例子是对“鸟”进行的分析,可以得到r 鸟j = r 动物】+ 会飞j + r 有羽毛j 的语义结构。目前,义素分析主要用来分析实词的部分名词、少量动词和形容词,其中主要是部分类义词。义素分析是现代语义学的一个重要成果。它可以深入到词义的内部微观结构,揭示词义之间的区别和联系,能较好地解释语义的组合和聚合规律;它通过对词义的细致分析,为词义分析的形式化和精密化提供了一种新方法。但义素分析法也存在一些不足之处,其表现有如下几点:1 义素的定义不够严密一般把义素定义为“最小的意义单位”。事实上义素并非“最小意义单位”义素本身也是循环解释,互相覆盖的。有学者认为“义素不是最小的意义单位,而第二章自然语言的语义分析理论基础是对词义内容的各个方面的说明。”l 切2 义素分析带有一定的主观随意性同一个词语你这样分析,他那样分析,没有公认的简单、有效的分析方法。3 没有统一的义素标注符号大部分语义学家采用“f j 、+ 、一”这类符号标注义素,比如一般用“+ 、一”表示两项对立的语义特征;用“一、一”表示两项或三项对立的语义特征间的偏动和互动关系;用“( ) ”表示义位,“j ”表示义素的组合,“= ”或“:”连接义位与义素的组合等。但也有学者使用另外一些符号来描写义素【1 8 1 。2 6 1 本体的定义2 6 本体本体论是哲学的一个分支,是一门有关存在及其本质和规律的科学。本体论是指关于世界某个方面的特定的分类体系,这个系统不依赖于任何一种特定的描述语言。近年来,本体论的这些思想被人们引入知识工程领域,其最终目的是为了解决知识的重用和共享。知识重用要求大家对某件事的认识一致,已经到达认识事物本质的地步;知识共享要求人和机器的交流建立在对所交流领域共识的基础上,它要求知识表达的粒度要适中,使机器能够操作知识1 2 6 1 1 2 7 1 。在知识工程领域,研究者们普遍接受的呈现高引用率的本体( o n t o l o g y ) 定义是t g r u b e r 于1 9 9 3 年提出的:“本体是对共享的概念化进行形式的显式规范说明”。其中,“概念化”是现实世界中现象的抽象模型,作为知识形式化表达的基础,是所关心领域中的对象、概念和其他实体,以及它们之间的关系。“显式”的意思是指被使用概念的类型以及概念在使用中的约束被明确地定义出来。“形式”的意思是指本体应该是机器可读的。“共享”是反映本体中的知识是中立的、一致认可的。2 6 2 本体的建模元语概念和概念之日j 的关系是本体的两个非常重要的组成元素。此外,还包括用于知识推理的公理。p e r e z 等人用分类法组织了o n t o l o g y ,归纳出5 个基本的建模元语( m o d e l i n gp r i m i t i v e s ) :1 类( c l a s s e s ) 或概念( c o n c e p t s )指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它1 6自然语言理解中副词分析及其在产品设计中的应用表示的是对象的集合。2 关系( r e l a t i o n s )在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c l x c :2 x x c n 。如子类关系( s u b c l a s s - o f ) 。在语义上关系对应于对象元组的集合。3 函数( f u n c t i o n s )一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式化的定义为f :c l x c 2 x x c n 1 一c h 。如m o t h e r - o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。4 公理( a x i o m s )代表永真断言,如概念乙属于概念甲的范围。5 实例( i n s t a n c e s )代表元素。从语义上讲实例表示的就是对象。2 7 领域中自然语言理解语义分析中的知识表示在基于知识的领域自然语言理解中的语义分析中首先要考虑的问题是如何在知识库中组织语义知识。语义知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论