




已阅读5页,还剩53页未读, 继续免费阅读
(机械制造及其自动化专业论文)基于领域的介词理解及其在机械设计中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语义分析是旬处理阶段能否取得突破的关键,在自然语言理解中起着举足轻重 的作用。本文论述了自然语言理解中介词的语义分析,并把介词的语义分析深入 到机械产品设计的早期阶段如需求分析过程中,为后续设计提供支持。 首先,介绍了自然语言理解的特点及研究现状,确定应用概念从属理论作为理 论基础。接着分析了介词语义分析在自然语言理解中的难点,认为对介词的深层 语义信息挖掘将大大促进汉语语义理解。随后分析了介词和代词、数量词、动词 等词类之间的语义关系以及省略句中介词的语义处理。接着根据介词的语义特点 对介词进行了归纳和分类,并给出了针对各类介词的语义分析模型和具体的处理 流程,编写出语义分析程序,实现了领域内介词的语义分析。 最后,本文将介词的语义分析应用于机械传动需求分析系统中,通过对用户需 求进行理解和分析,将分析结果转化成概念设计要求。新编写的处理程序经过调 试,取得了一定的成果。 关键词:自然语言理解语义分析概念从属理论介词产品设计 a b s i r a c t a b s t r a c t s e m a n t i ca n a l y s i si st h ek e yo fw h e t h e rs e n t e n c ep r o c e s s i n gc a ng e tb r e a k t h r o u g h o rn o t s e m a n t i ca n a l y s i sh a sp l a y e ds u c ha ni m p o r t a n tr o l ei nn l u ( n a t u r a ll a n g u a g e u n d e r s t a n d ) i nt h i sp a p e r , s e m a n t i ca n a l y s i so fp r e p o s i t i o n si nn l ui sd i s c u s s e d a n di ti sa p p l i e dt ot h ee a r l ys t a g eo ft h ep r o d u c td e s i g ns u c ha sd e m a n da n a l y s e si nt h i s p a p e r a n di to f f e r ss u p p o r tf o rt h ef o l l o w u pd e s i g n a tf i r s t ,t h ec h a m c t e r i s t i ca n dt h ea c t u a l i t yo fn a t u r el a n g u a g eu n d e r s t a n d i n gi s i n t r o d u c e d ,c o n c e :p t u a ld e p e n d e n c yt h e o r yi sc h o s e na st h ef o u n d a t i o no ft h es e m a n t i c a n a l y s i s s e c o n d ,t h ed i f f i c u l t ya n di m p o r t a n c eo fs e m a n t i ca n a l y s i so fp r e p o s i t i o ni n c n l u ( c h i n e s en a t u r a ll a n g u a g eu n d e r s t a n d ) i sa n a l y z e d d i g g i n gi t ss e m a n t i c i n f o r m a t i o ni nt e x tw i l li m p r o v es e m a n t i ca n a l y s i si nc n l u t h i r d ,t h es e m a n t i cp r o c e s s i n go fp r e p o s i t i o ni na b b r e v i a t i o ns e n t e n c ea n dt h e s e m a n t i cr e l a t i o n s h i po fp r e p o s i t i o n sa m o n gp r o n o u n ,q u a n t i f i e r s ,c o l l e c t i o ns u b s t a n t i v e a r ei n t r o d u c e d o nt h eb a s eo fc o n c l u d i n ga n dc l a s s i f y i n gt h ec o m m o np r e p o s i t i o n s , s e m a n t i c a n a l y s i s m o d e l sa n dp r o c e d u r e so fd i f f e r e n tk i n d so fp r e p o s i t i o na r e e s t a b l i s h e da n ds o m ea n a l y s i sp r o g r a m sh a v eb e e na d d e d ,w h i c hr e a l i z es e m a n t i c a n a l y s i so fp r e p o s i t i o ni nc n l u l a s t ,s e m a n t i ca n a l y s i so fp r e p o s i t i o n si s a p p l i e d t o r e q u i r e m e n ta n a l y s i s a r c h e t y p a ls y s t e mf o rm e c h a n i c a lt r a n s m i s s i o n b a s eo nt h eu n d e r s t a n d i n ga n da n a l y s i s o ft h eu s e rd e m a n d ,t h ea n a l y s i sr e s u l ti st r a n s f e r r e dt oc o n c e p td e s i g nr e q u e s t s e m a n t i ca n a l y s i sp r o g r a mi sw r i t t e na n di th l n sw e l la f t e rd e b u g g i n g k e y w o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n g s e m a n t i ca n a l y s i sp r o d u c t d e s i g n c o n c e p t u a ld e p e n d e n c yt h e o r y p r e p o s i t i o nc o n c e p t u a l d e s i g n 第一章绪论 第一章绪论 1 1 引言 现代社会随着科学技术的迅猛发展,机械设计已不再纯属于工程技术范畴, 而是自然科学、人文科学和社会科学相互交叉,科学技术与工程技术高度融合所 形成的- - f l 现代设计科学1 1 i 。 随着计算机技术的日益发展,产品设计的过程正在发生彻底的变化,计算机 已渗透到产品设计开发与制造的各个环节。c a d 、c a e 、c a p p 、c a m 、p d m 等 软件的使用将使设计的对象和设计的过程模式化,通过建立设计对象的数学模型 和设计过程的模型,将使方案决策、设计计算和图纸绘制等阶段全都实现计算机 化。 人机之问的语言交互将是利用计算机进行设计的首当其冲的问题。尤其是在 很多智能型的分析系统中,为了方便用户的使用,已经开始涉及自动用户需求分 析,进而进行概念设计。在需求分析中,由于用户使用的是通俗的语言来表达对 产品功能的要求,而非专业设计人员使用的领域专业术语。所以,这就要求计算 机能够直接理解自然语言。从而使用户和计算机之间的交互障碍降低到最小程度。 这样就必须利用自然语言理解这种手段,让自然语言理解充当用户和产品设计、 分析等系统之间的智能接口,通过了解用户想要什么,从而指导设计人员的设计 工作。 建立基于知识的自然语言理解系统需要对相应的领域有深入的了解。通过对 经验进行总结,对问题进行抽象,对系统进行建模,归纳出相应的知识,并建立 与研究领域相关的知识库,这样将会对处理该领域内的问题起到很大的作用。由 于设计领域的自然语言理解面对的是相对狭窄的问题领域,而相对狭窄的问题领 域涉及的知识相对简练,这使得对问题领域的深入研究成为可能。 本文尝试将自然语言理解应用于产品设计中,通过对以自然语言形式表达的 用户需求进行理解和分析,将分析结果转化成概念设计要求,为后续设计提供支 持。这样基于领域内知识的系统就成为基于知识工程的系统1 3 1 。实践表明,基于知 识工程的系统可以在特定的研究领域内能够做出来,而且能够做的很好。 2基于领域的介词理解及其在机械设计中的应用 1 2 自然语言理解概述 1 2 i 什么是自然语言理解 自然语言是指人们日常使用的语言,如汉语、英语、法语、日语等。它是人 类学习环境和互相通讯的工具。自然语言理解( n l u ) ,有时也称作计算语言学 ( c o m p u t a t i o n a ll i n g u i s t i c s ) 。从计算机科学特别是从人工智能的观点看,自然语言 理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分 析并回答自然语言的结果,也就是研究如何利用计算机来理解和生成自然语言。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g 简称n i a ) 是语言信息处理的一个 分支。所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处 理,即对字、调、句、篇章的输入、输出,以别、分析、理解、生成等的操作和 加工1 6 】。自然语言处理研究使用计算机理解和生成自然语言的基础理论和基本技 术,是新一代计算机的三大突破口之一f 6 】。人机接口系统问题正受到世界各国广泛 的关注。 1 2 2 自然语言理解研究现状 自然语言处理研究在电子计算机问世之初就开始了,6 0 年代乔姆斯基的转换 生成语法在语言学界引起了场“乔姆斯基革命”,使得语言学引进了定量的概念, 成为人文学科和自然学科的交叉学科,推动了语言学的进一步发展。但是使用这 种转换语法作句法分析并不成功。随着认知科学的兴盛,研究者又相继提出了语 义网络、c d 理论、格框架、l s p ( 语言串处理) 语法、对话语法等语义表示理论。 8 0 年代初,美国斯坦福大学的b a r w i s t 和p e r r y 提出了情景语义学,构造了一种自 然语言模型理论,特别是和人工智能和自然语言理解的需要。随后,计算语言学 界又提出了继承理论和语料库语言学。 目前世界上的自然语言处理技术主要分为两类,即:基于知识的方法与基于 统计数据的方法两大类。 基于知识的分析方法可以称之为自然语言处理中的“理性主义” 4 1 。人类可以 利用语言进行交流的关键在于人的大脑中存有大量的知识,这些知识包括句法、 语义和其他各类常识。在基于知识的自然语言处理的系统中,通常是设计各种类 型和结构的规则,从特定的例句和句型开始,总结规律,逐步完善,进而在特定 的领域内创建自己的系统,从而实现语言理解。所有这些方法,不论组成规则的 条件和动作多么复杂,其本质都是解决“是”和“非”问题。但是基于知识的方 第一章绪论 3 法缺乏对大量语料的调查,忽视了语言运用的多样性,还很难覆盖全面的语言现 象,从而无法取得真实的规律。 基于统计的分析方法被称之为自然语言处理中的“经验主义”1 8 j 统计方法又 被称为语料库方法,主要是指针对大规模语料库的研究。计算机和电子出版物的 出现,语料的存贮和采集语料不再成为困难。随着语料库规模的扩大,它所提供 的知识将旨在覆盖全面的语言现象。采集到的生语料通过词法、句法、语义等多 层次的加工,使得知识获取成为可能。随着标注程度的加深,语料库逐渐熟化并 成为一个分布的、统计意义上的知识源1 9 l 。但是对于语言中基本的确定性的规则仍 然用统计强度的大小去判断,这与人们的常识相违背。而且,通过实践人们发现 纯统计信息很难表达那些深层次、高概括性的知识,而这正是通过专家总结规则 方法的优点。 现在,人们普遍认识到,统计方法和规则方法各有优缺点,单纯的基于知识 的方法和统计方法都很难达到理想的效果。对于需要对语言做全面和深层次分析 的自然语言理解系统来说,二者的融合是大势所趋。 1 2 3 汉语的特点 汉语作为一种自然语言有其自身的特点,而其中有些特点使得它特别不适合 计算机来处理。 1 汉语的词不分写,而且汉语的词没有明显的形态标志,组词成句不靠形态 变化,而是靠语序和虚词。也就是说,相对于英语,汉语又添加了分词处 理过程,而分词处理的准确度又直接影响着句子理解的质量。 2 汉语句子中语法分析结果往往与语义分析结果之间不存在一一对应关系 ( 张三打了李四李四被张三打了张三把李四打了) ,这使得汉语句子的语 法分析较难直接服务于语义分析。寻求语法分析结果与语义分析结果之间 的磨合点便成为汉语句子理解研究的新焦点。 3 在汉语中,省略现象随处可见。不仅主宾语可以省略( 【你】吃过【饭】了吗) , 谓语动词( 他【是】南方人) 也可以省略,甚至定语( 尝尝【我烧的】肉味 道如何) 和定语中心词( 尝尝我烧的【肉】味道如何) 也可以省略。因而在 处理汉语时我们还要强调对语境知识的利用。 4 汉语各个分析层面上的歧义非常严重。歧义类型有句子的歧义切分( 下午, 学射会讨论这个问题。下午学生会讨论这个问题。) 、语法分析时的多 义词和兼类词( 比象棋不好你把锁锁上) 、句法分析时的同形异构、语义 组合层次歧义和语义组合关系歧义等等。这些都大大增加了汉语句子理解 的复杂度。 4 基于领域的介词理解及其在机械设计中的应用 1 2 4 汉语研究现状 在汉语的各个领域中,成效比较显著的是汉语音韵学的研究。马伯乐、高本 汉、钢利牡等人用西方历史语言学的理论和方法来研究汉语的音韵,为汉语语音 的历史发展勾画出一个清楚的轮廓。 汉语语法的研究始于马氏文通,仿效拉丁语的语法体系建立起一套汉语 的语法。但同样是“中西结合”,却有着截然不同的效果。从2 0 年代的直接模仿、 3 0 年代的文法革新问题的讨论、4 0 年代用西方语言理论来解释汉语,直至5 0 年 代及其以后借用某些方法来解释汉语的结构规律,这前后近一个世纪的“中西结 合”的成效不怎么显著,特别是对一些语法的基本问题如词类的划分与句子成分 的分析上经常发生周期性的争论,汉语语法研究举步维艰l ”。 究其原因,是因为语法研究以印欧系语言的理论、方法为基础把汉语结合进 去研究,而不是以汉语的研究为基础去吸收西方语言学的立论精神,因而难免出 现用西方的语言理论来观察汉语的结构这样的弊端。只有从“印欧语的眼光”的 束缚中解脱出来,才能实现西方的语言理论和汉语研究的有效结合。赵元任、徐 通铿等人提出“字”是汉语的基本结构单位,是语音、语义、语法、语汇的交汇 点,应该以“字”为基础研究汉语的结构。 汉语音韵和汉语方言研究之所以取得了开创性、突破性的进展,那是因为它 们都以“字”为单位进行研究。而语法研究则抛弃了“字”,而以印欧语类型的 词为基础,这就偏离了汉语的结构本位,因而引起了一系列的争论i 卯。 以“字”为基础研究汉语的结构立足于汉语的机构基点,为我们对汉语的研 究提供了一种新的思路和研究方向。 1 3 现代介词理论的研究现状 介词在汉语语法体系中占有很重要的位置。现代汉语中介词的绝对数量不多, 纯粹的介词就更少,多数是介词和其他词类的兼类,但是常用介词的使用频率很 高1 5 1 。介词不能单独充当句法成分,但是可以跟名词结合后构成名词短语后做状语、 补语、定语等句法成分。 汉语没有严格意义的形态变化,只能借助语序和虚词等语法手段来表示一定 的语法意义,而介词就是其中很重要的一类。不管是在句法上,还是在句子的语 义结构中介词都起着重要的作用。下面本文从三个角度对上个世纪末和本世纪初 语法学界对介词的研究成果作一个总结 n 1 。 第一章绪论 5 1 介词和介词短语的性质和功能 周小兵从传统语法的观点出发,认为介词的主要功能是引出跟动词所指动作 行为或形容性质状态有关的对象、施事、受事、时间、处所、方向、方式、原因、 目的、根据、范围等i 堋。陈昌来i 1 3 j 贝u 从三个平面的理论出发,把介词界定为“在 句子中起某种介引作用的词”,认为介词“在句子中介引某些跟谓语中心相关的词 语,标明这些词语跟句子中谓语中心的句法关系和语义关系”。 目前学术界普遍认为:介词是虚词的一种,单独不能充当句子成分,和名词结 合后构成名词短语主要做状语、补语、定语等句法成分。但是因为现代汉语的介 词多由动词虚化而来,所以很多时候还保持着动词的用法。并且有时介词跟连词 也有划界问题,所以人们很容易把非介词用法归到介词上。 2 对介词虚化的过程和动因的研究 认识虚化过程有几个原则性问题1 1 2 1 :系统性、持续性、限定性、词义渗透、 虚化链的分离和类变。金昌吉在研究中借鉴了许多国外的理论,但总体上仍然在 传统框架内。齐春红、邱渊在研究中则明确表示运用认知语言学的相似性理论分 析动词向介词的虚化【1 4 1 。张旺熹则提出了“非终结性动词”这一概念,并以之为 基点阐述介词衍生的一种可能性1 1 6 1 。他从非终结动词的语义结构和语义特征入手 解释了介词的语法化,并指出汉语动词通过连动结构和兼语结构衍生为介词的过 程只会涉及动词的语义降级,而不改变句子的表层结构( 比如语序) ,因而也不会造 成语言的额外损失。 3 运用三个平面理论研究介词和介词短语 八十年代中期,胡裕树、张斌等人提出了三个平面( 句法、语义和语用) 的 语法理论,在汉语语法学界影响比较大,很多学者以三个平面理论指导从事汉语 研究,其中陈昌来最有代表性。 陈昌来区分了介词和介词短语的句法、语义、语用功能。句法功能上着重按 照分布给介词分类1 1 3 】。他认为介词在句子中起语义标记功能,按介词介引的成分 的语义把介词分为主事介词、客事介词、与事介词、境事介词等八类。他以句子 的语义结构为落脚点,阐述了介词在三个平面的功能,并详细地阐述了介词的三 个语用功能:话题标记功能、凸显焦点功能、篇章功能。 1 4 本文的主要工作 本文对自然语言理解中介词的语义分析在产品设计领域中的应用做了初步的 探讨。对汉语表达的介词问题作了详细的分析和抽象,详述了介词语义分析方法, 并将处理结果转化成必要的信息以满足设计要求,同时也为自然语言的其他处理 以及后续设计提供了支持。本文完成的主要工作如下: 6 基于领域的介词理解及其在机械设计中的应用 1 了解国内外自然语言理解领域的动态,对基于知识的方法作了深刻认识,并结 合设计领域自然语言理解的特点,确定继续沿用基于知识的语义处理方法。 2 利用概念从属理论作为基于知识的方法的重要补充,深入讨论了其在基于知识 的系统中的优点,建立了概念从属树作为语义分析的基础和关于介词处理的模 板。 3 分析了自然语言理解中介词和代词、集体词、数量词之间的语义关系以及省略 句中介词的语义分析,并提出了相关处理模型,实现了复杂句子的形式化理解。 4 对汉语中常见的介词作了详细的归纳分类,并建立了针对不同类型介词和介词 结构的处理模型和具体的处理流程,并将介词处理与自然语言理解中其他模块 的语义分析结合起来,实现了领域内介词的语义分析。 5 结合机械领域建立了相应的知识库,编写了部分事件的语义处理规则,通过对 用户需求的理解和分析,实现了介词语义分析在机械传动需求分析原型系统中 的应用。 自然语言理解是一个十分庞大的系统工程,但是在领域内,我们可以较为方 便地建立领域的静态知识库。这样,就能够在某种程度上实现自然语言理解。本 文对汉语介词和介词结构进行更深入的分析和抽象,说明汉语的复杂句子( 含有 复杂介词结构) 是可以被有效的处理并加以理解的。最后结合实际应用,在机械 设计领域内进行自然语言研究,取得了一定的成果。 第二章自然语言理解语义分析 7 第二章自然语言理解语义分析 2 1 句法分析 人工智能对语言的研究侧重于语言的宏观功能,把语言活动看作是一个信息 加工过程t 3 6 1 。语言是一个层级体系, 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d ) 包括词法分析、句法分析、语义语用分析三个部分,其中句法分析是词法分析和 语义语用分析的中间环节,是语言理解的核心。 句法分析是理解自然语言关键的一步,要对用户的需求进行准确地分析,正 确的句法分析是不可缺少的。句法分析上承语义语用分析,下接词法分析,是承 上启下的枢纽。它的研究,一方面可以反观词法分析,从一个新的高度审视词法 分析的得失与对错,使词法分析能更好地为句法分析服务;另一方面,句法分析 可以为语义语用的分析打下良好的基础,它是语义语用分析的必要前提。当然, 句法、语义语用两者的分界线并非径渭分明,句法分析有时也得求助于语义语用 的分析。 句法分析就是应用句法和其它知识,将该输入句子中单词之间的线形次序变 换成像语法树那样的某种数据结构。句法分析有句子处理的开始阶段和句子处理 的检验阶段。前者,句法分析主要对句子切词、词性标引、简单的词或短语的歧 义处理以及确定句子的语法结构形式;后者,句法分析主要是对阶段处理后的结 果加以检验,判断处理结果中的各部分是否符合常规的语法和句法结构,当然这 不是检验结果正确与否的唯一标准,检验还要通过语义分析来完成。 分析一个句法结构在很多方面部有一个方向性的问题,涉及到四个方面; 1 层次构造 层次构造逐层有向左向右之分。左右向不限于偏正,主谓、述宾、联合、递系、 连动等等。 那个老头子的烟斗。 这个句子可作两种不同的层次,即: 那个老头子的烟斗。 那个老头子的烟斗。 z 句式变换 句式变换指的是从一种句式变换为另一种句式。有的是可逆反应,顺向变换或 8 基于领域的介词理解及其在机械设计中的戍用 逆向变换均可。有的是单向反应,只有顺向或逆向一种变换。 字写在墙上。 在墙上写字。 3 主语省略 主语相同的流水句,其相同的主语可因承前或启后而省略。 ( 老王) 看着人家那样辛苦的劳动,老王觉得身上更加热了,热得有 点儿发痒。 4 成分易位 成分易位有的是从前往后移动位置,有的是从后往前移动位置。 怎么了,你? 这钱,我付! 对于一个句子,可能会做几种不同的结构分析,但是它们的使用频率和机会 各不相同,有的使用频率很高,为“常式构造”,有的使用频率很低,往往只出现 于个别( 或极个别、极特殊) 的语言环境,称为“非常式构造”。人们往往只有在 具体的语言环境中才采取或承认与“非常式构造”相应的分析( 理解) 。这种结构分 析( 理解) 的倾向性直接或间接地影响着研究者对语言材料的分析和处理。 2 2 语义分析 语义分析就是利用语言学中的语义学知识,根据上下文辨识一个多义词在指 定句子中的确切意义,然后根据句子的合法结构和各词的词义推导出这个句子的 句义,并用形式化的方式表达出来,从而使计算机能够根据这一表示进行推理。 自然语言的理解最终要归结到对语义的深层次理解,没有语义知识根本谈不 上理解。但是单纯的语法分析无法完成这项任务,必须同语义分析结合。 语义分析的作用,概括起来大致有如下三个方面的内掣明: 1 理清句子的语义结构关系( 或称“主目关系”“格关系”“角色关系”“逻辑 结构”等等1 2 把句子的各个构成成分的意义组合成为一个完整的句子的意义,并把它映现为 一个由严格定义的形式语言来刻画的语义表达式( 简称为“意义的组合和表达,) 3 说明句子中词语搭配上存在的各种语义限制条件 在处理语义和语用知识的同时,我们不可避免地还要触及“语境”和“情景” 的问题1 1 9 1 。这是因为语法分析不能辨认所谓“语法正确、语义荒谬”的句子,只 有应用语义分析才有可能解决。因此可见,语义分析己成为自然语言理解的迫切 需要。 第一章自然语言理解语义分析 9 2 3 现有的语义分析方法 现有语义分析方法主要有语义网络( s n ) 、谓词逻辑( p l ) 、格语法,概念从 属理论等,本章对现有的语义分析方法进行了比较,分析了各自的优缺点。在此 基础上,本文提出了新的语义分析方法。 1 谓词逻辑1 4 5 l 用谓词逻辑来表达语义由来已久,目前用于表达自然语言语义的符号逻辑, 多为一阶谓词逻辑( f o p l ) 。一阶谓词逻辑是一种形式语言,其根本目的在于把 数学中的逻辑论证符号化。谓词逻辑可以表达那些无法用命题逻辑表达的事实, 因为:谓词可以代表变化着的情况,而命题只能代表某种固定的情况;谓词可以 在不同的知识之间建立联系。但是谓词逻辑存在着以下缺点: ( 1 ) 难于表示过程式和启发式知识。 ( 2 ) 由于缺乏组织原则,利用该方法表示的知识库难于管理。 ( 3 ) 由于是弱证明过程,当事实的数目增大,在证明过程中决定使用哪条规则 时可能产生组合爆炸。 2 格语法l ,h 格语法最先由美国语言学家f i l l m o r e 提出,是影响较大、应用较广的一种语 义分析方法。格语法建立在“以动词为中心”的基础上( 其前提是承认每个句子 必定包含动词) 的,基本观点是:任何一个简单句都具有一个深层的意义结构, 它显示句子轴心的谓语与周围体词短语之间的“句法语义关系”,即“深层结构” 或“深层格”,属于向心辐状结构。 f i l l m o r e 认为格的传统概念,只能处理句子的表层结构。在深层结构中所需要 的不是这些表层语法关系,而是深层的句法语义关系。格语法给出了各格成分之 间的深层语义,即句子的深层结构。有不同表层形式的、含义相同的句子有同样 的格框架。 格语法最大的特点是承认语义在句法中的主导作用,由格语法分析可以得到 句子的深层语义结构,给出各成分的语义角色,对于确定正确的句法结构有很大 帮助。但是格语法在汉语分析中存在以下几个缺点: ( 1 ) 无法解决汉语的连动和兼语句式。 格语法在分析句子时首先要确定句子的核心。如何在有多个动词的连动式 和兼语式中找出句子的核心是汉语信息处理的一个很难的问题,也是格语 法无法解决的问题。 ( 2 ) 短语内部各成分间关系无法确定。 格语法提出的各种格关系都是名词性短语和动词之间的语义关系,对于名 1 0基于领域的介词理解及其在机械设计中的应用 词性短语内部和动词短语内部各成分关系的确定没有给出。 ( 3 ) 汉语词汇语义分类标准不确定。 3 语义网络文法【4 】【2 1 语义网络是由美国人工智能学家m r o i l l i a n 首先提出来的一种语义分析和 表示方法。在这种网络里,结点表现为词和短语的概念,一个结点与其它结点连 接的弧称为语义关系。这里,概念并不是单词本身,而是词或短语的本质词义。 语义关系是句子中的动词和他们的主语、宾语、介词短语等等之间的关系,再加 上词的类别、语态和修饰关系等。这种网络以概念为基点,按一定的语义关系将 不同的概念连接起来,构成一种语义表达形式。这种形式可以用来分析并记忆句 子所包含的语义关系,并在需要时生成和输出有意义的语句,执行自然语言处理 和理解的任务。 但是,语义网络存在许多缺点:语义网络结构的语义解释依赖于该结构的推 理过程而没有结构的约定,因而得到的推理不能保证十分正确;结点问的联系可 能是线状、树状或网状的,甚至是递归状的结构,使相应的知识存储和检索可能 需要比较复杂的过程;结构庞大复杂,系统开销大。 上面介绍的各种语义表示方法及相应的分析技术虽然各有特点,并且已经得 到了不同程度上的应用,但是当句子涉及到上下文、背景知识或者联想知识时, 这些方法就显得无能为力了。换句话说,这些方法都是纯粹的语义分析方法,不 能满足需要。我们只有把语义和具体的语境结合起来理解才能够正确的反应语言 理解的实质,挖掘出更多隐含的信息。 2 4 概念从属理论 在这里我们重点讨论一种称为概念从属理论( c o n c e p t u a ld e p e n d e n c yt h e o r y ) 的语义分析方法,简称c d 理论,是美国耶鲁大学r s c h a n k 教授和他的同事在7 0 年代提出的。概念从属理论本质上仍然属于语义分析范畴,但它不是分析某种特 定语言的语义,而是独立于语种的。因此,两者又是非常不同的分析方法。 2 4 1 概念从属理论的基本概念 c d 理论是逻辑语义学的形式化方法。在自然语言理解技术特别是人工智能技 术当中有一定的影响。它是建立在单词对应的概念之上而不是建立在单词之上的。 同时,通过概念的从属关系同一类概念归根结底都要从属于某一个概念( 抽象概 念) 。c d 理论认为: 1 句子、短语、词组都是由概念组成的,这里的概念是若干基本义位的抽象。 第二章自然语言理解语义分析 2 句子、短语、词组都有一个核心概念,其他概念称作附加概念。 3 附加概念是以核心概念的存在或相互存在而存在的1 4 0 ! 。 c i ) 理论还有一个重要的思想,就是概念驱动【2 l : i 以词的概念为基的理解系统,词汇只是概念的符号,从整体而言,在这样的系 统里,没有词的概念。最基础的概念集合组成概念基,概念基是以动词为核心 的。 2 一个词所能包含的信息是极其丰富的,包含词条信息、词法信息、句法信息、 语义信息和概念信息,甚至可预期上下文信息和篇章( 文本) 知识等等。这样 的理论体系里,机器的理解就是利用这些信息启动实现的。 3 知识和处理知识的机构应该是相互独立的,以便于知识的积累和丰富系统的处 理能力。 概念从属理论将概念分为不同的类型,同一类型的概念可从其抽象概念那里 继承该类型概念的共有属性。即具体概念的只需列出属于自己特有的属性,而不 必列出它所从属的抽象概念的属性。这是由于在概念从属树上,对于父结点的属 性,子结点采用继承的方式,子结点完全拥有父结点的所有属性,也就是说概念 从属树上一个概念的属性等于它自己特有的属性加上它所有父结点属性的总和。 这样在对语句进行语义分析时,对概念只需进行在抽象层次上处理,对具体 概念则采用继承和聚类的方法来处理,从而大大减小了研究人员的工作量,尤其 适合我们这种基于知识的自然语言理解系统。 2 4 2 概念从属理论在知识表示中的优缺点 在基于知识的自然语言理解系统中采用概念从属理论作为语义分析方法,具 有很多优点: i 知识推理方便 ( 1 ) 当知识未分解成原语时,需要的推理规则比要求的少。 使用概念从属原语而不用高级术语表达知识的好处在于,前者易于描述推 理规则。对每一动作原语,规则只须表达一次,而对描述那个动作的每个 单词就不止表达一次了。同时,规则应用后,所得的结果可以反馈回规则, 以方便下一次的调用。 ( 2 ) 为表达包含在语句中的信息而建立的初始结构,将有一些需待填充的槽。 这些槽可作为理解随后句子的程序的注意符。在一段信息的表达中未明确 指定的元素,可作为理解后续事件的焦点。 2 可以在抽象层次上处理问题 基于领域的介词理解及其在机械设计中的应用 任何一种自然语言,无论英语还是汉语,其中所包含的概念都数以万计,对 这么多的概念逐一进行理解和处理,无疑是一个非常庞大复杂的工程。倘若从抽 象化的角度来处理概念,将使问题得到简化。抽象化是人们认识事物本质的一条 重要途径。抽象化作为一种思维方式,广泛存在于日常生活的各个方面,尤其在 解决复杂问题上作用尤为突出,它能透过事物的表象直达事物的本质。 概念是事物或事物问相互关系的描述。在一个抽象概念与具体概念之间还存 在多个相对抽象的概念。例如在三角形与具体的三角形之间还存在等腰三角形、 直角三角形、钝角三角形等概念。正是这些概念的存在使得事物间关系的描述得 到了简化,提高了描述的效率。 概念从属关系是指一个概念的外延包含另一个概念的全部外延。其中外延较 大的概念叫抽象概念或属概念,外延较小的概念则称为具体概念或种概念。确定 概念间这种从属关系的过程就是一个抽象化的过程。 3 可以表达概念间的深层知识 由于我们采用的是基于知识的自然语言理解方法,若采用单一孤立的知识表 示方法( 浅层知识表示) 和推理,则会存在知识库十分庞大和复杂的问题。为解 决这个问题,一个必然的方法就是采用层次知识存储的方法,使系统不仅具有浅 层知识。还具有深层知识或蕴含知识。浅层知识主要是从系统外部所能观察到的 知识。深层知识是从系统内部观察系统所具有的知识,它不仅包含在一般推理过 程中用户所能够直接感受到的知识,而且应包含一些公理性和概念性知识,而这 些知识在推理过程中总是隐含和间接地产生作用。 概念间的从属关系就是一种深层知识。由于深层知识表示形式的引入,丰富 了知识库的结构和知识的表示形式,并且也大大减小了知识库的规模。浅层知识 和深层知识相结合,使系统的推理显得更加方便和容易。 综上所述,概念从属理论是一种非常优秀的语义处理理论。因此在我们建立 的基于知识的系统中,可以选择概念从属作为基于知识的方法的重要补充。 2 4 3 概念从属树的建立与语义搜索 建立概念从属树时关键是要归纳整理出概念之间的从属关系,清楚认识概念 的内涵和外延,理顺概念间关系,给概念分好类别以及它们之间的层次关系。当 做好这些以后,再将相关的概念填入概念从属树中就可以了。这里应该注意的是, 重复和交叉的概念关系会使语苦的理解产生歧义和错误。因此,我们建立的概念 从属树的规模不能太大,否则会有可能造成概念之间关系的混乱,应将其划分为 若干个小的概念从属树。 在2 4 1 节中我们知道“概念从属树”中各个概念( 节点) 之日j 的属性是可以 第二章自然语言理解语义分析 继承的,也就是说信息的使用是继承性的。这样,引入各节点概念之间的从属关 系后,知识节点之问呈现树状联系。概念从属树的层次化,从知识表示的层面增 强了知识的组织管理。 当进行语义搜索时,假如在某层节点未找到匹配信息,则顺着当前节点所在 树的路径一直往上查找父层结点。由于父层结点抽象程度更高,在子层中不存在 的属性,在父层结点中或许可以找到。由此就可以通过概念从属树的层层查找来 判断两个知识结点是否符合语义搭配。由于概念从属树是采用抽象继承理论而产 生的,因此概念从属树的搜索过程采用的搜索策略为深度优先。 通过这种方法,不仅描述了概念之问的抽象与具体关系,而且使概念的属性 分类明确,层次分明,便于语义搭配搜索,这对我们的语义分析是相当有益的。 有些文章将本体理论引入自然语言理解系统,利用概念从属树建立了自然语 言语义知识本体模型剐。目前很多文章都介绍了多个本体的合并和融合1 2 0 - 2 7 1 ,若 是能做到不同信息源之间的本体彻底融合,实现信息的共享,这对我们以后的工 作有很大的促进作用。 2 5 本文语义分析理论机制 本文综合应用了概念从属理论、本体论、格语法的基本思想建立名词、动词 等概念知识体系,同时吸收了c d 理论及格语法在处理自然语言理解中的优点,选 择了将概念从属理论作为语义分析理论基础,对名词、动词等概念进行语义分析。 这种新的语义分析方法的特点体现在以下几个方面: 1 利用概念从属理论把现实中的概念进行抽象。对概念进行分类,形成原子概念, 这就相当于对概念实行标准化处理。这样在进行语义处理时,可以只针对该分 类内的概念进行相应的语义处理。如对概念行为分为1 1 类,当处理“移动” 这一类行为时,只需在“走”、“踢”等相对较少的词中总结规律,提取规则, 这就有效降低了处理的难度。 2 本文采用本体的方法从抽象概念层次上来组织知识库中的自然语言语义知识, 一方面可以使语义知识能够被重用和共享,另一方面可以减少语义约束规则的 数量以提高语义分析效率。 3 借鉴格语法的处理思想,以动词为处理核心将自然语言表示为格框架形式。这 样就可以充分表示概念和概念之间的关系。这不仅便于计算机处理,而且提出 的完整语义i 姗,解决了格语法分析中多动词处理的难题。 4 针对语义分析中出现的形式j e 确而逻辑错误的情况,我们在抽象层次上建起搭 配关系的知识。这样对于概念问关系的分析就可以通过搜索概念树的方法判断 一个搭配的逻辑是否合理。 1 4基于领域的介词理解及其在机械设计中的应用 2 6 本章小结 本章首先讨论了自然语言计算机处理中的句法分析和语义分析,说明语义分 析在自然语言理解中的地位尤其关键。随后研究了语义处理和几种语义分析方法 的特点,重点介绍了概念从属理论及其优缺点,并将它与其它现有的语义分析方 法作了比较深入的比较。最后提出了本文所论及的自然语言理解系统所采取的语 义分析方法,为后面的介词语义分析奠定了基础。 第三章介词和介词结构语义分析理论研究 第三章介词和介词结构语义分析理论研究 3 1 介词的基本概念 3 1 1 介词的功能与语法特点 介词是汉语虚词当中功用较为复杂、涉及因素较广的一类,在汉语语法体系 中占有十分重要的地位。介词用在名词、代词或者短语前边,用以引出跟动词所 指动作行为或形容词所指性质状态有关的对象、施事、受事、时间、处所、方向、 方式、原因、目的、根据、范围等。 介词有核心功能和一般功能之分【1 2 1 。所谓核心功能是指某一类的所有成员都 具有的区别性特征,是建立该类的基础和主要依据。而一般功能则并非该类词所 有成员都具备的,而且有些功能还会表现出对核心功能的某种程度的偏离,称之 为“功能游移”。一般功能中的这类功能游移并末达到与核心功能相互排斥的程度, 只是与核心功能呈现出一系列的“中间状态”。 这里我们只介绍介词的核心功能: 1 介词是定位附着词。它主要附着于名词、代词以及名词性词语之前,表示这 些词语同句中其他成分之间的时间、关涉等关系。 2 介词不能单独使用。 3 介词短语不能单独作谓语。 4 介词所附着的词语不能外移或省略。 5 介词后面绝对不允许再出现另一个介词短语。也就是说,两个介词不能共同 附着于同一词语之上。 介词的语法特点主要有: 1 不能单独充当句子成分,更不能单独问答问题。 2 有的可以后接“着、了、过”等动态助词。有的不行,不能重叠。 3 谓语前的介词结构,前边大多可以出现“不”、“没”,但受其否定的不是单个 的介词,而是整个介词结构,或是包含介词结构和动词在内的整个偏正词组。 4 后边必须带体词或谓词宾语,组成介词结构整个地修饰谓词或体词。 1 6 基于领域的介词理解及其在机械设计中的应用 3 1 2 介词内部的个性差异 现在汉语介词不仅数量多,种类多样, 呈现出许多差异。这些差异对介词的意义、 1 介词来源上的差异 用法和意义复杂,而且在内部形态上 用法和功能产生一定的影响【捌。 现代汉语介词有着不同的来源。有的是从古代汉语中继承来的,如:于、以、 与、自、为、及、从、由、因等等。有一部分介词是从近代汉语过渡到现代汉语 的,而有些介词如“关于、对于、依照、依据、根据”等是在现代汉语中形成的。 另有些介词是从方言中吸收而来的,如“奔、奔着、打从、自打”等。 不同来源的介词除了有语体色彩和方言色彩的差异外,还有用法上的差异。 如文言介词“自”可以分布在动词前,也可以在动词后,而同义的“从、自从、 打从”等只能分布在动词前。 2 介词语体色彩的差异 现代汉语介词数量之所以多,就是因为有很多同义的介词。而介词内部语体 色彩有所不同是造成这一现象的原因之一。如以下各组的介词都有口语色彩和书 面语色彩,或者有中性色彩跟口语、书面语色彩的对立: 按、按照:按着 本着:本 从、打从、自从:自 凭:凭着 在:于 各组介词之i 日j 语体风格的差异或细微差别,使得现代汉语介词使用灵活多变, 能适应不同语体的需求。 3 介词音节上的差异 从音节上看,介词可以分为单音节介词和双音节介词两类,还有极少数是三 个音节。单音节介词是现代汉语介词的基础,这是因为双音节介词是在单音节介 词的基础上产生的,是单音节词的派生形式。 ( 1 ) 介词在单双音节上的对立,首先影响了他们跟后面词语的搭配选择。 一般说来,单音节介词再搭配选择上限制较少,跟介词搭配的介引对象即 可以是单音节的,也可以是双音节或多音节的。 如:我在家在家里在教室里,在图书馆里学习。 只有极少数单音节介词在某种意义下,要求单音节词与之组合。如“因” 在表示介绍凭借的对象、根据时,一般要跟单音词组合。如:因地( 制宜) 、 因人( 设课) 。 第三章介词和介词结构语义分析理论研究 1 7 而相当一部分双音节介词跟后面的词语组合时有限制,一般要求后面的词 语不能是单音节的。如:朝南i 酊朝着南追。 但也有些双音节介词可以跟单音节宾语搭配。如:对于我,你们不用担心。 这些词,大多是后附“着、了、过、于”的介词,后附的语素隔离了介词 和后面的宾语,使之失去了成为构词成分的可能。 ( 2 ) 单双音节介词的对立,还影响到介词的分布、风格和使用范围。 能分布在动词后的介词都是单音节介词,而即使是同义的双音节介词也不 能在动词后分布。如单音节介词“自”有两种分布位置,而同义的“自从、 自打、打从”等就只能分布在动词后面。 从语体色彩来看,相对来说,双音节介词口语色彩浓些,而单音节介词书 面语色彩浓些。如“自、从、自从、自打、打从” 从使用范围上看,单音节介词相对于双音节介词来说使用范围要广些。如 “对”比“对于”的使用范围大:“为”比“为了”、“为着”的使用范围 大。 ( 3 ) 单双音节介词的对立还表现在做状语时的位置上。 有些单音节介词组成的介词短语作状语只能位于主语之后,而不能做句首 状语,而同义的双音节介词构成的介词短语却可以。 4 介词形态上的差异 近代汉语新兴的介词都是从动词虚化而来的,这一时期动词开始逐步后接 “着、了”表示时态意义,这一表示法也随着类推到虚化的介词中。有不少单音 节介词可以后附“着、了、过”形成相对应的双音节介词。 例如:向着、依仗着、按着、就着、除了、为了、经过、通过 介词有共性,这是介词作为词类的基础,但是介词之间的个性差异已经影响 到介
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第11课 认识机器人教学设计-2025-2026学年初中信息技术(信息科技)八年级 第12册滇人版(旧版)
- 行政专员面试题目及答案
- 2025年医卫类药学(士)基础知识-专业知识参考题库含答案解析(5套)
- 2025年医卫类病案信息技术(师)-基础知识参考题库含答案解析(5套)
- 新闻集团面试题目及答案
- 二零二五年环保包装箱租赁及回收利用合同
- 2025版跨境电子商务合同履行风险控制条款
- 二零二五年度豪华公寓个人买卖合同协议
- 二零二五年度建设工程抵押担保管理协议
- 二零二五年度家庭光伏电站销售与环保认证合同
- 血液速递通道2025年冷链物流信息化建设报告
- 2025年秋季开学教师会暨师德师风会议上校长讲话:守住一颗心点亮一盏灯走好一段路
- 医美行业监管趋势下2025年美容整形手术的市场需求与消费者行为分析报告
- 数字化种植牙技术
- 2025年全国教育系统师德师风知识测试题及答案
- 2025年中煤财务岗笔试题及答案
- 糖尿病性视网膜病变
- 2025年平面设计笔试题库及答案
- 2025建筑电工考试题库及答案
- 果场退伙协议书
- 动火警示教育
评论
0/150
提交评论