(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf_第1页
(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf_第2页
(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf_第3页
(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf_第4页
(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(机械制造及其自动化专业论文)机械产品设计领域自然语言省略恢复研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 伴随着网络、信息技术的飞速发展,基于知识的产品创新设计体系必将成为 新一代设计体系的主流,新一代产品设计系统必须体现数字化、柔性化、智能化、 与全球化等基本特征。本文针对目前传统c a d 系统对产品设计的支持不足,立足 于产品创新设计的要求,将自然语言理解应用到产品设计当中,期望改善当前的 设计体系。根据当前汉语省略现象普遍存在的现状,首先对汉语中的省略现象进 行了研究。通过对现有的几种知识表示的方法理论进行比较,最后选定以概念模 型作为知识表示的方法。在进行省略旬理解的时候,本文提出了在语义分析时进 行省略判定的原则,根据概念的内涵外延,以及概念之间关系等对省略现象进行 了恢复研究,经过初步测试,取得一定的成果。最后,介绍了一下自然语言理解 理论应用于产品设计的过程。 关键词:产品设计、智能化、自然语言理解、省略句、 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e t w o r ka n di n f o r n m t i o nt e c h n o l o g y , t h ep r o d u c t i n n o v a t i o nd e s i g n i n gs y s t e mb a s e do nt h ek n o w l e d g ew i l lb e c 沁m et h em a i n s t r e a mi nt h e n e wg e n e r a t i o no fd e s i g ns y s t e m 1 1 地n e wg e n e r a t i o no fp r o d u c t - d e s i g ns y s t e mm u s t m a n i f e s tt h eb a s i cc h a r a c t e r i s t i c :t h ed i g i t i z a t i o n ,t h ef l e x i b i l i t y , t h ei n t e l l e c t u a l i z a t i o n , t h eg l o b a l i z a t i o n a n ds oo i l1 1 l i sp a p e ra i m sa tt h es u p p o r ts h o r t a g eo fc u r r e n t l y t r a d i t i o n a lc a ds y s t e mo ft h ep r o d u c td e s i g n , h a v i n gaf o o t h o l di nt h ed e m a n do f p r o d u c tc r e a t i v ed e s i g n ,a n dt r yt oa p p l yt h en a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l u ) t o t h ep r o d u c td e s i g n ,e x p e c t i n gt oi m p r o v ec u r r e n td e s i g ns y s t e m f i r s tt h ee l l i p s i s p h e n o m e n o nw a sr e s e a r c h e di nt h i sp a p e r ,b a s e do nt h ea c t u a l i t yo fu b i q u i t o u se l l i p s i s s e c o n d ,t h i sp a p e rc o m p a r e dw i t i lt h es e v e r a lc u r r e n tk n o w i e d g ee x p r e s s i o n sa n d c h o o s e dc o n c e p tm o d e la st h ek n o w l e d g ee x p r e s s i o nm e t h o d i nt h ee l l i p s i ss e n t e n c e s u n d e r s t a n d i n g ,t h ee l l i p s i sp h e n o m e n o nw a sd e t e r m i n e da tt h es e m a n t i ca n a l y s i s ,a n dw a s r e a l i z e di t sr e c o v e rb a s e do nc o n c e p t ,c o n n o t a t i o n ,e x t e n s i o n , c o n c e p tr e l a t i o n s f i n a l l y , i n t r o d u c e dt h ep r o c e s st h a tt h en l ut h e o r ya p p l i e si nt h ep r o d u c t - d e s i g n k e yw o r d s :p r o d u c t - d e s i g ni n t e l l i g e n t i z e n a t u r a ll a n g u a g eu n d e r s t a n d i n g e l l i p s i s 声明 西安电子科技大学 学位论文创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导 师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注 和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明 并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 乱 本人签名:殷姿日期2 亟: 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留 送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合 学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 本人签名: 导师签名: 盛蔓嘲趔:! : 堑煎日期堑u ! 第一章绪论 1 1 1 研究背景 第一章绪论 1 1 产品设计与自然语言 传统的计算机辅助设计( c a d ) 技术主要就是将设计人员从手工绘图中解放出 来,并对常规设计给予某些帮助和支持,但不能对设计工程师的思维活动提供有 效的支持,因此已不适应现代产品设计与开发的需要。为了提高制造业对今后市 场变化和小批量、多品种产品要求的快速响应能力,设计支持技术正不断向着高 度集成化、智能化、自动化、协同化方向发展。要实现这个目标,就必须提高设 计工程师与计算机辅助工具这一人机结合后的设计支持技术,使计算机辅助设计 能在更大范围内、更高水平上帮助设计人员处理各种数据、信息与知识,优化和 支持设计全过程,大幅度提高设计自动化水平,进而大大提高设计工作的效率和 质量,以适应市场对产品开发迅速多变的需求。 随着计算机技术和c a d 技术的不断发展,从2 0 世纪8 0 年代开始出现了基于知 识工程( k b e ) 的应用研究,并且在不长的时间里,己经成为科技界和企业界的研究 热点之一。目前制造业越来越意识到将知识工程技术引入到制造业的必要性和迫 切性,利用知识工程系统方法来提高产品开发能力的不足,知识工程系统已经日 益成为产品开发过程中的有力工具。基于知识工程技术是有助于我国制造企业摆 脱现状的强有力工具,是问题最有效的解决方案,也是c a x 技术发展的新阶段。当 今c a ) ( 设计系统发展的新趋势之一就是以知识驱动作为基础的产品设计新思路。 它将知识工程与c a x 设计制造系统有机地结合起来,大大减轻了设计人员的非创造 性劳动的工作量,使产品的创新开发得以在短期内实现。基于知识的产品设计支 持技术就是要研究如何帮助设计人员提高设计效率和自动化程度,使计算机更多 更好地承担设计中各种复杂任务,成为设计工程师得力的助手和同事。因此可以 毫不夸张的说,基于知识工程的产品设计支持技术是2 1 世纪的先进设计技术。 综上所述,采用基于知识工程的产品设计支持技术,可以提高产品对市场的 响应速度,极大的降低产品开发成本,提高产品质量,积累企业产品研发能力, 使得产品生产走向零库存模式,而且在最大程度上实现企业知识积累和再利用。 对基于知识的产品设计支持技术的应用研究,可以促使我国制造企业的市场竞争 能力得到提高,给我国企业的先进制造技术水平带来质的飞越。因此,研究基于 知识的产品设计支持技术就具有重要的现实意义和实践价值。 1 1 2 产品设计需要自然语言理解技术 随着科学技术的发展,各技术学科也在迅速发展和相互渗透,产品设计的设 计支持技术与领域知识之间,也是一个相互促进、相互渗透、共同发展的过程, 产品设计支持技术中已经越来越多地溶进了领域知识技术,从而形成了自动化和 智能化程度更高地设计支持技术,在新产品地开发中发挥了巨大的作用。基于知 识的产品设计技术就是将产品设计知识的综合积累和再利用转化为产品设计活动 中的直接效益。 产品设计中融入知识工程,其中一个重要的目标便是期望设计者与计算机能 够在某种程度上实现以人类的自然语言交流。不论是在需求分析阶段还是在初步 设计和详细设计等其它阶段,设计者都希望能实现与计算机之间的自由交流,而 无需特殊的指令或格式要求。 人要与计算机用自然语言交流,就必须让计算机能理解人类的语言,不管是 文本的还是语音的形式。计算机要能读懂或昕懂自然语言,就必需要具备人类知 识,还要有感知、理解、储存、转换、更新、纠错等能力。因此,计算机的自然 语言理解技术是解决这一问题的关键技术0 1 。例如,如何通过人机交流快速有效地 收集用户的需求信息,并且对用户需求进行分析,将用户需求转化为产品概念设 计要求从而设计出满足用户需求的产品,已经成为产品设计中越来越引人关注的 问题。要让计算机理解这种要求,就必须利用自然语言理解这种手段,让自然语 言理解充当用户和产品设计、分析等系统之间的智能接口,通过将用户的需求转 化为设计需求,来指导设计人员的工作。 1 2 自然语言理解概述 全球化的进程正在推动一场“自然语言信息技术革命”。它涉及非常丰富的 内容,但是最具本质意义的核心内容是“自然语言理解叫”嘲”。信息检索、信息抽 取、数据挖掘、知识发现、文本分类、内容分析、信息监控、自动摘要、机器学 习、机器翻译、人机自然语言对话、基于自然语言的人机合作等,都是自然语言理 解的具体应用。自然语言理解是人工智能的重要研究方向,目的是使机器能够在一 定程度上理解人类的自然语言,是语言学、认知学、信息学的交叉领域,涉及的问 题很多,而且难度很大。 所谓的机器的自然语言理解就是让计算机利用结构语法和语义分析,对句子 自左至右逐词加以解析,从而达到正确处理人类语言,并能做出人们期待的各种正 确响应。自然语言理解是计算机科学领域与人工智能领域中的一个重要方向。它 第一章绪论 的研究能实现人与计算机之间用自然语言进行有效通信。n l u 是自然语言理解 ( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) 的缩写。 1 自然语言理解与自然语言处理”1 要使机器能够理解人类的自然语言,显然是一个非常困难的问题。尤其,如果 要求机器达到像人一样的水平来理解人类的自然语言,就更是遥不可及;要使无生 命的机器系统同有智慧的人类一样理解人类的自然语言,几乎不可思议。因此,人 们通常回避对自然语言进行“理解”的目标,退而求其次,希望利用一定的方法和 技术对自然语占进行某些“处理”。于是,在科学技术文献中就把这一研究领域称 为“自然语言处理( n l p ,n a t u r a ll a n g u a g ep r o c e s s i n g ) ”,而不是“自然语言理 解( n l u ,n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) 一。 事实上,作为科学技术的研究目标,人们所追求的,不可能是具有与“人类理解 自然语言的能力”完全一样的机器,而是在“人类理解自然语言的机理”启发下, 实现机器对自然语言的“一定意义上的”理解,正如飞机不同于飞鸟、雷达也不同 一 于蝙蝠那样。 一般而言,科学技术意义上的“自然语言处理”泛指对于人类自然语言所进行 的一切有意义的操作和分析,包括自然语言的分词操作、词性标注、词义标注、搭 配关系标注、语法分析、语义分析、语用分析、段落解析、篇章分析,以及与此相 应的各种语言学统计,如字频统计、词频统计、特征提取、关键词识别、短语识别、 专有名词识别、语言模型的统计和提取、虚词的识别、语句的表示、语句舶相关 性计算,以及从大规模语料库的语料中提取各种典型的语句样本和语言学规则等 等,这些都是人们比较熟悉的内容,依据应用目标的不同,不同场合所进行的自然 语言处理的具体内容当然也会各不相同。 2 实现理解的判定准则 至于科学技术意义上的“自然语言理解”。它是在“自然语言处理”基础上展 开的一类操作,目的是为了理解自然语言。可以认为,自然语言处理是实现自然语 言理解的必要基础,没有这个基础,不可能实现自然语言理解。所谓对于某种自然 语言实现了某种程度的“理解”,可以通过一些准则来判定。以语句的理解为例, 这些准则可以包括: ( 1 ) 能够判断语句的结构是否合乎语法; ( 2 ) 能够判断语句的逻辑含义是否合理; ( 3 ) 能够以不同方式表达同一语句内容; ( 4 ) 能够把一种自然语言正确地表达为另一种自然语言; ( 5 ) 能够判断语句所表达的语言效用。 满足其中的准则( 1 ) ,可以认为对语句实现了浅层的理解;满足准则( 1 ) ( 4 ) , 可以认为实现了中等程度的理解;如果5 个准则全部都能够得到满足,则意味着实 4 现了比较深层的理解,不仅把握了语句的语法结构和逻辑含义,而且了解了它的效 用价值。 当然,机器对于自然语言的浅层理解相对比较容易实现,中等程度的理解就比 较困难,实现深层的理解就更为困难。但是,不同程度的理解可以找到不同的用途。 i n t e r n e t 的广泛应用,提供了一个很有意义的启迪,这就是用户并不坚持要求 网络提供绝对理想的“服务质量( q u a l 时o f s e r v i c e s ) ”;相反,乐于接受价格廉宜“尽 力而为( b e s te f f o r d ”的网络信息服务,这是明智的选择。正像一位哲人所说:理想 的东西是不现实的;现实的东西都不理想。我们必须学会接受和适应不那么理想 的现实;否则,就会陷于“可望而不可及”的境地。 现在,人们普遍认识到,对于需要对语言做全面和深层次分析的自然语言理 解系统来说,统计方法和规则方法各有优缺点,单纯的基于知识的方法和统计方 法都很难达到理想的效果,二者的融合是大势所趋。人们普遍的把自然语言理解 划分为一个层次化的过程,这个过程一般分为4 个层次:词法分析、句法分析、语 义分析、篇章分析。就目前的情况而言,词法分析和句法分析相对成熟,语义分 析逐渐成为研究重点,而篇章分析才刚刚起步。在句法、语义层面上,省略就是 一个瓶颈,只有这个问题很好的解决了,语义分析才能再进一步的完善,本文就 想在这方面做一点工作。 1 3 省略现象研究的发展及现状 省略是语言学中的一个重要课题。我们认为,出于语言教学和计算机语言处 理两大方面的实际需要,汉语语法学界必须承认省略并且打破过去研究该问题的 传统和模式,运用新的方法来展开深入、细致的研究。 省略是一个语法学史上古老而未决的难题4 1 。( 1 ) 1 6 6 0 年问世的由a n t o i n e a r n a u l d 和c l a u d el a n c e l o t 合著的( g e n e r a la n dr a t i o n a lg r a m m a r ( 译成“普 遍唯理语法”) 中指出:在不影响理解的前提下,人们可以把一些词语省略不说。 ( 2 ) 传统语法以后,习惯语法虽然常常摆出一副反传统语法的面孔,但是却并不否 认省略,该派代表人物奥托杰斯帕森指出:根据上下文,如果句子的意义明确, 一些成分可以省略。( 3 ) 美国结构主义基本上不承认省略。霍凯特在其代表作现 代语言学教程中没有谈及过省略。( 4 ) 生成语法不似传统语法那样来讨论省略。 八十年代以后,生成语法进入“原则与参数”模式的“管辖与约束理论”( g o v e r n m e n t a n db i n d i n gt h e o r y 。简称“g b 理论”) 。在该理论中,“空语类”( e m p t yc a t e g o r y , 又译成“空范畴”) 占有重要地位。由此可以看出,生成语法并不否认省略的存在。 ( 5 ) 以h a lli d y 为代表的功能语法学派研究省略主要是把它当作篇章构成的一种重 要连接手段来加以探讨。h a l l i d y 指出,省略是指话语中留下一些特定的结构空位, 第一章绪论 这些结构空位可以根据别处的情况添补还原。( 6 ) 国内语法学界有关省略的看法基 本上源自上述各派埘。吕叔湘的汉语语法分析问题关于省略的论述就代表了当 时大多数学者的意见。吕氏指出:“第一,如果一句话离开了上下文或者说话的环 境意思就不清楚,必须添补一定的词语才清楚;第二,经过添补的话是实际上可 以有的,并且添补的词语只有一种可能。这样,才能说明是省略了这个词语。”不 同时符合这两条的,就只能算是“隐含”。 七十年代开始,语用学的研究日益引起语言学界的重视。在国内,三个平面”“ 被明确提出并逐步成熟起来是在八十年代,它是国外语言学理论的影响和国内汉 语语法研究自身发展综合利用的必然结果。 句法分析是指对语言符号与语言符号之间的组合进行的分析。其主要内容是确 定句型、句子成分、结构关系等。 语义分析是指对语言符号所指( 客观事物) 之间的关系的分析。其内容主要分 析施事、受事、与事、工具、时间、处所、领属等语义关系。 语用分析是对句子中的语言符号和它的使用者及使用环境之间的关系进行的 分析。其内容一般是分析话题与说明、表达的焦点、交际类型以及同语境的关系 等。 运用三个平面理论来研究省略的文章很多,但总的看,学者们所持的“省略” 观并不尽相同。大体上有如下几种认识:( 1 ) 语用省略。持此观点的学者大都主张 通过语境来研究省略。( 2 ) 语义省略。持此观点的学者是从意念上来分析的,认为 理解过程中觉得少了某个语义成分,就判断存在省略。这种省略在研究上往往以 逻辑思维为指导,因此操作上缺乏客观标准。现在大多数学者已将其排除于语法 研究之外,称为隐含。( 3 ) 句法省略。这是专指结构中必不可少的句法成分没有出 现的省略。 综上,可见大家虽然都在讲省略,但相去甚远。不过,学者们在近二十年对省 略研究运用的方法上有一个共识:都自觉地运用三个平面理论来研究语言中地省 略现象。 1 4 本文的工作 针对目| j 计算机辅助设计技术在产品设计阶段对用户需求分析和概念设计提 供的支撑较少,本文从自然语言理解的语义分析层面对省略句恢复进行了研究, 并对其在产品设计中的应用做了初步的探讨。通过对以自然语言形式表达的用户 需求进行理解和分析,并将分析结果转化成概念设计要求,然后根据用户的需求 选择机械传动机构,为后续设计提供支持。 本文完成的主要工作如下: 6 本文查阅了大量资料,根据现阶段产品设计领域智能化水平低的情况,提出了 在产品设计领域内用自然语言理解来提高智能化水平研究方向。 详细介绍省略的理论知识:定义、分类、判定标准、恢复添补的原则,以及省 略旬的语义分析。 详细介绍了自然语言理解中几种常用的知识表示方法。根据汉语省略句的特 点,选择概念模型作为省略句的表示方法理论。然后介绍基于概念模型语义和 省略恢复模型的表示体系。 详细介绍了省略恢复模型的实现过程,对其中利用搭配关系、概念的内涵外延 关系,实现缺省语义成分找回的分析过程做了详细讨论。对目前涉及的语篇 中的省略也进行初步探讨。 结合机械设计领域,建立了一个基于n l u 系统的计算机辅助机械产品需求分析 系统原型,并实现了将省略句理解的知识与产品设计相结合,使产品设计更趋 于智能化。并举例说明省略句理解怎样应用到产品设计的过程中。 自然语言理解是一个十分庞大的系统工程,但是在领域的范围内,我们就能 够在某种程度上实现自然语言理解。例如在机械设计领域,我们可以对自然语言 理解进行研究。相信这一工作对自然语言理解在各个领域中的应用都是有益的。 第二章省略句研究的理论基础7 第二章省略句研究的理论基础 2 1 1 什么是省略 2 1 省略及其分类 对于什么是省略,语法学界的看法很不一致,至今尚无一个为大家公认的界 定。省略是一种言语行为,是使用语言的结果。省略句即话语成分或语义成分有所 省略的话语句子。吕叔湘先生在汉语语法分析问题一书中提出关于省略的两 个条件- “第一,如果一句话离开上下文或者说话的环境意思就不清楚,必须添补一 定的词语意思才清楚;第二,经过添补的话是实际上以可有的,并且添补的词语只 有一种可能1 。” 2 1 2 省略的类型 我们在绪论中讲过,大家对于研究省略都达成了一个共识,就是用三个平面 的理论来研究。这里所讨论的省略的类型是针对句法平面来讲的,至于词汇平面 的缩略语“。等形式的省略在本文中暂不涉及。我们先按句法位置的异同,对省略 做出分类: 1 句法位置相同 ( 1 ) 主语承前省略 这类省略在汉语中是极为普遍的一种,予句1 中先出现名词或代词,在后面的 子句中承前省略,阅读者据句法位置可以简单恢复。这类省略可以跨越多个子旬, 一般可以延续到段落结束。如果跨越段落、或出现其他主语位置n p ,倾向于终止 目前进行的省略。 他走到石家大门,( ) 站住了,( ) 抬了头望院子里的石榴。 ( 2 ) 主语修饰语的省略 小明的脸色不再苍白,( ) 牙齿不再上火,( ) 身体不再浮肿,( ) 眼看就要康复 出院了。 ( 3 ) 主语蒙后省 蒙后省以蒙后省主语居多,蒙后省略主语修饰语、宾语、宾语修饰语等极为 罕见。 ( ) 工作了一年,我才挣了两千块。 ( 4 ) 宾语的省略 | j i 村有小汽车了,咱村也有( ) 了。 与主语省略相同的是,连续行为中,只要不出现新的“宾语”,不改变句子的 结构( 即宾语始终为宾语) ,那么,该n p 可以适当延续,不影响后句的宾语省略。 ( 5 ) 谓语的省略 同志们劝他休息,他不( ) 。 2 句法位置不同 所谓句法位置不同,是指子句i 省略的成分相对于子旬2 ,其句法功能发生了 切换。比如在子句i 中是定语,到子句2 中省略时却以主语或其他句法成分出现, 而且这种省略在汉语中居然出乎意料地占相当高的比例( 统计显示为2 0 ) 。 ( i ) 顶真式省略 所谓顶针省略,即为子句中处于末位的n p ,在后一个子句首出现并省去。处于 宾位的n p ,成了下一子句的主语n p ( 省略) ,籍此扩展话题。语料分析发现,汉语 叙事语篇中顶针式省略占有相当的比例( 占百分之十几) 。顶真式可分为两个小子 类: a 单句项针 王老汉五十岁那年才添了儿子,( ) 现在都上小学了。 b 多句顶针 法院是不怕争吵的。她找到庭长,( ) 也是个女的,( ) 对她说:“你不服就上 诉吧! ” ( 2 ) 隔句省 你让他自己说,他会帮着我们说话;( ) 要是当面和他说破,( ) 反而不敢帮我们。 ( 3 ) 兼语的省略 子句l 兼语n p 转换到子句2 变成主语n p 并省略,成为该子旬的叙述主题,内容承 接上面的句子。例如: 领导派他去支边,( ) 到很远的山区去。 ( 4 ) 介词宾语转为主语的省略 子句i 中n p 以介词宾语出现,到子句2 转成主语并省略。 小明买一个储蓄罐,( ) 被弟弟贴了一朵小花,( ) 把储蓄罐变成爱心牌的了。 综上所述,从省略成分来说有省略主语、主语修饰语、谓语、宾语等等;从省 略方式来说,又可分为承前省、蒙后省等等,两者结合起来,就有了上述的省略 分类。省略的类型还有很多,但是由于说法不一、所占比例也f t t d , 了,所以这里 就不一一介绍了。上述的常见省略类型所占的比例见下节介绍。 2 i 3 各种省略类型所占比例 我们根据北京语言大学的田然“”对一个封闭语料做过n p 省略的穷尽调查,统计 结果经过处理如下: 第二章省略句研究的理论基础9 表2 1 省略类型所占比例统计 类型语料省略数量比例 主语承前省略2 6 57 3 8 主语修饰语省略51 4 3 2 宾语省略1 43 9 定语转换省略l o2 8 顶真转化省略4 71 3 1 3 介宾转换省略61 7 5 兼语转化省略1 23 j 数据显示,省略以承前省主语最为普遍,占7 3 8 ,宾语省略占3 9 ,符合 顶真式的省略占1 3 ,三者共占语料省略数量的约9 1 ,足见汉语省略的规律性。 谓语或谓语动词的省略比较少见,因为谓语或谓语动词表达的意思是整个句子的 重点,一般不能省略,这种省略主要出现在双方的会话交流中。 2 2 省略的判定 2 2 1 汉语对省略判定的标准 要对省略现象进一步研究,我们就先来讨论一下省略的判定标准,即什么样 的句子才是省略句。关于省略的判定标准,很多学者进行过研究。归纳起来主要 有以下几种观点1 : 表2 2 省略判定标准 判定标准观点不合理之处 事理说一个句子在事理逻辑上“照理”应该句子的省略就会因人而异地随意推 逻辑有的成分而在字面上却没有,这个语句究,几乎无句不省,而且省去的成分有 标准就不完整。就有所省略时比出现的成分还要多,所以难以理 解和把握 有学者立足于句法结构,以所谓“完整 结构式”“标准句”作为判定省略的标准什么样的句子算完整式很难确定 标准因而在正常情况下,若是没有相应的完 整式就不是省略现象 有学者提出,以句子成分是否经常出现在实际操作中,一般人要确认某一成 出现 作为判定省略的标准认为。被省略了分是不是经常出现,是非常困难的;而 频率的东西,必须是在正常的情况下经常出且以多少“经常”,多少为“不经常”, 0 标准 现的,至少是出现和省略的机会差不多也是难于把握的 相等” 有学者提出,采用“添补法”来判定省其一,从理论上说,一句话只有进入一 略认为:“第一,如果一句话离开上下定的语境才有具体意义,一旦脱离具 可添补文或者说话的环境意思就不清楚,必须体的语境,只具有抽象的意义,往往意 标准添补一定的词语意思才清楚;第二,经 思都是不太清楚的因而第一条实际 过添补的话实际上是可以有的,并且添上针对性不强其二,该不该添补? 添 补的词语只有一种可能这样才能说是补什么? 没有明确的依据,有时难免带 省略了这个词语。”上主观色彩,甚至随意性 其实,省略的参照系应该是与该句子深层语义结构相应的句法结构。不应是其 他句子结构( 亦即不是所谓标准句、完整句) ,不能认为这个句子相对于那个句子缺 少某个成分就是省略。也就是说,一个句子省与不省是相对于它应有的与深层语义 结构相应的句法结构而占的。比如,看一个桌子缺不缺腿,是就它本来应该有几条 腿而言的( 而不是相对于其他桌子而言的) 。 严格地说,一定的语义结构应该通过与之相应的完整的句法结构来表现。但在 实际表达时并非如此。在一个具体的交际环境,某个意义的表达,往往可借助于各 方面的因素和手段来共同完成,句子形式只是诸多表达因素和手段的一个组成部 分,并非其全部。 2 2 2 句式意义对省略判定的贡献 过去2 0 年,研究句法与语义关系的学者在“语法语义学”( w i e r z b i c k a1 9 8 8 ) 或 者“句式句法”( g o l d b e r g1 9 9 5 ) 的名义下都提到并且讨论了“句式意义” ( c o n s t r u c t i o n a lm e a n i n g ) 的概念。学者提出的“句式意义”的概念,为我们进行省 略研究开拓出了一条新的思路。语义结构与语法结构虽然不是一回事,但是二者 之间确有着密切的关系。语义是内容,语法是形式。句子成分的语法功能与语义 功能( 语义角色) 之间的相互关系如下表2 3 所示,有关的详细描述参见文献“。 表2 3语法功能与语义功能对照表 语法功能 语义功能 n p l主语施事 v谓语动作 n p 2间接宾语接受者,受益者 n p 3直接宾语受事 第二章省略句研究的理论基础 语义分析的时候进行省略判断,从语义功能对语法功能进行映射。如果缺少施 动对象,我们就认为它缺少主语,需要一个n p 来充当。缺少接受者或者受事对象 也需要n p 来充当。缺少动词即需添补一个v 等等。 2 3 省略的添补原则 根据汉语省略句自身的特点结合计算机处理自然语言的方式,特提出以下两个 原则: 1 唯一性原则 吕叔湘说:“严格意义上的省略应该只用来指可以补出来并且只有一种补法的 词语”( 1 9 8 6 ) ,“填补的词语只有一种可能”( 1 9 7 9 ) 。根据语境,省略的语义成分 是清楚的,但是可添补的词语具有一定的灵活性。因为省略的是语义成分,可补入 的词语和缺省的语义成分并不是一一对应关系。省略的语义成分都可以从话语环 境里“召回”,能“召回”的成分必须具有适配性和单选性旧。在本文主要研究缺 省的语义成分唯一性的情况,即正式体使用的规范省略的情况。 一 2 就近原则 补入缺省的语义成分需要凭借一定的条件,根据计算机处理自然语言时的特 点,在查找凭借条件时,我们采用就近查找的原则。根据缺省的情况,先查找临 近子句,如果查找失败,则需压栈,等待下一步在临近的句子中间查找。 2 4 比字句中的省略现象 比字句中比较点的省略具有一定的普遍性,所以我们把它作为一类特殊的省 略句拿出来研究。比较点是比较的内容、比较的出发点,是构成“比”字句不可 缺少的一个部分。但是许多“比”字句的表层上,比较点是从缺的。从认知的角 度讲,省去的比较点是可以找回的,可以由句子的环境( 包括上下文) 来指明, 也可以由句子本身来暗示。下面我们就来讨论一下比较点的隐含规律及找回规则 。州”1 。比字句结果项为v p 时,规律性不是很强,我们这里主要讨论一下结果项为 a p 时比较点的隐去和激活。 1 单一性质形容词与属性名词 性质形容词一般“单纯表示属性”,即专门修饰属性名词。属性名词( p r o p e r t y n o u n ) 是指表示事物的某些抽象的共征( u n i v e r s a l ) ,比如颜色、形状、味道、性 格等。许多性质形容词与它所表示的属性名词之间存在着一一对应关系,即该性 质形容词只表示某一种属性,而该属性也只能由该性质形容词来表示,如:蓝一颜 色,好看一样子,贵一价格等。因此,当该类形容词充当“比”字句的比较结果 时,作为比较点的属性名词可以从缺而不会引起误解。例如: 这朵花比那朵蓝。 这朵花比那朵好看。 这朵花比那朵花贵。 以上三例句的比较的结果项形容词是找回缺省语义( 比较点) 的唯一凭借成分。 我们可以利用形容词来激活其所依附的属性名词,也就是句中从缺的比较点。以 上三例的比较点分别是:颜色、样子、价格。 2 多义性质形容词与强式属性名词 有时候,一个性质形容词有几个义项,即可以修饰几个属性名词。如:形容词 “大”可以表示“年纪大”、“个子大”、“本领大”等几个义项。但这几个义 项的地位是不同的,其中形容人时“年纪大”是其基本义,我们把基本义所修饰 的名词称作强式属性名词,其它义修饰的名词称作非强式属性名词。当“比”字 句的结果项形容词是由多义性质形容词充当时,由强式属性名词充当的比较点可 以省略,由非强式属性名词充当的比较点不能省略。 我比你年龄大。 我比你本领大。 我比你大。 例的比较点“年龄”是强式属性名词,可以省略为例;而例的比较点“本 领”不是强式属性名词,不能省略为例的形式。 2 5 省略成分的语义分析 自然语占中的省略,实际上就是语言成分的共享。町。这种共享,一方面具有减 少信息的冗余,简化表达的作用;另一方面,可以衔接上下文,使语句之间具有连 贯性。在自然语言中,省略情况普遍存在。但是,在自然语言处理方面,对省略研 究的报道并不多见,国内厦门大学的李绍滋“”等对此有所研究。 由于自然语言处理是一个机械的处理过程,在对语句分析之前,必须事先确定 语句的构成形式,各构建之间的关系以及构件内部特有的规律,并使其形式化。然 而,在处理句子时,如果某一构件( 尤其是关键构件) 出现省略,事先形式化的这 些规律就不再可以套用了。解决这种问题的一种方法是对省略情况也形式化,即添 补缺省的语义成分,将其恢复为一种“正常”的语句。 分析某个具体的句子往往要从句法、语义、语用三个层面入手。其中句法 和语义的关系比较复杂一般认为句法是基础,语义要通过句法结构才能表现,二 者之间的关系是形式和意义之间的关系。正如范晓先生所言“三者之中,句法和 语义可以说是表里关系,或者说是显层和隐层的关系。”并解释到:“句法是核心, 是个纲,语义的分析要围绕句法展开。句法体现并控制着语义,一定的句法结构 表达一定的语义结构,所以它是显层的;从发生学上说,语义是形成或生成句法 第二章省略句研究的理论基础 的基底,一定的语义结构必须通过句法结构才能显现,所以它是隐层的。”但是 语义分析毕竟和句法分析属于不同层面,“如果不根据句法分析的结果,进一步 了解句子中的语义关系,即通过句法平面深入到语义平面对句子进行语义分析, 那还不算完成了分析句子的任务。要了解一个句子的意思,单靠句法分析还不够, 还要弄清句子内部各个词语之问的语义关系。”可见,分析具体的句子只有从表 层的句法层面进一步向深层的语义层面挖掘才能使句子的分析更加透彻。 “省略”在语用上是为了简洁、生动,但其直接的表现形式是句子成分的省略, 如果挖掘到深层结构就是语义成分的从缺。由于本文是从句法层面上定义省略句 的,在句子中缺省的语义成分本文仍然用“( ) ”表示。就语义结构来说,动词 是句子的核心,所以缺省的情况较少,主要表现为名词性( 包括代名词) 语义成分 的缺省。名词跟动词组成语义结构时所担当的语义角色,如施动对象、受动对象、 工具、时间、地点等。本文在研究省略句中与主语、宾语等相对应的施动对象、 受动对象等省略给予分析,以便实现对自然语言省略旬进行全面深入地探讨。 2 6 本章小结 本章首先介绍了什么是省略句,省略句的分类及省略恢复研究的现状。然后 结合句式意义研究,提出了汉语对省略句的判定原则,并针对自然语言的特点, 提出了自然语言理解领域省略句的判定原则、添补原则。由于在领域内涉及到的 比字句很典型,所以把比字句作为一类特殊的省略现象也给予了研究。最后对省 略句的语义分析也有了一个简单介绍,以便于大家对省略句理解有个初步的了解。 第二章省略句的表示 1 5 第三章省略句的表示 知识表示是人工智能( a i ) 中最重要的问题之一。专家系统需要领域专家知识 以达到专家级的问题求解水平;没有应用环境知识( 领域知识) 及有关听众的知识, 自然语言理解系统不可能恰当地理解它们所处理的句子和词汇。如何表示和管理 知识以便使智能系统最好地利用是知识工程的关键问题。因此,省略句的表示问 题也就成了自然语言理解系统的一个重要组成部分。 3 1 知识与知识表示 知识表示在知识库系统中占有主导地位,在此基础上才能进行相应的推理与 演绎。知识的表示方法决定了计算机怎样有效使用知识,对专家系统的性能起着 至关重要的作用。知识表示是研究用什么形式将有关问题领域中的知识存入计算 机,以便进行处理。在详细介绍知识表示之前,我们先来看看什么是知识。 知识是人们在改造客观世界的实践中积累起来的认识和实验。知识有如下几 个比较代表性的定义哪: 知识是经过消减、塑造、解释、选择和转换的信息 知识是由特定领域的描述、关系和过程组成的 知识= 事实+ 信念+ 启发式 知识表示就是对知识的一种描述,即用一些约定的符号把知识编码成一组计 算机可以接受的数据结构。知识表示要从如下几个方面考虑: ( 1 ) 表示能力, 知识表示能力包括知识表示范围的广泛性,领域知识表示的高效性,非确定 性知识表示的支持程度。 ( 2 ) 可利用性 知识的利用是指使用知识进行推理,以求得问题的解。知识的可利用性包括 对推理的适应性和对高效算法的支持性。知识“表示”的目的是为了知识“利用”, 而“利用”的基础是“表示”。 ( 3 ) 可组织性与可维护性 知识维护是指在保证知识的一致性与完整性的前提下对知识所进行的增加、 删除、修改等操作。 ( 4 ) 可实现性 ( 5 ) 自然性与可理解性 6 3 2 常用的知识表示方法 省略句是知识的一种形式,所有关于知识表示的方法也可以用于省略句信息 的表示。常用的表示方法。”有: 1 产生式表示法 产生式系统最初是由p o s t 于1 9 4 3 年提出的一种计算机制。1 9 6 5 年由s i m o n 和n e w e l l 引入到基于知识的系统中来。目前已是专家系统中使用最广泛的一种表 示方法,一般将这种系统称为基于规则的系统。产生式表示法又称规则表示法。 产生式( 即规划) 采用“i f t h e n ”的形式。前件是能与数据匹配 的任何模型,动作部分说明了前件满足时系统采用的动作。规则的意义是:如果 ( i f ) 前件满足,则( t h e n ) 系统执行动作( 或得出结论) 。 产生式的主要优点是:表达知识方式接近于人的思维,规则间相对独立,易于 为其他人理解;谓词逻辑中的一些词汇和推理规则可以直接为其使用。其主要缺 点是:对层次知识的表达力很弱;推理过程中不能省略事先确定的相继关系,必须 一步步i i i 后匹配,降低了推理效率。 2 框架表示 框架理论是b l i n s k y 于1 9 7 5 年提出的,将知识表示成高度模块化的结构。框 架是把关于一个对象或概念的所有信息和知识都存贮在一起的一种数据结构。其 一般表现形式为: 表3 i 框架表示法的表现形式 框架名名字 槽1 名槽1 的值 槽2 名槽2 的值 约束l约束条件i 约束2约束条件2 框架的层次结构可以表示对象之i 日j 的相互关系,用框架表示知识的系统称为 基于框架的系统。在专家系统中,框架也常常和产生式规则一起共同表示知识。 利用框架表示方法的知识库的特征是一组结构化的框架的集合。框架表示多 用于固定的事件和状况,如吃饭、设计机械、景物分析、书写固定新闻报告、分 析事故、自然语言理解、标准计划等等。 框架表示方法的主要优点是:框架可为实体、属性、关系和默认值等提供显 式的表示。这非常适合于表示常识性知识;容易附加过程信息;框架的层次结构提 第三章省略句的表示 1 7 供了继承特性。主要缺点是:许多实际情况与原型不符,而且对新的情况不易适 应。 3 本体表示法 ( 1 ) o n t o l o g y 的定义捌 o n t o l o g y 最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界 给予了新的定义。然后最初人们对o n t o l o g y 的理解并不完善,这些定义也出在不 断的发展变化中,比较有代表性的定义啪3 表3 2 如下; 表3 2 本体的定义 范畴提出时i 日j 提出人定义 哲客现存在的一个系统的解释和说明,客观现实的一个抽象 学苯赜 1 9 9 1 n e e h e s 等 给出构成相关领域词汇的基本术语和关系,以及利用这些 计 术语和关系构成的规定这些词汇外延的规则的定必二 算1 9 9 3 g r u b e r概念模型的明确的规范说明 机1 9 9 7 b o r s t ”1共享概念模型的形式化规范说明 1 9 9 8 s t u d e r t z , 】 共享概念模型的明确的形式化规范说明 关于最后一个定义的说明体现了o n t o l o g y 的四层含义: 概念模型( e e r p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态 , 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定义 形式化( f o r m a l ) :o n t o l o g y 是计算机可读的。 共享( s h a r e ) :o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,它所针对的是团体而不是个体。 o n t o l o g y 的目标是捕获相关的领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义。 ( 2 ) o n t o l o g y 的建模元语 p e r e z 等人用分类法组织了o n t o l o g y ,归纳出5 个基本的建模元语( m o d e l i n g p r i m i t i v e s ) : 类( c l a s s e s ) 或概念( c o n c e p 招) :指任何事务,如工作描述、功能、行为、策 略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架 ( f r a m e ) 结构,包括概念的名称,与其他概念之间的关系的集合,以及用自 然语言对概念的描述。 关系( r e l a t i o n s ) :在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积 1 8 的子集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论