




已阅读5页,还剩52页未读, 继续免费阅读
(测试计量技术及仪器专业论文)面向篇章的时间序列和建模及其在产品设计中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文首先着重阐述了自然语言理解系统中特定领域内的时间序列,然后探讨 了时间序列的语义理解在电子产品设计中的应用。通过对用户需求中以自然语言 形式表达的时间信息和时间序列进行分析和理解,将最终结果转化成概念设计要 求或设计参数。主要包括以下工作: 首先,分析现有的知识表示方法,选择本体论和概念从属理论作为主要的基 于知识的方法。其次,讨论了自然语言理解中的时间信息和时间序列。通过分析 表示时间的名词、副词、介词等来考虑时间信息;对于时间序列,介绍了表示时 间序列的方位词,比较词和副词等;领域篇章中生成时i 日j 序列是最终的目的所在, 分为有明确时间词和没有明确时间词情况下时间序列的生成。然后,在知识的基 础上进行领域时间信息和时问序列理解的语义建模;从篇章的角度分析时间序列, 对有明确时间词和无明确时问词时进行分析。最后,将领域中自然语言理解对时 间序列的处理应用到电子产品需求分析领域的用户需求分析中,建立了相应的知 识库,编写了部分事件的语义处理规则,运行情况良好,有望于实现计算机辅助 的用户需求分析。从而能用基于知识的方法对自然语言理解中过程类领域的时间 序列进行处理。 关键词:自然语言理解概念从属理论语义分析时间序列产品设计 a b s t r a c t t h ea p p l i c a t i o no fs e m a n t i ca n a l y s i so fn l u t op r o d u c t sd e s i g ni si n t r o d u c e da n d t i m es e q u e n c eu n d e r s t a n d i n gi ns p e c i a ld o m a i ni nn l us y s t e mi se m p h a s i z e d l nt n l s p a p e r t h et i m es e q u e n c ea n dt i m ei n f o r m a t i o nu n d e r s t a n d i n ge x p r e s s e d i nn a t u r a l l a n g u a g ei sa n a l y z e da n dt r a n s f o r m e di n t ot h er e q u i r e m e n t so fc o n c e p t u a ld e s l g n ,b y w h i c ht h es e q u e n td e s i g ni ss u p p o r t e d f i r s t l y , t h eo n t o l o g yt h e o r ya n dc o n c e p t u a ld e p e n d e n c yt h e o r y a r ec h o s e nt ot h e m e t h o db a s e d o nk n o w l e d g e ,b ya n a l y s i n gc u r r e n tk n o w l e d g er e p r e s e n t a t m nm e t h o d s s e c o n d l v t i m es e q u e n c ea n dt i m ei n f o r m a t i o ni nn l u a l ed i s c u s s e d t oa n a l y s et i m e i n f o n n a t i o nf r o mn o u n s ,v e r b sa n dp r e p o s i t i o n s ;a b o u tt i m es e q u e n c e ,i n t r o d u c er e l a t e d d i r e c t i o nw o r d s ,c o m p a r e dw o r d sa n da d v e r b s t i m es e q u e n c ei nd o m a i nd i s c o u r s e 1 s t h ep u r p o s e ,w h i c hg e n e r a t e st i m es e q u e n c ea tt w os i t u a t i o n so f d e f i n i t et i m ew o r d sa n d i n d e f i n i t et i m ew o r d s t h i r d l v i ti sd o n et h a tt h ee s t a b l i s h m e n to fs e m a n t i cm o d e lo nt h eb a s i so ft i m e i n f - o n n a t i o na n dt i m es e q u e n c eu n d e r s t a n d i n gi nn l u a n dk n o w l e d g eb a s e a n a l y s i n g t i m es e q u e n c ea tt h ev i e wo fd i s c o u r s e ,i n c l u d i n gc o n t a i nd e f i n i t et i m ew o r d sa n d i n d e f i n i t et i m ew o r d s a tl a s t ,t h ea p p l i c a t i o no ft i m es e q u e n c eu n d e r s t a n d i n g i nn l ut o t h er e q u i r e m e n ta n a l y s i so fa r c h e t y p ei ne l e c t r o n i cp r o d u c t sd e s i g ni sa c h i e v e d b e i n g p r o g r a m m e da n dd e b u g g e d t h es y s t e mi si no p e r a t i o n s oc a n d e a lw i t ht i m es e q u e n c e i np r o c e s sd o m a i ni n n a t u r a ll a n g u a g eu n d e r s t a n d i n gb yu s i n gk n o w l e d g e - b a s e d m e t h o d k e y w o r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n g c o n c e p t u a ld e p e n d e n c yt h e o r y s e m a n t i ca n a l y s i s t i m es e q u e n c e p r o d u c td e s i g n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:丝丛二 同期型坐! z 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:盈丛二 导师签名:遨吏 日期缨越! z 日期垫丛啤 第一章绪论 第一章绪论 1 1 引言 第一次工业革命使人类从繁重的体力劳动中解放出来,计算机的出现使人类 的生活发生了翻天覆地的变化,它们正在从本质上改变人类的生活方式。计算机 的产生给人类带来了方便和实惠,也给计算机工作者带来了带来了更大的挑战和 机遇。 由于科技的发展,计算机技术的普及,计算机辅助分析技术在工程技术领域 的应用越来越广泛,为传统的电子电路系统分析与设计提供了新的手段。在这个 发展过程中,产品也变的越来越复杂,设计作为现代工业生产的关键性环节,在 产品的整个生命周期中占有极其重要的位置,它从根本上决定着产品的质量及成 本。设计阶段决定着产品成本的7 0 ;而运用产品制造的工程阶段只决定着2 0 的 产品成本;生产管理阶段只影响成本的1 0 e 。由此可见,设计是决定产品命运的 最重要环节。现代产品设计的特征标志包括并行设计、协同设计、优化设计、快 速响应设计与制造以及绿色设计等【2 】【3 1 。这些设计围绕着质量、时间、成本和环境 展丌,即要求以最短的时间、最低的成本设计出质量最好、环境负荷最小的产品。 自然语言理解,又可以称为自然语言处理或计算语言学,是一个非常有魅力 的研究领域。语言现象看似简单,实际上却反映了人类智慧中最复杂也最本质的 特点。自然语言理解的研究不仅仅是一种方法和工具,而且对我们了解人类语言 的奥秘、开启人类的智慧之门有着重要影响。 我国学者在自然语言理解研究中也取得了一定成就,如东北大学的姚天顺教 授提出的文本信息过滤机制【4 】【5 】【6 1 、哈尔滨工业大学的王开铸教授对文本层次结 构的划分【7 】【8 1 、北京邮电大学的钟义信教授实现的自动文摘系统【9 】【1 0 】【1 1 1 、上海交 通大学的王永成教授进行的信息浓缩研究等等。 计算机对自然语言处理既有明显的实际意义,同时也有重要的理论意义:人 们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习 各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。 在前人的研究中,已经初步将自然语言理解应用于产品设计中,但这个课题 相当庞大,不是几个人可以研究成功的。通过对自然语言( 汉语) 的形式的研究 以及对人工智能的深入认识,本课题被分解为诸多分支模块。本文主要针对自然 语言( 汉语) 的时间信息和时间序列的语法和语义的研究。通过对时间信息和时 间序列的研究达到理顺句子问的时间关系,便于整体理解语言的目的,并通过对 以自然语言形式表达的用户需求进行有效理解和分析,将分析结果转化成概念设 面向篇章的时间序列和建模及其住产品设计中的应j l j 计要求,为后续设计提供支持。 1 2 自然语言理解概述 自然语言理解是研究计算机如何理解人类语言的学问【i2 1 。大约在计算机问世 的初期,人们就想如果计算机能够理解人类的语言,懂得人们写的是什么,那么, 在我们使用计算机时,只要告诉它要做什么,它就按理解的去做,那就太好了。 到t 2 1 世纪的今天,随着计算机功能、容量和速度都有几个数量级的提高,自然 语言作为一种人与机器沟通的最自然的方式,使得对自然语言的计算机理解格外 重要,人们的这个梦想f 在逐渐变为现实。 1 2 1 自然语言理解的定义 自然语言是人类进行交流的系统符号,它不仅可以表示具体的事务,也可以 表示抽象的概念等。简言之,就是人类同常使用的语言,汉语、英语等都属于自 然语言。 自然语言理解是让计算机能证确处理人类语言,并作出相应的判断。它是一 个涉及了语言学、计算机科学、逻辑学、心理学、人工智能等领域知识的跨学科 研究领域,是一门交叉综合学科,也是一个十分活跃和富有挑战性的研究课题。由 于“语言是思想的直接实现”,社会的一切进步乃至生存都离不丌语言( 文字或非文 字形式) ,这使得语言学几乎与所有的学科都存在着密切的联系,增加了语言研究 的难度。因此,自然语言理解的研究不但要运用语言学中的词汇、语法、句法、 语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其相关学科的 知识。 由于科技的发展有限,现在计算机的智能还远远没有达到人类的水平,而且 在短时间内也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从 实用的角度进行评判的。迄今为止,对语言理解尚无统一的和权威的定义。按照 考察问题的角度不同而有不同的解释。从微观上讲,语言理解是指从自然语言到 计算机系统内部之间的一种映射;从宏观上讲,语言理解是指机器能够执行人类 所期望的某些语言功能,这些功能包括:( 1 ) 回答有关提问;( 2 ) 提取材料摘要; ( 3 ) 不同词语叙述;( 4 ) 不同语言翻译。实现这些功能则认为计算机具备了理解 自然语言的能力l l 引。 第一章绪论 1 2 2 自然语言理解的发展 自然语言理解是研究计算机如何理解人类语言的学问。可以说,从计算机产 生的那一刻起,人们就丌始考虑让计算机理解自然语言。具体说来,自然语言处 理起始于机器翻译:差不多在计算机发明的同一年( 1 9 4 6 ) ,人们对如何让计算机 理解自然语言的研究就丌始了,英国的b o o t h 和w e a v e r 就开始了机器翻译的研究 【l2 1 。只是第一代翻译系统以词汇转换为主,很少进行句法研究,还不能称作“理 解”,它只是“用另外一种奇怪的符号编了码而已”。 到了6 0 年代,c h o m s k y 的转换生成语法【1 3 】【1 4 】【1 5 】在语言学界引起了一场革命, 同时也使得程序设计语言得到了较大的发展。特别是转换生成语法的出现,使得 语言学引进定量的概念,成为自然科学的交叉性学科,推动了自然语言理解的进 一步发展。 实践证明,生成语法缺少表示语义知识的手段,不利于自然语言的理解,在 7 0 年代随着认知科学的兴盛,学者们纷纷从语义的角度出发,提出语义理论,在 自然语言理解中大量引进语义、语境及语用的分析技术。2 0 世纪6 0 年代术期, m r q u i l l i a n 提出了语义网络理论i l6 1 ,用于描述概念之间的关系;c j f i l l m o r e 提 出了格语法【1 7 】,用语义格和深层格框描述句义;1 9 7 3 年,r o g e rs c h a n k 提出了概 念依存理论【1 8 】,描述句义和言语义:1 9 7 5 年,m a r v i nm i n s k y 提出了框架理谢1 2 1 , 用于描述事物或概念状态。这些理论经过各自的发展,逐渐丌始趋于相互结合。 随后的8 0 、9 0 年代,自然语言理解转向实际应用,开始走出实验室和纯理论 的探讨阶段。大约从1 9 8 3 年开始,国外自然语言软件进入了商品市场,标志着自 然语言理解的研究进入了一个新的阶段。美国斯坦福大学的b a r w i s t 和p e r r y 提出 了情景语义学,构造了一种新的自然语言模型理论;t w i n o g r a d 1 9 】的实验,证明了 自然语言理解不仅与它内部规律有关,而且要考虑语义因素和周围的语境。 2 0 世纪末国际互联网语言工程产品作为一种新的产业在这个世界上开始崛 起。但总的来说,知识表示和知识处理问题在2 0 世纪之前都没有在根本上有所突 破。2 l 世纪将是世晃自然语言理解学界大展宏图,解决问题的全新时代。 1 2 3 国内自然语言理解发展现状 语言不仅是一个复杂的社会现象,同时也是一个复杂的自然现象。人们普遍承 认,语言是人类进化到一定阶段的产物,并伴随着人类社会的发展同益丰富和复 杂。 由于客观条件,国内的自然语言理解主要以汉语为研究对象,利用计算机对 4 面向篇章的时间序列和建模及其在产品设计中的戍用 汉语进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。汉语虽 然是古老的文字,但现在汉语也不过一二百年的时问。由于汉语属于意合语,与 英语、法语等印欧语系的语种不同,西方的各种语法、语义理论无法直接套用在 汉语上,这使得汉语自然语言理解研究工作困难重重。 早在1 9 5 6 年国内就丌始了俄汉机译研究,并于1 9 5 9 年获得成功。但当时的技 术主要是词对词翻译和模式匹配,缺乏句法和语义分析,几乎谈不上理解。六、 七十年代的有关研究由于历史原因而完全停顿,实际上从1 9 7 8 年我国才丌始真正 意义上的汉语理解研究。归纳而言,国内的自然语言理解研究经历了以语形分析 为主基于语法规则的早期阶段、注重语义分析基于语义规则的中期阶段、基于语 料库统计方法的近期阶段和基于统计与规则并举的现阶段等几个阶段。在机器翻 译、语料库研究、汉语电子语- h 词典等方面取得了显著成果,如清华大学黄昌宁 等人的汉语句法分析模型、中科院黄曾阳先生概念层次网络理论h n c 2 0 】、董振东等 人的h o wn e t 2 1 】、俞士汶等人的现代汉语语法信息词典等【2 2 】。 目前自然语言理解在我国得到了相当的重视,成立了中国中文信息学会,国 家8 6 3 计划把自然语言理解列入了重点发展项目。1 9 9 9 年的9 7 3 规划,“自然语言 理解与知识发掘”也列入了研究项目。很多成果丌始问世,特别在汉语理解和分 析方面,在国际上处于领先地位。一批科技成果、一些市场产品和一支自然语言 理解的研究队伍,已在国内初步形成。 1 3 自然语言理解对时间序列的研究现状 本文研究的是自然语言罩的时间序列,它以时| 白j 信息为基础,将它们按一定 的规律以序列的形式排列起来。任何客观事物都处于一定的时间过程之中,自然 语言描述客观事物的一项基本属性就是时间信息,可以蜕反映客观世界的自然语 言必然都存在着对时间信息的表达。由于时间的持续性,每个个体在一定时间内 的活动的时间属性就是一个序列。同时,如果以时间为主线,又可以得到一系列 和时间对应的活动序列。 时间是客观存在的,是各种语言所共有的,它由过去、现在和将来构成连续 不断的系统。由于任何一件事情都是发生在一定的时间和空间之中,汉语篇章又 是对现实世界中特定事件的表达,因此,汉语篇章必定含有时间因素。对于篇章 中的语句,时间因素是句子自足的一个必要条件。人的交流总是依赖于一定的时 间语境,时间是人类共有的普遍概念,具有客观性和可比性。 时间和时闯序列以其多面性和连续性始终吸引着学者们的注意力。时间属于 构成民族和社会文化的基本语义范畴。将时白j 仅仅诠释为物质或形而下的存在形 式远远不够。时间是既可以借助语言予以描写,又可以在语言本身中、在语言的 第一章绪论 词汇和语法体系中予以揭示的范畴。时问的语言方面或者语言中的时间,通常被 人们理解为现实时间在语言中的反映。现代汉语与时间表达有关的词语可依一定 顺序出现在篇章中,以此表明事件或动作的先后次序。 国外对各自语言的时间系统的研究很早就开始,特别是欧洲,它们的哲学和 语言学对各自语言时间系统的研究都具有很长的历史。亚里士多德首先注意到动 词的时间特性,康德、尼采等著名哲学家都有对这个世界中时间的看法, r e i c h e n b a c h 提出的时制分类体裂2 3 】更是对时白j 信息的研究具有里程碑的意义。虽 然国外对时间信息的处理的研究比国内更早、更深入,但由于印欧语系的特点, 其大致都在时间信息的获取和时问信息表达两个方面:h i r s c h m a n 等利用自然语言 处理系统p u n d i t 中建立了时制和时体计算模型【2 4 】。o h r s t r o m 和p e t e r 等提出了 一种英语中的内在时态的逻辑【2 5 1 。w e b b e r 把篇章中的时间引用现象视为一种时间 上的指称( a n a p h o r a ) 2 6 l ,通过分析时间指称建立事件之i 日j 的时序关系。 与英语等欧洲语言相比,汉语形态变化较少,因此汉语的时间信息分析更加 困难一些,但是在国内学者的不断努力下,还是取得了可喜的成绩。郭宏蕾等提 出了一种多层次时间语义表达结构和一种通用时间语义计算方法来刻画文本中各 事件的时间相关性【27 1 ,他们对汉语时间表示法也进行了分析。尹宝生等提出了一 种汉语时问识别方法在提醒任务系统中的应用【2 引。麻志毅等基于情景理论并结合 汉语文本中的时态词进行了时间分析,提出了一个文本理解模型及相关时态逻辑, 分析了汉语文本中事物发展变化的时f j l l l 页序【2 9 1 。马红妹等也提出了一种对汉语篇 章时间短语的分析与时制验算的方法【3 0 1 。 我们根据哲学、汉语学对自然语言时间信息的讨论,并在自然语言篇章分析 的基础上,试着提出一种基于领域、基于知识理解时间序列的方法。 1 4 本文的工作 本文阐述了自然语言理解系统在电子产品需求分析领域中的时间序列分析方 法。在知识库建立的基础上应用了时间信息的分析方法,从而得到时间序列。 完成的主要工作如下: 1 了解国内外自然语言理解的动态,分析了汉语自然语言理解的特点和难 点。结合设计领域自然语言理解的特点,确定以基于知识的方法为研究应 用的总体方向,分析了现有基础上提出时间序列的现状和难点。 2 介绍了自然语言理解的各种知识表示方法及其优缺点,在此基础上形成了 以资源模型为核心、以框架式结构为基础、以概念从属树和产生式规则为 表现,体现概念问关联的知识表示的方法,并将其应用于时间序列系统的 构建。 6 面向篇章的时间序列和建模及其在产品设计中的应用 3 对时间序列进行研究和分析。首先得出时间信息的表示方法,再分析和时 间序列相关的因素,最后从领域篇章的角度分析时i 、日j 序列。 4 设计了“时间序列模型”,通过搜集大量问题,深入的分析并总结了设计 领域内的语言结构特点,详细论述了“时间序列模型的建立过程,并对 知识模型进行应用。 5 描述了在电子产品需求分析领域中应用的实例。 人工智能是计算机科学一个重要的课题,自然语言理解一直是人工智能学科 内一个充满挑战的研究学科。随着计算机技术和人工智能技术的发展,自然语言 理解会不断进步。 第二章领域臼然语言理解的知识表示 第二章领域自然语言理解的知识表示 知识是人类在改造现实世界的实践中认识和经验的总和,是对客观存在的现 象及其规律性的感性或理性认识,是人工智能的核心。计算机本身并没有智能, 由于自然语言的社会性,要使计算机拥有人工智能,必须有相关的知识。只有当 计算机的快速运算能力以知识作为基础,才能处理自然语言。 语法和语义分析是知识表示中两个方面,实践证明,语义分析比语法分析更 有利于自然语言理解。语义是关于语言符号与其指称关系的一种知识。所谓语义 分析方法,实际上是通过不同的形式化语义表示对语言中的语义关系加以描述并 做出分析的方法。 本章主要介绍自然语言理解中常用的几种语义知识表示方法,如概念从属理 论、本体论、谓词逻辑、语义网络、格语法等,并比较它们的优缺点。 2 1 概念从属理论 概念从属理论【1 2 1 1 3 1 3 是在6 0 年代末、7 0 年代初发展起来的,由s c h a n k 提出的。 人们在认识客观事物过程中,存在着某种概念基( c o n c e p t u a lb a s e ) ,概念从属理论 认为,语言理解过程就是把语句到概念基的映射,任何一种语言。中的单词是离不 开该种语言的,但概念是独立于语言的。 该理论有两个基本观点:一是s c h a n k 认为,人在理解自然语言时依赖的是潜 在的概念表述,而不是具体的词或句子。人们总是用以前遇到的更简单、更基本 的事来理解现在所遇到的事情。因此当计算机理解自然语言时,要模拟人理解自 然语言的心理过程。二是建立概念从属理论( c d 理论) 的公理,即具有相同意义 的两个句子,不管它们的词语是否相同,或词语排列次序是否相同。它们都有相 同的内部表示,深层结构是一致的。一个句子的主动态形式和被动态形式虽然表 达上不同,但意义上是相同的。 概念从属理论是从语句的本质上来分析句子,如果它们的意思相同,那么肯 定有相同内部概念表示。s c h a n k 提出的概念模型,本质上是语句的深层表示,是 基于概念而非文法的。由于语言的描述是基于概念和概念图的,因而在主观上应 该是独立于语种的,句子被认为反映概念和概念间的相互联系,并形成了一种概 念的结构。一个句子所包含的独立于语言的东西,不是句子的语法结构,也不是 语义结构,而是它的概念结构。两个句子只要含义相同,就有相同的概念结构, 相同的依从关系。 概念问的从属关系也是一种深层知识,随着深层知识表示形式的引入,丰富 了知识库的结构和知识的表示形式,并且也大大减小了知识库的规模,浅层知识 面向篇章的时间序列和建模及其在产品设计中的府川 和深层知识相结合,使系统的推理显得更加方便和容易。概念从属理论可以将概 念分为不同的类型,同一类型的概念可从其抽象概念那里继承该类型概念的共有 属性。即具体概念的只需列出属于自己特有的属性,而不必列出它所从属的抽象 概念的属性。 我们根据该理论建立概念从属树,父节点下面可能有子节点。父节点有自己 的属性,子节点除了继承父节点的属性,还可以有其他的属性。概念从属树上一 个概念的属性等于它自己特有的属性加上它的所以父结点属性的总和。 在基于知识的自然语言理解系统中采用概念从属理论作为语义分析方法,具 有很多优点: 1 便于知识推理。 2 可以把问题抽象成模型加以处理并可以表达概念i 旬的深层知识。 2 2 本体论 本体通过对于概念、术语及其相互关系的明确的规范化描述,勾画出某一领 域的基本知识体系和描述语言。 本体原本是一个哲学上的概念,称为本体论、实体论或存在论,是对自然存 在及其本质的研究,其反映的是事物本质的、科学的内涵。人工智能等学科将本 体的概念从哲学领域中借用过来,并赋予了一些新的含义【3 2 1 。美国s t a n f o r d 大学 的知识系统实验室的学者t o mg r u b e r ( 1 9 9 3 年) 给出了本体一个较为广泛接受的4 个定义,即“本体是概念模型的明确的规范说明”。后来,b o r s t 在此基础上定义“本 体是共享概念模型的形式化规范说明”。1 9 9 8 年,s t u d e r 等把本体定义为“共享 概念模型的明确的形式化规范说明 ,这个定义说明了本体的四层含义:概念化 ( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。其 由1 2 3 1 概念化:抽象客观世界的相关概念,使之模型化。 2 明确:明确定义所使用的概念以及它们之间的约束关系。 3 形式化:指本体是能被计算机处理的,而不是完全用自然语言表达的。 4 共享:指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 即此概念集是为整体所共有的,而非个体所独有。 根据汉语时间序列的特点,文中的本体属于普通常识类型,目的是获取有关 时间信息和时间序列的常识知识,建立关于时间序列的基本概念及概念之间关系, 使该概念模型可应用于多个领域。 第一二章领域白然语言理解的知识表示 9 2 3 谓词逻辑 逻辑是一门严密的科学,它具有严格的形式化和坚实的数学理论基础。在自 然语言理解中,逻辑最早采用的知识表示方法,经常用于表示知识的逻辑语言有 命题逻辑和一阶谓词逻辑。为了克服上述逻辑语言表示能力有限的问题,近年来, 在所谓的非经典逻辑研究方面取得了重要进展,如模念逻辑、时序逻辑和非单调 逻辑等。 它的优点在于: 1 简易自然,易于实现。 2 比较灵活、精确地表达自然语言的意义。 3 适用于事实的推理,句子意义的推导以及获取隐含的意义关系。 谓词逻辑中存在基本的元素,包括:谓词、函数、变量、常量、量词和联词 等。再使用谓词逻辑句法规则,可以用它们组成有效的语义结构。如果采用相应 的推理规则,对这些结构进行比较、组合和转换操作,可以从已知的结构推导出 新的结构。 语义是根据真值表,通过“解释”得到演算,被赋以逻辑式。用谓词逻辑表 示的句子语义只有两个互补的值,常用御尔代数( 真或假) 来区分。谓词逻辑的 语义是基于领域d 的。d 是用于常量和函数定义的所有元素或对象的集合。 有了句法、真值表和领域,即可对逻辑式的语义进行演算,判断其真假。此 外,还可以对不同句子的某些语义关系做出判断。 一阶谓词逻辑表示法的不足是: 1 不能表示不确定的知识和复杂知识。 2 在其推理过程中,随着事实数目的增大及盲目地使用推理规则,有可能形成组 合爆炸。 3 谓词逻辑表示知识时,其推理时根据形式逻辑进行的,把推理与知识的语义割 裂开来,这就使得推理过程冗长,降低了系统的效斟2 6 1 。 2 4 语义网络 语义网络是对对象及其属性分类和知识编码的图形结构,最初是由美国心理 学家亏廉( r f q u l l i a n ) 提出的一种表达人类记忆和理解语言的方法。早在2 0 世 纪6 0 年代末,自然语言的许多自动语义分析系统就比较热衷于语义机构的图形表 示,这种图形表示称为语义网络。 在语义网络里,结点表现为自然语言的词和短语的概念。一个结点与其他结 l o面向篇章的时间序列和建模及其在产品设计中的虑川 点连接的弧称为语义关系。这早的概念并不是单词本身,而是该词或短语的本质 词义;语义关系是句子中的动词和它们的主语、宾语和介词短语等等之j 日j 的关系, 再加上词的类别、语态和修饰关系等。 一个语义网络是由一些以有向图表示的三元组:结点l 、弧和结点2 连接而成, 其中结点表示概念,弧表示方向,指明所连接的语义关系。每个结点可以带有若 干属性,可以用语义标记或语义框架来表示,语义网络表示法能表示事物间的属 性继承、补充、变异和细化等关系。 例如,“人”具有“能吃饭、能睡觉的属性特征,“小学生”除了具有这些 特征外,还具有“未满十八岁、生活不能独立”等特殊的属性特征,所以“人 中的特征“能吃饭、能睡觉”就不用描述出来,可节省存储空问。语义网络各个 概念之间的关系主要由i s a 、p a r t - o f 、c o m p o s e d o f 、h a v e 、b e f o r e 、 l o c a t i e d o n 等谓词来表示。事件由若干个概念组合表达,可以有施事、受事时 间等。事物间的语义关系常见的有分类关系、聚焦关系、推论关系、时l 日j 、位置 关系。 语义网络的优点有1 : 1 、能把实体的结构、属性与实体问的因果关系显式地和简明地表达出来,与实体 相关的事实、特征和关系可以通过相应的结点弧线推导出来。 2 、由于与概念相关的属性和联系被组织在一个相应的结点中,因而使概念易于受 访和学习。 3 、表现问题更加直观,更易于理解,适于知识工程师与领域专家沟通。语义网络 中的继承方式也符合人类的思维习惯。 然而语义网络也有其不可避免的缺点: 1 语义网络结构的语义解释依赖于该结构的推理过程而没有结构的约定,因而得 到的推理不能保证十分正确。 2 结点间的联系可能是线状、树状或网状的,甚至是递归状的结构,使相应的知 识存储和检索可能需要比较复杂的过程。 3 结构庞大、复杂,系统开销大。 2 5 格语法 格语法( c a s eg r a m m a r ) 是美国语言学家菲尔摩在6 0 代中期提出来的着重探 讨句法结构与语义之间关系的一种语法理论和语义学理论。格语法是建立在“以 动词为中心,的基础上( 其前提是承认每个句子必定包含动词) 的m 1 ,基本观点 是:任何一个简单句都具有一个深层的意义结构,它显示句子轴心的谓语与周围 体词短语之间的“句法语义关系 ,即“深层结构或“深层格”,属于向心辐状 第二章领域白然语言理解的知识表示 结构。恼1 句法、语义和语用是语言符号和语言分析的三个平面。三个平面各有自己的 研究重点。句法平面着重研究语言符号与语言符号之问的关系;语义平面着重研 究语言符号与所指事物之间的关系;语用平面着重研究语言符号与使用者之间的 关系。格语法主要是研究句子的语义平面,即研究动词于名词之间各种语义关系 的语法。它对句子语义平面的基本看法是:句子s ( s e n t e n c e ) 是情态m ( m o d a l i t y ) 与命题p ( p r o p o s i t i o n ) 的组合,即s = m + p 。情态m 指言谈者的信念、观点、 情绪、态度、立场、语气、意图、观察角度即时问的过去、现在、将来等。命题尸 由一个动词y 及与其相关的多个格c ( c a s e ) 构成,即p = y + c + + c 。 格语法是动词中心论,动词恍如多条交叉线的交点,它所活动的环境是这些 线构成的网。但在这个网上f i l l m o r e 只分析了动词跟名词以及介词短语的关系, 对大量的虚词并没有研究u 伽。简言之,传统的格语法的概念,能处理句子的表层 结构。 功能关系是格语法的基础。格语法试图通过揭示句子中名词与动词的语义关 系及深层的格关系,对语义问题做出f 确地解答。它强调表层结构的特殊性及深 层结构的普遍性。虽然,格语法也存在诸如无法解决汉语的连动和兼语句式、短 语内部各成分间关系无法确定、汉语词汇语义分类标准不确定等缺点,但是在自然 语言语义理解中也是一种重要的思路。”。 2 6 本章小结 本章详细重点介绍了概念从属理论和本体论这两个重要的理论等自然语言理 解中几种常用的知识表示方法,列举了这些知识表示方法的优缺点,这些常用的 方法为自然语言理解知识库的建立提供了有力的帮助,为后续的工作奠定了基础。 第二章时间序列研究与分析 第三章时间序列研究与分析 上面讨论了自然语言理解中知识的表示方法,下面主要分析时间序列。f 确 理解时间序列必须以时间信息语义理解为基础,然后再分析序列的具体形式,以 及在领域篇章范围内时间序列的表示方法。时间信息语义理解是后面分析的基础, 时间序列是本文要论述的重点。 由于汉语是一种不主要由动词的变化体现时i 、日j 信息的语言,其时间的表达形 式和相互之间的关系具有很高的不规范性,导致了自然语言理解中时问信息分析 的复杂性,其涉及面和处理的范围也极其广泛。因此篇章中时间序列的分析也有 很多情况,这里主要分析篇章中有明确的时间词和无明确的时间词这两种情况。 3 1 时间信息的分析 在系统经常分析的过程领域中,时间信息对整个过程的关联,对整个事件中 各个动作的顺序和状态更是起的至关重要的作用。本小节分析时间信息在语义、 语法等各方面的因素,把关注重点放在了更细的概念层次上。 在所有的各类时间信息中,毫无疑问时间名词所能传递的时间信息是最为丰 富的,也是表示时问信息最直接的一类词,对它的理解在所有时间信息中也是最 为重要的;时间副词,时间介词对于理解句中的时间信息也起着很大的作用【3 引。 3 1 1 时间名词 汉语和英语相比,汉语是一种缺乏形态变化的语言【坦】,时间信息的确定大部 分都依赖于各类词汇或静态知识,这增加了时间信息的处理难度,同时可以看出 各种时间词汇语义理解的重要性。 时间名词表示时间信息方式不相同,主要分为3 大类:精确时间名词、相对时 间名词和事件类时间名词。精确时间名词是直接表示的并且静态知识可以识别的 时间名词:相对时间名词是引用精确时间或当前时间表示的时间名词;事件类时 间名词是引用某事件及其时间表示的时间名词。 1 精确时间名词 精确时间名词是一种直接表示的时点,一般情况下它的时间性是很明确的, 在时间轴上有确定的取值,表达相对精确。 2 相对时间名词 相对时间名词表达的是时间轴上由于时间偏移而形成的时间信息,通常具有 基准时间和偏移时间两个组成部分。其中基准时间表示的是该时间引用的时间点; 1 4面向篇章的时间序列和建模及其住产品设计中的席川 而偏移时间分为偏移方向和偏移大小,偏移方向是指偏移时问相对于基准时间的 方向,有三个取值( 正、负、零) ;偏移大小是指具体偏移时间偏移的大小,有具 体取值或无取值两种。 3 事件类时间名词 一个事件可以表达一个完整的语义,我们可以将事件类名词看作动作操作对 象的结果。一部分事件类名词和其它词组合后,使本身不具有时间属性的该事件 类名词具有了能够随时间展丌的概念、属性和内部过程,这就是事件类时间名词。 由于和事件类名词有关,对它的理解必然和动词所体现的动作的理解相关。 事件类时问名词同样具有基准时间和偏移时间两个属性,其中基准时间表示 的是该时间引用的事件名词的时间点;而偏移时l 白j 分为偏移方向和偏移大小两个 属性。事件类时间名词表达某个事件时间偏移而成的时i 日j 信息,并且在表达两个 事件的时间关系上还具有更明确的顺序。 3 1 2 时间副词 时间副词是表示时i 、日j 的副词,是现代汉语副词中数量较多的一个类,几乎占 汉语副词的百分之三十。时1 s j 禹l j 词一般修饰动作,确定动词的发生时间,说明动 词所表示的动作在这一特定的时间中的状态或者在整个句子中的次序;而且任何 一个句子只要插入时问副词,整个句子就能体现时间副词所表示的时间性。 时间副词按照其本身的语义可分为时序和时体时间副词,时序时间副词重在 表“时序”,时体时间副词重在表“时体”。时序时i b j 昌a j 词能使句中的几个时间点 或时间段构成一个时间序列,使得其所表示的时间直接与动词所表示的动作有制 约关系,说明了动词的语义特征与时间的一维性的关系;时体时间副词则具体说 明了句中的动作语义在时体上所经历或所处的状态。 时体时间副词,这些词的出现往往说明了句子的时体,使得本句打上时体标 签,说明了动作的状态。这一部分可以与表示时间的助词综合起来考虑。关于时 序时间副词后面会着重介绍,这里先介绍时体时间副词。时体副词主要有以下几 种: 1 表过去、已然:“曾、曾经、业已、已、已经、预先、早、早早”。语义上表示 某一动作已经进行或出现,时体上表示完成体或经历体。 2 表进行:“正、在、正在 。语义上表示某一动作j 下在进行,或事物正持续处 于某种性质状态,时体上表示进行体。 3 表将来、未然:“将、即将、将次、快、行将、要。”语义上表示某一动作将要 接着上一动作进行或出现,时体上表示起始体或将行体。 4 表最终:“毕竟、终、终究、终归、终竟、终于、总归。”语义上表示某一动作 第三章时间序列研究与分析 最终发生或完成,时体上为经历体。 3 1 3 时间介词 介词是的功用较为复杂,它一般附于名词、代词之前,表示这些词语同句中 其他成分之问的关系。介词的时间性主要体现在所介绍的时问性名词和句子其它 动作的关系,经常作为确立参照时间的标志。时间介词主要有以下两类: 1 介绍时间名词的介词,表达从该时间名词起的时间信息或到该时间名词截止的 时间信息,如“在、自从、自打从到”等。例如,“自从1 9 4 9 年后,中 国人民翻身做主人了。”中介词“自从”介绍了时间名词“1 9 4 9 年后”,赋予 了这句话时间信息。 2 另外,还有一些介词,本身也具有时间的顺序在罩边,如“为了、经过”。例 如,“为了中国队在2 0 0 8 北京奥运会取得好成绩,大家正在抓紧备战。”体现 了两个分句间的的时序性前一句动作在后一句动作之后发生。 在我们的系统中都有专门的模块对介词进行处理,且介词的时间性也主要通 过时间名词的语义来体现,因此在下一章中并没有对它讨论。 3 2 时间序列的分析 上述的时问信息只是离散的分析时间,在篇章范围内,时间信息是按照一定 顺序连接起来,从而形成时间序列。时间序列不仅和时间信息相关,还和方位词, 比较词和副词相关,下面从这三个方面进行论述。 3 2 1 表时间序列的方位词 中国人感知时间像一条河,时间就像流水单向流逝,因此方位词和时间词有 着紧密的联系。例如,方位词“上 和“下 一般分别表示“过去 和“将来 。 时间和空间有一定的相似性,下面着重介绍方向与时向【3 9 】。 方位词中,表示方向的有“前、后、上、下、左、右 ,在实际的应用中,这 些方位词还和“边、面、头、方 等词组成双音节方位词。这些方位词可以分成3 组,即“前后 、“上下 、“左右 。方向系统与时向系统的差异表现在方 向系统是多向的,而时向系统是单向的。由于人类是通过运动来知觉到方位的差 异的,方位认知的价值最终表现为对运动方向的指示功能。人类最自然的运动方 向是前( 后) 向,在3 组方位词中,前后方向方位词最具方向指示价值,因而首 先被提出来隐喻时向系统,能够在缺乏时间词语同现时独立指示时向。 面向篇章的时间序列利建模及其住产品设计中的戍刚 另一组方位词“上下也可以指示时向,但绝大多数情况下不能独立隐喻时 向,而只能与时间词语同现隐喻时向,例如: 上个世纪下个世纪上一年下一年 上个季度下个季度上个月下个月 方位词“上下 隐喻时向,极有可能是从河水的流向取象。 河流有上游、下游之分,这种上、下的对立是跟同一参照下的方位相对应的, 上游相对较高,下游相对较低,水流首先流经较高的上游,然后到达较低的下游, 水势上下的对立与河水流经过程先后的对立平行映现,因此“上”可以表示“时 问在前的”,“下”可以表示“次序或时问在后的”。“上溯”一词十分形象地 揭示了“逆着水流往上游走”这一空间方向指示和“从现在往过去的年代推算” 这一时向指示的相似性。 3 2 2 表时间序列的比较词 表比较的句中有名词的比较和事件的比较,名词比较和一般的表比较的句子 不能说明时问的序列,但是如果这个表比较的句子中有比较词和点动词,此时应 该从罩面挖掘出一个时问点,形成时间序列中一个重要的组成部分。 在补充一个点的时候,应该遵循下面的规律:对于多个对象,如果有一个主 体有点动作,其他的主体还没有这个动作,应该补充没有这个动作的主体在此时 的一个时间点。以行程领域为例,如: a 、b 两地相距5 0 公里,甲骑自行车从a 地前往b 地,出发1 小时3 0 分钟 后,乙骑摩托车从a 出发去b 地,已知乙的速度是甲的速度的2 5 倍,且乙比 甲先到1 小时,求甲,乙的速度各是多少。 由例题中的“且乙比甲先到1 小时”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院聘用护士劳动合同书
- 商标专利合同范文6篇
- 瑞达律师实务课件系列
- 农业种植产业政策体系优化与实施效果评估报告
- 农业碳汇项目碳排放权交易市场政策环境与市场发展研究
- 法院机房工程建设方案(3篇)
- 东莞清溪加固工程方案(3篇)
- 顶岗工程人员考核方案(3篇)
- 电力工程维护方案(3篇)
- 玛咖课件教学课件
- 全麻术后苏醒延迟的预防及护理
- 腋窝入路腔镜甲状腺手术
- 设备维修保养风险评估与规避
- (2024年)传染病培训课件
- 博鳌BNCT硼中子治疗中心 环评报告
- TIMAAMM 003-2023 蒙医病证诊断疗效标准
- 非器质性失眠症的护理查房
- 《新学期“心”动力》心理主题班会
- 《基础写作教程》 课件全套 第1-11章 基础写作概论- 理论文体
- 失能老人健康知识讲座
- 业务外包作业人员培训管理办法
评论
0/150
提交评论