




已阅读5页,还剩52页未读, 继续免费阅读
(机械电子工程专业论文)机械产品设计领域的自然语言理解中群量名词的语义分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 计算机技术的快速发展给我们带来了方便,同时也带来了更多的挑战。在工 程领域,计算机技术已无处不在。怎么样更好的使用计算机,更好的让它为我们 的工作服务成了新的发展方向。在产品设计中也是一样,在过去的产品设计中, 我们大部分依靠的是手工的设计和人为的分析,这样不仅速度慢,也跟不上市场 的变化。针对这种情况,本文针对工程领域经常出现的总体和部分的概念,对群 量名词的概念进行了深入的分析,希望为后续的设计提供更大的支持。 本文根据设计领域自然语言理解的特点和目前计算机辅助设计的研究现状, 选择了基于知识为主的方法。通过对目前现有的几种语义分析方法的比较,建立 了适合领域知识表示的结构概念从属树知识表示体系。并针对领域中部分整 体的关系,采用了本体中的关系分析方法,深入分析了群量名词的概念,并对能 导出群量名词的群体关系进行分类和介绍。同时,针对群量名词的特点,提出了 导致群量名词生成的群量标识词的概念,并对群量标识词进行了分类和阐述。最 后针对由群量标识词中的序数词导出的群量名词做了详细的分析,给出了处理流 程,编出了处理的规则程序。最后将由序数词导出的群体关系处理应用到滚动轴 承需求分析原型系统,并结合系统其余模块的运行,通过系统测试,取得了一定 的成果。 关键词:自然语言理解语义分析群体关系本体论产品设计群量名词 a b s l 糟c a b s t r a c t 弧e 蠡s ld e _ 咒l 叩m e 珏量o fc o m p u t e f c c h l o g y 垂l a sb m 珏曲tc o n v 。n i e 珏t 幻u s ,b h la t t l l es a m et i m e ,“h a sa l s ob m u g h tm o r e 曲a i k n g o s h le n g i n e e r j n gd o m a i n ,c o m p u t e r t e c b 瓣l o g yh a 曲e u s e d 主n 纠e y w h e 辩h o wb e t t e fu s ec o m p u l e a n dl e ti ts e e 骚s b e c o m et l l en e wr e s e a r c hp r o b l e n l i np r o d u c td e s j g n ,i th a st h es a m ep r o b l e m i np a s t 辨o d u c td e s i g n ,w ed e p 材i d e do l lh a n d w o f kd e s i g 娃a n dm a n 喵l a d ea n a l y s 诲m o s t l y h k e t h i s ,n o to l yt h es p e e di ss l o w ,b u ta l s oc o u l d n tc a t c hu pw i t ht h es p e e do fm a 脓e t e h a l l 辨。i nv i e wo f 重l l i sk i n do fs n u a 垃,t h 毽a n i c l ea j l a l y z ct h e 豁o u pq u a n t 啪n o u n c o n c e p ti n - d e p t hj na n u s i o nt ot h ec o n p t i o n0 fr e i a t i o nw h i c ha p p e a r sf 如q u e n t l yi n v i e wo ft h ep r o j 岳dd o m a i no fo v e f a l la n dp 矗r 位d 。a m es a m et i m e ,a n a l y z e dt h i s c o n c e p t i o n 醐dh o p em i sc o u l ds u p p l ym o 埠s u p p o nt o 壤e 黼u i ed e s i g n t l l i sa n 主d ea c r d j l l gt ot h ec h a r a c t e f i s t i co fn a t u l 越l a n g n a g eu n d e 聪f a n d i n gi l l d e s i g n sd o m a i na i 通o o 搬p u t c r a j d e dd e s i g n 聆s e a r c hp 犯s e n ts i t u a t i o n ,t h em e t b o db 辅e d o nk n o w l e d g cw a sc h o s e na st h em a i l lt e c h n i q u et ou n d 嚣r s t 趾df e s t f i c t i v ec h i n e s c 壤t o n 螃a n a l y s i sa n dc o m 辨r c so fs e v e 蹦c x i s t i n gs e m a 薹l l i ca n a l 孵i sm e t 硒dp 辩s e n t e s t a b l i s l l e dt h e 丘t t e dk n o w l e d g er e p r e s e n t a t i o ns t n l c t u r 广c o n c e p t u a ld e p e n d e n c y l r e e s 妇黼,l e d g e f e 翠e s e 棘t a 睾i o 拄s 秘t e m 翩d i n v i 搴wo f 氆or c l a 主i o n o f o v e r a l l 锄d p a n i 砸 i nd o m a i n ,a d o p t e dr e l a t j 彻a n a l y s i sw a yi no n t o l o g ya n da n a l y z et h ec o n c e p t i o no f g u pq u a 珏u mn o n n b a s c d 鲕攮i s ,s o n 穗勰d 攮枉n d u 端dt h e 辨叩f e l 旋。珏w 掇c h c o u l de x p o n e dg r o u pq u a i l t u mn o u nc o n c 印t nt h es a m et i m e ,i nv i e wo ft l l e c h a 豫c t e 辐o f 辨u pn o 豫,弘t 岛聊张i 攮ec o n c e 醛o fg f o u p i d e n t i | i e rw o r dw b i c h u 掰 o x p o n e d 群o u pr e l a t i o na n ds o r t e di t a tl a s t ,a n a l y z e dt l l ep m c c s 8t h a to r d i i l a lw o 坩 w h i 巍i ng u pi 籼虹程e f 辅删e x p o n e dg r o l 王pq n a n 缸l mn o 珏na 珏dp 鳓d u c e d o o e s s i 珏g n o wa i i dp r o g r a l n m e s e m a n t i ca l l a l y s i so fn a t u r a l l a i l g l l a g 。u n d e r s t a l l d i n gi sa p p l i c dl o f e q u i 黻n e 珏ta n 艇y s 至sa 棚俄y p 韪重s y s 咄n 黻斑ed 鹅i 秘o fb e 硪n 黔强。珏o h np h r a s ei 珏 u s 盯r e q u i r e m e n t si sl m d e 墙t 0 0 da l l da n a l y z e d w i t ho t h e rm o d e l sr u n n i n 岛t h es y s t e m r u n sw e l la 是e fd 棼b h g g i l | 葚 k e yw o l 畦s :魏8 l 驻强ll a 弧g 珏建学eh n d e 瑙镪魏d 纽g s e 獭珏t i ea 珏噩l y s l sg r o u pl l a 娃o 藕 o n t o l o 贸t h e o 料p 刚u c td e s i 龋g r 鲫p 蚋粕t 娃黼n o 嘶 第一攀结论 第一孽绪论 1 1 引言 固然语言麓久类游杼惰憩交流最庭接、爆麓要,也是最有效的一种怯息载体。 随着社会的日靛信息化,人们越来越强烈的希望用自然语言来与计算机进行交流。 络计算枫配备国然语宙接口,瞧之其肖接受、存镳、瑷解、箍瑷囱然镶亩瀚能力, 从而实现“人机对话”,是计算机走向镏能化的重要标忠,也为计算机具备大规模 翔谖怂壤簏力躺蓠提条件之。自然谢言理解( n l u ) 就是在这些前提下所发展 起来。 当今社会,随着计算机接术的逸蘧发展帮a 工智糍在各行备监的广泛盛粥, 智能成为了现代科学的代名词,在产晶设计顿城问样也是如此。科学敞术的深 发展引起了各门科学的交叉释融合,使得产韪设计已不再是一个单纯翡工程技术 范畴,衙是由自然科学、人文科学和社会科学相互交叉、科学技术与工程技术高 度融合所形成的一门现代设计槲学。 众所阔知,在产酾设计髑域,概念设计以及需求分析变得越来越夔耍。丽在 这些领域,自然语言理解得到了越来越多的应用。自然语言遵懈在产晶设计中的 痘用,主要程产品嫒计的翁翔。现在,特别照搬多智能的分析系统,为了方便用 户的傥用,很多部已经开始考虑涉及自动进行用户蒸墩分撬、概念竣誊 等,也麟 是盔溺自然语裔理解雌j 。 在某个特定的设计领域,癌然语言理解面对的只是一个栩对狭窄豹问题领域。 桐对獯窜的溺麓领域濒涉及豹嘲讽酉畦i 相对窄点,遮就使褥对问题领域的深 研究成为可能。建立基于知识的自然语言理解系统需要对相应的领域礴深入的了 解,通过对经验进行总结、对闽逝避褥挞浆、对系统滋符建横,;睦纳如相应瀚知 识,从而建立。垮研究领域相关的知识库。这样,基于领域内知识的系缝就成为基 于麴谶工程的聚统1 2 l 。实践表明,基予嘲讽工程的系统在许多地方都取得了成功, 在特定的研究领域内熊够做出来,而且也能够做的比较好。 1 2 自然语言理解概述 1 2 1 自然语言理解简介 自然语言理解( n l un a t u r a lh g u a g eu n d e r s t a n d i n g ) 魁研究计算机如何处 理a 类镊言的攀阕。它蹙a 工智能的一个分支,就跫研究如何能让计簿机理解并 2 机械产品设计领域的自然语言理解中群量名词的语义分析 生成人们f | 常所使用的( 如汉语、英语) 语言,目的在于建立起一种人与机器之 间密切而友好的关系,使之能进行高度的信息传递与认知活动。目前,它的应用 范围涉及机器翻译、大型数据库自然语言查询、计算机自动书写、文摘提取、文 档自动分类和文书管理、智能计算机人机接口、专家系统自然语言接口等等“3 。 自然语言理解研究在电子计算机问世之初就已经开始了,并于5 0 年代初开展 了机器翻译试验,当时的研究方法还不能称作带有“智能”,只是简单的词汇匹配 翻译。 自然语言理解主要有两种途经。一是利用各种语言规则对句子进行分析,得到 句子的结构。但是具体依赖于何种语法语义理论,到目前还没有一个准确的标准。 目前理论发展还处于百花齐放的阶段,没有一种理论可以解决全部语言现象。就 是针对某种特定的语言,也没有一个完全占主导地位的分析理论。基于规则的分 析方法可以称之为自然语言理解中的“理性主义” s ”m “。 另一种区别于基于规则方法的分析方法是基于数据的分析方法,被称为自然语 言理解中的“经验主义”,它主要利用大规模的语料库,采用概率的方法得到各种 语言现象共存的概率,在分析新语料时以共存概率的大小来确定语言成分之间的 关系。 基于规则的方法可以说是一种理性的方法,本质是一种确定性的演绎推理方 法。其优点在于根据上下文对确定事件的定性描述,能够充分利用现有的语言学 成果。缺点是对一些不确定的事件则无能为力,同时规则的相容性和适应也存在 着限制。基于统计的方法是一种经验主义的方法,其优势在于它的全部知识都是 通过大规模的语料库加工分析而得到的,可以获得很好的一致性和覆盖性。基于 统计的方法是一种非确定性的定量分析方法,这种定量分析是基于概率的,因此 其必然会掩盖小概率事件的发生。有些统计方法无法解决的问题,利用规则却可 以很容易解决。所以在进行句子分析理解时把统计和规则有机的结合起来不失为 一种很好的方法。 1 2 2 自然语言理解在国外 国外关于自然语言研究的起步较早,一些语言学家、逻辑学家和心理学家在自 然语言理解的语法和语义分析方面提出了一系列较为系统的理论和方法吼 1 9 5 7 年,n c h o m s k y ( 乔姆斯基) 提出了转换生成语法理论舶s f 0 珊a t i o n a l g e n e r a 七i v e g r 锄m 砜1 g ) 。他用数学方法定义的人工语言( 形式语言) 来研究语言 学问题,用他的语言生成方法去研究形式语言。在n c h o m s k v 的语法中基本上抛 开了语义、语用和语境方面的知识,只局限在一个形式化的机制上,因此很难完 整确切的描述自然语言。 第一章绪论 l 燃年q 辣妇女蘩蘩营凌瓣瞧一瓣囊_ 蓼芎交示工鬃一谱史褥络s e 蛾a m i c 柳。蝴。语义网络在a 工暂鼹的知识表示中商着广泛的殿用。 1 9 7 0 年,张舭却蜘删s 按然蠛谢m 竦v 静转换生戏灞法,强计了扩蹇转移网络 烟雕港u 鬈田e 娃缝d 嚣猢繇髓期姆瓣) ,藩予i 9 铭年竞藏了 聪a 蠢搂誉。 擎i l 抽。结遵1 9 鹅零蕤交了撩语法窿8 8 妫秘珏鳓。 1 9 7 3 年,c 。s 曲a n k ( 衫克) 掇出了椴念依襻理论( c o n e 印机a ld e p e n d y 1 i i b 0 r y ) , 劳建藏了m a r g 怒系统m e 翘攮g 鲰a l s 强砥娜瓣q 黼# 捌t i 鳓怒d 酶融e 爨0 啦 e 赫甜i s 鲰i 辨5 年建立了s a 醚系统箨蕊搏文弹l i 雌m 嘴溉藏l s 掰。 潜入9 0 年代戳来,语料露谬言学又成为囱然语害壤麟熊一个热点,谖料瘁语 言孥科究视器砸读瀚魏然语言文本的采集、存储、检索、统计、语法标淀、句法 一语爻努辑爨及爨誉上述囊麓憨语鹣库在谬富定量分据、词:痪壤截、佟晶鼹洛分 析、翻然语富理簿巍枫嚣翻译簿镊城貉斑溺溯。 l ,2 。冀鲁然褥富邂麟在慝幽 镬我国,落吉谚究氇畜缀链瀚历史瀚,髓瓶黝迓壤畿才蒲壤了整方躺方法缓立 了比较完善的汉谢语法和语义体系,而且这熄研究并不是蛆计薄机处耀妁目的, 郡些谶法语义髂系稷难在毒手黧帆鸯动语言理黪中壹接褥到瘦臻。同时瞧予汉澈黪 特殊之处,使褥汉语计算帆理解存在举弱予嚣方语塞辩瓣耀。在研究激语自熬蕹 吉理勰孵不能照搬溺卦的语法诲义瑾论,盛缀结合汉滏熬基鸯牾赢,骥取西方语 法语义理论中有价值静慝想,袋发展汉语自然语言理解。避凡年来,汉语自然语 言理饕襄褥了镶交涎纛壤,程褥蘧诿义理论镎装懿磅窥帮应鲻系统斡龄没方盈都 取褥了不少韵威聚。 从8 0 年代开始,储篆国外瓣语义理论,拽爨学者巍瑟摄慰了一鬟戮符合汉避 分糖浆语法语义纛论。 鸯l 夫掌翁娥天骥霭穗窦了覆诱诞语义鬻砖遴落。 林杏光对格语法在汉语谣寄研究中的应用懒了卓脊成效韵研究,提出了符合 汉语实际的格攫裂。 邀入年代以来,我鬓的蕊予港鞫瘁稳淡添理瓣磷宠嚣始鬻莛。渣攀夫攀鹦 黄驽宁领导的诗舞语害学实验黧,主娶献事麓予语辩簿舱汉语壤解,避年来在国 动分谰、自魂建造知识库、舀麓熊戚句法;魄刚、自动统计倍息等做了大爨的工作。 串祷院声学掰瓣簧骜麓褒滋褥蠢然语吉理鳃研究懿过程中,经历长选8 零缝 攘索鞠总结,撩醋了凝禽滢狡两绻理谂1 搿羰e 掰馥i c 巍l 阮潮翻t 蕊魏删笋”;。 它避丽向整个自然谣畜理解艄溅论框架。这个理论以谮义淡遮为基础,弗以一种 糕念强、屡次繇,嬲翡髓的黪式求实蠛对懿淑黪表这。逮一瑗镱舞蔽谶语义处理 4 机械产品设计领域的自然语言理解中群量名词的语义分析 开辟了一条新路。 在应用系统开发方面,中软公司开发的“译星”机器翻译软件已达到实用水 平。 1 2 4 汉语的特点及在理解过程中的难点 汉语是一种历史悠久的语言,它是一种表义语言。它在语言形态和语言规则方 面存在着许多不同于英语及其他语种的特点【1 2 】。 1 汉语句子的词不分写,在进行分析之前必须进行分词处理。在分词过程中 会遇到未登录词和切分歧异等困难。 2 汉语的多词性和多词义现象比西方语言严重得多。同时由于汉语词汇没有 形态变化的特征,因此解决此类问题要依靠上下文。 3 汉语句子中往往出现很多动词连用,而汉语动词又没有性、数、格、时态 的变化,主动词很难确定。 4 西方语言的谓语一般都是动词,而汉语的谓语可以是动词,也可以是形容 词和名词等。这就导致了某些西方语法语义理论不能直接应用于汉语分析中。 5 汉语句子的组合歧异十分严重,这包括句法组合层次歧异,句法组合关系 歧异,语义组合层次歧异,语义组合关系歧异。在理解过程中要完全消除这些歧 异很困难。 所有的这些困难需要在接下来的工作中一点一点的去解决,当然这不是一天、 一个月或一年就可以解决的,这也许需要我们多年艰苦不断的努力和持之以恒的 钻研。 1 2 5 汉语自然语言处理的一般过程 计算机处理自然语言一般要经过以下4 个过程1 : 1 从语言学的角度提出要解决的问题和理论,并对语言的句法语义进行分析和描 写,即语言的知识描写。 2 把这些语言知识形式化,用数学公式表示出来,使之成为一定数学形式的规则 系统。 3 在计算机上将上述知识用算法实现,成为形式化的数学表示。 4 根据算法编进计算机程序,使之在计算机上加以实现。 可以用下面这个图来表示,如图1 1 所示。 第一帮绻艳 图1 1 汉语自然语言处理的一般模型 1 3 自然语言理解与产品设诗 产鼎刨新设计技术已成为赡避制造舄自动化技术领域研究的热点阏题之一。蜜 理锲糕鹣关镶输袋是产鼹设计举期的麟念设褚懒段,它溉燕产晶设计黪瞽要参鞣, 也是鼹富有刨新酌步骤。在产晶设计过程中,通常又以下几个过程:需求分析、 概念设计、装懿设计积详细设计。丙在这个没计憋遗毽申,瑗在a 稚越来越重棍 需求分橱帮壤念设计。众所餍撩,生令挂会产溅之阕麴麓别攀实上就跫设计壤惫 戆蓑制。瑟强,褒大秘挺重蕊转鑫翥交努瓣鹈概念设计潜藏会发理无论是哪卡 都需簧大量的翔识作为基础。如何进行快速、有效的知识获取成就了囱然语害爨 解技术在该领域发展。 为了得捌凝有效的需求分橇结鬃,我髫】麟辫要爨受将璃户最覆始、竣亮蘩魏 鐾袭准确地识藏下卷。用自然谣言记录这些锵浓是最好不过的了。设诗过程豹诗 冀枫纯潦定了计辫枫簧髓帮霸人粪发掘和完域设计豹需求,就必须能够理解人类 的自然语言,这样才黼更加快遴地鲢理大餐的熟识信恩,帮助人类实现刨造链熬 设计过簇。予是,囊熬语言理勰便应运丽裳,窀裢爝产黥竣计与瘸户添或亮夔纳 结合起来,更煎篓的魁它标志赣计算机的智能化迈上了一个新的台阶。 机械产品设计领域的自然语言理解中群量名词的语义分析 如何通过计算机技术及人工智能技术快速有效地收集产品设计中的有用信息, 弗且对其进行分析,转化为产品概念设计要求从而设计出满足用户需求的产品, 已经成为产品设计中越来越引人关注的问题【3 6 】。一般来说,用户不同于专业的开 发人员,他们对设计领域内的术语不是很了解或根本不了解,他们仅仅以自己的 最原始的语言来表达对自己对产品的要求。要对大量需求信息进行准确、快速的 处理,我们就必须要借助于计算机,要让计算机理解这种要求,就必须利用自然 语言理解这种手段,让自然语言理解充当用户和产品设计、分析等系统之间的智 能接口,通过了解用户想要什么,从而指导设计人员的工作。所以,自然语言处 理技术的应用,可以大大提高我们对市场的反映速度,同时通过大量知识的获取, 对设计人员的开发也变得更为顺利一点。 1 4 本文的理论研究 关于本文的理论方向,目前在国内外都有一些学者在研究,但都只是在语法或 语义上,从应用的角度来说的比较少。在国外,关于这方面的研究主要集中在集 合名词( c o l l e c t i o nn o u n ,我们翻译为集合名词) ,主要是从语法的角度来说,所完 成的只是对名词的分类,没有多少应用。国内的在名词分类的著作中,受国外的 影响,也有这种分类,例如朱德熙先生( 1 9 8 2 ) 根据名词和量词的关系将名词分 为可数名词、不可数名词、集合名词、抽象名词和专有名词。而刘顺从认知角度 所述的群量名词可以说是另一个视角【1 4 】。其从认知的角度来说,具有一定的实际 意义。但是所有这些无论从语法、语义或是认知角度来说,都没有实际的应用。 对于汉语自然语言理解来说,在应用时都有一定的缺陷。本文结合应用的角度, 从领域自然语言理解出发,对群量名词做了一些研究。 本文中主要论述的群量名词,与刘顺先生所论述的群量名词有一定的相似性, 但也有不同之处。本文中所论述的群量名词是从应用的角度来说的,是对以往的 群量名词的一个扩展。与以往的区别在于,一个是从静态的角度,而另一个是从 动态的角度来说。 在以往的论述中,群量名词作为一个在句子中已经存在的概念,汉语自然语言 理解时需要对句子中已有的概念进行理解,可以说只是在语法或语义上来说。比 如“军火、车辆、夫妻”等,这类词接受集合量词的修饰,如“一对夫妻、一些 车辆”等。但是在工程领域,也会出现这些概念,但不一定在句子中存在,如“小 明在这次考试中得了第一”,这句话中,我们理解时知道这个“第一”是在小明这 个班的所有学生中的。其实我们理解时用了一个隐含的群量名词“一班学生”这 个概念。但对于计算机来理解时就需要我们给出这个概念,本文的研究角度就是 从这个角度出发的,详细内容在接下来的章节里将做详细介绍。 辫一章媾谗 i 。嚣本文瀚末瓣工侔 针对计算栅技术在产晶设诗镶域黪递鏊黟瓣燧襄筏鬻浆分褥中黪露蠛,奉雯罐 蹬了将汉语鸯然语营瑗瓣应月翻设计镞域,丝提高设计的响旋速度和震鬟。零文 祷步擀_ i 案了缀语自然礁露理解中的语义努耩鬻翔谖袭逮,势虽结合零髂中的藏念 之润龄关系申很重要的部分整舔关系捉遗了裁溪名词溉念,并分琚了冀柱甸予中 静应妫鞠语义分撰。随辩涛处理缝袋转位戚必溪戆僖爨骏满篷产鑫竣诗中雳户需 求分析的要求,为自然语言的冀纯处理以及篇续设计提供了支持。本文完成主 耍工嚣獭下: 了鼹鬣蠹辨鑫然语言理熬领域的动态,分析比较基于知识的方法和大规攘 语料黪方法麓傀疑点,舞结会设诗领域爨然语富蘧解鞠特点及隧蘩枣l 骥矮 域词瘁的规模,确定娃篱于知识韵方法为研究艨用的总体方向,并辅助以 警蓠瓣梭鹱城疆辩疼。 对现行的足静语义分析方法避杼了讨谂,并绻套汉语盼耱点稿蒸予壹窿飘的 自然谬富理解嚣绫的实际清嚣,逡择橇客疑震遴浚髂必篡子熟谖方法黥霞 骚毒 巍,讨埝了蘩予籍谖的系统瀚特点,并对概念之躺两灞帮辨诞越藏本 体论进行了阕述。 菘戳主互傺麴蒸敲主,辩拳髂率凝念乏瀚懿藏分整体曩黍敲了魄较 葶缁戆 分析,并由_ l 眈褥出群俸关系,提出群攫察酬概盘。在分桥导如群夔名词的 群体栋浚词时,避行魄较详缨改努类。芬在就綦雅羔编疆了有痔数词燮成 群量名诵的程序。 鳐台瓿穰领蠛,遗逮辩阕卢蔼隶豹理解秘分树,纂本安现了群彘酝词麴生 成,鼠筒完残对整个甸予的理解。 本文王嚣建立在裁人蟒竞蛉熬磷之上,蹩黠醺魏研究瓣避一步扩震。邋过枣文 霹甸子牵隐含麴整侮糕念兹獾透释显承能,馊得对这些訇予麓够完整理解。程溪 域煞蕊潮内对逝熬语富理黧遴嚣研宠,我稻每辍较轰方便趣憩立颁域的静态翘识 库,逡样馘能够在桨种稔度上突规自然谣言骥勰。遵过本文豹掰究可以新言,隧 蔫诗舞撬技术鹬太互鹫爨戆镩援零赫发矮,巍然添袁毽辫熬露瓣将会不断被麟姨, 前途避光明豹,它将军断对a 樊提供更多帮助。 机械产品设计领域的自然语言理解中群最名词的语义分析 第二章汉语自然语言理解中语义分析及知识表示研究 在汉语自然语言理解中,不仅要从语法上去进行研究,语义也是非常重要的一 个部分。在汉语中,有些句子在语法上是不对的,但在语义上却是正确的。所以 对于汉语自然语言理解来说,语义的分析就变得尤为重要。本章对现有的几种语 义分析方法进行了不比较,分析了各自的优缺点。并同时提出了自己的一些看法, 希望在对语义分析的道路上起到一些小小的作用。 2 1 几种语义分析和知识表示方法 在汉语中经常有“语法正确、语义荒谬”的句子,对于这些句子,从语法上 根本就无法去理解,只有应用语义分析才可能解决。所谓语义分析就是要识别一 句话所表达的实际含义,即耍弄清楚“干什么了”,“谁干的”,“行为发生的结果 是什么”,以及“行为发生的时间,地点和所使用的工具”等等。 在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易 理解的。在汉语中我们不难看见这样的句子: 同学们晒太阳 学生吃食堂 学生打开水 对于这些例子,仅仅在句法的层次上分析的话,动词与名词之间是述宾关系。 实际上这样分析并不能妥善地解决机器理解的问题,必须进行语义分析。所以, 语义分析已成为自然语言理解的迫切需要。在语义分析上面,主要有以下语义分 析和知识表示方法:语义网络、谓词逻辑、格语法,概念从属理论、本体论等。 本文将主要介绍以下几种。 1 语义网络文法旧c l 目 语义网络( s e m a n t i cn e t w o r k ) 最早由由美国心理语言学家奎廉m r ,q u i l i a n 提出的,直到后来才被应用到自然语言理解系统中。语义网络通过由概念及其语 义关系组成的有向图来表示知识的描述,语义的一个语义网络是由一些以有向图 表示的三元组:结点l 、弧、结点2 连接而成,其中结点表示概念,弧表示方向, 指明所连接的语义关系( 冯志伟1 9 9 6 、侯敏1 9 9 9 ) 。每个结点可以带有若干属性, 可以用语义标记或语义框架来表示,语义网络表示法能表示事物间的属性继承、 补充、变异及细化等关系。动物具有“能动、吃食物”属性特征,鱼除了具有这 些特征外,还具有“水中生活、有鳍”等特殊的属性特征,所以鱼中的特征“能 动、吃食物”就不用描述出来,可节省存储空间。语义网络各个概念之间的关系 主要由i s 咄、p a r t o f 、c o m p o s e d o f 、h a v e 、b e f o r e 、l o c a t i e d o n 等谓词来表 示。事件由若干个概念组合表达,可以有施事、受事时间等。事物问的语义关系 第= 鬣汉语鸯然语言建瓣卓语义分析及翘谖裘承研究9 常觅鹣骞分类关聚、聚焦关系、攥埝荚黍、辩阏、位爨关系。语义嗣络酌攘理枫 和一般基于网络的题配,根据撵出的嗣题构成一个局部网络,其中的变量代表待 求灼客体。语义瓣络理论提爨了浸语起动分褥翡语义荧舔隳,这对予魏惘逶餍内 涵特筑方法分褥爨蠢一定的借鉴意义,将语义表达式作为中闻语再翻译成其体语 言,谨为多谣秘之瓣麓译一条壤路氇鑫取褥较好灼效莱。 当然,语义网络 翅不能解决全部的润题,它的缺点怒;语义网络结构的语义解 释依赖予该缝梅的推壤过程丽没毒结构翰约定,困舜褥到的攘理不熊绦诖卡劳难 确;点阕的驳黎霹能憝线状、耩靛或潮凝髓,蕊至楚逯l 鼹凝匏结稳,馊辐建汝翘 讽存储藕检索耐髓霈簧比较复杂的琏糕;此外,语义斓绦结构庞大、蟹杂,系统 开镝夫。 2 。格语法【1 6 l 旧 格语法莛影璃较大、应掰较广靛一静语义静板方法。其基本罨憨燕:动词在旬 中超中心作用,参与动作的各个体称为“语义格”,且“格”的数量是宵限的。针 对每个韵词熬义瑷,离可戆的“语义格”子集搦戚将框槊,这子集分为盛要的和 啄透靛两个集会。 效穰语法的淡赢来看,诺褥匈子都其育个深层髓意爻鳍梅,它出动运聂葵 相关的名词短语组成,这些名词短语按其与动阋的关系,在匈中表示各自的作用 ( 帮究当不露熬掺) 。格语法最大盼特点跫琢设语义盔旬法孛黪主导终媾,蠹嬉语 祛分狮可以褥到句子酶澡层语义结构,给出器成分静涤义臻色,对于确定正确豹匍 法结构霸禳大帮助。但是格谮漆存蕊醚。f 麴缺点: 1 ) 无法解决汉谬的连动和兼语句式。格语法认为动词在匈中起中心作用,那幺分 糖翅子鑫誊酋瓷器薅宠訇予的核心。 2 ) 短语内部备俄分词关系无法确定。格语法提出的备种将燕泵都是名词性短谮和 动溺之阁斡谤义关系,对予名谰性短语海船鞴麓谲短撩懑舔备骥分蕊蒸既确意 没窍给爨。 3 ) 出予汉语调茫语义分类撼港经毒一争骥定黪标准,捂语法巾戆语义格的礁霪魄 较难确定。 有关予概念扶属瑗逾和本体论的知识,本文将在下嚣尼第中蘩点骰赍缨。 2 。2 概念鼠属理论和本体论 2 1 1 概念从属理论( c d 理论) 概念从属理埝( c o n c e p t u a id e p e n d 。n c y ,也称c d 遐论) 是r o g e rs c h a i i k 在6 0 每 宅援是的,霸格语法一样,蕻熏点氇是纛褥义的分析弼熊壤上n 羽。但是和格谮 1 0 机械产品设计领域的自然语言理解中群量名词的语义分析 法不同的是,c d 理论是首先确定了一组原语动作,每一个原语动作是由一组动作 词语中高度抽象和概括出来的动词概念“。通过原语来描述句子内部的意义关系。 而格语法是围绕句子的动作确定一组名词词组在句中担任的角色。即名词词组的 格关系。 概念从属理论的基本思想如下: 从语言心理学出发: 1 人认识语言的过程,实际上是把一种语言映射到某种概念基的过程。概念 基中概念的数量不应该很多,其中最基础的是行为( a c t i o n ) ,按s h a i l k 的 设想,称为原型行为( p 血l i t j v ca c t i o s ) 。 2 从语言心理学出发,认为人对语言的理解,并不是先从语法和语义开始的。 不会是先学好了语法和语义再来理解一个句子。一个句子所包含的独立于 语言的东西,不是语法,语义,而是它的概念。 3 理解语言的过程,是一词一词理解的,而不是听完了整句,弄清了主语、 谓语、之后再理解,而是一面听一面理解的。听完了最后一个词,整 句也就理解了。 4 从单词到句子,反映了概念与概念之间的相互联系。 概念驱动的理论: 1 以词的概念为基的理解系统,词汇只是概念的符号,从整体而言,在这样 的系统里,没有词的概念。最基础的概念集合组成概念基,概念基是以动 词为核心的。 2 一个词所能包含的信息是极其丰富的,包含词条信息、词法信息、句法信 息、语义信息和概念信息,甚至可预期上下文信息和篇章( 文本) 知识等 等。因此,这样的理论体系里,机器的理解就是利用这些信息启动实现的。 3 知识和处理知识的机构应该是相互独立的,以便于知识的积累和丰富系统 的处理能力。 下面将具体介绍概念从属的知识表达和其优缺点 一概念从属的知识表达 对于概念从属理论,在知识表达上后来又有了进一步的发展,但是大多还是基 于s c h a n k1 9 7 7 给出的原语集,如下所示: a t r a n s 抽象关系的转移。如:西v e ( 给) ”r a n s 一对象的物理位置的转移。如:9 0 ( 去) p r o p e l 对一对象施加物理力量。如:p u s h ( 推) m o 移动自己的某一部分。如:k i c k ( 踢) g r a s p 行为者控制对象。如:t h r o w ( 抛) i n g e s t 动物摄取对象。如:e a t ( 吃) 第= 瘴汉语皂然语言理鼹审语义分析及稍谈表示磺究甜 戮滞& 。动褥髂瞻撑蹩菜塑采薅。鞠二掰v ( 袋) m 州t a n s 思维信息的转移。如 t e n ( 告诉) s p e 越产生零誊。翔:s a v ( 邀) 瓤器u l l ,d 依据原蠢信息建立薪偿惑。鞠:d e c i 船( 谈定) 制瑚嘞擦感富嚣富羲注意匆蠢饕裁激。魏:l i s l 强( 昕) 黻然s c h a n k 给出的行为原谱是用英语单词的形式裘豕,仔细研究一“_ f 可以这 姥愿谬,可以发现辩汉疆的理解秘样璁是遥疆豹,毕窝谌意本身所表达媳概念黪 含义媳相同的,并不取决于语释酶速黝。概念鼠嚣建谂零努裁筵一耱不镶籁予谖 言秘落法盼理论,汉语的语言理解同样可以瘦惩概念驮属理论。 糍淹组合模块瞄凌簧集,怒描谜在一语句中的那些概念之间的可容许从属髓的 集合。宵四个原语概教类别,耀之霹秘恣从淄悭结构。它船燕: 煅行免 p p 对象( 图敷发生器p i c l u r ep “e e 砖 a 氛行走修馋谖( 撂为的耩助设餐a 氆垂。牡撇d e r ) 懿对象修镪谖( 爨象发生嚣载辅霸设备p i 髓嘲嚣焦d 群) 魏外,飙蕊结橡自身可戳蹙概念纯了酶,势蹲律为疆大灏扶属结构豹缝分。橇 念化了的从属哭鬣对应干基础概念的语义共系。 二。缀念麸藩瓣撬缺蕊 在基于知识瀚罄然语言理解系统中采用裰念从属理论作为语义分辑方法,鬃 有很多忧点: 1 知识捺理方燃 在三个重黉穷蕊攥概念麸瓣蠖式表达知谈,使褥知谈捺理方便。 1 1 当知识采分解成原语时,需要的推理规则比要求拍少。 傻霭搬念靛属双语薅苓矮高缀术语表迭艇讽黪好处在予,罄誊糖髓憝毽熟 识的攒理篾翼4 糖述容器。对每一动 睾藤语,觏则欺颁袭达一次,而对攒速 箨个穗佟豹每令擎迢麟幂止袭这一次了。 2 1 许多推理融包含在表达中。 用概念扶缡表达知识粒好处跫捣远鲻谶。我能不仅麓辫出与使疆燕镓申熬 明显倍感,而鼠还用与具体蔫怠袋系程一起靛一缀雄浚规赠。逡些矮瑙一 经应厨,它们的结果斌佟为表选的一部分存贮起采,藤显那些攫刚戆厦曩 使溺叛不必再瘟用规则。 3 ,为表遮包食在一语句泽鹣僖崽面建立的初始缝橡,将肖一些霈德璞兖鲢 禧。这缝糟可董聱矢理解随焘甸子髓程黪瀚注意错。 在一段穗恳的表达中来明确指迩的元豢,可作为理解厨臻事件的焦点。 2 ,可狱在抽蘩鼷次上懿理趣题 1 2 机械产品设计领域的自然语言理解中群量名词的语义分析 概念是事物或事物间相互关系的描述。在一个抽象概念与具体概念之间还存 在多个相对抽象的概念。例如在三角形与具体的三角形之间还存在有等腰三角形、 直角三角形、钝角三角形等概念。正是这些概念的存在使得事物问关系的描述得 到了简化、提高了描述的效率。抽象概念以及相对抽象概念在人类的知识体系中 有重要的作用,主要表现在以下几个方面。 首先,采用抽象概念进行思考,处理问题,可以大大提高思考,解决问题的 效率,减少问题的复杂性。以设计为例,对一个相对复杂的设计,如果不采用抽 象概念而直接采用具体概念,就将产生组合爆炸问题,使本可以完成的设计变的 无法完成。 其次,相对抽象概念的存在有其必然性,它具有抽象概念所不具有的许多性 质。例如直角三角形就具有三角形所不具有的性质勾股定理。虽然在三角形 中给定了直角三角形的形成条件后,根据三角形的数学模型,直角三角形的所有 性质包括勾股定理都可以通过推理得到,但面对大量有关直角三角形的实际应用, 每次采用推理的方式得到所需性质显然是笨拙、低效的。而相对抽象概念及其常 用性质的存在则大大方便了事物的描述,提高了问题的解决效率。实际应用时, 只要有相对抽象概念存在,人们就不会使用更抽象的概念。例如只要能用直角三 角形,人们就不会使用“一个角等于9 0 度的三角形”来描述事物。 再次,抽象概念的作用勿庸质疑,尤其是能给出完整数学模型的抽象概念, 其存在是解决那些未遇到的问题所不可缺少的,假如在某些领域大量出现与“一 边等于另一边两倍的三角形”相关的物体,并可能需要大量使用其性质,则相应 概念“两倍边三角形”则有可能应运而生,这时从抽象概念出发,“给出一边等于 另一边两倍的约束”,则可推出相应的性质,无需大量的实验去测试所需性质。 最后,虽然我们知道一些相对抽象概念与另一些抽象概念之间有包含关系,但 没有一个准确的数学模型能够描述这一抽象概念,更无法给出相对抽象概念与抽 象概念之间准确的数学描述。这些相对抽象概念的存在就更不可避免。例如:家 庭中整洁与干净的关系。 3 可以表达概念间的深层知识 由于我们采用的是基于知识的自然语言理解方法,使用单一孤立的知识表示 方法( 浅层知识表示) 和推理,存在着知识库十分庞大和复杂的问题。为解决这 个问题,一个必然的方法就是采用层次知识存储的方法,使系统不仅具有浅层知 识,还具有深层知识或蕴含知识。浅层知识主要是从系统外部所能观察到的知识。 深层知识是从系统内部观察系统所具有的知识,它不仅包含在一般推理过程中用 ,o 所能够直接感受到的知识,而且应包含一些公理性和概念性知识,而这些知识 在推理过程中总是隐含和间接地产生作用。 概念问的从属关系就是一种深层知识。由于深层知识表示形式的引入,丰富了 第二黛汉语鼠熊语言穗瓣审逶义分析及知识衮幂研究 瑟浚篷鹣结梅帮麓浚憝衰示影式,势展也大大减小了辩溅蓐熟溉搂,浅震魏诹帮 深层知识相结合,使系统的推联显得燮加方便和容易。 当然概念从属壤论并不麓解决所有的瓣题,其邀商黻下的瓣点: 1 1搬念姨耩要求糖嚣有知鼋琏努簿受褥警低级的苈i 语,u 町能骶效或猩巢种情况下 瞧诲敢不戮。 劫概念从璃理论是一种事件表达理论。但为液达复杂程序可能需要的廖i 有信息, 就蔡求自袭遮除攀馋之外鲶煞它饔情。 综上所述,概念从属理论鼹众多露曼分瓣方法中褒遮摄念语义较方艇熬一争, 在我l 洛建立的耩予躲识的系缝中,可鞋选择概念从属律必基于知识驰方法髀鬟蔓 孙充。 窑,2 。2 本搴论 关予什么燕本体鹣阔莲,要扶蜇攀鞫; 算枫两个方灏来说明,因为难律的概念 簸视起源予哲学领域,可以追灞鲻公元翦吉希腊哲学家甄墼士多德尝试对蜮:器土 鹩事嬲分类。褒嚣学中奉僖定义为“封整器磐蕊存在糨豹系统遮藏透,群雾在 论”。后来随着人工错能的发展,越界引用了此概念并给予了新的定义。然而蠼初 太稻藤本俸懿联解势不完善,这些建义赶鳋霞不甄豹发鼹变识串,以下是本诲褒 哲拳器稠计冀辊领域酶不同定义。 哲学定义:客j 潞裙砸的一个系燧盼解释秘说龋,客双现实豹个撞蒙的本矮。 计算帆界: l ,1 蚴1 年n e 穗髂等嚣爨蔚l 础i 蒋本髂定义羚“给出构成稻荚镬壤落汇酶羹拳术 语和关系,以及利用这些满予和关系构成的规定这然词汇外延的规则的定义”。 2 。1 9 9 3 年g 幽搴r 提! 圭l 鲍:絮臻概念豫的黪敞定义d ,歉鳍掏,其中d 是颗壤, r 怒d 中鞠荚翡关系集合。犍零俸定义成“赫享概念他的、形式韵、明确的觏 范”。 3 1 9 9 7 年b o 蹴提出的f 2 2 】:禚a f u b c r 对本体寇义的基础上提出本体盼定义:“共 享概念模懋的形式化规范说骥”。 4 ,1 9 9 8 年s t u 娃e f 提出豹瞄l :凝搴概念攘型戆辫穗翡形式豫规蕊说鬻。 燕于最局一个定义的说明体瑰了本体的霸层含义: 国概念摸耍! j 。l 卵t 韬a l 晒蕊0 丑 通过抽象黔客观世界中一魑蕊蓦( p k 跚瑚# n o n ) 的褶燕概念露褥篓的模型, 箕表暴鹣含义独立子翼俸豹环臻状态。 明确( e x p l i c i t ) 所健瑗静概念及使爝这些凝念酶鹭束都有嘲确鲍庭冀。 1 4 机械产品设计领域的自然语言理解中群量名词的语义分析 形式化( f o m a l ) 本体是计算机可读的。 共享( s h a r e ) 由上可知,在本体论中,概念和概念之问的关系是其研究的重点。这二者也是 本体的两个重要的组成元素。在本体的组成元素中,还包括概念的个体实例、以 及他们的属性和性质。下面我们将对本体的组成元素做简单介绍: 1 ) 概念( c o n c e p t ) 概念原本是思维科学的一个术语,是“思维的基本形式之一,反映客观事物 的一般的、本质的特征。”在知识工程中,我们将概念理解为是物体或事件的模型 知识。例如,“人”和“打篮球”分别是物体和事件的模型知识,它们都是概念。 任何一个概念都通过内涵和外延两个方面来反映人们的认识结果: 概念的内涵反映的是对象的本质; 概念的外延所反映的是对象所指的范围;( 详细的介绍见第三章论述) 在本体工程中,概念扮演着重要的角色,是人与机器交互的桥梁,因为,第一, 概念是人类对现实世界理解的表意符号;第二,概念是机器操作的主要对象;第 三,在人类和机器之间,需要建立一个数学模型使得人类能理解并控制机器的运 作,而概念又是数学模型主要的构成元素。 2 )关系( r e l a t i o n ) 本体中的关系表示概念之间的一类关联,典型的二元关系如概念之间的i s a 关系,它形成了概念之间的逻辑层次分类结构。一般情况下用r :c 1 c 2 c n 表示概念类c 1 ,c 2 ,c n 之间存在n 元关系r 。 3 ) 概念的属性( a t t i = m u t e so fc o n c e p t ) 概念的属性是指概念的一些描述方面,在概念层上没有属性值。例如,概念 “大楼”有属性“高度”。 属性可分为基本属性和角色属性,在本体中也要做相应的处理:第一,基本 属性是指本质的属性,例如“高度”;第二,角色属性是指基本属性在不同领域中 的应用,例如与基本属性“高度”相对的角色属性有“海拔、深度等”。 4 ) 概念的属性( p m p e n i e so f c o n c e p t ) 概念的性质是所有实例所共同具有的一般抽象的特征,是用于区分概念集中 不同的概念。在本体中,概念和属性是不同的,同时也有一定的联系。概念是用 来区分概念集中不同的概念,而属性是用来区分同一概念约束下的不同实例。也 就是说概念的属性在概念层次上是没有属性值,而在实例的层上才有相应的属性 值。如果概念的属性在概念层上就有确定的属性值,也就是说这样的属性和属性 值对于概念的所有实例都成立,则我们称概念、概念的属性以及属性值为概念的 性质。例如,“三角形有三条边、三个角”,那么任意给定的三角形都有这样的性 第二鬻汉语离髓诿青理勰中语奠势斩及知谖袭示研究1 5 嫒。逡游的爱,搬念翡性鬟又舂“严格”帮4j # 严橇”之分。对于严格的经震鲡 虢,对于菲严格的性旗并非如此,如“窗子谢溅璃”这样性质对于那燧没有玻璃 鹃鞣鬻予并不遮穗。掰阻我们对概念锉蕊懿讨
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自考专业(计算机应用)高分题库附完整答案详解【各地真题】
- 检验指导书制定及发行办法
- 新能源物流车推广应用与2025年物流企业成本控制与效益提升策略报告
- 产品设计实战手册
- 自考专业(电子商务)题库检测试题打印及答案详解(新)
- 综合解析人教版7年级数学上册期末试题含完整答案详解【名师系列】
- 智慧校园背景下2025年教学资源平台建设中的教育评价与教学质量监控
- 自考专业(国贸)模拟试题含答案详解【完整版】
- 工业互联网环境下工业自动化仓储管理方案
- 个人理财规划操作指南
- IATF16949过程绩效指标一览表
- 水利部2002《水利建筑工程概算定额》
- 四年级数学下册12月份计算小超市
- 医院陪护中心运营方案
- 厂家如何做好经销商的利润管理
- 2023《中央企业合规管理办法》要点解读课件PPT
- 聚合物基础知识
- 售楼部钢结构玻璃幕墙拆除方案
- 集团公司校园招聘计划实施方案
- JJF 1002-2010国家计量检定规程编写规则
- GB/T 6663.1-2007直热式负温度系数热敏电阻器第1部分:总规范
评论
0/150
提交评论