(机械制造及其自动化专业论文)机械制造领域汉语数量词与群体关系形式化处理研究.pdf_第1页
(机械制造及其自动化专业论文)机械制造领域汉语数量词与群体关系形式化处理研究.pdf_第2页
(机械制造及其自动化专业论文)机械制造领域汉语数量词与群体关系形式化处理研究.pdf_第3页
(机械制造及其自动化专业论文)机械制造领域汉语数量词与群体关系形式化处理研究.pdf_第4页
(机械制造及其自动化专业论文)机械制造领域汉语数量词与群体关系形式化处理研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 翁委 遮羞瓿魄一俸纯技术的羧鹱,辫学科交叉的懿求越紧密,使穆嚣t 械割逡添统 前嶷杂性不断摊商。因此,智能诧的机电系统设、千将楚未来翻发展趋势,谶专家 系蘸隽代表翡熟嫒王程褥会蕊箨越蘩葱夫戆终震。零文褥投诲毽辫斑翅予襁攘期 造镢域的专家系统鼬识获取巾,通过对戳翻然语言形式表达的专家波计经验、控 翻缝验或知谈懿理瓣霸势褫,形式化为翔识库中蚋知识,从前为专家系统提供一 个邈动知识获取按日。 论文戮巍了窭懿主篓熬嚣黏设诗方法,基予翅识熬方按期嫠于统计黝方 睡,根据熟槐缺点以及设计顿城内没语理解豹特点,选择了鏊子知淤为主鹊穷洼。 蓄惫,裰攥专家系统知浚袋取鳃器要比较了现有的凡种知识表示方法,建立了采 甩繁予产裳式表豕法与梃絮桶缝含潞表示方法。蒜浚,谂文骜羹势辑了镶蠛串蘩 露戆数爨溺殿其终镌豹谖义,缭出了一个遁禽形斌化处理的分类,指出了隐宙数 量储意在旬予形式他处理中蛹重要意义。并戳赍潦蹊鹫为藉磷,逶道资潦零馋雾 燹镩之籍麓关蒸,努辑了魂栽浚舔中的群体语义搭惠,初步巍艉了单纯依靠数量 谬添芟溪解翁愚瓣经。在理论分舞昭蓦程e 主,给融了鼗羹溺获萁络拇、缀式数量 擒恩和群体关系理解的初步燕现方法。摄后,将领域数量词和群体关系处艘系统 魔用于蒋感器前麴谈获取系虢串,经过裰岁满遮,袋褥了宠壤鬃。 美链蘧:囊熬语鬻遴簿烫深骥型数量谲群体蓑豢知识获取 a b s t 阳c i i l a b s t r a c t w i mt h ed e v e l o p m e n to fm e c h a t r o n i c st e c h n o l o g y ,m u l t j d i s c i p l i n e sc r o s sv e r y t i 曲t ly , w h a ti s i n c r e a s i n g t h e c o m p l i c j t i e so fm a n u f a c t u r es y s t e m s h e n c e , j i l t c l l e c t l l a l j z e dm e c h a t r o n i c ss y s t e md e s i g i 岵i st h et e n d e n c yi nf i l t l l r ea n de x p e r t s y s t c mw h i c hi st h er e p r e s e n to fk n o w l e d g ee n 画n e e r i n gw i l le x e nm o r ea n dm o r e e d e c t s c h i n e s eu d e r s t a n d i n gt e c i l i l i q u ew a sa p p l i e dt ok n o w j e d g ea c q u i s n j o nf o r d o m a i ne x p e r ts y s t e mi nt h i sp a p e rb yf o 珊a l i z i n gt h eu n d e r s t a n d i n gr e s u l t se x t m c t e d f r o mm ea l l a l y s i so fd e s i g ne x p e r i e n s ,c o n t r o le x p e r i c n c c so rk n a w l e d g eg o tf r o m e x p c n sd e s c r i b i n gi n n a t u r a ll a n g l l a g ct ot h ek n o w l e d g ef o r l e 电eb a s eo f c o m p u t c i sf o rp r o v i d i n ge 【p e ns y s t e m s 锄a u t o m a t i ck d o w i e d g ea c q u i s i t i o ni n t e r l a c e u p o nt h ea n a l ”i so ft h ec h a r a c t e f j s t j c so fn a t u r a ll 卸g u a g ci dm a n u f a c t u f ed o m a i n a n dt h eb a i 柚c eo ft h ea d v a n t a g e sa n dd i s a d v 趾t a g e so f 呻oc i i 玎e n tm e t h o d st on l u , t h em e t h o db a s e do nk i l o w l e d g ew a sc h o s e a st h em a i t e c h i q u et ou n d e r s t a n d d o m a i nc h i n e s e f i r s t l 弘a c c o r d i n gt om ed e m a n do fe x p e r t s y s t e m s k n o w l e d g e a c q u i s i t i o n ,s e v e f a le x i s t i n gk n o w l e d g er e p r c s c n t a t i o nm e t 耋l o d sw e r ea n a l y z e da n dt h e m i 】【e de x p r e s s i o no fr u l ea n df r a m ew a sa p p l i e dt or e p r e s e n t a t i o no ft h er e s o u r c e i n t e 璐i o n 柚de x t e n s i o n s e c o n d l y ,u p o nt h ce m p h 豁i z e da n a l y z eo fc o m m o nq u a i l 濉i e r s i nt h ed o m a i n ,as u i t a b l ec l a s so fq u 柚t i f i e f sw a s 酉v e na i i dt h es i 盟i f i c a t i o no f t h e i m p l i e dq u a l l t i t a t i v ei n f o r m a t i o nt ot h es e n t e n c ef o r n l a l i z a t i o np m c e s s i n gw a sp u t t e d f o r w a r d t h e n ,b a s eo nr e s o u r c em o d e l ,b yt h er e l a t i o n so fr e s o u r c ei n t e n s i o na n d e x t e i l s i o n ,g m u ps e m a n t i ci n f o r m a t i o ni nm o d e mc h i n e s ew a sa n a l y z e da n dt h e l i m i t a t i o no fs e p a r a t e l yd e p e n d i n go nt h eq u 卸t i f i e rs e m a n t i c u n d e r s t a n d i n gw a s b a s i c a l l yo v e r c o m e b a s e do nt h et h e o r ya n a l y z e ,m ee l e m e n t a f yi m p l e m e n t a t i o no f q u a t i f i e r sa n di t ss t m c t u r e s ,i m p l i e dq u a i l t 主t a t i v ei n f o m a t i o na t l dg r o u pr e i a t i o n s u n d e r s t a n d i n gw a si m r o d u c e d f i a l l y ,t h es y s t e mw a sa p p l i e dt os e n s o rk n o w l e d g e a c q u i s i t i o ns y s t e mw i t hs a t i s f a c t o r yr e s u l ta f t e rd e b u g 西n g k e yw o r d s : n a t u m ll a n g u a g eu n d e 璐t a n d i n gi k s o u r c em o d c l q u a n t m e r g r o u pr e i a t i o n k 皿o w i e d g ea c q u i s i t i o n 第一章绪论 第一章绪论 1 1 机电一体化技术的发展现状 机电一体化是在以微型计算机为代表的微电子技术、信息技术迅速发展,向 机械工业领域迅猛渗透,机械电子技术深度结合的现代工业的基础上,综合应用 机械技术、微电子技术、信息技术、自动控制技术、传感测试技术、电力电子技 术、接口技术及软件技术等群体技术的一门综合技术。从系统的观点出发,机电 一体化技术是根据系统功能目标的优化组织结构目标,以智能、动力、结构、运 动和感知组成要素为基础,对各组成要素及其间的信息处理、接口耦合、运动传 递、物质运动、能量变换机理进行研究,使得整个系统有机结合与综合集成【2 4 j 。 并在系统程序和微电子电路的有序信息流控制下,形成物质和能量的有规则运动, 在高功能、高质量、高精度、高可靠性、低功耗意义上实现多种技术功能复合的 最佳功能价值系统的工程技术。 机电一体化技术为提升传统机械行业的生产力带来了巨大潜力,但机电一体 化技术作为一门多学科交叉技术给机械制造系统设计者带来了空前的挑战,不但 要求设计者相关知识面宽,而且软硬件设计调试经验丰富。微电子技术的发展, 超大规模集成电路的频繁使用,一方面使已有设计资源的积累越来越丰富,另一 方面也给设计者的方案确定带来了难度。工业环境既要求系统可靠运行,又要尽 量降低成本。因此,机电一体化系统设计的计算机化、智能化是必然要求。在当 代,以计算机为代表的信息技术的迅猛发展,给传统产业的提升带来了巨大契机。 计算机的发展目标不仅仅是用机器代替人来记忆、处理数据,更重要的是实现真 正意义上的帮助人创造性地思考问题、解决设计上的问题,然而这方面的研究还 很少。知识是这样的一种信息,它是可以描述的但又是不可能完全描述清楚的, 常常是用自然语言表示的【2 j 。将自然语言表达的设计知识形式化为计算机可以用 来推理的知识是一个智能化的机电系统设计软件的基础。因而知识工程的应用将 是今后机械学科研究的一个重要内容。 1 2 人工智能与自然语言处理的发展 1 2 1 智能化的含义 智能是人们在认识和改造客观世界的活动中,由思维过程和脑力劳动所体现 2 机械制造领域汉语数量词与群体关系形式化处理研究 出来的能力,即灵活地、有效地、创造性地进行信息获取、信息处理、信息利用 的能力。智能的核心在于知识,包括感性知识与理性知识、经验知识和理论知识。 从知识的观点看,智能表现在:知识的获取、处理和应用能力【3 l 。 智能理论是探索人类智慧的奥秘与规律及在机器中复现人类智能的科学,是 现代科学研究的前沿。目前智能理论及技术在各个领域已得到广泛的应用,但对 于智能理论的研究不外乎两个方面,一方谣是对智能的产生、形成和工作机制的 直接研究;另一方面是研究如何用人工的方法模拟、延伸和扩展智能,以及研究 如何提高机器特别是计算机的智能水平,使机器成为具有感知、推理、决策的智 能机器系统。前者称为人类智能理论,主要是生理学和心理学研究者所从事的工 作;而后者称为人工智能理论,主要是理工科研究者所从事的工作。从智能科学 研究的途径来看,智能、人工智能、自然智能的关系如图1 1 所示。 图1 1 智能科学的分类 1 2 2 人工智能技术在机电产品设计制造中的应用 具有人类智能或者能模拟人类智能的系统称之为智能系统。它能对一个过程 或其所处环境各种固有的信息和知识进行学习,将获得的知识用于估计、分析、 决策和控制,使系统处于最优状态。当它遇到未学习过的事例时,有能力做出合 适处理。系统出现局部故障时可持续工作,甚至能分析和修复故障。系统有相当 的灵活性和主动性,能在人物要求的范围内主动采取措施,当任务有冲突时,可 指挥控制器予以解决。 人工智能在机电一体化技术中的研究日益得到重视,机器人与数控机床的智 能化就是重要应用。智能机器人通过视觉、触觉和听觉等各类传感器检测工作状 态,根据实际变化过程反馈信息并作出判断与决定。数控机床的智能化体现在各 类传感器对切削加工前后和加工过程中的各种参数进行监测,并通过计算机系统 作出判断,自动对异常现象进行调整和补偿,以保证加工过程的顺利进行,并保 证加工出合格产品。随着制造自动化程度的不断提高,信息量与柔性也同样提高, 第一牵绪论 藏甏馨髓锻造系统控谶爨寒模攒人类专家兹智巍藩造疆渤,对制造中静阔题进行 分析、判断、擐理、构思和决策,其目的在于取代或延伸制造工程中a 的部分脑 力势确,并对人炎专家翡豢l 造鬻怒进露淫粲,襻德、煮黪、共搴、继承姆菠震。 翳争 人工橱麓瘫壤予瓿攘我计领域,出现了智能e a d 蕊统,可以说人工智能 羲术涵羧了撬魄一体键系统的餐令方霭,扶鹫跨至婚造爨每一个繇节。 总乏,智能化的、自主的计算机和机器人的采用将便社会缩构发生撤本性的 改变f 4 。 1 2 。3 自然谱言处理概述嘲 裔然语言处理是计簿桃科学领域嗣人:f 智自& 领域中的一个霞要方向。它研究 能实现人与计算枫之瓣用自然语言:辇 霸霄效运绩憨蔷耱璇论秘方法。 困戴,这一领域的研究将涉教有然语言,鄙人们日常使用的语言,镪插中文、 箕文、俄文、弱文、德文、法文等,所潋宦与语言学的姘究有麓密切的联系,位 叉育羹要懿送掰。鑫然语言处理并不怒一般越研究自然诺富,聪在于研制能有效 速囊瑗忿瞧语塞通落懿谤算撬系统,黪爨是其巾戆软馋系统。瓣露它跫计算捉科 举的一部分。 语言是人类区别其他动物酶本质特性之- 。在所鸯生貔中,只有人类才其舂 罨言能力。人淼豹多释智麓都与薅言甏蕾密锈熟荚系。人炎懿逻辑愚缀鞋语袁态 形式, 类的绝大部分知识也怒雌语言文字酶形式记载和流传下来豹。匿而,宗 也是人工智能的一个鹫要方面,裁至棱心部分。 用岛熬语蠢舄计髯橇进行通信,这是人 f 3 长期l ;点来所遗求的。因为它既鸯黉 爨麴蜜涿意义,弼随邀有重要瓣瑗谵意义:人 j 掰峨阁自鑫摄习攒的谱宵米链溺 计算机,而无需辫诧大量的时间和精力去学习不搬鑫然和习惯的各种计算机语嵩 人们瓷可逶过它撩一步了解人类的话言戆力和糟娩鹣枫制。 实现入枫灏鑫然遥京透篷憨睬着要使计算机既能理解自然语言文本的意义, 瞧麓魏国然语骞文零来袭这绘寇鹣意蕊、思戆等。蓠者称淹囊然语言瑾躲,鑫纛 称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然浯吉患 成两个灏分,并琵经形成一门凝游擎辩诗熬语言学 6 l 。爨史上对盎然谮富褒 解研究褥较多,衙对自然语言生成研究得较少。健这耱状况近年来已有掰改变。 无貔实蠛囱然语嵩理解,蛭是自然语吉生成,帮远不熟入销原来慧鼗的黉g 么 简单,丽是十分嗣滩的。从曰霸茸的理谂靳技术现状看,通用的、高质量的自然谮 寒处理系绕,秘然是较长袈的努力爨橛,避嚣对一定纛髑,典有相当蠹然懑蠢 处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子肖; 嚣静数攥痒移专滚系统的叁然语富接目,各种枫器翻译系缡、全文信息检索累境, 4 机械制造领域汉语数量词与群体关系形式化处理研究 自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语 言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上 广泛存在的各种各样的歧义性或多义性( a 皿b i g u i t y ) 。 一个中文文本从形式上看是由汉字( 包括标点符号等) 组成的一个字符串。 由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、 节、章、篇。无论在上述的各种层次:字( 符) 、词、词组、句子、段,还是 在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字 符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有 不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规 定而得到解决的。也就是从总体上说,并不存在歧义。这也就是我们平时并不感 到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看 到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完 整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去; 以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不 是少数人短时期内可以完成的,还有待长期的、系统的工作。 以上说的是,一个中文文本或一个汉字( 含标点符号等) 串可能有多个含义。 它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可 以用多个中文文本或多个汉字串来表示。 因此,自然语言的形式( 字符串) 与其意义之间是一种多对多的关系。其实 这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义, 而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语 言输入转换成某种无歧义的计算机内部表示。 歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言 学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语 言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规 模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、 研究性的演示系统。 大约从2 0 世纪9 0 年代开始,自然语言处理领域发生了巨大的变化。这种变化 的两个明显的特征是: ( 1 ) 对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不 是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制 的系统才有真正的实用价值。 ( 2 ) 对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能 对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语 第一章绪论 5 占文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要 等等。 同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性 工作也得到了重视和加强。 ( 1 ) 大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库, 是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。 ( 2 ) 大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词, 含有丰富信息( 如包含词的搭配信息) 的计算机可用词典对自然语言处理的重要 性是很明显的。 虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看, 由于采集、整理、表示和有效应用大量知识的困难,这些系统更依赖于统计学的 方法和其他“简单”的方法或技巧。而这些统计学的方法和其他“简单”的方法 似乎也快达到它们的极限了,因此,目前在自然语言处理界广泛争论的个问题 便是:要取得新的更大的进展,主要有待于理论上的突破昵,还是可由目前已有 的方法的完善和优化实现? 答案还不清楚。大致上,更多的语言学家倾向于前一 种意见,而更多的工程师则倾向于后一种意见。回答或许在“中间”,即应将基 于知识和推理的深层方法与基于统计等“浅层”方法结合起来。 1 2 4 领域汉语处理与自动知识获取 专家系统在机械制造领域中广泛应用,专家控制器就是一个很好的例子。专 家控制( e x p c nc o n l l d l ) 是智能控制的一个重要分支,又称专家智能控制,所谓 专家控制,是把专家系统的理论和技术同控制理论、方法与技术相结合,在未知 环境下,仿效专家的智能,实现对系统的控制。基于专家控制的原理所设计的系 统或控制器,分别称为专家控制系统或者专家控制器。 为了使智能控制系统能像人类专家那样处理和解决领域问题,必须从专家等 知识源吸取足够的知识,而知识必须以适当的形式表示出来才便于在计算机中存 储、检索、使用和修改等。对知识工程而言,知识表示是一种计算机可接受的对 人类智能行为的描述。它是一种符号模型的约定,将人类知识通过一个符号模型 映射到计算机中。 知识获取是指在人工智能或知识工程系统中,通过非自动方法或自动方法实 现计算机从知识源获取知识的过程。知识源包括专家、书本、数据库及人们的经 验等。 知识获取的目的是通过计算机对人类专家的丰富知识高速地加以收集、整理, 并在此基础上建立各种高性能的知识系统,以帮助人类解决那些单独依靠人难以 机械制造领域汉语数量词与群体关系形式纯处理研究 解决或解决起来太慢、效率太低的各种问题。 在基于知识的专家系统中,解决如何获取知识是一个十分重要的问题。在早 期专家系统的建立过程中,翔识获取工佟主要是知识工程辉与领域专家密切配合, 疆人工方式实现静。知识的聚集、提炼、表示秘编码欧及调试修敬都是由知识工 程师完成的。为了减轻知识工程师的负担,加快知识获取的进程,目前,人们将 智能化编辑和编译技术应用于知识系统,负责把知识转化为计算机可存储的内部 形式,然后把它们存入知识库,从而构成半自动型的知识获取方式。 基于枫器学习雏叁动知识获取是让计算机囊接扶环境中获取全部信息。首先, 出枫器感知接受外部环境的信息( 语言、文字、强像等) ,经过感翘系统的初步处 理后,可以得到一些简单的事实性知识。如果簧得到进一步的知识,必须经过杌 械学习系统和机器识别系统处理。经过机器识别系统处理后可以得到的分类知识、 信息的特征以及信息的特征以及信息的结构知识等。而知识学习系统可以提供更 高层次的知识,宅可以檄撂环境信息形成概念,进行归纳推理、文法接断、假设 猜测乃至科学发现等一些离屡次静知识。鲡果按照学习系统所使麓豹学习方法分 类,可将学习系统分为机械斌学习系统、类蹴学习系统、类比学习系统、示倒学 习系统、指导学习系统、发现式学习系统。 本文研究的最终目的就憋将领域汉语自然谬富理解处理技术应用到机电一体 化领域靛专家系统自动知识获取中,用于将自然诺言描述豹设计知识、设计经验、 控制经验、设计文敲臻簧警形式化存储于计算枧知识痒中的知识或者案俩。基于 此秘的,本文立足予领域汉语的计算瓿赴毽,在分析和研究各种巍然语言理解理 论特点的基础上,建立了机电系统设计领域基予资源模型的数量词和群体关系处 理模烈,并将其应用到了机械测试领域中传感器的自动知识获取中。 l 。3 现代汉语数量词理论的研究现状1 】 数爨观念是入类社会发展到一定阶段的产物,折射弱语言巾成为数量范畴。 数量作为一种重要的认知范畴,很早就引起荧注。爨词的应用是汉藏语系的一个 特征,别的语系里虽然也有袭单位的词,但一般只限于度量衡,用数词岛名词( 或 动词) 结食表事物的数薰时可以不需要单位词作为中介。汉藏诱系则不然,特别 怒域代汉语,上述馈形囊试几乎是不可省略豹,因戴它是中文谊息处理中的重点 和建点。 新时期对数量问题的研究已经不限于对语吉事实的描写,而怒璺现多元化的 格局,具体表现是:一、研究的范围广了,学者们已不满足于单纯描写数量词的 用法,还将重叠问题、形容词的级次、动谰的擐、表量副词、数量词的修辞效果 等等纳入数量范畴静褫野,劳试踅建立投滔的羹范畴系统f 李字爨汉语量范畴磷 第一章绪论 究,2 0 ( 聊;二、开掘的深度增加了,以往对数量问题的关注一般是描写数量词 静掰法,残者宏鼹考察名调、动词、形容词戳及副词中髂囊瑷象,疆在还探索数 蠼范畴对于相关语法现象的制约作用,以及与其他范畴共现时的相互选择等等; 三、研究的方法爨新了,鞋往鹊移 究主要黻描鸳为主,这时期在撼写豹基础上 还试图做如解释;四、与国外的沟通更多了,除了继续对汉语的语法事突进行发 撼终,逐介绍了翻多 这方灏豹研究成果,因此g 鼹界更开阏了。主要表现褒以下几 方面: ( 1 ) 对汉语数调、量词语义特征及其相关趣题的研究。二十世纪八十年代以前 有过许多对数词和量词以及名词搭配的详细描写,这一阶段也有这类成果。邢福 义f 1 9 9 3 ) 专f j 讨论了“半”和“双”这鼹个兼有数词和量词用法的词的种张语法 表现及篡语法归耩问题。但此时这方面的研究主簧从语义特征分析的角度进行, 因此规律性和搬括性更强。马庚栋( 1 9 9 0 ) 利用【次序】【范围】两对语义特征对数 词和量词进行分类,通过数词和嫩词语义特征的缀合推断燕个数纛结构的意义、 语法分布和语法性质。吴雅慧( 1 9 9 4 ) 等则通过分析量词的语义特征考察它们对数 诵的选择。召s 敬敏( 1 9 9 6 ) 分板了动量词的语义成分及其对与之缀合的动词的语义 选择,并绘制了一张动词和动量词相互选择的流程图:文章还谈及量词与名词组 合时的种嵇复杂关系。 ( 2 ) 对汉语数量结构的研究。学者们就数量结构的构成和表意特点进行描写并 热良解释。马庆橡g 9 9 0 ) 考察了汉语数爨结构的连用现象,撂毒连耀包耩连续连 用和间隔连用两种。连续连用可以形成加合关系、偏正关系、主谓关系、联合关 系;在考察闰隔连角对,幸挈者发瑷,动谰精嚣个数量结构连用蕊又没有赢接关系 的格式是受排斥的。李i f 益定( 1 9 6 0 ) 曾经谈到一种表“每”的数量结构( 如“四张纸 糊一个鬻户”) ,敬志平( 现代汉语语法会议论文,2 o 垂掰分辑这种数黧对应旬, 将其分成表示动态的事件和恒常的情况两种,认为表“每”是数量对应句中两个 数量成分之润对疲关系在恒誊猿獯下豹释特拣表瑷。零字胡( 1 9 9 8 a ) 讨论了“一 量( 指单位词,下同) v p ”结构,考察了能进入该格式的黛词和动词的范围,归纳 了“一缀v 矽格式静表意特点,指出格式有不禽“裁”秘含“懿”巍释,篱者表 示动作行为的快捷,后者既强调结果又包含“一量”的墩值较少这样一种主观评 徐。次年又接写了汉语“一v ? 量”结构,缭出该格式的四摹申变体形式殴及它们之 间发生学上的联系,认为这个结构带有小夸张意味,其中的数量词语表示主观大 撬。 ( 3 ) 对数量词“u 强t i f i 啪辖域的关注,此类研究在国内比较少飕,仅觅于李薨 哲( 1 9 8 2 ) 秘沈家煊( 1 9 8 5 ) ,两人注意至数量词的位置对辖域的影响。李英蜇探讨了 汉语数鬣谰和否定词的共现问题。他在文章中区分了全数与单一数量、部分数茧 秘剩余数量,认为全数与零一数擞的对立出量词耧域s c o p e ) 和前提0 f e s u p p o s j t i o n ) 8机械制造领域汉语数量词与群体关系形式化处理研究 决定。作者认为,数量词通常可以作为主题化的名词组来表示全数,这是“每天 不少人上教堂”和“不少人每天上教堂”的区别之所在。这是第一篇将国外量词 辖域研究引进汉语的文章。沈家煊对比英汉语全称量词、存在词和否定词的辖域, 指出两种语言的量词在语法功能上不对应,并讨论了由于辖域不同引起的歧义现 象,认为汉语的语义辖域与词序一致,而英语句子依靠改变逻辑语词的相对次序 不一定能消除歧义。 ( 4 ) 对数量制约语法结构问题的探讨。陆俭明最早撰文讨论数量词对语法结构 的制约作用。他指出,数量词语不仅具有表量作用,还有指代、构成特殊句式以 及制约某些句法结构的作用,举例说明某些句法结构非有数量词语不能成立、没 有数量词语只能形成粘着的句法结构和某些数量结构排斥数量词语等三种情况, 提醒人们:在语法研究中,看似孤立的语法现象背后可能有着一致而概括性的制 约机制。 1 4 本文的主要工作 本文通过对机电一体化系统设计过程的研究,认识到知识工程对于机电一体 化系统的设计有着重要的现实意义,而知识获取又是知识工程的重点和难点。针 对这个问题,本文以机械测试领域的传感器设计为依托,着重对该领域内的汉语 数量词和群体关系进行了初步探讨,目的是实现一个专家系统自动知识获取的原 型系统。通过对以自然语言形式表达的领域知识进行理解和分析,并将分析结果 转化知识库中的知识,为专家系统的建造提供支持。 本文完成的主要工作如下: 根据机电一体化领域中汉语自然语言理解的特点,确定了在该领域内应用 自然语言理解应该采用基于知识的方法。 搜集了领域内常用的数量词,并依据领域给出了一个较为的合理的分类。 将领域中的名词看成资源,以资源模型”为理论基础分析了领域汉语中群 体关系的产生因素。详细阐述了数词、量词以及特殊量词“个”的语义,重点说 明了数量词、隐含数量信息和群体关系理解的初步实现方法。 将领域汉语理解系统应用于传感器知识获取系统中,经过初步调试,取得 一定的成果。 总之,全文以资源模型为理论基础,结合精密测试领域中的传感器设计知识, 分析了领域汉语中的数量词语义理解以及群体关系的形式化处理方法,取得了一 定的成果,相信这一工作对自然语言理解在各个领域中的应用做了次有益的尝 试。 第二章领域汉语理解的理论基础简介 9 第二章领域汉语理解的理论基础简介 全面自然语言理解虽然较难实现,但面向领域的自然语言理解可以达到很高 的成功率,已有证明。在知识工程和自然语言处理领域,出现了诸多理论。在国 外,出现了研究本体论( o n t o l o g y ) 的热潮,目的是实现形式化知识的共享与重 用。早期出现的概念从属理论( c d ) 仍然在自然语言理解的知识表示中占有重要 地位。在国内,黄增阳先生提出了h n c 理论,以概念层次的思想来解决自然语言理 解问题。面向并行工程领域的资源模型理论较好的解决了资源在设计中如何有效 利用的问题,资源模型注重在看到事物抽象本质的同时也要看到事物的变化【_ ”。在 工程领域中,自然语言中的名词大多时候代表着一种资源,人们描述资源的过程 也就是资源内部或资源间产生关系的过程。因此,以资源模型理论为指导可以更 加有效地建设机械领域的知识库,合理地利用知识库,更容易实现资源内部及资 源间推理。本文则着重以资源模型为基础分析了自然语言中常见的群体关系。在 本章中,首先介绍资源模型的基本理论,然后以资源模型和产生式规则为基础介 绍本系统的知识库建设和领域自然语言的实现方法。 2 1 1 资源的本体 2 1 资源模型简介 资源的本体是关于该资源所有事实的集合,这些事实都是永真的,它们或是 反映了资源的特点,或是反映了资源的性质,或者反映了资源的功能。 由于事实可描述为命题,故资源的本体可用一系列永真命题的公式来表示。 这些命题不仅反映了逻辑的真,而且反映了事实的真,因此,以下称本体中的命 题为永真命题。 定义2 1 基本永真命题是关于资源的基本描述,它由一组命题组成,其中的任一 命题都不能由组内其它命题推出,并且关于资源的所有其它命题均可由组内的命 题推出。 定理2 1 设资源c 的本体,( c ) 中的基本永真命题为p l ,p 。,p ”,p k , 则 j ( c ) 一p 。八p z 八八p t 八八p k ( 2 1 ) 且 p 。八p 2 八p 。八八p k 一( c ) ( 2 2 ) 关于该定理的证明可直接由定义2 1 得出。 1 0 机械制造领域汉语数量词与群体关系形式化处理研究 其中式2 1 说明,当我们认为某一资源本体为真,则本体的任一基本命题为真。 它是日常生活中推理的一种手段。以表2 1 中“平面三角形”资源的本体为例,当 确认某一图形为平面三角形时,则可认为其中的任意一个基本命题( 如命题4 ) 均 为真。 式2 2 则说明资源本体中的一部分命题构成了资源存在的基本条件,也可以说 这部分命题构成了该资源的定义,这些命题的增减或永真性的破坏,都将使原资 源破坏,并有可能产生新资源。 同时2 2 式还提供了识别一个资源的方法,是识别与诊断系统的基础。即如果 我们能确认某一资源本体内所有基本命题为真,则可肯定的确认该资源。例如, 当我们认为表2 1 中所有基本命题为真时,则可以确认该资源为平面三角形。 表2 1 平面三角形概念的内涵 1 有三条边a ,b ,c : 2 有三个角z a ,么b ,么c ; 3 三条边首尾相连; 4 z a + 么b + 么c = 1 8 0 。: 1 5 5 1 面积= 妄底高; 二 5 2 面积= s ( s 一4 ) ( s 一6 ) ( s c ) : 1 s = 妄( a + b + c ) ; 二 推论一设q 。为资源c 本体i 内的任一永真命题,则以下命题为真。 i q i 从推理的角度讲,正是资源与其本体中任一永真命题的上述蕴涵关系为日常 推理提供了依据。 定义2 2 等价永真命题是可以从基本永真命题推出的、关于资源某一方面的等价 描述。 等价永真命题表示了自然语言的“也可以描述为”。例如,表2 1 中从永真命 题5 1 可推出永真命题5 2 。 定理2 2 设本体中的命题为q 。,q 。,q 。,q 。,q ;的等价永真命题为q ,。, q 。,q 。,则本体i 可描述为: i q ,八q z 八八( q 。- 八q t z 八q t _ ) 八八q 。 ( 2 3 ) 此定理的证明可以由定义2 2 与定理2 1 直接得出。 2 3 式是对2 1 式及2 2 式的拓展。一方面,它说明在从资源本体到其中命题的 第二章领域汉语理解的理论基础简介 1 1 推理中,不仅可以推出基本命题,也可以推出相关的等价永真命题。另一方面, 也可以通过等价永真命题来识别相关的资源。 资源本体内的命题是永真的,不可变的。但本体内构成某一命题的资源并非 不可改变。例如在表2 1 中,命题2 中角的形式,角是由两条有共同端点的射线组 成的图形,角具有多种形式,具体现在哪种形式,只要不影响平面三角形本体的 永真性,就不会影响平面三角形资源内命题的永真性。 2 1 2 资源的变体 定义一变体e ( c ) 由变量e ,e 。,e 。组成,相应的值域分别为d ,d z , d 。,这些值域构成一个笛卡儿乘积空间d = d ,d 。队,d 中满足本体i 约束的子 集称为资源k 的变化范围,记为d ,d c d 。d 中任意一个点( d - ,也,d k ) , 记为d k 。 例如资源“平面三角形”的变体表示如下: 表2 2 平面三角形资源的变体 1 三条边a ,b ,c 的值; 2 三个角么a ,么b ,么c 的值; 3 三角形面积的值; 变体的变量可以是连续变量、离散变量,也可以由连续变量与离散变量混合 构成。当变量的值域包含无穷多个值时,笛卡儿乘积空间是一个无穷集合,其子集 可以是无穷集合。 2 1 3 本体与变体的关系 本体是变体的完整约束,这种约束可以是对单一变量取值的约束,例如三角 形a b c 的么a o ;也可以是对几个变量的约束,如三角形a b c 中么a + 么b + 么c = 1 8 0 。 由于本体约束的线性相关性,变体变量所构成的笛卡儿空间可能会产生退化 现象。例如三角形中六个变量,有边a 、b 、c ,和角么a 、么b 、么c ,其中能独立 起作用的只有三个变量,即平常所说的三条边或两边一角或两角一边即可确定三 角形,因而六维笛卡儿空间退化为三维空间。从这个角度说,变体是在资源本体 约束下的资源的可行空间。 资源的本体是反映事物的内容或质的规定性,而变体则是指事物的适用范围 或量的规定性。资源的本体和变体存在着反变关系。所谓反变关系就是说资源的 本体增多,变体就缩小;反之,本体减少,变体就扩大。资源的本体描述了资源 的内在性质,对一具体的产品,必定有其丰富的功能( 本体) ,但对产品来说本体 机械制造领域汉语数量词与群体关系形式化处理研究 也并非越丰富越好,因为产品本体的丰富是以变体缩小为代价的,本体越丰富, 其对变体的约束能力越强,产品对外界环境的适应能力越低,产品的适应范围也 就越窄。 2 2 领域汉语理解的知识表示方法 在自然语言中,语句经常有多种含义,因此全面自然语言理解的实现存在很 大困难,而基于领域则可以大大减少系统的复杂性。同时,将静态知识添入事实 库进行合理的抽象,可以大大降低处理的难度。因此,我们的系统采用基于领域 和基于知识的处理方式,句子进入系统后将依次进行词法分析、句法分析和语义 分析。 自然语言理解的研究不但要运用语言学中的词汇、语法、句法、语用和语义 学知识,而且还要涉及到大量的客观世界的知识以及与其相关学科的知识。自然语 言处理和人工智能的其他领域( 如定理证明、问题解答、模式识别、机器博弈和机 器人科学等) 的根本问题都是知识表达和利用问题。说的全面一点就是:如何去获 取各种不同的知识,并以一种计算机可以使用和处理的方法表达知识。实际上,一 旦适当的知识结构和表达理论充分建立了,那么自然语言处理的瓶颈问题也就消 除了。 通常,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个词: 从词义构造表示语句意义的结构;从句子语义结构表示言语的结构。在这三个过 程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问 题。 针对在第一章提出的基于机械制造领域的基于资源本体、变体的语义分析方 法,需要建立一种完整描述领域内资源的本体、变体的方法,以及在此基础上采 用合理的语义分析方法。 机电系统设计的过程,实际上是资源分析利用的过程。同样,由计算机实现 自动分析也是这个道理。这期间伴随着资源内部的推理以及资源间相互推理,下 述两种知识表示方法符合推理要求,因此系统采用了以下两种知识表示的方法。 1 产生式表示法削 产生式知识表示法又称规则表示法。它的一般形式是:i f t h e n ( 或 ) ,它的推理机制以演绎推理为基础。产生式系统最初是由p o s t 于1 9 4 3 年提出的一种计算机制。1 9 6 5 年由s i m o n 和w e l l 引入到基于知识的系统中来。目 前已是专家系统中使用最广泛的一种表示方法,一般将这种系统称为基于规则的 系统。 产生式系统优点:模块化;提供了高粒度的信息( 事实和规则) ,信息可以 第二章领域汉语理解的理论基础简介 很容易地添加、更新和删除;自然易于表示启发式知识、特别是允许更多的直接 演绎处理特殊领域的信息。 产生式规则缺点:在大系统中,规则难以保持模块化,对规则之间相互作用的限 制可能导致降低效率;程序执行效率低,非透明性,不可理解性,难以跟踪求解 问题的控制流当处理的知识块很大而处理基本顺序的信息是,知识和控制区分不 明显,尚未解决一致性和完整性问题,缺乏形式化描述能力。 2 框架( f r 鲫e ) 表示法” 框架理论是m i n s k y 于1 9 7 5 年提出的,将知识表示成高度模块化的结构。框架是 把关于一个对象或概念的所有信息和知识都存贮在一起的一种数据结构。其一般 表现形式为: 框架名名字 槽1 名槽1 的值 槽2 名槽1 的值 约束1约束条件l 约束2约束条件2 框架的层次结构可以表示对象之间的相互关系,用框架表示知识的系统称为 基于框架的系统。在专家系统中,柜架也常常和产生式规则一起共同表示知识。 框架表示存在如下问题: ( 1 ) 知识管理问题:由于知识框架表示的柔软性和多样性复核知识间的整体性 和完全性是一件困难的事。 ( 2 ) 模型化问题:由于推理方法不固定,泛用性高,因而加重了用户的负担。 2 3 基于资源模型的抽象层次树 在资源模型r7 j 理论中,资源的选择与例化具有继承性,实施例化与选择运算 后的资源完全继承了原有资源本体,因此,这两种资源具有继承性,而继承实际 上是对资源本体的继承,是对资源中确定部分的完整继承。相对抽象资源关于相 对具体资源总是具有较少的内涵,较宽广的外延。相对于抽象资源,具体资源具 有较丰富的内涵及较小的外延。例化与选择运算在抽象资源和具体资源之间建立 的继承关系反映现实生活中的i s a 关系。正是这些资源间的这种关系的存在使得 事物问关系的描述得到了简化、提高了描述的效率。 确定资源间的继承关系其实就是一个抽象过程,抽象化是人们认识事物本质 的一条重要途径。抽象化作为一种思维方式,广泛存在于日常生活的各个方面, 1 4 机械制造领域汉语数量词与群体关系形式化处理研究 尤其在解决复杂问题上,作用尤为突出。它能透过事物的表象直达事物的本质。 人在思考问题时的一个普遍规律是希望问题简化( 自由度少) 、规范( 容易描 述) 、独立( 相关因素少) 。也即在思考问题的过程中,尽可能只考虑问题的主要 方面,这是由人的思维特点决定的。如果问题过于庞杂,人脑就会陷入思维的混 乱和低效。 基于以上原因,我们将资源间的抽象具体关系作为已知事实存入系统的静态 知识库中。以“滤波器”为例,系统静态知识库提供以下事实: ( a s s e n ( 抽象层次树( 树名滤波器) ( 标识滤波器o ) ( 当前结点滤波 器) ( 子结点有源滤波器无源滤波器) ( 分类标准按滤波器有无电源供电划分) ) ) ( a s s e n ( 抽象层次树( 树名滤波器) ( 标识滤波器1 1 ) ( 当前结点有源低通 滤波器有源高通滤波器有源带通滤波器有源带阻滤波器) ( 分类标准按滤波器信 号通过频率划分) ) ) ( a s s e n ( 抽象层次树( 树名滤波器) ( 标识滤波器1 2 ) ( 当前结点无源低通 滤波器无源高通滤波器无源带通滤波器无瓣带阻滤波器) ( 分类标准按滤波器信 号通过频率划分) ) ) ( a s s e r t ( 抽象层次树( 树名滤波器) ( 标识滤波器2 1 ) ( 当前结点一阶有源 低通滤波器一阶有源高通滤波器一阶有源带通滤波器一阶有源带阻滤波器) ( 分类标准按滤波器频带划分”) 有了这个抽象具体关系,当前节点资源的本体事实就可以不用在它的下层资 源本体中记录了,所有资源的本体事实只要在根节点中记录即可:这样就有效的 减少了知识库的容量。同时,这种树还可以方便双向查找,即既可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论