




已阅读5页,还剩102页未读, 继续免费阅读
(管理科学与工程专业论文)符号系统与神经网络相结合的知识求精技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
符号系统与神经网络相结合的知识求精技术研究 摘要 知识求精是开发智能系统和机器学习领域中一个非常重要而且 相当困难的课题,本论文作为国家自然科学基金( 7 0 2 7 1 0 0 2 ) 面向 智能性管理决策的异构知识表示与知识管理研究的系列研究之一, 主要致力于这方面的研究,旨在进一步推动知识求精的研究进展。 在智能系统的开发过程中,如专家系统,通常面临的一个问题是: 知识库中的知识经常存在冲突、冗余或不一致的情况,从而影响知识 的推理效率和精度,也阻碍了智能系统的发展,为此有专家学者提出 知识求精的概念。 知识求精不仅可以简化初始知识库,还可以修正初始知识库中的 错误知识、补充知识中不完整的知识,从而提高知识库的推理效率和 准确率,因此是开发智能系统过程中非常重要的一个步骤。由于其重 要性,国外的许多学者都很重视这方面的研究,至今已提出许多重要 的知识求精方法,例如,k b a n n ,k b c n n 等,这些方法有的比较复杂、 难于实现,有的求精后的规则其逻辑结构复杂,不易于理解和应用。鉴 于此,本文提出一种新的符号系统与神经网络相结合的知识求精方法 ( 简称k r s n n ) ,以解决上述方法的不足。 k r s n n 首先将初始规则库翻译成神经网络,然后采用训练数据对 网络进行训练,其中神经网络的误差函数采用交叉熵;训练完毕之后, 对网络进行剪枝,使得网络在较少的连接情况下,网络精度不降低, t 最后采用本文提出的s u b s e t i i 算法抽取规则,从而达到知识求精的 目的。 为了方便不同的求精方法进行比较也方便评价知识库的求精结 果,本文提出了求精规则的质量评价标准,从求精后规则库的推理精 度和推理效率两个方面评价求精质量。 本文作了大量的实验工作,将求精方法用于两个领域的知识库求 精,从不同方面检验k r s n n 的求精效果,以便验证k r s n n 的有效性。 其一是基因工程领域的启动子识别规则库求精,由于以往的求精方法 均以这一规则库为例,因此为了方便与其他求精方法进行比较,本文 也将其做为一个实例,采用相同的初始规则库、相同的训练数据,比 较不同的求精方法的求精结果。此外,以往的知识求精方法的试验领 域仅限于基因工程和医疗诊断等领域,为了扩展知识求精技术的应用 领域,本文还将知识求精应用于个人消费贷款审批的规则库求精。相 关的试验结果表明,k r s n n 可以取得很好的知识求精效果,具有方法 简单、运行效率高、抽取的规则逻辑结构简单、易于理解等优点,从 而可以部分的解决其他方法的不足之处。 总的说来,本文作了大量的理论和实证研究,其研究内容符合智 能系统研究的发展趋势,既具有十分重要的科学意义,同时又有其实 际价值,并有潜在的广泛的应用前景。 关键词:知识求精,符号系统,神经网络,规则抽取,规则质量评价 s t u d y0 fk n o w l e d g er e f i n e m e n t c o n 毋i n i n g s y m b o l i cs y s t e mw i t hn e u r a ln e t w o r k s a b s t r a c t k n o w l e d g er e f i n e m e n ti sv e r yi m p o r t a n tb u td i f f i c u l tp r o m b l e mi nm a c h i n e l e a r n i n ga n dt h ed e v e l o p m e n t o fi n t e l l i g e n t s y s t e m f e i l d s a so n e p a r t o f m a n a g e m e md e c i s i o n - o r i e n t e di n t e l l i g e n ts y s t e m ss t u d yo fi s o m e r i ck n o w l e d g e r e p r e s e n t a t i o na n dk n o w l e d g em a n a g e m e n t ”w h i c hi ss p o n s o r e db yn a t i o n a ln a t u r a l s c i e n c ef o u n d a t i o no fc h i n a ( n o 7 0 1 7 1 0 0 2 ) ,t h i sp a p e ra i m sa tt h es t u d yo f k n o w l e d g er e f i n e m e n tt e c h n o l o g yi no r d e rt op r o m o t et h em s e a l c hd e v e l o p m e n ti n t h i sf i e l d i nt h ed e v e l o p m e n to fi n t e l l i g e n ts y s t e m s ,s u c ha se x p e r ts y s t e m ,t h e r ei so n e p r o b l e me n c o u n t e r e dt h a tk n o w l e d g ei sa l w a y sc o n f l i c to ri n c o n s i s t e n t 、撕t he a c h o t h e ri nt h ek n o w l e d g e b a s e ,w h i c hd e f e c t st h er e a s o n i n ge f f i c i e n c ya n da e c u r a c yo f i n t e l l i g e n ts y s t e m s h e n s e ,s o m er e s e a r c h e r sp u tf o r w o r dt h ec o n c e p to fk n o w l e d g e r e f i n e m e n ti no r d e rt os o l v et h i sp r o b l e m k n o w l e d g er e f i n e m e mc o u l dn o to n l ys i m p l i f yt h ei n i t i a lk n o w l e d g eb a s e ,b u t a l s oc o r r e c te r r o ra n di n c o n s i s t e n tk n o w l e d g e ,h e n c e ,p r o m o t i n gr e a s o n i n ge f f i c i e n c y a n da c c u r a c yo fk n o w l e d g eb a s e a sar e s u l t ,k n o w l e d g er e f i n e m e n ti so n eo fh o t t o p i c sf o ro v e r s e ar e s e a r c h e r s ,a n ds e v e r a lr e f i n e m e n tm e t h o d sh a v eb e e np r o p o s e d , s u c ha sk b a n na n dk b c n n s o m eo ft h ee x i s tm e t h o d sa l et o oc o m p l e xa n d d i f f i c u l tt or e a l i z e ,a n dr o l e sr e f i n e ds o m e t i m e sa l et o oc o m p l e xt ou n d e r s t a n da n du s e t h ep a p e rp r o p o s e san e wk n o w l e d g er e f i n e m e n tm e t h o dw h i c hc o m b i n i n gs y m b o l i c s y s t e mw i t ha r t i f i c i a ln e u r a ln e t w o r k ( a n n ) ,a sc a l l e dk r s n n ,w h i c hr e m e d i e st h e l i m i t a t i o n so ff o r m e rm e t h o d s k r s n nf i r s tt r a n s l a t e st h ei n i t i a lr o l eb a s et on e u r a ln e t w o r k ,w h i c he m p l o y s i i l c r o s s e n t r o p ya se l l - o rf u n c t i o n ,a n dt h e nt r a i n st h en e t w o r kw i t hg i v e ns a m p l ed a t a ; t h et r a i n i n gp r o c e s ss t o p si f t h en e t w o r ka c h i e v e st h ep r e d e f i n e da c c u r a c y , n e t w o r ki s p r u n e dt or e m o v er e l u c t a n tc o n n e c t i o n si no r d e rt os i m p l i f yt h en e t w o r k a f t e rt h a t , t h i sp a p e rp r o p o s e sar e v i s e da l g o r i t h mo fs u b s e t ,c a l l e ds u b s e t i i ,w h i c he x t r a c t s r u l e sf r o mp r u n e dn e t w o r k i no r d e rt oe v a l u a t et h eq u a l i t yo ft h er e f i n e dr u l e s ,a n dc o m p a r ei tw i t ho t h e r r e f i n e m e n tm e t h o d s ,t h i sp a p e rp r o p o s e st w oc r i t e r i o n s ,w h i c ha r ed e f i n e da s r e a s o n i n ga c c u r a c ya n dr e a s o n i n ge f f i c i e n c yo f t h er e f i n e dr u l e b a s e t w oe x p e r i m e n t sa r ec o n d u c t e dt od e m o n s t r a t eh o we f f e c t i v e l yk r s n nc a n l e a r na n dr e v i s ei n i t i a lr u l e s f i r s t ,t h i sp a p e ru s et h ed o m a i no f m o l e c u l a rg e n e t i c st o r e c o g n i z ep r o m o t e r si nd n a n u c l e o t i d es t r i n g s ,t h ed a t ai sw i d e l yu s e db yk n o w l e d g e r e f i n e m e n tr e s e a r c h e r sa n di ti se a s ya n dc o n v i c t i v et oc o m p a r er e s u l t sw i t ho t h e r a l g o r i t h m su s i n gt h es a m ei n i t i a l r u l e sb a s ea n dd a t aw h i c ha r eo b t a i n e df r o mt h e p u b l i cd o m a i nc o n c e r n i n gm a c h i n el e a r n i n g t h es e c o n de x p e r i m e n ti sa p p l i e di n p e r s o n a lb a n kl o a ne v a l u a t i o n a l lt h ee x p e r i m e n t ss h o wt h a tk r s n nw o r k sq u i t e w e l lb u tm u c hs i m p l e r , a n dt h er e f i n e dr u l e sa r es i m p l e rb u te a s yt ou n d e r s t a n d ,a n d k r s n n s u r p a s s e so t h e rm e t h o di ns e v e r a ls p e c i f i e da s p e c t s t h i sp a p e rd oal o tw o r kb o t ho nt h e o r e t i c a la n dp r a c t i c a lf i e l d ,t h er e s e a r c h a c c o r d sw i t ht r e n d so fi n t e l l i g e n ts y s t e md e v e l o p m e n t ,w h i c hh a sg r e a ts i g n i f i c a n c e o na c t u a lp r a c t i c e k e y w o r d s :k n o w l e d g er e f i n e m e n t , s y m b o l i cs y s t e m ,a r t i f i c i a ln e u r a ln e t w o r k , r u l e e x t r a c t i o n ,e v a l u a t i o no fr u l e sq u a l i t y j v 附件一: 东华大学学位论文原创性声明 本人郑重声明;我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的 指导卜- ,独立进行研究工作所取得的成果。除文中己明确注明和引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:1 习枷 日期:2 0 谚年眵月巧日 附件二: 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可 以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。 保密口。在年解密后适用本版权书。 本学位论文属于 , 不保密弋五 学位论文作者签名 日期:- 够年i 瑚万,日 闷疮秽 指导教师签名:乇班 日期:;,庠1 , 9j 白 符号系统与神经网络相结合的知识求精技术研究 第一章绪论 本章作为论文的第一章,主要介绍本论文选题的背景及意义、知识管理与人 工智能的关系以及本文的研究路线及主要贡献等。 1 1 研究背景及意义 本文符号系统与神经网络相结合的知识求精技术研究是国家自然科学基 金项目面向智能性管理决策的异构知识表示与知识管理研究的系列研究之一。 随着人类在2 1 世纪全面进入知识经济时代,为适应智能经济市场发展,要 求信息系统、管理决策系统提高系统的运行效率和智能水平,向智能化、集成化、 协调化发展,以构成具有智能型管理决策系统。所谓的智能系统主要表现在知识 的利用上,知识的数量是影响智能系统能力的重要因素,但前提是这些知识应该 是正确的,因此智能系统中的知识面临着证实即求精的必要。因此,知识求精是 开发智能系统和机器学习中一个十分重要的研究内容。已有实践证明,知识求精 ( 精炼) 不仅可以大大简化知识库,还可以修正知识库中错误知识、补充知识库 中不存在知识,从而提高知识库的推理效率和准确率,解决初始知识的不完全、 知识之间的不一致、知识的不正确等问题。 传统的知识求精技术是基于单一符号系统的知识求精,虽然这方面的研究取 得了许多技术成果,如s e e k s e e k 2 、e i t h e r 埘e i t h e r 等。然而,单一符号 系统的知识求精也存在许多技术难题,如求精效率较低、容错能力差等。为此, 许多学者提出了将符号系统与连接主义相结合的混合系统知识求精思想,充分利 用神经网络的大规模并行运算机制、较强的自学习能力、较高的容错能力对初始 的符号知识进行求精。 符号系统与神经网络结合的混合知识求精技术的研究已经有十几年的历史 了。但仍然存在一些尚未解决的难题,而且,目前较多地应用实验领域还局限 于生物技术和医学诊断等一些领域。鉴于此,本文将以k b a n n 算法的思想为指 符号系统与神经网络相结合的知识求精技术研究 导,提出一种完整的三阶段知识求精方法k r s n n ( k n o w l e d g er e f i n e m e n t c o m b i n i n g s y m b o l i cs y s t e m w i t h n e u r a l n e t w o r k s ) ,旨在改进典型知识求精方法存 在的一些问题。然后将该方法用于启动子识别的规则库求精,并将求精结果与国 外典型的知识求精方法进行综合比较,最后将其应用于个人消费贷款审批领域的 知识库求精,以进一步拓展知识求精技术的应用领域。 总的说来,论文的研究内容无论是从理论方面还是从实践方面,都符合知识 经济发展的需要以及智能决策支持系统研究的发展趋势,既具有十分重要的科学 意义,同时有其实际价值,并有潜在的广泛的应用前景。 1 2 知识管理与人工智能的密切关系 众多研究者早己形成共识,人工智能系统是个知识处理系统,而知识表示、 知识利用和知识获取则成了人工智能系统得三个基本问题。而从知识管理的研究 内容看,无论基础理论研究、实用技术开发,均包括了知识的获取技术、知识表 示方法、知识推理、知识系统结构等。为此,知识管理系统表现出具有人工智能 及其系统的特点,可以说知识管理是人工智能的一个重要应用分支。而传统人工 智能不能很好进入实用的主要原因有知识匮乏、智能系统只含有少量的规则和事 实,以至智能水平不高,系统运行效率低。除知识多寡的影响外,知识是否正确 与精炼对系统的运行效率也有较大的影响。 知识管理的研究丰富了人工智能研究内容,使人工智能理论走向更深入、广 泛的领域。这可表现在: ( 1 )在知识处理技术上,传统人工智能中的符号智能方法与计算智能 ( 或称软计算,包括人工神经网络、模糊逻辑、进化计算等) 方 法都能提供一些规则生成、数据采掘、知识发现的方法,到一定 程度后,将会集成为综合型系统。 ( 2 )知识管理的模式( 四种) 及基本职能,以及如何实现知识间的转 换、求精及集成。在知识转换与求精方法运用中将把人工智能的 符号主义的专家系统及连接主义的神经网络方法进行集成,从而 使知识系统中的知识丰富、求精、集成并具有定学习能力,达 符号系统与神经网络相结合的知识求精技术研究 到改善系统智能水平、提高系统运行效率( i l l 点正是本文所研究 的内容) 。因此可以说知识管理的发展迸一步推动了人工智能的深 入、广泛应用。 1 3 本文的工作与主要贡献 符号系统和神经网络相结合的知识求精系统涉及三大阶段的工作:初始信息 的翻译,训练神经网络进行知识求精,从神经网络中抽取符号规则。与过去以及 现有大部分知识求精研究只强调前两阶段工作相比,本论文的研究将从整体出 发,将求精后蕴含于神经网络的“隐式”知识运用一定的规则抽取算法,将“隐 式”知识“显式化”。 1 3 1 研究内容 ( 1 )将初始的符号信息输入神经网络 i 根据初始符号信息确定神经网络:包括确定神经网络的拓扑结构、连 接权值、节点阈值等。 i i 将初始的符号信息翻译成神经网络的输入:主要是指训练样本的编码。 训练神经网络 选择一定的神经网络训练算法,本文采用基于交叉熵函数的误差反馈训 练算法,运用训练样本对神经网络进行训练。 从神经网络中抽取规则知识 将求精后的蕴涵在神经网络拓扑结构、连接权值以及连接阈值中的“隐 式”知识抽取出来,以显式规则表示,这是知识求精的最后一步,也是 很关键的一步。这阶段涉及的工作主要有神经网络结构的剪枝、抽取规 则、规则的化简等。 规则质量评价 以往的知识求精技术很少关注如何评价求精后规则库质量这一方面,本 文提出一个规则质量评价标准,指出从求精后规则库的推理精度和推理 效率两个方面评价求精后规则库质量。 ) ) ) “ 符号系统与神经网络相结合的知识求精技术研究 1 3 2 研究路线 ( 1 ) 将初始符号信息( 一组规则) 翻译成神经网络的输入,并根据输入 确定神经网络的拓扑结构、连接权值、节点阂值等 ( 2 ) 采用基于交叉熵函数的b p 算法对神经网络进行训练 ( 3 ) 对训练后的神经网络,在保证一定的网络精度情况下,剪枝不重要 的网络连接、节点,简化神经网络的结构。 ( 4 ) 采用改进的s u b s e t 规则抽取算法一s u b s e t i i ,从训练好的神经 网络中抽取符号规则,并对抽取出的规则进行化简,规则是以i fx a n dy t h e nz 形式表示。 ( 5 ) 采用一定的规则评价标准,评价求精后的规则质量。 1 3 3 本文的工作和主要贡献 ( 1 ) 设计一个完整的符号系统与连接主义相结合的知识求精方法 k r s n n ,方法包括从符号知识到神经网络、神经网络训练、从神经 网络中抽取符号知识等几大部分; ( 2 ) 提出一个新的规则抽取算法s u b s e t i i ,以改进原有s u b s e t 规则抽取算 法的规则数量过多、容易造成组合爆炸等缺陷。 ( 3 ) 提出一个规则质量评价标准,用以评价求精后规则库的质量。 ( 4 ) 以m a t l a b 为平台,实现了基于k r s n n 方法的知识求精系统; ( 5 ) 将知识求精方法k r s n n 应用于基因工程的启动子识别规则库求精, 并从各方面将k r s n n 与其他知识求精方法进行比较,分析各种求精 方法的优缺点; ( 6 ) 将k r s n n 应用于个人贷款审批的规则库求精,比较求精前后的规则 库质量。 符号系统与神经网络相结合的知识求精技术研究 1 4 论文的结构 本论文共分五个章节,第二章介绍知识求精技术的基础知识及其国内外研究 现状,第三章将重点介绍本文提出的一种新的符号系统与神经网络相结合的知识 求精方法k r s n n 。本论文的第四章将通过两个重要试验启动子识别的 知识库求精和个人消费贷款审批知识库求精,从不同方面验证k r s n n 方法的有 效性,并将其求精结果与其他知识求精方法进行比较分析。最后,将总结k r s n n 方法的优缺点,并提出符号系统与神经网络相结合的知识求精领域的进一步研究 内容。 符号系统与神经网络相结合的知识求精技术研究 第二章背景知识介绍 作为本文的第二章,本章首先谈到基于知识系统( k b s ) 发展过程中的两个 瓶颈问题以及知识求精技术概念,然后在介绍神经网络的一些基本知识基础上, 讨论将神经网络引入知识求精技术的原因以及一些典型的符号系统与神经网络 相结合的知识求精方法;在本章的最后,将介绍目前国内外知识求精技术的一些 研究现状。 2 1 基于知识的系统与知识求精 2 1 1k 8 5 的发展瓶颈 基于知识的系统( k n o w l e d g e b a s e ds y s t e m ,k b s ) 又称为专家系统( e x p e r t s y s t e m ) ,是在2 0 世纪6 0 年代初期产生和发展起来的一门新兴的人工智能的应 用学科,2 0 世纪7 0 年代中期,专家系统的开发获得成功。因为专家系统可以运 用总结出的专家知识,模拟专家进行知识推理,从而部分的解决专家资源的稀缺 性。自第一个专家系统m y c i n 出现之后,专家系统不仅吸引了大量专家学者 的研究热情,而且也极大的促进了专家系统在医疗诊断、农业等领域的应用。一 般束说,专家系统包括以下几个部分:工作数据库( w o r k i n gm e m o r y ) 、知识库 ( k n o w l e d g eb a s e ) 、推理机( i n f e r e n c ee n g i n e ) 和用户界面( u s e ri n t e r f a c e ) q o 专家系统的开发过程包括:问题定义、系统分析、构造知识库、系统实现等 几个步骤,详见图2 1 所示,其中比较重要的有如下几个环节: ( 1 )“开发工具选择”:是指从头开发,还是采用已有的骨架系统 ( b a c k b o n e ) ; ( 2 )“构造知识库”:这一步是专家系统开发过程中非常重要的环节,首 先需要进行知识获取,既可以采用手工获取,如果有条件的话,也可 以采用自动或半自动的方式,获取到知识之后,需要进行概念化,用 合适的知识表示方式将知识形式化,并存放到知识库中; ( 3 )“系统实现”:知识库构造完毕之后,进行系统实现,就得到了原型 系统,该原型系统没有经过实践的检验,其知识库中的知识是初始的; “ 符号系统与神经网络相结合的知识求精技术研究 ( 4 )“测试和验证”:在正式投入使用之前,有必要对知识库进行测试和 验证,因为一般来说,初始知识库往往缺乏相应的意外问题处置方法, 存在矛盾或冗余的规则,或者知谚 的使用结果与专家给出的结论无法 吻合,所以需要不断对知识库进行修正,以期望获得一个结构良好、 功能完善、知识相对完备的高质量知识库。 图2 1 专家系统开发过程 在专家系统组成部分中,知识库和推理机是其中的核心部件。相对来说,推 理机是不经常发生变化的,而知识库中的知识则经常发生变化,同时在专家系统 构造和使用过程中,存在两大问题: ( 1 ) 知识获取 知识库中知识的获取越来越成为专家系统发展的瓶颈【2 】【3 】,因为在自动学习 还不能普及的情况下,知识获取主要依靠知识工程师( k n o w l e d g ee n g i n e e r ) 的 人工获取,即从领域专家那里获取知识,这一过程是非常复杂的个人与个人的交 互过程,有很强的个性和随机性,不仅效率低,而且在获取的过程中会发生失真, 因而不可能与专家的本意完全符合。 有两个方法可以解决知识获取这个难题。第一是在知识手工获取的基础上, 符号系统与神经网络相结合的知识求精技术研究 尽量采用自动或半自动的获取方式,从而提高知识的获取效率,减少人为原因所 造成的失真,在这方面主要是采用机器学习技术( m a c h i n el e a r n i n g ) ,例如遗传 算法、神经网络等;第二,在知识获取过程中,采用知识求精( k n o w l e d g e r e f i n e m e n t ) 技术,修正知识库中存在的冲突、冗余或不一致的知识。如b u c h a n a n 等提出知识获取的主要步骤是:识别、形式化、实现、测试和初始知识库的求精 4 1 。k i d d 等从心理学角度提出知识获取三步骤,即领域知识基本结构的识别、细 节知识的抽取、知识库的调整与求精i s 。g i n s b e r g 等把知识获取分为两个阶段: 初始知识库抽取和初始知识库求精1 7 】。因此也可以说知识求精是知识获取的必要 步骤,通过知识求精,实现对初步获取知识的验证、修改、删除与补充,达到去 粗求精、去伪存真的目的。 ( 2 ) 知识库的更新 专家系统的发展过程中面临着的第二个问题就是知识库的更新问题。随着应 用环境的变化,原先的知识可能已经不再适合了,所以必须对知识库中的知识进 行修改,但是如果手工修改的话,工作量大而且容易出错,因为知识库中的知识 之i 日j 不是孤立的,而是相互联系的,所以对一条知识的修改,通常还涉及到其他 相关联知识的修改,否则又会造成新的知识不一致。 利用知识求精技术可以解决上述难题。简单的说,知识求精是发现知识库中 错误,修正和增长知识的一种学习技术i ”。具有知识求精能力的智能系统通常由 用户对实例运行的结果做出反应,系统根据用户接受实例与否对知识进行净化, 从而修正知识库中可能存在的问题。因此,在有的文献中,也将知识求精作为专 家系统开发过程中的一个步骤,如图2 - 1 。 2 1 2 知识求精技术概述 知识求精是指采用一定的学习机制,通过从训练样本中学习知识,用以修正 原有知识存在的问题,从而达到对原有知识进行精化的目的一种技术。知识求精 的概念最早出现于二十世纪7 0 年代初,主要用于专家系统的开发以及知识获取 过程中,是开发专家系统的必不可少的步骤。一般来说,知识工程师得到的初始 知识库常常是有些问题的,比如知识的不完全、知识之间的不一致或者知识的使 用结果给出的结论无法吻合等,这就需要对它迸一步求精,以期获得一个结构良 一8 符号系统与神经网络相结合的知识求精技术研究 好、功能完善、知识相对完备的高质量知识库。实践证明,初始知识库经求精后 可以显著提高知识库系统的的运行效能。比如利用知识求精系统s e e k 2 对风湿 病诊断专家系统e x p e r t 的知识库求精后,其诊断正确率提高了2 1 2 1 7j 。因此 知识求精技术受到了很多知识库系统研制者的极大重视。 由于知识库、专家系统等的知识表示方式一般为产生式、谓词逻辑等符号形 式,因此最初的知识求精系统都是单一符号型的知识求精系统,如e i t h e r ( o u r s t o n & m o o n e y , 1 9 9 3 ) 、n e i t h e r n e w - e i t h e r ( b a f f e s & m o o n e y , 1 9 9 4 ) 等, 因此知识求精在有的文献中又称为规则库修正( r u l e b a s er e v i s i o n ) 。 然而单一的符号求精系统并不能达到理想的知识求精效果,存在许多这样那 样的局限性,如容错能力差、无自学习能力等,因此,许多学者提出了将符号系 统与其它知识表示系统相结合的混合系统( h y b r i ds y s t e m s ) 。混合的知识求精系 统的研究从二十世纪8 0 年代末开始,至今已经取得了很多的研究成果,提出了 许多有代表性的知识求精系统,其中一个重要方面就是将符号系统与连接主义 ( c o n n e c t i o n i s t ) 相结合的知识求精系统。现在,有较多将符号系统与连接主义 相结合的知识表示、知识求精方式,如u 蟾o f f ( 1 9 8 8 ) 提出一种将决策树与感知 器( p e r e e p t r o n s ) 相结合的算法;g a l l a n t ( 1 9 8 8 ) ,p o m e r l e a u & g o w d y ( 1 9 9 1 ) ,提 出的将神经网络与专家系统结合的松耦合( l o o s e l y - c o u p l e d ) 神经网络专家系统, 在这种混合系统中,符号系统用于处理“高层”决策,而神经网络用于做出“低 层”决策。 不同于这些研究,本文侧重于将神经网络与符号系统相结合,提出一种符号 系统与神经网络相结合的知识求精技术。下面将在介绍神经网络基本概念的基础 上,介绍一些典型的符号系统与神经网络相结合的知识求精方法。 2 2 人工神经网络 人工神经网络简称神经网络( n e u r a ln e t w o r k ) ,是用大量简单的处理单元广 泛关泛组成的复杂网络,是在现代生物学研究人脑组织所取得的成果的基础上提 出的,用以模拟人类大脑神经网络结构和行为。自上个世纪4 0 年代初,美国 m cc u l l o c h 和p i t t s r 提出感知器二值神经元模型( m p 模型) 以来,神经网络的 发展历程可谓是波澜起伏、几经波折。近年来,由于计算机技术的高速发展,神 符号系统与神经网络相结合的知识求精技术研究 经网络的研究又掀起了新的高潮。 2 2 1 神经网络的构成 神经网络的结构是由基本处理单元( 神经元) 及其互联方法决定的。每个构 造起网络的神经元模型模拟一个生物神经元,如图2 2 所示。该神经元单元由多 个输入( i _ l ,2 ,n ) ,和一个输出y 组成,中间状态由输入信号的权和表示, 神经元的输出为: ( 公式2 - 1 ) 图2 - 2 神经兀模型 在公式2 - 1 中,巴为神经元单元的偏置( 阂值) ,。为连接权系数( 对于 激发状态,取正;对于抑制状态,u ,取负值) ,n 为输入信号数目,力为神 经元输出,t 为时间。f ( ) 为输出变换函数,有时叫做激发或激励函数,往往 采用0 和1 二值函数或s 形函数( 见图2 - 3 ) ,这三种函数都是连续和非线性的。 一种二值函数可由下式表示,如图2 - 3 a 所示 朋。r 毫。谠嘞, 一种常规的s 形函数见图2 - 3 b ,可由下式表示: 似) 2 赤o m ) ( b ) ( c ) 图2 - 3 神经元中常用的变换( 激发) 函数 z 最初由w e r b o s 开发的反向传播训练算法( b a c k p r o p a g a t i o n ,b p ) 是一种迭代 梯度算法,用于求解前馈网络的实际输出与期望输出问的最小均方差值。b p 网 是一种反向传递并能修正误差的多层映射网络。当参数适当时,此网络能够收敛 到较小的均方差。b p 网络模型是人工神经网络中应用比较广泛的一种模型,能 够很好的处理分类问题,它思路清晰,结构严谨,可操作性强,以及具有大规模 并行运算、自组织、自适应、容错和自学习能力等特点,并且由于隐含节点的引 入,使得一个三层的具有s i g m o i d 神经元的非线性网络可以以任意精度逼近任何 连续函数,因而它是a n n 中应用最广泛的一种网络。 典型的三层b p 网络的结构( 如图2 4 ) 所示,即:输入层、隐含层、输出 层各层之间实行全连接。 输入层( x 。)隐含层( x ? )输出层( y 。) + 图2 - 4b p 神经网络典型结构 如图( 2 4 ) 中,输入学习样本为p 个:x l ,x 2 ,x 3 x p ,已知与其对应的 期望输出为y l ,y 2 ,y 3 y p ,学习算法是将实际的输出y 1 ,y 2 ,y 3 y p 与 y 1 ,y 2 ,y 3 y p 的误差来修改连接权和阈值,使y i 与y i 尽可能的接近,从 而达到学习的目的。各层神经元的输出满足: 丝兰薹堑兰塑丝璺塾塑堕鱼堕翌坚童堕量! ! ! ! 翌 y l - - - - f ( 芝w f x - 0 。 )f ( w j k i 。 i i o z = f ( 善w i j x , - 。j ) ( 公式2 - 3 a ) ( 公式2 - 3 b ) 为了方便起见,在图( 2 4 ) 的网络中,把阈值写入连接权中去,令:0 。- w 。; e f - w :; 溉k 一1 : 溉2 1 ; 则( 公式2 - 3 ) 改为: y 。5 唔w j k 。,i ) x ,kf ( 善w i j x , ) ( 公式2 4a ) ( 公式2 4 b ) 第p 1 个样本输入到图( 2 4 ) ,得到输出y 。,其误差位各个输出单元误差之 和,满足: e pl = 与芝( 一y p ,) 2 z ,:0 对于p 个样本学习,其总误差为: ( 公式2 - 5 ) ( 公式2 - 6 ) 设w s q 为图( 2 4 ) 网络中任意两个神经元之间的连接权,w s q 也包括闽值 在内,eg 为一个与w s q 有关的非线性误差函数。采用梯度法,对每个w s q 元的 修正值为: 黼q 一薹q 意( q 为步长) 龇一+ 嘉荨寿w s q = - r l 荟c 意) 2 。 滁舭1 这里用梯度法可以使总的误差向减小的方向变化,直到ee = 0 为止,这种 学习方式其矢量w 能够稳定到一个解,但并不保证是ee 的全局最小解,可能 是一个局部极小解。 故三层b - p 网络各层之间权修正的基本表达式为: 、, , 一 y ,附 1 2 = 鲁 e 符号系统与神经网络相结合的知识求精技术研究 w 。( n o + 1 ) = w 。( n o ) + t 1 艺6 :x ? d l 。j w 。( n o + 1 ) = w 。( n o ) + 1 1 艺6 :x ? 1 ( 公式2 - 8 a ) ( 公式2 8 b ) 整个网络的学习过程分为两个阶段。第一个阶段是从输入层开始向后进行计 算的过程,如果网络的结构和权重已设定,输入己知学习样本,按公式( 2 3 ) 计算每一层的神经元输出。第二个阶段是对权重和阈值的修改,这是从输出层向 前进行计算和修改的过程,逐层计算误差,并按公式( 2 8 ) 修改各层的权值。 这两个过程反复交替,直到网络达到收敛为止。 2 2 3 神经网络的特征 人工神经网络是采用物理方法实现的器件或采用现有的计算机来模拟生物 体中神经网络的某些结构与功能,并反过来用于工程或其他的领域。人工神经网 络的着眼点不是用物理器件去完整地复制生物体中神经细胞网络,而是采纳其可 利用的部分来克服目前计算机或其他系统不能解决的问题,如学习、识别、控制 等。随着生物和认知科学的发展,人们对人脑结构及认知过程了解得越深入,这 对人工神经网络的促进作用将会越大,越来越多的生物特性将被利用到工程中 去。下面是人工神经网络区别于冯氏计算机的一些特征【8 j o ( i ) 大规模并行计算 人工神经网络在结构上与目前的计算机根本不同,它是由很多小的处理单元 互相连接而成,每个处理单元的功能简单,但大量简单的处理单元集体的、并行 的活动得到预期的识别,计算具有较快的速度。神经网络的高度并行结构和并行 实现能力,使其具有较好的耐故障能力和较快的总体处理能力。 ( 2 ) 非线性处理 神经网络具有固有的非线性特性,这源于其近似任意非线性映射( 变换) 能 力。这一特性给非线性控制问题带来新的希望。 ( 3 ) 自组织及自适应性 神经网络能够适应在线运行,并能同时进行定量和定性操作。神经网络的强 适应和信息融合能力使得网络过程可以同时输入大量不同的控制信号,解决输入 符号系统与神经网络相结合的知识求精技术研究 信息问的互补和冗余问题,并实现信息集成和融合处理。 ( 4 ) 容错性 人工神经网络具有很强的容错能力,即局部的或部分的神经元损坏后,不影 响全局的活动。 ( 5 ) 学习能力 人工神经网络具有十分强的自学习功能,人工神经网络的连接权重和连接的 结构都可以通过学习而得到。例如实现图像识别时,只在先把许多不同的图像样 板和对应的应识别的结果输入人工神经网络,网络就会通过自学习功能,慢慢学 会识别类似的图像。自学习功能对于预测有特别重要的意义。 ( 6 ) 分布式存储 人工神经网络所记忆的信息是存储在神经元之间的权重和神经网络的结构 中,从单个神经元中是看不出其存储信息的内容,以而是分布式的存储方式。 ( 7 ) 联想能力 人的大脑具有联想功能。如果有人和你提起你幼年的同学张某某,你就会联 想到张某某的许多事情。用人工神经网络的反馈网络就可以实现这种联想功能。 ( 8 ) 高速寻找优化解的能力 寻找一个复杂问题的优化解,往往需要很大的计算量。而利用一个针对某问 题而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优 化解。 2 3 符号系统与神经网络相结合的知识求精技术 从本章第二节的介绍可以看出,神经网络是基于对人脑组织结构、活动机制 的初步认识提出的一种新型计算机体系。与知识库系统等其他智能系统相比,神 经网络具有如下的几个方面的优点: 实现了并行处理的机制,可提供高速处理的能力 分布式信息存储,可提供联想与全息记忆的能力 网络的拓扑结构具有非常大的可塑性,从而具有很高的自适应能力 具有超巨量的连接关系,形成高度的冗余,因而具有很强的容错能力 符号系统与神经网络相结合的知识求精技术研究 神经网络是一种大规模的非线性系统,提供了系统自组织和协同能力 将人工神经网络技术引入知识求精领域,提出神经网络与符号系统相结合的 知识求精技术,可以充分利用神经网络在知识获取方面的自学习、自适应能力以 及容错能力等优势,以弥补单一符号知识求精系统的不足,从而达到很好的求精 效果。 下面将介绍几种典型的符号系统与神经网络相结合的知识求精方法 k b a n n ,k b c n n ,队p t u r e 。这三种知识求精方法各有特点,其中k b a n n 方法是第一个比较完备的符号系统与神经网络相结合的知识求精方法,后来许多 学者提出的知识求精方法都是基于k b a n n 方法的理论框架;k b c n n 方法首先 将置信因子引入知识求精,将规则的置信度与初始网络结构的连接权重联系在一 起,然而k b c n n 方法并不是一个真正的基于置信因子的模糊规则的知识库求精 方法,无论其初始规则库的规则,还是求精后的规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急制氮装置项目可行性研究报告
- 连续铸造机项目可行性研究报告
- 钻井平台涂料项目可行性研究报告
- 2026年高考语文总复习文言文专题-学生版-古代文化常识(复习讲义)
- 防汛知识培训演练方案课件
- 防汛疏散知识培训内容课件
- 软件开发和服务合同书
- 新媒体行业发展趋势前瞻
- 智能家居市场用户行为分析
- 医疗健康行业市场前景分析
- 2025年时事政治考试100题及答案
- 农业产业强镇建设资金申请项目可行性研究及风险评估报告
- 秋形势与政策正确认识中国经济热点问题-教案2025版本
- 药品注册审评员考核试题及答案
- GB/T 7251.10-2025低压成套开关设备和控制设备第10部分:规定成套设备的指南
- 森林防灭火知识培训材料课件
- 2025全国教育大会
- 多彩贵州课件
- 成本管控的课件
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 计划生育技术服务诊疗常规和操作常规
评论
0/150
提交评论