(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf_第1页
(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf_第2页
(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf_第3页
(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf_第4页
(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘中的分类技术及其知识提取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术的发展,数据挖掘得到了日益广泛的应用也推动数据挖掘的研究不 断地向纵深方向发展。分类是数据挖掘的重要技术之一,本文着重讨论分类技术及其知识提 取。 本文分别对神经网络和决策树这两种分类技术进行了探讨。对于神经网络,本文先介 绍神经网络的基本知识,然后讨论采用神经网络进行特征提取以对高维数据进行降维,并介 绍将神经网络用于网球运动员体能分析的具体应用。随后作为本文的主要内容,重点讨论神 经网络的知识提取。以往认为神经网络的价值主要在于通过对样本的学习,能够对未知样本 进行分类工作。但实际上神经网络本身还蕴含了丰富丽宝贵的知识,只不过因为这些知识以 连接和权重的形式存在,不易于理解。因而不能为人所用。本文介绍了两种典型的神经网络 知识提取方法,用于从神经网络中提取出易于理解的规财,并采用经典的数据集对其中的 种方法进行验证,随后将这种方法应用于实际的银行信用卡资信评估,并得出了有意义的结 论和建议。 对于决策树本文介绍了其基本思想和经典的i d 3 算法随后作为本文的另一工作介 绍决策树的知识表达和提取,重点论述由作者提出的在决策树应用阶段引入决策树来表达挖 掘结果,使其能够更好的体现挖掘结果的思想并给出了其具体应用实例。 最后,本文介绍了知识发现系统r o b o m i n e r 中分类挖掘方法的具体设计和实现工作。 关键词:数据挖掘神经网络知识提取决策树 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f c o m p u t e rt e c h n o l o g i e s d a t am i n i n g h a sb e e na p p l i e d o ” a n dm o r ew i d e l yi nc o m m e r c i a la n d i n d u s t r i a lf i e l d s ,w h i c hd r i v e st h er e s e a r c ho f d a t am i n i n g t o g o a h e a dm o r ea n dm o r eq u i c k l yt h i sp a p e r f o c u s e so nt h ec l a s s i f i c a t i o nt e c h n o l o g yi nd 8 t a m i n i n g ,a n do n eo f i t sm o s ti m p o r t a n ti s s u e :e x t r a c t i n gu s e f u lk n o w l e d g e f r o mt h ec l a s s i f i c a t i o n m o d e l i nt h i sp a p e r ,t w ok i n d so f c l a s s i f i c a t i o nt e c h n o l o g i e sa r ed i s c u s s e dr e s p e c t i v e l ya n dt h e y a r e n e u r a ln e t w o r k sa n dd e c i s i o nt r e e s w i t hr e g a r dt on e u r a ln e t w o r k s ,t h ep a p e r i n t r o d u c e st h eb a s i c k n o w l e d g e a b o u tn e u r a ln e t w o r k sa n df e a t u r ee x t r a c t i o nt or e d u c et h ed i m e n s i o n s o f r a wd a t at o a v o i dt h e c u p s oo f d i m e n s i o n a l i t y a ne x p e r i m e n t w h i c hw a s d e s i g n e dt oa n a l y z et h ep h y s i q u e s t a t eo f t e n n i sa t h l e t e si sa l s op r e s e n t e d t h e n a st h es u b s t a n c eo f t h i sa r t i c l e ,t h ep a p e rd i s c u s s e s t h et e c h n o l o g yo f k n o w l e d g ee x t r a c t i o nf r o mn e u r a ln e t w o r k s w ea l lk n o w t h a tt h ek n o w l e d g eo f n e u r a ln e t w o r k si sr e p r e s e n t e da tas u b s y m b o l i cl e v e li nt e r m so f c o n n e c t i o n s a n d w e i g h t s t h u s , k n o w l e d g ec a p t u r e db y n e u r a ln e t w o r k si sn o tt r a n s p a r e n tt ou s e r sa n dc a n n o tb eu s e db yt h e m t h e p a p e r t r i e st oe x p l a i nt h et e c h n o l o g ya b o u tk n o w l e d g ee x t r a c t i o n ,a n di n t r o d u c e st w ok i n d so f e x t r a c t i o nm e t h o d s ,a n da tl a s t ,a d d r e s s e si t sa p p l i c a t i o ni nt h ec r e d i te v a l u a t i o no f n e w c r e d i tc a r d c u s t o m e r sa n dg i v e ss o m ev a l u a b l es u g g e s t i o n sa c c o r d i n g t ot h er e s u l to f e x t r a c t i o n c o n c e r n i n g d e c i s i o nt r e e s ,t h ep a p e ri n t r o d u c e st h ec l a s s i c a li d 3a l g o r i t h m ,i t sr e a l i z a t i o na n da p p l i c a t i o ni n t h er o b o m i n e rs y s t e m a sa n o t h e rm a i ni s s u e ,t h ep a p e rd e s c r i b e st h ei d e ap u tf o r w a r db ya u t h o r t h a th o wt op r e s e n tt h er e s u l to f m i n i n gi na p p l i c a t i o nm o d eb e t t e r t h i si sa c h i e v e db yu t i l i z i n g t h ed e c i s i o nt r e em o d e l a g a i ni nt h ea p p l i c a t i o nm o d e k e y w o r d s :d a t am i n i n g ;n e u r a ln e t w o r k s ;k n o w l e d g ee x t r a c t i o n ;d e c i s i o nt r e e n 1 。1 数据挖掘概况 第一章绪论 在二十世纪,计算机技术的发展,特别是数据采集和存储技术的迅猛发展促使了海量数 据的产生,数据的不断积累使问题也随之而来,人们面对存储在数据库或数据仓库中人鹫的 数据,无从获得这些数据背后所蕴含的丰富信息。因此,在二十世纪八十年代后期,数据挖 掘应运而生,它的主要目的就是从海量的数据中提取知识,以解决上述日益显露的问题。 数据挖掘是在应用需求的推动下,由多种学科融合而产生的,因此我们也可以从其三个 主要支持学科来对数据挖掘有一个全面的了解,它们分别是数据库、机器学习和统计学。由 于是不同学科的交叉。从不同学科的视角看待数据挖掘时的侧重点也各不相同。 从数据库角度看数据挖掘是从存储在数据库、数据仓库或其他信息存储介质中的大量 数据里发现知识的过程。效率是最重要的方面,它关心数据挖掘的全过程,包括时间以及能 否处理海量数据的问题。所以,从这个角度出发进行研究的学者的兴趣会遍及数据挖掘系统 的系统结构、数据预处理、挖掘算法、知识的表达以及海量数据的有效管理等与整个数据挖 掘过程相关的内容。 机器学习认为数据挖掘是采用有效的方法从数据中提取以前未知的。隐含在数据中的有 用信息。机器学习中的很多方法都被引入到数据挖掘中,它主要关注数据挖掘方法的有效性, 这方面的论文会常常对某些算法提出改进尽管有时候表现并不如人意,它还是在努力朝着 使数据挖掘能够进行有效的数据分析的方向前进。机器学习问题通常归结于搜索问题,即对 一个非常大的假设空间进行搜索以确定一个最佳拟合数据的函数。 统计学学者则将数据挖掘定义为分析样本数据集,以发现数据间的可靠关系,并将数据 以易于理解而有用的方式提供给数据集的拥有者。统计学关心的是数据挖掘算法在数学理论 土的正确性。数据挖掘中的很多方法在统计学中都已经有比较成熟的理论,但是数据挖掘也 具有自已独特的问题,如复杂的模型( 很难建立起相应的统计模型) 、大量的数据、很多离 散的变量等等这些都赋予了统计学新的研究内容。 本文将主要借鉴机器学习的角度来看待和研究问题。 h-,-_-_-_一一 第一章结论 1 2 数据挖掘中的分类技术及其发展现状 分类技术是数据挖掘中的重要课题。分类的研究已经发展了较长时间,并且在统计学、 模式识别和机器学习当中部分别得到发展。分类技术也从最早的线性判别,发展到“近邻法、 决策树、规则归纳和神经网络等等。本文将主要针对神经网络和决策树进行探讨,包括分类 技术本身,咀及从训练所产生的模型中提取知识。分类的主要内容是通过对已知类别的训练 数据集的学习,掌握样本类别的特征,来对未知的新数据进行分类。知识提取则是在通过训 练彤成分类器后,从该具体的分类器模型中提取知识。 1 2 1 神经网络 在二十世纪八、九十年代,神经网络逐渐发展成为传统统计模型之外的一种有效分类方 法它的应用也得到了广。泛的研究。在神经网络的应用中,采用由反向传播算法( b p ) 训 练的多层前馈网络( m ) 大约有8 0 ,其余的则主要是自组织网络。这种模型也因此成 为了有监督学习的神经网络的代名词。 神经网络在国外的应用已经比较成熟,在商业,特别是金融业中得到了广泛的廊用f ”。 破产预测( b a n k r u p t c y p r e d i c t i o n ) 主要是用于判断公司当前的运营状况如何是否面临破产的危险。 2 信用评估( c r e d i te v a l u a t i o n ) 评估和预测在金融市场被广泛采用。而神经网络是其首选技术。并在美国的金融机 构得到了普遍的应用。如h n c s o f t w a r e i n e 的神经网络产品f a l c o n 就用于金融市场 的欺诈甄别全美的信用卡有相当一部分都用f a f c o n 分析过。 j 市场分割( m a r k e t s e g m e n t a t i o n ) 市场客户人群分割是神经网络的一项比较新并非常有前景的廊用。客户人群的分割 对于市场营销人员来说是个经常会遇到的难题,在国外神经网络在这方面也已经 得到了初步应用。值得注意的是,尽管可以用聚类( 无监督学习的自组织网络) 来 缩次这个问题,但是太多数研究和应甩都采羽了有监督的前馈神经网络。 在实际应用中,神经网络表现出很多优点,这包括: 1 神经网络可以逼近任何非线性函数它提供了一种普遍而且实用的方法从样本 中学习值为实数、离散值或向量的函数: 2 它是一种非参数方法,不需要对数据的分布有一个先验假设: 2 第一章培论 3 具有较好的适应性,对噪音数据不敏感。 但是,当神经网络用于数据分类时常常会出现以下问题: 1 神经网络缺乏解释能力目前没有理论能够解释神经网络,它只能被看作黑盒 子来使用。这个黑盒子里显然含有一定的知识在指导着神经网络进行分类,如 何将神经网络中的这些知识挖掘出来是神经网络在应用中的一个重要课题。 2 网络结构的选择缺乏理论的指导,仍主要依靠经验来决定; 3 输入属性的选择:现在还没有有效可行的非线性方法来估计属性变量之间的相 关性问题。遗传算法在这种情形下越来越多的被用于选择属性决策树也经常 被采用。 1 2 2 决策树 决策树是机器学习中有较深影响力的一种分类方法,它因将学习到的函数表示为一棵决 策树而得名是应用最广的归纳推理算法之。决策树学习是一种逼近离散值函数的方法, 对噪声数据有很好的健壮性且能够学习析取表达式。它以一组无次序、无规则的事例为基础, 从中推理出决策树形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行 属性值的比较并根据不同值判断从该节点向下的分支,在决策树的叶节点得到结论。从根到 叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。 在2 0 世纪6 0 年代,统计学家们就已经开始了对决策树的研究。那时统计学家主要将决 策树用于对数据的属性进行选择,选出比较重要的属性而去掉次要的属性,这段历史在某种 程度上也造成了决策树算法成为一种远比其他数据挖掘技术更完整、更严谨地方法。现在, 它已经被用到了学习评估贷款申请的信用风险、不同国际流通货币兑换率地时序预测及医疗 诊断等各种问题中。 决策树方法属于一种符号方法它的结果具有可理解性。这是符号模型所具有的最大优 点,它使我们能够直接考察数据的决策面,也使这种模型对于非技术的用户来说简单易懂。 在市场广阔的决策支持领域得到了空前的应用。 决策树也存在着咀下一些问题:1 ) 过度拟合数据。当训练样本含有随机错误或噪声时, 属于某一类别的样本被标示为另外类别的样本,从而与其他类别的样本混在一起,而决策树 会因此进一步搜索更多的细节,此时决策树的训练就可能会产生过度拟合的现象。2 ) 属性 选抒的问题决策树选择分裂属性时所采用信息增益度量偏袒具有较多值的属性,在某些情 况下,这会使生成的决策树对训练数据具有很好的拟合性,但其真正的泛化能力却不强。 3 第一章结论 1 3 本文的主要内容 本文主要考察数据挖掘中的分类技术及其知识提取。第二牵介绍神经网络的基本原理, 随后着重讨论模式识别中的一个重要问题:特征提取,特征提取的目的在于将数据从高维空 间转换到低维空间。同时提高分类的识别率。该章讲述用r u b n e r 神经网络进行特征提取, 并介绍其在分析网球运动员体能方面的具体应用。第四章介绍神经网络的知识表达和知识提 取。知识提取是近年来神经网络研究的一个新兴研究方向,它显示了极好的发展前景。该章 首先对国外关于知识提取的研究成果做一个简要综述,随后介绍两种典型的提取技术。最后 在用分类研究中的经典数据集( 由f i s h e r 发表) 来验证其中的一种方法之后,将其应用于 银行信用卡资信评估。对以信用卡资信评估数据训练出来的神经网络进行知识提取,并对所 提取的知识进行了详细的结果分析。由此给出采用神经网络挖掘信用卡数据后的最终建议。 第四章介绍决策树的基本思想,i d 3 算法以及决策树的知识表达,重点介绍由作者提出的在 决策树应用阶段引入决策树来表达挖掘结果,使其能够更好的体现挖掘结果的思想,并给出 了具体的应用例子来进行说明。第六章对全文进行了总结。 4 第二章基于神经网络的分类 神经网络自从上个世纪八十年代再次兴起以来,其研究热潮一直方兴未艾。特别是九十 年代以后,神经网络技术被融入了新兴的数据挖掘之中,在工商业尤其是金融业得到了广泛 而深入的应用。因此。关于神经网络的研究是非常重要的而其基本内容的研究也是对其进 行深入研究所必须做的基础工作。本章首先介绍神经网络的基本内容,然后介绍最常用的 丑p 算法,最后介绍神经网络用于特征提取及其实验结果和分析。 2 1 神经网络的基本原理 人工神经网络简称为神经网络,是对人脑或自然神经网络若干基本特性的抽象和模拟。 人工神经网络以对大脑的生理研究成果为基础的其目的在于模拟大脑的某些机理与机制, 实现某个方面的功能 2 ,1 1 网络的整体结构 1 从网络拓扑来看存在两大类神经网络 没有反馈的前向网络,它由输入层、中间层和输出层组成,其每层神经元只接受 前一层神经元的输出; 相互结合性网络,它中间的任意两个神经元之间都可能有连接,因而输入信号要在 神经元之间反复往返传递。 2 从网络模型来看,主要有三种网络模型 前馈式网络,它以感知器、反向传播模型、函数型网络为代表,可用于预测、模式 识别和函数逼近等方面: 反馈式网络,它以h o p f i e m 的离散模型和连续模型为代表,分别用于联想记忆和优 化计算; 自组织网络,它以爿r r 模型、k o h o n e n 模型为代袭用于聚类分析等方面。 5 第二章基于神经两络的分类 2 1 2 单个神经元的基本原理 神经网络是模拟人脑功能的一种方法它和人脑样是由很多单个神经元组合而成 而每个神经元在结构和功能上都是相似的。所以了解神经网络就必须首先了解单个神经元 的原理,单个的人工神经元模型主要是以m p 模型和h e b b 学习规则为基础的。 1 神经元的数理模型( m p 模型) 神经元是多输入单输出的信息处理单元。用置表示来自其他第i 个神经元轴突的信号强 度,占代表兴奋的阅值,心代表神经元与t 结合权,j ,代表神经元的输出信号。神经元动 作的数学表达式如下: y = g ( v ) = g ( w j 葺一口) i = 1 其中g ( - ) 称作激励函数,通常是一个非线性函数。神经元数理模型如图表2 - 1 所示 2 神经元权值的学习规则 五 屯 图表2 - 1 人工神经元模型 y h e b b 学习规则它是d o n a l lh e b b 根据生理学中条件反射机理,于1 9 4 9 年提出的神经 元连接强度变化的规则;如果两个神经元同时兴奋( 或同被抑制) 则它们之间的突触连接 加强( 减弱) 用- _ 表示神经元f 和j 的激活值( 它们的输出) 。彬,表示两个神经元之 间的连接权,则 k 6 6 学习规则表示为 = 口杉 这里口表示学习速率。h e b b 学习规则是人工神经网络学习的基本规则,几乎所有神经网络 的学习规则都可以看作是m 6 6 学习规则的变形。 6 _-_一一 第二晕基于褥经慨祭竹共 j 学习规则这种方法是用已知样本作为教师信号对网络进行训练,又称误差校正学 习,是一个典型的最优化问题。设( z 。,y ) ( 七= l 2 。尹) 为输入、输出样本对, x = ( 葺,恐,矗) 7 ,= ( m ,y 2 。,y 。) 7 。把爿作为网络的输入t 在连接权的作用下, 网络的实际输出扩= ( 甄,兄只) 7 ,设神经元,和,的连接权为,则权的调整景为 w u = a 5 ,j 6 j = f t yj 一,;、 其中搿为学习速率,”一只为误差,v j 为第f 个神经元的输出。函数,( ) 根据具体情况而 定,上面的学习规则可由误差函数的梯度法导出,故万学习规则实际上是一种梯度方法。占 学习规则已在许多神经网络中得到应朋,前馈网络中的只p 算法即是。 2 1 3b p 算法 b p 算法是前馈神经网络学习算法中最常用的一种算法。感知器是一种简单的两层前馁 网络。三层或三层蚍上的前馈网络的适用范围大大超过简单的两层网络,但学习算法则较为 复杂。主要圃难在于网络的中间隐层不与外界连接,无法直接计算其误差。反向传播算法 ( b a e k - p r o p o g a t i o n ,简称b p ) 鳃决了这一问题。 反向传播算法通常采用梯度法修正权值。为此要求激励函数可微,因而常用s i g m o i d 函 数作为激励函数。反向传摘算法解决了隐层权值修正问题,但它是用梯度法求非线性函数极 值,有可能陷入局部极小点,不能保证收敛到全局极小点。 b p 算法的主要思想是从后向前( 反向) 逐层传插输出层的误差,以间接计算山隐层误 芹。算法分为两个阶段:在第一阶段( 正向过樱) ,从输入层经隐层逐层计算各单元的输出 仿;在第二阶段( 反向传插过烈) ,由输出层逐层肉前算出舞艇,娃并个j 碑死的谈箍刑洲t 误差修正前层权值。在实际学习中要求输入训练样本,每输完全部训练样本一次称为一个训 练周期,学习要一个周期一个周期进行- 直到目标函数达到最小值或小于某一给定值。 用b p 算法训练网络时有两种方式。一种是批处理方式,即待组成一个训练周期的全部 样本都一次输入后再计算总的平均误差;另种是每输入一个样本修改一次权值。 b p 算法的流程图如下页图表2 - 2 所示该流程是每输入一个样本便进行一次权值修改 的方式。 第二章基于神经厨络的分娄 图表2 2 反向传播算法的流程图 2 2 基于神经网络的特征提取 模式识别诞生于2 0 世纪2 0 年代随着4 0 年代计算机的出现,5 0 年代人工智能的兴起 在6 0 年代初迅速发展为一门学科。它所研究的理论和方法在很多科学和技术领域如数据挖 掘中得到广泛的应用,是它们背后的主要支持技术。 在进行分类工作时,很多情况下原始的数据的维数很高数据量很人,使得分类方法陷 入“维数灾难”中而不能正常进行分类工作,或者需要很长的运行时间。对数据进行特征提 取,不但可以将数据从高维降到低维,还常常可以消除数据属性间的相关性,有助于提高分 类器的正确识别率所以,特征提取是模式识别中的一个关键问题。而与复杂的数理统计方 法相比采用神经网络进行特征提取更易于实现,因而其研究日益得到重视。 3 _ _ _ _ _ _ - 一一 焦二章基于神经两鳃的分类 2 2 1 模式识别的基本概念和基本问题 在生活当中,人们时时刻刻都存在着对周围事物的模式识别,即对不同的事物进行正确 区分的行为。在计算机科学中模式识别是指用计算机来实现人的模式识别的能力。什么是 模式识别的对象( 模式) 呢广义地说来,存在于时间和空间中可观察的事物,如果我们可 以区别它们是否相同或相似,则都可以称之为模式。但模式所指的不是事物本身,而是我们 从事物所获得的能表征该事物的信息,往往表现为具有时问或空间分布的信息等等。 人们为了掌握客观事物,按事物相似的程度组成类别,模式识别的作用和目的就在于面 对某一具体事物时将其正确地归入某一类别,因而,相似也是模式识别中的一个重要概念。 模式识别是把具体事物归入某一类别的过程,要进行归类,首先要有类的存在,而分类 的复杂性,在于不存在纯客观的分类标准,因为任何分类都是带有主观性的。因此,如何度 量模式之问的相似性,以此作为分类的标准,也成为一个基本问题。 目前得到广泛应用的相似性度量是在空间中定义的某种距离。给定一个输入样本集合, 用d 维空间中的一个点表示某个样本t 两个样本耳和x j 之间的相似性度量8 ( x 。,x ) 应满 足以下要求: ( i ) 相似性度量应为非负值。即8 ( x ,x ,) 0 : ( 2 ) 样本本身之间的相似性度量应为最大; ( 3 ) 相似性度量应满足对称性,即6 ( x i ,工,) = a ( x j ,x ) : ( 4 ) 在模式类满足紧致性条件下,相似性应是点间距离的单调函数。 那么,用什么量来计算相似性呢? 一般是用特征来决定相似与否并进行分类的。因为, 在相似性的定义当中,第( 4 ) 条是最重要的,而原始数据的空间中的点一般说来都不会满足 紧致性条件,只有通过变换到特征空间,改善其紧致性,才能够较好的进行分类的任务。 特征提取的方法是竹么,有什么意义? 严格说来对特征的处理有特征提取和特征选择 两种方式,特征提取是用映射( 变换) 的方法把较多的原始特征变换为较少的新特征,而特 征选择就是从原始特征中挑选出一些晟有代表性的特征来。它们会有两个结果:第一,降低 输入数据的维数,从数据空间来看,因为对于相同数目的数据样本,低维的数据空间中样本 的紧致性远比高维的空问要好,而且也使学习的训练能够更快速;第二,得到的特征空间更 有利于分类的进行,特征提取经过变换,把原始空间上属于同一类可能比较分散的各点映射 到特征空间上的较小的同个区域,当然。这就需要比较好的变换方法亦即特征提取,它 9 第二章基于谗经砖络的骨粪 是和具体问题是紧密相关的。这两种方法主要区别在于,有该具体问题的专家知识时,可以 使用特征选择,简单而有效在缺乏专家知识时,则多采用以数学为基础的变换方法。 2 2 2r u b n e r 特征提取方法 近年来,人们提出了很多采用神经网络进行特征提取的方法,本文采用由r u b n e r 1 9 9 0 提出的网络结构和学习算法来实现特征提取,下面着重奔绍这种方法。 这种方法主要是基于主成分分析( p r i n c i p a lc o m p o n e n t 一”d f j 口括) 的。主成分分析又叫k l 变换,它是应用于特征提取,数据压缩的很有名的一种统计方法,还广泛应用在信号和图像 处理,以及数据分析中,简单说来,它是通过正交变换,将一个d 维的输入空问变换至一 个m 维的输出空间上去,使得m 维空间中各维上的数据是互不相关的,并且通过较少的数 据最大的保持了原始数据的方差。 r u b n e r 所提出的神经网络的功能在于模拟传统数理统计方法中的戤变换下面就说明 什么是舭变换、r u b n e r 方法及其用于特征提取的实验结果。 1 k l 变换 简单说来, z 变换就是将数据从高维的原始测量空问映射到低维的特征空间的一种数 学上常用的基于最小二乘法( 均方误差) 的数学变换。 对向量集台 x 中的所有向量,用确定的完备正交归一向量系u ,j = 1 ,2 。,o 。来展 开,可得: 。 x = o j = l 假使只用有限项来估计x ,即 由此引起的均方误差是 因为 所以有 量= q , j - l = e 【( x 一叠) 7 ( x 一叠) 】 亭= e 【( - , 叽= 器蓦 芎= e c j z m - , - i 1 0 ) “ 勺 。肺 “c 。一 () “c 。川 第二章基于神经甄络筑分类 又因为 因此 令p = e x x 7 】 则 0 = “;x e = e , q x x 7 u j 亏= ”;7 ) 叶 = “j p “, 产m + l 采用拉格朗日乘子法,可以求出在满足正交条件下,t 取极值时h ,取值就是矩阵p 的特征 向量,且当取m 个h ,_ ,= 1 2 m 来逼近x 时,其均方误差 = 五,b 一厶“ 其中五,是矩阵p 的相应特征值。 2 。网络结构 r u b n e r 提出的特征提取的网络结构如下图所示 品 磊 图表2 - 3r u b n e r 神经网络结构 该网络的输入层与输出层直接相连,设输出结点的权值向量为坩。:且输出层的结点 之间有连接:当f := i := ( 简单条件 a n d ( 简单条件 ( a n d ) i o r 【( o r ( f 奇单条件 ) 】 - j 的提取方法。在其学习过程中,学习的目标函数是神经网络所包含 的函数,t r e p a n 通过学习最终产生一棵决策树来模拟神经网络的行为。 t r e p a n 与其它规则提取方法的不同之处在于它直接用神经网络来测试自己的规则,另外它 不直接根据神经网络的节点来产生规则,它的规则是通过不断地优化模拟神经网络的模型而得 到的。这个模型就是一棵决策树。 l _ ) , e p a n 算法与传统的决策树算法如c a r t 和c 4 5 相似,它也是对一个训练集进行学习,并 对输入空间递归地进行分割。t r e p a n 增长树的具体过程是:它始终有一个关于叶子节点的队列, 当一个叶子节点移出队列时,它就将成为决策树中的一个内部节点。对于每一个队列中的节点 来说都含有以下几个元素:( i ) 节点的训练样本集,是指训练样本集中被分到该节点的那些样 本:( 2 ) 节点的查询样本集( q u e r yi n s t a n c e s ) ,它和节点训练样本集一起,或参与内部节点的 分裂过程,或参与标识叶子节点类别的过程;( 3 ) 一组条件,描述训练样本集和查询样本集中 的样本达到当前节点所应满足的条件。 2 t r e p a n 算法的几个注意事项 尽管t r e p a n 与传统的决策树算法很相似,但是它仍然具有以下几个重要的不同之处: ( 1 ) 预言家和类别查询 t r e p a n 训练样本的类别是通过类别查询而得到的。因为这里的核心思想是学习和建模神经 网络所表征的函数,所以神经网络本身就充当了预言家的角色,t r e p a n 的所有训练样本的 类别都通过查询神经网络而得到。 t r e p a n 用于训练的样本主要有两个来源。第一个来源是训练神经网络所采用的那些训练样 本t 第二个来源就是查询样本集,它是首先通过训练样本集来对整体样本的分布建模,然 后再用分布模型来产生的。它的好处是使t r e p a n 能够基于大样本集来产生决策树。 ( 2 ) 决策树的增长 大多数的决策树都是以深度优先来增长树的,而t r e p a n 则采用最佳优先( b e s t - f i r s t ) 方法 来增长决策树。最佳节点,是指最有可能增加所提取树对神经网络的一致性的节点这里 节点的一致性定义为: ,( ) = r e a c h ( n ) x ( 1 一f i d e l i t y ( n ) ) 8 第三章神经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论