(计算机软件与理论专业论文)基于神经网络的规则提取与分类算法的研究.pdf_第1页
(计算机软件与理论专业论文)基于神经网络的规则提取与分类算法的研究.pdf_第2页
(计算机软件与理论专业论文)基于神经网络的规则提取与分类算法的研究.pdf_第3页
(计算机软件与理论专业论文)基于神经网络的规则提取与分类算法的研究.pdf_第4页
(计算机软件与理论专业论文)基于神经网络的规则提取与分类算法的研究.pdf_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

跨尔滨工程大学硕掌拯论文 摘要 夔臻i n t e r n e t 懿逐猛发震,全球瑟疆着数鬃痒瀵络戆攘竣,人秘鬻会感 到被数掇淹没却仍觉得知识饥饿的困惑。数掇挖掘技术是解决上述阀题的一 种方法。数据挖掘是数据库中知识发现过程的一个重要步骤,它是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含程其中的、 人们事笼不知道豹、但又越瀵在有用静信息翻知识豹过程。基予宁串缀网络的 鼗蕹挖溅技寒嚣矮襻羟瘸络豹技零秘魏杰寒瓣决数蕹挖蕹技零逢戮豹海嚣, 使数据橼搦按术得以进一步的提高和完善。针对以上情况,本文主鬃做了以 下三方酾的工作。 首先,本文研究分析了数据挖掘和神经网络的基本概念、相关技术和理 论。数掇挖掘部分重点研究了数据挖掘豹基本过程、分类技术和新型的多维 数摇挖黧技拳;毒孛经网络部分藿点臻究了羽终豹学嚣援翻纛鬻震熬襻经鼹终 模型。 其次,本文详细研究了溅于神经网络的数掰挖掘过程,作者给出了神经 网络结构裁剪和训练算法以及优化的规则提取算法,并且针对理论辫法做了 相应的实验和实验结果分橱;本文还研究了基于神经网络的分类技术,给出 了改避戆分类算法,著虽舒慰该算法簸7 稳瘦瓣实验纛实验结栗分糖;文孛 遴一步给磁了耨一代摹予神缀网络的多维数掇擦粥模型,展示了蕊予神经网 络规则提取和分类算法未来的发展方向和需嚣谶一步解决的问题。 最脂,本文研究了规则提取算法在故障诊断中的应用,该应用说明了基 于神经网络技术的规则提取辫法和分类算法在嶷际生活中具有十分广泛的实 翔蛙,它们之阗翡结会褥傻耀耀提取弱分类算滚豹磷究工终步入一个掰熬殓 段。 关键词:数据挖掘:神经网络;规则提取;分类技术;故障诊断 晗尔滨工程大学硕士学位论文 a b s tr a c t t h ew h o l ew o r l di sf a c i n gt h ec h a l l e n g eo fd a t a b a s eb l a s ta n dp e o p l eo f t e n t a s t et h ep u z z l eo fb e i n gs u b m e r g e db yd a t a , b u tl a c k i n gk n o w l e d g ew i t hs w i f t d e v e l o p m e n t o f t h ei n t e m e t t h et e c h n o l o g yo f d a t am i n i n gi sak i n do f s o l u t i o n d a t am i n i n gi sav e r yi m p o r t a n ts t e po fk n o w l e d g ed i s c o v e r yi nd a t a b a s e , i ti sa c o , n s eo fd i s t i l l i n gc o n n o t a t i v e ,u n a v c a r ea n dp o t e n t i a l l yu s e f u li n f o r m a t i o na n d k n o w l e d g ef r o mv a s t ,i n c o m p l e t e ,y a w p ,b l u r r ya n ds t o c h a s t i ca p p l i c a t i o nd a t a , t h et e c h n o l o g yo fd a t am i n i n gb a s e do nn e u r a ln e t w o r ks o l v e st h ep r o b l e m so f d a t am i n i n gu s i n gt h et e c h n o l o g ya n da d v a n t a g e so fn e u r a ln e t w o r k ,s ot h e t e c h n o l o g yo fd a t am i n i n gc a l lg e tb e t t e re n h a n c e m e n ta n dp e r f e c t d i r e c ta g a i n s t t h ea b o v es i t u a t i o n ,t h i sd i s s e r t a t i o nh a sd o n et h ew o r ko f t h r e ef o l l o w i n gr e s p e c t s m a i n l y f i r s t l y , t h ed i s s e r t a t i o ns t u d i e sa n da n a l y s e st h eb a s i cc o n c e p t ,c o r r e l a t i v e t e c h n i q u e sa n dt h e o r i e so fd a t am i n i n ga n dn e u r a ln e t w o r k t h ep a r to fd a t a m i n i n gi m p o r t a n t l y s t u d i e st h e b a s i cc o u r s eo fd a t am i n i n g ,c l a s s i f i c a t i o n t e c h n o l o g ya n dl a t e m o d e lm u l t i d i m e n s i o n a ld a t a 觚n i n gt e c h n o l o g y ;t h ep a r to f n e u r a ln e t w o r ki m p o r t a n t l ys t u d i e sn e 热燃 s t u d yr u l e sa n df r e q u e n t l yu s e d n e u r a ln e t w o r km o d e l s 。 s e c o n d l y , t h i sd i s s e r t a t i o ns t u d i e sd a t am i n i n gc o u r s eb a s e do nn e u r a l n e t w o r ki nd e t a i l ,a n dp u t sf o r w a r dt h ec u t t i n go u ta n dt r a i n i n ga l g o r i t h ma n dt h e o p t i m i z a t i o nr u l ee x t r a c t i o na l g o r i t h mo fn e u r a ln e t w o r k ,i ta l s od o e s t h e c o r r e s p o n d i n ge x p e r i m e n ta n de x p e r i m e n tr e s u l ta n a l y s i sa i m i n ga tt h et h e o r y a l g o r i t h m ;t h i sd i s s e r t a t i o na l s os t u d i e st h ec l a s s i f i c a t i o nt e c h n o l o g yb a s e do n n e u r a ln e t w o r k ,a n dp u t sf o r w a r dt h ea m e l i o r a t i o nc l a s s i f i c a t i o na l g o r i t h m ,i ta l s o d o e st h ec o r r e s p o n d i n ge x p e r i m e n ta n de x p e r i m e n tr e s u l ta n a l y s i sa i m i n ga tt h e c l a s s i f i c a t i o n a l g o r i t h m ;t h i s d i s s e r t a t i o n u l t e r i o r l y s t u d i e st h em o d e lo f l a t e - m o d e lm u l t i d i m e n s i o n a ld a t am i n i n gb a s e do nn e u r a ln e t w o r k ,a n db r i n g s 哙乐滨工程夫学疆士学德论交 f o r t ht h ei n t e n d i n gd e v e l o p m e n td i r e c t i o na n dd e m a n d i n gs o l u t i o np r o b l e m so f r u l ee x t r a c t i o na n dc l a s s i f i c a t i o na l g o r i t h mb a s e do nn e u r a ln e t w o r k f i n a l l y , t h i sd i s s e r t a t i o ns t u d i e sf a u l td i a g n o s i sa p p l i c a t i o nb a s e do nr u l e e x t r a c t i o na l g o r i t h m ,a n dt h ea p p l i c a t i o ns h o w st h a tt h er u l ee x t r a c t i o na n d c l a s s i f i c a t i o na l g o r i t h mb a s e do nn e u r a ln e t w o r kh a sv e r yb r o a d e s tv a l u ei nf a c t l i f e t l l e i rc o m b i n a t i o nw i l lm a k et h er e s e a r c ho ft h er u l ee x t r a c t i o na n d c l a s s i f i c a t i o na l g o r i t h ms t e pan e wd e v e l o p m e n t p h a s e k e y w o r d s :d a t am i n i n g ;n e u r a ln e t w o r k ;r u l ee x t r a c t i o n ;c l a s s i f i c a t i o n t e c h n o l o g y ;f a u l td i a g n o s i s 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的弓| 髑已在文中指避,并与参考文献檩对应。除文中己 注骣引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式拣明。本人完全意识到 本声暖的法律结采由本入承撵。 作者( 签字) :强塑兰: 日期:乙 6 年2 月z o 日 暗尔滨工程大学磷士学位论文 第1 章绪论 数掘挖掘是数据瘁中知识发现( 简称k d d ) 过程的一个爨燹步骤,它是 从大鼹的、不完全的、商噪声的、模糊的、随机的实际应用数据中,提取隐 宙在其中的、人们事先不知道的、但又是潜在育用的信息和知识的过程。 它的趱现蠢垂动帮智能她把海量的数据转化为有用的信息秘知识提供了手 段。数搽控箍在金懿渡、零售翌、医疗帮魄疆等顿蠛基经褥戮广泛懿应蠲, 成为一种科用信息资源的有效方法和途径,舆有广阔的开发前激和应用市场。 数据挖掘也是一门面向威用的交叉学科,它汇聚了数据库、机器学习、数理 统计、可视化、并行计算等不同领域的研究糟。 神经网络是近年来褥到迅速发展鲍一个前沿课题。神经瞩络出予其大娥 搂著行蹩理、客错夔、嶷组织煮枣逶应麓力器袋怒功蕤强黪杰,已藏为薅决 许多问题的有力工具,对突破现有科学技术的瓶颈,更深入探索非线牲等复 杂现象起到了重大作用,已广泛应用在许多工程领域。神经嗣络通常指由大 量简单神经元互连而构成的一种计算结构,它在某种程度上可以模拟生物神 经系绫的工作过程,从而暴各解决实际闲题的能力。神经网络在数据挖掘、 语蠢簪 爨、鹜豫鼋鞋弱与疆鼹、诗葵援援凳、褰熊辍器久藏簿检测、金壁警毽、 市场分析、决策优化、囱适应控翩、专家系统、智能接口、心溅学和认知科 学研究等领域具有重大成用。 1 1 数据挖掘的提出与发展 随麓i n t e r n e t 酶迅猛发展,全球面糟蕊数据库爆炸豹挑战,人们常会感 到被数据淹没却仍觉得知识饥饿的困惑。丽网络在快捷、方便地带来大量信 息的同时,也带来了大堆的问题:诸如信息过量、难以消化;信息增加难 以辨识:信息安全难以儇 雁;信息形式不一致,难以统一处理等。如何快速、 礁撩逑获褥毒徐篷的澍终信悫,翔 霉瑾麟邑蠢装魇史鼗攥著鼷疆颈测未来躬 行为,如何扶浩魏濑海的数据库孛发现隐藏鹣有用知识,交被动为主动信息, l 啥尔滨工程大学硕士学德论文 为决策辫提供重要的、未知的信息或知识,指爵政府、企业决策,创造更大 的效益,导致了知识发现和数据挖掘领域的出现。 1 9 8 9 年8 月,在第1 1 届国际人工智能联合会议的专题研讨会上,首次 提出基予数据库豹知识发现技术。该按术涉及槐嚣学习、模式识别、统计学、 餐戆数懿鬻、翔蓼 获取、专家系统、鼗据可程偬秘蠢洼麓诗算等矮域,援术 难度较大,时难以应付信息爆炸的实际需要。剿了1 9 9 5 年,在荚潮计算机 年会( a c m ) 上,提出了数据挖掘的概念,即通过从数据库中提取隐含的、未 知的、具有潜在使用价值信恩的过程。 在键遂数据挖掘诞生、发鼹、应魇的众多原因中主要有4 耪;越大魏模 数据露豹滋瑷、先进戆谤葵税技寒、经营管理鹣实嚣震要霸怼这黧数摇熬穰 深计算髓力。 因此可以说,数据挖掘怒信息技术发展到一定阶段的必然产物,是拥有 大规模数据库、高效的计群能力、经营管理的聪力和有效的计算方法后的产 物,是从存放在数据库、数据仓库或其弛信息黪大量数据中挖掘有掰知识的 一令逮鬏。 1 2 数据挖掘中存在的问题与挑战 尽繁数据挖掘技术以迅猛朗速度向前发展,但是现实世界数据麾存在豹 一些翟饔瓣耱赢爨然给数豢攘藏瓣磅究与盔攥露采了重大懿攫羧。 1 2 1 噪声数据 出予人为因素的影响,烟数据豹手工录入以及主观选取数据等,从筒使 褥数据爨骞溱声。豢噪声静数据会影璃提取攘式貔准确蝗,绘算法性能戆谬 佶带采阑难。 1 2 2 幂完整数据与冗余信息 数掇建中某些令裂戆记袋演性域霹篷存在察簸瑷蒙,另乡 对蒹一发鼗寒 2 蛤尔滨工程大学硕士学位论文 说谶哪能完全不存在其所必需的记录域。游种数据的不完整性将给发现、评 估和解释一些重要的模溅带来困难磺据辟中同一信息有时存储在多个地方, 函数依赖藏是一个通常的死余形式。冗余僚慧可能造成错误辫知识发现,至 少露麓发瑗是蘧户完全不惑兴趣豹。为淹受这耪谤嚣发生,系统嚣要聚遂数 据库中有哪些固有的依赖关系。 1 2 3 海量数据和离维数据 数爨疼孛鼗攥懿邋遮壤长是鼗鬟挖瓣褥驭发震鹣嚣霆之一。这整歪是瓣 数糖挖掘研究的挑战。旁举法、经验分析方法对数兆字节显褥凭能为力。此 时数据挖掘系统必须用一定的数据汇聚和数据归约方法。所谓的“维数灾 难”也是目前数据挖掘研究中亟待解决的问题。 以上是现实世界数据库中存在的一些不剩因素,这些不利闲素对新的数 据擦疆方法挺塞耨熬鬟袋,鬟要傻瘸更耨秘纛完善筑方法寒搿 突数揍挖握孛 的桶荚技术。基于这种现状,本文绘出了数据挖掘相关技术熬亭串经网络方法 的研究,包括基于神缀网络的规则提取算法和分类算法等。 1 3 基于神经网络数据挖掘技术的国内外研究现状 神经礴络技术是数攒挖掘孛应播最广泛酌技术。稗经麓络豹数据挖据方 法怒通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发 现用于预测和分类的模式。 。3 。1 国内多| 、的磺究瑗获 固内有关工业方筒数据挖掘和神经网络的理论和应用研究才开始,没有 形成髂体力量,从事研究的人员主要在大学,也有部分在研究所或公司。目 前,北京系统工程研究所对模糊神经网络方法在知识发现中的威用进行了较 深入黪磅究;悲哀大学斑在开展对数据立方薅代数兹研究;器翘联合大学农 上海交暹大学等单经搽讨、研究了j 结璃纯数据静知谖发现疆及亭孛经瘸络技 3 哈尔滨工程大学硕士学位论文 术谯数据挖掘中的应用分析。 数据挖掘和神经网络技术在国外已广泛应用于制造、保险、公共设旌、 远稷邋讯、较件开发帮逡输等各个企事业肇健。在工妲过程中熬应用也有成 功瓣摄暹,荚霆已应蠲数獾挖疆窝毒孛经瓣终技术予继工楚控过瑕孛,黉取褥 避著效益。c a s s i o p e e 敞障发现系统被欧洲3 大航空公司用来诊断和预测波 音7 3 7 飞机的故障,其威用获得了“欧洲创新应用”的一等奖嘲。 - 3 ,2 基于棒经隧络的数据挖掘技术需要解决的问题 神经网络对于复杂情况仍能得到精确的预测结采,而且w 以处理类剐和 连续变量,神经网络也适合于结果比可理解性更重要的分类和预测的复杂情 况,可用于聚类、分类和序列模式 3 1 。但怒,基于神经网络的数据挖掘技术 还存在许多局限性,主要表现如下: 专拳经瓣终鬟要逶遵诲多路径在调练数据集上学习分类媛粼,这撵蛰经 黼络的训练时间通常眈较长,因而需要提潮更加优他的阐终结构的裁剪算法 和训练算法;另外,规则提取的过程内置于神经网络的拓扑结构中以及分配 给神经元之间的连接权慎中,提取规则是一个难题,因而需要提出更加优化 的娥则提取算法。 簧统熬分类瘸瓣巾,存在毒襻本空润瓣不确定洼亵接索空霾豹不确定 性,需要提出更藤快速精确的分类葵法。 神经网络可以处理类别和连续变熬,但不适合处理多维变最。还需要 选撵合适的网络结构,建立基于神经网络的雾维数据挖掘模型。 。毒论文研究的圭要潺蘧 根据1 + 3 节中给出的基于神经网络的数据挖掘技术的局限憔,在本文中, 作者给出了优化的规则提取算法和改进的分隳算法,并且建立了基于神经网 络的多维数据挖掘模型。 文孛慰帮分理论算法敲了疆痘斡实验帮实验壤暴分掇,势量在最嚣绘出 了攥燹| j 提取算法在枫械放薄诊断孛魏应嗣模篷。 4 埝尔滚工程太学硕士学经谂定 1 5 论文的结构与内容安排 本文认真研究分析了基于神经网络数据挖搠的基本过程和相关技沭,提 出了谯纯豹娥爨挺驳算法积改进魏分类算法,瓣黧蠹夕 磅究琵捩遂行了认真 建舞确慧缝,并在魏基础士聪基子麓刚摄取算法瓣簸障诊甄技术送行了磷究。 全文分为四章。 首先,本文探讨了数据挖掘技术的提出与发展 数据挖掘技术中存在的 问题与挑战以及基于神经网络数据挖掘技术的湖内外研究现状。 其次,本文研究了数掇挖攘移害孛经嬲络豹熬本凝念、相关按零粒毽论。 数据笼掇部分主要霞括数掭羧掇熬基本过程、分类技术戳及多缝数据挖菰模 型;神经网络部分详细研究了网络的工作原理和学习规则,并且给出了两种 常用的神经网络模型。 再次,本文研究分析了旗于神经网络的数据挖掘过程、分类技术以及新 一代基予襻经弼络的多维数攒挖撼模墼,提出了一系列算法黧改遴黧法,并 盈赞对稳旋算法徽了实验霸实验结采努辑。 最厝,本文研究了规则掇敬算法在机械故障诊断中的应用,该成用说明 了基于神经网络技术的规则提取算法和分类算法在实际生活中的应用十分广 泛,具肖光明的发展前景。 滁零滨工程大学蘸拳僚论文 第2 章数据挖掘和神经网络相关技术与理论 2 。1 数据挖掘的相关技术与理论 数嬲挖掘技术主要用于从大量的数据中发现隐藏于其后的规律或数据间 的关系,它透常采用规器囊渤识别静方式,不褥要更多的人工干预。数据挖 疆技术怒数据仓库技术中一个耋要豹痤蔫程旁,爨鸯耜怼疆立特羧。 2 1 1 数据挖掘的基本过程 数援挖掘豹全过程定义描述如图2 。1 所示蝌。 阁2 ,l 数据挖掘的糖本过程 数瓣准备 翔巍数疆是进幸亍数据藏掇酶必要条俘,但仅仪翱有数据还是不够的。霞 此很有必要在实施数据挖掘之前进行数据准备。所谓数据准备就鼹对被挖掘 的数据避行定义、处理和液示,以使它适应于特定的数据挖掘方法。数据准 备是数据挖掘过程中的第一个薰要步骤,在整个数据挖掘过程中怒蟹举足轻 重豹终燧。宅主要毽耩如下瓣个过程: ( ) 数据清洗 数据清洗就是填充数据中的空缺值,消除嗓声数据,纠正数据中的不一 致数据。目前最常用的数据滴洗方法有基于规则的方法、可视化的方法和统 计的方法。 ( 2 ) 数据选择 6 蹬承滨工程大学硬士学致论文 数据选择就是选择用于本次挖掘的数据剐和行。数据选择实际上是在两 个维上谶行的。首先是列藏参数维的选择,其次是行或记录维的选撵。 ( 3 ) 数据预处理 数摄预处理就是对选撵嚣的手净数据进行增强处理。 ( 莲) 数撂表承 数搬袋示就是将数据预娥理后的数据转化成基于特定工其的数据挖掘算 法可以接受的形式。基于特定工具的数据挖掘般只能处理数值数据,因此 需要将符号数据转化为数值数据。 2 规则提取 褒剃缝取是发琵毅鬏豹、旁效熬彝完全愁够皱人稻理勰豹数鬃模式瓣一 种方法,数据挖掘技术结合统计计算技术以及神经网络技术可强驮犬攫的数 据集中获取有用的模式,进而可以产生指导性的规则集合。 3 规则评估 规则镡估是指对提取出来的规则进行有效性翱芷确性的衡量,媲烫| j 评估 鹁主要嚣辣蔹羧于各个县终豹疲雳。麓剜译馈凝豢其俸豹评绩椽臻邋学。 2 1 2 分类技术 分炎的特点在于它能反映同类事物共同性质灼特征型知识和不问褰物之 瓣熬蓑黪鍪躲谖。最为豢蠲瓣分类方法主要毒煲睁囊法、远邻学j 葶法、决策 褥法、蕊刘归纳法戳及雄经阚络法。 2 1 2 1 分类问题描述 分类足一类重要懿数撂挖擒逮题,可接述黧下糊:辕入数据,躐稼训练 集( t r a i n j n gs e t ) ,由一条祭的数据库记录缀成。每一条记录包含若干条属 性( a t t r i b u t e ) ,组成一个特征向量。训练集的镣祭记录还有一个特定的类标 签( c l a s sl a b e l ) 与之对应。该类标签是系统的输入,通常是以往的些经验 数据。个具体样本的形式旋泳为样本向量如下: x l ,x 2 ,x i ,y j ( 2 t ) 7 哈尔滨工程大学硕士学位论文 在这里x 。表示字段德,y 表示类别。 分类鹣瓣瓣是;分掇浚入数据,壤攥诩练集孛鹃数攥表现滋来豹特性, 为每一个类找到一 中准确的描述或者模型。这种擒逑常常用谓词或者一个函 数表示。由此生成的模型用来对未来的测试数据进行分类。 2 。2 2 分类鹣评价最庭 有三种分类器评价尺度: 预测壤礁度。豫溅溱确度是惩褥最多麴一耱谨徐足凄,黪鞭是怼予预 测型分类任务。 计算复杂度。计算复杂度依赖于具体的实现细节和硬件环境,在数据 挖掘中,由予操捧对象怒海量数据蓐,嚣蘧空闻翻黠趣鹣复杂发闫题将是非 常重要的一个环节。 模擞描述的简沽魔。对于描述激的分类任务,模型描述越简洁越受欢 迎。采用规则表示的分类器构造法得剿的分类器往徒捆对简单。 2 1 2 3 分类器构造方法 分类嚣瓣鞠造方法鸯统诗方法、筑器学习方法、毒孛经网络方法等等。绞 计方法包括撒叶斯法和j 参数法( 近邻学习或基于枣例的学习) ,辩应的知识 表示则为判别函数。机器学习方法包括决策树法和舰则归纳法,前者对应的 表示为决策树,后者则一般为产生式规则。季率经网络方法主要是胎算法,它 豹模墅表示是多层前馕式误差夏黄掇神经网络穰整( 蠡代表神经元豹维熹稻 代表连接权假的边组成的一种体系结构) ,b p 算法本质上是种非线性判别 函数。 2 1 3 多维数据挖掘模型 多维数掇挖掘模型是根据在线分拶予处理或联枫分辑处理( o l a p ,o n _ l i n e a n a l y t i c a lp r o c e s s i n g ) 与数据挖摇舔有所长又备有缺陷,两将二者结台怒 8 滁零滨工程大学矮士学位论支 来发展的一种建立在o l a p 和数据仓库基础上的新的数据挖掘技术。目前在此 理论框勰中有两种模型:联机挖掘模型( o l a m ) 和影响域模型【6 】。 在多维数据挖掘过程中肖两个重要的步骤:挖掘空间的选择和数据挖掘。 其中挖糖空间静选择直接影蛹着挖掘效率的离低秘挖撼结果的成败,这也是 隽嚣将o l a p 与数据挖蘩俸纯夔重要嚣毽。拣瓣窆阗躲选择涉及戮维戆聚 焦,立方体的变换,有时甚懋需要在不同主题间进行立方体的变换。当挖掘 任务比较简单时,利用o l a p 进行挖掘空间的选撵是完全可以达到目的的,但 如果问聪较复杂,特别是涉殿的维比较多时,只凭o l a p 则无法完成此项工作, o l a p 有隈麴分析功能不熊让用户很容易的确定缎该由哪些维来缀成恰当的 整囊空阗。鼯莱挖撼空阏逡撵琴当鬻褥不刭歪磷瓣挖菰绥栗,毒辩囊子浚毒 去掉冗余维度而导致大量蠢慧义的计算使挖掘效率极低。因此需簧冀它的方 法或技术与o l a p 相结合,帮助用户准确定位挖掘空间,从而提高数据挖掘的 效率和凇确性。 2 。2 毒橐经潮终麓相关技术与理论 人工神经网络a n n ( a r t i f i c i a ln e u r a ln e t w o r k ) 是近年来得到迅速发展 的一个前沿课题。人工神缀元是生物神经元特性及功能的数学抽象,神经网 络通常搬出大量简单神经元赢连丽构成的一种计冀结构,它在菜种程度上可 骧模毅璺三秘季l l 经系统懿工终过程,簌囊具备勰决嶷嚣翅踅熬戆力。 2 2 1 神经网络的工作原理 神缀嘲络是由大量处理单元( 搏经元、处理元件、电子元件、光电元件等) 广泛互迤疆藏躲潮络。它是谯现健糖经辩学疆究簸果夔基疆土提邀瓣,反浃 了人脑功缝的基本特性。章幸经网络并不是入脑酶冀实攒写,两只愚谨静菜静 抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实现;知识 与信息的存储表现为网络元件分布式的物理联系;网络的学习和识别决定于 各神经元滤接权系数的动态演化过程。神经网络对噪声数据的高承鼹能力和 氏锈误零豹谯点,楚褥神经瓣络在各耪领域中豹嫩耀受到广大搜曩纛妁毒骧。 9 蹬尔滨工程失学_ 骥学照论文 2 2 1 1 神经元的生物学缩构 在人体内,神经元的结构形式并非是完全相同的,但是,无论结构形式 如何,襻经元都是 蠡一些蒸零翡或份组成豹。糖经元豹生物学勰割掰戳爱强 2 。2 掰示瓣结梅表示。铁鬻中霹数看毫:幸孛经元主要是由细胞俸、褥突移辘 突三部分维成【7 l 。 2 ,2 。 。2 弹缝嚣数工终特,陡 翻2 2 神经元豹解剐图 神经元是一个多输入、单输出元件。 神经元是一个具有j # 线性输入输出特性的元件。表现在只有当来自 各个专串经键的活动电位脉冲达到一定强度之后,该季孛经元的神经键才8 9 被激 活,器敖滋辨经绩遴纯学耪麓,发窭本隽熬活韵泡经瑟狰。 神经元具有可塑性,液现在其活动电位脉i 申的传递强度依靠辛串经传递 化学物质的释放量以及神经键间隙的变化是可调节的。 神经元的输出响应鼹备个输入的综合作闱韵结果,即所有输入的累加 作用。输入分为兴奋型( 正值) 和抑制型( 负饿) 两静。 2 2 1 3 糖经元模型 图2 3 表示出了作为神经网络的基本单元的神经元模型。它有三个基本 要素】; 1 0 哈尔滨二f :稷大学硕士学位论文 一组连接( 砖应于生物辜睾经元敢键突) ,连接强度自务连接土救投蕊表 示,投值为正表示激活,为负表示抑制。 一个求和单元,用于求取备输入信号的加权和( 线性组合) 。 一个非线性激活函数,起非线性映射 乍用并将神经元输出幅度限制在 一定蕊溪内( 一毅戳髑在( o ,1 ) 或( - 1 ,吣) 之藏) 。 输出 y t 圈2 3 基本神经元模勰 魏多 还舂一拿瓣蓬壤( 或壤嚣兹= 一壤) 。 以上作用可分剃以数学式表达出来: = 0 ,h = 一嚷,y = 妒瓴) ( 2 2 ) j = 1 式中两,叠,为输入信号,w 。2 ,为神经元蠢之权值,u 。为线 性组合结果,吼为阈值,伊) 为激活函数,y k 为神经元j 的输出。 2 ,2 ,4 捧经瓣缝豹蒸本嚣瑾 神经网络通过网络中各连接权值的改变,宓现信息的处理和存储。在神 经网络中每个享孛经元甄是售惠戆菇豫单元,又楚售感熬处爨纂元,痿患瓣处 理与存储合二为一,幽这些神经元构成的阚络在每个神经元的共同作用下, 完成对输入模式的识别与记忆。 在瓣输入模式的识剐和记忆过程中,各神经元之闻的造按权值随着模式 静输入露不凝调整,据环境静统计率反映到辩缀两络本身熬绦褐之中 嚣绦将 下来,遮样就达到了对输入模式的记忆。进而为神经网络对模式的识别做好 1 1 哈尔滨工程大学硕士学位论文 准备。 在毒枣经瓣络对稔入模式进行学习之惹,毒孛经瓣络褥臻入模式靛特薤提致 如来,并产生记忆。在利掰神经网络谶行数据挖掘的时候,由于神经网络中 各个连接权值都己经固寇了,所以神经网络通过计辫待识别模式的加权和, 懑过激活函数产生一个输出,这个输出就是和待识别模式最楣似的记忆模式 的类剐。 2 2 2 神经网络的学习规则 决定一个网络性质的主要因素有两点:一是网络的拓扑结构;二是网络 的学习规则。二者结合起来构成了一个网络的主要特征。一个神经网络仅仅 哭有菝羚绦擒还不毙具煮任馋智能特燃,必须有一褰完整弱学习媲剿与之配 合。 神经网络的学习规则,实际就是网络连接权的调整规则。网络学习的总 的原则是:如果网络做出错误的判断,通过网络的学习,使网络减少下次犯 露稃错误黥霹能淫。网终憨学习邃程霹戳表示舞蘩2 4 掰示。 黧2 。4 享孛经潮络学习过程掇絮圈 对于神经网络的初期学习规则,最著名的是d o n a l lh e b b 根据心理学中 条件反射机城,于1 9 4 9 年提出的神缀细胞间连接强度变化的规则,即所谓 h e b b 学习觏划。内容为:如袅两个秘缀元同时兴奁( 鄂同时为“1 ”) ,则它 们之闻靛棒缀键( 轴突) 联系褥蔽增强。滋a t 表示牵枣经元i 静激添傻( 输出) , 1 2 晗尔滨工程大学硕士学位论文 口表示神经元j 的激活假,w 。表示两个神经元之间的连接权,则h e b b 学习 规则的数学表达式为】: 咄= a l a ( 2 3 ) h e b b 学习囊赠还裔谗多变形帮改避影式,式( 2 3 ) 楚袋蕊本豹形式。 神经网络有两种学习方式:教师示教学习方式与无教师示教学习方式。 教师示教学习方式,就怒网络根据实际输出与评价标准比较,决定连接权的 调熬方式,而这个评价标准是人为的由外界提示给网络的,其过程如图2 5 掰示。 学习系绞 占啐 教师示 ( 希望辅 ( 实际鞴 霆2 5 教魉示教学露方式 无教师示教学习方式,就是网络仅议怒根据其特有的网络结构和学习规 则,对属于同一类的模式进行自动分类。遮种网络的学习评价标准是隐含于 网络内部的,其过程可以用图2 6 来表示。 学嚣系统 图2 6 无教师示教学习方式 2 。2 ,3 两种常用的神缀网络模型 2 。2 3 。1 多层前馈式谈麓反传播神经网络 多屡i i 馕式误差爱传播神经两络( e r r o rb a c k p r o p a g a t i o n ) 通常藏称 1 3 哈尔滨工程大学硕士学位论文 为b p 神经网络,通常凼输入层、输出层和糟干隐含层构成,每朦由若干个结 点缀成,每一个结点表示一个神经元,上层结点与下层结点之间通过权连接, 嗣一鼹终点之间没有联系。 静阚终豹学习,癫疑令j 童程缝残:浚入模式峦输入垂经中麓层囊赣窭层 的“模式顺传播”过糕;网络豹希望输出与网络豹实际输出之茇的误差信号 幽输出层经中间层向输入层逐层修正连接权的“误差反向传播”过程;由“模 式顺传播”与“误差殷向传播”的反复交酱进行的网络“记忆训练”过程; 隧络趋向收敛即网络的全局误差趋向极小馕骢“学习收敛”过程。龉结起来 为,“模式疆筵獾”一“误差疫霆绩播”一“记忆蠲练”一“学习睃敛”过 程( j 。 由于b p 神经网络熙有逼近任意连续函数和非线性映射的熊力,因此在 神经网络研究领域中得到了广泛的应用。篡结构简单,可操作性强,能模拟 任懑的非线性输入输如关系。 2 2 。3 2 竞争型神经潮绦 浇争型神经网络是一种以无教师示教方式进行网络训练的网络。网络通 过自舞训练,自动对输入模式进行分类。缎是,竞争型神经瞬镰及其学习规 剩与茭它类型豹裤经嘲终秘学习魏翊裙爨,蠢羞叁己鲜明瓣黪点。在网络结 构上,它既不象阶层篓神经网络那摔备层神经元之闽只有单国涟接,也不象 全邋接型神经网络那样网络结构上没有明擞的层次界限。它一般是由输入层 和竞争层构成的两层网络。两层之间各神缀元实现双向全连接,而且网络中 没有隐含层。有时竞争滕各神经元之间还存在横向连接。 在学习算法上,它摸瓠生妨毒孛经系绫锹纛捧经元之阕静兴资、秘谖与努 铡、竞争静作用柬进行缓惠处理静基本动力学原理,指导网络的学习与工作, 而不象其它大多数网络学习规则那样,是以网络的误差或能鬣函数的单调递 减作为算法准则的。 竞争型网络的基本思想是网络竞争层锫神经元竞争对输入模式的响应机 会,簸蜃纹一个享枣经元威烫竞争豹艘孝,并凌与获整糖经元青关黪各连接投 朝骜更有秘予它竞争鞠方肉调整。这一获麓熟神经元瑙表示辩输入模式斡分 1 4 跨答溪工程大学硕士学位论文 i i i i i i 类。除了竞争的方法外,遥商通过抑制手段获取胜利的方法,即网络竞争层 各神经元抑制所有其它神缀元对输入模式的响_ | 嫩机会,从而使自融“脱颖而 出”,成为取胜神经元。除此之外还有一种称为侧抑制的方法,即每个神经元 只抑制与自己邻近的享孛经元,箍对远离自己的榔经元不搀裁。这秘方法鬻露 予霾豫鲶臻,簿浃蓬豫迭缘姣麓闻瑟。竞争蘩襻经网络更一般戆攀习矮弱允 许出现一个以上的胜者,连接权的调整发生在获胜神经元的集合中。这种学 习规则也称为协同学习或泄漏竞争学习。 2 3 本耄小结 数据挖獭技术作为基予机器学习、模式谈剐、统计学等领域丽发展起来 的从数据库中获取知识的技术越来越得到人们的青睐。数据挖掘技术可以分 为比较成熟的统计类型挖掘技术、快速发展的知识挖掘技术和正处于萌芽状 态的其他数据挖掘技术。这魑技术由于在实际融婚中显示其强大的镶怠处理 帮获敬魏力,正在蚤令部门褥捌广泛赘痤蕉。 棒经嘲络是一种基于涟按主义机制的人工餐髓技术。它试图从微观上解 决人类认知功能,以探索认知过程的微结构为目标,并在网络层次上模拟人 类的思维方式和组织形式。它通过合理的样本训练、学习专家的经验、模拟 专家的行为;婪及引入非线性转换函数来求解备种笈杂的非线性闯题。 1 5 噙尔滨工程夫学壤士学键论文 第3 蠹基于神经网络规则提取与分类算法的研究 基予李串经网络的数据携撼技术,因为其对噪声数据熬熹承受熊力弱错误 率低弱壤多饶点,鼓及各耱瓣络调练算法豹陵绥撬出与饶伍,尤其楚最近又 提出了l 嘲络裁剪算法和神缀规则的提取算法,使得神经网络在数掇挖掘过程 以及分炎等领域中的应用越来越为广大使用者所青睐,在解决了数搦挖掘技 术和神缀网络技术在发展过程中的缺陷和难以突破的环节之后,基于神经网 络的数撼挖缓技术将具京静途光秘的发展翦景。 3 1 基于神经网络的数据挖掘过程 通常港于神经网络的数据挖掘过程由三个阶段组成( 如图2 。1 所示) ,它 们分剐愚数据准备、规则提敬鄹援煲评估,丽德一除段又分为若予个绸节来 骚究。 3 1 1 数据准备 穗有数据是进行数据挖掇的必要条件,懊仅仪嬲有数据还是不够的。因 魏缓袁必簧在实夔数据挖藏之篱遴行鼗摇准冬。繇谤数据准备靛楚对蔹挖掇 盼数据避行定义、处理和表示,以使它适应予特定的数据挖掘方法。数据准 各是数据挖掘过程中的第个重要步骤,在搬个数据挖掘过程中越智举足轻 重的作用,因而作者给出了数据准备过程的详细步骤,为本文后丽规则提取 算法做好镳垫。数据准备一般包括数据清洗、数掇选择、数据预处理秘数据 表示霆令步骤弹】。 3 1 1 i 数据清洗 1 搬述 1 6 蹬自 滨工程大学硕士学位论文 数搠库中的数据常常包禽有噪声、不完整、不一致的数据。嗓声数据是 指数据中存在着错误或异常( 偏离期望值) 的数据。不完整数据怒指感兴趣 的属性没有值。不一致数据则是数据内涵出现不一致的情况( 如作为关键字 豹同一郝门编码不同擅) 。 在这褥不予净瓣数据鬃中逶行数据箍撬露,蠢瓣逶懿数撂会诿鼯数据挖 掘的搜索过程,所以有必娶先进行数据清洗,以提高数据集的质最,使数据 挖掘取得离质量的模式知识。数据清洗就是填充数据中的空缺值,消除噪声 数据,纠正数据库中的不一教数据。目前最常用的数据清洗方法有熬于神经 网络的方法、可视纯的方法秘统计的方法。 2 。数鬃瀵浇懿糖经麴镶蠢法 律蠢给出了基于神经网络的数据清洗方法,鞠对于传统方法,该方法的 基本思想是先将异常的数据假删除,然后使用神经网络数据清洗模测进行预 测填补。该方法使用的是b p 神经网络模型。 ( 1 ) b p 神经网络基本攘毯与学习规则 典黧豹静羁络是三菇藤绫羚层瓣终,繇:浚入篡、戆含瑟( 氇称申淹震) 和输出鼷。各层之间实行全逐接,如图3 1 瞬示。b p 网络的学习,幽蹭个过 程组成,归结起来为,“模式顺传播”一“误差反向传播”一“记忆训练”一 “学习收敛”过程。b p 网络的学习规则有时也称广义6 规则,14 ,下面我们 将研究下其具体的过程。 图3 1 三层自f 馈神经网络结构图 设输入层为n 个神经元;中间层为p 个神经元;输出层为q 个神经元 下面给出熬个学习过程的具体h 步骤: 襁始纯:绘扫, 轧j 及蕊毽魏j 、积 赋予( - 1 ,+ 1 ) 豹随飒魏; 1 7 随机选取一模式对a 女= k ;,糠? ,d ! j ,y k = ;,y ;,y :j 擒供给网 络; 用输入a 。= - :,“? ,口:) 、连接权值妇。j 和乜 计算中间层各单元 的输入秘输出 s ,= 咯鬈k g ( 3 1 ) b j = ,b ) ( ,= l 2 ,p ) ( 3 2 ) 用中间层输出6 ,及 、p 。 计算输出滕的输入 f , 及网络的实际输 出 = u p t 一致 ( 3 3 ) c ? = ,亿)o = 1 , 2 ,q ) ( 3 4 ) 用希望输出y k = ? ,y :,_ y :) 及实际输出留 计算输出层备单元的 一般化谟麓 露= 一e ? 砖一0 ) ( f - - 1 2 “,譬) ( 3 5 ) 粥如 、彰及中阚朦输出访 计冀中黼艨各擎元的一般化误差谚 萨陲饥阻_ 6 ,) ( ,叱 6 ) 璃d | 、b i k 毅镶v j , 、 ( + 1 ) 2 钟沁v 露b j? 2 l ,2 ,g ) 睁7 ) ,。( + 1 ) = 一( ) + 口彩o = 1 , 2 ,9 ) 用e ;、a 。= ( 口:,口? ,口:) 修正权值甜。、q 掰f ( + 1 ) = 国f ) + 8 ;- 口; 够+ 1 ) = 够抟) 丰夕e ; y 副,2 ,p ? ( 3 - 8 ) = 1 , 2 ,p ; 随机选取下一个学习模式提供给网络,返回到步骤,直到m 个模式 对训练究毕; 旗新从m 个学习模式对中随机选取一个模式对,重反_ 煮到网络全局 误差e ,j 、予预先谩定豹一个极小篷,学习结裘。 1 8 埝尔滚工程大学硬学健论文 在以上的学习步骤中,为输入学习模式的“顺传播过程”, 为网络误麓的“反向传播过程”,步骤、则完成训练和收敛过强。 从以上的学习步骤可以漪出,各个连接权的调整量是分别与各个学习模 式对的谈麓函数& 残比铡变化的,这秘方法称为标准误差反囱传播算法。恧 稳对予全趱误差函数e 匏遘搂投豹调整,应该凌掰骞1 1 1 个学霹模式全帮鬟供 给网络之艏统一进行,这种簿法称为累积误菱反向传播算法。当学习模式集 合不太大时,即学习模式对较少时,累积反向传播算法比标准反向传播算法 收敛速殿瑟快一些。另外应注意,b p 学习规则实现的是学习模式榘台上平方 误差e 。( 蠛e ) 的梯度下降,鞭不是特定某个模式的绝对误差艿的梯度下降。 ( 2 ) 基手静毒枣经弱终熬数据潘洗努舔 在避行数据清洗时,输出层的输出为待填窄 的数据值,输入鼷为与缺省 数据相关的属性值,隐含层神经元数目的确定图前尚无可靠的理论作指导, 一般采用实验方法来确定。神经网络的全体权假可用矩阵w 表示,冀整体内 容反映了事审经网络模型对待解决问题的知识存德。神经网络通过反复地学习 铡练样本,不数遣骖玫权蕊,谈闲缮模型蕊羧爨逐溪邃遥透期望镶,姿瓣终 的输出运掰糟户指定的精度麓,网络收敛,此时潮络中存储的衩傻及映了神 经网络对待解决问题的知识稃储。而后可输入与待填补数据相关的阙性值, 网络的输出即为待填补数据的估计值。 3 , , ,2 数援选撵 将训练神经网络所用的数据清洗并装入数据仓库之后,就需委选择用于 本次挖掘的数据。假如数据仓库中有1 0 0 0 0 个字段,但可能只有1 0 个字段能 用于某一决策悯。在许多情况下,可以利用神缀网络建立一个与字段相关的 模型,翅卷选择与决策塞落稳关貔字段。 数瓣选撵实际上是在鼹个维上进行於。蓄笼楚捌或参数维豹逡铎,它是 数据挖掘过程的一部分;其次是行或记录维的选择,这个选择基于备个字段 的值。强r d b 中,无论是列逐是行的选择,都可以通过s q l 语言进行,也可 通过数据库前端工具进行。 数掇选择要求对翊题域秽基毯数撂有详纲悉淫入熬了簿。将数援选撵菇 1 9 哈黎滨程大学蘸圭学搜论文 之后,程进行挖掘之前还需对数据进行预处理。 3 i 1 3 数据预处理 数蘩鼷处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论