(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf_第1页
(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf_第2页
(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf_第3页
(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf_第4页
(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于自组织映射网络和感知机的数据挖掘方法及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着数据库技术的成熟应用和i n t e m e t 的迅速发展,从大量数据中挖掘有用的 信息成为一个迫切需要解决的问题,数据挖掘的研究应运而生。数据挖掘经常要 面对一些有噪声、杂乱、非线性的数据,而神经网络具有良好的鲁棒性、自适应 性、并行处理、分布存储和高度容错性等特点,故神经网络非常适合用来解决数 据挖掘的问题。 本文首先介绍了数据挖掘的概念、过程以及目前数据挖掘中常用的模型与算 法,对人工神经网络的基本模型、拓扑结构和学习机制进行了简要的概述。对人 工神经网络数据挖掘方法中的数据预处理问题进行了研究分析。讨论了数据清洗、 数据集成和转换,重点讨论了数据表示和数据消减问题。 聚类指的是把数据库里的对象分组成有意义的子集,使得一个类内的成员尽 可能相似,不同类间的成员差异尽可能大。聚类具有无监督学习能力,被广泛应 用于多个领域中,如模式识别、数据分析、图像处理以及市场调研等。使用聚类 可以发现数据分布的疏密区域,从而找出数据总体的分布模式以及数据间有趣的 相互关系。 本文对数据挖掘中主要的聚类算法进行了简要介绍,对神经网络中的自组织 映射( s o m ) 神经网络进行了深入研究,并对s o m 学习算法进行了优化,在一定程 度上提高了网络迭代训练的速度;随后对层拓展自组织映射网络( g h s o m ) 进行了 研究,将灰关联度分析( g r e yr e l a t i o n a la n a l y s i s ) 引入g h s o m 网络,提出了 g r a g h s o m 算法。实验结果表明g r a g h s o m 算法在高维数据聚类过程中,体 现了样本向量各个分量在模型中的重要性,能更精确的进行聚类。 本文最后部分对基于感知机神经网络的分类算法进行了研究,讨论了单层感 知机和多层感知机网络模型和分类学习算法。并将感知机网络应用于地方天气预 报系统中,为飞行训练提供决策依据。 关键词:数据挖掘,人工神经网络,聚类,自组织映射网络,感知机 a b s t r a c t a bs t r a c t w i t ht h ew i d e l ya p p l i c a t i o no fd a t a b a s ea n dt h es h a r pd e v e l o p m e n to fi n t e r n e t ,i ti s a nu r g e n tp r o b l e mt om i n eu s e f u li n f o r m a t i o nf r o mt h e l a r g ed a t a b a s eo rd a t a w a r e h o u s e s t h e r e f o r e ,d m ( d a t am i n i n g ) t e c h n o l o g yi sd e v e l o p e dr a p i d l yt om e e tt h e n e e d b u td mo f t e n f a c e ss om u c hd a t aw h i c hi sn o i s y , d i s o r d e ra n dn o n l i n e a r f o r t t m a t e l y , a n n ( a r t i f i c i a ln e u r a ln e t w o r k ) i ss u i t a b l et os o l v et h eb e f o r e m e n t i o n e d p r o b l e mo fd mb e c a u s ea n nh a ss u c hm e r i t s a sg o o dr o b u s t n e s s ,a d a p t a b i l i t y , p a r a l l e l - d i s p o s a l ,d i s t r i b u t i n g m e m o r ya n dh i g ht o l e r a t i n g - e r r o r t h i st h e s i sb r i e f l ye x p o u n d st h eb a s i cc o n c e p t so fd ma n da n n ,i n c l u d i n g c o n c e p t ,p r e p r o c e s s i n ga n da l g o r i t h m so fd m a n dt h eb a s i cn e u r o nm o d e l ,t o p o l o g ya n d t h el e a r n i n go fa n n d a t ap r e p r o c e s s i n g ,i n c l u d i n gd a t ac l e a n i n g ,d a t ai n t e g r a t i o n ,d a t a t r a n s f o r m a t i o na n dd a t ar e d u c t i o n ,i sa l s od i s c u s s e d c l u s t e r i n gi st h et a s ko fg r o u p i n g t h eo b j e c t so fad a t a b a s ei n t o m e a n i n g f u l s u b c l a s s e s ( t h a ti s ,c l u s t e r s ) s ot h a tt h em e m b e r so fac l u s t e ra r ea ss i m i l a ra sp o s s i b l e w h e r e a st h em e m b e r so fd i f f e r e n tc l u s t e r sd i f f e ra sm u c ha sp o s s i b l ef r o me a c ho t h e r d u et oi t su n s u p e r v i s e dl e a r n i n ga b i l i t y , c l u s t e r i n gh a sb e e nw i d e l yu s e di nn u m e r o u s a p p l i c a t i o n s ,s u c ha sp a t t e r nr e c o g n i t i o n ,i m a g ep r o c e s s i n g ,m a r k e tr e s e a r c ha n ds oo n c l u s t e r i n gc a nf i n do u tt h ed e n s eo rs p a r s ea r e a so fd a t ad i s t r i b u t i o n ,w h i c hc a nh e l pt o d i s c o v e rt h ed i s t r i b u t i o nm o d ea n di n t e r e s t i n gr e l a t i o n s h i pf r o md a t a t h em a i nc l u s t e r i n g a l g o r i t h m se x i t i n g a r e a n a l y s e d i nt h et h e s i s t h e n s e l f - o r g a n i z i n gm a pn e t w o r ki sr e s e a r c h e da n dt h ec h a r a c t e r i s t i c so ft h en e t w o r ka r e d i s c u s s e d w eo p t i m i z e dt h es e l f - o r g a n i z i n gm a pa l g o r i t h m ,i m p r o v e dt h es p e e do f c l u s t e r i n gp h r a s e a f t e rt h a t ,t h eg h s o mn e t w o r ki sd i s c u s s e d w ep r o p o s e dan e w g i l a g h s o ma l g o r i t h mb yu s i n gg r e yr e l a t i o n a la n a l y s i s e x p e r i m e n tr e s u l t ss h o w e d t h a tt h eg r a g h s o ma l g o r i t h mh a sb e t t e rp e r f o r m a n c ei n h i g h d i m e n s i o n d a t a c l u s t e r i n g a tt h ee n do ft h et h e s i s ,p e r c e p t r o nn e t w o r ki sd i s c u s s e d ,i n c l u d i n gs i n g l el a y e r p e r c e p t r o na n dm u l t i l a y e rp e r c e p t r o n t o d a y , l o c a lw e a t h e rf o r e c a s t ( l w f ) a r ev e r y i m p o r t a n ti nf l i g h tt r a i n i n g s o ,t h ep e r c e p t r o nn e t w o r ki sa p p l i e dt ol w ff o rf l i g h t i l a b s t r a c t t r a i n i n g k e yw o r d s :d a t am i n i n g ,a r t i f i c i a ln e u r a ln e t w o r k ,c l u s t e r i n g ,s o m ,p e r c e p t r o n i l l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: - ) 钐毕彳讼 醐:矽细肜瑁 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: ) 形 u 乞| 一 _ 一, 导师签弼 导师签名: :i 当 醐:7 钆钥p 日 第一章绪论 1 1 研究背景与意义 第一章绪论 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。例如:商品条形码的广泛使用,企业的信息化程度的提高,科学研 究和政府部门中电子化事务处理技术的运用,以及数据收集工具和技术的多元化 ( 从文本扫描到卫星遥感) 等等。除此之外,互联网的发展更是为我们带来了海 量的数据和信息。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进 行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实 现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法 根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导 致了“数据爆炸但知识贫乏的现象。 在这种状况下,数据挖掘和知识发现技术应运而生,并显示出其强大的生命 力。数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程【l 】。数据挖掘在商务智能、地理信息系统、遥感、图像数据勘测、医学 图像处理、导航、环境、城市建设等领域有着广泛的应用前景。在城市的数字化 建设中,挖掘技术将起着重要作用。利用数据挖掘技术开发的应用系统,如城镇 选址、交通控制、卫生防疫、应急系统等,可以提供及时、科学的决策支持或参 考,从而推动城市化进程,加快经济和社会发展。 数据挖掘的困难主要存在于三个方面【2 】:首先,巨量数据集的性质往往非常复 杂,非线性、时序性与噪音普遍存在;其次,数据分析的目标具有多样性,而复 杂目标无论在表述还是在处理上均与领域知识有关;第三,在复杂目标下,对巨 量数据集的分析,目前还没有现成的且满足可计算条件的一般性理论与方法。但 是,由于现实世界数据库中存在着大量有待利用的信息,在潜在的巨大利益驱动 下,数据挖掘研究目前成为了机器学习、数据库等领域的研究热点。而且真实世 界的数据关系相当复杂,非线性程度相当高,普遍存在着噪音数据,因此这些方 法在很多场合都不适用。如果能将人工神经网络技术用于数据挖掘,将可望借助 人工神经网络的非线性处理能力和容噪能力,较好地解决这一问题。因此,设计 电子科技大学硕士学位论文 出基于人工神经网络的数据挖掘方法并将其用于真实世界问题,不仅是可行的, 而且也是必要的。 在数据挖掘中采用人工神经网络技术,主要是因为它具有一些传统技术所没 有的特点【3 j : 1 分布存贮和并行处理性。信息在神经网络内的存贮是按内容分布于多个神 经元中,而且每个神经元存贮多种信息的部分内容。网络的每部分对信息的存贮 具有等势作用,网络的各神经元可以同时进行类似的处理过程,整个网络的信息 处理方式是大规模并行的。 2 可塑性、自适应性和自组织性。神经元之间的连接具有多样性,各神经元 之间的连接强度具有可塑性,相当于突触传递信息能力的变化。这使得网络可以 通过学习与训练进行自组织,以适应不同信息处理的要求。 3 较强的泛化能力、容错性和鲁棒性。它主要表现在神经网络中某个神经元 的损坏、或某两个神经元之间的连接损坏、或某个神经元的输入有偏差时,网络 的性能( 如学习性能、泛化性能、稳定性能、收敛性能) 没有明显改变。 4 硬件实现后分类速度快,可以快速准确的实时处理。 5 分类、预测精度高,算法具有伸缩性。 人工神经网络方法在数据挖掘中的应用研究是近年来的热点研究方向。现在, 国内外的有关的研究成果和研究报道有如下一些: b i g u s 从商业应用的角度出发,对在数据挖掘中运用神经网络技术进行了分析 和指导,其重点在于如何应用已有的软件产品如i b m 的i n t e l l i g e n tm i n e r 的神经网 络模块进行数据挖掘。 基于r b f 神经网络在一定条件下与模糊规则系统等价的论述,p e d r y c z 提出了 模糊径向基函数神经网络,通过所定义的d a t am i n i n gw i n d o w 提取产生式模糊规 则。 s e t i o n o 等人通过在神经网络中加入惩罚项和结构调整进行属性特征提取,从 而实现对属性的约简,为减少数据挖掘的计算复杂度提供了前提条件。 大量图像数据的广泛应用和在数据库中的存储,需要一种不需预处理而直接 进行处理的方法,c i o s 等人的i r n n 图像识别神经网络正是这种方法。 g i l e s 等人提出从高程面上提取规则的神经网络连接方法是近年来出现的研究 方向之一。 b a n s a l 等人提出了基于神经网络的数据挖掘方法,并将其作为支持决策药品 库存放和分放的技术以及医药数据挖掘技术。 2正 第一章绪论 美国s a s 公司的数据挖掘集成软件s a n e n t e r p r i s em i n e r 中的主要数据挖掘模 型和技术之一就是人工神经网络及其技术。 目前,人工神经网络具有多种网络结构模型。本文主要讨论人工神经网络中 自组织映射网络和感知机在数据挖掘中的算法和应用研究。 1 2 本文的主要工作 本文的主要研究工作包括:通过查阅相关资料文献,对数据挖掘和神经网络 的相关研究做了一个概述;研究了人工神经网络数据挖掘的数据预处理问题,对 数据的转换和数据表示问题做了重点讨论;对利用人工神经网络方法进行聚类作 了较为深入的研究,在深入研究s o m 聚类算法的基础上,对s o m 学习算法进行 了优化,接着研究了层拓展自组织映射网络( g h s o m ) ,并提出了引入灰关联度分 析的g r a g h s o m 算法,实验结果表明g r a g h s o m 算法在高维数据聚类过程中, 体现了样本向量各个分量在模型中的重要性,能更精确的进行聚类;针对地方天 气预报( l w f ) 在飞行训练中的应用问题,研究了感知机神经网络,并将感知机神经 网络成功应用于地方天气预报系统。 1 3 论文的结构 本文的内容共分为六章,其结构安排如下: 第一章绪论。主要介绍了论文所涉及的研究背景及本文的主要工作,并对论 文的整体结构做一个概括。 第二章数据挖掘及人工神经网络概述。首先介绍了数据挖掘的定义、过程、 功能以及目前数据挖掘中常用的模型与算法;接着简要介绍了人工神经网络的基 本模型、拓扑结构和学习机制。 第三章人工神经网络数据挖掘的数据预处理。介绍了基于人工神经网络方法 的数据挖掘中数据预处理的重要性,阐述了数据清洗、数据集成和转换,随后详 细分析了数据的表示和数据消减。 第四章基于自组织映射网络的聚类算法研究。首先比较了现有的数据挖掘聚 类算法,阐述了基于s o m 网络的聚类算法,对其进行了优化,接着重点研究了基 于g h s o m 网络的聚类算法,并在g h s o m 的基础上引入灰关联分析,提出了 g r a g h s o m 算法,最后给出了实验结果。 3 电子科技大学硕士学位论文 第五章基于感知机的地方天气预报系统。先介绍了单层和多层感知机模型和 学习算法,接着将感知机神经网络应用于地方天气预报系统,阐述了该应用的实 现,包括问题定义、数据预处理、网络模型构建以及结果展示。 第六章结论与展望。对本文的工作做一个归纳总结,并对本人今后的研究工 作进行展望。 4 第二章数据挖掘及人工神经网络概述 第二章数据挖掘及人工神经网络概述 2 1 数据挖掘概述 数据挖掘是一个多学科交叉领域,需要从数据库技术、人工智能、机器学习、 神经网络、模式识别、知识库系统、知识获取、信息提取、高性能计算、数据可 视化、统计学与模糊数学等多学科领域汲取营养。它汇聚了不同领域的研究者, 尤其是数据库、统计学、模糊数学和人工智能等方面的专家和学者。 2 1 1 数据挖掘的定义及过程 目前比较公认的对数据挖掘的定义是:数据挖掘( d a t am i n i n g ) ,又称数据库 中的知识发现( k n o w l e d g ed i s c o v e r y ) ,是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是有趣的、潜 在有用的信息、模式和知识的过程【l 】。 数据挖掘是一个非平凡过程,即数据挖掘的过程不是线性的,而是在挖掘过 程中有反复、有循环。数据挖掘的过程一般分为:问题定义、数据预处理、数据 挖掘算法执行,以及结果的评估与表示四个阶段【4 j ,具体过程如图2 1 所示。 评口与与表示 = ) 数据挖掘 慧 _ 霾 1,( 二) 。 7 ( 二) 、r 知识 罾 刀 妊审q 心默 力 l 据集 模式 1r1r 图2 1 数据挖掘的过程示意图 5 电子科技大学硕士学位论文 1 问题定义 在问题定义过程中,由数据挖掘人员与领域专家及最终用户协作,一方面确 定实际工作对数据挖掘的要求;另一方面通过对各种算法的对比进而确定可以采 用的学习算法。后续的学习算法选择和数据集的准备都是在此基础上进行的。这 是数据挖掘整个过程中第一个也是非常重要的一个阶段。 2 数据预处理 数据预处理是数据挖掘过程中的一个重要步骤。数据质量的好坏直接影响着 挖掘效果的优劣。数据预处理包括:数据清洗、数据集成、数据转换与数据消减。 数据清洗( d a t ac l e a n i n g ) 的任务是消除噪声或不一致数据,解决对象识别问 题。数据的不一致性会导致数据挖掘结果的可信度降低。数据清洗去除噪声或无 关数据,并对包含空值的数据域进行处理。 数据集成( d a t ai n t e g r a t i o n ) 主要是将多文件或多数据库运行环境中的异构数 据进行合并处理,解决语义的模型性。用于数据挖掘的数据可能来自多个实际系 统,因而存在着异构数据的转换问题。又由于多个数据源的数据之间可能存在许 多不一致的地方,因此数据集成并非是简单的复制过程。 数据转换( d a t at r a n s f o r m a t i o n ) 是将数据变换或统一成适合挖掘的形式,包括 数据泛化处理、规格化、属性构造和平滑处理等。 数据消减( d a t ar e d u c t i o n ) 的目的是缩小所挖掘数据的规模,但却不会或基本 不会影响最终的挖掘结果。数据消减包括数据聚合、属性选择和数据压缩等操作。 3 数据挖掘算法执行 数据挖掘算法执行阶段根据对问题的定义明确挖掘的任务或目的,如分类、 聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定所使用的 算法,建立数据挖掘模型。算法选择可以从两个方面进行考虑:一是根据各类数 据的不同特点,选择相应算法;二是根据用户或实际运行系统的要求,选择符合 知识表达要求的算法。 4 结果评估与表示 模型建立好之后,一方面应根据一定的评估标准,从挖掘结果中筛选出有意 义的模式知识;另一方面要利用可视化和知识表达技术,向用户展示所挖掘出的 相关知识。 6 第二章数据挖掘及人工神经网络概述 2 1 2 数据挖掘功能 利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户 并不知道数据存在哪些有价值的信息知识,因此,通过数据挖掘应该能够同时发 现多种模式的知识,以满足用户的期望和实际需要。 数据挖掘功能以及所能够挖掘的模式类型主要有1 5 j : 1 特征化和区分 数据特征化是目标类( 所研究的对象) 数据的一般特征或特征的汇总。数据 特征的输出可以用多种形式提供,包括饼图、柱状图、曲线、多维数据立方体和 包括交叉表在内的多维表。 数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比 较。区分描述的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分 目标类和对比类。用户应当能够对特征和区分描述的输出进行操作。 2 分类与预测 分类是数据挖掘中应用得最多的方法。分类是找出一组能够描述数据集合典 型特征的模型,以便能够分类识别未知数据的归属或类别,即将未知事例映射到 某种离散类别之一。分类模型可以通过分类挖掘算法从一组训练样本数据中学习 获得。分类挖掘所获的分类模型可以采用多种形式加以描述输出,其中主要的表 示方法有:分类规则、决策树、数学公式和神经网络。分类通常用于预测未知数 据实例的归属类别。预测离散数据通常称为分类,预测连续数据通常称为预测。 3 聚类分析 数据库中的数据可被分为一系列有意义的子集,或称为聚类。在同一类别中, 个体之间的距离较小,而不同类别的个体之间距离较大。与分类不同的是,在进 行聚集分析之前不知道要把数据分成几组,也不知道怎么分。待划分的对象根据 最大化类内的相似性,最小化类间的相似性的原则进行聚类或分组。 4 关联分析 关联分析就是从给定的数据集中发现频繁出现的项集模式知识,即关联规则。 关联分析的目的是找出数据集中隐藏的关联网。在大型数据库中,这种关联规则 是很多的,一般对“支持度 和“置信度 这两个参数设置阈值来淘汰那些无用 的关联规则。 5 序列模式 序列模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列 7 电子科技大学硕士学位论文 的影响。而在前面所提到的分类与预测、聚类以及关联分析中,事件产生的序列 信息被忽略或简单的被作为一条记录对待。 6 孤立点分析 数据集中的数据常有一些异常记录,这些记录称为孤立点。从数据库中检测 出这些孤立点很有意义。孤立点包括很多潜在的知识,如分类中的反常实例、不 满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。孤立点 分析基本方法是寻找观测结果与参照之间的差别。 2 1 3 数据挖掘的模型与算法 数据挖掘模型与算法是数据挖掘的关键,许多学者的研究工作就集中在挖掘 模型与算法上。目前,数据挖掘的方法通常可以分为两大类:一类是统计型,常 用的技术有概率分析、相关性分析、聚类分析和判别分析等;另一类是人工智能 中的机器学习型,通过大量样本集的学习训练得出需要的模式或参数。下面简单 介绍一下数据挖掘应用中常用的几种算法【6 】: 1 决策树:决策树主要是基于数据的属性值进行归纳分类,常用于分类的层 次方法有“i f - t h e n ”规则。决策树方法的最大优点就是可理解性强,比较直观。其 缺点是处理复杂性的数据时,分支数非常多,管理起来难度很大。同时,还存在 数据的缺值处理问题。其常用算法有:i d 3 、c 4 5 、c a r t 等,目前出现的两种新 算法s l i q 和s p r i n t 可以由非常大的训练集进行决策树归纳,可以处理分类属性 和连续性属性。 2 贝叶斯网络:贝叶斯网络基于贝叶斯定理,是建立在对数据进行统计处理 基础上的方法。将不确定事件通过网络连接起来,可以对与其他事件相关的事件 的结果进行预测,其网络变量可以是可见的,也可以隐藏在训练样本中。贝叶斯 网络具有分类、聚类、预测和因果关系分析的功能,其优点是易于理解,预测效 果较好;缺点是对发生频率很低的事件预测效果不好。在医学和制造业等领域的 应用具有较好的效果。 3 粗糙集:该理论是波兰p a w l a k 教授在1 9 8 2 年提出的,它是一种新的数学 工具。这一方法在数据挖掘中具有重要的作用,常用于处理含糊性和不确定性的 问题,发现不准确数据或噪声数据内在的结构联系,也可以用于特征归约和相关 分析。其主要优点是不需要任何关于数据的初始的或附加的信息,因此广泛应用 于不确定、不完整的信息分类和信息获取。 8 第二章数据挖掘及人工神经网络概述 4 人工神经网络:人工神经网络类似于人脑重复学习的方法,先给出一系列 的样本,进行学习和训练,从而产生区别各种样本之间的不同特征和模式。该算 法的优点是对复杂问题能进行很好的预测,对噪声数据的承受能力比较高,以及 它对未经训练的数据分类模式的处理能力。关于人工神经网络方法在数据挖掘中 的算法及应用研究将在下面章节中详细展开。 5 统计分析:统计分析的理论基础主要是统计学和概率论的原理,是一种较 为精确的数据挖掘技术。它是一种基于模型的方法,包括回归分析、因子分析和 判别分析等,该方法的优点是容易理解,对结果描述精确。统计分析在实际应用 中较为广泛,著名的统计产品供应商s p s s 公司开发了s p s s 和s y s t a t 统计软件 包,同时,s a s 公司也开发出相应的产品s a s 和j m p ,这些产品都占有一定的应 用市场。 2 2 人工神经网络概述 人工神经网络,指的是模拟生物神经系统的结构和功能,运用大量的处理单 元,由人工方式建立起来的网络系统。人工神经网络的信息处理由神经元之间的 相互作用来实现,知识与信息的存贮表现为网络元件互连分布式的物理联系,人 工神经网络的学习和识别决定于各神经元连接权值的动态演化过程【7 1 。 2 2 1 神经元模型 神经元是人工神经网络的基本信息处理单元,它一般是一个多输入单输出的非 线性器件,其结构模型如图2 2 所示。 x l x 2 : x 力 图2 - 2 神经元模型 其中,x ,( f _ 1 , 2 ,甩) 为输入信号,通常表示为向量形式x = ( x 。,x :,x 。) 7 r ”, 9 电子科技大学硕士学位论文 称为输入向量或输入样本;w i 为神经元的连接权值,通常记为权值向量 w = ( w ,w :,w 。) 7 r ”;0 为神经元的阈值;厂是传输函数也称为激励函数,决 定神经元受到输a x ,( i = 1 , 2 ,玎) 的共同作用达到阈值时以何种方式输出;y 表示 神经元的输出。神经元的输出表示为: y = f ( x7 形一0 ) ( 2 - 1 ) 传输函数厂有多种形式,可以是线性或非线性函数。下面三种传输函数最为 常用7 】: 1 线性型,如图2 - 3 ( a ) 所示。 f ( x ) = x( 2 - 2 ) 2 阈值型,为阶跃函数,如图2 - 3 ( b ) 所示。 厂c x ,= 二三暑 c 2 3 , 3 s 型,如图2 - 3 ( c ) 所示。 m ) = 专( 2 - 4 ) 一l ,u , 。 。 0 7 ( a ) jv 一, 1 0 7 一v u , 1 l r 0 图2 3 神经元传输函数 ( a ) 线性型( b ) 阈值型( c ) s 型 l o ( c ) 第二章数据挖掘及人工神经网络概述 2 2 2 人工神经网络的拓扑结构 神经元和神经网络的关系是元素与整体的关系。单个神经元结构简单且计算 能力有限,只有把多个神经元连接起来,构成一个互连的神经网络,才能完成复 杂的“计算任务 。下面是几种常见的网络拓扑结构【7 j : 1 前向网络 前向网络又称前馈网络,如图2 4 所示。在这种网络中,神经元分层排列,分 别组成输入层、中间层( 又称隐层,可以有若干层) 和输出层。每一层的神经元 只接受来自前一层神经元的输入。后面的层对前面没有信号反馈。输入模式经过 各层的顺序传输,最后在输出层上得到输出。 图2 4 前向网络 2 有反馈的前向网络 有反馈的前向网络如图2 5 所示,从输出层对输入层有信息反馈。这种网络可 以用来存贮某种模式序列。 图2 - 5 有反馈的前向网络 电子科技大学硕士学位论文 3 层内有互连的前向网络 在前面两种网络中,同一层上的神经元都是相互独立的,不发生横向联系。 而在这一种网络中,同一层上的神经元可以互相连接,如图2 6 所示。通过层内 神经元的相互结合,可以实现同一层内神经元之间的横向抑制或兴奋机制。这样 可以限制每层内能同时动作的神经元数,或者把每层内的神经元分成若干组,让 每组作为一个整体来运作。例如,可以利用横向抑制机理把某层内具有最大输出 的神经元挑选出来,而抑制其他神经元,让之处于无输出的状态。 图2 - 6 层内有相连的前向网络 4 互联网络( 包括全互连和部分互连类型) 在这种网络中,任意两个神经元之间都有可能连接,如图2 7 所示。在无反 馈的前向网络中,信号一旦通过某个神经元,该神经元的处理过程就结束了。而 在互连网络中,信号要在神经元之间反复传递,网络处于一种不断改变的动态之 中。从某初始状态开始,经过若干次的变化,才会达到某种平衡状态。根据网络 的结构和神经元的特性,网络的运行还有可能进入周期振荡或其他如混沌等平衡 状态。 图2 7 互连网络 1 2 第二章数据挖掘及人工神经网络概述 2 2 3 人工神经网络的学习 学习是神经网络的一个重要特征。只有经过学习训练的神经网络,才能在实 际应用中解决各种问题【引。 1 学习算法的分类 神经网络按学习方式分为有教师( 有监督) 学习和无教师( 无监督) 学习两 大类。 ( 1 ) 有教师学习 某些时候,为了使人工神经网络在实际应用中解决问题,必须先从应用环境 中选取一些期望输出已知的样本数据,然后依据这些样本所蕴涵的输入输出关系, 对神经网络的连接权值进行调整。由于这种学习过程前后都需要有学习样本作为 教师进行示教,对网络的学习进行监督,因而被称为有教师学习。 有教师学习方法虽然简单易行,但是它对学习样本提出了较高的要求,需要 选取的学习样本具有典型性,能够代表应用的环境。 ( 2 ) 无教师学习 与有教师学习相比,无教师学习过程的特点就在于它没有学习样本,所有输 入样本都没有目标输出。学习过程中,神经网络会按照一定的学习算法,自动地 将输入样本的某些特征提取出来。使用无教师学习方式的神经网络,具有强大的 自组织和自学习的功能。 2 学习算法的规则 由于人工神经网络各个神经元间的连接权是储存信息和处理信息的关键,各 种学习算法的不同特点都反映在权值调整的方法、步骤和迭代过程的参数选择上。 目前,学习算法的规则可以主要分为下面几种类型: ( 1 ) 误差修正型学习 误差修正型学习是一种有教师学习过程,其基本思想是利用神经元期望输出 与实际输出之间的偏差作为连接权调整的参考,最终减小这种偏差。最基本的误 差修正规则规定:连接权的变化正比于输出单元期望输出与实际输出之差。 ( 2 ) 竞争型学习 竞争型学习是一种无教师学习算法。让网络中各个神经元相互竞争以获得对 外界刺激模式进行响应的权利,竞争取胜的神经元的连接权向着对这一刺激模式 竞争更为有利的方向变化,并且抑制竞争失败单元对刺激模式的响应。这种自适 应学习规则使得网络单元有选择地接受外界刺激模式,从而提供了检测特征空间 1 3 电子科技大学硕士学位论文 活动规律的能力。 ( 3 ) 权值固定型 这种情况下,网络的结构和连接权值是事先确定的。例如,在h o p f i e l d 网络, 其权值都是根据计算能量函数的优化目标和约束条件来设计的,一旦设计好,权 值参数就固定不变了。 2 3 本章小结 本章对数据挖掘和神经网络的知识作了概要性的介绍。首先,介绍了数据挖 掘的相关理论,包括数据挖掘的定义,数据挖掘的过程和数据挖掘功能,并总结 了目前数据挖掘中常用的模型与算法。接着对人工神经网络的初步知识进行了叙 述,包括神经元模型,人工神经网络的拓扑结构以及人工神经网络的学习方式和 学习规则。 1 4 第三章人工神经网络数据挖掘的数据预处理 3 1 引言 第三章人工神经网络数据挖掘的数据预处理 由于现实世界的数据常常是含有噪声、不完整和不一致的,因此对数据挖掘 所涉及的数据对象进行预处理就显得尤为重要。数据预处理是数据挖掘过程中的 一个重要步骤,在整个数据挖掘过程中起着举足轻重的作用。通过数据预处理, 可以达到提高数据挖掘对象的质量,提高数据挖掘进程的有效性和准确性,及提 高数据挖掘所获模式知识质量的目的。数据预处理主要包括:数据清洗、数据集 成、数据转换和数据消减。这些数据预处理方法,并不是相互独立的,而是相互 关联的【5 j 。比如,消除数据冗余既可以看成是一种数据清洗,也可以认为是一种数 据选取。 人工神经网络已被证明是一种行之有效的数据挖掘方法。由于人工神经网络 方法的特殊性,数据准备显得尤为重要,大约5 0 到7 5 的开发时间花费在数据 处理上 9 1 。 下面对人- r - 丰申经网络数据挖掘方法中的数据预处理问题作进一步分析研究【9 】。 3 2 数据清洗 一般来说,数据仓库中的数据来源于异质操作数据库。这些异质操作数据库 中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重 复的数据,这些数据统称为脏数据。 在将数据装入到数据仓库时,都要对脏数据进行清洗。数据清洗可以在数据 装入数据仓库之前进行,也可以在装入之后进行。对数据进行清洗一般是通过填 补遗漏数据、消除异常数据、平滑噪声数据和纠正不一致数据来实现的【5 j 。 1 遗漏数据填补 在分析用于人工神经网络数据挖掘的数据对象时,多少会存在某些输入样本 的属性值为空。对于属性值为空值的属性,可以采用以下方法进行遗漏数据处理。 忽略该条输入样本。若一条记录中有属性值被遗漏了,则将此条记录排除在 数据挖掘过程之外。这种方法不能用于属性遗漏的记录过多时的数据。 1 5 电子科技大学硕士学位论文 手工填补遗漏值。这种方法比较耗时,如果有属性遗漏的记录很多,可行性 比较差。 利用缺省值填补遗漏值。对一个属性的所有遗漏的值均利用一个事先确定好 的值来填补。这种方法的效率较高,但填补的数据有可能不准确,误导挖掘。 利用均值填补遗漏值。计算该遗漏属性的平均值,并用此值填补该属性所有 遗漏的值。这种方法只对某些固定类型的属性具有较好效果。 利用同类别均值填补遗漏值。这种方法尤其在进行分类挖掘时适合使用。根 据记录所属的类别,用类别的属性平均值来填补数据。这种方法比较简单,也比 较可行,但不是最优方法。 利用最可能的值填补遗漏值。这种方法难度较大,一般利用回归分析、贝叶 斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。这是一种较常 用的方法,与其它方法相比,它最大程度地利用了当前数据所包含的信息来帮助 预测所遗漏的数据,通过利用其它属性的值来帮助预测某个属性的值。 2 噪声数据处理 噪声数据是指数据中存在着错误或异常( 偏离期望值) 的数据。噪声数据将 对数据挖掘的过程产生影响,从而降低挖掘知识的有效性。常用的去噪方法包括 以下几种: 聚类方法。该方法可以找出数据集中的异常数据。聚类方法将相似或相邻近 的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对 象,被认为是异常数据。 人机结合检查方法。通过人与计算机检查相结合方法,寻找异常数据。如: 利用基于信息论方法可帮助识别用于分类识别手写符号库中的异常模式:所识别 出的异常模式可输出到一个列表中;然后由人对这一列表中的各异常模式进行检 查,并最终确定无用的模式。这种人机结合检查方法比单纯利用手工方法手写符 号库进行检查要快许多。 回归方法。可以利用拟合函数对数据进行平滑。如:借助线性回归方法,包 括多变量回归方法,就可以获得多个变量之间的一个拟合关系,从而达到利用一 个或一组变量值来帮助预测另一个变量取值的目的。利用回归分析方法所获得的 拟合函数,能够帮助平滑数据并除去其中的噪声。 b i n 方法。b i n 方法通过利用相应被平滑数据点的近邻,对一组数值型属性排 序数据进行平滑。 3 不一致数据处理 1 6 第三章人工神经网络数据挖掘的数据预处理 不一致数据是指数据内涵出现不一致的情况。比如,作为关键字的同一部门 编码出现不同值。现实世界的数据库常出现数据记录内容的不一致,其中一些数 据不一致可以利用它们与外部的关联手工加以解决。例如:输入发生的数据录入 错误一般可以与原稿进行对比来加以纠正。此外,还有一些例程可以帮助纠正使 用编码时所发生的不一致问题。知识工程工具也可以帮助发现违反数据约束条件 的情况。 3 3 数据集成和转换 数据集成是将多种数据源组合在一起的一个过程。它主要涉及三个方面的问 题:1 ) 模式集成。是指从多个异构数据库、文件或遗留系统中提取并集成数据。 2 ) 冗余。数据集成往往导致数据冗余,如:同一属性多次出现、同一属性命名不 一致等。此时,可以通过相关分析检测冗余属性,并将其删除。3 ) 数据值冲突。 这时,就需要对冲突的数据值进行检测和处理。 数据转换就是将数据变换或归并,从而构成一个适合数据挖掘的描述形式。 对人工神经网络数据挖掘来说,还需要将数据转化成一种能够被人工神经网络数 据挖掘算法所接受的形式。数据转换包括以下几个方面的处理内容: 1 属性构造 数据挖掘的一个共同需求就是根据两个或多个字段产生一个新的字段或属 性。常常采用两个数据的比值的形式,也可以是其和、积以及差的形式。其它的 变换可以是将一个日期转化为一个星期中的某一天或一年中的某一天。属性构造 往往是必须的,因为事务处理应用主要用于处理记录事务的尽可能少的数据,它 需要尽可能降低存储要求和减少处理时间,而不是收集更多的事务信息。 2 规格化处理 规格化就是将有关属性数据按比例映射到特定的小范围内。人工神经网络数 据挖掘中的规格化要求对数据进行适当的处理以适应人工神经网络对数据的特殊 要求。根据神经元传输函数的不同,许多人工神经网络模型只接受 o ,1 和【1 ,1 】范 围的数值数据。因此,数据必须按比例缩小到这个区间内。标量数值数据大体均 匀的分布在某一范围内,可以直接映射到区间【0 ,1 】。若数值数据分布不均匀,可 用分段线性方程或对数方程对数据进行转换,然后再按比例缩d , n 指定区间。离 散数据通过用0 和l 对其进行编码来表示,或在指定的连续区间为它们赋一个值。 3 正则化 1 7 电子科技大学硕士学位论文 用向量或数组表示的数值数据有时可分组处理,即将向量作为一个整体进行 正则化处理。正则化方法有若干种,最常用的是计算元素平方和的平方根,然后 用它去除每一元素。第二种方法是首先求得所有元素的和,然后用它去除每一个 数。在这一种情况下,正则化后元素的和为1 0 ,且每一元素的值代表了它们对这 个分组贡献的大小。第三种方法是用向量中的最大值去除每一个元素。 4 符号映射和类层次 在许多情况下,需要先将一种符号数据转化为另外一种符号数据,然后才能 将其转化为数值数据。一种常用的方法是将若干个类或组成员聚集为一个单一的 符号,以方便数据表示。例如,某一超市有同一厂商的不同系列的1 0 种商品待售, 每一种商品都有一个唯一的标识码。如果想要考察该厂商商品的销售情况,那么 就要将该厂商的多种商品视为一个类来处理。也就是说需要将1 0 个符号映射为一 个符号。 同时,在实际应用中,可以根据需要以不同的粒度对符号数据进行抽象,这 种不同粒度的抽象可形成一个类层次。 5 符号数据向数值数据的转换 人工神经网络数据挖掘方法只能处理数值数据,因此,需要将离散的符号数 据转化为数值数据。最简单的方法是建立一个符号和数字值一一对应的对照表。 另一种比较复杂的方法是采用合适的哈希函数,根据给定的字符串产生一个唯一 的数字值。 3 4 数据表示 数据表示方法对神经网络的性能有着重要的影响。数据表示方法的选择是在 数据预处理阶段必须考虑的问题,理解数据的语义是选取合适数据表示方法的前 提。关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论