(计算机软件与理论专业论文)基于bp网络的卷烟销售违规预测方法研究.pdf_第1页
(计算机软件与理论专业论文)基于bp网络的卷烟销售违规预测方法研究.pdf_第2页
(计算机软件与理论专业论文)基于bp网络的卷烟销售违规预测方法研究.pdf_第3页
(计算机软件与理论专业论文)基于bp网络的卷烟销售违规预测方法研究.pdf_第4页
(计算机软件与理论专业论文)基于bp网络的卷烟销售违规预测方法研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州大学硕士论文 摘要 计算机与信息技术的飞速发展,使人们能以更快、更廉价的方式获取 和存储数据,从而也使得存储的数据的数量飞速增长。这些数据蕴藏着许 多对我们的工作有重要指导意义的信息。数据挖掘( d a t a m i n i n g ) 可以帮 助我们从这些数据当中发现这些有用的知识,并用这些知识作指导提高工 作效率。 本文将数据挖掘技术应用于烟草专卖检查工作中。通过对大量的历史 销售记录和与之相关的各种数据的分析,使用b p 算法建立卷烟销售违规 预测模型,对卷烟销售的违规行为进行预测。为烟草专卖的检查工作提供 j 重要的科学依据。 ” 本文首先对数据挖掘的相关概念、过程、分类的相关知识进行介绍, 对分类常用的算法进行了分析。然后对模型中使用的b pr b a c k - p r o p a g a t i o n ) 算法进行了深入分析。根据烟草专卖数据的特点,分析了应用目标,完成 对相关数据的收集整理和预处理工作。最后建立基于神经网络的卷烟销售 违规的预测模型,通过反复的试验确立较优的相关参数,并对试验结果进 行了分析。 关键词:数据挖掘;分类;人工神经网络;b p 算法 郑州大学硕士论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f t h ec o m p u t e ra n di n f o r m a t i o nt e c h n o l o g y w ec b l a o b t a i na n ds t o r ed a t am o r eq u i c k l ya n de c o n o m i c a l l y t h eq u a n t i t yo fd a t ai s i n c r e a s i n gr a p i d l ya n dt h ek n o w l e d g eh i d d e ni ni ti sd i r e c t i v et oo u rw o r k d a t a m i n i n gc a nh e l pa st od i s c o v e rt h ek n o w l e d g ea n dd i r e c to u rw o r ke f f i c i e n t l y t h i st h e s i sa p p l i e sd a t am i n i n gt ot h et o b a c c om o n o p o l y t h r o u g ht h e a n a l y s i so ft h el a r g ea m o u n to f h i s t o r i c a ls a l e sr e c o r d e r sa n da l lk i n d so f d a t ar e l e v a n t w i t hi t ,am o d e li sd e v e l o p e db a s e d0 nt h eb p ( b a c k - p r o p a g a t i o n ) a l g o r i t h mt o p r e d i c tt h ei l l e g a ls a l e so ft o b a c c o m yr e s e a r c hc a l lo f f e ri m p o r t a n ta n d s c i e n t i f i cb a s i st ot h es u p e r v i s i o no ft h et o b a c c om o n o p o l y t h ef i r s tp a r ti st h ei n t r o d u c t i o no ft h ec o n c e p t i o na n dp r o c e s so f d a t a m i n i n g ,r e l e v a n tk n o w l e d g eo fc l a s s i f i c a t i o na n dt h ea n a l y s i so fa l g o r i t h m s c o m m o n l yu s e di nc l a s s i f i c a t i o n ;i nt h es e c o n dp a r t ,t h et h e s i sg i v e sad e e p a n a l y s i so nt h eb pa l g o r i t h mu s e di nt h em o d e l t h en e x tp a r ti sa b o u tt h e c o l l e c t i o na n dt h ep r e h a n d l eo fd a t aa n dt h eg o a lo ft h em o d e li sa l s o a n a l y z e da c c o r d i n gt ot h ec h a r a c t e r i s t i c so ft o b a c c os a l e sd a t a i nt h el a s tp a r t , t h em o d e lb a s e do na r t i f i c i a ln e u r a in e t w o r ki sd e v e l o p e da n db e t t e rr e l a t i v e p a r a m e t e r sa r ed e t e r m i n e dt h r o u g hm a n ye x p e r i m e n t sa n da l s ot h er e s u l t so f t h ee x p e r i m e n t sa r ea n a l y z e d k e yw o r d s :d a t am i n i n g ;c l a s s i f i c a t i o n ;a r t i f i c i a ln e u r a ln e t w o r k ;b pa l g o r i t h m i i 郑重声明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽 窃、抄袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由 此产生的一切法律责任和法律后果,特此郑重声明。 学位论文作者( 签名) :箜晓哥乏 沽年夕月“日 郑州大学硕士论文 第一章绪论 1 1 本研究课题的学术背景 随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时, 在各个领域产生了大量的数据,显然在这些数据中蕴藏着丰富的信息。如何处理 这些纷繁复杂、规模庞大的数据,从中得到有益的信息,是摆在我们面前的 个新的课题。 计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的 极大发展,但是面对不断增加如潮水般的数据,人们希望能够对其进行更高层 次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据 的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致 了“数据爆炸但知识贫乏”的现象。面对这一挑战,数据挖掘技术就应运而生 了,并显示出了强大的生命力。 数据挖掘( d a t am i n i n g ) ,简单地说,就是从大量的数据中,抽取出潜在 的、有价值的知识的过程 1 】。它是一种新的数据处理技术,主要特点是对数据库 中的大量数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的 关键性数据。更进一步来讲,数据挖掘其实是一类深层次的数据分析方法。数 据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于 科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据 分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生 了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机 会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是 为商业决策提供真正有价值的信息。但所有企业面临的一个共同问题是:企业 数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深 层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。 1 2 数据挖掘在国内外的研究与应用现状 郑州大学硕士论文 数据挖掘研究被认为是继互联网之后信息技术领域的又一个新浪潮,许多 高科技经济预测专家认为:目前,高科技的发展已基本完成了第一阶段的使命 一网络化。不久的将来,高科技将进入其第二阶段的发展一一以数据挖掘为 基础的知识管理。 在国外,特别是在美国等西方经济发达国家,对数据挖掘的研究进行的比 较早。在1989 年举行的第十一届国际联合人工智能学术会议上,数据挖掘概念 就被提出。到目前为止,由美国人工智能协会主办的k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ) 国际研讨会已经召开了多次,规模由原来的专题讨论会发展到 国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略 和技术的集成,以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开 的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t a e n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络 和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和 专刊讨论,甚至到了脍炙人口的程度。与此同时,大量研究数据挖掘的公司也 纷纷成立,仅在美国,就有数百家公司从事数据挖掘相关产品的研发” 。 在国内,对数据挖掘的研究虽然起步较晚,但发展也非常迅速。目前,国 内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。其 中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究, 北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江 大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则 开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、 研究了非结构化数据的知识发现以及w e b 数据挖掘等35 1 。 目前,已经有很多数据挖掘工具问世,下面介绍几个比较著名的通用数据 挖掘工具及其特征 2 】: i b mi n t e l l i g e n tm i n e r : i n t e l l i g e n tm i n e r 是一个全面的、综合的数据挖掘工具集。它使用决策树, 神经网络及聚类技术。最新的版本包括广范围的文本挖掘工具。其大部分算法 都是并行的以利于其可伸缩性。用户可用g u i 或a p i 来建模。它只和d b 2 数据 库一起使用。 郑州大学硕士论文 s a s ( e n t e r p r i s em i n e r ) s a s ( e n t e r p r i s em i n e r ) 提供了一个全面的数据挖掘集成工具集。它也具有 多种数据操控和转换的特征。除了统计方法之外,s a s 数据挖掘方法还使用神 经网络、决策树和分析w e b 站点通信量的s a sw e b h o u n d 。它运行于w i n d o w s 和u n i x 平台,并为数据取样、浏览、修改、建模、访问提供一个用户友好的 g u i 前端。 s p s s s p s s 是一种最全面的集成数据挖掘工具。它具有数据管理和数据概括的能 力,既有发现工具也有验证工具。完整的组合包括统计方法、神经网络和可视 化技术。可用于多种商业平台。 d a t em i n d d a t em i n d 的结构包括两部分:在服务器端进行数据挖掘的d a t ac r u n c h e r 和在客户端描述和查看结果的d a t em i n dp r o f e s s i o n a l 。它可执行分类、聚类、关 联规则技术。d a t em i n d 既可安装来挖掘本地数据,也可用于挖掘远程服务器上 的数据,数据可以用任何主流关系数据库来组织。 m a t a l a bn nt o o l b o x m a t a l a b 的扩展,它作为神经网络中的研究、设计、仿真和应用实现的一 个工程环境。它提供不同的网络结构和学习方法。可以用此工具解决典型的数 据挖掘问题是分类和函数逼近。 数据挖掘已经在许多领域得到应用,如在银行业、电信业、保险业、超市 管理、市场营销中都有很多成功的例子。美国的m e l l o nb a n k 使用一种信用卡 磨损模型来预测哪些顾客会在以后几个月中停用m e l l o n 的信用卡,根据预测结 果,银行采取销售活动来保持顾客的忠诚度。英国的b b c 电视台使用一个数据 挖掘工具来预测b b c 的电视观众,据报道,预测精度和b b c 计划者所获得的最 好性能一样。在国内,数据挖掘的应用还相对较少,特别是在烟草销售业方面, 数据挖掘技术基本没有得到应用。 1 3 选题意义和工作概要 1 3 1 选题意义 郑州大学硕士论文 数据挖掘作为一个有着广阔应用前景的技术,对其理论进行研究并将其和 实际应用相结合,有十分重要的理论价值和现实意义。 烟草销售实行国家专卖制度,其销售规律有一定的特殊性。烟草专卖局的 一个重要的任务是对卷烟的销售进行监督管理,对违规销售的行为及时进行查 处,以保证烟草市场秩序的稳定。然而烟草专卖管理部门在确定每次的检查对 象时,只是根据平常的工作经验,带有很大的盲目性。查处的准确率也较低, 很多违规是从事后检查帐目得到的,从而导致了工作的滞后性,降低了工作的 及时性和有效性。 把数据挖掘技术应用到烟草专卖的监督检查工作中,通过对历史存放的大 量相关数据的分析,找出各种相关因素对违规行为的影响规律,建立销售违规 预测模型,可以对各个销售点的销售情况进行违规预测,以此为烟草专卖的检 查工作提供重要的指导和帮助,提高检查的准确性和及时性,从而大大提高工 作的效率。 1 3 2 所做的主要的工作: 1 、完成对相关数据的收集和整理工作。 2 、分析问题和数据的特点,选择合适的数据挖掘算法和数据处理方法。 3 、对神经网络b p 算法进行深入研究。 4 、基于b p 算法构建销售违规预测模型,通过反复实验,确定了较优的网 络结构和参数。 本论文将数据挖掘理论和实际应用相结合,并对于在实践的过程中碰到的 问题,提出了自己的看法和相应的解决方法。 1 4 论文的组织 第一章:绪论 介绍了本研究课题的学术背景,数据挖掘在国内外的研究与应用现状。介绍 了常用的数据挖掘工具。简要说明了将数据挖掘引入到烟草市场管理的意义, 从整体上介绍了自己做的主要工作。 第二章数据挖掘基础 系统介绍了数据挖掘相关知识,包括数据挖掘的概念、类型、过程。对分类 4 郑州大学硕士论文 问题作了重点介绍。并对常用的分类算法做重点分析。为下面实际的数据挖掘 过程作了理论上的准备。 第三章b p 网络 介绍了神经网络的相关基础知识,b p 网络的结构和工作原理。对b p 算法 的理论基础进行了详细的介绍。为建立基于b p 算法的卷烟销售违规预测模型作 了理论上的准备。 第四章卷烟销售数据分析及预处理 介绍了卷烟销售的特点,分析了销售违规的形式和卷烟销售违规预测分析的 内容及应用目标。介绍了数据选取的依据,并对数据进行预处理,为卷烟销售 预测模型的建立做了数据上的准备。 第五章卷烟销售违规预测模型的建立 详细介绍了建立基于b p 算法的卷烟销售违规预测模型的过程,其中包括网 络结构的确定、训练样本的选取与处理、算法的设计、训练的过程。对网络训 练过程中遇到的问题提出了自己的看法和相应的解决方法。 结束语 在结束语中,简单总结了所做的主要的工作,并指出了工作需要改进的地方。 5 郑卅i 大学碟士论文 第二章数据挖掘基础 2 1 数据挖掘的概念 2 1 1 数据挖掘产生的基础 很多技术都是应现实的需要两产生的,数据挖掘也不例外。第一章当中所 述的“数据爆炸但知识贫乏”是激发数据挖掘产生的直接原因。另外数据挖掘 的产生和应用也离不开很多褶关技术的支持。数据挖掘是人们长期对数据库技 术进行研究和开发的结果。起初各种数据是存储在计算机的数据库中,然后发 展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖摘 使数据库技术进人了一个更高级的阶段,它不仅能对过去的数据进行查询秘遍 历,并且能够找出过去数据之间的潜在联系规律,从而利用这些规律对将来的 数据做出预测。数据挖掘的快速发展和投入实际应恩离不开下面几个技术的成 熟,它们是数据挖掘产生和发展的技术基础,它们是 : 叠动的数据收集工具和成熟的数据瘁技术 强大的多处理器计算机 数据挖掘算法 数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于 各种行业;现在已经成熟的并行多处理机的技术可以满足对计算机硬件性能越 来越高的要求;另外数据挖掘算法经过了多年的发展也基本经成为一种成熟, 稳定,且易于理解和操作的技术。 2 1 2 什么是数据挖掘 数据挖掘到目前为止还没有一个统一的定义。篱单来说,数据挖掘就是从 大量的数据中,抽取出潜在的、有价值的知识的过程。这里的知识,通常指规 则、模式、规律和约柬等 。 还有一些术语,和数据挖掘类似但具有的含义稍有不同,例如: 数据库中知识发现( 挖掘) ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 知识提取( k n o w l e d g ee x t r a c t i o n ) 。 数据模式分析( d a t a p a t t e r na n a l y s i s ) 6 郑州大学硕士论文 数据考古( d a t aa r c h e o l o g y ) , 数据捕捞( d a t ad r e d g i n g ) , 信息收获( i n f o r m a t i o nh a r v e s t i n g ) , 商务智能( b u s i n e s si n t e l l i g e n c e ) ,等。 2 2 数据挖掘的类型 从数据挖掘实现的任务看,数据挖掘在总体上可分为描述型挖掘和预测型 挖掘。描述型挖掘用于刻画数据库中数据的一般特性。描述型数据挖掘可以对 数据进行概括,从而可以使我们方便地使用数据,或者可以让我们更好的理解 事物的运转机制。 相对而言,预测型数据挖掘的目标更加明确:其目的就是在给定其他变量 值的条件下对我们感兴趣的未知变量值作出预测。预测型挖掘在当前的数据上 进行分析,建立一个或一组模型,并对新的数据集进行预测。 根据要实现的挖掘的具体功能不同,数据挖掘使用不同的分析方法得出不 同的模型,描述型数据挖掘包含了概念描述型分析、关联分析和聚类分析等; 预测型数据挖掘主要分为两种,一种是分类问题,即对某个事物归属于某个类 别进行预测,另一种是回归问题,即对一个连续变化的量的值的预测,例如, 可以建立一个分类模型,对银行贷款风险进行分类,如分成高、中、低风险; 可以用回归的方法建立预测模型,根据目前和过去的道琼斯指数值,预测从 现在开始在将来的6 个月中该指数的值,这是对一个连续变量的预测。 下面就分类问题的相关知识和其常用的算法进行介绍和分析: 2 3 分类问题 分类要解决的是为一个事件或对象归类。假如我们有一定数量记录的数据 库。这个数据库中的记录是我们需要分析的对象,例如它是一个超市的客户信 息,假设每一个对象都归属一个我们预定义的类,如“高价值客户”、“非高价 值客户”。我们用一个属性值对各个记录所属的类别做标记。我们的任务是通过 对所拥有的数据分析不同类型的客户的特点,并形成一个预测模型,预测一个 新的客户的类型。 郑州大学硕士论文 分类是一个两步的过程,第一步要建立一个模型,描述预定的数据集。通 过分析由属性描述的数据库元组来构造模型。假定每一个元组属于一个预定义 的类,由一个称作类标号属性的属性确定。通常要从完整的数据集合中随机选 取一部分数据进行分析建模,叫做训练数据集,训练数据集中的每一个记录称 为一个训练样本。 第二步:使用模型进行分类。建立一个模型的目的是用它来预测未知的数 据,因此接下来需要用不属于训练集的检验数据集来验证模型的预测准确率。 这里的准确率是指被模型正确分类的训练样本在总训练样本中所占的比例。一 个好的模型应该不仅在训练集上,而且在检验集上有较好的准确率,即要有好 的泛化能力。 检验一个分类模型的性能好坏还有其它一些参数。如果分类中某一个类别 对我们来说是特别重要的,那么经常要对这个类别做特别的考虑。我们用精度 表示一个模型对某个类别的查准率,精度是指用模型判断为某个类别的样本中 判断正确的比例。用召回率表示一个模型的对某个类别的查全率,召回率是指 所有用模型判断为某个类别的样本数目和数据集中这个类别样本的总数目的比 值。例如在一个样本集中,有1 0 0 个属于类a 的样本,我们通过模型推测出有 2 0 0 个属于类a 的样本,其中判断正确的为4 0 个,那么这个模型对类a 的精度 就为4 0 2 0 0 = 2 0 ,召回率为4 0 1 0 0 = 4 0 。 在后面的烟草违规预测模型中。通过模型把样本分类为违规和不违规两种。 显然对违规的预测对我们来说更为重要。另外,由于在所有的样本中违规的样 本数目只占4 左右,如果只用准确率对模型进行评估,就会出现虽然准确率很 高,但模型却不能满足实际应用的现象。比如准确率为9 5 ,但违规的却一个 也没有判断正确,这显然是不能满足实际的需要的。因此在后面的模型中也考 虑了精度和召回率。 当描述模型性能的参数达到可以接受的值后,就可以用得到的模型对分类 标号未知的数据元组进行类别的预测。 分类问题可以用很多方法实现,其中最常用的是决策树的方法和神经网络 的方法,下面介绍决策树分类方法,在本模型中用到的神经网络方法在第三章 当中会有详细的介绍。 郑州大学硕士论文 2 4 决策树分类 2 4 1 决策树分类简介 决策树分类算法以树状结构来表示决分类的结果。树的非叶子结点表示对 数据属性的测试,每一个分支代表一个测试输出,而每一个叶子结点代表一个 分类。 决策树是通过系列的规则对数据进行分类的过程。它以信息论中的信息 增益原理为基础寻找数据库中具有最大信息量的字段,建立决策树的一个节点, 再根据字段的不同取值建立树的分支;在每个分支中集中重复建树的下层结点 和分枝的过程,直到数据集不可再分,即可建立决策树。 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。 例如,某电信公司希望将客户分成大客户和普通客户两类,以便对不同的客户 实施不同的优惠和管理策略。则可能形成以下的决策树 图2 - 1 客户分类决策树 从根结点到叶子结点的路径描述可以得到相应的分类规则,如从上面这棵 树就可描述出以下的四条规则: 规则1 :如果客户年收入 y 6 0 ,0 0 0 并且付款方式为预存方式,那么此客户 是大客户; 规则2 :如果客户年收入 ¥6 0 ,0 0 0 并且付款方式不是预存方式,那么此客 户是普通客户; 规则3 :如果客户年收入 = ¥6 0 ,0 0 0 并且信用积分在2 ,3 0 0 分以下,那么此 9 郑州大学硕士论文 客户是普通客户; 规则4 :如果客户年收入 = ¥6 0 ,0 0 0 并且信用积分在2 ,3 0 0 分以上,那么此 客户是大客户; 2 4 2 决策树的基本生成算法 基本的决策树分类算法采用自顶向下的方法递归地构造决策树。其中最著名 的一个算法是i d 3 算法,算法的基本策略是; 首先建立一个代表训练样本的单个结点。( 步骤1 ) 如果样本都在同一类中,该结点成为叶结点,并用该类标记。( 步骤2 ) 否则算法基于信息增益原理,选择能够最好将样本分类的属性,作为测试 属性。( 步骤4 、5 ) 对测试属性的每一个值创建一个分枝,并据此划分样本。( 步骤6 ) 算法使用同样的过程,递归地形成每个划分上的树。一旦一个属性出现在 一个结点上,就不再出现在该结点的任何后代上。( 步骤8 ) 递归划分步骤在遇到下列情况之一时停止: ( a ) 给定结点的所有样本属于同一类。( 步骤2 ) ( b ) 没有剩余属性可以用来进一步划分样本,此时将给定结点转换成叶结 点,并用样本集中多数样本所在的类标记它。( 步骤3 ) ( c ) 属性值为某个值的分枝没有样本,此时,以样本集中的多数类创建一 个叶结点。( 步骤7 ) 设训练集为s ,a = a 1 ,a 2 ,a n 为训练样本的属性集,在这个算法中, 所有的属性都是离散型的。下面给出这个算法的简单描述: ( 1 ) 创建结点n ( 2 ) 如果s 中所有样本都在同一个类中,那么返回n 为叶结点,并加上相 应的类标记。 ( 3 ) 如果属性集为空,那么返回n 为叶结点,并标记为s 中最普通的类。 ( 4 ) 选择属性集中具有最高信息增益的属性a n ,作为下一步划分的测试 属性。 ( 5 ) 标记结点n 为非叶子结点,表示对属性a n 的测试。 ( 6 ) 对a n 中的每一个值a i ,由结点n 分出一个测试属性值等于a 。的分枝, 】o 郑州大学硕士论文 设此分枝中的样本集为s 。 ( 7 ) 如果s 为空,那么加上一个叶结点,标记为s 中最普通的类。 ( 8 ) 否则,对集合s j ,属性集a - a n ,重复上述过程。 算法中选择测试属性依据的信息增益解释如下: 设s 是s 个样本的集合,这些样本属于m 个不同的类e ( i = 1 , 2 ,m ) ,设s ,是c 中样本的个数,则数据集s 的总熵为 e ( j l ,s 2 ,。) = 一p ,l 0 9 2 ( p ,) 其中p 。是任意样本属于c 的概率,用s ,s 估计。 假设属性a 具有v 个不同的离散值,可以使用属性a 把数据集s 划分成v 个子集碱,s ,s ,) 。设集合s ,的全部记录数为s ,其中分类属性值为c ,c ,c 。 的记录数分别为j 。,j :妒,。则子集s j 的熵为 m ,s m ) = 一p l 0 9 2 ( 唧) f 。i 其中毋是中任意样本属于c i 的概率,用s f s ,来估计。 使用属性a 把把数据集s 划分成v 个子集后,数据集s 的熵为v 个子集的 熵的加权平均,由下式给出 e ( 4 ) = e o 。,屯j ,s 。) 其中是第j 个子集的权,由j ,s 4 3 _ t 。 信息增益是把数据集s 用属性a 划分前和划分后的熵差,定义为 g a i n ( a ) = e ( s i ,s 2 ,s 。) 一e ( 4 ) 熵是表示一个系统子集合划分纯度的一个量,熵越小,表明系统划分的纯度 越高,这是我们所希望的。而信息增益是表示划分前后熵压缩的一个量,这个 量应该越大越好,所以在划分时,选择信息增益最高的属性值作为测试属性。 2 4 3 决策树的剪枝 郑州大学硕士论文 在最终生成一个决策树时,要对决策树进行剪枝。因为让一个决策树生长 的太“枝繁叶茂”是没有必要的,这样既降低了树的可理解性和可用性,同时也使 决策树本身对训练数据的依赖性增大,降低模型的泛化能力。为了使得到的决 策树所蕴含的规则具有普遍意义,同时也减少训练的时间,需要对树去掉一些 不必要和不可靠的分枝。 剪枝有两种常用的方法: ( 1 ) 先剪枝:在该方法中,通常设定一定的停止树分裂的准则,如信息增 益或某些有效的统计量达到预定的标准时,树停止增长,当前的结点成为一个 叶结点。 ( 2 ) 后剪枝:先让树完全生长,然后再用一定的准则剪去树中的一些分枝。 2 5 数据挖掘的过程 要完成一个数据挖掘,一般需要经过下面的步骤2 1 : 定义应用的目标 创建目标数据集。 数据预处理 选择合适的数据挖掘方法 选择合适的算法 建立模型 实施 ( 1 ) 定义应用目标: 数据挖掘的最终目的是实现在某一实际领域中的应用。因此,在开始数据 挖掘之前必须对应用的具体目标有清晰而明确的定义。这要求对应用领域的相 关知识的了解。 ( 2 ) 创建目标数据集 这一步是关于数据是怎样产生和收集的。一般要从获得的原始数据中抽取一 定数量的子集作为数据挖掘库。 ( 3 ) 数据预处理 原始的数据一般是不适合直接进行数据挖掘的。需要对数据进行一系列的预 郑州大学硕士论文 处理工作。这些预处理工作主要有: 数据的清理:由于原始数据可能是不完全的、有噪声的、不一致的,因此需 要对数据进行清理。数据清理主要包括填充数据中的空缺值、识别孤立点、消 除噪声、并纠正数据中的不一致。 数据的集成和变换:数据的集成是指把多个数据源中的数据结合起来放到一 个一致的数据存储中。数据的变换是指把数据变换成适于挖掘的形式,如对数 据进行汇总和聚集;通过数据的概化把高层次的概念替换底层次的原始数据( 如 具体的年收入可以概化为高、中、低) ;在一些算法中要求数据的取值落人一定 的区间如【o ,1 】内,这时需要对数据用一定的方法进行归一化处理,使之符合要 求。 ( 4 ) 选择合适的数据挖掘方法 主要根据应用的目的和数据的特点选择要进行什么功能的数据挖掘,如关 联、聚类、分类、回归等。 ( 5 ) 选择合适的算法 每种数据挖掘可以用不同的算法去实现,要在这些算法中选择最合适的去进 行挖掘。算法的选择除了根据数据和应用的具体特点外,有的时候需要对多种 算法通过实验进行比较、筛选。 ( 6 ) 建立模型 这一般是一个反复实验、检测的过程。在建立模型的过程中,需要对得到的 模型反复进行验证和修改,最终得到最符合需要的较优的模型。 ( 7 ) 实施 这一步是指对所发现知识的使用。 虽然我们把各个步骤按顺序排列,但实际的数据挖掘过程并不是线性的,要 取得好的结果要不断反复重复上述这些步骤。 2 6 本章小结 本章简要介绍了数据挖掘的基本理论,首先介绍了数据挖掘的概念、类 型,然后着重介绍了分类问题和分类一个常用的方法:决策树方法。 郑州大学硕士论文 第三章b p 网络 b p ( b a c k p r o p a g a t i o n 反向传播) 网络是一种人工神经网络模型。神经网络 有很好的学习能力和对未经训练的数据的模式分类能力,另外神经网络还具有 对噪声数据的高承受能力,这些优点推动了它在数据挖掘分类方面的应用。 神经网络有很多种模型,但是目前应用最广,其基本思想最直观、最容易 理解的是用一种误差传播学习算法( e r r o rb a c k p r o p a g a t i o n ) 进行训练的多层前 馈神经网络。简称为b p 网络。下面介绍人工神经网络的一些基础知识并研究 b p 网络的工作原理。 3 1 人工神经网络基础 3 1 1 人工神经网络工作原理 人工神经网络是一个用大量简单处理单元经广泛连接而组成的自适应非线 性动态系统,用来模拟大脑神经系统的结构和功能” 。 生物学认为人脑是由大量的神经细胞或神经元组成的。每个神经元可以看 作一个小的处理单元。每个神经元都有一个细胞抑制度,只有当外界的刺激信 息超过了神经元细胞的细胞抑制度,神经元才处于激发状态。这些神经元按某 种方式相互连接,并且各神经元之间连接的强弱可以按照外部的激励信号作自 适应变化。人脑对客观世界的认识、信息的存储和提取都反映在大量的神经元 之间的连接方式上。 人工神经网络是模拟人脑的工作原理构建的,它用简单的数据处理单元模 拟神经元作为网络的一个结点,用闽值来对应神经元的细胞抑制度。用权值来 模拟神经元之问的连接强度。这个连接强度可以通过让网络对特定输入模式的 学习而不断的加以调整,从而最终能体现出输入和输出之间的关系特征。 单个人工神经元的结构模型如图3 1 所示 1 4 郑州大学硕士论文 恐 图3 1神经元的结构模型 y 其中五,z :,为输入信号,l ,为输出信号,0 为阈值,w l ,w z ,w 。为各个输 入到神经元的连接权值。各种量之间的关系为: y = f ( x )( 公式3 - 1 ) x = w t r i - o ( 公式3 - 2 ) x 表明对一个神经元的总作用,它是所有输入的加权和减去阈值。此作用引起 神经元状态的变化。而公式3 - 1 表明神经元的输出y 为x 的函数,叫做神经元 的激活函数,常用的激活函数有阶跃响应函数和s i g m o i d 函数( 简称s 函数) 两 种,其表达式分别为公式3 3 和3 - 4 m ,= 器: ,【弗= 专 ( 公式3 。3 ) ( 公式3 4 ) 由生物神经网络的活动机理可知,仅有单个神经元是不可能完成对输入信 息处理的,只有当大量的神经元组成庞大的网络,通过网络中各神经元之间的 相互作用,才能实现对信息的处理与存储。同样道理,只有把人工神经元按一 定规则连接成网络,并让网络中各神经元的连接权按一定的规则变化,才能实 现对输入模式的学习与识别。 郑州大学硕士论文 3 1 2 人工神经网络主要结构: 人工神经网络按照不同的拓扑结构主要可以分为两类:前馈型网络和反馈型 网络5 1 。 1 、前馈型网络 前馈型网络的各神经元接受前一级信号作为输入,并产生输出到下一级, 没有反馈。它的结构可以用一个有向无环图代表。网络中的节点分为两类:输 入节点和计算节点。每一个计算节点可以有任意个输入,但只有一个输出,而 输出可以耦合到任意多个其他节点的输入。前馈型网络经常可以分为不同的 层,第i 层的输入仅与第( i 1 ) 层的输出相连。输入节点所在的层为第一层。 最后一层为输出层,其它的层称为中间层,中间层又叫做隐含层。隐含层可以 是一层也可以是多层。多层前馈型网络的结构如图3 - 2 所示 输 入 节 点 计算单元 l ,输出 i 匿3 - 2 多层前馈型网络 2 、反馈型网络 反馈型网络的所有节点都是计算单元,同时既可以接受输入,又可以向外 界输出,可以用一个完全的无向图表示。如图3 3 ( a ) 所示,也可以用图3 3 ( b ) 表示 郑州大学硕士论文 ( a )( b ) 图3 - 3 反馈型网络 3 1 3 人工神经网络的学习及算法: 人工神经网络最具吸引力的特点是它的学习能力,人工神经网络的学习过 程就是对它的训练过程。所谓训练,就是在将由样本向量构成的样本集合输入 到人工神经网络的过程中,按照一定的方式去调节神经元之间的连接权,使网 络能将样本集的特征以连接权矩阵的方式存储起来,从而使得网络在接受输入 时,可以给出适当的输出。 从学习的形式看,一种是有导师的学习,一种是无导师的学习。大多数人 工神经网络的权值设计是通过网络的学习得来的,因此网络的学习算法是网络 的一个核心问题。下面分别介绍这两种学习方式和各种方式下常用的算法嘲: ( 1 ) 有导师学习 有导师学习与有导师训练相对应。在有导师训练的训练集中,给出每个输 入向量及其对应的期望输出向量。有导师的训练根据在不同的输入信号下,输 出信号和对应的期望输出信号的比较进行权值修正。 有导师训练算法的主要步骤包括 a ) 从样本集合中选取一个样本( x i ,i ) ,其中x ;是训练集中的输人向量,墨 是与之对应的输出向量。 b ) 计算网络的实际输出# 。 c ) 计算误差d = i t 。 d ) 根据d 调整权矩阵w 。 1 7 郑州大学硕士论文 e ) 对每个样本重复上述过程,直到对整个样本集中的整体误差达到要求为 止。 有导师训练算法中,最为重要,应用最广泛的是8 学习规则。这种规则下 权的改变量 = ( ) 一( 时= 町e o j ( 公式3 - 5 ) 其中( 。,表示第铆+ 1 ) 次调节前,从节点j 到节点i 的连接权值;w ;( 。圳是第 + 1 ) 次调节后,从节点j 到节点i 的连接权值;t 7 为学习速率参数;反为误差的 函数。 o ;为节点,的计算输出,并且输入到节点i ; ( 2 ) 无导师学习 无导师学习与无导师训练相对应。在无导师训练的训练集中,只有输入向 量而没有其对应的期望输出向量。训练算法致力于修改权矩阵,以使网络对一 个输入能够给出相容的输出,即相似的输入向量可以得到相似的输出向量。在 训练过程中,相应的无导师训练算法将训练样本中蕴涵的统计特性抽取出来, 并以神经元的连接权的形式存储于网络中,使网络可以按照向量的相似性进行 分类。 无导师训练中h e b b 算法是应用较为广泛的一种训练方法。h e b b 算法可以 简单地描述为:如果一个处理单元从另一个处理单元接收输入激励信号,并且 如果两者都处于高激励电平,那么处理单元间的连接权就应当增强。用数学来 表示,就是两节点的连接权将根据两节点的激励电平的乘积改变,即 = “) 一( 。) = 彬。x , ( 公式3 - 6 ) x ,为节点j 的输出,并且输入到节点f ,y ,为节点i 的输出。其余符号含义同 公式3 - 5 。 3 1 4 人工神经网络的特点: 人工神经网络是由大量并行分布,有机相连的神经元组成的计算机构,是 对生物神经系统学习能力和并行机制的模拟,这种结构决定了他具有以下的特 点5 1 : 1 ) 分布式存储:一个信息不是存储在一个地方,而是按内容而分布在整个 郑州大学硕士论文 网络上,网络某一处不是只存储一个外部信息,而是每个神经元存储多种信息 的部分内容。 2 ) 大规模并行处理:人工神经元网络在结构上是并行的,而且网络的各个 单元可以同时进行类似的处理过程,因此,网络中的信息处理是在大量的单元 中并行而又有层次地进行,运算速度高。 3 ) 自学习性:神经网络可以接受用户提交的样本集,依照给定的算法,不 断地修正用来确定系统行为的神经元之间的连接强度,这样,网络可以通过学 习和训练来适应不同信息处理的要求,具有良好的学习功能。 4 ) 良好的容错性:一方面,神经网络的信息的分布式存储使得当系统中部 分神经元损坏时,不易对系统的整体性能造成大的影响。另一方面当输入是残 缺的或损坏的时,神经网络能通过联想,恢复出正确和完整的信息。 3 1 5 人工神经网络的分类功能 神经网络对外界的输入样本有很强的识别与分类能力。对输入样本的分类 实际上是在样本空间中找出适合分类要求的分割区域,每个区域内的样本属于 同一类。客观世界中许多事物在样本空间上的区域分割面是十分复杂的,神经 网络可以很好地解决对非线性曲面的逼近,再加上其良好的容错性能,神经网 络具有很好的分类性能,尤其对大量样本,少量类的情况有更好的分类效果 。 3 2b p 网络的结构 b p 网络采用多层前馈型结构。它不仅有输入层节点、输出层节点,而且有 一层或多层隐含节点。在b p 网络中,层与层之间多采用全互连方式,但同一层 的节点之间不存在相互连接。一个三层的b p 网络如图3 _ 4 所示 输入隐含输出 图3 - 4 一个三层b p 网络 y y y 郑州大学硕士论文 隐含层的数目是任意的,但实践中用的最多的是含有一个隐含层的网络,即 上图所示的三层结构。 3 3 网络的训练过程 神经网络的训练过程是根据样本集对神经元之间的连接权进行调整的过 程,b p 网络也不例外。b p 网络执行的是有导师的训练,在对网络进行训练的样 本集中包含每个输入向量及其对应的期望输出向量。 b p 网络的训练过程可分为两个阶段:前向传播阶段和后向传播阶段,在前 向传播阶段中,输入信息从输入层经隐含层逐层处理,并传向输出层计算出输 出。比较计算输出和期望输出,得出误差。如果误差不能满足要求,转入后向 传播阶段,将误差信号沿原来通道返回,计算出各层的误差,并沿误差降低的 方向调节权值。 3 4 后向传播分析 b p 算法类似于前面提到的占算法,但是更加复杂一些,通常称之为一般化 的6 算法。b p 算法中的核心部分是后向传播阶段,即根据误差对权值的调整阶 段。在这个调整过程中,输出层的误差能够直接求出来,而隐含层的误差则需 要根据输出层的误差逐层后推得到,因此这个阶段有时也称为误差传播阶段。 下面用数学的方法分析误差传播过程,从而推导出权值的调整公式 6 1 。 为研究方便,可以把神经元增加一个固定为1 的输入,此时阚值可以作为 这个输入对应的权值,和其它权值一样同时进行调节。设各节点的特性为 s i g m o i d 型。 设给定p 个样本( 显,k ) ( 七= 1 , 2 3 ,p ) ,其中x i = ( 毛。,石2 。,j 。) 为每个样本 的输入向量,k = ( y 。,y :,y 。) 为该样本对应的网络的期望输出, 坟= ( ,。,:。,多。) 为在当前的权值下网络的计算输出。对某一个输入为x 。,网 络的期望输出为耳,实际输出为袁。 误差采用均方函数,对于第k 个输入,产生的误差 郑州大学硕士论文 b = i 1 ( 蜘一如) 2 ( 公式3 7 ) m 系统总体误差为 1p = 击乓 ( 公式3 8 女= l 易知如果可以使每个样本的误差e k 最小,就可以使系统的整体误差最小, 现在讨论怎样调节权值,使误差反减小。为讨论方便,下面的符号中均省略表 示样本个体的k , 设任一个节点i 的实际输出为0 ,现在研究某层的第i 个单元,当输入一个 样本时,节点i 的输入和输出分别为: n e t f = wf d j ( 公式3 - 9 ) 0 l = f ( n e t f ) ( 公式3 - 1 0 ) 其中节点,表示节点i 所在层的上一层和节点i 相连的节点a w i ,表示节点i 和 j 之间的连接权,输入样本时,第j 个单元节点的输出为0 j ,它输入到节点i 。 现在调节权让误差下降,按照最速下降法,权的调节量应沿函数的梯度方 向变化,取为: 吨5 叫嚣 其中订为训练速率参数。 ( 公式3 - 1 1 ) ( 公式3 1 2 ) 其中7 0 n e t j :b 手i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论