




已阅读5页,还剩63页未读, 继续免费阅读
(控制理论与控制工程专业论文)数据挖掘在销售预测中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着企业信息化程度越来越高,e r p 系统得到了越来越广泛的应用。然而, 随着e r p 中的数据与日剧增,“数据爆炸但知识贫乏”的现象已日益突出。本文 针对传统e r p 系统关于销售预测在决策支持方面的不足,根据数据挖掘技术的 特点,把数据挖掘技术应用到销售预测系统中。 传统的销售预测方法往往只考虑了一部分影响销售的因素,无法表达影响需 求的各种因素之间复杂的相互作用,建立的模型简单。而人工神经网络具有良好 的非线性映射能力和自学习能力,它可以通过学习把基本需求、季节因素、周期 因素、市场活动等影响需求的因素以及它们之间复杂的相互作用以权值的形式固 化在神经网络中。因此,作者把b p 神经网络技术应用于销售预测,建立了相应 的销售预测模型。仿真结果表明,该模型预测精度较高和较好的泛化能力,有一 定的实际应用意义。 虽然b p 网络预测模型预测结果不错,但是单纯的b p 算法自身存在着一些不 足:( 1 ) 易陷于局部极值;( 2 ) 遗忘已学样本的趋势:( 3 ) 学习效率不高,收敛速 度慢等。本文将遗传算法( g a ) 和模拟退火( s a ) 算法结合起来优化b p 网络,然后 把优化后的神经网络应用到销售预测中建立销售预测模型。仿真结果表明,g a 、 s a 优化的神经网络预测的结果与实际基本一致,其平均相对误差的绝对值和均 方差都小于单纯b p 网络的值。可见使用g a 和s a 优化的b p 网络进行预测时,很 好地避免了b p 算法的收敛速度慢,易陷入局部极值点的问题,取得了更好的预 测效果。 关键词:销售预测:数据挖掘;决策支持系统;人工神经网络;b p 算法 遗传算法。 浙江大学硕士学位论文 数据挖掘在销售预测中的应用研究 a b s t r a c t t h ee n t e l p r i s er e s o w c ep l 咖啦( e r p ) s y s t e mi sa p p l i e dm o r e 诚d e l yw h e l l t 1 1 e1 e v e lo fe m e i p r i s ei n f o m a l i z a t i o nb e c o m e sh i g h c ra n dh i g h e r t h ed a t as t o r c di l l e r pi sm o r e 船n e n d o u sd a yb yd a y ,a n dt h e 妇mr f 拍6 甜倒蹄川删。珂p o d 厂s i t u a t i 咖 i si n c r e a s i n g l yo b v i o u s a i m i n ga tm ed i s a d v a n 协g e so fs a l e sf o r e c a s t i i l gi n 订a d i t i o n a i e r ps y s t e ma n d b a s e do nm ec h a r a c 矧s t i c so fd a t am i n i n gt e c h n o l o g y ,t h em o r 印p l i e dd a t am i n m gt ot h es y s t e mo f s a l e sf o r e c a s t i n gi ne r p t h e r ea r em a l l y 觚o r ss u c ha sb a s i cd e m a l l d ,s e a s o n a lf a c t o r s ,p e r i o d i cf a c t o r s a i l ds t o c h a s t i cf k t o r s ,w h i c hi n n u c n c es a l e s t r a d i t i o n a lp r c d i c t i o nm e m o d so m y c o n s i d e rs o m ef 如t o r s ,a n dt l l ef o r e c a s t i n gm o d e l i st o os i m p l et od e s c r i b et l l e c o m p l i c a t e dr c l a t i o n sb e t w e e nf 如t o r s a n i f i c i a ln e m ln 酿o r k ( a n n ) h a sg o o d c a p a b i l 蚵o fn o n l i n e a rm 印p i n ga n ds e l f _ l e a i n i n ga n d i tc a l ls o l i d i 母a l lt 1 1 ef k t o r s a n dt h er e l a t i o n sb e t w e e nf h c t o r si n t ot l l es a l e sf b r c c a s t i n gm o d e l 岫g hl e a n l i n g t h e r e f o r e ,b a s e do nb a c kp r o p a g a t i o n ( b p ) a l g 洲m m ,m em o d e lo f s a i e sf o r e c a s t i n g i sb u i l t t h ep r e d i c t i o nr c s u l t si n d i c a t et h a tt 1 1 es a l e sf o r e c a s tp r e c i s i o ni si m p m v c d , t h ec 印曲i l i t yo fg c n e m l i 删o ni sg o o da 1 1 dt h em o d e l h a sp m i m c a lv a l u e 烈t h o u 曲t h em o d e lb a s e do nb pa l g o r i t h mh a sg o o dr e s u l t s ,m e r ea r es o m e s h o n c o m i n g si nb pa l g o r i t l l l l ls u c ha s1 0 c a le x t r e m 啪p o i m s ,f b 唱e n i n g 血e1 e 锄e d s a m p l e sa 1 1 ds l o wr a t eo f c o n v e 略e n c e ,t h c n ,g e n e t i ca l g o r i t l l i n ( g a ) & s i m u l a t e d a n n e a l i n g ( s a ) a r ea p p l i e dt oo 砸m i z et h eb pn e u r a ln e t w o r k t h eo p t i m i z a t i o n a l g o r i t l l mi m p r o v e sm e r a t eo f c o n v e r g e n c ea t l dg e t sg l o b a le x t r e m 啪p o i n t s s o 协e p r e d i c t i o nr e s u l t sb a s e do no p t i i n i z a t i o na l g o r i 血ma r cm o r ee f f e c t i v et 1 1 a n 也o s eb a s c d o ns i n 西e b pa l g 砥t h r n k 叼w o r d s :s a l e sf o r c c a s t i n 舀d a t am i n i n g ;d m ;d e c i s i o ns u p p o r ts y s t e m ;d s s a n n ;a n i 矗c i a ln e u r a ln e t 、v o r k ;b pa l g 嘶t h m ;g a ;g e n e t i ca l g 州廿肌 引言 本课题的研究背景和意义 引言 随着企业信息化进程的推进,企业资源计划( e n t e r p r i s er e s o u r c ep l a n n i n g , e r p ) 在我国的应用已越来越广泛。从软件的角度讲,e r p 是一种先进的企业管理 信息系统,将企业的物流、资金流、信息流这三大资源进行一体化集成,其管理 内容涉及到企业的生产控制、物流管理和财务管理等各个方面。e r p 的成功实旌 与运用,有效地改善了企业内部管理,在提升竞争力乃至与国际市场接轨等方面 发挥了重要作用;但是,随着e r p 系统积累的数据与日俱增,“数据爆炸但知识 贫乏”的现象已日益突出。因为在e r p 系统的海量数据中虽然隐藏着许多重要 的信息,但只有进行更高层次的分析才能提供决策层所需的有价值的信息。然而, 用传统的数据分析方法( 如查询、报表) 已无法有效地获取隐藏在海量数据中的有 用信息或知识,且e r p 系统自身也缺乏这种高层次的数据分析手段,因而极大 地影响了e r p 系统自身应有效能的充分发挥,无法为决策提供有效的支持。 决策支持系统作为计算机技术与决策科学结合的产品,受到科技界的高度重 视,并引起了企业界、政府界的极大兴趣。伴随着经济全球化的趋势,企业管理 决策人员越来越需要这种辅助工具来分析处理纷繁复杂的信息,从而得到及时有 效的决策参考,使企业在激烈的市场竞争中占据一席之地。 有鉴于此,作者在研究生学习期间与实验室成员共同开发了某机械行业企业 的e r p 系统,该e r p 系统的开发针对机械行业特殊的管理特点,同时根据该企业 主要面向国外市场的特征,开发了销售管理、仓库管理、采购计划、采购管理、 生产管理、技术管理、人事管理、财务分析、资金管理等系统,较好地满足了公 司的日常生产销售采购人事等事务管理,提高企业的生产力。因为该企业是外向 型企业,9 0 以上产品用于出口,生产是根据销售预测的数量来安排生产,即以 销定产,销售预测的准确性尤为重要,关系到企业的经济命脉。因此,作者在该 e r p 系统的基础上,针对传统e r p 系统在销售预测决策方面的不足,根据数据挖 掘技术的特点,把数据挖掘应用到销售预测管理中。通过人工神经网络和遗传算 法等几种数据挖掘技术,初步构建成一个企业销售预测决策支持系统,提高销售 预测决策支持功能。 浙江大学硕士学位论文数据挖掘在销售预测中的应用研究 本文的主要工作及结论 本文着重于利用人工神经网络、退火遗传算法优化的人工神经网络等数据挖 掘技术实现销售管理系统中销售预测的决策支持功能。经仿真证明,利用神经网 络、退火遗传算法优化的人工神经网络等数据挖掘技术实现的销售预测,预测结 果精度较高,泛化能力较强,在实际应用中有较高的可行性和实际意义。 第一章绪论 1 1e r p 概述 1 1 1e r p 的原理 第一章绪论 要实现企业信息化的建设,关键的就是要实现企业的信息的集成和共享,包 括不同部门间、企业内部与外部间及企业同企业间的信息集成和共享,解决企业 “信息孤岛”。 e r p 是企业资源计划( e n t e r p r i s er e s o u r c ep l a n n i n g ) 的英文缩写,企业资源的 流动与转移代表着企业运作的主线索,因此对企业资源的计划管理就关系到企业 的全局,企业的资源流可以从大体上分为物流、信息流和资金流三大资源。e r p 的基本思想就是将企业的业务流程看作是一条供应商、企业本身、分销网络以及 客户等各个环节紧密联接的供应链,企业内部又划分成几个相互协同作业的支持 子系统。 由于e r p 体现的是一种面向企业供应链的管理思想,因此可对供应链上的 所有环节进行有效的管理。它从管理范围的深度上为企业提供了更丰富的功能和 工具,可以实现全球范围内的多工厂、多地点的跨国经营运作。 e r p 系统还包含了许多先进的管理思想,如精益生产、敏捷制造、并行工程 及准时制造生产等,而且随着信息技术和现代管理思想的发展,e r p 的内涵还会 不断充实和不断完善。 1 1 2 企业资源规划的发展与应用 e r p 的发展大致经历了以下3 个阶段: ( 1 ) 第一阶段:m r p ( m a t e r i a lr e q u i r e m e n t sp l a n n i n g ) ,即物料需求计划阶段。 ( 2 ) 第二阶段:m r p i i ( m a n u f a c t o r yr e s o u r c e sp l a n n i n g ) ,即制造资源计划阶 段。由于物料需求计划的缩写为m r p ,为了区别在m r p 后面加上意为m r p 第二 代。 ( 3 ) 第三阶段:e r p ( e n t e r p r i s er e s o u r c e sp l a n n i n g ) ,即企业资源规划阶段。 浙江大学硕士学位论文 数据挖掘在销售预测中的应用研究 1 1 3 e r p 系统的局限性 从软件的角度讲,e r p 是一种先进的企业管理信息系统,将企业的物流、资 金流、信息流这三大资源进行一体化集成,其管理内容涉及到几乎企业所有运转 的各个方面。e r p 的成功实施与运用,有效地改善了企业内部管理,在提升竞争 力乃至与国际市场接轨等方面发挥了重要作用;但是,随着e r p 系统积累的数 据与日俱增,“数据爆炸但知识贫乏”的现象已日益突出。因为在e r p 系统的海 量数据中虽然隐藏着许多重要的信息,但只有进行更高层次的分析才能提供决策 层所需的有价值的信息。然而,用传统的数据分析方法( 如查询、报表) 已无法有 效地获取隐藏在海量数据中的有用信息或知识,且e r p 系统自身也缺乏这种高 层次的数据分析手段,因而极大地影响了e r p 系统自身应有效能的充分发挥, 在决策支持方面存在着很大的不足,无法为决策提供有效的支持。 1 2 企业决策支持系统i d s s ) 概述 1 2 1 决策支持系统的兴起 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是2 0 世纪7 0 年代在管理信息 系统( m a n a g e m e n ti n f o r m a t i o ns y s t e m ,m i s ) 和运筹学基础上发展起来的。管理 信息系统重点在于对大量数据的处理,它能把孤立的、零碎的信息变成一个比较 完整的、有组织的信息系统,从而大大的提高信息的效能。但是,m i s 只能对信 息进行表面的组织和处理,不能深刻的挖掘信息内在的规律来为决策服务。决策 支持系统的出现是要解决由计算机自动组织和协调多模型的运行和数据库中大 量数据的存取和处理,达到更高层次的辅助决策能力,决策支持系统的新特点就 是增加了模型库和模型库管理系统,它把众多的模型有效地组织和存储起来,通 过人机交互功能,建立模型库和数据库的有机结合。这种系统就是决策支持系统 ( d s s ) 。它不同于m i s 数据处理,也不同于模型的数值计算,而是它们的有机集 成。它既具有数据处理功能,又具有数值计算功能【l _ 3 】。 第一章绪论 1 2 2 决策支持系统的定义及功能 到目前为止,d s s 仍没有一个学术界公认的定义。许多学者在这方面作了大 量的工作,这里,我们给出了几个目前比较常用的关于d s s 的定义及功能。 1 、r h s p r a q u e 和e d c a r l s o n 对d s s 的定义:决策支持系统具有交互式计 算机系统的特征,帮助决策者利用数据和模型去决策半结构化问题。 决策支持系统具有如下功能: ( a ) 解决高层管理者常碰到的半结构化和非结构化问题: ( b ) 把模型或分析技术以传统的数据存储和检索功能结合起来; ( c ) 以对话方式使用决策支持系统; ( d ) 能适应环境和用户要求的变化。 2 、p gw k e e n 对d s s 的定义 决策支持系统是“决策”( d ) 、“支持”( s ) ,“系统”( s ) 三者汇集成一体。 即通过不断发展的计算机建立系统的技术( s y s t e m ) ,逐渐扩展支持能力 ( s u p p o r t ) ,达到更好的辅助决策( d e c i s i o n ) 。 传统的支持能力是指提供的工具能适用于当前的决策过程,而理想的支持能 力是主动地给出被选方案甚至于决策被选方案。 3 、s s m i t t r a 对d s s 的定义 决策支持系统是从数据库中找到必要的数据,并利用数学模型的功能,为用 户产生所需要的信息。 决策支持系统具有如下功能: ( a ) 为了做出决策,用户可以试探几种“如果,将如何”的方案。 ( b ) d s s 必须具备一个数据库管理系统,一组以优化和非优化模型为形式的 数学工具和一个能为用户开发d s s 资源的联机交互系统。 ( c ) d s s 结构是由控制模块将数据存取模块、数据变换模块( 检索数据,产生 报表和图形) 、模型建立模块( 选择数学模型或采用模拟技术) 三个模块连接起来 实现决策问题的回答。 浙江大学硕士学位论文 数据挖掘在销售预测中的应用研究 1 2 3 企业决策支持系统研究的必要性 企业决策支持系统设计的主要目的是辅助企业管理者科学合理地制定各种 决策。企业管理者对能够辅助其决策的决策支持系统的需求愈来愈迫切,目前现 代企业的管理决策主要面临以下这些挑战: 1 决策质量的要求更高 随着市场竞争越来越激烈,企业需要制定更高质量的、符合实际情况的决策, 努力降低成本,提高服务意识,确保企业自身的市场竞争力,使企业持续健康的 发展。 2 决策时要考虑的因素更复杂 随着经济的全球化,企业面对的是全球的竞争者和全球范围的消费市场:随 着环境的恶化、消费者权益意识的增强等等,政府颁布了更详尽的法令和制度来 约束企业的经营行为。企业管理者在进行决策时需要考虑更多、更复杂的制约因 素。 3 决策速度要求更快 随着通讯方式的发展、交通的便利、市场的变化万千以及金融体系的完善, 企业要维持自己的竞争优势,必须不断地创新,从以规模取胜转变到以速度取胜。 这些都要求管理者能够迅速做出正确的决策。 4 决策失败的代价更高 企业中采购、生产、销售和服务等方面的联系日益紧密,企业的整个运作系 统更加复杂和精密。某一环节的判断失误将产生链锁反应,造成企业重大的损失。 面对这些趋势和变化,管理者必须变得更加精明、睿智。他们需要新的工具 和技术来帮助他们制定有效的决策。而传统的企业信息管理系统却不具备这样强 大的分析功能。这主要体现在分析工作量大、分析结果滞后、缺乏量化的恒定指 标、无法进行复杂的分析以及无法提供关键问题的解决方案等等,所有这些表明, 企业决策支持系统的研究是极其有必要的,企业管理层需要决策支持系统的辅助 支持。 第一章绪论 i 2 4 企业决策支持系统的应用分析 根据以往研究和成果,企业决策支持系统的主要应用有以下几方面: 1 销售预测决策 在市场经济条件下,企业提供社会所需的产品或劳务,追求销售利润的最大 化。因此,能否科学合理的制定销售计划决策,关系到整个企业的生存与发展。 要想制定好销售计划决策,需要认真研究市场的导向,正确评价企业的生产能力, 在这个过程中,需要进行大量的数据处理,并利用相关的数学方法和数学模型等 来辅助分析判断,及时提供给企业经营管理者以决策辅助信息。 2 财务计划决策 财务计划是全面规划企业财务活动的一项重要管理手段。它要对企业的资金 需求量、资金来源和投向、资金运用过程的好坏、收回和利用效果等全面做出安 排,计划的内容贯穿整个生产经营的全过程。因此做好财务计划决策,对有效的 组织财务活动,控制货币收支,努力达到预定的财务目标具有重要意义。 3 经营决策 基于资源和时间的限制,来确定最优的项目时间表;制定企业的生产计划、 采购计划、协助制定大规模资本投资计划,并计算投资风险。 4 企业分析 企业分析是决策支持系统的一个重要组成部分,一个企业在制定计划与决策 之时,应能够对企业的市场的适应能力、自身的技术能力进行科学的预测、模拟 和分析评价,也就是说,通过企业分析,可以明确自身定位,合理进行经营规划。 目前,越来越多的企业认识到,只有充分利用企业e r p 所产生的大量详实的 数据,将经营性数据转变成决策型数据,为企业提供足够决策依据,才能提高企 业竞争力。 由于时间精力的有限,本文着重于利用人工神经网络的b p 算法和遗传算法优 化的b p 算法这俩种数据挖掘技术,实现销售管理中销售预测的决策支持功能。 浙江大学硕士学位论文数据挖掘在销售预测中的应用研究 1 3 销售预测 1 3 1 销售预测的涵义 预测是指对未来不确定事件的预见和推测。未来事件有确定型与不确定型之 分。确定型事件是指该事件发展结果只会有一种状态。不确定型事件是指该事件 发展过程和结果可能出现的多种状态。 预测按对事件进行预测时间长短划分,可以分为长期、中期、短期和近期预 测。一般说,近期预测是日、周、甸、月的预测;短期预测是季、半年、一年的 预测:中期预测是一年至三或五年的预测:长期预测是三或五年及更长时间的预 测。企业则侧重于短期、近期预测;宏观管理部门则侧重于中期、长期预测,但 两者还需兼顾,不可绝对化。 销售预测是企业决策支持系统的重要组成部分。销售预测是以市场商品购销 为主要对象,预见和推测商品的各项购销活动、价格和竞争状况的变化趋势与结 果。 预测事件之所以不确定,是由于事件的发展受多种因素影响的结果。因素多 少是不确定的,各种因素对事件影响程度也是变化的,预测时很难把握。尤其偶 然因素变化情况和影响程序更难把握,所以事件的未来变化过程和结果的预测, 必然与实际存在定误差,但是并非说预测没有价值,因为现代科学的预测能够 把握住事物的内在联系和发展规律,缩小预测结果与实际的差距。借助逻辑推理, 定性与定量分析,还能找出产生误差的主要原因和误差的可能范围,控制事件的 运行。 1 3 2 销售预测的作用和重要性 在市场竞争日益激烈,客户需求出现多样化、特殊化的情况下,公司要提高 对客户的服务水平、降低成本、提高质量,同时增强对于市场的响应效率,加强 生产、物料规划以充分利用公司资源,企业越来越意识到销售预测的重要性。预 测是对未来产品需求的分析,管理当局可以在预测的基础上针对未来需求作出决 策,利用最少的资源提供最优质的服务给客户,获取最大化的利润,准确的预测 可以帮助管理层面对日益增加的客户需求与股东权益最大化之间的矛盾。 第一章绪论 销售预测的作用表现为: ( 1 ) 提高客户满意度。物流的目标之一就是满足客户的需要。通过销售预测, 了解客户的需要,按客户的需要提供及时有效的服务。 ( 2 ) 减少失销现象。失销成本虽然无法准确计算,但不容忽视。其表现为客 户的丢失和客户服务水平的下降。 ( 3 ) 更为有效地安排生产。生产部门的生产计划往往依据销售预测。预测的 水平将直接影响生产的有序安排。 ( 4 ) 减少库存。由于预测的不准确,往往会产生库存的积压,占用资金和产 生较高的储存费用。 ( 5 ) 减少安全库存量。企业一般倾向于通过增加安全库存来对付需求的不确 定性。如果预测准确度提高的话,就可以相应地减少安全库存量,提高库存管理 水平。 对于本人参与的某机械企业来说,该企业是外向型企业,9 0 以上产品用于 出口,生产是根据销售预测的数量来安排生产,即以销定产,销售预测的准确性 尤为重要,关系到企业的经济命脉。 1 3 3 预测误差与预测精度 预测值与实际值总会有一定的偏离,这种偏离即称为预测误差。预测的未来 时间越长,预测的可靠性就越低,预测误差就越易于扩大。在实际工作中,销售 预测结果往往是为销售经营决策提供依据的,因而如何评定销售预测结果的精确 度,如何事先判断销售预测误差,就成为销售预测工作不可缺少的一环。 研究预测误差,般采用比较法,将预测计算值与实际值相减,其相差的部 分称为预测误差。如果用五代表实际值,e 代表预测值,巨代表预测误差,则 e = 一一e 或e = e x , ( 1 1 ) 衡量总的预测误差,常用的有以下几种统计量 1 1 平均误差e = 一1y 巨 一 计算平均误差虽然比较简单,但在许多情况下,误差的总和由于e 的正负 相互抵消,难以用平均误差的大小法说明预测结果的可靠程度,因此一般不采用 9 第一章绪论 感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示 为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。这 种定义把数据挖掘的对象定义为数据库。而更广义的说法是:数据挖掘意味着在 一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是 数据库,也可以是文件系统,或其它任何组织在一起的数据集合。 数据挖掘确切地讲是一种决策支持过程,它主要基于人工智能、机器学习、 统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖 掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险, 作出正确的决策。 数据挖掘的目的是从大量数据中发现知识,并把这些知识以某种形式表示出 来。知识的表示形式通常有: 概念( c o n c e p t s ) 规则( r u l e s ) 规律( r e g u l a r i t i e s ) 模式( p a t t e r n s ) 约束( c o n s t r a i n t s ) 可视化( v i s u a l i z a t i o n s ) 这些知识可以直接提供给决策者,用以辅助决策过程,或者提供给领域专家,修 正专家已有的知识体系,也可以作为新的知识转存到应用系统的知识库中。 1 4 2 数据挖掘的处理过程 数据挖掘过程一般由三个主要的阶段组成:数据准备、挖掘操作、结果表达和 解释,如图1 1 所示。 数据准备这个阶段又可进一步分成三个子步骤:数据集成、数据选择、数据 预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语 义模糊性 x 沥江大学硕士学位论文 数据挖掘在销售预测中的应用研究 一数据准备i + 数据挖掘,+ 卜结果表达和解释衅 数据源数据目标数据预处理后数据模式知识 图1 1 数据挖掘的过程 数据挖掘这个阶段进行实际的挖掘操作,包括的要点有: ( 1 ) 决定如何产生假设; ( 2 ) 选择合适的工具; ( 3 ) 发掘知识的操作: ( 4 ) 验证发现的知识。 结果表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有 价值的信息区分出来,并且通过决策支持工具提交给决策者。 数据挖掘是一门独立的技术,它的研究还很不成熟,其应用还有较大的局限 性。正是这些局限性,促使数据挖掘研究迸一步发展。 1 4 3 数据挖掘的主要功能 数据挖掘的主要功能【4 】是确定数据挖掘任务中要找的模式类型,数据挖掘任 务一般可以分为描述和预测两大类,描述性挖掘任务主要是刻划数据库中数据的 一般特性,预测性挖掘任务是在当前数据上进行推断,以进行预测。 数据挖掘功能以及它们可以发现的模式类型介绍如下: ( 1 ) 分类、预测 分类就是通过研究已分类的样本集的特征,分析样本集的属性,建立一个分 类函数或分类模型,通过这个分类模型,未分类的或新的数据就可以分派到不同 的类别中,达到分类的目的。分类可以用决策树归纳、贝叶斯网络、人工神经元 网络( 如b p 网络等) 、粗糙集、遗传算法、k 一最临近分类和支持向量机等方法。 分类可以预测对象的类标记,当要预测的数据是数值数据( 连续值) ,而不是离散 第一章绪论 的类别标志时,我们可以称之为预测。预测主要使用回归方法,当然也可以使用 人工神经元网络、遗传算法、支持向量机等机器学习方法。 ( 2 ) 关联规则 数据库中的数据之间一般都存在某种关联关系,即变量之间可能存在某种规 律,关联规则挖掘的任务就是找出数据库中哪些事物或属性共同出现的条件。最 有影响力的关联规则挖掘的算法是r a k e s h a g r w a l 等人提出的a p r i o r i 算法,近年 来,也出现了很多a p f i o f i 的改进算法,如e d i mc o h e n 等人提出的不需要剪枝的改 进算法,m o h a m m e dj z a k i 提出的可伸缩的改进算法等。 ( 3 ) 聚类分析 聚类是将对象集合按照相似性归为若干类别,属于无指导分类,属于同一类 的对象具有较高的某种相似性,而不同类的对象之间的差别较大。通过聚类,识 别密集和稀疏的区域,发现全局的分布模式及数据属性之间的相互关系,帮助人 们建立宏观概念。聚类的方法主要可以分为:划分方法( p a r t i t i o n i n g m e t h o d ) 、层 次方法( h i e r a r c h i c a lm e t h o d ) 、基于密度的方法( d e n s i t y b a s e dm e t h o d ) 、基于网格 的方法( g r i d - b a s e d m e t h o d ) 和基于模型的方法。其中,划分方法中用的比较多的 是k 一平均算法和k 一中心点算法。b i r c h 和c u r e 就是比较典型的层次方法, o b s c a n 是比较有代表意义的基于密度的方法,s t i n g 算法是典型的基于网格的方 法,基于模型的方法有统计学方法、人工神经元网络方法( 如k o h o n e n 网络) 等。 ( 4 ) 类概念描述 数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类和 概念是有用的,目的是对数据进行浓缩,给出它的总体的综合描述,实现对原始 数据的总体把握。这种类或概念的描述称为类概念描述。通过类概念描述使得 人们能够在复杂数据库中了解数据的意义以及产生数据的过程。这种描述可以通 过汇总所研究类的数据来获得( 这个过程也叫数据特征化) 或将所研究类与其它 的比较类进行比较来获得,或采用上面两种方法的结合。基于数据立方体的o l a p 上卷操作来执行指定维的 x 浙江大学硕士学位论文 数据挖掘在销售预测中的应用研究 点视为噪声或异常而丢弃,但是在特殊场合,如在电子商务领域,探测和分析孤 立点显得比正常数据还来的重要。( 6 ) 演变分析数据演变分析( e v o l u t i o n a n a l y s i s ) 用来描述行为随时间变化的对象的规律或 空间维找出变化毯馨蛰型生眄嬲要毋点们根拙帮苹浏有碰渤j 剖零雾勃拍瓶盼珀 辩珀翻捌瓶站辆鞘羹趣舔拍嶷。荪甜瑁摧繁酶羯耧霍簇茹;鲋甜制爨残书善产灾 挚丑= 虱能正确的揄莽筇币措晦肇箸龆缮掣:粟立链骚;冶节枣恼泌篙j 澎援周疆 件j 任何不模式? 时酯麴乍干珀蚊;鞑刊翻拍彬稚二野刚蝈飘锄移钔鼎排蒴分州c 申 i 型豇卜嬲蕊露丽铃爆群粥特群始“掣托烈瓣。登气工神经网络是由大量的神经元 广泛互连而成的系统,它的这一结构特点决 定着人工神经网络具有高速信息处理的能力。 人工神经网络的知识存储容量很大,在神经网络中,知识与信息的存储表现 为神经元之间分布式的物理联系,它分散地表示和存储于整个网络内的各神经元 及其连线上,每个神经元及其连线只表示一部分信息,而不是一个完整具体概念。 只有通过各神经元的分布式综合效果才能表达出特定的概念和知识。由于人工神 经网络中神经元个数众多以及整个网络存储信息容量的巨大,使得它具有很强的 非确定性信息处理能力,即使输入信息不完全、不准确或模糊不清,神经网络仍 然能够联想思维存在于记忆中的事物的完整图象,只要输入的模式接近于训练样 本,系统就能给出正确的推理结论。正是因为人工神经网络的结构特点和其信息 存储的分布式特点,使得它相对于其它的判断识别系统( 如专家系统等) ,具有另 一个显著的优点:健壮性( 或称鲁棒性,i 沁b u s t ) 。生物神经网络不会因为个别神 经元的损失而失去对原有模式的记忆。最有力的证明是,当一个人的大脑因意外 事故受轻微损伤之后,并不会失去原有事物的全部记忆。人工神经网络也有类似 的情况,因某些原因,无论是网络的硬件实现还是软件实现中的某个或某些神经 元失效,整个网络仍然能继续工作。 人工神经网络同现行的计算机不同,是一一种非线性的处理单元。只有当神经 面对所有的输入信号的综合处理限值后才输出一个信号,因此, 第一章绪论 人工神经元网络模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础, 建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理 和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。前馈神经 元网络以感知器网络、b p 网络等为代表,可以用于分类和预测等方面;反馈式网 络以h o p f i e l d 网络为代表,用于联想记忆和优化计算:白组织网络以a r t 模型、 k o h o n o n 模型为代表,用于聚类。 ( 4 ) 决策树 决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排 列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点 说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个 可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性, 然后按照给定实例的该属性值对应的树枝向下移动。决策树方法士要应用于数据 挖掘的分类方面。 ( 5 ) 遗传算法 遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前已知的最 好假设来生成后续的假设。每一步,通过使用目前适配值最高的假设的后代替代 群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适配值的提高。 遗传算法由三个基本过程组成:繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强 的个体,产生新种群( 后代) 的过程;交叉( 重组) 选择两个不同个体( 染色体) 的部 分( 基因) 进行交换,形成新个体的过程;变异( 突变) 是对某些个体的某些基因进 行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。 ( 6 ) 粗糙集 粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为 基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分 类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的 元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与 结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为 初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个 集合就是粗糙的( 不精确的) 。每个粗糙集都具有边界元素,也就是那些既不能确 定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据 浙江大学硕士学位论文 数据挖掘在销售预测中的应用研究 感知器存在一些缺陷,例如,它不能解决异或问题,因而研究工作趋向低潮。不 过仍有不少学者继续对神经网络进行研究。g r o s s b e r g 提出了自适应共振理论; k o h e n c n 提出了自组织映射;f u k u s l l i m a 提出了神经认知机网络理论;a n d e r s o n 提出了b s b 模型;w i b o s 提出了b p 理论等。这些都是在2 0 世纪7 0 年代和8 0 年代初 进行的工作。 进入2 0 世纪8 0 年代,神经网络研究进入高潮。1 9 8 2 年,美国加州工学院物理 学家h o p f i e l d 的工作被称为是突破性的,他提出了h o p f i e l d 神经网络模型,即h n n 模型,有力地推动了神经网络的研究。他引入了“计算能量函数”的概念,给出 了网络稳定性判据。f e l e m 黜和b a l l a r d 的连接网络模型指出了传统的人工智能 “计算”与生物的“计算”的区别,给出了并行分布处理的计算原则;h i n t o n 和 s e j n o w s k i 提出的b 0 1 t z m a l l 机模型借用了统计物理学的概念和方法,首次提出了多 层网络的学习算法;1 9 8 6 年r 1 1 1 l l e l h a n 和m c c e l l a l l d 等人提出并行分布处理( p d p ) 的理论,同时提出了多层网络的误差反向传播学习算法,简称b p 算法,从而为神 经网络的实际应用开辟了一条新途径。这种算法根据学习的误差大小,把学习的 结果反馈到中间层次的隐单元,改变它们的权系矩阵,从而达到预期的学习目的, 解决了多层网络的学习问题。b p 算法从实践上证明神经网络的运算能力很强, 可以完成许多学习任务,解决许多具体问题。b p 网络是迄今为止最常用、最普 通的网络。 目前的神经网络研究可以分为许多方面,其中主要有神经网络基本 x 第二章人工神经网络在销售预测中的应用 神经网络学习算法研究是神经网络研究中的另一个热门课题。与神经网络模 型相对应,近年来已研究出许多的神经网络学习算法。这些算法可分为两类:有 监督( 导师) 学习和无监督( 导师) 学习。在这些算法中,在理论上和实际应用中都 成熟的有以下三种: ( 1 ) 模拟退火算法; ( 2 ) 反向传播学习算法,简称b p 算法; ( 3 ) 竞争学习与相互激励学习算法。 模拟退火算法是近年来新出现的一种通用随机搜索算法,基本思想源于物理 学中的退火过程。将模拟退火法用于b o u 珊蛐机的训练过程,可求出全局最优 解。 b p 是到目前为止最有影响的算法之一,它被用来训练多层前向神经网络。 以上两种算法都属于监督学习算法。而竞争学习与相互激励学习算法则属于非监 督学习算法。 神经网络应用研究,是近年来在神经网络研究中成果最多、最为引人注目的 领域。神经网络主要应用于模式识别b 】,现在已经扩展到控制、预测、组合优 化等方面旧1 4 1 。 2 2 人工神经网络的基本模型 2 2 1 人工神经元的基本模型 人工神经元是人工神经网络的基本组成部分。从一定意义上说,可以认为人 们过去和现在所提出的每一种人工神经元模型都是对人类大脑中神经细胞的一 种简化抽象。下面介绍人们最早提出的也是现在经常使用的神经元模型是 l p 模 型,如图2 1 所示。m p 模型是一种最基本的生物神经元简化数学模型,经过不 断改进后,它假定: ( 1 ) 每个神经元都是一个多输入单输出的信息处理单元; ( 2 ) 神经元输入分兴奋性输入和抑制性输入两种类型; ( 3 ) 神经元输出有闭值特性,服从“全或无”定律:只有当输入总和超过其 阈值时,神经元才被激活,而当输入总和未超过阈值时,神经元不会发动冲动; 第二章人工神经网络在销售预测中的应用 止,在人工神经网络研究领域中,有代表性的网络模型已达数十种,而学习算法 的类型更难以统计其数量。这里只挑几个主要的神经网络予以介绍。 a 多层感知网络( 误差逆传播神经网络) 在1 9 8 6 年以r l 珊e l h a n 和m c c e l l a l l d 为首的科学家出版的p 啪l l d d i s t m u t e d p m c e s s i n g 一书中,完整地提出了误差逆传播学习算法,并被广泛 接受。多层感知网络是一种具有三层或三层以上的阶层型神经网络。典型的多层 感知网络是三层、前馈的阶层网络,即输入层i 、隐含层( 也称中间层) j 、输出层 k ,如图2 7 所示。相邻层之间的各神经元实现全连接,即下一层的每一个神经元 与上一层的每个神经元都实现全连接,而且每层各神经元之间无连接。 输 入 椟 式 输入层i隐含层j输出层k 输 出 模 式 输入神经元隐含神经元输出神经元 图2 7b p 网络拓扑结构 它以一种有教师示教的方式进行学习。首先由教师对每一种输入模式设定一 个期望输出值。然后对网络输入实际的学习记忆模式,并由输入层经中间层向输 出层传播,称为“模式顺传播”:实际输出与期望输出的差值即是误差。按照误 差平方最小这一规则,由输出层往中间层逐层修正连接权值,此过程称为“误差 逆传播”。所以,误差反向传播神经网络( b a c k p r o p a g a t i o n n e u r a l n e t w o r k s ) 也 简称b p ( b a c k - p r o p a g a t i o n ) 网或b p 模型。随着“模式顺传播”和“误差逆传播” 过程的交替反复进行,网络的实际输出逐渐向各自所对应的期望输出逼近,网络 对输入模式的响应的正确率也不断上升。通过此学习过程,确定各层间的连接权 值之后,网络就可以工作了。 由于b p 网络误差逆传播算法具有中间隐含层并有相应的学习规则可寻,使 得它具有对非线性模式的识别能力,特别是其数学意义明确、步骤分明的学习算 法,更使其具有广泛的应用前景。目前,在手写字体的识别、语音识别、文本一 浙江大学硕士学位论文数据挖掘在销售预测中的应用研究 语言转换、图象识别以及生物医学信号处理方面己有实际的应用。但b p 网并不是 十分的完善,它存在以下一些主要缺陷:学习收敛速度慢、网络学习有时会陷入 局部极小值、无法准确确定最佳的隐含层节点个数等。 b 可实现联想记忆的h o p f i e l d 网络 1 9 8 2 年,美国加州工学院霍普菲尔特( h o p f i e l d ) 教授发表了一篇对神经网络 研究颇具影响的论文【1 7 1 ,提出了一种后来被人们称之为h o p f i e l d l 网络的神经网络 模型。这模型是一个由n 个节点全部互连而构成的一个反馈型动态网络,由于 它可实现联想记忆,并能进行优化问题求解,因而受到人们的高度重视,其拓扑 结构如图2 8 所示,通常限定节点间对称连接且节点本身无自反馈。 信息处理节点 图2 8h o p f i e l d 网络拓扑结构 根据网络的输出是离散量或是连续量,h o p f i e l d n j 络可以分为离散型和连续 型两种模型,前者常用于二值型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年汽车制造业新能源汽车技术发展与市场前景研究报告
- 2025年智能家居市场前景及发展方向研究报告
- 2025年绿色环保产业发展前景研究报告
- 2025年智能家居行业可穿戴设备应用与前景展望报告
- 2025年机器人行业机器人服务市场前景研究报告
- 2025年生物科技行业生物医学工程在康复医学中的应用前景研究报告
- 2025年智能网联汽车行业自动驾驶技术发展与市场前景研究报告
- 2025年虚拟现实产业发展前景报告
- 商场冬季用电安全培训课件
- 商场全年安全培训方案课件
- 电梯从业证考试试题及答案解析
- 第九讲 全面依法治国PPT习概论2023优化版教学课件
- 新媒体文案写作PPT完整全套教学课件
- 《细胞》PPT课件-完美版
- 托育园厨师安全工作责任书
- 《编程猫系列》第1课-Hello-编程猫(课件)
- GB 16899-2011自动扶梯和自动人行道的制造与安装安全规范
- 非典型骨折课件
- 封闭区倒塌围墙修复施工方案
- 户口本翻译样本-Word范文-Word范文
- 企业融资计划书2022
评论
0/150
提交评论