




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山人学7 i ! ;! 卜学位论文剧书销量颅测系统的设计和实现 图书销量预测系统的设计和实现 计算机软件与理论 硕士生:冯昭强 指导老师:李磊教授 摘要 随着图书发行业务的垄断格局逐步被打破,市场激烈的竞争逼使图书发行集 团选择技术含量更高的数据挖掘手段,提高企业的分析能力,提高企业的市场竞 争力。 本文以某大型图书集团的信息化项目中的历史销售数据为对象,利用决策树 方法对图书资源进行分类,挖掘出畅销书的模式,所用到的挖掘算法是决策树 c 4 5 算法。针对c 4 5 算法的过度配适问题,在数据预处理中,引进了“速度”和 “加速度”的属性,从而使得决策树在生成过程中,简化了计算,在一定程度上 克服了c 4 5 易偏向于取值较多的属性这一问题,最终得到了较为理想的决策树, 其结点个数明显减少,而分类精度变得更高。 在系统实现上,实现了挖掘流程可视化和模型结果可视化,允许用户和模型 做一些简单的交互,帮助用户理解模型。接下来,通过误差矩阵和增益图来对模 型进行评估,以检验模型的合理性和发现不足之处,从而进行改进。 关键字:数据挖掘,决策树,图书分类,信息熵,信息增益,加速度 中山人学碗 学位论文 刚书销量预测系统的改汁和实现 t h ed e s i g na n dr e a l i z a t i o no fb o o ks a l e sp r e d i c t i o ns y s t e m c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :f e n gz h a o q i a n g s u p e r v i s o r :p r o f e s s o r l il e i a b s t r a c t w i t ht h eq u i c kd e v e l o p m e n to ft h ec h i n e s eb o o kp u b li s h i n gb u s i n e s s , t h em o n o p o l yp a t t e r ni sn o1 0 0 9 e re x i s tf o r m o s ts t a t e o w n e de n t e r p r i s e s , w h i c ha r ef a e i n gm o r ea n dm o r ec h a l l e n g e s s os o m ee n t e r p r i s e sc h o s et h e d a t am i n i n gt e c h n i q u et op r o m o t et h ea n a l y s i sa b i l i t yf o rb u s i n e s sp a t t e r n a n dc o m p e t i t i v e n e s s t h i sp a p e r sr e s e a r c hi sb a s e do nt h em i so fa nt y p i c a lp u b l i s h i n g h o u s e , m i n i n gf r o mt h eg r e a th i s t o r i c a ld a t a b a s e i no r d e rt of i n do u t t h eh o ts a l ep a t t e r n ,t h es y s t e ma p p l l e dt h ec 4 5a l g o r i t h mo fd e e i s i o n t r e et e c h n i q u e so nd a t aa n a l y s i s a tt h es a m et i m e ,t os o l v et h ep r o b l e m o fo v e rf i t t i n gd u r i n gt h eb u i l d i n go ft h ed e c i s i o nt r e es u i n gt h ec 4 5 a l g o r i t h m i nt h ep r o c e s so fd a t ap r e p a r a t i o n , c r e a t e dt w os p e c i a l c h a r a c t e r so f “s p e e d a n d “a c c e l e r a t i o n ”w h i c hs i m p l yt h ec o m p u t a t i o n a n do v e r c a m et h ep r o b l e mo fc h o o s i n gt h eo n eg i v i n gb e s ta c c u r a c yi ns o m e e x t e n t e m p i r i c a lt r i a l ss h o wt h a tt h i sm e t h o dl e a dt os m a l l e rd e c i s i o n t r e e sw i t hh i g h e rp r e d i c t i v ea e c u r a c i e s i nt h er e a l i z a t i o no ft h es y s t e m ,w ei m p l e m e n t e dt h ev i s u a l i z a t i o n o f m o d e ld e r i v a t i o n , v i s u a l i z a t i o no fm o d e lv a l i d a t i o na n dv i s u a l i z a t i o n o fm o d e lv i e w ,a l l o w e dt h eu s e rt od os o m eb a s i ci n t e r a c t i o nw i t ht h e s y s t e m ,h e l p i n gt h e mt ou n d e r s t a n dt h em o d e l i nt h ee n d ,u s i n gt h e c o n f u s i o nm a t r i xa n d1 i f tc h a r tt oe v a l u a t e ,f i n do u tt h er a t i o n a l i t y a n dw e a k n e s so ft h em o d e l k e yw o r d s :d a t am i n i n g ,d e c i s i o nt r e e ,c l a s s i f i e ro f b o o ks a l e s , e n t r o p y , i n f o r m a tio n6 a in i i 中山人学硕i j 学位论文 图书销量预测系统的改计和实现 本文是建立基于决策树算法的图书行情预测的分类模型,项目背景是广西某 大型图书集团的信息化系统。在该模型中,为进一步提高挖掘的效果,排除噪声 数据和不一致性数据的侵扰,更真实地发掘数据内在规律性,创造性地在数据预 处理中引进了“速度”、“加速度”的概念,提高了数据预处理的效率和数据的 质量,加大了所建立的预测模型的准确性。同时本系统能够根据不同的模型生成 不同的决策树图形表示,在其上可以看到相应的判定规则,因此有利于辅助生成 决策。 当前,在日益竞争激烈的图书批发市场,跨地域经营、集约经营已经成为行 业定势,抓住货源组织环节就成为了图书集团经营战略管理的重要问题,提高集 团核心竞争力的必经之路。控制货源组织,就是利用信息技术对图书资源进行集 中式的管理,以历史数据为依据,为订货和退货提供科学的依据,乃至作出预测, 从而优化库存结构,最大限度地满足市场对商品品种的需求,达到辅助企业经营 者的实际决策的目的。 对图书集团的货源组织,很重要的一个问题就是决定哪些书是畅销的、哪些 是较为畅销、哪些是一般畅销的,如果能确定了这个性质,就能够对书籍入货情 况给出很好的参考意见。但一般来说,书上市以后,没有到其卖完,很难给出畅 销与否的结论。过去只好充分利用市场专家的领域经验及市场感知能力,借助历 史促销信息,通过多名专家的组合降低个人偏差,例如“独立预测法”和“专 家预测法”( 德尔菲法) 相结合的“多因素模糊综合预测模型”【1 】。 但实际上影响畅销与否的因素很多,比如书的作者、内容、题材,书适合的 读者群,原来市面上有无类似题材的书,书的价格等等,甚至季节性因素等都可 能要考虑进来。这么多的特征( 属性) 可能对书的销量造成影响,集团的货源管 理专家不可能一一去分析这些特征,然后再给出一个结论。那么可以利用数据分 析中的一些技术来决定哪些特征才是对畅销程度影响最大的。 本文结合原有图书批发系统的特征,建造了一个专门解决图书行情预测分类 问题的系统,由数据库、方法库、模型库组成,通过友好的界面引导用户进行操 中山人学坝j j 学位论文幽书销量预测系统的世计和实现 作,并以易于理解的方式将结果反馈给用户,用户不需要具备很多的专业知识, 就可以轻松地控制系统的运行。考虑到图书集团下面有多个分店,分店之问是按 地理分布的,所在城市的销售情况和历史数据情况不同,得到的数据挖掘模型也 不一致。因此本系统可以对每个不同的数据源单独建立挖掘模型,方便比较管理。 最后着重介绍了作者独立完成的图书行情预测分类系统的设计和开发。它使 用的核心算法为典型的决策树c 4 5 算法,使用m i c r o s o f tv i s u a lb a s i c n e t 开 发,通过s o ls e r v e r2 0 0 0a n a l y s i ss e r v i c e s 来连接数据源,用增益图和误差 矩阵来评估模型。实验结果表明经过引进“速度”、“加速度”的概念后,不但 能有效生成决策树和预测规则,而且模型的预测效果在误差矩阵和增益图的表现 都比没有引进时大大提高。所以,本文的研究有一定的实用价值及较大的发展空 问。 中山大学硕一卜学位论立 图书销量预测系统的世汁和实现 第一章绪论 1 1 选题背景及意义 近年来,随着市场经济的发展和知识经济的到来,图书发行业正在经历前所 未有的变革,主要的趋势是网上书店的出现和普及,使传统的实体店铺形式面临 着极大的挑战;跨地域经营、集约经营已经成为行业定势;经营上的竞争日趋激 烈,发行品种急剧增多;在政策上图书批发单位的审批门槛逐步放低,包括民营、 外资等各种经济成份加入到图书批发行业越来越多;业户在这种经营环境下对管 理部门的服务要求也越来越高等等。 面对日新月异、快速发展的图书批发市场,如何提高市场的管理效率,巩固 和建设图批市场的品牌影响:如何借助i t 手段,通过对业务信息的科学规划, 形成统一的数据信息中心平台,使数据在业务上为中央采购和连锁分销服务,在 管理上为实现简约的流程构造,快速的物流组织织提供全方位的信息支持,最终 使业务系统与仓储自动化设备相结合,与办公自动化系统嵌合,与企业门户网站 无缝链接,实现“管理信息化,物流现代化”,这些都是市场管理部门面l 临的重 大课题。 目前很多图书发行商也意识到管理好货源组织的重要性和必要性,但是由于 管好货源组织是一个整体的解决方案,这个环节的流程并不是传统意义上把期货 征订、备货、补货、销售预测等环节割裂开来的流程,而是一个以宏观数据分析 为筛选条件,以品种为中心,把各个方面的数据进行对比,而后根据具体业务种 类对销售的影响度进行排序,循序进行统一征订、补货、预测备货、退货等业务 处理的过程,所以很多企业因自身体制和管理上的问题,实现起来有很大难度。 尤其是技术方案的选择上,更是难以取舍。 在企业多年的信息化过程中,建立了众多的m i s ( 信息管理系统) 、m b s ( 业 务管理系统) ,初步具有了统计( 但不是分析) 的功能,如果把数据适当地进行 组合,然后进行统计则可以反映企业的运行状态,例如在某一时刻,企业实现了 盈利或亏损。数据库中保存了大量的历史数据,这些数据是企业的宝贵财富,但 中山人学俩1 。学位论义图书销量预测系统的敬汁和宴现 是,在绝大多数图书商场中这些数据都没有得到充分的利用。尽管在大多数e r p 中包含了销售预测,但是往往侧重于销售流程的管理,没有很好地利用数据库中 大量的历史数据,因此,如何对这些历史数据进行分析,以提取有用的信息,为 市场管理人员提供有价值的信息是一个非常重要而值得研究的课题 李老师的文 章 。 准确的决策来源于对现实情况的准确把握,现实情况的了解则是来源于是对 企业的历史和当前状态的深入分析而得到的,而数据分析系统( d a t aa n a l y s e s y s t e m ) 则很大程度上满足了这一功能,例如:通过以往的销售数据,根据数据 分析技术,可以初步得到那一种产品畅销或者滞销等。 一般来说,一个连贯的业务流程可以被细分为多个工种,每个工种独立地完 成一项固定的工作,各种工种结合起来形成流水线。为了提高流水线作业的效率, 每个工种都致力于提高批处理作业的速度。能否在一个工作流程中实施批处理取 决于工作步骤本身的位置和控制方式,例如调度、结算是可以批处理的,而下票 只能逐单进行。同时,能否有效的支持批处理则取决于是否有足够的自动化辅助 决策来代替人工的逐一决策,例如系统能准确地判断什么品种的图书应该补货, 应该补多少货,人工只要在此基础上判断就能够完成补货的批处理,将大大提高 处理效率。 在目前的市场图书的订货中,实现数据批量处理的主要环节如建立一个通畅 的订数录入、订数传输和订数汇总流程等,要根据各个连锁店和集团总体的特定 品种销售量,综合平均日销量、目前库存可销售周期、进货周期等因素,对所有 品种的销售情况进行监测,并作好各个品种的销售趋势分析,为集团内部各级负 责采购的业务员提供决策支持。 因此,在整个的环节中,数据挖掘对整个的图书订货流程发挥着重要的作用, 尤其在销售预测中,也就是本文的意义所在。 1 2 相关工作和研究状况 在当今中国的经济发展中,预测产品销售量,不但是企业生存和发展的必要 前提,又是企业战略管理的重要组成部分。在历史数据的分析基础上得到主要成 分,同时根据市场过去和现在的信息,运用已有的知识、经验和科学方法,对市 中山人学硕j 学位论义 图书销量预测系统的设计和实现 场未来的发展趋势进行预先估计和推测得到预测销售量,有助于为企业生产经营 决策,提供科学的量化依据。产品的销售量趋势,直接影响企业产品的生产计划, 库存保持量等。目前,产品市场预测主要根据专家的经验,但实际情况跟预测情 况往往相差很远,因此造成有些产品严重紧缺,有些则积压过剩,使资金无法周 转:某些产品还得不到即时升级换代,所有这些都制约了企业的发展。 影响销售量的因素很多,如产品的质量、顾客的结构、季节性以及同类企业 的竞争情况等。目前常用的预测方法有许多种,定量预测方法主要有n n ,时 间序列预测法、线性回归模型预测法、非线性回归模型预测法、灰色系统模型预 测法、马尔可夫预测法等【2 ,这些方法各有优点,在许多方面已有成功的应用。 例如,一些学者已经运用神经网络进行了销售预测,利用改进的b p 网络进行销 售预测,或者基于b p 网络与遗传算法的组合人工智能技术来进行销售预测,均 取得了良好的效果,例如小波神经网络【3 】【4 。但是,销售预测是一项复杂的系 统工程,影响因素综合决定的,传统的预测方法往往只是考虑了其中的一部分, 而且影响需求的各种因素之间往往存在着各种错综复杂的相互作用,依传统方法 建立的简单模型无法表达这种相互作用【5 】。 在当前的研究中,多是侧重数据挖掘算法的探讨,较少提到对数据处理的研 究。例如一些比较成熟的算法对要处理的数据集合一般都有一定的要求,比如数 据的完整性好、数据的冗余少、属性之间的相关性小等。但实际系统中的海量数 据一般都具有不完整、冗余性和模糊性,以及无意义的成分很多,较少能直接满 足数据挖掘算法的要求。 - 文献 6 7 在原有决策树( j r q u i n l a n ) c 4 5 算法的基础上加入推进 技术,来提高分类算法的准确率。 一文献 8 为了克决策树i d 3 算法偏向于选择取值多的,但在实际问题中对 分类意义并不大的属性作为测试属性的缺点,引入了选取权值及相应参 数的优化法的概念对i d 3 进行改进。 文献 9 为了研究归纳学习的判决精度问题,分析了c 4 5 f 章法的不足和从 估计训练样本的概率分布的角度出发,给出了一种新颖的算法。 文献 1 0 将可视化技术应用于数据挖掘领域而开发了一个数据分析平 台d m v i s u a l m i n e t ,实现了对数据挖掘各个方面的可视化,设计并实现了 基于x m l 的模型表示方法。 中山人学硕i :学位论义 图* 销量预测系统的砹计和实现 一文献 1j 采用重复剪辑近邻法提高决策树算法的性能。 _ 文献 1 2 设计了一种利用多叉树结构的直接输出来实现决策树展示的 算法,提高了决策树分类的效率和展示的直观性。 一文献 1 3 分析了针对连续属性样本进行数据挖掘的缺陷,提出一种直接 对连续属性样本进行分类规则挖掘的算法,实现连续属性样本分类规则 挖掘的完全自动化。 一文献 1 4 在属性的选取和分枝策略上对c 4 5 算法进行了改进。 _ 文献 1 5 提出了一种基于增益的得分算法来检测现实数据集中的噪声。 一文献 1 6 提出了一种决策树裁剪算法,以规则信息量作为判断标准从而 提高最终模型的预测精度,克服数据中的噪音。 一个完整的数据挖掘系统必须包括数据预处理。它以发现任务作为目标,以 领域知识作为指导,用全新的“业务模型”来组织原来的业务数据,摈弃一些与 挖掘目标不相关的属性,为数据挖掘内核算法提供干净、准确、更有针对的数据, 从而减少挖掘内核的数据处理量,提高挖掘效率,提高知识发现的起点和知识的 准确度。本文创造性地提出了数据预处理中的“速度”和“加速度”概念,大大 提高了预测的准确性。 1 3 本文主要内容 文章接下来的部分是这样安排的。文章第二部分,首先简单介绍数据挖掘的 概念、挖掘的流程及一些商业应用中常用的方法。文章第三部分,为了解决决策 树生成过程中的训练数据噪声处理问题、过度拟合问题,提出了对数据预处理中 加进速度、加速度的概念,重点介绍了数据预处理和与本文密切相关的数据挖掘 算法决策树算法c 4 5 。文章第四部分,介绍图书预测分类模型的建立和系 统的设计,通过误差矩阵和增益图来验证属性构造后所带来的预测模型效度的提 高。第六部分,总结全文,提出进一步工作的一些想法。 中山大学硕士学位论文图书销量预测系统的设计和实现 第二章数据挖掘简介 在介绍图书预测模型之前,我们有必要先简单地了解数据挖掘的有关背景知 识以及在应用中常用的方法。 传统的管理信息系统通过各种技术手段,把企业活动中所产生的数据采用 数据库的方式保留下来。数据积累的越多,隐藏在数据背后的知识和信息就越多, 同样,数据间的各种关联关系也就越多。虽然数据库系统具备有高效的数据查询 和统计等功能,但无法发现数据问存在的联系和规则,更难以发现隐藏在大量数 据背后的知识,也不能根据现有数据预测它的未来趋势。企业历史数据库中的海 量数据非常大,但真正具有直接利用价值的数据却很少,需要对大量的信息进行 深层分析,发现其内在关联,挖掘其中有利于企业竞争的信息。 数据挖掘技术是从大量数据中提取有用的信息和知识的过程。对数据挖掘 影响最深远的学科目前是机器学习与统计学,数据挖掘的根本任务是从数据中挖 掘知识,获取知识。近年来,它不但广泛应用于商业领域,而且已经引起了不同 学科领域的研究人员的关注。数据挖掘与传统的数据分析例如查询、统计、o l a p ( 联机应用分析) 的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘 信息、发现知识,主要用来分析企业活动所产生后果和原因,并且可以通过这些 后果和原因反推企业应当“如何做”,最终实现“让数据说话”,所得到的信 息通常是预先未知的、也是很难预料到的,而传统的数据分析得到的信息则是过 于简单的、浮在表面的、人的直觉能够感受到的、或与人的直觉较为相近的。 数据库中的知识发现,简称k d d 1 7 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。 k d d 是从数据中发现模式或描述数据问的联系的过程,其主要步骤包括数据选 择、数据预处理、数据转换、数据挖掘、结果解释及评估 1 8 1 ,如图2 1 所示。 中山人学碗士学位论文 图书销量预测系统的设计和实现 图2 1 k d d 的步骤 数据挖掘只是k d d 中的一个阶段,却是最重要的一个阶段,所以人们往往 不加区别地使用两者,一般在工程应用领域多称为数据挖掘,而在研究领域则多 称为数据库中的知识发现。 2 1数据挖掘和数据仓库 所谓的数据仓库,通俗地说,就是存放整齐数据的有清单索引的数据库,由 三部分组成的:数据库( d b m s ) 、数据( d a t a ) 、索引( i n d e x ) 。“索引”我们更常 把它叫做“元数据”,有了元数据,我们就可以做出对系统数据给出索引的元 数据管理。在实际运用中,数据仓库具备容量大、清晰、全面等优点。 数据仓库为企业提供了在单一概念上的企业仓库中搜集、存储企业信息的能 力,大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据 集中( 见图2 2 ) 。 图2 - 2 从数据仓库中得出数据挖掘库 中山大学硕士学位论义 图书销量预测系统的设汁和实现 2 2 数据挖掘系统 经过了多年来的发展,数据挖掘软件渐渐地成熟起来,根据r o b e r lg r o s s m a n ( n a t i o n a lc e n t e rf o rd a t am i n i n g ,u n i v e r s i t yo fi l l i n o i sa tc h i c a g o ) 的观点,数据 挖掘软件的发展1 9 】可以分为以下几个阶段: 1 第一代数据挖掘系统: 支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据 ( v e c t o r v a l u e dd a t a ) ,这些数据模型在挖掘时候,一般一次性调进内存进行处理, 已经出现了很多这样的商业系统( c b a ) 。 2 第二代数据挖掘系统: 第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具 有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及 高维数据。这一代系统通过支持数据挖掘模式( d a t a m i n i n gs c h e m a ) 和数据挖掘 查询语言( d m q l ) 增加系统的灵活性。目前的研究是改善第一代数据挖掘系统, 开发第二代数据挖掘系统( d b m i n e r ,s a se n t e r p r i s em i n e r ) 。 3 第三代数据挖掘系统: 第三代的特征是能够挖掘i n t e r n e t e x t r a n e t 的分布式和高度异质的数据,并且 能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建 立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别 ( f i r s tc l a s s ) 的支持( s p s sc l e m e n t i n e ) 。 4 第四代数据挖掘系统: 第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在 ( u b i q u i t o u s ) 计算设备产生的各种类型的数据。 挖掘软件的发展可以用下表2 1 来概括: 代 特征数据挖掘算法集成分布计算模型数据模型 第一代数据挖 支持一个或者独立的系单个机器向量数据 掘作为多个算法统 一个独 立的应 用 中山人学颂i j 学位论文图书销量预测系统的殴计和实现 第二代跟数据 多个算法:能够 数据管理 同质局部区域有些系统 库以及挖掘一次不能系统,包的计算机群集支持对 数据仓放进内存的数括数据库象、文本、 库集成 据 和数据仓和连续的 库 媒体 第三代跟预言多个算法数据管理 in t r a n e t e x t r支持半结 模型系和预言模a n e t 网络计算构化数据 统集成型系统和w e b 数 据 第四代跟移动多个算法数据管移动和各种计普遍存在 数据各理、预言算设备的计算模 种计算模型、移型 数据联 动系统 表2 - 1 挖掘软件的发展 2 3 数据挖掘中的分类知识 在数据挖掘中分类( c l a s s i f i c a t i o n ) 和预钡1 ( p r e d i c t i o n ) 是两种关键的数据分析方 法 2 0 1 ,它们可以用于提取和描述重要数据类的模型或预测未来的数据趋势, 这对于决策支持而言是非常重要的。 其中,分类就是把给定的数据划分到一定的类别中,其关键就是找出用于描 述和区分数据类或概念的模型,或函数以便能够使用该模型预测类标记未知的对 象类。分类是一个两步过程:首先,在已知训练数据集上,根据属性特征,为每 一种类别找到个合理的描述或模型,即分类规则,其次根据规则对新数据进行 分类。所以,分类又称为有指导的学习。简单地说,分类是预测分类标号,即离 散的值。 要指出的是,数据挖掘中的分类概念与传统上所说的知识分类概念存在一定 的不同。平常所用的分类,从含义上讲,更接近于数据挖掘中聚类这一概念,是 指将数据对象分组成为多个类或簇,在同一簇中的对象之间具有较高的相似度, 而不同簇中的对象差别较大。分类的概念是在己有数据的基础上学会一个分类函 数或构造出一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某 一个。 该分类函数的构造,需要有一个训练样本数据集作为输入,通常训练集由一 组数据库记录或元组构成,每个元组是一个由有关字段( 又称属性或特征) 值组 中山人学硕i 。学位论文 图书销量预测系统的世汁和实现 成的特征向量,这些字段称作属性,把用于分类的属性叫做标签。标签属性的类 型必须是离散的,且标签属性的可能值的数目越少越好( 最好是两或三个值) 。标 签值的数目越少,构造出来的分类模型的错误率越低。此外,训练样本还有一个 类别标记。 分类模型的构造方法有机器学习方法、神经网络方法、统计方法等等。机器 学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者 则一般为产生式规则;神经网络方法主要是b p 算法( 模型表示是前向反馈神经网 络模型) ;统计方法( 知识表示是判别函数和原型事例) 包括贝叶斯法和非参数法 ( 近邻学习或基于事例的学习) 。 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用的比较多。在 医学方面,多用于预测生存期、分类疾病、d n a 分析以及计算机辅助诊断系统 等。 2 4 数据挖掘的分类算法 在数据挖掘中,没有哪种方法可以解决所有的问题,不同的实际问题,必须 结合特定的背景知识,采用不同的数据挖掘方法,有的问题甚至需要结合多种方 法共同进行解决。一般地,在实际应用中,具体使用哪些方法主要取决于问题的 类型以及数据的类型和规模。 数据挖掘常见的算法主要有决策树、贝叶斯网络、遗传算法、神经网络 ( a n n ) 、k 近邻算法( k n i n ) 、规则推导、回归分析、判别分析、聚类分析、 主成分分析及支持向量机( s v m ) 等。同时,可以用的分类算法也很多:如线 性判别式、决策树、朴素贝叶斯方法、最近邻方法、支持向量机( s v m ) 等等, 下面一一介绍 2 1 1 。 2 4 1 贝叶斯分类 贝叶斯分类基于贝叶斯定理,假定一个属性值对给定类的影响独立于其他属 性的值,这一假定称作类条件独立。做此假定是为了简化所需计算,并在此意义 中t h 大学硕卜学位睑文图书销量预测系统的设计和实现 f 称为“朴素的”,是一种在已知先验概翠- q 荚条件概翠的情况f 的模式分类 方法,待分样本的分类结果取决于各类域中样本的全体。 设训练样本集分为m 类,记为c 2 c 1 ,g ,c 卅) ,每类的先验概率 为p ( c ) ,i = 1 ,2 ,m 。当样本集非常大时,可以认为p ( e ) = c 类样本数 总样本数。对于一个待分样本x ,其归于c ,类的类条件概率是p ( 言) ,则根据 贝叶斯定理,可得到c ,类的后验概率p ( 导) : p ( 争p ( ) p ( x ) ( 式1 ) 若p ( 导) = 脓,p ( 睾) i = 1 ,2 “j :1 ,2 ,m , 则有x e ( 式2 ) 式( 2 ) 是最大后验概率判决准则,将式( 1 ) 代入式( 2 ) ,则有: 若p ( 言) 。p ( c ,) 2 慨, p ( 舌) p ( c ,) ,i = l ,2 ,m ,j _ 1 ,2 ,m , 则x e 这就是常用到的贝叶斯分类判决准则。贝叶斯分类易于理解,预测效果好, 也就是说同时存在决策树和神经网络分类的优点,在应用上非常广泛。 贝叶斯方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的 概率分布函数( 或密度函数) 常常是不知道的。为了获得它们,就要求样本足够大。 同时,在真正的概率网络中,发生频率很低的结果的概率非常小,这使得它歪斜 于发生频率很高的结果。 2 4 2b p 神经网络学习分类 b p 神经网络是一个多层前馈网络结构:一个输入层,若干隐含层,一个输 出层。各层又由多个单元构成。一个神经单元包括:输入、输出、阈值、一个求 和单元、一组带权的连接和一个激活函数。其中激活函数妒( ) 可以有多种形式: 阈值函数、线性函数和s i g m o i d 函数等。 b p 神经网络的输入层,接受外界的输入信息;隐含层,实现一种特殊变换 中山人学硕i 。学位论文 图书销量预测系统的设计羊n 实现 ( 一般是非线性变换) ,使输入空l 刈变换到由隐含层输出所张成的空间,从而构 造出对学习目标函数有用,但却隐含在网络输入中的中问特征:输出层,在隐含 层的基础上,综合给出输出结果,作为目标函数的估计值,返回给外界或用户。 在实际中,常常使用的学习算法是反向传播算法:采用梯度下降方法通过试 图最小化网络输出值和目标值之间的误差平方来调整权值,搜索可能的权向量假 设空间,以找到最佳拟合训练样例的权向量。通过反向传播的方法进行训练,从 而确定网络参数的算法,是一种有监督的学习方法。在数据分类中,通过提供的 训练样本及样本所属的类,对神经网络的权值进行调整,从而使该神经网络具有 对其他样本数据进行分类的能力。由于神经网络需要的训练时间较长,因而较适 合于有足够长训练时间的应用场合。在学习过程中,要确定的参数较多,但有些 参数,如拓扑结构,主要还是靠经验来确定, 如在开始训练之前,用户必须说 明输入层的结点数,隐含层数。 用b p 神经网络算法进行学习时,是通过迭代处理一组训练样本,并将每个 样本的网络预测与实际知道的类标号比较。从而进行学习,对于每个训练样本来 修改权值,使得网络预测和实际类之间的均方误差最小。 神经网络的优点是其具有对噪声数据的高承受能力,以及对未经训练的数据 模式进行分类的能力,其缺点是可解释性较差。因为人们往往很难解释蕴含在学 习权之中的符号含义,正是因为这一点,导致了知识的表示比较困难,尤其是用 加权链连接结点的网络表示的知识很难被人理解,庆幸的是目前已有不少着手于 如何提取隐藏在经过训练的神经网络中的知识,并合理地进行解释的研究,由网 络提取规则和灵敏度分析是两种具有代表性的方法。 2 4 3k 最邻近分类 k n n 法即k 最近邻法,最初由c o v e r 和h a r t 于1 9 6 8 年提出的,是一个理 论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中 的k 个最相似( 即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样 本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类 别来决定待分样本所属的类别。 中山人学顾l 学位论义 图书销量预测系统的设计和实现 k n n 方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量 的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外, 由于k n n 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定 所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,k n n 方法较 其他方法更为适合。 该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到 全体已知样本的距离,才能求得它的k 个最近邻点。目前常用的解决方法是事 先对己知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种 r e v e r s ek n n 法,能降低k n n 算法的计算复杂度,提高分类的效率。 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小 的类域采用这种算法比较容易产生误分。 k 最近 s g ( k n n , kn e a r e s tn e i g h b o r s ) 方法用一个度量来表示两个实例之间的 距离。给定未知样本后,在已知的样本中挑选k 个和它最接近的样本,然后找出 这k 个标记样本中最公共的标记来作为对未知样本的预测。常用欧几里得距离度 量,但其他的度量也可行。k 最近邻方法是一种懒惰学习方法,它存放样本,直 到需要分类时才进行,如果样本集比较复杂,可能会导致很大的计算开销。 k 近邻算法是最基本的基于实例的学习方法,目标函数值可以是离散的也可 以是连续的。训练样本与多空间的映射及空间点之间距离的定义如下: 假定所有的实例对应于n 维空间r n 中的点,任意的实例表示为一个特征向 量 ,根据欧氏距离定义实例的距离。两个实例x i 和x j 的 距离d ( x i ,x j ) 定义为d “,x j ) = 、( a r “) - ao 川2 显然,与决策树归纳分类法和b p 神经网络分类法不同的是,k 一最邻近分 类是基于要求的或称为懒散的学习方法,即它存放所有的训练样本,直到未知样 本需要分类时,才建立分类。正是这一点,使得该分类方法存在以下几个问题: ( 1 ) 性能问题,当训练样本所在的空间r n 中存在大量与待分类样本邻近的 点时,这种懒散的学习方法可能导致较高的计算开销。 ( 2 ) 可解释性问题,最邻近分类法对每个属性指定的权重都是相同的,当数 据中存在许多相关属性时,这种分类法的可行性和可解释性受到质疑。 1 4 中山大学硕士学位论文图书销量预测系统的设计和实珧 2 4 4 支持向量机分类 支持向量机方法是建立在统计学习理论的v c 维理论和结构风险最小原理 基础上的,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度, a c c u r a c y ) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折衷,以 期获得最好的推广能力( g e n e r a l i z a t i o na b i l i t y ) 。支持向量机方法的几个主要优点 有: _ 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不 仅仅是样本数趋于无穷大时的最优值; - 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全 局最优点,解决了在神经网络方法中无法避免的局部极值问题; 一 当遇到非线性可分的实际问题时,算法通过非线性变换转换到高维的特 征空间( f e a t u r es p a c e ) ,在高维空间中构造线性判别函数来实现原空间中 的非线性判别函数,特殊性质能保证机器有较好的推广能力,同时它巧 妙地解决了维数问题,其算法复杂度与样本维数无关。 在统计学习理论基础之上发展起来的s v m 算法,是一种专门研究有限样本 预测的学习方法。与传统统计学相比,s v m 算法没有以传统的经验风险最小化 原则作为基础,而是建立在结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 原理基础之上,发展成为一种新型的结构化学习方法。它能很好的解决有限数量 样本的高维模型的构造问题,而且所构造的模型具有很好的预测性能。s v m 算 法有很多成功的应用都说明了这种基于v c 维理论而发展起来的结构化学习方法 的潜在优势。 支持向量机是从线性可分情况下,寻找最优分类面的问题发展而来的。其基 本思想为:寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类 精度的同时,虽大化超平面两侧的空白区域;从理论上来说,支持向量机能够实 现对线性可分数据的最优分类。具体来说,从最简单的情况开始,考虑图2 3 所 示的二维两类线性可分情况。 中山- 人学硕l 。学位论文图书销量预测系统的设计和实现 h 坞 幽2 3 二维曲袭线性口j 分 图中实心点和空心点分别表示两类的训练样本,日为把两类没有错误的分 开的分类线,h ,、h ,分别为过各类样本中离分类线最近的点且平行于分类线的 直线,那么h 。和h :之间的距离即两类的分类间隔( m a r g i n ) 。所谓最优分类线就 是要求分类线不但能将两类无错误的分开,而且要使两类的分类间隔最大。前者 是保证经验风险最小( 为零) ,后者实际上是为了使置信范围最小,从而使实际 风险最小,这是对结构风险最小化原则的具体实现。推广到高维空间,最优分类 线就成为最优超平面( o p t i m a lh y p e r p l a n e ) 。 对非线性问题,支持向量机将输入向量映射到一个高维的特征向量空间,并 在该特征空间中构造最优分类面。由于低维输入空间向高维特征空间映射过程 中,空间维数急速增长,这就使得在大多数情况下难以直接在特征空问直接计算 最佳分类平面。支持向量机通过定义核函数( k e r n e lf u n c t i o n ) 巧妙的将这一问题 转化到输入空间进行计算。 在支持向量机中,o n e c l a s ss v m 常常用于高维分布估计,即用来寻找超平 n v c 维的估计值 2 2 】,它只是对i e ( 或负) 的样本进行训练和测试。该方法通过 把数据映射到特征空间,并尽量用一个超球面来描述特征空间的数据,要把大部 分的数据包含到这个超球面。目前o n e c l a s ss v m 的主要应用的对那些各类的样 本个数极不平衡且个数少的那一类错分的代价非常大的数据进行分类和识别。如 网络入侵检测、网上检索、文本分类、图象检索、基因的预测等等。 支持向量机中不同的内积核函数将形成不同的算法,目前研究最多的核函数 主要有以下三种。 ( 1 ) 多项式核函数 k ( ,z ,) = ( x i g ,c ,) “; 中山人学颇。卜学位论文图书销量预测系统的设汁和实现 ( 2 ) 径向基核函数( r b f ) k ( x i , x j ) = e x p ( ( 3 ) s i g m o i d 核函数 k ( t ,j ,) = t a n h ( v ( 。氍) + c ) 对于同一个的数据集,使用不同的核函数以及同一核函数的不同参数,其效 果都不尽相同,有时甚至相差甚远。因此如何根据数据本身的特性确定采用哪个 核函数以及如何确定核参数是当今机器学习中的一个研究热点。 对于数据分类,以上只介绍了几种较为常用的方法及其特点,实际上还存在 许多分类法,如遗传算法、粗糙集方法等,它们许多还处于模型的研究阶段,而 在实践中还未广泛地应用。 2 5 数据挖掘的过程 基本的数据挖掘步骤【2 3 】如下: 1 、定义问题:在开始数据挖掘之前最基本的也是摄重要的就是熟悉数据和 业务问题的背景知识,弄清用户的需求。缺少了背景知识,就不能明确定义要解 决的问题,就不能为挖掘准备优质的数据,也很难正确的解释得到的结果。要想 充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想 干什么。 2 、建立数据挖掘库:搜索所有与研究对象有关的内部和外部数据信息,并 从中选择出适用于数据挖掘应用的数据。一般建议把要挖掘的数据都收集到一个 数据库中,而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修 改要挖掘的数据,而且还会遇到采用外部数据的情况;另外,数据挖掘还要对数 据进行各种纷繁复杂的统计分析,而数据仓库可能不支持这些数据结构。 3 、准备数据:研究数据的质量,为进一步的分析作准备。并确定将要进行 的挖掘操作的类型。很多情况下需要从原始数据中衍生一些新的变量作为预测变 量。很多变量如果组合起来( 加、减、比率等) 会比这些变量自身影响力更大。 二一i , 兰口 忙一 中山人学硕十学位论文 图书销量预测系统的设计和实现 一些变量如果扩大它的范围也会成为一个非常好的预测变量; 现实世界中的数据极易受噪声数据( 错误的值或偏离期望的孤立点值) 、空 缺数据( 有些感兴趣的属性缺少属性值,或仅包含聚集数据) 和不一致性数据的 侵扰,由于这些数据的存在,使我们对数据真实的内在规律性的分析受到极大的 干扰,很可能会导致分析的结果与实际的规律有较大差别。 为了提高数据质量,使后面阶段的研究过程更加有效、容易,提高研究结果 的质量,必须对数据进行预处理。比如,数据清理可以去掉数据中的噪声,纠正 不一致;数据集成将数据由多个源合并成一致的数据存储;数据规约可以通过聚 集、删除冗余特性或聚类等方法来简化数据。 数据分析就是指对上面已经预处理的数据进行一系列数学和统计的分析,以 对目标数据的分布规律有个量化的认识。由于市场有很多尚不确定的因素,因 此有关市场的数据的规律性也不很直观,这样,我们利用统计方面的知识对数据 进行分析,就能较好地把握数据的规律,为进一步分析销售的一些特点奠定基础。 进行了数据分析以后,还能指导我们今后的促销策略的制定,比如,我们分析了 折扣和销量的关系后,在今后促销时就能大体上确定采取一个多深的折扣以求得 最大的经济效益。 针对本文建立的图书预测模型的分类模型,数据分析建立的步骤如下【2 4 】: ( 1 ) 相关分析和偏相关分析 相关分析是研究变量间密切程度的一种常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户停送电管理制度
- 宣传部统一管理制度
- 家具送货单管理制度
- 个人学习远程培训总结-1
- 彩钢厂安全管理制度
- 循环水使用管理制度
- 心理检测科管理制度
- 快递员业务管理制度
- 总分包安全管理制度
- 总裁班培训管理制度
- 《护理人际沟通》全套教学课件
- 某冶金机械厂供配电系统设计
- 收费站年度工作计划
- xx县精神病医院建设项目可行性研究报告
- 《在中亚细亚草原上》赏析 课件
- 城市轨道交通供电技术442页完整版教学课件汇总全书电子教案
- Q/GDW248-2008输变电工程建设标准强制性条文实施管理规程第3部分:变电站建筑工程施工教程文件
- 班组会议运作技巧ppt课件
- 技术比武理论复习题(继电保护)
- 科室医疗质量安全管理与持续改进记录本模板.doc
- DSP课程设计--基于IIR的语音信号滤波
评论
0/150
提交评论