(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的制造业crm系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术的发展,尤其是关系型数据库技术日益成熟,管理信息 系统已经成为现代企业的运作基础,成为有效地管理企业在运营过程中产生 的大量数据和信息的强有力工具。但是,以单一数据库为中心构成的管理信 息系统往往满足不了现代企业数据处理多样化的要求,不具备复杂的决策分 析功能。数据仓库和数据挖掘技术的出现使企业摆脱信息孤岛的窘境成 为可能。研究数据挖掘技术在c r m 中的应用是本文的立足点,通过对这些技 术及其应用的研究,对提高企业的决策水平及决策效率有着很现实的意义。 首先介绍了c r m 和数据挖掘的基本内容,给出了一个基于数据挖掘的制 造企业c 铷系统的需求分析。然后,研究了如何用概念描述和概念对比的数 据挖掘方法描述和评估客户细分,这一工作是对在数据挖掘模块中使用聚类 算法进行客户细分的完善和补充。 接下来,结合企业的实际情况,在数据仓库的基础上,提出了在数据立 方体上进行记录加权的多维关联规则分析的方法。这一工作充实了c r m 系 统的数据挖掘模块的功能,是对单维的、记录无权重的经典关联规则算法的 一种改进。 最后,给出了一个基于数据挖掘的制造企业c 刚系统的设计和实现,包 括系统的应用逻辑结构、数据的采集、数据表的设计、数据的转换、数据仓 库的建立等功能模块的设计以及数据可视化的初步实现。 目前,c r m 的应用主要集中在电信、银行、证券等行业,面向制造业的 c r m 应用还很少,面向占企业总数的9 0 的中小制造企业的c i u v i 应用更少, 数据挖掘是c r m 系统的核心技术,本文对如何在制造行业构建基于数据挖 掘的c 跳系统做了有意义的探索,这些探索性的工作为以后在企业中全面实 施基于数据挖掘的c 跳系统打下了良好的基础。 关键词数据挖掘,c 蹦,数据仓库,关联规则,概念描述 a b s t r a c t w mt l l e d e v e l o p m e n to fc o m p u t e rt e c h n o l o 斟m a l l a g e m e n t 血f o 舢a t i o n s y s t e mh a sb e e nb e c o m et h eb a s eo f m o d e me n 唧r i s ea n dt h e 蜘g t o o lb y w h i c hw e m a n a g e a g r e a td e a ld a t ae 伍酏t i v e l yw h i c h i sp m d u c e di nt h ep r o c e s so f e n t e i p r i s e sm a n a g e m e n t b u t ,衄d i t i o n a lm a j l a g e m e n ti 研m a :t i o ns y s t e mc a nn o t m e e tt h en e e do fm o d e m e n t e r p r i s e sd a t ap r o c e s s i n gd i v e r s i 6 c 娟o na n dh a sn o t c o m p l e xd e c i s i o n l 嘶o n r e s e a r c h i n gd a 诅m i n i n g ( d m ) sa p p l i c a t i o ni s 1 e s t a n do f t h i s 附r - w i m m er e s e a r c ho ft h e s et e c l l i l o l o g ya 董1 da p p l k 砒i o n ,t h e r ei s v e r yp r a c t i c a lm 鼬g 廿l a t 廿l ed e c i s i o nl e v e la 1 1 dd e c i s i o ne 伍c i e n c yo fe m e r p r i s e a r eb e e n i m p r o v e d f i r s t ,“sp a p e r 酬u c e st h eb a s i sc o n t e n to fc 瑚锄d 胁m i i l j 血g 柚d 让l e ni t e x p o u i l d sh o wt os o l v eaf e w 却r e s e n t a t 毗q u e s t i o n sb yd a 协m m i n g t e c h n o l o g y :c u s t o m e rp r o f i ta b i l 时a i l a i y s e ,a c q u i s i t i o no fc u s t c 啪e r ,c r o s ss e l l i l l g , h o l d i n go f c u s t o n l e r r e f i n e m e n to f c l l s t o r n e r - t h ee m p h a s so f r e s e a r c hi sm a th o w t od e s c r i b ea n de v a i 瑚幢t h er e f i n e r n e n tr e s u l to fc u s t o m e rb yt w od a 芏am i n i n g m e t h o d s c o n c e p td e s c r i 州o na 1 1 dc o n c e p tp 啪l l e l _ a n dt l e nt h j s p 印e r i n 缸d d u c e smd e t a i lac i u 订s y s t e m s d e s 研a n d i m p l e m e n t a t i o n a f e w q u e s t i o n s a r er e s e a r c h e d s p e c i a l l y ,i n c l u d i l l gs y s t e m s r e q u h m e n ta n a l y s e ;a p p l i c a t - o nl o g i cs m k t u r e ;抵h e e t d e s i g n ;d a t aa c q u i s i t i o n ; 出协p i 咖m l e n t ;d a t ac o n v e r s i o n ;a n a l y s e r e s u l t s s h o w ; m u l t i d i m e n s i o n a l r e l a t i o n s h i pr u l e 撕t h m e t i c t h i sp a p e rd o e ss i 鲥f l c a t i v er e s e a r c ha b o u th o wt od e s i 髓ac r m s y s t e mo n m eb a s i so f d a 协m i n i n g mm 锄u f a c 嘶i n d u s 缸y f o re x a n l p l e ,o 玛必gd i s p e r s e c u g c o m e ra n d p r c h d u c ti n f o l l l l a t i o n 拍瑚ha c c o r d 访gt o 臼c e d - s u 协e c tm a l l n e ro n t 1 1 e b a s i so fw 1 1 i c hc u s t o m e ri 1 1 】j b i m a t i o nc a l lb ea 1 1 a l y s e d 疗_ o md i c ea i l g l e ; a c c o r d i n g t om e p 托i c t i c a li l l s 伽1 c et 1 1 a td i f f b r e n c el l i g 幻可r e c o r d sr e 凫r e n c ev a l u e f i o rf i m 鹏f - o r e c a s tm o d ea r ed i f l h t ,m u l t i d i m 锄s i o n a l r e l a 廿o n s h j pm l e 撕t l i i l e t i c i sa m e l i o r a _ t e d t h e s ew o i l ( se s t a b l i s h sg o o db 商sf o rm a tc r m s y s t e mw i l lb e i m p l e m e n t e df u l l yi nt 1 e 如t u r e k e yw 0 r d s 出曲m n m g ,c r m ,d a t a 愀h o u s e ,r e i a t i o n s m pm i e , c o n c e p td e s 嘶p t i o n 、 原创性声明 本人声明,所呈交的学位论文足本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除r 论文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也 i 包含为获得中南大学或 其他单位的学位或证书而使用过的的材料。与我共同工作过的同志对本研究 所作的贡献均已在论文叫j 作了明确的说明。 作者签粥:二竭l 乒f l 期: 塑! 年一生,】三生口 关于学位论文使用授权说明 本人了解中南人学有关保留,使用学位论文的规定,即:学校有权保留 学位论文,允许学位论文被查阅和借阅:学校可以公布学位论文的全部或部 分i 凡容,可以采用复印、缩印或其它丁段保存学位沦文;学校可根据国家或 湖南省有关部门规定送交学位论文。 作者签名:蛆导师签名燃n 期:丝啦月生口 硕士学位论文第一章绪论 1 1 课题来源和意义 第一章绪论 随着计算机技术、网络技术、通讯技术和i n t e m e t 技术的发展,各行各业业务操 作流程的自动化,企业内产生了以几十或上百g b 计的大量业务数据。这些数据和由 此产生的信息是企业的财富,它如实地记录了企业运作的本质状况。面对如此海量的 数据,迫使人们不断追求新的手段,来对这些海量数据进行分析、处理,从而对企业 的运营规律进行分析探索,为企业决策提供有价值的依据,提高企业运行的效率,从 而使企业获得尽可能多的利润。而能满足企业这一迫切需求的强有力的工具之一就是 数据挖掘。 目前,越来越多的管理人员正在利用数据挖掘工具,解决企业中所遇到的至关重 要的管理问题,如企业经营方向的定位、管理模式的确立、营销的决策、内部生产力 的促进、成本的控制和企业核心竞争力的获取等。 c r m m i n _ s u p t l l e nl k = l k u i ) 函数g e r l - c a n d i d a t e ( 1 ( ,l k 1 ) c k _ ; f o re a c h i t e m l l l k 1 f o r e a c h i t e m l 2 l k 1 i f ( 1 la n d1 2h a s k 一2s a m e i t e m s ,a i l dt h eo t l l e ro n e 疳o m d i f r e r e n td i m e n s i o i l s )t h e n c = l l 1 2 : i f ch a s j n 矗e q u e n t 一1 ) 一s u b s e t 协e n d e l e t cc : e l s e a d d c t o c k ; 4 4 3 从频繁项目集产生关联规则 根据前面的讨论,令人感兴趣的相关规则是那些置信度大于给定值的相关规则,嚣信 度的计算,可以通过下面的表达式来进行: c o i l 丘d e n c e ( a b 产s i | p p o n ( a u b ) s u p p o n ( a ) 基于上面的表达式得到如下的算法,这个算法的输入是频繁项目集l ,给定的最低置 信度。输出的是期望的相关规则r ,具体方法如下: r - : f o r 每个在l 中的频繁项目集i f f o ri 的每个非空子集s f c o 叫s i s ) = s u p p o r t ( i ) s u p p o r t ( s ) i fc o n f m i n - c o n f r u l er = “s 一( i s ) ”; r = r u r ) ; ) 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 第五章一个基于数据挖掘的制造企业c 砌v i 系统的设计 5 1系统的应用逻辑结构 作为企业对客户关系的一个管理软件,它必然会渗透到企业的各个方面,而企业的各 个应用部门必然也是分布在不同地方,具有不同的网络环境。因此,面向一个这样的现实 环境,基于分布式处理的解决方案才是一个合理的方式。 传统的客户朋臣务器模式已经不能满足现代管理信息系统发展的需要。企业的解决方案 应该是基于分布式的多层模式。目前在国际上已经有三种较为成熟的分布式处理方案,即; 一个是o m g 组织推出的c o i 旧a ( 公共对象请求代理结构) 1 ;一个是微软的d c o m , 即分布式组件对象模型;还有一个是s u n 公司推出的用弘a 语言开发的分布对象模型 r m i ,即远程方法调用。这三种技术都各有其优点,在不同的行业领域得到广泛的应用。 并且它们在内容上有实质相似之处,例如c 0 融3 a 和c o m ,都提供了个创建分布式、 面向对象的结构体系的方法。开发一个c i m 系统必须考虑这样解决方式,图5 1 就是基 于三层模式的系统架构示意图阱1 : 图5 一l 三层模式系统架构示意图 数据层:包括分析的数据源,预置的立方体,数据挖掘模型。 应用逻辑层:实现应用逻辑层,包括利用a d o 、o l ed b 结合数据透视表服务,实现 用户对金达内销公司客户进行数据挖掘分析时的逻辑。例如:多维数据集数据挖掘模型的 添加、删除、修改,多维数据集傲据挖掘模型的浏览,多维数据集擞据挖掘模型增量更新, 预测查询等等。 硕士等位论文第五章一个基丁数据挖掘的制造企业c r m 系统的设计 表现层:包括客户端接收数据后的可视化表现,客户端提交任务的可视化界面。 另一方面,从基于数据挖掘的c r m 系统本身来说,它的应用逻辑如图5 1 所示 图5 一l系统应用逻辑示意图 很显然,一个完整的c r m 远远不止以上所说的几个部分,这里只有客户信息的管理 和分析方面的功能,并没有电话营销、呼叫中心、时间管理、知识管理等方面的内容。但 是正如前面所讲到的一样,这里讨论的基于数据挖掘的客户关系管理系统的重点应该在对 客户信息的管理和分析上,而企业对客户的其它活动都是在数据分析结果的基础上产生的, 这也是c i t m 系统的由来,而数据挖掘的优势在于对数据的分析,那么数据分析应该是c r m 系统的中心部分,如果这一部分能够完成企业的要求,那么c r m 的其它活动就能在数据 分析的结果的指导下完成,软件系统也能在这个基础上进一步扩展。 5 2 系统的功能模块及技术解决方案 上一节介绍了对系统的需求分析和系统的架构,这一节本文讨论c r m 系统方方面面的 细节问题,将会具体到各个模块,并给出各个模块的解决方法。 5 2 1数据采集的解决方案 金达公司的总部设在香港,生产制造基地设在深圳,在内地二十几个省市设有销售分 公司。从生产的角度,各个分公司之间是通过其产品的设计、生产和销售联系在一起的, 它们之间存在着密切的物流、资金流和信息流的传递,信息的准确传递是确保整个集团公 司正常运作的前提和基础。c i t m 系统是从企业的全局来分析数据,所以各个分公司的数据 要能及时准确传递到系统的数据库里。 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 s o l s e r v e r 的数据复制晒1 是指将一个系统中的数据通过网络分布到地理位置不同的其 他系统中,利用它可以完成系统框架构成以后的数据加载,有效实现地理位置分散的各个 分公司之间的数据集成和数据共享。 图5 2 给出了金达公司的网络环境示意图,图中三个地点分别代表总公司( 包括设计 分公司) 、销售分公司( 图中只列出其中一个) 和生产制造分公司。各个公司都有自己的局 域网络环境,构成内部的i n 缸a n 瓯各个公司之问根据地理位置不同,分别采用电话专线和通 过i s p 和i n t e m c t 建立了企业集团的广域网络。在此网络环境下采用s q ls e r v e r 复制技术 实现了各个公司之间的数据传递和集成。由于相关内容较多,表5 1 以示例方式仅给出了 部分数据的复制规划方案。 s i r e l :设计艘定荦分 s i t e 2c 产品报价和 解绡售 j l 蛙磐料l 佧妯 【j一 s i t e 3 生产赳燃和 制造 图5 2 金达集团公司网络示意图 重芏 苫一 一) 一圣凰 r t t 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 表5 一l部分数据复制规划方案 地点出版物出版类型过滤方式同步频率订阅者 制造分公生产计划事务纵向天 b 、c 司( a ) 产品手册事务横向周b 、c b o m事务 横向周 b 、c 装潢、丝印单事务纵向天c 发货单事务纵向天c 原料进仓单事务纵向天 c 仓库日报事务横向天b 、c 车间日报事务横向天b 、c 总公司销售地区手册事务月c ( b ) 产品单价手册事务月a 、c 货币及兑换率事务月a 、c 汇总报价单事务随时a 汇总客户订单事务随时 a 汇总客户信息事务随时a 销售分公报价单合并横向随时 b 司( c ) 客户订单合并横向随时b 销售明细合并横向随时 a 、b 客户信息合并横向随时 b 5 2 2 用于数据挖掘的数据表的设计 根据对金达内销公司数据库的分析,可以分三个部分来建立c r m 系统的数据表: ( 1 ) 客户信息 具体的客户信息就如前面介绍的一样,是分散在内销公司的三个数据库中的,总结起 来,大致有以下一些信息: 客户的基本信息:包括客户的i d 号,地址,负责人,地域等常用的信息,这样的信息 主要是存放在计划数据库中。 客户的信用信息:包括客户的信用额度,期初余额,大宗产品发货风险,这部分信息 存储在财务数据库中。 客户的订单信息:包括客户的计划订单数,实际订单数,从这里可以对比出客户计划 的准确性,金达公司对客户的满足程度。 图5 - 3 所示的就是基于客户信息的数掘表的情况,其中o r d e r 表存放的是客户订单数据, p 玎d d u c t 表存放了产品的基本信息,与o r d e r 中的“产品i d ”字段关联,d 砒e 表将所有的时 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 间按各种方式分类,与o r d e r 的“日期i d ”字段关联,c u s c o m e r 是客户基本信息的表,与 o r d e r 的“客户i d ”关联,c r 。d “记录了客户信用额度的信息。 门嘲1 j ) q7 份 攀瞧 j j 份 j 剐 i 1 1 j 箨黛辫 ,址l 锅l 【i 产f i 翟袜 删号代础 村顼住则 f 种f 6 - 产地代码 l i l 剡t i ) 产舳l d 需户h j 竹数甜 j 竹i 社似 燮鞒数黼 u 犁嘲栎基 目嘴0 杯喜 包皴橼f ; 哦油梅毒 醚仆标卷 客t d 窨n 舅称 j | 3 _ 别i d 地f i l d 地n l 衄j f i i 凡 i u 讲 图5 3 客户信息数据表关系图 懈户i 】) 愤川ij ) 协川炭_ 俄川獭瞧 蔷汁 嶷州l n 燮刖名称 由于行业的特殊性,o i d e r 表只能反映客户整体上的订单要求,如交货日期、产品名称、 产品数量等,但通常对同一样产品,客户还会提出更细的要求,如印制、包装、喷油等, 图3 - 4 就反映了订单细分的数据表关系,其中o r d e r 0 1 ,o r d e r 0 2 ,o r d e r 0 3 ,o r d e f 0 4 ,o r d e r 0 5 , o r d e r 0 6 均通过字段“订单d ”与o d d e r 表关联。 3g 硕士学位论文第五章一个基丁| 数据挖掘的制造企业c r m 系统的设计 鬻麓;躐i _ l j 币 d1 h l i ,燃犏世 i q 装蜘数 炎州i n 鼗瓒代码 l $ 忭j 镭敬 i 繁嚣囊 。 瞧犍鲫! l 【i j 镯艇| _ l i 热 腔辩编簪 魍粉犏譬 衙 :7 h t t 1 ) 灏 纠明i d l 壤 产甜r d 客pm 唯t n 汀| l 数精 订卟l n 配f 1 煽i j 蔷注 携臼】锎l _ : 盯、t 瓣 色粉躺瞥 实际数辩 批日】。啊 1 1 卑獭杯喜 :椎林躺q 翊:刖标忠 箍注 包装标。量 口油标志 |两! 仆怀基 麟 。 。?l 订竹i d 纸渐旋秘 “坼t d渤乳类型 ;1 | i # 犏弓 噬炎醺i 射 分也数髓 国聿阿晰 】| | 科 1 。划 图5 4 客户订单细分数据表关系图 ( 2 ) 产品销售信息 由于该公司有客户提交的订单计划,客户的付款睛况,客户的信用额度,客户在一定 时间购买的产品的种类、数量,还有各类产品销往的不同地区,所以对数据的分析集中到 客户的信息分析、产品种类和销售地区的分析。 图3 - 5 所示的是c r m 数据库中关于产品销售信息的数据表的关系图,主要数据来自仓 库部的c k c h a n 表。s a l e s 表存储的就是实际产品的销售情况,这是在c kc c h a n 表的基础 上对时间、客户等进行汇总后的结果,其他的表的作用与以上所讲的大致相同。 硕士学位论文第五章一个基丁- 数据挖掘的制造企业c r m 系统的设计 爵期誊谶蕊 | l 蠹鼍谳 】她l d h i 锕儿) 啦价 批街 靛 4 价旗 辱瞧 、淤濑瓣熬誊 | 酗干1 协礴 j 价 藜萋缫瓣麓 羹錾 麓 | 加r 愉格 激 f i r m 舳i n 类剐鳊l j 印删、川埘t n 誓年披 ,讯t n 窖,r i i ) r r ”矾幺稼 樊踊犏吁 剃堰f 伊 燮跤剐i , 毒 | j 售地随t d | 炎级别2 鬈i i 汁 _ i | 傍鬻 嬲断谐俄麓 寝皓 i i 悔帮i 地陋1 i ) , 凳缴j 5 l | 3 粪缴荆4 黼 地畔 溅麓 |l。: c | 斌f 粥 = i r m f 簿pt b 辞,1 t 皂称 粪剁i d 地隧t dn l 髓 地j 盘 救盘凡 电话 图5 5 产品销售数据表关系图 表5 2主要手册名称表 序号手册名称序号手册名称 l 基本产品手册 1 0 印制颜色手册 2组合产品手册1 1丝印菲林手册 3 内销产品价格手册 1 2 胶料手册 4 装璜手册 1 3 胶料加权价格手册 5色粉手册1 4色粉计划单价手册 6 运输手册 1 5 丝印图案价格手册 7 包装方法手册 1 6 二次加工手册 8 配件手册 1 7 喷油手册 9 箱盒唛头手册 1 8 币别兑换率手册 ( 3 )手册信息 c r m 系统的数据表是严格按照第三范式的要求设计的,所以为了更全面反映客户信息 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 和产品销售信息,各种手册表的设计是必不可少的。手册是整个系统的基石,对手册的管 理和维护对于保证数据分析的正确性、及时性、多维性是至关重要的。 由于篇幅关系,表5 2 只列出了主要手册的名称,略去了字段和约束条件的说明。 5 2 3数据预处理的方法 存在不完整的、含噪声的和不一致的数据是大型的、现实世界数据库的共同特点。不 完整数据的出现可能有很多原因,例如,有些感兴趣的属性,如销售事务数据中顾客的信 息,并非总是可用的;其他数据没有包含在内,可能只是因为输入时认为是不重要的;相 关数据没有记录是由于理解错误,或者因为设备故障;同其他记录的数据不一致可能由于 被删除等等。 在集成多个数据库或文件时,常常会出现数据的不一致性,主要表现在以下几个方面: 相同的数据,不同的名字;不同的数据,但名称相同;数据在这个应用中出现,但是在其 它应用中没有出现:对于相同的数据,各个系统采用的关键字不同;不同的应用中对同样 的数据,度量单位不同。 数据预处理技术也6 1 可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性 能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是数据挖掘的重要步骤。 数据挖掘是建立在数据仓库基础之上的,e r l 是为数据仓库准备数据的,所以我们应尽可 能在实施e t l 过程中净化数据,在挖掘阶段,还可以再次进行数据清理,这时主要是检测 和删除可能由e t l 导致的冗余。 预处理数据的几种方法 ( 1 ) 空缺值的处理 在盒达内销数据库中,销售和客户数据库中的一些属性,如客户的财务状况,没有记 录值,怎样才能为该属性填上空缺的值? a 忽略记录。当类标号缺少时通常这样做( 假设挖掘任务涉及分类或描述) ,除非记 录有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时, 它的性能非常差。 b 人工填写空缺值。一般地说,该方法很费时,当数据集很大、缺少很多值时,该 方法可能行不通。 c 使用一个全局常量填充空缺值。如对于客户数据库中网址这一属性,很多客户还 没建立网站,可以将空缺的值用同一个常数“无”替换。但有一个缺点,如果空缺值都用 “无”替换,挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都有相同的值一 “无”,因此,尽管该方法很简单,但并不常用。 d 使用属性的平均值填充空缺值。如在客户数据库中,平均年收入是3 0 0 0 0 元,则 可使用该值替换属性年收入中的空缺值。 e 使用与给定记录属同一类的所有样本的平均值。如在客户数据库中,按客户信用 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 等级分类,用具有相同信用等级的客户的平均收入替换属性年收入中的空缺值。 ( 2 ) 噪声数据的处理 噪声是一个测量变量中的随机错误或偏差。给定一个数值属性,如产品数据库中的产 品成本,怎样才能平滑数据,去掉噪声? 在金达内销数据库中主要采用分箱方法。分箱方法通过考察“邻居”( 即周围的值) 来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值, 因此它进行局部平滑。如: 产品成本的排序后数据:5 ,9 ,1 4 ,2 3 ,2 3 ,2 6 ,2 7 ,2 9 ,3 1 划分为等深的箱: 箱1 :5 ,9 ,1 3 箱2 :2 3 ,2 3 ,2 6 箱3 :2 7 ,2 9 ,3 1 用箱平均值平滑: 箱1 :9 ,9 ,9 箱2 :2 4 ,2 4 ,2 4 箱3 :2 9 ,2 9 ,2 9 用箱边界平滑: 箱l :5 ,5 ,1 3 箱2 :2 3 ,2 3 ,2 6 箱3 :2 7 ,2 7 ,3 1 此外,还可采用聚类或回归等方法。 ( 3 )数据集成和数据变换的处理 在数据集成时,有很多问题需要考虑。如在会达管理信息系统中,总公司m f g 伊r o 系统中s a l e s d a l e 属性和制造分公司订单系统中的s h i q 属性实际上指的是同一实体,但数 据分析者和计算机如何才能识别? 这类问题称为实体识别问题。通常,数据库和数据仓库 中有元数据关于数据的数据,我们可以利用元数据来避免这类错误。 数据集成的另一个重要问题是数据值冲突的检测与处理。对于现实世界的同一实体, 来自不同数据源的属性值可能不同,这可能是因为表示、比例或编码不同。如在金达管理 信息系统中,同一原料的重量单位屙陛在金蝶财务系统中用公斤表示,而在采购系统用包 表示。数据这种语义上的异种性,是数据集成的巨大挑战。目前,尚没设计出软件工具解 决,只能靠手工写s q l 语句。 数据变换是将数据转换成适合于挖掘的形式。在c r m 系统的设计中,数据变换主要 有以下内容: a 平滑。去掉数据中的噪声。主要用分箱技术。 硕士学位论文第五章一个基丁i 数据挖掘的制造企业c r m 系统的设计 b 聚集。对数据进行汇总和聚集。可以聚集日销售数据,计算月和年销售额。 按销售地区或按产品来汇总。 c 数据概化。使用概念分层,用高层次概念替换低层次“原始”数据。如分类属性 销售地区,“城市”可以概化为较高层次的概念,如“地区”或“国家”。类似地,数值属 性,如供应商年生产量,可以映射到较高层概念,如“小型”,“中型”,“大型”。 5 2 4数据转换 如何把原来的内销数据库中的数据及其它文本、表格数据转换到c r m 系统的数据表 里? 这需要专门的软件工具,对于从事数据库开发以及应用程序设计的人员来说,他们已 经熟悉各软件公司提供的各种相关的数据抽取方法,例如基于存储过程的数据抽取、基于 过程语言和调用接口的数据抽取、基于o d b c 的数据抽取、基于脚本的数据抽取等方法。 而s q l s e r v e r2 0 0 0 提供了一种功能强大的数据转换工具d t s 蜘,它可阻在s q ls e e r2 0 0 0 与其他的o l e d b ,0 d b c 数据以及文字文件之间执行数据导入、导出以及转换的服务。 d t s 中常用的工具是d t s 向导与d t s 设计器。d t s 向导提供了图形客户接口,依顺 序指示用户进行数据的导入、导出以及转换工作。比起d t s 向导,d t s 设计器的弹性大 得多,它可以允许用户输入很多类型的定义,设计更复杂、功能更强大的任务。特别是对 多个数据表进行数据转换到目的数据库时,非得用d t s 设计器。且d t s 设计器比以上几 种方法都灵活方便,易于掌握。数据抽取转换的步骤是:设置数据源、设置数据目的地、 设置转换方式、将数据转移任务存储为一个包、执行包实际进行数据转移。 在进行数据的转换时,主要是根据c r m 系统的需要,从原来内销公司的数据库中选 取部分数据,主要就是以上介绍的客户信息数据、产品销售信息数据。这些数据主要来自 以下表: 仓库数据库( n x c k ) :出仓表( c kc c h a l l ) ,其中对该表进行了针对产品种类、客户和 时间的汇总,形成了一个各种类别的产品在不同时期对不同客户的销售表( s a i e s ) 。 计划数据库( n x 珀) :j hd d o l ( 订单要求表) ,j hd d 0 2 ( 订单啤塑要求表) ,j h1 s d d ( 临 时订单) ,j hl d m ( 客户信息表) 等等,针对客户信息表和财务部的经销商期初表( c wj x s q c ) , 经销商余额表( c w j x 町,e ) 进行合并,形成较完整的客户信息,并将j d 0 1 表与j h - l s d d 表结合在_ 起取j h 瑚o l 的计划订单数、实际订单数,j hl s d d 的实际订单数,以便比较某 客户制订计划的准确率,以及金达满足计划的满足率。其它数据表大都是按照原表复制。 财务数据库( n x c w ) :信用额度表( c wx y e d ) ,经销商期初表( c wj x s q c ) ,经销商 余额表( c w x 酬e ) 等。 手册系统基本按照原表复制。 本文并不是将内销系统的所有数据都转换到目标数据库,因此,在r s 数据转换类型 中选择采用s q l 语句方式,进入s q l 语句编写框。具体s q l 查询语句如下: s e l e c t a p r o d u c t i d ,a c u s t o m e r i d ,a d a t e i d a a r e 枷d ,a u i l i 伊r i c e , 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 s u m ( a j h s l ) a sj l s l ,s u m ( a s j s l ) a ss j s l , s u m ( a s j s l ) 4 a u n i t p r i c e + ( 1 0 _ a d i s c o u n t ) a s 鲥e f r o m c k _ ? c h a n a g r o u pb ya d a t c i d a c u s t o m e r i d 此外,d ,r s 还为我们指定了字段之间的转换任务,由于s i j e 是计算字段,所以,可以 在v bs c i i p t l a n g u a g e 的窗口中,输入下列代码,新建它们之间的数据转换任务: f u n c t i o nm a i n 0 d t s d e s 血a t i o n c 锄e ,) = _ d t s s o u r c e ( u 玎j 硎c e ) 木d t s s 咄唧斛) + ( 1 o - d t s s o u r c e f d i s c o l l l l r ) ) m a i n = d t s l m s f o n i l s 衄t _ o k e n ( 1 f u n c t i o n 通过执行d t s 包,那么以上所建立的数据表就会填上相应的数据,并且可以多次执行, 可以在数据更新后执行,以保证数据的一致性。 5 2 5创建分析立方体,使用m d x 查询立方体 设计和建立以上分析模式的维度,立方体佗鼬,这可以用企业管理器和编程接口两种方 法完成,首先利用分析服务器的a n a l ) ,s i sm a n a g e r 来事先创建一些立方体。 现在已经按设想完成了c i t m 数据库的设计了,对于分析立方体的创建也是从以上讨 论的两个方面来进行:客户信息,产品销售信息。 例如对于产品销售信息,可建立一个s a l e s 立方体,建立三种维度: ( 1 ) 基于时间的维度,这是企业销售信息不可缺少的部分,在数据表里对时间进行 了分类,如年,季度,月、周等,那么建立的维度也可以按这样来建立,在c r m 系统中 建立了时间年季度,时间年月f 1 ,时间季日等维度。 ( 2 ) 基于客户的维度,这个相对比较简单,只建立了一个关于地域的维度,也就是 不同销售地区的客户。 ( 3 ) 基于产品的维度,可以按种类、材质、颜色来建立维度。 这里有一点经验就是,建立的维度应该是多层次的,这样对数据分析会有好处。 分析立方体创建后,可以使用m d x 语言嘞实现立方体查询。m d x ( m u m d i m e n s i o n a l e x 肿e s s i o n s ) 是o l a p 多维立方体查询语言,与s q l 具有相似的语法,但功能异常强大, 执行效率高,是o b ”服务器与外界交互的专用语言。使用m d x 可以很方便地实现对立 方体的多维分析。 在s 0 l 中,处理查询时仅涉及列和行这两个维度,所以“列”和“行”这两个术语在 s q l 语法中具有意义。m d x 在查询时则可处理一个或多个维度,每个维度称为一个“轴”, 而“列”和“行”仅用做前两个轴维度的别名。s q l 的s e l e c t 字句用于定义查询的列布 局,w ! r e 字句用于定义行布局并筛选查询所返回的数据;在m d x 中s e l e c t 字句可 硕士学位论文第五章一个基丁数据挖掘的制造企业c r m 系统的设计 用于定义多个轴维度,w h e r e 字句可用来多维数据限制于特定的维度或成员并用于提供 查询所返回的数据切片。s q l 的w h e r e 字句包含是否应在结果集中返回的项目的任意列 表。虽然筛选中长的条件列表可以缩小所检索数据的范围,但是不要求字句中的元素必须 产生清晰而简洁的数据字集。在m d x 中,切片的概念意味w 瑚:i 礓字句中的各个成员标 识来自不同维度的数据的不同部分。由于多维数据的结构化结构,不可能请求同一维度的 多个成员的切片。因此,w h e i 冱字句能提供清晰而简洁的数据字集。 m d x 查询必须包含有关下列各项的信息: ( 1 ) 轴的数目。最多可在m d x 查询中指定1 2 8 个轴。 ( 2 ) 要包括在m d x 查询的各个轴上的来自各个维度的成员。 ( 3 ) 设置m d x 查询上下文的多维数据集的名称。 ( 4 ) 来自切片器维度的成员,在该维度上对来自轴维度的成员进行数据切片。 使用m d x 语言对c r m 系统中产品销售立方体s a l e s 进行查询,可以对数据作如下多 种分析和比较: ( 1 ) 某产品销售分析 根据某产品销售金额( 数量) 曲线,寻找某产品试销、畅销和滞销的周期和规律 销售地区:地区、省、市 时间段:年、季度、月、周 其m d x 语句为: w i t h m e f 岫【m e a s u r e s 】。【锄。嘶p e rw e e k 】a s s u m w r d o ( m e a s u r e s 】【锄o m t 】 s e l e c t 啊m e w e k 】m e m b e r s o nc o l u m s , “m e a s u r e s 锄o u n tp e rw e e k o n r o w s f r o ms a l e s w h e r e ( 【p r o d u c 日 0 0 2 】 0 0 2 0 1 】 0 0 2 0 1 0 1 ) 其中,【i 恤嬲u r e s 】 锄o m l t 】表示销售数量。 【e a s u i e s 】 a r n o u m p e r 愀k 】表示一周总的销 售数量。 ( 2 ) 查询不同销售地区某产品库存走势,其m d x 语句为: s e l e c t ( 阿m e l lt i m e 】 2 0 0 2 1 j 刎:匝m e l 叫lt i n l e l 2 0 0 2 1 d 叫 o nc o l u m l l s , s l 岫p n a y 】 a 1 ls u b c o m p a n y 【0 0 1 m s u b c o m p a n y a l ls u b c o m p 趾y 】【0 4 0 o n r o w s , 【m e 船u r c s 【m d k c 】) o np a g e s f r o ms a l e s w h e r e p r o d u c t 】 a up r o d u c t , 0 0 2 】【0 0 2 0 1 】 0 0 2 0 1 0 1 】 硕士学位论文第五章一个基于数据挖掘的制造企业c r m 系统的设计 ( 3 ) 按照销售金额进行统计排名 产品:大、中、小类、单品 销售地区:地区、省、市 时间段:年、季度、月、周 ( 4 ) 按照销售数量进行统计排名 产品:大、中、小类、单品 销售地区:地区、省、市 时间段:年、季度、月、周 ( 5 ) 按照销售金额、销售数量同比( 环比) 进行统计排名 产品:大、中、小类、单品 销售地区:地区、省、市 时间段:年、季度、月、周 同比计算公式: 同比增长= ( 本期数量去年同期数量) 去年同期数量+ 1 0 0 环比计算公式: 环比计算= ( 本期数量上期数量) 上期数量+ 1 0 0 ( 6 ) 主力产品分析一分析某一分公司按大、中、小类排列销售金额或交易笔数最大 的几类产品 产品:大、中、小类、单品 销售地区:地区、省、市 时间段:年、季度、月、周 分析变量:销售数量、销售金额 ( 7 ) 新产品( 三个月) 销售情况分析分析新产品的销售情况及其在同类中的表现 销售地区:地区、省、市 时间段:月、周 分析变量:销售数量、销售金额 5 。2 6数据挖掘分析模块 有了以上设计的多维数据集,建立的数据挖掘模型就比较容易。可以直接利用立方体 的各个维度来确定采用的数据挖掘算法、事例的维度和级别、成员属性,这样就完成一个 数据挖掘模型的建立。数据挖掘模型也可不通过多维数据集而直接用关系数据库来建立, 这就需要确立数据挖掘模型的输入列和预测列了。建立一个怎样的数据挖掘模型不是一定 的,可以有多种的方式,但是要建立一个高效的数据挖掘模型却不容易,需要不断的实验。 从前面的介绍知道,数据挖掘算法对于微软的分析服务器来说是个软肋,主要是算法 种类的单一和算法过于一般化。就关联规则算法来讲,主要还是单维布尔关联规则,但我 硕士学位论文 第五章一个基于数据挖掘的制造企业c r m 系统的设计 们已经建立好了销售立方体,希望在多个维度上进行关联规则,此外,我们发现由于一些 属性的影响,如时问、销售地区等,历史销售记录对于关联规则的贡献是不同的,这一点 在经典的算法中没有体现出来,基于以上原因,我们将用单独的一章来讨论基于数据立方 体的记录加权型多维关联规则算法。 5 3数据可视化的实现 数据的可视化是一个比较复杂的工程,既要做到数据可视化强,用户容易理解,又要 可操作性强,好在d e l p h i 归0 3 “功能强大,提供了很多好用的控件,节省了我们很多时间 和精力。 d e l p k 发展到现在已经出现第七代产品一d e l p l l i 7 o ,使d e l p l l i 的性能得到很大的提高。 其中,用于数掘仓库设计的组件对于数据仓库应用系统的设计十分方便,从数据仓库的应 用角度看,主要由o l a p 和数据挖掘组成。d e i p 1 i 中的数据仓库组件可以很方便地完成数 据仓库定制应用的设计和数据挖掘的应用,主要由组件扳上的决策立方体( d e c i s i o n c i l b e ) 组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论