(检测技术与自动化装置专业论文)面向零售数据的关联规则挖掘算法的研究与应用.pdf_第1页
(检测技术与自动化装置专业论文)面向零售数据的关联规则挖掘算法的研究与应用.pdf_第2页
(检测技术与自动化装置专业论文)面向零售数据的关联规则挖掘算法的研究与应用.pdf_第3页
(检测技术与自动化装置专业论文)面向零售数据的关联规则挖掘算法的研究与应用.pdf_第4页
(检测技术与自动化装置专业论文)面向零售数据的关联规则挖掘算法的研究与应用.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向零售数据的关联规则挖掘算法的研究与应用 摘要 目前国内外对关联规则算法的研究主要集中频繁项集的挖掘和规则的裁剪 优化两个方向,研究成果颇多,但是针对零售数据目前还没有一个普遍认为最 合适的算法。另外,根据零售业管理人员的信息反馈,目前零售数据关联规则 挖掘存在的主要问题是:挖掘出的关联规则太多、系统运行速度比较慢、实用 性不强。本文针对零售数据的特点,在算法的挖掘效率和挖掘质量两个方面的 进行了深入的研究,通过分析零售数据库找出顾客的购买习惯,并解释挖掘结 果,对促进将关联规则数据挖掘技术应用到零售业中积累了相当的经验,对于 其他领域的数据挖掘应用也有一定的借鉴价值。 本文在频繁项集挖掘方面,首先详细阐述了关联规则经典算法a p r i o r i 算法 和f p g r o w t h 算法,然后通过分析零售企业的商品结构、销售策略以及销售方 式,得出零售数据的特点。针对零售数据的特点我们提出了基于多最小支持度 的m s a p r i o r i 算法和c f p g r o w t h 算法,采用v c + + 对上述算法的性能进行验证 分析和比较,实验显示c f p g r o w t h 算法的性能稳定,而且能够有效的控制算法 挖掘的时间,在实际挖掘过程中,取得了很好的挖掘效果。 本文在关联规则度量方面,首先阐述了传统的支持度一置信度体系,然后针 对多最小支持度算法产生庞大的规则集问题,引入了兴趣度的概念,提出了基 于距离的兴趣度关联规则算法,给出了算法的原理和步骤,实验证实该算法在 实际挖掘过程中,取得了良好的效果。 本文最后把以上的研究成果应用到潍坊某零售集团股份有限公司的商业智 能系统b i s y s 中数据挖掘的研究中,对该超市的p o s 数据进行提取、清洗、 整理、挖掘及结果展示,并将最后结果反馈给超市,取得了较好的成果。 关键词:b i 数据挖掘关联规则多最小支持度关联规则度量 r e s e a r c ha n da p p l i c _ 订i o no fa s s o c i a t i o n r u l e sm i n i n ga l g o l u t h m t o w a r d sr e t a i ld a t a a b st r a o t a tp r e s e n t , t h er e s e a r c ht o w a r d sa s s o c i a t i o nr u l e sa l g o r i t h mf o c u s e $ o nt w o d i r e c t i o n s m i n i n gf r e q u e n ti t e m s e t s ,c u t t i n ga n do p t i m i z i n gr u l e s ,a n dg e t sal o to f r e s e a r c hr e s u l t s h o w e v e r , u n t i ln o ww eh a v e n tg o ta na p p r o p r i a t ea l g o r i t h mi n r e t a i l i n gw h i c hi sg e n e r a l l ya g r e e d i na d d i t i o n ,a c c o r d i n gt ot h ei n i b r m a t i o n f e e d b a c kf r o mt h er e t a i lm a n a g e m e n t ,t h em a i np r o b l e m si nr e t a i ld a t aa s s o c i a t i o n r u l e sm i n i n ga r em i n i n go u tt o om a n ya s s o c i a t i o nr u l e s ,t h es y s t e mr u n n i n gs l o w l y a n dt h ep r a c t i c a l i t yn o ts t r o n g l y i nt h i sp a p e r , w ea n a l y z i n gt h ec h a r a c t e r i s t i c so ft h e r e t a i ld a t a , d od e e pr e s e a r c hi nt w oa s p e c t s - m i n i n ge f f i c i e n c ya n dm i n i n gq u a l i t y , f i n d o u tt h er e t a i lp u r c h a s i n gh a b i t so fc u s t o m e r sa n de x p l a i nt h er e s u l t so fe x c a v a t i o n t m sp r o m o t e st oa c c u m u l a t ee x p e r i e n c ea n dl e s s o n s a l s oh a sac e r t a i nv a l u et oo t h e r a r e a si nd a t am i n i n ga p p l i c a t i o n s i nt h i sp a p e r , f r o mt h ea s p e c to fm i n i n gf r e q u e n ti t e m s e t s ,w ef i r s t l ye l a b o r a t e t h ec l a s s i c a la s s o c i a t i o nr u l e sa l g o r i t h ma p r i o r ia n df p g r o w t hi nd e t a i l ,t h e n a n a l y z e st h es t r u c t u r eo fr e t a i lp r o d u c t s ,m a r k e t i n gs t r a t e g i e sa n ds a l e sa p p r o a c ht o d r a wt h ec h a r a c t e r i s t i c so ft h er e t a i ld a t a a c c o r d i n gt oc h a r a c t e r i s t i e so ft h er e t a i l d a t a ,w ep r o p o s em s a p r i o r ia l g o r i t h ma n dt h ec f p g r o w t ha l g o r i t h mb a s e do nt h e m u l t i p l em i n i m u ms u p p o r t ,u s ev c 抖t ov e r i f y ,a n a l y za n dc o m p a r et h ea l g o r i t h m s p e r f o r m a n c e 。t h ee x p e r i m e n t ss h o w e dt h a tc f p g r o w t ha l g o r i t h m h a ss t a b l e p e r f o r m a n c e ,a n di tc a ne f f e c t i v e l yc o n t r o lt h em i n i n gt i m e ,i nt h ea c t u a lm i n i n g p r o c e s s ,t h ea l g o r i t h mh a sag o o de f f e c t i nt h i sp a p e r , f r o mt h ea s p e c to fa s s o c i a t i o n r u l e s q u a l i t y , w ef i r s t l y d e m o n s t r a t et h et r a d i t i o n a ls y s t e mb a s e do ns u p p o r t c o n f i d e n c e b e c a u s et h em u l t i p l e m i n i m u ms u p p o r ta l g o r i t h m sg e n e r a t es om a n yr u l e s ,s ow es e c o n d l yi n t r o d u c et h e c o n c e p to fi n t e r e s t ,p r o p o s ea na s s o c i a t i o na l g o r i t h mb a s e do nd i s t a n c e a tl a s t ,w e g i v et h ep r i n c i p l ea n ds t e p so ft h i sa l g o r i t h m n l ee x p e r i m e n tc o n f i r m st h a t t h e a l g o r i t h mo b t a i n sg o o dr e s u l t si nt h ea c t u a lm i n i n gp r o c e s s a tt h ee n do ft h i sp a p e r , w ea p p l yt h er e s e a r c hr e s u l t st ot h ed a t am i n i n gi n w e i f a n g sr e t a i lb u s i n e s si n t e l l i g e n c es y s t e mb i s y s ,e x t r a c t ,c l e a n ,s o r ta n dm i n i n g i i i t h i s s u p e r m a r k e t sp o sd a t a ,s h o wt h er e s u l t s ,f i n a l l yf e e d b a c kt h er e s u l t st ot h e s u p e r m a r k e t ,a n da e h i e v e sb e t t e rr e s u l t s k e y w o r d s :b i ;d a t am i n i n g ;a s s o c i a t i o nr u l e s ;m u l t i p l em i n i m u ms u p p o r t ; m e a s u r ea s s o c i a t i o nr u l e s i v 青岛科技大学研究生学位论文 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含本人已用于其他学位 申请的论文或成果。与我一同工作的同志对本研究所做的任何贡献均已在论文 中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:年月 日 关于论文使用授权的说明 本学位论文作者完全了解青岛科技大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人离校 后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍 然为青岛科技大学。( 保密的学位论文在解密后适用本授权书) 本学位论文属于: 保密口,在年解密后适用于本声明。 不保密口。 ( 请在以上方框内打“”) 本人签名: 导师签名: 日期: 日期:年 7 5 年月日 月日 青岛科技大学研究生学位论文 1 1 课题研究的背景及意义 第一章绪论 随着我国经济的快速成长,人民收入的不断提高,科学技术的不断进步,人 民生活水平的不断提升,国人的生活型态、消费习惯和购物习惯也跟着大幅转变。 同时,国内各零售企业迅速崛起,如百货公司、便利商店、超级市场及量贩店的 数量不断激增,再加上国外零售企业的介入以及大型超市在管理技术、服务理念、 营销技术、人员素质、采购配送等方面的不断完善和发展,使得零售行业的利润 空间被进一步压缩,中国国内零售行业的竞争可以说是已经达到了“白热化的 程度l l j 。另外我国零售业信息化水平经过近十年的发展得到了飞速提高,p o s 系 统十分普及,为企业积累了大量的采购、库存、销售等宝贵的数据资源。在这种 情况下,零售企业为了在激烈的市场竞争中求得生存和发展的机会,近年来对实 时、正确掌握商品信息、有效调整商品结构、改善商业服务品质等方面有了更高 的要求,许多零售企业为了在激烈的市场竞争中谋得一席之地,积极投入到商业 智能系统的开发与实施中,希望更精准地掌握企业运营状况、商品销售情况及顾 客消费习惯等信息。商业智能系统作为现代零售企业提高管理和决策水平的重要 手段在开发技术和思路上必须适应新的需求,而实现商业智能系统的最关键的技 术之一就是数据挖掘技术。 本课题来源于针对山东潍坊某零售集团股份有限公司的商业智能系统 b i s y s ,该集团股份有限公司是一家中型企业,以超市为主营业务,总资产4 6 亿元,年销售额6 2 亿元。本课题的目的是根据公司的实际需求,通过对数据挖 掘技术中关联规则算法的研究,开发一套面向零售数据的商品关联分析系统,并 予以实现。本文开发的面向零售数据的商品关联分析系统通过分析公司的销售数 据,挖掘商品间的关联,帮助公司合理配置资源,辅助公司的决策,为公司带来 更大的效益。本课题考虑到关联规则挖掘的对象是海量的销售数据,重点在关联 规则挖掘算法及规则评估算法上做了较深入的研究与分析,从中选择适合零售业 的算法,并予以实现。本课题进行的研究对公司的营销管理带来了很大帮助,同 时对促进将关联规则数据挖掘技术应用到零售业中积累了相当的经验,对于其他 领域的数据挖掘应用也有一定的借鉴价值。 面向零售数据的关联规则挖掘算法的研究与应用 1 2 国内外研究现状 关联规则研究应用领域广泛,不仅应用到传统行业比如零售行业、电信行业、 银行业等行业,而且随着科学技术的不断进步和信息化程度的不断加快,关联规 则通过移动平台、网络等载体,日益发挥着重要的作用。因此,研究关联规则, 对提高企业经营和管理水平,进而增强企业在全球化环境下的竞争力具有重要的 意义。目前国内外对关联规则的研究主要集中在两个方面”】:是算法本身的研 究;二是优化度量规则方面的研究。这两方面研究的某些成果已被集成在一些系 统中,如新西兰w a i k a t o 大学的w e k a ,加拿大s i m o nf a r s e 大学的d b m i n e r ,i b m 公司的q u e s t 项目等,这些系统都整合了经典频集算法、对频集算法的优化和扩 展【2 】。 1 2 1 国外研究现状 关联规则挖掘在国外主要运用在c r m 领域,其中在零售业中的应用最为广 泛,w a l m a r t “啤酒与尿布 的经典案例至今仍被人们津津乐道,营销挖掘和 购物篮分析己经成为零售业挖掘的主要内容。 i b m 公司的a g r a w a l 等学者于1 9 9 3 年首先提出了挖掘顾客交易数据库中项 集间的关联规则问题【3 】,以后诸多的研究人员对关联规则的挖掘进行了大量研究。 他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提 高算法挖掘规则的效率;对关联规则的应用进行推广。 由于a p r i o r i 算法得出的关系都是频繁出现的,但是在实际应用中,我们可能 需要寻找一些高度相关的元素,即使这些元素不是频繁出现的。另外在a p r i o r i 算法中起决定作用的是支持度参数,现在把置信度参数放在第一位,挖掘一些具 有非常高置信度的规则1 4 】。 在文献f 5 1 中提出了f p g o r w t h 的方法,该方法采用分而治之的策略,在第一 次扫描事务数据库之后,把得到的频繁项目集压缩成一棵f p t r e e ( 频繁模式树) , 同时保留其中的关联信息。随后将f p t r e e 分化成一些条件库,然后再对这些条件 库分别进行挖掘。当原始数据量很大的时候,我们也可以结合划分的方法把一个 f p - t r e e 可以放入主存中。实验表明,f p g r o w t h 算法对不同长度的规则都有很好 的适应性,同时在效率上较之a p r i o r i 算法有巨大的提高。 在文献6 1 中介绍了一种算法,这种算法分三步:第一步计算特征、第二步生 成候选集、第三步过滤候选集。在这三个步骤中,关键的地方就是在计算特征时 h a s h 方法的使用。这里给出三个衡量方法好坏的指数:时空效率、错误率和遗漏 2 青岛科技大学研究生学位论文 率;给出两种基本的方法:m i n) 和 )。hashing(mhl o c a l i t y _ s e n s i t i v eh a s h i n g ( l s h m h 的基本想法是将一条记录中的头k 个为1 的字段的位置作为一个h a s h 函数。 l s h 的基本想法是将整个数据库用一种基于概率的方法进行分类,使得相似的列 在一起的可能性更大,不相似的列在一起的可能性较小。m h 的遗漏率为零,错 误率可以由k 严格控制,但是时空效率相对的较差。l s h 的遗漏率和错误率是无 法同时降低的,但是它的时空效率却相对的好很多。 文献 7 】对独立于a g r a w a l 提出的频集方法进行了研究,探索一种不使用频集 的关联规则挖掘方法,以避免频集方法的某些缺陷。文献 8 】是对o l a p 技术和关 联规则的结合进行了研究,并对评估模式的价值提出了有意义的研究方向。 从规则兴趣度的客观方面,考虑一个规则是否有用取决于它是否比较准确地 反映了数据集中所蕴含的规律。最常用的客观度量标准是规则的支持度和置信 度。使用支持度一置信度框架的关联规则挖掘对于许多应用是有用的。然而,根 据支持度一置信度框架导出的规则并不都是有趣的,有的甚至具有一定的欺骗 性。因此,度量、优化规则方向的研究近年来逐渐被人们重视。文献 9 】首先提出 了基于约束的挖掘查询和优化的方法;人们对挖掘出来的关联规则进行相关性分 析,以确保最终获得的规则都是有趣的【】o 】。为此,人们引入了兴趣度等各种约束, 用来剔除实际意义不大的规则。r a y m o n d n g ,l a k sv s l a k s h m a n a n ,j i a w e i h a n , t e r e s am a h 在文献 1 1 】中给出了一种基于约束的关联查询( c o n s t r a i n ta s s o c i a t i o n q u e r i e s ) 开发挖掘系统的原型,这个原型架构有两个阶段,一是找出约束的频繁 集,二是计算规则及规则的置信度,如图1 1 所示: 提炼度量类型、阈值,关 图1 - 1 基于约束的关联规则算法架构 f i g 1 - 1t h ea r c h i t e c t u r eo fa s s o c i a t i o nr u l ea l g o r i t h mb a s e do nc o n s t r a i n t 一般来说,在关联规则挖掘上,如何发展基于大型数据挖掘的高效挖掘机制, 是当今学术界的主要课题,s c h a u d h u r i 最近提出要把数据挖掘技术和数据库管理 系统进行整合【1 2 】,这一点己经得到广泛认同。数据挖掘系统之所以区别于统计分 面向零售数据的关联规则挖掘算法的研究与应用 析程序或者机器学习系统,就在于前者能够提供一个独特的挖掘查询语言和支持 挖掘的高效处理和优化【1 3 】。文献 1 4 】研究了各种关联挖掘和数据库整合的架构, 并且研究了相关的性能和平衡。文献 1 5 n 索了类似a p r i o r i 算法这样的一系列常 规技术能不能突破各自当前的应用而概括到一个通用的被称为查询凝聚的范例。 1 2 2 国内研究概况 尽管我国的部分零售企业已经实施了c r m ,但是我国零售企业应用现代化 信息技术仍处于起步阶段,对商业数据中所包含的大量潜在的、有用的商业信息 的利用还不够充分。因此,提高零售企业的信息化水平,增加其管理、经营、决 策的科技含量,是促进零售企业发展的必由之路。 国内的研究基本也是集中在算法本身的研究和优化度量规则方面的研究。东 南大学宋爱波等在文献 1 6 】中提出了一种解决规则组合爆炸问题的方法,并且引 入了兴趣度、改进度和r y m o n 枚举树,建立了一个带约束的关联规则挖掘算法模 型,对a p r i o r i 算法进行优化。文献 1 7 提出一种改进的负关联挖掘算法。 今后的一些研究方向主要针对以下几个问题:一是在处理海量数据时,如何 提高算法效率;二是如何进一步研究迅速更新的数据的挖掘;三是在挖掘的过程 中,提供一种与用户进行交互的方法,将用户的领域知识结合在其中;四是对于 数值型字段在关联规则中的处理问题;五是生成结果的可视化问题等。 1 3 研究内容及论文的组织结构 1 3 1 论文的主要内容 通过以上两节的叙述,我们对关联规则挖掘的背景以及研究现状有了一定的 了解,由于关联规则算法有很多种,而且应用的领域和要解决的问题各不相同, 所以本文不能一一给予介绍。本论文主要针对零售行业,面向零售领域的关联规 则挖掘算法的相关问题和经典算法进行详细的阐述,特别是对解决零售业稀疏项 问题的多最小支持度算法进行深入的介绍,并且引入一种基于距离的评估规则质 量的算法,实践证明,该算法可以有效的裁剪冗余规则,提高规则的质量。本文 的主要工作有: ( 1 ) 因为本课题是与山东潍坊某零售集团股份有限公司的商业智能系统 b i s y s 系统的实现结合进行的,所以首先对商业智能以及数据挖掘的相关问题和 背景进行了相关的研究。 ( 2 ) 给出了关联规则算法的相关理论,并对其中具有里程碑意义的经典关 4 青岛科技大学研究生学位论文 联算法a p r i o r i 算法和f p g r o w t h 算法进行了详细的阐述,给出了算法的思想和步 骤,并通过示例详细说明了算法的实旋。最后通过v c + + 编程验证了两种算法, 并通过对实验数据的分析对a p r i o r i 算法和f p g r o w t h 算法的性能进行了比较。指 出了算法存在的缺陷。 ( 3 ) 分析零售企业的商品结构、销售策略以及销售方式,通过分析得出零 售数据的特点。针对零售数据的特点提出多最小支持度策略挖掘算法,并详细阐 述了两种多最小支持度算法m s a p r i o r i 算法和c f p g r o w t h 算法。利用人工合成数 据库对a p r i o r i 算法、f p g r o w t h 算法、m s a p r i o r i 算法和c f p g r o w t h 算法的性能 进行分析比较,从中选取运行效率高,稳定性强的c f p g r o w t h 算法应用到我们的 超市数据关联分析子系统的设计中去。 ( 4 ) 在关联规则的度量方面由于传统的基于支持度信任度的度量框架有它 的局限性,本文引入兴趣度的概念,并提出一种基于距离的关联规则挖掘算法, 详细阐述了该算法,并利用人工合成数据库验证了算法的可行性和有效性。 ( 5 ) 利用前面阐述的c f p g r o w t h 算法和基于距离的关联规则挖掘算法,设 计并实现了超市关联分析子系统,给出了系统功能实现的全过程。 1 3 2 论文的组织结构 本文针对零售数据量庞大及数据项目稀疏的特点,提出了针对这种情况的多 最小支持度算法m s a p f i o r i 算法和c f p 。g r o w t h 算法,通过对这两种算法性能 的分析,找到更适合零售业、运行效率更快的算法。同时由于产生了数量庞大的 规则,所以我们引入基于距离的兴趣度关联规则挖掘算法,用来筛选过滤规则, 提高规则的质量。本文设计的超市数据关联分析子系统首先经过一个数据提取程 序,把数据提取到数据仓库o r a c l e 中,然后进行数据预处理,准备事务数据 库,然后运用c f p g r o w t h 算法产生强关联规则集,最后采用基于距离的兴趣度关 联规则挖掘算法过滤规则得到最终的规则集,呈现给用户。 本文共六章,章节安排如下: 第一章:介绍课题研究的主要背景及意义、课题研究的主要内容及论文的组 织结构。 第二章:概括叙述商业智能和数据挖掘技术的相关内容,介绍与本课题研究 相关的问题和知识。 第三章:介绍关联规则算法理论基础,并详细阐述了经典算法a p r i o r i 算法和 f p g r o w t h 算法。利用v c + + 和人工合成数据库对这两种算法进行验证,并进行性 能分析和比较。 5 面向零售数据的关联规则挖掘算法的研究与应用 第四章:总结分析零售超市的行业特点,主要是数据特点,给出关联规则在 零售行业的两种应用类型,针对零售数据的特点提出采用多最小支持度策略,详 细介绍了两种多最小支持度关联算法,并对其性能进行分析和比较。最后提出关 联规则质量的度量问题,给出种基于距离的兴趣度关联规则挖掘算法。 第五章:结合山东潍坊某零售集团股份有限公司的商业智能系统b i s y s 系统 的实现,设计了超市数据关联分析系统。 最后一章主要对全文进行了总结,并给出了一些关于未来研究方向和前景的 展望。 6 青岛科技大学研究生学位论文 第二章商业智能与数据挖掘 随着中国加入世界贸易组织,对外开放步伐的加快,商贸企业间的竞争欲加 激烈,特别是零售业正面临前所未有的挑战。企业要想在竞争中立于不败之地, 必须能够纵观历史和洞察未来趋势,以快速做出决策,应对市场变化。而快速决 策来自于对市场、客户、企业营销状况等的正确、充分分析。原有的e r p 系统作 为一种管理系统难以做到这一点,而商业智能系统则可以很好的解决这个问题。 商业智能是一种综合运用了数据仓库、联机分析处理和数据挖掘技术来处理和分 析数据的崭新技术,它使我们能够将数据转变为信息和知识。 2 1 商业智能概述 2 1 1 商业智能定义 商业智能也称作b i f l 8 】,是英文单词b u s i n e s si n t e l l i g e n c e 的缩写。这个概念最 早可以追溯到1 9 5 8 年d j p o w e r 在i b m 期刊上发表的一篇文章决策支持系统 的简史。之后,在1 9 9 6 由美国权威i t 顾问咨询公司g a r t n e rg r o u p 将商业智能 这一概念定义为一类由数据仓库( 或数据集市) 、查询报表、数据分析、数据挖 掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的技术及其应用。 目前商业智能被定义为企业利用现代信息技术收集、管理和分析结构化和非 结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采 取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力 的智慧和能力【1 9 】【2 0 1 。换句话说商业智能就是企业将现有的数据转化为知识,帮助 企业做出明智的业务经营决策的工具。这些数据通常包括来自企业业务系统的订 单、库存、交易账目、客户和供应商等处的各种数据。 商业智能的关键是从这些来自不同地方的数据中提取出有用的数据并进行 清理,以保证数据的正确性,然后经过抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) ,即e t l 过程,合并到一个企业级的数据仓库里,从而得到企业 数据的一个全局视图。在此基础上利用合适的查询和分析工具、数据挖掘工具、 o l a p7 - 具等对其进行分析和处理( 这时信息变为辅助决策的知识) ,最后将知识 呈现给管理者,为管理者的决策过程提供支持。 因此,从技术层面上讲,商业智能只是数据仓库、联机分析处理和数据挖掘 7 面向零售数据的关联规则挖掘算法的研究与应用 等技术的综合运用。 2 1 2 商业智能主要技术 ( 1 ) 数据预处理( e t l :e x t r a c t i o n ,t r a n s f o r m a t i o i l ,l o a d ) 1 2 l j 当早期大型的在线事务处理系统( o l t p ) 问世后不久,就出现了一种用于“抽 取 处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准选择合乎 要求的数据,将其复制拷贝出来,用于总体分析。因为这样做不会影响正在使用 的在线事务处理系统,降低其性能,同时,用户可以自行控制抽取出来的数据。 但是,现在情况发生了巨大的变化,企业同时采用了多个在线事务处理系统,而 这些系统之间的数据定义格式不尽相同,即使采用同一软件厂商提供的不同软件 产品,或者仅仅是产品版本不同,之间的数据定义格式也有少许差距。由此,我 们必须先定义一个统的数据格式,然后把各个来源的数据按新的统一的格式进 行转换,然后集中装载入数据仓库中。 ( 2 ) 数据仓库 2 2 1 上面提到,在进行s t l 之前,需要先定义一个统一的数据格式,然后把这个 定义出来的统一的数据格式保存起来,以便今后数据仓库演化后继续使用。随着 企业不断变化的商业模式和业务规则,肯定需要对系统进行修改和功能升级。如 果弄不清楚之前定义的数据格式的具体含义,我们将无从下手。所以,我们需要 一种用来描述数据的数据。早期我们使用的是数据字典( d a t ad i c t i o n a r y ) ,数据 字典一般包括数据的定义、关系、来源、作用域、格式和用法。但是,随着时间 的推移,专家们发现,越来越多的已搭建好的数据仓库希望方便的包容最新的各 种格式的结构化和非结构化数据,而传统的基于关系型数据库的数据字典并不能 达成这一目标。 ( 3 ) 数据分析:o l a p 和数据挖掘 o l a p 与数据挖掘是一个有机的整体,在o l a p 中必定要针对不同的主题数 据仓库采用相应的数据挖掘算法来进行数据分析。如果把数据仓库对b i 系统的 作用比作厨师的食材,那么,o l a p 和数据挖掘则是厨具。 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的,其目的是为了让管理者灵活地对海量数据进行浏览分析1 2 3 1 。当时,c o d d 认为联机事务处理( o l l 限) 已不能满足终端用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对 关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的 需求。因此c o d d 提出了多维数据库和多维分析的概念,即o l a p 2 4 。 8 青岛科技大学研究生学位论文 2 1 3 商业智能的发展及现状 商业智能是一个快速发展的概念,随着人们需求的提升和不断变化,它给人 们提供了想象的空间,而人们的想象又促进了它的发展。 商业智能在美国和欧洲比在世界上任何其他地区都要发达,欧美的企业已经 认识到商业智能的重要意义,因而对它寄予很高的期望,希望能够通过商业智能 充分利用企业以往对信息技术的投资、改善决策、提高利润、提高运营效率和增 强透明度。而在这些市场上,商业智能厂商之间的竞争已趋于白热化状态,因而 各个厂商使出浑身解数去争取竞争优势。欧美企业的商业智能开支也处于不断增 长的势头。纵观欧美企业对商业智能的应用应该说是喜忧参半:喜的是许多企业 都计划实施商业智能,对商业智能的投资在持续增长;忧的是商业智能仍未被广 泛地提升到战略性层面,这对企业和商业智能的发展都是不利的。为了使企业能 够更充分地利用商业智能,欧美企业的领导人必须继续增强对商业智能的认识, 带领企业全体员工把商业智能转变成战略性的数据管理、分析决策和绩效提升的 “秘密武器 。 由于亚洲企业在因特网、数据储存、数据仓库和管理应用软件等方面进展迅 速,商业智能将会迈向更高的层面。尽管如此,笔者认为亚洲企业( 日本企业除 外) 在应用商业智能方面与欧美企业比起来在短期内还会存在很大距离。 从厂商角度讲,虽说亚太地区占世界商业智能市场的总份额不是太大,但是 它代表的是崛起的未来市场。世界上的主要的商业智能软件厂商都在亚洲设有分 支机构。另外,该地区也有一些当地的软件企业在进行商业智能软件的开发。许 多日本企业( 比如佳能、夏普等) 非常重视商业智能和数据仓库的建设,已用这 一工具来建造“管理驾驶舱 ,改善经营决策的水平。虽然商业智能在韩国还是 一个比较新鲜而未经验证的概念,已经有一些企业对商业智能的收益产生兴趣 了。因为前几年韩国公司已经在信息技术基础设施平台上做了很大的投资,为提 高企业的效率和利润打下了定的基础。另外,韩国的大企业都实施了e r p 和 c r m 解决方案,进行了不少流程创新。所以现在是利用企业收集和积累的数据 和信息将效率、利润和创新进一步提升的时候了。 随着我国经济改革的不断深化,w t o 后中国市场的进一步开发,中国信息 化建设步伐也进入加速阶段。2 0 0 5 年开始,中国商业智能技术的应用与发展进入 了新的高速增长起点。2 0 0 5 年,金融、电信、零售业等已有大量操作型数据积累 的企业都发出了迫切的应用需求。如何从海量的用户、市场数据中挖掘出高附加 值的决策支持的信息,如何为企业经营决策者精确提供对企业经营战略、产品销 售、客户偏好、客户构成及客户忠诚度的分析,成为企业十分关心的问题。因此, 9 面向零售数据的关联规则挖掘算法的研究与应用 数据仓库、联机分析处理、数据挖掘等技术的应用已成为继数据大集中之后,众 多企业新的关注焦点。 随着全球经济步入信息分析的时代,每个企业都希望通过商业智能产品和服 务处理其最重要的资产信息,在中国的企业应用中,b i ( 商业智能) 正在迅 速成为最热门的话题之一,因为越来越多的人坚信,b i 将成为信息时代的又一个 新浪潮,成为企业盈利的关键因素之一。 b i 使得企业的决策者能够对企业信息进行有效、合理的分析和处理,为决策 提供可靠的依据。从不同的角度,b i 可以有不同的定义,如果从i t 技术的角度 来定义b i ,可以认为b i 是运用了数据仓库、联机在线分析以及数据挖掘技术来 处理和分析数据的技术,它允许用户查询和分析数据库或数据仓库,进而得出影 响商业活动的关键因素,最终帮助用户做出更好、更合理的决策。商业智能在中 国的发展尚处于起步阶段,大部分企业对商业智能仍然缺乏必要的了解。中国虽 有宝钢、中国海关以及大的银行和电信公司进行过或正在进行数据仓库和数据挖 掘项目,但是大部分企业还没有在这方面的尝试。相信随着中国企业信息化建设 的进一步完善,对商业智能系统的需求会与日俱增。虽说几乎每个中国的企业都 需要商业智能,但最迫切的需求主要集中在竞争激烈的零售业和金融服务业( 如 银行、保险等) 。本应作为商业智能实施的主要对象的国内零售行业由于利润薄, 资金实力不强和对商业智能的认识不足等原因没有进行实施。目前被商业智能软 件厂商们看好的主要是电信、金融、航空等行业,因为这些行业的信息化程度高, 并且这些行业从某种意义上讲都是服务业,客户的需求扮演着重要角色,准确、 科学地把握客户的需求是身处这些行业的企业决策者们孜孜以求的。另外,这些 行业可以利用商业智能来补充和完善它们实施的c r m 和e r p 系统。b u s i n e s s o b j e c t s 和b r i o 在国内实施的案例中,多数集中在这几个行业。另外,商业智能 厂商们也看好正在实施电子政务计划的中国政府部门。 尽管中国企业在商业智能的应用方面还处于刚刚起步阶段,但它的需求潜力 巨大。在过去两年里,已经有不少国际商业智能公司进入中国,其中有 m i c r o s t r a t e g y ,b u s i n e s so b j e c t s ,c o g n o s 等国际知名的传统的商业智能软件厂商, 也有一些著名的企业管理应用软件厂商,比如s a p 、甲骨文和冠群等公司投资子 分析软件。国内用友和金蝶近期也推出了这类产品。过去一年有些厂商实现了两 位甚至三位数的高速增长的事实让许多其他厂商确实看到了中国发展商业智能 的巨大希望和潜能。目前,在中国大陆发展的这些跨国厂商纷纷招兵买马、摩拳 擦掌,准备大干一场,更多的厂商则通过寻求合作伙伴或者直接设立办事处加快 进入中国市场的步伐。面对甲骨文、i b m 等国外品牌对中国市场的进攻,国内厂 商如金蝶、用友、创智等一方面同这些巨头建立良好的合作关系以维持发展,另 1 0 青岛科技大学研究生学位论文 一方面也在积极提升产品和解决方案的内在品质,向客户提供更完美的决策支持 服务,争取与国外厂商一比高低。 2 1 4 商业智能的技术走向 目前,无论在商业智能技术的理论研究中还是在产品实现中,联机分析处理 与数据挖掘两大技术是分离的。 在理论研究上,o a l p 技术的研究人员主要来自数据库界,重点研究c u b e 压缩与计算、实体化视图的选择与维护、多维数据的索引和多维查询处理等技术, 以便能够在海量数据上提供秒级的分析请求响应时间。数据挖掘技术的研究人员 来自人工智能、统计、数据库界等,其研究主要集中在各种挖掘算法和评价方法 上,研究可伸缩的数据挖掘方法、基于约束的挖掘方法和复杂数据类型的挖掘等。 在产品实现上,i b m 、o r a c l e 、c o g n o s 、s a s 、n c r 、b r i o 等软件厂商, 看准商业智能软件的市场,通过自行研制或收购的方式推出了相关产品。其中数 据库厂商通常给出从数据仓库到联机分析处理再到数据挖掘的全套解决方案,其 他厂商则侧重于独立的分析、展现与挖掘工具的开发。即使是在全套解决方案中, 其o a l p 与数据挖掘产品也是相互独立的。 联机分析处理和数据挖掘虽然是数据仓库上获取两种不同目标的数据增值 技术,但这两类技术如果能够在一定程度上融合,会使分析操作智能化,使挖掘 操作目标化,从而全面提升商业智能技术的实用价值。即一方面,联机分析技术 可以为数据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性。另一方面,数 据挖掘技术可以便联机分析处理智能化,减少分析人员手工操作的繁杂性,减轻 分析人员的负担。例如,当分析人员在手工分析操作中发现离群点数据,可以有 针对性地直接对此数据利用数据挖掘技术寻找原因,从中找出恶意违规或发现新 的需求点。又如,在数据分析过程中,通过跟踪分析人员的操作过程,利用数据 挖掘技术预测他可能感兴趣的操作和数据,提前预计算或预取数据,从而提高分 析操作的响应时间。因此可以说,基于数据仓库的联机分析处理技术与数据挖掘 技术的融合和互补,将是商业智能技术发展的未来走向。 尽管商业智能应用的前景光明,但是b i 业内还没有形成个统一的标准。 而且,由于b i 系统的实旌是一个长期的、迭代的过程,企业在这个过程中肯定 会出现短期利润倒退的情况,这也在很大程度上打击了企业的信心和实践热情。 所以,目前绝大多数企业都对此持观望态度,或只在有限的部门内局部实施b i 。 我个人认为,企业这样做也是相当明智的。但尽管是局部实施,机会还是有的。 作为技术人员,可以争取在相关技术的研发上取得突破;作为软件厂商的话,则 面向零售数据的关联规则挖掘算法的研究与应用 应从现有老客户和现有产品的技术升级中寻求机会。 2 2 数据挖掘概述 2 2 1 数据挖掘概念 数据挖掘( d a t a m i n i n g 简称d m ) 也叫做数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 1 25 。目前对数据挖掘技术一种比较公认的定义是 w j f r a w l e y ,gp i a t e t s k y s h a p i r o 等人提出的:数据挖掘,就是从大型数据库的 数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息, 提取的知识表示为概念( c o n c e p t s ) 、模式( p a t t e r n s ) 、规则( r u l e s ) 、规律 ( r e g u l a r i t i e s ) 等形式。数据挖掘作为一个新兴的交叉学科,跨越了数据库技术、 人工智能、机器学习、神经网络、统计学、模式识别、高性能计算和数据可视化 等多个学科领域,汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统 计、可视化、并行计算等方面的学者和工程技术人员【2 6 1 。 图2 1 数据挖掘和其他学科的关系图 f i g 2 1t h er e l a t i o n s h i pb e t w e e nd a t am i n i n ga n do t h e rs u b j e c t s 2 2 2 数据挖掘过程简介 数据挖掘的过程是一个复杂的数据处理过程,面对海量的数据,我们应该遵 循合理的挖掘步骤才能事半功倍。通过长期的研究发现,数据挖掘应该是一个多 步骤的处理过程,这个过程是交互和迭代的,其中许多过程还需要用户的参与。 图2 2 指出了知识发现的基本步骤1 2 7 1 1 2 8 】: 1 2 青岛科技大学研究生学位论文 图2 2 知识发现的基本步骤 f i g 2 2 t h eb a s i cs t e p so fk n o w l e d g ed i s c o v e r y 从图2 - 2 中可以看出,经过数据选取把源数据库的重要数据提取生成目标数 据,得来的数据仍然是海量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论