




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于最小聚类单元的商圈聚类及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于最小聚类单元的商圈聚类及应用研究 摘要 学科专业:计算机应用技术 研究方向:数据挖掘 指导教师:张小真教授研究生:刘贞 市场经济未来发展模式是以客户为中心、面向服务的运营模式,其核心是完善的服 务保障体系和高效的经营管理策略【”】。企业只有掌握了不同类型客户的消费心理,在市 场经营中依据客户具体情况,采取相应措施,建立起良好的客户关系,才能达到增加市 场份额,提高利润的目的,为此许多企业建立了自己的客户关系管理( c u s t o m e r r e l a t i o n m a n a g e ,简称c r m ) 系统。一个完善的c r m 系统包括信息技术管理、业务操作管理、 决策支持分析管理、客户合作管理四个部分i l ”。数据仓库、在线分析处理( o nl i n e a n a l y s i sp r o c e s s ,简称o l a p ) 和数据挖掘技术已经构成了企业决策支持系统( d e c i s i o n s u p p o r ts y s t e m ,简称d s s ) 的新框架,使d s s 进入实用化阶段。作为企业决策支持系统 核心技术之一的数据挖掘也得到学术界的广泛关注。数据聚类是数据挖掘研究领域中一 个非常活跃的研究课题【1 1 。在数据挖掘领域中,数据聚类的研究工作主要集中在为大型 大型 析寻找适当方法。 类分析的计算方法及约束条件进行了深入研究。为实现对 效的聚类分析,通过对现有聚类方法的分析,提出了基于 最小聚类单元( l e a s tc l u s t e rc e l l ,简称l c c ) 的商圈聚类。其主要思想是在一般的数据挖 掘体系结构中引入l c c 管理子系统,即将原来的直接提交给用户的挖掘结果l c c 保存 在单元库中,用户利用关系数据库成熟的接口技术可以方便地构造l c c 访问接口,通 过接口完成对l c c 的各种操作管理,达到在不同挖掘系统之间共享l c c 的目的、伪共 享聚类分析结果及提高聚类分析挖掘效率提供了一种新的途径。为实现对满足约束条件 的聚类寻找适当的方法,作者在分析聚类约束条件的基础上,提出运用基于角度相异度 的函数划分法处理地理位置的约束条件,用最小生成树聚类分析方法生成满足多项约束 条件的聚类,用时间序列预测技术使客户销量约束条件趋于完善。在此思想上提出一组 对单元库中的l c c 进行处理的商圈聚类划分规则c s p r ( c l u s t e rs o w n t o w np a r t i t i o n r u l e ) 。在l c c 基础上利用c s p r ,采用j a v a 、o d b c 接口,i b md b 2 语言及相关技 术,实现了商业智能挖掘( b u s i n e s si n t e l l i g e n tm i n e r , 简称b i m i n e r ) 系统商圈聚类的主要 功能模块。 最后作者在渝中区烟草分公司数据仓库的实际数据上运行b i m i n e r 系统,对商圈 的界定划分及多维分析报表功能进行了验证,取得了较为理想的效果。由于渝中区烟草 公司实旋m i s 系统较早( 1 9 9 6 ) ,已经积累了较多的数据,再加上渝中区具有较为复杂 的地理和人文环境,如河流和桥梁、城市单行道、山的座向、客户的销售情况及业务人 员素质等等,因此该实验对验证b i m l n e r 系统具有一定的代表性。实验结果证明了基 于l c c 的商圈聚类和对约束条件处理方法的正确性和可行性。对于解决商业、金融业、 地质勘探中类似问题具有一定的理论价值和实际意义。 论文分八章,包括:l 、绪论;2 、数据仓库构建概述;3 、数据挖掘概述;4 、聚类 分析概述;5 、最小聚类单元( l c c ) ;6 、基于l c c 带有约束条件的商圈聚类算法;7 、 b i m i n e r 系统中基于l c c 商圈聚类实现;8 、b i m i n e r 系统的商圈聚类实验设计和结 果分析。 l 关键词:数据挖掘数据仓库聚类分析函数划分角度相异度商圈划分 4 c l u s t e rs o w n t o w na n d a p p l i c t i o ns t u d y b a s e do nl e a s tc l u s t e rc e l l a b s t r a c t m a j o r :c o m p u t e rt e c h n o l o g ya p p l i c a t i o n s u b j e e t :d a t am i n i n g s u p e r v i s o r :z h a n g x i a o z h e n p o s t g r a d u a t e :l i u z h e n i no r d e rt ow i ne x i s t e n c ea n dd e v e l o p m e n t ,m o s to ft h ec o r p o r a t i o n sh a v et om a k et h e i r p r o d u c t i o ng e tp a r t i a lr e s o u r c ei n l i m i t e dm a r k e ta n dv e h e m e n tc o m p e t e n c e c r ms y s t e m w a sb u i l ti nm a n y u n d e r t a k i n g s a sai n t e g r a t ec r ms y s t e m ,t h e r ea r ef o u rp a r t s , i n f o r m a t i o n t e c h n o l o g y ,o p e r a t i o nt e c h n i q u e ,b u s i n e s si n t e l l i g e n c e ,c u s t o m e rr e l a t i o n d a t aw a r e h o u s e , o l a pa n dd a t am i n i n gt e c h n o l o g i e sh a v ee s t a b l i s h e dan e wf r a m e w o r ko fa ne n t e r p r i s e d e c i s i o ns u p p o r ts y s t e m ,w h i c he n a b l e sd s st oe n t e ri n t oap h a s eo f p r a c t i c a la p p l i c a t i o n c l u s t e r a n a l y s i sh a sr e c e n t l yb e c o m e a h i g h l ya c t i v et o p i c i nd a t am i n i n gr e s e a r c hf i e l d i nt h e f i e l do fd a t am i n i n g ,e f f o r t sh a v ef o c u s e do nf i n d i n gm e t h o d sf o rh i 曲p e r f o r m a n c ea n d e f f e c t i v ec l u s t e ra n a l y s i si n l a r g ed a t a b a s e s r e a l w o r l da p p l i c a t i o n sm a yn e e dt op e r f o r m c l u s t e r i n gu n d e r v a r i o u sk i n d so fc o n s t r a i n t s i na l l u s i o nt ot h e s eq u e s t i o n s ,t h ea u t h o ro ft h i sp a p e rh a v es t u d i e do v e rc o n s t r a i n t sa n d t e c h n i q u eo fc l u s t e ra n a l y s i s i no r d e rt o f i n dm e t h o d sf o re f f i c i e n ta n de f f e c t i v ec l u s t e r a n a l y s i si nl a r g ed a t a b a s e ,t h i sp a p e rp r o b e ss o w n t o w n c l u s t e rt h a ti sb a s eo nl e a s tc l u s t e rc e l l b y t h e a n a l y s i s o fc l u s t e rm e t h o d s t h em a i nt h o u g h ti st oi n t r o d u c el c cm a n a g i n g s u b s y s t e mi nt h eg e n e r a ld a t a - m i n i n gs y s t e ma r c h i t e c t u r e t h em i n i n gr e s u l t s ,t h a ti sl c c , w h i c hw e r ep r o v i d e dt ot h eu s e r sd i r e c t l yi nt h ep a s t ,a r es t o r e di nt h el c cd a t a b a s et h r o u g h w h i c ht h eu s e r sc a nc a r r yo nv a r i o u so p e r a t i o n sa n dm a n a g e m e n t ac o n s i s t e n tv i e wo fl c c i sf o r m e ds oa st oi m p r o v et h ee f f i c i e n c yo fs h a r i n ga n dm i n i n gc l u s t e rs o w n t o w n a f t e r s t u d y i n gv a r i o u sc o n s t r a i n t s ,ac o n s t r a i n t - b a s e dc l u s t e ru s i n gf u n c t i o np a r t i t i o nb a s e do na n g l e d i s s i m i l a r i t y , ap a r t i t i o ns o w n t o w nm e a n sw i t l ll e a s to u t s p r e a dt r e em e t h o d a n dt h eq u a n t i t y o fc u s t o m e r ss a l ew a sf o r e c a s t e db yt i m e - s e r i e sa n a l y s i sw e r ep r e s e n t e d s o ,as e r i e so f c s p r ( c l u s t e rs o w n t o w np a r t i t i o nr u l e ) t om a n a g el c cd a t a b a s ew a sd e s c r i b e t h ec s p r b a s e do nv a r i o u sk i n d so fc o n s t r a i n t sw a sa d v a n c e d ,s u c ha s p a r t i t i o nr u l e so f a r e a s ,d i v i s i o n 5 r u l eo f p i e c e ,l a y o u tr u l e so fd e l i v e rg o o d sl i n e b yc s p r ,j a v a ,o d b ca n di b md b 2 ,t h e a u t h o rc a r r i e so u tt h ep i v o t a lt e c h n o l o g ya n dm a j o re l e m e n t a tl a s t ,t h i s p a p e rm a k e sa n e x p e r i m e n t a ls y s t e mf o rs o w n t o w nc l u s t e ra n dm u l t i d i m e n s i o n a la n a l y s i so fy u z h o n g t o b a c c o c o m p a n y t h i sc o r p p u tm i s i np r a c t i c ei n19 9 6 ,s ot h e r ea r el o t so fd a t ai nd a t a w a r e h o u s e a n db e c a u s eo ft h ec o m p l e x g e o g r a p h i ce n v i r o n m e n ta n dh u m a nc u l t u r e ,s u c ha s c i t y s r i v e r sa n db r i d g e ,l a n e ,t h ed i r e c t i o no fh i l l ,a n dc u s t o m e rs a l e s p e rr e g i o n ,t h i s e x p e r i m e n th a v es o m er e p r e s e n t a t i o n t h es u c c e s so f t h i se x p e r i m e n tp r o v e di ti sv i a b l eo f t h e s o w n t o w nc l u s t e rb a s e do nl c c t h e r ea l es o m et h e o r e t i c a la n d p r a c t i c a lv a l u e si ns i m i l a r i t y p r o b l e m o f c o m m e r c e ,f i n a n c ea n dg e o l o g i c a le x p l o r a t i o n t h e ma r ee i g h tc h a p t e ri nt h i st h e s i s i ti n c l u d e d :1e x o r d i u m ,2s u m m a r i z eo fb u l i td a t a w a r e h o u s e ,3s u m m a r i z eo fd a t am i m n g ,4s u m m a r i z eo fc l u s t e ra n a l y s i s ,5l e a s tc l u s t e rc e l l ( l c c ) ,6s o w n t o w nc l u s t e ra r i t h m e t i cw i t hc o n s t r a i n tb a s e do nl c c ,7s o w n t o w nc l u s t e r a r i t h m e t i cw i t hc o n s t r a i n tb a s e do nl c cw a sc a r r i e do u ti nb 1 m i n e r8t h ed e s i g na n d a n a l y s i so f s o w n t o w nc l u s t e re x p e r i m e n ti nb i m i n e r k e yw o r d s :d a t am i n i n gd a t aw a r e h o u s ec l u s t e ra n a l y s i sa n g l e rd i s s i m i l a r p a r t i t i o n s o w n t o w n 6 1 绪论 1 1 论文的选题背景 在过去几十年内,随着计算机技术的应用与发展,原有的m i s 系统数据库中存储 了大量的操作型数据。这些数据虽然非常繁杂,其中却隐含了大量信息知识。随着时间 的推移,人们对数据的应用已经由单纯数据本身发展到对大量数据内隐含模式的索取。 数据量的单纯增加并不能使人们获得有用信息,正如j o h n n a i s h e t t 所说“人类正被数据 淹设,而人类却渴于知识”。这里的“知识”就是指数据中隐含的信息。 ;5 砂数据挖掘是从大量数据中高效提取未知的、可用的、可信的、可理解的模式的数 据处理技术。它是多学科相关的,主要涉及到数据库技术、统计学、机器学习、可视化 技术、信息技术及其它相关学科。数据挖掘技术的主要目的是发现数据集合中隐含的模 式。 数据仓库把传统数据库中大量的历史数据重新提取,生成一个集中的、面向主题 的、随时间变化的、内容相对稳定的数据集合【l ”。数据仓库的出现为数据挖掘技术提供 了新的应用领域,也为数据挖掘技术提供了强有力的支撑。数据仓库完成了对数据的收 集、集成、存储、管理等工作,为数据挖掘过程提供了规范的、海量的数据,使得数据 挖掘能够更专注于对知识的发现。数据仓库已经在欧美国家的许多行业,尤其是商业行 业得到了广泛的运用。它需要从大量的事务型数据库中提取数据,通过清理、转移、分 析、映射、总结和综合,形成统一的存储格式,最终给用户特别是决策支持者提供对数 据更好的访问支持。企业要想在当今日益激烈的竞争环境下取得发展,建立一个企业的 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 是非常必要的【4 j 。企业决策者目前 已经不仅仅满足于对数据的简单维护和查询,而是更希望能有效的对变化的商业环境进 行分析,掌握市场变化情况和发展趋势。在国内,数据仓库构建还处于起步状态,并随 着信息管理自动化步伐的加快而加快”7 1 。 重庆市烟草公司一九九三年引入信息管理系统,同年开发了工业自动化管理系统 和业务销售管理系统,一九九九年实施“三级配送”系统,构建了数据仓库,建立商业 智能系统:二零零年,为使企业在加入w t o 后,能适应市场经济发展,启动“大配 送”系统。为形成合理的市场秩序,建立良好的客户关系,商业公司提出“如何根据本 地区经济发展水平、卷烟市场状况、人口密度、客户分布状况,在充分考虑广大客户的 根本利益基础上,制定本地区烟草制品零售点的合理布局规划,【”j 的课题。在课题实施 过程中我们研制了能够完成部分数据挖掘功能的b i m i n e r 系统。这期间,我的工作主 要是在现有数据挖掘研究基础上进行客户聚类分析及多维报表的生成研制工作,以期能 够支持企业正确的对市场潜力进行估评,合理进行市场资源规划,最终达到对不同客户 群体进行有效管理,使市场运作更具有合理性。 如何提高企业决策支持系统的效率一直是数据仓库和数据挖掘技术所致力解决的 重要问题。在数据挖掘领域中,聚类分析的研究工作已经集中在为大型数据库的有效和 实际的聚类分析寻找适当的方法。活跃的研究主题集中在聚类方法的可伸缩性,方法对 聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合 数值和分类数据的聚类方法【”。数据挖掘对聚类分析方法的要求如下。 可伸缩性。 处理不同类型属性的能力。 发现任意形状的聚类。 用于决定输入参数的领域知识最小化。 处理噪声数据能力。 对于输入记录的顺序不敏感。 高维性。 基于约束的聚类。 可解释性和可用性。 1 2 。研究意义 聚类分析作为统计学的一个分支,已经被广泛研究了许多年,主要集中在基于距离 的聚类分析【1 1 。基于k - m e a i l s 、k - m e d o i d s 和其他一些方法的聚类分析工具已经被加入到 许多统计分析软件包或系统中。在机器学习领域,聚类分析是无指导学习的一个例子。 与分类不同,聚类分析和无指导学习不依赖预先定义的类和带类标号的训练实例。聚 类分析在商业中的应用主要包括通过购买模式来识别不同的客户群;刻画不同的客户群 的特征;并针对不同的客户群进行具有特色的管理;利用地理位置分布建立合理的商圈 等。 数据聚类的研究工作主要集中在为大型数据库的有效性和实际聚类分析寻找适当 方法。针对上述问题,作者对聚类分析的计算方法及约束条件进行了深入研究。为实现 对大型数据库的数据对象进行有效的聚类分析,作者通过对现有聚类方法的分析,提出 了基于最小聚类单元( l e a s tc l u s t e rc e l l ,简称l c c ) 的商圈聚类。其主要思想是在一般的 数据挖掘体系结构中引入l c c 管理子系统。即将原来的直接提交给用户的挖掘结果l c c 保存在单元库中,用户利用关系数据库成熟的接口技术可以方便地构造l c c 访问接口, 从而通过接口完成对l c c 的各种操作管理,达到在不同挖掘系统之间共享l c c 的目的。 为共享聚类分析结果及提高聚类分析挖掘效率提供了一种新的途径。为实现对满足约束 条件的聚类寻找适当的方法,作者在分析聚类约束条件的基础上,提出运用基于角度相 异度的函数划分法处理地理位置的约束条件,用最小生成树聚类分析方法生成满足多项 约束条件的聚类,用时间序列预测技术使客户销量约束条件趋于完善。在此思想上提出 一组对单元库中的l c c 进行处理的商圈聚类划分规则c s p r ( c l u s t e rs o w n t o w n p a r t i t i o n r u l e ) 。 作者在l c c 的基础上利用c s p r ,采用j a v a 、o d b c 接口,i b md b 2 语言及相 关技术,实现了商业智能挖掘( b u s i n e s si n t e l l i g e n tm i n e r , 简称b i m l n e r ) 系统商圈聚类的 关键技术和主要功能模块。最后作者在渝中区烟草分公司数据仓库的实际数据上运行 b i m i n e r 系统,对商圈的界定划分及多维报表功能进行了验证,取得了较为理想的效 果。由于渝中区烟草分公司实施m i s 系统较早( 1 9 9 6 ) ,已经积累了较大数据,再加上 渝中区具有较为复杂的地理和人文环境,如河流和桥梁、城市单行道、山的座向、客户 的销售情况及业务人员素质等,因此实验对验证b i m i n e r 系统具有一定的代表性。实 验结果说明了基于l c c 商圈聚类和对约束条件处理方法的正确性和可行性,对于解决 商业、金融业、地质勘探中类似问题具有一定的理论价值和实用价值。 1 3 论文的主要工作 论文要做的工作是在现有数据挖掘的研究基础上进行聚类分析研究,寻找一种高 效、实际的聚类分析方法,以期提高商业决策支持系统的效率,实现对市场潜力进行正 确评估和对市场资源进行合理规划,从而达到对客户关系进行有效管理,建立起完善的 市场运作体系的目的。 论文的主要内容有以下几点: 1 ) 论文首先介绍了数据仓库的定义,多维数据模型及建立在多维数据模型上的 o l a p 技术,然后对数据挖掘定义、数据挖掘过程、数据挖掘任务及模式、基于数据仓 库的数据挖掘的现状进行了概述。 2 ) 通过对当前聚类分析数据结构、聚类分析方法及实现的研究,对数据挖掘的系 统结构进行一些修改,提出把挖掘结果l c c 存放于关系数据库中,建立基于l c c 的管 理子系统。论文给出l c c 的生成规则,同时利用关系数据库接口实现对l c c 的访问, 在标准查询语言的基础上,给出了对l c c 进行访问的几种基本查询语句。 3 ) 通过对具体的聚类分析约束条件进行研究,论文提出依据基于角度相异度度 量、函数划分分类和最小生成树思想建立一组基于约束条件的c s p r 来构建商业区域、 片区、送货线路。并在l c c 上利用上述思想进行商圈聚类。 4 ) 作者把上述思想应用于b i m i n e r 系统中,实现了基于l c c 的商圈聚类和多维 报表系统。并通过对一个实际系统的数据仓库进行分析实验,验证了基于l c c 进行带 有约束条件的商圈聚类的可行性和正确性。 2 数据仓库构建概述 目i j 数据挖掘技术的热点是与数据仓库技术相结合,在数据仓库的基础上进行数据 挖掘。数据仓库中包含了大量历史数据,这些数据是经过规范化的,并且是面向主题组 织的f 3 2 】。下面的将首先简单介绍数据仓库的定义( 2 1 节) ,及如何围绕主题来创建数据 仓库模型和对数据仓库进行o l a p ( 2 2 节) ,最后对数据仓库的层次结构作以简介( 2 3 节) 。 2 1 数据仓库的定义 信息技术的发展大致可以描述为如下的过程( 图2 1 ) 【3 4 】:初期为简单的数据收集 和数据库构造:后来发展到对数据的管理,主要包括:数据存储、检索以及对数据库事 务的处理;最后发展到对数据的分析和理解,这时候出现了数据仓库和数据挖掘技术。 早期的数据收集和数据库构造为数据存储、检索及事务处理技术的发展创造了必要条 件。同样,随着查询、事务处理等技术被频繁的应用于大型数据库系统时,数据的分析 和理解也就相应的成为信息技术发展的下一个目标。 w h i n m o n 曾对数据仓库进行了描述【3 4 】:“数据仓库是9 0 年代技术构架的新焦 点,它提供集成化和历史化的数据;它集成了种类不同的应用系统;数据仓库从事物发 展和历史的角度来组织和存储数据,以供信息化和分析处理之用。”由于l n m o n 本人在 数据仓库发展中的作用,他的上述描述在技术性文献中不断被引用。i n m o n 对数据仓库 的定义是l “l :数据仓库是支持管理决策过程的、面向主题的、集成的、一致的和与时间 相关联的数据集合。主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、 商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库中包含了大量的 历史数据,经集成后进入数据仓库中的数据是极少更新。数据仓库中内的数据时限一般 为5 年以上,用来进行企业长期趋势分析。数据仓库的数据量很大,通常是数百g b , 现在的很多数据仓库都已达到t b 级别。 数据仓库领域不同于传统的事务处理领域,在很多方面两者有着根本的区别悼j : 内容不同:事务数据库存放的内容主要是事务处理数据,而数据仓库存放的内 容是决策支持信息。 规模不同:事务数据库的目标是保持较小的规模,数据仓库却希望变得很大, 以便能包含大量的历史业务数据。传统事务处理每条事务运行的过程中可能只 涉及整个数据集合中的少数数据。而数据仓库系统每次决策处理所涉及的数据 量往往是数万甚至上百万的记录。 性能要求不同:传统的事务处理运行在一个固定的基础之上,强调对事务的响 应时间。通常只需数秒时间完成一条事务的处理。展示一个可预测的访问模式。 与此相反,数据仓库的分析处理通常会花费大量时间,在数据仓库中系统的响 应时间并不是最重要的。它展示了一个不可预测的访问模式。 应用的领域不同:传统事务处理系统通常是前台系统,而数据仓库系统通常是 企业级的决策系统,面向企业中高层决策者,对于大多数企业的操作人员是不 可见的。 1 0 工具不同:事务数据库是典型结构化的,它仅能提供少数方法来输入或访问所 管理的数据。数据仓库是用户工具的载体,不同的工具可用于支持不同类型的 数据。这些工具的特点是将从数据仓库中获取的数据转换表达成商业智能。 数据库謦瑾系坑的出现-( 七十年代l 十年代早 期 屡救和两络数据库系统舶出现, 关系数据摩系统的出觋; 款据库建橇工具:实绺联累模型等; 数据帕组缓、劈蚂i 菠术:1 5 + 橱,哈蒋寰等; 数据库童诲谮害ts q b 等; 用户界暖、表格和报告; 查询处理和童诲优化技术, 奢务营建。并发控制、安全管理和数据库豹恢复, 联钒事务处瑗( o l t p ) 高级数撼库系坑,( 八十效鲞仓库和数据挖掘t 八 基于w e b 的歉据毒系统t 年代中期至今) + 年代后期至夸)( 九十年代至今) 根据数据攥热分扩晨*我i 盼库及联机分析处理 基于x 的数撼蓐系 系型、对纛烈及对象关系0 1 p i婉1 囊辱t数据挖掘、知识处理 w e b 挖掘l 根据应用帕暖域分空 间、时间、多嫌绺、科学 砬用效据簟疑知谀摩; - j r 新一代鲫亲成信息系统? ( 今詹的发展方澜) 图2 1 :信息技术的发展过程 2 2 多维数据模型 数据仓库和o l a p 工具是基于多维数据模型【l i 。 2 2 1 多维数据模型 最流行的数据仓库模型是多维数据模型,这种模型可以以星型模式、雪花模式或事 实星座模式形式存在。 星型模式是最常见的模型范例,星型模式由居于中心的主题( 事实表) 和围绕在周 围的属性( 维表) 构成。可以记作:s u b j e c t ( a l ,a 2 ,a 。) 。其中s u b j e c t 是数据仓库中的 主题,a l ,a 2 ,a 。分别是每个主题的一个属性。 基于主题创建的事实表中包含了一些用来衡量该主题的数据一指标,如客户的销售 数量、地理位置分布情况。各维表决定了分析这些指标的条件,为指标提供分析的上下 文关系。例如图2 2 给出一个客户销售情况的星型模型:一个大的包含大量数据和不含 冗余的主题( 事实表) ,客户销售情况;一组小的属性( 维表) ,每维一个,即客户维、 商品属性维、商品价格维、时间维。 星型模式主要具有以下优点: 是一种简单直观的数据模型,使系统结构与问题结构得到对应。 销售价格维 s a l e 数据仓库星型模型 图2 2 :b i m i n e r 系统中数据仓库的一个星型模型 减少复杂查询所需的多表连接数,从而提高查询的性能。 通过对数据模型视图的简化,减少了用户不正确提交查询的概率,从而提高了 效率。 易于扩展和维护,为分析需求的增长提供了灵活的基础。 星型模式也有一定的缺点,它的数据组织方式存在较大冗余,大多数o l a p 建模 都采用这种模式。 雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到 附加的表中。结果,模式形状类似于雪花的形状。雪花模型避免冗余数据占用过大的存 储空间,因此,它具有通过最大限度地减少维表数据存储量以及联合较小的维表来改善 查询性能的优点。 事实星座:复杂的的应用可能需要多个事实表共享维表。这种模式可以看作星型模 式集,因此称为星系模式或事实星座。 2 2 2 概念分层 背景知识是关于数据挖掘领域的知识。概念分层允许在多个抽象层上发现知识,它 定义了一组由低层概念集到高层概念集的映射。概念分层是一种有用的背景知识表示 形式,它使得原始数据可以在较高的、一般化的抽象层次上进行处理。 图2 3 :b i m i n e r 系统中对商圈的模式分层 概念分层结构以组织成树的节点集表示,其中每个节点本身代表一个概念。一个特 殊的节点a 1 1 作为树根节点,它表示给定维的最一般的值。如果不显式的给出,它是蕴 涵的。概念分层的树叶对应于维的原始数据值。这些是给定属性或维的最细节的值或概 念。尽管概念分层结构通常用树形分类的形式表示,但它们也可以表示成一般的格或偏 序。 概念分层有4 种类型。 模式分层 模式分层是数据库模式属性问的全序或偏序。模式分层可以形式地表示属性间的语 义联系。通常一个模式分层指定了数据仓库的一个维。 如( 图2 3 1 采用树形结构表示,也可以采用全序方式来表示。 全序格式表示: 客户地址 送货线路 商圈 片区 区域 城市 树形结构表示见图2 3 : 可以采用层次的方法对给定数据对象集合进行层次的分解。 集合分组分层 集合分组分层将给定属性或维的值组织成常量组或区间值。组之间可以定义为全序 或偏序。如( 图2 4 ) 给出了卷烟分类树的概念分层。 操作导出的分层 操作导出的分层:操作导出的分层是根据用户、专家或数据挖掘系统说明的操作分 层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。 基于规则的分层 基于规则的分层是指整个概念分层或它的一部分由一组规则定义,并且根据当前数 据库数据和规则定义动态地计算。如对于所有的客户,定义月销量1 0 0 条以上的为a 类 经烟户,5 0 9 9 条的客户为b 类客户,1 4 9 条的客户为c 类客户。 1 4 2 2 。3 。多维数攒模型上的o l a p 上嚣张镄:多维分析中酶壤憝分簇缀织戆。“上卷”燕撰沿个或多个维,投据 雅豹滋次辨惩主麴数豢蠢谗这器( 姨缴鼹绕诗结果委4 宏溲缀计续累) :“t 锚”是搬沿 令或多个维,壤摄缭豹攫次罂荛薅下的数据查询过程( 从宏观统计结巢到微观统计绍 袋) ,它题一个一步疹地霸仡查询结采以缩小搜索范丽韵过程,最终迩继美键数据的过 程。翔:海黼耩毪维,f 晶名】母f 豢爝黉剿l = f 产穗】,表示上豢避程;反方趣为“下链” 过程。 璇片稻甥坟:宴要蹙根摄缎敷黢定做投影、选撂等数据瘁操作,从而获取数弼。在 多维数攒结掏中,通过切片与切块工作可以褥到所需簧的数据;按二维迸行切片,魏浆 时间,篆客户静龙诫鏊祥的销镰情况;较三雅逶行甥块,豫某袋辩闼,慕塑客户, 菜璺熬秘静镇售穗援。 转辍:是用户默不溺的角痰来观察数据的一个称呼,通过“转轴”可以得到不同视 热的数据。比鲤对客户的经营情况进行分祈,经过切块所得瓢的立方体,可猷通过转轴 褥劐;菜赡客户在不间时间的铺售情撬、菜些品稀在不同辩阉的销辔情凝、菜黧客户辩 不弼产潴鼹销售瀵凝。 其谴虢a p 搽撵:鳃:钻过秘链透等。 2 。3 。数据仓库豹系统结构 数据仓库逶常采艨三鼷缭筏f l 、嶷联楚仓瘴数熬瘁骚务器,它a 乎惑楚一个关系数据库系缝。“烟傅由该屡提取 数据裂建数据仓瘁”,镬用拣终网阈逡接程序驰应用程序,由操作数据库和外部数据源 ( 如幽静部咨询者提供的客户侧面信息) 提取数据。阐间连接程序由下面的d b m s 支 持,允许客户程序产畿s q l 代褥,程服务器上执行。溺溺连接稷序豹铡予包括o d b c ( 开放数据摩连接) 耱徽软静瓯e - d b ( 数舞痒开教链按帮嵌入) j d b c ( j a v a 数据艨 连接) 。 2 、中超漂是o a p 服务器,其翅型的实现或筵( i ) 关系o l a p ( r o l a p ) 模型, 都扩充的关系d b m s ,它将多维数据上的操豫映射为标准的美系搽作 或者麓( f ) 多 维o l a p ( m o l a p ) 模型,秘特豫黪黢务器,它壹犊蜜瑷多维螫c 攒鞍搽髂。 3 、顶层楚客户,它秘括套询鞍撤告工具、分撬工具澜数据挖掘工具( 例烟趋势分 桥、羰测等) 。 2 。4 。、结 本章分绥了数据仓瘁瓣定义、数据仓痒豹数撼摸式、题檄念分屡寒表枉领域9 瑟识、 o l a p 豹足静典型豹分辑操嚣方法和数据仓瘁灼三层结掏模式。藩重以b i m i n e r 系统 实瑷为铡,讨论了掏建数据仓库时用的星型模式;基于模式和基于规娜的概念分朦;构 建数据仓痒的过程。为君文建立数据仓瘁进行多维分轿提供了一定酶莲箍。 3 数据挖掘概述 本章主要介绍了数据挖掘的基本理论。将在3 1 节中介绍数据挖掘的定义,在3 2 节中介绍数据挖掘的任务及其六种模式,在3 3 节中介绍数据挖掘的过程,由于系统的 实现是基于数据仓库的,因此在3 4 节中将简单介绍在数据仓库中进行数据挖掘。 3 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的、有用的信息 和知识的过程【l i 。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、 规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石 中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结 构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方 法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可 以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于对数据自身的维护。 因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到 从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤 其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工 程技术人员,投身到数据挖掘这一新兴的研究领域中,形成了新的技术热点。 数据规范和集 图3 1 :数据挖掘系统的过程结构图 这罩所说的知识发现,不是要求发现放之四海皆准的真理,也不是要求发现崭新的 1 6 自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是 相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。 最好能用自然语言表达所发现的结果。 3 2 数据挖掘发现的六种模式 数据挖掘的任务是从数据中发现模式。模式是一个用语言l 来表示的一个表达式e , 它町用来描述数据集f 中数据的特性,e 所描述的数据是集合f 的一个子集f e 。e 作为 一个模式要求它比列举数据子集f e 中所有元素的描述方法简单。 模式有很多种,按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型( d e s c r i p t i v e ) 模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式 所使用的数据也都是可以明确知道结果的。例如,根据各种品牌卷烟资料,可以建立这 样的模式:凡是格 阶在( 4 0 8 0 ) 的卷烟均为二类烟。当有新的品种出现时,就可以根 据这个模式判别此卷烟是否是二类烟。描述型模式是对数据中存在的规则做一种描述, 或者根据数据的相异度把数据分组。例如,在重庆市,7 0 的客户销售的地产烟占其销 售总量的8 0 ,2 0 的客户销售的地产烟占销售总量的6 0 。描述型模式不能直接用于 预测。 在实际应用中,往往根据模式的实际作用细分为以下6 种: 1 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射到某个给定的类 上。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的 分支往下走,走到树叶就能确定类别。 2 回归模式( 又称预测模式) 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散 的,回归模式的预测值是连续的。如给出某种商品的价格,可以用分类模式判定这种商 品是一类烟还是二类烟;给出某客户的销售情况、工作经验、地理位置,可以用回归模 式判定这个客户的年销售量是在哪个范围内,是在6 0 0 条以下,还是在6 0 0 条到1 2 0 0 条之阳j ,还是在1 2 0 0 条以上。 3 时间序列模式 时问序列模式根据数据随时间变化的趋势来预测将来的值。这里要考虑到时间的特 殊性,像一些周期性的时间定义如日、星期、月、季节、年等,不同的日子如节假日可 能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关 性( 过去的事情对将来有多大的影响力) 等。只有充分考虑时间因素,利用现有数据随时 问变化的系列的值,才能更好地预测将来的值。 4 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。 与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据 哪一( 几) 个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的含义, 如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组 织数据。 5 关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在购买龙 风呈祥卷烟的客户当中,6 0 的客户的月收入在2 0 0 0 元以上。” 6 序列模式 序列模式与关联模式相仿,把数据之间的关联性与时间联系起来。为了发现序列模 式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍 的模式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式 i ;i 数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情 况下进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检 验、校难模式。聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前结 果是未知的,模式的产生不受任何监督。 3 3 数据挖掘的过程 数据挖掘的主要过程如下1 4 1 : 1 、确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后 结果是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而挖掘则带有盲目性, 是不会成功的。 2 、数据准备 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应 用的数据。 2 ) 数据的预处理 研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。 3 ) 数据的转换 将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正 适合挖掘算法的分析模型是数据挖掘成功的关键。 3 、数据挖掘 对所得到的经过转换的数据进行挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于《伪君子》的教学课件
- 2025年企业战略管理实战案例分析题集
- 2025年特岗教师招聘面试初中语文口语表达技巧与模拟试题
- 2025年初中音乐特岗教师招聘考试趋势与备考策略解析
- 2025年汽车维修工初级面试技巧与答案集
- 2025年建筑工程师招聘面试模拟题集及答案手册
- 2025年初中地理特岗教师招聘模拟考试试卷及答案解析
- 2025年初级瑜伽教练技能考核试题集与实操指南
- 2025年英语能力测试模拟题集听力阅读写作等含答案解析
- 2021年小暑介绍主题教育班会某校图文班会模板
- 外观检查员 GRR 分析表-通用版及示例
- 译林版初中九年级英语上下册全册单词默写表
- 铁路基本建设工程设计概预算编制办法
- 期权开户考试考点及试题
- GB/T 31227-2014原子力显微镜测量溅射薄膜表面粗糙度的方法
- 上海交通大学学生生存手册
- 船舶高级消防(新版PPT)
- 人因工程学-ppt课件完整版
- 2010现代领翔nfcg2.0dohc原厂维修手册车身和外部
- 雨棚钢结构施工方案
- Hard coating 简析解析(课堂PPT)
评论
0/150
提交评论