




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文以校园卡交易数据为研究对象,通过数据仓库、o l a p 、数据挖掘技术 的综合运用来挖掘校园卡信息中的有用知识。首先介绍了数据仓库技术、o l a p 技术以及数据挖掘技术的基本原理以及挖掘的核心算法,然后针对南昌大学校园 一卡通的卡内信息进行了初步分析,利用数据仓库有关概念,对所涉及的多个数 据库进行了集成与转换,形成了利于挖掘的综合数据库,并以此建立了数据仓库。 结合理论介绍了作者在一些前沿领域所作的探索性尝试和努力:采用聚类方法中 的k - m e a n s 算法为基础进行聚类分析,讨论了时间序列中的随机序列分析预测 方法,采用自回归一滑动平均模型,初步实现了从校园卡数据中挖掘出对于学校 建设决策等方厦有意义的辅助决策知识,并且实现了基于w e b 的o l a p 的前台 展示,提高了决策知识表达的易理解程度。 本文的工作表明知识挖掘用于校园一卡通的数据分析是有意义的,而且将这 些知识用于学校辅助决策支持的工作是有创新意义的。同时现在的工作也为未来 学校综合信息知识获取的进一步研究、构造完整的分析平台以及实现更高层次的 领导决策支持整体框架打下了坚实基础。 关键词:数据仓库联机分析处理数据挖掘决策支持校园一卡通 a b s t r a c t t h i s 她s i si sf o c u s e do nt h ea n a l y s i so f t h ec a m p u sc a r dc o n s u m ed a t a ,s t u d ya n d c o n s t r u c td t h ec a m p u sc a r dd e c i s i o ns u p p o r ts y s t e mb a s e do nd a t aw a r e h o u s e ,o n l i n e a n a l y s i sp r o c e s sa n dd a t am i n i n gt e c h n i q u e s ,i no r d e rt om i n et h eu s e f u lk n o w l e d g ei n t h ed a t a f i r s t l y ,t h eb a s i ct h e o r yo fd a t aw a r e h o u s e ,o l a p ,d a t am i n i n ga n dt h ek e r n e l a l g o r i t h mo ft h em i n i n ga l ei n t r o d u c e d ,t h e na n a l y s i st h ei n f o r m a t i o no fc a m p u sc a r d s y s t e me l e m e n t a r i l y , i n t e g r a t ea n dt r a n s f e r s e v e r a lc o r r e l a t i v ed a t a b a s ei n t oa s y n t h e t i c a ld a t a b a s es oa st oi n i n cw o r ke x p e d i e n t l y , a f t e r w a r d sw ec o n s t r u c tt h ed a t a w a r e h o u s eu s i n gm i c r o s o f ta n a l y s i ss e r v i c e s k m e a n sa l g o r i t h mi sa d o p t e dt oe a r l y t h ec l u s t e ra n a l y s i s ,a n ds o m eu s e f u lk n o w l e d g ea r ef o u n d , e s p e c i a l l yt h ec l u s t e r a n a l y s i so nt h ec o n s u l _ i l et i m ei sm a d ea n d 西v eb a c kt h er e s u l to fc o n s b l n ei n t e r z o n e ; a n di n t r o d u c et h et i m es e r i e sf o r c a s t i n gu s i n gr a n d o ms e q u e n c ea n a l y s i sa n da r m a m o d e l b ya b o v em e t h o d sd i s c u s s e d ,s o m ea s s i s t a n td e c i s i o nk n o w l e d g ew h i c ha r e v a l u a b l et o 吐l ed e c i s i o no fs c h o o l sc o n s t r u c t i o na n ds oo na r em i n e do u t a n di ti s c a r r i e do u tt h a tt h eo u t c o m eo fo n l i n ea n a l y t i c a lp r o c e s s i n gc a nb el a yo u tb yw e b , w h i c hm a k et h ed i c i s i o nk n o w l e d g ew i l lb eu n d e r s t o o dm o o re a s i l y t h er e s u l to ft h i sp a p e rv a l i d a t et h a tk n o w l e d g ed e t e c tb a s e do nc a m p u sc a r d s y s t e mi ss u i t a b l e ,i ti sc r e a t i v ef o rt h ew o r ko f m i n i n gk n o w l e d g ef r o mc a m p u sc a r d t h ep r e l i m i n a r ye x p e r i m e n tr e s u l t sm a d eag o o df o u n d a t i o no fd e e p e rk n o w l e d g e a c q u i r i n ga n dc o m p l e t ed e c i s i o ns u p p o r ts y s t e md e v e l o p m e n ti nr e a l s e n s ew h e n u n i f i e dd 1 a f f o r mh a sb e e nf o u n d e di nt h ef u t u r e g r a d u a t ec a n d i d a t e :z o uh o n g ( c o m p u t e ra p p l i c a t i o na n dt e c h n o l o g y ) d i r e c t e db y :v i c ep r o f t h e nh a i k e y w o r d s :d a t aw a r e h o u s e ,o l a p ,d a t am i n i n g ,d e c i s i o ns u p p o r t c a m p u sc a r d 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得 盎签苤芝或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:却装 签字日期:叶r 年苦月r 日 学位论文版权使用授权书 本学位论文作者完全了解 壹董苤壁 有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权 壹董苤壁 可班将学位论文的全部或部分内容编入有关数据 , 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:刍奠 导师签名: 问缸 签字日期:撕s 年月s 日签字日期:w 年6 月f v 扫 学位论文作者毕业后去向 工作单位: 通讯地址: 电话: 邮编: 校园一卡通决策支持系统的研究与实现 第一章绪论 1 。1 决策支持系统概念的提出 决策支持系统是以信息技术为手段,应用决策科学及有关学科的理论和方 法,针对某一类型的半结构化和非结构化的决策问题,通过提供背景材料、协 助明确问题、修改完善模型、列举可能方案、进行分析比较等方式,为管理者 做出正确决策提供帮助的入机交互式的信息系统。 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ) 的概念是2 0 世纪7 0 年代提出的, 并且在8 0 年代得到发展。它的产生基于以下原因:( 1 ) 传统的m i s 没有给企业 带来巨大的效益,人在管理中的积极作用要得到发挥;( 2 ) 人们对信息处理规律 认识提高,面对不断变化的环境需求,要求更高层次的系统来直接支持决策: ( 3 ) 计算机应用技术的发展为d s s 提供了技术基础。决策支持系统,是以管理科 学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术 为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。 该系统能够为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目 标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种 方案进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确决策 提供必要的支持。【2 8 】 数据仓库( d a t aw a r e h o u s e ) 和联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 是 2 0 世纪9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。在美国,数据仓 库己经成为仅次于i n t e r n e t 之后的又一技术热点。数据仓库是市场激烈竞争的产 物,它的目标是达到有效的决策支持。随着数据仓库的发展,o l a p 也得到了 迅猛的发展。数据仓库侧重于存储和管理面向决策主体的数据;而o l a p 则侧 重于数据仓库中的数据分析,并将其转换成辅助决策信息。o l a p 的一个重要 特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互 补充的关系。到了2 0 世纪9 0 年代中期,从人工智能、机器学习等技术中发展 出数据挖掘( d a t am i n i n g ) 技术。数据挖掘是从数据库、数据仓库中挖掘有用的 知识,其知识的形式有产生式规则、决策树、数据集、公式等,它对知识的推 校园一卡通决策支持系统的研究与实现 理即形成智能模型,是以定性分析方式辅助决策的。 以模型库为主体的决策支持系统己经发展了1 0 多年,它对计算机的辅助决 策起了很大的推动作用。数据仓库和0 l a p 新技术为决策支持系统开辟了新途 径。数据仓库与o l a p 都是数据驱动的。这些新的技术和传统的模型库对决策 的支持是两种不同的形式,它们可以相互补充。在o l a p 中加入模型库,将会 极大地提高0 l a p 的分析能力。把数据库、o l a p 、数据挖掘、模型库等结合 起来形成综合决策支持系统,是更高级形式的决策支持系统。其中数据仓库能 够实现对决策主题数据的存储和综合,o l a p 实现多维数据分析,数据挖掘用 以挖掘数据库和数据仓库中的知识,模型库实现多个广义模型的组合辅助决策, 专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统,将相互 补充、相互依赖发挥各自的辅助决策优势,实现更有效的辅助决策。 1 。2 论文研究背景 在作者的科研和硕士学位论文撰写阶段,参与了校园一卡通建设实施项目。 目前校园一卡通没有对消费数据有效的利用起来,由于新校区仍在建设之中, 将来的建设规划都只是以人数来作为一个大概的估算基准,但由于一卡通用户 行为的不确定性,这样可能会导致些像食堂,图书馆这样的单位建设规模偏 大,造成浪费,或者是偏小而无法满足需求。当然,类似的问题还有很多。如 果建立一个一卡通的决策支持系统,对校园一卡通系统中累积起来的消费数据 进行统计分析。以得到一些相应的分析结果,就可以对所有一卡通用户的使用 卡进行消费等活动的整体状况,规律等有一个量化的概念,对某些具体的消费 行为也可以有一个较精准的判断,从而可以在今后的园区建设、信息管理、领 导决策等等方面有一个可参照的标准和方便的信息参考。 因此,在论文中,我将以校园卡通决策支持系统作为研究背景,以系统 研究与实现的具体过程为线索,依次介绍数据仓库、联机分析处理和数据挖掘 技术的理论发展及其它们在系统中的实际应用情况。最后在此基础上,从全局 的角度讨论这些技术在决策支持系统中的整合方法。 2 校园一卡通决策支持系统的研究与实现 1 2 1 校园卡信息分析的问题 在校园卡的日常应用过程中会产生很多数据,这些信息包含着校园卡中许 多不为人知的特点,由于校园卡本身是由人的个体使用的,通过对校园卡数据 的挖掘可以得到在校学生日常消费的习惯等信息,这对于校园建设,辅助教学 等都具有重要作用。对校园卡涉及的数据进行挖掘主要着重于以下几点: ( 1 ) 用户消费人数峰值预测 在分析校园卡用户消费时,我们可以对用户进行整理,以消费场所为 方向,得到一些用户的分类信息。这样可以为相关经营单位的生产经营提 供一个比较明显的可参照数据,有利于经营中的效率提高,做到既不浪费 资源,也不会出现供不应求的情况。 ( 2 ) 用户分类 通过对校园卡交易数据的分析,我们希望得到用户消费能力的分析结果 并进行预侧。我们可以将用户分为高消费用户,普通消费用户和偏低消费 用户,从而可以通过这些数据为助学贷款发放的审查等工作进行辅助决策。 ( 3 ) 用户行为分析 通过已有的资信调查资料分析用户使用校园卡的过程中的行为,希望得 到客户属性资料与消费的各种关系。将用户在消费场所、消费日期、消费 金额上进行聚类分析,并利用结果结合用户资料对在校学生的相关家庭情 况进行分析。在未来极有可能建立统一认证平台的情况下,实现这样的决 策功能可以发挥更大作用,如果通过对在校学生的入学成绩、在校学习期 间的综合表现等数据进行分析,就可以对学校各方面的教学、教辚工作的 改进和完善起到积极作用。 利用数据挖掘技术对校园卡的数据进行分析,是非常合适的。首先,校园 一卡通本身拥有大量的历史数据,仅老校区卡一年的交易数据就有6 0 0 万条, 这使我们通过对海量数据的分析挖掘,得到很好的分析结果充满信心。其次, 数据挖掘本身所包括的:概括( s u m m a r i z a t i o n ) 、分类( c l a s s i f i c a t i o n ) 、聚类 ( c l u s t e r i n g ) 、关联规则( a s s o c i a f i o nr u l e ) ,评估( e s t i m a t i o n ) 、预测( p r e d i c t i o n ) 等 技术,对于解决上面提到的几个问题,有非常可靠的理论支持和实现技术。最 后,数据挖掘作为计算机领域的前沿方向,有广阔的前景。本文的工作是探索 校园一卡通决策支持系统的研究与实现 性的,期望为进一步构造完整的决策支持系统和深入相关技术研究提供方向性 的引导。 t - 2 1 1 2 2 国内外己有的系统、技术 我国自前些年兴起电子卡在各个领域的相关业务应用之后,迅速地在全国 各个金融机构,行政事业单位等部门开始普及,其中最主要的应用就是在金融 消费上,除了银行等金融部门外,许多单位在饮食,身份认证上也已经太规模 应用电子卡。同样目前对卡类相关数据的研究都集中在金融领域中,直至今日 仍没有有关校园卡数据分析方面的研究,事实上对这类数据的研究对未来数字 化校园的建设以及推动学校往更科学的管理方向上发展都是有相当意义的。 国外在金融卡领域方面已有相当多的研究,如d a t a e n g i n e 是德国管理智能 技术( m i t ) 公司从1 9 9 2 年就成功研究和开发了一个进行智能数据分析和数据挖 掘的组合软件平台。在银行方面开发有客户分类器。银行己不再是只有一个客 户集团和单一的服务性产品,而是对不同客户集团的需求,实施有针对性的服 务。由此银行和客户间的信任关系,己成为金融事务中的决策因素,建立和培 养这种关系己成为银行的重要计划,因此用正确的银行产品和服务来满足客户 的需求更加重要。进而需要根据每个客户的个体特征或属性有针对性地提供服 务。此系统,通过对一个大型银行客户数据库中的数据进行分类来识别客户群。 数据来源于含有约1 2 0 0 0 0 个客户记录的银行数据库。从中随机抽取有代表性的 3 0 0 个样本记录。样本数据包含所有的银行客户系统能访问的属性字段,即: 年龄、性别、婚姻状况、子女数量、收入、财产、其它储蓄活动信息和银行对 该客户的利润边界信息。选择与分类相关的特性,得出以下的客户特征:年龄, 月收入,在本银行储蓄的财产,在本银行贷出的款额,本行对该客户的年利润 边界,得出各种类型客户供分析使用。 而校园卡数据分析在某些方面例如食堂、小卖部等经营单位的消费数据等 与银行卡等有部分相似之处,而对于关于在校学生的其他相关学习数据等则是 校园卡数据分析的不同之处。 校园一卡通决策支持系统的研究与实现 1 2 3 存在的问题 国内还没有相应的分析系统供校园卡客户分析使用,特别是动态的根据实 际情况分析的系统更少,进行校园卡信息分析的主要有以下困难: ( 1 ) 数据庞大:如前所述新老校区校园卡仅仅一年的交易数据就有8 0 0 万条 记录以上,文件数据量超过十g b 的大小,如此庞大的数据对挖掘算法的 复杂度、计算机性能都要求很高。 ( 2 ) 数据不完整:由于校园卡的服务商的更换以及多个小的一卡通网络的同 时运行,业务及其规范不断发生变化,使积累数据前后不一致,得到的数 据有的并不完整,进行准确的分析存在困难。尤其是校园卡的数据极其零 碎,为分析工作增加了难度。 ( 3 ) 数据选择和转换:我们需要将一些不同的数据库中的属性数据结合起来, 形成新的数据集合,以及将这些属性进行各种转换,如归一化、求和等。 1 3 本文的工作及意义 本文研究工作的目的是以校园卡数据为分析对象,采用已有数据挖掘算法 进行适应性研究开发,并为今后的研究工作打下坚实的基础,我们将在以下几 方面开展具体工作: ( 1 ) 对校园卡相关数据进行集成,并进行必要的顸处理,形成用于挖掘的数 据仓库系统。 y 且当y 不包含于x 中时,x 必定包含有码,则r b c n f 。由b c n f 的定义,可以得到以下结论: 所有非主属性对码都是完个函数依赖的。 所有主属性对每一个不包含它的码也是完全函数依赖的。 没有任何属性完全依赖于非码的任何一组属性。 在b c n f 范式的基础上,消除非平凡且非函数的多值依赖就可以进一步得 到第四范式。定义:关系模式r e l n f ,若y 不包含于x ,x 含有码且x 号专y 是非平凡的多值依赖,则称r 4 n f 。 当然还有其它更高形式的规范化,现在许多数据库管理系统的设计层次都 达到或高于第四范式,这里需要强调指出的是第四范式。因为第四范式的定义 其实正说明了数据库和数据仓库之间的差别。从星型模型到雪花模型的转变就 是针对第四范式。在星型模型中,关系不必满足第四范式,因此数据中将会存 在多值依赖。当从星型模型向雪花模型转变以后,消除或者减少了多值依赖, 因此也减小了数据的冗余,但数据关系也由此而变得复杂。 2 3 4 物理模型设计 物理模型足指数据在数据仓库中的存放形式和数据的组织。目前的数据仓 库都是建立在关系型数据库的基础上,最终的数据存放是由数据库系统进行管 理的,因此物理模型设计主要考虑构建物理数据库,包括数据的存储表结构, 索引策略,数据的存放位置和存储分配。当然一般只有在涉及到数据分割等情 况才进行一些数据存放和存储分配的处理。 在实际系统的设计中,我们使用了m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 和 a n a l y s i ss e r v i c e s l 2 8 1 2 9 3 0 来作为数据库和数据仓库的管理系统。根据设计要 求,针对用户定义的具体应用,建立了如下几类数据存储结构: 系统信息表 这些表是用于维护,运行及编程所需要的所有元数据,它们是关于数 据仓库的数据库,又称为元数据表。包括系统用户表,数据备份和转储表 和系统数据字典。 核心事实表 一 堡旦二望盗丝塞塑墨堕塑里壅兰壅翌 数据仓库的事实表包括:消费流水数据表,用户信息表。这二个表其 实也就代表了数据仓库中的二个不同的分析主题。 维表 维表包含由用户定义的各种描述信息( 时间维除外) 。这些信息一般是根 据管理者的需求来确定的,并且同日常数据库操作紧密联系。 转换对照表 包括从数据源至数据仓库转换过程中的用户对照表、p o s 机对照表等。它 们的目的是为了解决数据在集成综合过程中由于原来不问数据库中对相同意义 的项的不同定义方法所造成的不一致性。 2 4 数据导入 在完成了数据仓库的设计工作以后,就可以着手进行数据仓库的数据导入。 在本章2 1 节中已经指出,数据仓库中存放的都是历史数据,这些数据主要来 自o l t p 数据库。因此,在进行决策支持之前,必须把外部数据完整无误地送 入数据仓库。 我们指出过,数据仓库中的数据必须是经过集成的。数据是从原有的分散 的数据库系统中抽出来的。这些数据可以来自不同的渠道,其结构是多样化的。 将这些数据进行统一与综合,就成为在数据导入过程中所要完成的任务。 数据导入的工作主要包括以下四个步骤: 数据检验( v e r i f i c a t i o n l “检验”主要是用来确保导入数据仓痒的数据在规定范围内是否是合 法和准确的。因为这些数据以后会成为决策支持的重要依据,因此数据检 验的这一步的重要性是不言而喻的。在实际的系统建设中,最简单有效的 数据检验主要包括: 1 ) 确保在必要的地方使用了n o t n u l l 属性 2 ) 确保主码的唯一性 数据抽取( e x t r a c t i o n ) “抽取”这一操作只在某些时间点上进行。这些时间点是经过准确定 义的,并与其他资源里进行的抽取操作的时间点协调。“抽取”就是读取并 1 6 立堑主望垫苎奎堡至竺塑堑茎皇壅翌 过滤数据,这些数据将进入数据仓库或暂时存放在中介数据文件里,但最 终还是会被导入数据仓库。 洲9 t ( s c r u b b i n g ) “净化”是指对从不同渠道收集来的数据进行加工,使它们可以被数据 仓库接纳。常见的“净化”操作包括对数据进行的通用化、格式化和用户 化等等。 数据转换( t r a n s f o r m a t i o n ) “转化”操作包括把一个数据记录分割成多个相关的条目,以及把多 个条目组合成一个新的记录;对数据记录进行查找和转化,使数据适合于 显示或比较:以及根据已有数据计算新数据。转化工作的附加职能还包括 把前面处理过的数据载入到数据仓库中。 2 5 本章小结 本章介绍了数据仓库的相关理论以及实际应用上的一些问题和方法,在后 面第五章的系统构建和实验中将介绍更具体的仓库建立过程和参数选择。 校匿一卡透决策支持系统的研究与实现 第三章联机分析处理 在前面,我们论述了数据仓库的基础理论以及数据仓库的整体设计和系统 拯体框架结构,当然,数据仓库只是进行分析和决策的基础,在数据仓库之下 还必须要有强有力的工具来进行分析和决策。联机分析处理f o l a po n l h 口e a n a l , y f i , i c a lp r o c e s s i n g ) 和数据挖掘就是这样的工具。木章将讨论与数据仓库密切 相关的o l a p 技术,以及在设计开发校园一卡通决策支持系统中所实际采用的 联机分析技术。后面将重点详细讨论数据挖掘技术。 联机分析处理技术的出现尽管只有短短几年,但是已经受到相当广泛的重 视,其发展的速度可谓一日千里,以目前的情况来看,o l a p 技术已经逐步趋 向成熟,已经有许多比较完善的o l a p 分析产品可供选择。而且用户也可以依 据应用单位自身对数据分析的一些特定要求来进行二次开发。在诸多产品中比 较有代表性的是m i c r o s o f t 公司的o l a pa n a l y s i l ss e r v i c e s 。 本章将先给出o l a p 技术中所涉及到的各种概念,然后在此纂础上,介绍 使用m i c r o s o f ta n a l y s i ss e r v i c e s 开发的一卡通数据联机分析程序的方法。 3 1o l a p 中的基本概念【3 1 】d 2 3 1 1 什么是o l a p o l a p ( 联机分析处理) 是针对特定问题的联机数据访问和分析。通过对信息 ( 这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的 “维) 的很多种可能的不同观察形式,进行快速、稳定、一致和交互性的存取, 并允许管理决策人员对数据进行深入的观察。 联机分析处理一般应该具有以下的功能: 给出数据仓库中数据豹多维的逻辑视凰。视图独立于数据存贮的具体 形式。 交互式查询和对数据的分析。交互式杏询通常应该包括上寻( r o l l u p ) 和下寻( d r i l l d o w n ) 分析方式。 校园一卡通决策支持系统的研究与实现 检索并显示多维表格中的数据,并且应能够方便灵活地变换基轴,以 便商业用户从不同角度来分析数据,不仅如此,在分析一个侧轴的数 据时还应该可以通过另一个侧面来检验。 可以比较快速地响应查询,不让分析过程中断。 3 1 2 多维数据结构 在联机分析处理系统中,数据是以多维的结构进行组织的。这种多维结构 也称作数据立方体结构。如图3 1 所示,一个数据立方体最基本的单位是一个 数据单元,这种数据单元也被称为度量( m e a s u r e ) ,它代表了数据的实际念义, 是以后用来查询分析的时候,所用到的实际数值。 图3 1 数据立方体 3 1 3 数据立方体结构的操作 切片 在多维数据的各个维上,分别选定某个对应维成员的操作成为切片操 作,即在多维数组( 维1 ,维2 ,维n ,度量) 中确定每个维的维成员。所 得到的多维数组的子集( 维成员l ,维成员2 ,维成员n ,度量) 称为是 对多维数组的一个切片。当某个维取全体时,即取r o o t 时,该维所对应维 成员变量称为a l l ,切片操作的例子参见图3 2 。 立箜堑二主望垫丝塞! 童! 塑望堑壅兰壅翌 i | 盼薹阻 图3 2 对数据立方体的切片与坐标旋转 坐标旋转 在多维数据中,改变某个切片中的维的排列次序,称为坐标旋转。改变 时间维和地区维的次序,就使该切片进行了相应的坐标旋转。 上寻( r a l l u p ) 与下寻( d r i l l d 0 、n ) 操作 上寻和下寻操作是o l a p 技术中特有的一列操作。对于一个数据切片, 将某个维中的成员变量从等级结构中的低一级变为其上一级父亲节点的操 作称为上寻操作,反之从父亲节点变为其下一级中所有的予节点的操作称 为下寻操作。 3 1 4 数据立方体结构的存储方式 在o l a p 技术中,数据立方体的存储一般有三种方式: m o l a p ( 多维o l a p ) :采取了对查询性能和存储空间进行优化的多维结 构方式来存储立方体结构中的数据和集合。在m o l a p 模式下,n u l l 值不被存储,并且由于、执行了存储空间的优化,数据在存储的时候都 进行压缩。 r o l a p ( 关系o l a p ) :使用关系数据库中的表格来存储数据和集合。这 种模式在立方体数据结构的存储处理中,使用了标准的关系型技术。 h o l a p ( 混合o l a p ) :在进行数据结构存储时采用了m o l a p 和r o l a p 的组合方式。 2 0 校园一卡通决策支持系统的研究与实现 3 2o l a p 应用系统的设计f 3 3 】 在设计开发校园卡决策支持系统的实际过程中,我们使用了m i c r o s o f t 的 a n a l y s i ss e r v i c e s 技术。该技术采用了典型的三层构架,系统层次依次分别为: o l a ps e r v e r ,p i v o tt a b l e 和c l i e n t 下面首先介绍o l a ps e r v e r 端,着重介绍数 据立方体的设计,然后分析中f 司层p i v o tt a b l e ,最后介绍在前台应用程序开发 过程中所涉及的些关键技术。包括决策支持对象( d e c i s i o ns u p p o r to b j e c t , d s o ) ,多维查询语言( m d x ) 和数据立方体的操作方法。 3 2 1 数据立方体的设计 通过对一卡通数据仓库和决策支持应用的分析,我们总共设计了三个数据 立方体:消费数据,用户数据和库存数据。考虑到在其它章节中已有叙述,这 里仅简单地给出消费数据立方体的结构。其它两个数据立方体的结构也基本相 似。 在消费数据立方体中,采用了星型模型。度量分别为:消费数量,消费单 价和消费金额。( 度量是种特殊的维) 。 3 2 2 透视表服务( p i v o tt a b l es e r v i c e ) 透视表服务( p i v o t t a b l es e r v i c e ) 是三层构架中的中间层,它在o l a p 环境下 扮演双重角色。首先,透视表服务是一个o l ed b 的提供者,他支持在o l ed b 4 x 中的o l ed bf o ro l a p 扩展说明这使得客户机应用程序能够与一个o l a p 服务器通信。在这种情况下,透视表服务充当了o l a p 服务器的一个客户。 透视表服务所扮演的第二个角色是作为一个独立的在线处理o l a p 服务 器。在这种角色中,透视表服务能够提供在线和本地数据分析,并能提供对 o l a p 数据的访问。用户可以定义并将客户机器中的本地数据立方体结构填充 在一个单一的立方体结构分区中。 为了将一个对象模型映射为一个多维模型,并使用此模型所描述的数据, m i c r o s o i f t 发布了a c t i v e xd a t ao b l e c t sm u l t i d i m e n s i o n a l ( a d om d ) 对象模型 a d o m y ) 包含的对象有:c a t a l o g ( 目录) ,c u b e d e f ( 、j - 方体定义) ,d i m e n s i o n ( 维) , 校园一卡通决策支持系统的研究与实现 h i e r a r c h y ( ) ,l e v e r ( 级) ,c e l l s e t ( 数据元集) ,a x i s ( 坐标轴) ,p o s i t i o n ( _ & 标位置) ,m e m b e r ( 成员) 。 鉴于a d o 模型一般适合于使用表格型的数据格式,a d om d 模型也被设 计成通过记录集对象c e l l s e t s 来检索多维数据的风格。当然,在实际设计中可 以使用两种模型中的任何一种来开发应用程序。 3 2 3 客户端的决策支持对象( d e c i s i o ns u p p o r to b j e c t , d s o ) 为了在客户端对o l a p 服务器进行访问和控制,我使用了决策支持对象 ( d s od e c i s i o ns u p p o r to b j e c t ) 。从c o m 模式的角度来考虑,d e c i s i o ns u p p o r t o b j e c t 模型与d a o ,o l ed b ,a d o 或者其他任何c o m 编程模型没有什么不 同。虽然它包含一套不同于其他模型的对象集和集合,但它包含的集合,对象, 属性以及方法依然是在通用的c o m 模型柩架内。 图3 - 3 显示了d s o 的高级别视图。顶端节点是o l a p 服务器。在服务器对 象之下是一个o l a p 数据库,它由实际存在的立方体结构组成。立方体结构包 含一个或多个部分的数据集合。在d s o 模型中,名为m d s t o r e s 的对象都包含 有一个容器集合,即m d s t o r e s 集合。在这些容器集合中保存有层次表中的每一 个对象的索引,并允许在该集合中添加( a d d n e w ) 和删除( r e m o v e ) 对象成员,也 可以通过它们来定位( 丘n d ) 任何指定的成员。 服务器对象中的m d s t o r e s 集合是数据库对象c i s d a t a b a s e 。数据库对象也 包含一个m d s t o r e s 集合,这些m d s t o r e s 集合中包含数据立方体结构对象 c i s d a t a c u b e 。立方体结构对象的m d s t o r e s 集合包含c l s p a r t i t i o n 类型的对象, 部分m d s t o r e s 集合中包含c i s a g g r e g a t i o n 对象m d s t o r e s 集合本身有个名为 c o n t a i n e dc i a s s t y p e 的属性,用于表明在该集合中包含的对象的类型。如果该 属性是c i s d a t a b a s e ,那么m d s t o r e s 集合中所有的对象成员就是c 1 s d a t a b a s e 。 d s 0 支持o l a p 对象的持久性描述。因此,它需要为服务器,数据库,和 立方体结构等各个持久性对象存储全部的属性和集合,以便在以后可以使用它 们。 校园一卡通决策支持系统的研究与实现 3 2 4 多维表达式 图3 3 决策支持对象高级别视图 多维表达式( m d x ) 是由o l ed b 为o l a p 定义的种语言,用来对处理多 维数据的访问。该语言由类似于t r a n s a c t - s q l 的语法和语句组成,并且特意采 用了与立方体结构模型有关的多维术语。 3 2 4 1 标准m d x 语句 针对多维数据的查询以m d x 语句的形式来表达的。查询结果作为一个数据 集合( d a t a s e t s ) 被返回。在a d om d 模型中,d a t a s e t s 又被称为数据元集 ( c e l l s e t s ) 。 通过m d x 语句,前台应用程序可以很方便地访问o l a ps e r v e r 。一个标准 的m d x 语句如下所示: s e l e c t 【, 】 f r o m 其v : 被定义为: i n o te m p t y 【 o n 为轴规范标准中的维属性语句,通过它可以访问维中 的属性。 的语法是: 校园一卡通决策支持系统的研究与实现 【d i m e n s i o n p r o p e r t i e s , 】 可是下面属性中的任何一种: 袁3 - 1 属性列表 属性语法 维i d 玎) 维关键字 k e y 维名称 n a m e 级 ,i d 级关键字 k e y 级名称 n ,诬 成员属性 q a x i s _ n m n e 可从以下内容中任选: c o l u m n s i r o w s p a g e s i s e c t i o n s i c h a p t e r s t a x i s ( i n d e x ) 3 。2 4 2 数据立方体操作语法 下面仍然以消费数据立方体为实例,介绍使用m d x 语句操作数据立方体的 具体方法。 对一个维来说,如果a l l 级存在的话,其默认成员应该是a h 级的l 成员。 如果维中不存在a l l 级,那么维的第- - 级( l e v e r1 ) 中的一些成员将被选傲默认级 鄹。为了产生数据切片,在更多的情况b ,往往需要指定维中的特殊成员。在 m d x 查询语法中,可以使用w h e r e 语句来指定切片内容。具体的m d x 语句 为: s e l e c t 【 f r o m w h e r e 如下所示的代码,是一个简单的切片查询语句: s e k c t 2 4 塑生二皇垦燮塑墨篓塑至壅皇塞堡 ( m 。8 s u r e s s t o r es a l e s , m e a s u r e s s a l e sc o u n t , m e a s u r e s s a l e s a v e r a g e 】o nc o l u m n s f r o ms a l e s w h e r e ( c u s t o m e r a l lc u s t o m e r , s t o r el o c a t i o n ls t o r e l o c a t i o n , t i m e 2 0 0 3 1 q 马, 【t y p e s j a nt y p e s ,【q u a u 明【舢lq u a l i t y ) 以上语句的执行结果同前面所得到的数值结果是相同的。不同之处仅仅在 于该查询语句特别指定了切片内容。 3 3 本章小结 在本章中,介绍了联机分析处理( o l a p ) 技术。不仅分析了它的理论基础。 同时也结合具体实例,给出了在实际应用中开发o l a f 的技术方法。第五章中 将结合具体开发介绍整体系统中的o l a fw e b 查询部件的实现。 校园一卡通决簧支持系统的研究与实现 第四章数据挖掘简介 数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持 活动扮演着越来越重要的角色。本章将介绍数据挖掘( d a t am i 撕n g ) 与数据库知 识发现( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e s ) 的基本知识,以及从大量有噪声、 不完整、甚至是不一致数据集合中,挖掘出有意义的模式知识所涉及的概念与 技术方法。 本章将从数据管理技术演化角度,介绍数据挖掘的由来以及数据挖掘的作 用和意义。同时还将介绍数据挖掘系统的结构、数据挖掘所获得的知识种类, 以及数据挖掘系统的分类。最后还简要介绍了当前数据挖掘领域尚存在的些 热点问题。 3 4 - 3 7 】 4 1 数据挖掘技术产生的背景 4 1 1 数据丰富与知识匮乏 计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化 与影响。在支配人类社会三大要素( 能源、材料和信息) 中,信息愈来愈显示出 其重要性和支配力,它将人类社会由工业化时代推向信息化时代。据估计,1 9 9 3 年全球数据存贮容量约为二千t b ,到2 0 0 0 年增加到三百万t b ,面对这极度膨 胀的数据信息量,人们受至g “信息爆炸”、“淹信息空阊”( i n f o r m a t i o nc h a o t i c s p a c e ) 和“数据过剩”fd a t ag l u t ) 的巨大压力。 然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察 和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各 种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据 到知识到智慧,需要经过分析加工处理精炼的过程。数据是原材料,它只是描 述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析 找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出 了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的 校园一卡通决策支持系统的研究与实现 联系,也还不能做为判断、决策和行动的依据。对信息进行再加工,即进行更 深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信 息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息 中理解其模式,即形成知识。在大量知识积累基础上,总结出原理和法则,就 形成所谓智慧( w i s d o m ) 。事实上,一部人类文明发展史,就是在各种活动中, 知识的创造、交流,再创造不断积累的螺旋式上升的历史。 图4 1 人类各项活动的相关数据与知识之间的关系描述 4 1 2 从数据到知识 而今置身市场经济且面向全球性剧烈竞争的环境下,如何对数据与信息快 速有效地进行分析加工提炼以获取所需知识,就成为计算机及信息技术领域的 重要研究课题。 随着数据量的增长,多数据源所带来的各种数据格式不相容性,为了便于 获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起, 这就是形成了数据仓库。数据仓库不同于管理日常工作数据的数据库,它是为 了便于分析针对特定主题( s u b j e c t - o r i e n t e d ) 的集成化的、时变的( t m e v a r i a n t ) 即 提供存贮5 1 0 年或更长时间的数据,这些数据一旦存入就不再发生变化。数据 仓库的出现,为更深入对数据进行分析提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年煤矿安全培训考试试题及答案
- 中医外科考试试题及答案
- 2025年劳务现场安全员考试题库及答案
- 2025年航空器材维修员职业资格认证考试试题及答案解析
- 2026版:中国新能源产业未来趋势与角色定位深度分析报告
- 高校培训合同模板(3篇)
- 做月嫂面试题库及答案
- 高速公路PPP施工合同(3篇)
- 高楼搬运合同模板(3篇)
- 高空施工合同协议书文本(3篇)
- 骨关节系统影像诊断
- RB/T 040-2020病原微生物实验室生物安全风险管理指南
- GB/T 706-2016热轧型钢
- GB/T 11021-2007电气绝缘耐热性分级
- 液化气站送气工安全职责
- 华中8型数控系统设备连接与参数配置
- 07FD02防空地下室电气设备安装图集
- 江苏省教育科学规划课题开题报告
- 闽教版(2020修订版)信息技术-四年级上册教学计划
- DB32-T 3434-2018人民防空核生化监测中心工程设计规范-(高清现行)
- 矿山机械公司生产制造质量管理方案(参考)
评论
0/150
提交评论