(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf_第1页
(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf_第2页
(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf_第3页
(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf_第4页
(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf_第5页
已阅读5页,还剩105页未读 继续免费阅读

(管理科学与工程专业论文)应用于电子商务网站的数据仓库构建技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用于电子商务网站的数据仓库构建技术研究 摘要 数据仓库和电子商务技术是近年来信息技术领域中成 长最快的两个部分。电子商务利用以i n t e r n e t 为核心的信 息技术进行商务活动和企业资源管理,电子商务网站产生 的大量原始数据可以通过数据仓库技术来进行整理和加 工,并在此基础上对客户行为进行分析和预测,改善网站 结构,为客户提供个性化服务。同时,充分利用网站数据 信息,可以久大降低企业的运营成本。因此,构造数据仓 库为电子商务网站提供决策支持就成为一种必然趋势。 本文详刍h 介绍了应用于电子商务网站数据仓蹲毒模 型的构建、o 。a p 分析及数据挖掘技术。论文主要有以下几 个部分组成: 1 详细介绍了数据仓库的基本理论,包括数据仓库的 概念、基本特征和发展现状,以及数据质量和元数据的概 念。并介绍- = f 7 基于数据仓库的联机分析处理( o l a p ) 和数 据挖掘的基不理论,为本文的应用设计和实现提供理论基 础。 2 分析电子商务网站的应用需求,结合电子商务环境 的特点,探讨电子商务环境中的数据仓库维度模型的设计, 并根据维度模型,进一步结合电子商务网站的特点完成了 应用于电子商务网站的数据仓库的物理设计,包括数椐存 储、索引策略等。 3 基于本文设计的电子商务网站数据仓库结构,设计 开发了电子商务网站的t ) l a p 及数据挖掘系统。包括开发平 台及其环境配置的介绍,和o l a p 系统的设计与实现;以及 应用于电子商务环境的数据挖掘方法和相关应用。该系统 有效利用数据仓库中的数据,挖掘出有用信息并为网站决 策者提供决策支持,体砂。i 了数据仓库的应用价值。 关键字:数据仓库,电子二商务, o l a p ,维度模型,数 据挖掘 aw e b h ou s ed e s i n n i n gt e c h n o l o g y r o r e c o m 【e r c e a bs t r a c t d a t aw a r e h o u s i n ga n de c o m m e r c ea r et w oo ft h e m o s t r a p i d l ye x p a n d i n g f i e l d si nr e c e n ti n f o r m a t i o n t e c h n o l o g i e s ad a t aw a r e h o u s ei sa ni n t e g r a t e dd a t ar e p o s i t o r y c o n t a i n i n gh i s t o r i c a l d a t ao fa c o r p o r a t i o n f o r s u p p o r t i n g d e c i s i o n m a k i n gp r o c e s s e s ad a t aw a r e h o u s ep r o v i d e sab a s i s f o ro n l i n ea n a l y t i cp r o c e s s i n ga n dd a t am i n i n gf o ri m p r o v i n g b u s i n e s s i n t e ! l i g e n c eb yt u r n i n gd a t ai n t oi n f o r m a t i o na n d k n o w l e d g e s i n c et e c h n o l o g i e s f o re c o m m e r c ea r e b e i n g r a p i d l yd e v e l o p e da n de - b u s i n e s s e sa r er a p i d l ye x p a n d i n g , a n a l y z i n ge lu s i n e s se n v i r o n m e n t su s i n gd a t aw a r e h o u s i n g t e c h li o l o g yc o u l de n h a n c es i g n i f i c a n tb u s i n e s si n t e l l i g e n c e a w e l l d e s i g n e dd a t aw a r e h o u s ew o u l df e e db u s i n e s sw i t ht h e r i g h ti n f o n n a , i o na tt h er i g h tt i m ei no r d e rt om a k et h er i g h t d e c i s i o n si ne - c o m m e r c ee n v i r o n m e n t s a l s ot h i st h e s i sc o v e r saw i d e r a n g eo ff i e l d ,i tf o c u s o nd e s i g n i n gad a t aw a r e h o u s ei ne - c o m m e r c ee n v i r o n m e n t h i g h l i g h t so f t h et h e s i si n c l u d e 1 i n t r o d u c et h eb a s i c t h e o r i e so ft h ed a t a w a r e h o u s e ,i n c l u d i n gt h ec o n c e p t ,e s s e n t i a lf e a t u r e ,c u r r e n t e v o l u t i o no ft h e d a t aw a r e h o u s ea n dt h e d e v e l o p m e n t a p p r o a c ho ft h ew a r e h o u s ei nd e t a i l i n t r o d u c ed a t aq u a l i t y a n d c o n c e p to f m e t a d a t ai nt h ed a t aw a r e h o u s e e s p e c i a l l y 2 t h r o u g ht h ed i s c u s s i o no fa n a l y z i n gt h ed e m a n d o ft 1 1 e e _ c o m m e r c ew e b si t e ,c o m b i n et h e e h a r a c t e r i s t i co f e - c o m m e r c ee n v i r o n m e n t ,d i s c u s sd i m e n s i o nm o d e l so ft h e d a t aw a r e h o u s ei n e c 0 1 n m e r c ee n v i r o n m e n t a c c o r d i n gt o d i m e n s i o nm o d e l s ,h a v ed is c u s s e di nd e t a i lt h a tp h y s i c so f t h i s d a t aw a r e h o u s ei s d e s i g r l e d ,i n c l u d i n gd a t as t o r i n g ,i n d e x t a c t i c s ,e t c 3 h a v er e c o m in e n d e do n l i n e a n a l y s i sp r o c e s s i n g ( o l a p ) t e c h n o l o g y n o to n l yh a sa n a l y z e dt h et h e o r e t i c a l f o u n d a t i o nb u ta l s oc o m b i n et h ec o n c r e t ei n s t a n c ea tt h es 锄e t i m e ,g i v ea n dd e v e l o pt h et e c h n o l o g i c a lm e t h o do fo l a pi n p r a c t i c a la p p l i c a t i o n 4 i n t r o d u c ea l l r e s p e c t si n v o l v e do fd a t am i n i n g t e c h n o l o g y i n c l u d i n g t h e b a c k g r o u n d ,t h ed e f i n i t i o n , t e c h n o l o g yc l a s s i f y i n ga l l dd e t a i l e dd e v e l o p m e n tp r o c e s s i n g e t c f i n a l l y , i ti sd i s c u s s e dt h a tt h ed a t am i n i n gm e t h o da n d r e l e v a n t a p p l i c a t i o nw h i c h a p p l i e d t oe c o m m e r c e e n v i r o n m e n t ,a n dd e s i g n i n gt h ed a t am i n i n gm o d u l ea p p l y i n g i nt h ee c o l n n q e r c ew e b s i t e t h r o u g ht h em o d u l e ,c a ne x c a v a t e o u ts o m eu s e f u l k n o w l e d g ea n do f f e rd e c i s i o ns u p p o r tt o w e b si r e sd e c is i o nm a k e rf r o mt h ed a t aw a r e h o u s e c h e n c h e n g ( m a n a g e r m e n te n g e r n e e r i n g ) s u p e r v i s e db yg u od a n i n g k e yw o r d :d a t aw a r e h o u s e ,e - b u s i n e s s ,o l a p , d i m e n s i o n a l m o d e l ,d a t a1 1 f i n i n g 附件一: 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本 人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用 的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的 内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律 结果由本人承担。 学位论文作者签名:彩船 日期:沙9 年7 l 月7 日 附件二: 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。 本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密西在! 年解密后适用本版权书。 本学位论文属于 不保密口。 学位论文作者签名:脉崤 日期: 矿缯埘锅 指导教师签名: 奔之手 目期:矿绎胡垢 应用于电子商务网站的数据仓库构建技术研究 图2 1 图2 2 图2 3 图2 4 图3 1 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 图表目录 数据仓库体系结构l l 事实、维、粒度的关系。1 3 星型模型1 4 雪花模型1 6 数据仓库总线结构2 7 产品维概念图 3 0 时间维概念图3 1 客户维概念图3 2 地理维概念图3 3 促销维概念图3 5 广告维概念图3 6 网站维概念图3 7 o 会话维概念图3 8 1 活动维概念图3 9 2 戍用丁电子商务网站的数据仓库基本星型模型结构4 1 实视图大大提高了查询效率5 5 应用于电子商务网站的数据仓库物理星型模型5 6 系统逻辑架构5 8 目流入最分析6 1 时段流入量分析、6 1 柱状图图示例6 5 饼剧示例6 5 线图示例,6 6 面积图示例6 6 系统首页7 1 基本统计信息分析输入界面7 1 0 基本统计信息分析结果分析7 2 9 l l l 1 2 l 2 3 4 图图图 图图图 图图图图图图图图图图 应用于电子商务网站的数据仓库构建技术研究 4 5 1 l 频道信息分析结果分析 5 1 2 时间段统计信息分析结果分析 4 1 时间维属性和值 4 2 地理维属性和值 4 3 网站维属性和值 4 4 客户维属性和值 4 5 产品维属性和值 4 6 广告维属性和值 4 7 指引维属性和值一,一 4 8 促销维属性和值 4 9 会话维属性和值 4 1 0 活动维属性和值 5 - - i 当前视图 5 2 从市卷取到省 5 3 从省钻取到市 5 4 原始记录集视图 5 5 关键字为“浙江”的切片结果视图 5 6 关键字为“浙江”、“湖北”的切块结果视图 5 7 旋转前的初始视图 5 8 旋转后的初始视图 5 9 统计分析模块数据项说明 ,7 3 7 6 4 4 一,4 4 4 5 ,4 6 ,4 7 4 8 4 8 ,4 9 ,4 9 一5 0 ,6 0 6 0 6 0 6 1 6 1 6 2 6 3 6 3 ,7 0 图图表表表表表表表表表表表表表袭表表表表表 应用丁电子商务网站的数据仓库构建技术研究 第一章概述 随着计算机应用的普及和发展,几乎所有先进企业都采用了计 算机及相应的信息技术进行管理和运营,这些信息技术都具有很强的 生成、收集、存贮和处理数据的能力。一个企业的数据包含了企业的 生产经营过程中规律性的信息和知识。对企业来说,这些成年累月堆 积如山的数据形成了一个巨大的宝藏,如何对其进行有针对性的开 采,挖掘出有价值的信息,形成企业的知识库,从而指导企业的技术 决策和经营决策,对于企业的发展,将发挥出举足轻重的作用。因此, 随着市场竞争的加剧和信息社会需求的发展,从大量数据中挖掘规律 性知识,制订生产策略和市场策略,显得更加重要。由此,数据仓库 技术应运而生。 1 1 数据仓库的起源 1 9 6 9 年,e f c o d d 博士发表了他著名的关系型数据模型的论文。 此后,关系数据库的出现开创了数据管理的一个新时代。二十多年来, 大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实 现,使得关系数据库系统的处理能力毫不逊色于传统的数据库系统。 而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些, s q l 的使用己成为一个不可阻挡的潮流,加上近年来计算机硬件的处 理能力的不断增强,关系数据库最终成为联机事务处理系统的主宰。 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。 然而,当联机事务处理系统应用到一定阶段的时候,企业便发现单靠 拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对 其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出 有利的决策。这种决策需要对大量的业务数据包括历史数据进行分析 才能得到。在当今激烈的市场竞争环境下,这种基于业务数据的决策 应削于电子商务网站的数据仓库构建技术研究 分析被称之为联机分析处理。如果说传统联机事务处理强调的是更新 数据库向数据库中添加信息,那么联机分析处理就是从数据库中 获取信息并加以利用。事实上,将大量的业务数据应用于分析和统计 原本是一个非常简单和自然的想法,但在实际操作中,人们却发现要 获得有用的信息并非易事。第一,联机事务处理系统强调的是密集的 数据更新处理的性能和系统的可靠性,而不关心数据查询的方便与快 捷。联机分析和联机事务处理对系统的要求不同,同一个数据库在理 论上难以两全。第二,在企业的联机事务处理系统中,由于系统建设 并非一步到位,业务数据往往被存放于分散的异构环境中,不易统一 查询访问,而且有大量的历史数据处于脱机状态,不能有效支持企业 决策分析。第三,企业传统信息系统中业务数据的模式是针对事务处 理系统设计的,数据的格式和描述方式并不适合非计算机专业人员进 行业务上的分析和统计。针对这一问题,人们设想专门为业务的统计 分析建立一个数据中心,它的数据分别从联机事务处理系统、异构的 外部数据源、脱机的历史业务数据中获取。这个数掘中心是一个联机 的系统,它专门为决策者提供分析服务,这个数据中心就叫做数据仓 库。数据仓库的概念始于2 0 世纪8 0 年代中期,在总结、丰富、集中 了企业信息管理经验的基础上,号称“数据仓库之父”的w i l l i a m h i n m o n 在数据仓库一书中,比较系统的给出了数据仓库的定义 “数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化 的数据集合,用于支持管理决策”。 1 2 数据仓库的基本特征 数据仓库是面向主题的 数据仓库中的数据是针对特定的客观分析领域组织的,这些特 定的客观分析领域称之为主题( s u b j e c t ) 如质量、销售、成本等, 主题是减小数据归类的标准。数据仓库不是泛泛的、无序的数据 集合,而是为了支持决策分析而按主题进行组织特定的数据集合。 数据仓库是集成的 数据仓库中的数掘是按一定的主题和规则从原有的数据库中 应用于屯子商务网站的数据仓库构建技术研究 抽取来的。在数据进入数据仓库之前,必须经过统一与综合。因 为:( 1 ) 数据仓库的每一个主题所对应的源数据,在原有的各分 散数据库中存在有许多重复和不一致性;( 2 ) 来源于不同的联机 系统的数据都与不同的应用逻辑相关联,导致了更加复杂的异构 性;( 3 ) 数据仓库中综合数据需要在源数据的基础上做进一步的 加工。 数据仓库的数据是随时间不断变化的 数据仓库的数据内容随时间不断变化,表现在以下几个方面: ( 1 ) 数据仓库随时间演进不断增加新的数据内容;( 2 ) 数据仓库 随时间演进不断删除旧的数据内容;( 3 ) 数据仓库中包含有大量 的综合数据,它们很多与时间有关,如按照时间段进行综合,或 隔一定的时间片进行抽样等。这些数据要随着时间演进不断地进 行重新综合,所以,在数据仓库中的每个键都包含时间项,以标 明数据在时间流程中的属性。 数据仓库的数据是不可更新 数据仓库的数据是相当一段时间内的历史数据,用于支持企 业决策分析,对这些数据的操作以查询为主,而不执行数据更新 操作。数据仓库的数据是不同时间点的数据快照的集合,以及基 于这些快照进行统计、综合和重组而导出的数据,并不是联机处 理的数据。 1 3 数据仓库的技术特征 数据仓库的基本特征主要表现在以下几个方面: 数据仓库反映企业决策的需要 数据仓库的建立应能直接反映出企业的业务主题。这些主题 要满足企业对此进行分析决策的需要,而无须考虑事务处理系统 的要求。 数据仓库是企业的历史回顾 在数据仓库中,多年的历史数据常以汇总的方式加以存储。 7 应用于电子商务网站的数据仓库构建技术研究 而典型的事务处理应用只存储一个较短时段的数据。 数据仓库的数据是不变的 不同人员对同一信息的查询应获得同样的回答,即:在分析 的过程中数据不会改变。所以,数据仓库的数据装载要适时地进 行,要遵照一定的周期,并且是可预测的。 数据仓库的查询是优化的 优化通常需要对数据进行预汇总,预索引和预设子集。将数 据分隔和组合为各种可能的组合( 分片和切块) 以有效地支持反 复地查询大量数据的能力是数据仓库的基本要求。 数据仓库必需与分析工具相匹配 一个数据仓库必须有效地支持相应地决策支持分析工具,决 策支持分析工具应能充分利用数据仓库的结构,否则,数据仓库 就发挥不出作用,建立数据仓库也就失去了意义“3 。 1 4 数据仓库发展现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术 的不断进步,数据仓库技术也不断发展,并在实际应用中发挥了巨大 的作用。可以说,数据仓库研究开发和应用的大潮正席卷而来。 2 0 0 1 年的调查显示,超过9 0 的大中型公司预计会在未来几年建 立数据仓库,大约8 0 已投资于数据仓库的公司都认为将会获得巨大 成功“。数据仓库提供了与o l t p 系统截然不同的集中式存储系统, 前者包含了从公司拥有的许多数据库中提取出来的商业数据。这些数 据生动地反映了企业的现实。未来企业的竞争,在很大程度上是其收 集数据、分析数据、利用信息能力的竞争。建设数据仓库能帮助企业 提高数据质量及分析能力,是企业从粗放型经营向集约型经营转变的 重要表现。 数据仓库的应用有着光明的未来,但同时应看到国内外在数据仓 库理论和应用方面都存在着一定的差距。 应崩于屯子商务网站的数据仓库构建技术研究 1 4 1 国外数据仓库状况 由于国外对数据仓库技术研究较早、数据积累充分,所以发展相 对成熟。不同的数据仓库提供商提出了不同的解决方案。应用方面, 除了投入具体应用的各种数据仓库产品和工具外,还有许多从事数据 仓库技术咨询的企业。以数据仓库为基础的联机分析处理和数据挖掘 应用首先在金融、保险、证券、电信等传统数据密集性行业取得成功。 4 2 1 以美国和澳大利亚为代表,国外数据仓库项目已有不少成功的例 子。除了a t & t 无线通信服务公司、m c i 以外,世界上一些主要的 电信企业都已经采用了针对电信行业的数据仓库系统,如果英国电信 局、s p r i n t 公司、法国电信局、加拿大电信局、澳大利亚电信局和比 利时电信局等,另外还有台湾的几大电信公司,如中华电信、运传电 信等也采用了数据仓库的解决方案,为其解决诸如客户群体分析、预 防欺诈等问题,取得了良好的效果1 2 j 。 从上个世纪末开始,北美洲和欧洲大部分企业都在筹建数据仓 库,并开始企业级的数据挖掘。在财富全球5 0 0 强企业中,已经 有9 8 都应用了商业智能解决方案。它们或上了数据仓库项目,或 进行数据挖掘,并且都和业务紧密结合起来,支持企业做出正确的经 营决策。 1 4 2 国内数据仓库状况 由于国内企业信息化起步相对较晚,信息系统建设没有形成规 模。国内数据仓库技术研究大部分还处于消化和积累经验阶段。许多 行业构建的数据仓库应用都是采用国外技术和方案,建成的数据仓库 项目效果如何还有待检验。影响我国数据仓库发展的主要因素有: ( 1 ) 、企业信息化建设和数据积累水平不高 ( 2 ) 、需要进一步培育数据仓库市场 应用于电子商务网站的数据仓库构建技术研究 ( 3 ) 、相关技术人员缺乏 ( 4 ) 、没有完全消化国外技术和产品 ( 5 ) 、数据仓库技术本身还缺乏统一的标准 大量数据是实现决策分析的曲提,特别是历史数据。但目前我国 除了银行、电信、保险等少数行业以外,其它行业的数据积累都不够 充分。数据仓库是新技术、新概念,国内还缺乏数据仓库项目的典型 范例。因此,企业领导对数据仓库技术的认可还有段时间,数据仓 库市场还需要进一步培育。数据仓库是实践性非常强的技术,需要真 正理解数据仓库相关技术的人才。“o 尽管我国数据仓库技术同国外还有很大差距,但是,许多科技工 作者开始对相关技术进行深入研究,并发表了许多技术文章。国内对 数据仓库的研究主要是吸收和借鉴,在此基础上提出适合国内需求的 技术方案。企业领导已经意识到数据仓库的重要性,并已经或者计划 实施数据仓库项目。 应用于电子商务网站的数据仓库构建技术研究 第二章数据仓库的基本理论 2 1 数据仓库系统的体系结构 目前i b m 、s y b a s e 、i n f o r m i x 、m i c r o s o f t 等厂商都提出了自己 的数据仓库体系结构。典型的数据仓库系统是以数据仓库为基础,包 括查询工具和分析工具在内的一整套技术”“。图2 一i 显示了数据仓 库系统的整体结构图。从图中可以看出数据仓库的功能、结构与相关 技术产品、工具集,是分析和设计数据仓库的基础。 鼯 终 翱 弘 图2 一l 数据仓库体系结构 ( 1 ) 数据源 数据仓库的数据来源于多个数据源,包括企业内部不同的异 构数据系统和外部数据。 ( 2 ) 数据获取模块 在确定数据仓库信息需求后,首先进行数据建模,然后确定 从源数据到数据仓库的数据抽取( e x t r a c t i o n ) 、转化 ( t r a n s f o r m a t i o n ) 以及加载( l o a d ) 过程,其功能是从各种各 样的存储方式中抽取数据,对数据进行检验和整理,并根据数据 应用于电子商务网站的数据仓库构建技术研究 仓库的设计要求,对数据进行重新组织和加工、转化成数据仓库 的数据库结构和内部形式并加载到数据仓库数据库中嘲。 ( 3 ) 数据仓库数据库 这是整个数据仓库环境的核心,也是数据存放的地方,提供 对数据检索的支持。它存储经检验、整理、加工和重新组织后的 数据,这其中既有明细数据也有汇总数据。相对于操作型数据库 来说其突出的特点是对海量数据存储的支持和快速的检索技术 【5 】 ( 4 ) 数据访问和传递模块 将数据转化成多维视图或存入多维数据中用于数据分析及 可视化用户界面。 ( 5 ) 信息展现模块 为最终用户提供访问和分析数据仓库数据的工具,如各种查 询检索工具、多维数据的o l a p 分析工具、数据挖掘d m ( d a t a m i n i n g ) 工具等。 对于一个企业来说,仅拥有数据仓库,而没有高效的数据分 析工具,就如同守着一座储量丰富的金矿而不知如何采掘。一个 有效的分析工具往往是决定整个数据仓库系统能否为决策者提 供有用信息的关键 6 1 。 2 2 数据仓库的数据模型 数据模型是对现实世界进行抽象的工具,是数据描述、存储和构 架的基础。数据仓库的数据概念模型是数据的多维视图,它直接影响 到前端工具、数据存储的设计和联机分析处理的查询引擎。 5 1 事实表( f a c t s ) :事实表存放着数据分析的标准,也可以说就是 用户日常最关心的内容,如销售量,库存额度和应收帐款等。它们日 积月累,数据量庞大。 维( d i m e n s i o n ) :维是事实信息的属性,属于分析的内容,如销 应h j 于电子商务网站的数据仓库构建技术研究 售发生的时间、客户、部门,销售的是何种产品、何种规格等。一般 变化不大,数量也相对较小。 粒度( g r a n u l a r i t y ) :粒度问题是设计数据仓库的一个重要方面。 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级就越小:相反,细化程度越低,粒度级就越大。 口j 下图说明了事实、维、粒度之间的关系( 以产品销售为例) 产 盛 照 媲戮蘩产瀚销秘 时刹雅 图2 2 事实、维、粒度的关系 上图中时问维的粒度是日,地点维的粒度是地区,产品维的粒度 是产品类型。每个交点就是事实( 实际的销售情况) ,即某日某地区 某类型产品的销售数据。决策者的查询无非就是对事实立方体按一定 的粒度切块或者组合的过程。如果是二维的数据,就是平面;如果是 三维或更多维,则构成多维超立方体。 数据仓库中数据的物理存储形式有多维结构数据组织形式和基 于关系数据的组织形式两种。数据仓库的维度模型一般分为星型模型 和雪花模型两种。 ( 1 ) 星型模型” 星型模型是当前数据仓库常用的数据模型,由事实表和维表组 成,通过维关键字联系在一起。事实表是星型模型的中心,事实表中 每个元组都包含有指向各个维表的外键。维表中记录的是有关这一维 的描述信息,这些信息用作约束条件,通常是一些文字描述信息。事 实表中除了包含指向各个维表的外键还有一些数字属性,称为度量。 应并jj 二电子商务网站的数据仓库构建技术研究 对这些度量可以实施一定的聚合操作,包括求和、求平均、求最大及 最小以及各种统计运算等。 图2 3 表示了一个典型的关于产品销售的星型模型。中间表示 主题表( 事实表) ,四周表示的是与之相关的维的信息。 寓j 谴裘 圈2 3 星型模型 从图2 3 可以看到,事实表中的每一元组包含一些指针,每个 指针指向一张维表,这就构成了数据库的多维联系。在每张表中除包 含每一维的主键外,还有说明该维的一些其它属性字段。维表记录了 维的层次关系。这种方式是主流方案,大多数数据仓库都采用星型模 型来表示多维概念模型。 ( 2 ) 雪花模型8 3 有时,对于层次比较复杂的维,用一个维表来描述会带来过多的 冗余数据。为避免冗余数据占用过大的空间,可用多个表来描述一个 维,例如,产品维表可进一步划分类型维表、颜色维表等,表示了多 应用于电子商务网站的数据仓j 荤构建技术研究 重属性层次,这种模式称为雪花模型。也可以说雪花模型是星型模型 的扩展,它对星型模型的维表进行深入的层次划分,使用雪花模型进 一步增加了查询分析的范围。 图2 4 是一个典型的雪花模型结构图。中间是事实表,下一层是维 表,维表下是粒度的划分。 图2 4 雪花模型 2 3 数据质量 数据质量制约着最终用户能否制订基于可靠信息的科学决策。数 据质量对树立企业形象产生了深刻的影响。例如,如果一家银行一直 在犯拼写地址的错误,将引起客户的不满。另外,劣质数据使企业难 以进行变革。 在任何可能的情况下,提取数据之前应该证实并清洁数据。如果 劣质数据进入了数据仓库,它会毁掉数据访问者的信心。客户和i t 人员必须能够信赖这些数据,无论它是细节数据、概括数据还是衍生 数据。 劣质数据会对o l a p 和批处理系统造成破坏性影响。错误的活期 存款余额会造成银行的损失,也会使银行拒绝某一贷款要求。 为提高数据质量,要在数据装入数据仓库之前,对其进行有效性 检查。否则,就有可能破坏依赖于数据仓库的商务分析的完整性。帮 助检查数据的有效性的最好方法源系统开发人员、业务分析人员和数 应用于电子商务网站的数据仓库构建技术研究 据仓库开发人员的共同参与。 检查数据仓库中数据的有效性是一个非常耗时但必不可少的过 程,该过程应高度自动化。一些产品中有许多内嚣功能,可自动进行 数据有效性检查。 有效性检查需要查看数据是否符合给定标准的过程。标准依赖于 具体应用的,为某个系统开发和执行的标准可能在其它地方毫无意 义。如果发现数据不在给定的界限之内,就必须清除对象。清除对象 包括对那些在给定范围之外的数据采取纠正措施”。 2 4 元数据 按照传统的定义,元数据( m e t a d a t a ) 是关于数据的数据。在数 据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人 员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据 的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数 据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) u 2 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开 发和管理数据仓库使用的数据【5 】,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构 和导出数据的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式 汇总用的算法,包括度量和维定义算法,数据粒度、主题领 域、聚集、汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内 容、数据分割、数据提取、清理、转换规则和数据刷新规则、 安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于 使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也 能够“读懂”数据仓库中的数据”3 。业务元数据主要包括以下信息: 使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的 1 6 应用于电子商务网站的数据仓库构建技术研究 原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2 5 联机分析处理 2 5 1 联机分析处理的基本概念 联机分析处理( o n l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) 是一类软 件技术,它使分析人员、管理人员通过对信息的多种可能的观察角度 进行快速、一致和交互性的存取以获得对信息的深入理解 2 3 1 。o l a p 力图处理数据仓库中浩瀚如烟的数据,并将之转化为有用的信息,从 而实现对数据的归纳、分析和处理,帮助企业完成决策。o l a p 支持 最终用户进行动态多维分析,其中包括跨维、在不同的层次之间跨成 员地计算和建模;切片和切块并在屏幕上显示,从宏观到微观,对数 据进行深入分析:可查询底层的细节数据;在观察区域终旋转,进行 不同维之间地比较。 2 52o l a p 多维数据 维是人们观察数据的特定角度 川。o l a p 的显著特征是能提供数 据的多维概念视图。视图的多维性使最终用户能多角度、多侧面、多 层次地考察数据库中的数据,从而深入地理解包含在数据中的信息及 其内涵。多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 展现 在用户面前的是一幅多维视图。 1 、数据立方体、维、度量、层次 数据立方体、维、层次和度量是o l a p 多维模型的基本元素。通 过这些元素描述和介绍数据,用户可以直观地操纵一个复杂的数据 集。 数据立方体是把维与度量按特定方式组织在一起的数据集合【7 】。 维是立方体的一个结构属性,它是一系列成员的列表【l 】。从使用 数据的用户的角度来看,这些成员都具有相似的类型。数据立方体的 集合描述了相关数据的多维性。维集是相同类型数据的集合,也可以 应用于电子商务网站的数据仓库构建技术研究 理解为变量。维有自己固有的属性,如层次结构、排序、计算逻辑。 这些属性对于决策支持是非常有用的。 度量是数据立方体的一个特殊的维,是业务数据的具体载体,通 常是数值型的值,具有可加性i ”。 层次是变量的集合,层次描述了同样的维的不同的聚合程度7 1 。 如一个典型的层次:国家省地区城市县。 2 、多维性 二维表和三维立方体比较容易理解。o l a p 通常将三维立方体的 数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品 维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加 一维,则图形就比较难以想象。要突破三维的障碍,就必须理解逻辑 维和物理维的差异。o l a p 的多维分析视图就是冲破了物理的三维概 念,采用了旋转、嵌套、切片、钻取和高维可视化技术,来展示多维 视图的结构,使用户直观的理解、分析数据,进行决策支持。 2 6 数据挖掘技术 随着数据仓库系统的建立,数据仓库中积累的数据越来越多。激 增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层 次的分析,以便更好地利用这些数据。目前的数据仓库系统可以高效 地实现数据地录入、查询、统计等功能,但无法发现数据中存在的潜 在关系和规则,无法根据现在的数据预测未来的发展趋势。缺乏挖掘 数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 人们需要有新的、更有效的手段对各种大量数据进行挖掘以发挥其潜 能。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的。 2 3 1 2 6 1 数据挖掘定义 数据挖掘,比较公认的是w j f r a w e y 和g p i a t e t s k y s h a p i r o 等人提出的定义,该定义如下:数据挖掘就是从大型数据库的数据中 应用于电子商务网站的数据仓库构建技术研究 提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在的有用 信息,提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e ) 、规律 ( r e g u l a r i t y ) 、模式( p a t t e r n s ) 等形式【2 ”。 这里把数据挖掘的对象定义为数据库,更广义的说法是:数据挖 掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程, 数据挖掘的对象不仅仅是数据库,也可以是文件系统,或其它任何组 织在一起的数据集合,例如w e b 信息资源等【3 2 】。 2 6 2 数据挖掘的分类 可以把数据挖掘分为描述型数据挖掘和预测型数据挖掘。描述型 数据挖掘用于了解系统实际数据存在的特性,其目的是为预测做准 备。预测型数据挖掘是在描述型分析得到的结论的基础上对系统的发 展进行估计,通过预测型分析,得到最终需要的结果,为决策者提供 直接的依据。 描述型数据挖掘包含了关联分析、序列分析、聚类分析等方法。 预测型数据挖掘还可以分为分类预测和统计回归预测。分类预测 是对某个事务可能归属于某个类别的概率进行度量,回归预测是指预 测一个变量值的变化,比如公司某项业务利润的变化情况。如果此变 量随时间变化,则称为时间序列预测。 预测型挖掘常用的数学模型包括:决策树模型、回归模型和神经 网络模型。数学模型和预测的目的不是一一对应的。对于回归型问题, 既可以选择神经网络也可以用线性回归。对于分类型问题,既可以用 神经网络来解决,也可以用决策树做分类。” 2 6 3 数据挖掘过程 在实施数据挖掘之前,必须制定采取何种步骤,并确定每一步做 什么,达到什么样的目标,有了好的计划才能保证数据挖掘有条不紊 的实施并取得成功。很多软件供应商和数据挖掘顾问公司提供了一些 数据挖掘过程模型,来指导他们的用户一步步的进行数据挖掘工作。 1 9 应用于电子商务网站的数据仓库构建技术研究 比如s p s s 的5 a 模型评估( a s s e s s ) ,访问( a c c e s s ) ,分析 ( a n a l y z e ) ,行动( a c t ) ,自动化( a u t o m a t e ) ,和s a s 的s e m m a 模 型采样( s a m p l e ) ,探索( e x p l o r e ) ,修丁f ( m o d i f y ) ,建模( m o d e l ) , 评估( a s s e s s ) 。 在数据挖掘过程中,可以把各个步骤按顺序排列,但要注意数据 挖掘过程并不是直线的,要取得良好结果就必须要不断反复这些步 骤。 这些基本数据挖掘步骤包括:定义商业问题、建立数据挖掘模型、 分析数据、准备数据、建立模型、评价模型及实施27 1 。 应用于电子商务网站的数据仓库构建技术研究 第三章电子商务网站数据仓库的系统基本设计 3 1 电子商务对数据仓库的需求 电子商务( e l e c t r o n i cc o m m e r c e ) 是利用现代信息网络进行商 业贸易活动的一种先进的贸易手段。通过这种形式,人们可以对带有 经济价值的产品和服务进行宣传、购买和结算。这种交易方式不受地 理位置、资金多少或零售渠道的影响,使产品在世界范围内交易,有 助于降低企业的成本,提高企业竞争力,也为消费者提供了更加丰富 多样的选择和更加优越舒适的购物环境。d 3 1 电子商务的出现已有二十余年了,经历过:e d i 、电子邮件、文 件传输以及条形码系统等多种形式。近年来,基于i n t e r n e t 的电子 商务迅速增长,据2 0 0 2 年g i i c 电子商务委员会的报告,2 0 0 0 年, 电子购物量只占全球总购物量的1 3 ,预测到2 0 0 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论