




已阅读5页,还剩73页未读, 继续免费阅读
B2C电子商务数据仓库的研究与设计(PDF 78页).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 学校代号 学号 2 广东工业大学硕士学位论文 工学硕士 基于B 2 C 电子商务数据仓库的研究 郑立山 指导教师姓名 职称 塍尘垡熬援 学科 专业 或领域名称 让箕扭座届撞苤 学生所属学院 让篡扭堂院 论文答辩日期 三Q 三生五目 蚴黜f 掣 AD i s s e r t a t i o nS u b m i t t e dt oG u a n g d o n gU n i v e r s i t yo f T e c h n o l o g y f o rt h eD e g r e eo fM a s t e r M a s t e ro fE n g i n e e r i n gS c i e n c e R e s e a r c ha n dD e s i g no fB 2 CE c o m m e r c eD a t a W a r e h o u s e C a n d i d a t e Z h e n gL i s h a n S u p e r v i s o r P r 研 T e n gS h a o h u a M a y2 0 1 2 F a c u l t yo fC o m p u t e r G u a n g d o n gU n i v e r s i t yo fT e c h n o l o g y G u a n g z h o u G u a n g d o n g P R C h i n a 5 10 0 0 6 摘要 摘要 B 2 C 电子商务网站系统每天都会生成大量的产品交易数据和访问日志数据 这些 数据中蕴含着大量有价值的信息 例如 订单的来源 客户的行为 访问者的兴趣等 分析这些数据 不仅能帮助企业决策层指导B 2 C 电子商务网站的运营 吸引更多用户 提高销售利润还能够反映出企业在市场营销 销售推广 售后服务和财务管理等各个 方面的状况 总之 对这些数据进行深入有效的分析能够帮助管理者改善客户关系 提高企业各个方面的竞争力 本文在描述了数据仓库的相关理论 包括数据仓库的概 念 基本特征 系统结构 B 2 C 电子商务的概念 O L A P 多维数据分析基础上 提出 了一个较完善B 2 C 电子商务数据仓库模型 论文主要工作包含以下内容 1 分析B 2 C 电子商务数据仓库的用户需求 提出B 2 C 电子商务数据仓库多层次概 念模型 设计了相关的维度模型和事实集 基于该模型完成了部分维度表和事实表的 物理设计 2 分析B 2 C 电子商务数据仓库数据源 讨论半结构化的数据源处理 针对W e b 访 问日志 结合半结构化数据的预处理方法 提出了改进的页面媒体类型时间阈值会话 识别算法 通过对不同的U R L 页面类型 采用不同的页面时间阈值计算方法 相对于 已有的对所有用户访问页面使用单一的先验阈值和现有动态阈值计算 该方法能够更 真实的反映用户会话的情况 且识别的准确率有了较大提高 为后续的分析提供高效 准确的数据 3 基于本文提出的B 2 C 电子商务数据仓库模型 构建一个实验性B 2 C 电子商务数 据仓库项目 以Z e nC a r t 网站系统为例 确定分析主题并基于多维建模思想建立各种 不同粒度的维度 数据集市 并设计一个E T L 体系结构 包括E T L 调度方案 数据 预处理方法等 最后对订单数据进行联机分析 展示B 2 C 电子商务数据仓库的价值 本文提出的B 2 C 电子商务数据仓库模型有以下特点 1 该模型有针对性 实用性较强的特色 它涉及对内 外电子商务贸易活动中企 业的各个主要方面 包括页面点击 产品销售 订单 用户对产品的评论 销售利润 仓库 订单产品 物流配送等 2 该模型采用多层次维度设计 通过合理有效的概念分层 为企业决策层提供更 好的分析视角 n A B S T R A C T A B S T R A C T B 2 Ce c o m m e r c ew e b s i t ec a ng e n e r a t eh u g et r a n s a c t i o nd a t aa n dv i s i t i n gl o g se v e r yd a y T h e d a t ac o n t a i nal o to fv a l u a b l ei n f o r m a t i o ns u c ha st h eS O U r C eo fo r d e r s c u s t o m e r b e h a v i o r a n dt h ev i s i t o r si n t e r e s t A n a l y s i so ft h e s ed a t a n o to n l ya b l et op l a yar o l ei n g u i d i n gt h eo p e r a t i o n so ft h eB 2 Ce c o m m e r c ew e b s i t ea n de n h a n c et h ea d h e s i o nd e g r e eo f t h es i t ea n di n c r e a s es a l e sb u tC a na l s or e f l e c tt h es i t u a t i o no fe n t e r p r i s e si na s p e c t so f m a r k e t i n g s a l e s s e r v i c ea n df i n a n c i a l I ns h o r t d e e pa n a l y s i so ft h e s ed a t aC a nh e l p m a n a g e rt oi m p r o v ec u s t o m e rr e l a t i o n s h i p s a n d f u l l ye n h a n c et h ec o m p e t i t i v e n e s so f e n t e r p r i s e si na l la s p e c t so fm a r k e t i n ga n ds e r v i c e s T l 凼p a p e ri n t r o d u c e sd a t aw a r e h o u s e t h e o r y i n c l u d i n gt h ec o n c e p to fd a t aw a r e h o u s e t h eb a s i cc h a r a c t e r i s t i c so ft h es y s t e m s t r u c t u r e c D n c e p t sa n df e a t u r e so f B 2 Ce c o m m e r c ea n dO L A P T h ep a p e rt h a tg i v e sam o r e c o m p l e t eB 2 Ce c o m m e r c ed a t aw a r e h o u s em o d e lc o n t a i n st h ef o l l o w i n ga s p e c t s 1 H a v ea n a l y z e du 辩rr e q u i r e m e n t so fB 2 Ce c o m m e r c ed a t aw a r e h o u s e p r o p o s e d m u l t i h i e r a r c h yc o n c e p t u a lm o d e lo fB 2 Ce c o m m e r c ed a t aw a r e h o u s e D e s i g nd i m e n s i o n a l m o d e l sa n df a c ts e t B a s e do nt h ec o n c e p tm o d e l g i v eap h y s i c a ld e s i g no ft h ep a r to ft h e d i m e n s i o n a lt a b l e sa n df a c tt a b l e s 2 A n a l y z et h ed a t as o u r c eo fB 2 Ce c o m m e r c ed a t aw a r e h o u s e D i s c u s st h ep r o c e s s i n g o fs e m i s t r u c t u r e dd a t as o u r c e s G i v ea ni m p r o v e dm e t h o do fs e s s i o ni d e n t i f i c a t i o nw h i c h b a s e do np a g et y p e p a g es i z e v i s i t i n gt i m et od e a lw e ba c c e s sl o g s F o rd i f f e r e n tp a g et y p e s d i f f e r e n tt h r e s h o l dc a l c u l a t i o nm e t h o d sa r eu s e dt os e tt h et i m et h r e s h o l d R e l a t i v et ot h e e x i s t i n gu s eo fas i n g l ep r i o r it h r e s h o l da n dc u r r e n td y n a m i ct h r e s h o l dc o m p u t i n gm e t h o d t h em e t h o dC a ng i v em o r er e a l i s t i cr e f l e c t i o no ft h es e s s i o ns i t u a t i o na n dt h ea c c u r a c yh a s b e e ng r e a t l yi m p r o v e df o rs u b s e q u e n ta n a l y z e 3 B a s eo nt h ep r o p o s e dB 2 Ce c o m m e r c ed a t aw a r e h o u s em o d e l T h et h e s i s c o n s t r u c ta ne x p e r i m e n t a lB 2 Ce c o m m e r c ed a t aw a r e h o u s ep r o j e c t T a k i n gZ e nC a r t f r a m e w o r ka sa ne x a m p l et oa n a l y z et h et h e m e sa n dd i m e n s i o n sb a s e do nm u l t i d i m e n s i o n a l m o d e la n dg i v eaE T Ls y s t e ma r c h i t e c t u r e A tl a s tg i v ear e a l i z a t i o no fO L A Pt os h o wt h e v a l u eo fB 2 Ce c o m m e r c ed a t aw a r e h o u s e I I I 广东工业大学硕士学位论文 T h eB 2 Ce c o m m e r c ed a t aw a r e h o u s em o d e lp r o p o s e di nt h i sp a p e rh a st h ef l o w i n g c h a r a c t e r i s t i c s 1 T h em o d e li sp r a c t i c a l d e t a i l e d i n c l u d i n gt h em a i na s p e c t so ft h ec o m p a n i e s i n v o l v e di nt h ei n t e r n a la n de x t e r n a le c o m m e r c et r a d i n ga c t i v i t i e s t h ep a g ec l i c ko np r o d u c t s a l e s o r d e r s u s e rc o m m e n t so nt h ep r o d u c t s a l e s p r o f i t s w a r e h o u s e l o g i s t i c s a n d d i s t r i b u t i o r L 2 B yu s i n gm u l t i h i e r a r c h yd i m e n s i o nd e s i g n a n dr e a s o n a b l ec o n c e p th i e r a r c h y d e c i s i o nm a k e r sc a ne a r nb e t t e ra n a l y s i sp e r s p e c t i v e F i n a l l y t h ee x p e r i m e n t sv e r i f yt h ev a l i d i t yo f t h em o d e l K e yw o r d s B 2 C d a t aw a r e h o u s e O L A P s e s s i o ni d e n t i f i c a t i o n E T L I V 目录 目录 摘要 I A B S T R A C T I I I I 录 r C o N T E N T S V I I I 第一章绪论 l 1 1 课题背景与意义 l 1 2 国内外研究现状 l 1 3 论文主要研究内容 3 1 4 本文组织结构 3 第二章相关概念与相关技术 5 2 1 数据仓库定义 5 2 2 数据仓库体系结构 5 2 3B 2 C 电子商务 7 2 4O L A P 多维数据分析 8 2 5 小结 10 第三章B 2 C 数据仓库的多维建模与设计 1 2 3 1 多维建模概述 1 2 3 2B 2 C 数据仓库的需求分析 1 3 3 3B 2 C 数据仓库总线结构设计 1 5 3 4 多层次维度概念模型 1 6 3 4 1 日期多层次维度 l7 3 4 2 时间多层次维度 1 7 3 4 3 地理多层次维度 l8 3 4 4 客户多层次维度 l9 3 4 5 供应商多层次维度 2 0 3 4 6 产品多层次维度 2 1 3 4 7 订单多层次维度 2 2 V 广东工业大学硕士学位论文 3 4 8 支付方式多层次维度 2 2 3 4 9 货币多层次维度 2 3 3 4 1 0 邮寄方式多层次维度 2 3 3 4 1 l 语言多层次维度 2 3 3 4 1 2 评论多层次维度 2 4 3 4 1 3 页面多层次维度 2 4 3 4 1 4 会话多层次维度 2 5 3 5B 2 C 数据仓库事实星座模型 2 5 3 6d I 墙 1 8 第四章B 2 C 数据仓库数据源与数据预处理 2 9 4 1 电子商务数据仓库数据源 2 9 4 2 半结构化会话数据预处理算法 3 0 4 2 1 页面媒体类型时间阈值的会话识别法 3 0 4 2 2 概念与符号描述 3 0 4 2 3 基于页面内容与站点结构阈值计算法 3 2 4 2 4 基于页面内容与页面停留时间阈值计算法 3 2 4 2 5 基于页面停留时间阈值计算法 3 3 4 2 6 识别方法的步骤与算法描述 3 3 4 3 小结 3 5 第五章B 2 C 电子商务数据仓物理设计与E T L 实现 3 6 5 1 环境与工具介绍 3 6 5 2B 2 C 电子商务数据仓库物理设计 3 6 5 3 数据仓库E T L 组件概述 4 2 5 4B 2 CE T L 体系结构 4 3 5 4 1 数据流程图 4 3 5 4 2 具体调度方案 4 4 5 5 加载维表与事实表实现 4 4 5 5 1 日期维度加载 4 5 5 5 2 时问维度加载 4 6 5 5 3 地理维加载 4 6 V I 目录 5 5 4 客户维加载 4 7 5 5 5 产品维加载 4 7 5 5 6 会话维加载 4 8 5 5 7 购买活动事实表加载 4 9 5 5 8 订单交易事实表加载 4 9 5 6d 结 5 0 第六章基于B 2 C 电子商务数据仓库的O L A P 分析 5l 6 1M o n d r i a n 介绍 5 l 6 2 立方体定义 5l 6 3 实验结果展示 5 2 6 4d 结 5 5 总结与展望 5 6 参考文献 5 8 攻读学位期间从事的科研项目及发表的论文 6 l 学位论文独创性声明 6 2 鸳 谢 6 3 V 2 2D a t aW a r e h o u s eS y S t e mA r c h i t e c t u r e 5 2 l CE c o m m e r c e 7 2 4O L A PM u l t i d i m e n s i o n a lD a t aA n a l y s i s 8 2 5S u m m a r y 10 C h a p t e r3B 2 CD a t aW a r e h o u s eM u l t i d i m e n s i o n a lM o d e la n dD e s i g n 12 3 1l u l t i d i m e n s i o n a lM o d e lO v e r v i e w 1 2 2R e q u i r e m e n tA n a l y s i so f B 2 CD a t aW a r e h o u s e 1 3 3 3B 2 CD a t aW a r e h o u s eB u sA r c h i t e C t u r e l5 3 4M u l t i h i e r a r c h yC o n c e p t u a lM o d e l 16 3 4 1D a t eM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 17 3 4 2T i m eM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 17 3 4 3G e o g r a p h yM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 18 3 4 4C u s t o m e rM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 19 3 4 5S u p p l i e rM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 0 3 4 6P r o d u c tM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 21 V 1 1 1 C o n t e n t s 3 4 7O r d e rM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 2 3 4 8P a y m e n tM e t h o dM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 2 3 4 9C u r r e n c yM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 3 3 4 1 0S h i p p i n gM e t h o dM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 3 3 4 11L a n g u a g eM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 3 3 4 1 2R e v i e wM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 4 3 4 13P a g eM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 1 l 3 4 1 4S e s s i o nM u l t i h i e r a r c h yD i m e n s i o n a lM o d e l 2 5 3 5B 2 CD a t aW a r e h o u s eF a c t S t a rM o d e l 2 5 3 6S u m m a r y 2 8 C h a p t e r4B 2 C D a t aW a r e h o u s eD a t aS o u r c ea n dD a t aP r c p r o c e s s i n g 2 9 4 1E c o m m e r c eD a t aW a r e h o u s eD a t aS o u r c e 1 9 4 2S e m i s t r u c t u r e dS e s s i o nD a t aP r e p m c e s s i n gA l g o r i t h m 3 0 4 2 1S e s s i o nI d e n t i f i c a t i o nB a s eo nP a g eM e d i aT y p ea n dT i m eT h r e s h o l d 3 0 4 2 2D e s c r i p t i o no f C o n c e p t sa n dS y m b o l s 3 0 4 2 3T h r e s h o l dA l g o r i t h mB a s e do nP a g eC o n t e n ta n dS i t eS t r u c t u r e 3 2 4 2 4T h r e s h o l dA l g o r i t h mB a s e do nP a g eC o n t e n ta n dR e s i d e n c eT i m e 3 2 4 2 5T h r e s h o l dA l g o r i t h mB a s e do nR e s i d e n c eT i m e 3 3 4 2 6S t e p so f I d e n t i f i c a t i o na n dD e s c r i p t i o no f A l g o r i t h m 3 4 3 3 4 3S u m m a r y 3 5 C h a p t e r5P h y s i c a lD e s i g na n d E T Lo fB 2 CE c o m m e r c eD a t aW a r e h o u s e 3 6 5 1E n v i r o n m e n ta n dT o o l s 3 6 5 2B 2 CD a t aW a r e h o u s eP h y s i c a lD e s i g n 3 6 5 3D a t aW a r e h o u s eE T LC o m p o n e n t sO v e r v i e w 4 2 5 4B 2 C E T LA r c h i t e c t u r e 4 3 5 4 1D a t aF l o wD i a g r a m 4 3 5 4 2S c h e d u l i n gS c h e m e 4 4 5 5R e a l i z a t i o no f D i m e n s i o na n dF a c tL o a d 4 4 1 1D a t eD i m e n s i o nL o a d 4 5 5 5 2T i m eD i m e n s i o nL o a d 4 6 I X 广东工业大学硕士学位论文 5 5 3G e o g r a p h yD i m e n s i o nL o a d 4 6 5 5 4C u s t o m e rD i m e n s i o nL o a d 4 7 5 5 5P r o d u c tD i m e n s i o nL o a d 4 7 5 5 6S e s s i o nD i m e n s i o nL o a d 4 8 5 5 7P u r c h a s i n gF a c tT a b l eL o a d 4 9 5 5 8O r d e rT r a n s a c t i o nF a c t I 2 i t l eL o a d 4 9 5 6S u m m a r y 5 0 C h a p t e r6 O L A Po fB 2 CE c o m m e r c eD a t aW a r e h o u s e 51 6 1M o n d r i a nI n t r u d u c t i o n 51 6 2D e f i n i t i o no f C u b e 51 6 3E x p e r i m e n t a lR e s u l t 5 2 6 4S u m m a r y 5 5 C o n c l u s i o na n d P r o s p e c t 5 6 R e f e r e n c e s 5 8 P u b l i c a t i o n 6 1 A n n o u n c e m e n to fO r i g i n a lC r e a t i o n 6 2 A c k n o w l e d g e m e n t 6 3 X 第一章绪论 1 1 课题背景与意义 第一章绪论弟一早珀下匕 企业的发展是以利润最大化为目标 为了达到这一目标企业就要合理 高效的利 用已有的各种资源和高新技术 如今许多企业投入到电子商务行列中 开展电子商务 活动并不是要求企业舍弃传统的企业体系结构及经营模式 而是结合当前现有的模式 充分利用高新技术运作 通过将企业运作建立在高新科技手段上 企业能更好的服务 老客户 开发新客户 从而提高自身的各方面竞争力 通过恰当的资源整合 高效的 管理运作 合理的成本控制 企业在竞争中将具有更大的优势 完善而有价值的B 2 C 电子商务系统不应该仅支持在线交易 而应该能够利用商业 智能等技术为企业的产品管理 市场营销 客户关系管理 售后服务等提供全面的决 策支持 在这目前一个信息爆炸的时代 企业迫切需要系统能够从已经积累的大量信 息数据中获取有用的模式和规律以指导经营 改善客户关系n 业界的迫切需求推动了 数据仓库O L A P 和数据挖掘等商业智能分析技术的发展 其研究与应用受到了广泛的重 视和认同 本文研究B 2 C 电子商务数据仓库系统构架 基于目前B 2 C 电子商务贸易的特点 构 建一个能为B 2 C 电子商务领域专家提供数据分析服务的数据仓库模型 并将该模型应 用于实际B 2 C 电子商务系统中 1 2 国内外研究现状 在早期的电子商务网站系统中 对网站的分析一般都是一些简单统计计数 例如 每天有多少客户访问站点 多少产品被客户浏览并关注 每天付款的订单有多少 一 个月的销售利润有多少等 这些数据有的需要通过E x c e l 等办公软件计算生成 由于容 易统计并看似有效 很多的中小型电子商务网站仍然采用这种方式 但是在国内外电 子商务的迅猛发展的历程中 这些粗糙 机械的数据统计不能提供更多有效 有价值 的数据信息来为企业决策提供数据支持 广东工业大学硕士学位论文 为满足企的数据统计分析需求 数据仓库技术的研究与应用更加的广泛 在国内 一些大型的电子商务企业中 例如亚马逊 京东商城 当当网等数据仓库和O L A P 技术 都有了广泛的应用 并取得了很好的效果 虽然国内外很多学者研究数据仓库 但是 针对中小型B 2 C 电子商务企业的数据仓库模型的研究较少 没有一个完善的数据仓库 模型和简易的解决方案 文献 l 论述了电子商务环境中的数据仓库维度模型的设计 并根据维度模型 进 一步结合电子商务网站的特点完成了应用于电子商务网站的数据仓库的物理设计 包 括数据存储 索引策略等 文献 2 提出了将点击流与电子商务站中的商业数据相结合建立点击流数据仓库 综合利用现有的数据做出合理的分析与预测 在此基础上 论文结合实际的电子商务 网站做了相关的实现 文献 3 论述了电子商务环境下的数据仓库的设计 对电子商务环境下的用户需求 做了详细的分析 并进行了相关的逻辑设计和物理设计 指出了具体实施过程中应注 意的事项 论文还收集一些电子商务环境下联机分析处理查询项并分类 基于以上联 机分析处理 然后论述了数据仓库系统体系架构 维度结构 事实表和聚合表的设计 并指出了在这种多维模型实现中需要考虑的问题 文献 4 主要论述了一个W r e b 内容分析模型 并通过该模型来加强电子商务活动 通过w e b l j 志 自动 灵活分析网站用户的兴趣爱好 通过数据挖掘算法发现隐含有规 则的客户行为 文献 5 论述了数据仓库的数据模型结构 详细论述了他们之间的差异与应用 分 析了H i e r a r c h i c a lN o r m a l i z e dS n o w f l a k e H D S 的数据模型结构 此外还讨论了提高查 询和数据仓库加载效率的相关技术 以上研究论文存在以下几个问题 1 没有将数据仓库与B 2 C 电子商务深入结合或电子商务数据仓库模型不够全面 合理 只描述了电子商务企业活动中的部分项目 对于外贸型的电子商务系统该数据 仓库模型不能适用 2 维度模型不能体现分层概念 在维度模型设计中仅仅罗列了维度的相关属性 面 而没有对上卷或下钻的分层进行描述 从而导致在应用实践中缺乏一定的灵活性 2 第一章绪论 1 3 论文主要研究内容 随着电子商务发展的不断深入 电子商务网站的销售交易数据越来越多 对相关 的交易信息进行汇总 统计和分析显的越来越重要 B 2 C 电子商务数据仓库提供分析 的重要性主要体现在以下几个方面 1 通过从各个方面 多个角度有效的汇总 统计和分析可以更好的掌握历史业务 的进展情况 总结相关经验 分析不足 2 根据对历史数据的对比分析 制定合理相关的营销计划 为企业的健康良性发 展提供决策支撑 3 通过对历史数据的分析 挖掘潜在的模式 不断推动业务的深入发展 本文具体的研究内容分为以下几个方面 1 在已有电子商务数据仓库模型的基础上 从B 2 C 电子商务系统分析需求出发 设计一套较完善合理的多层次维度概念模型和事实表模型 其中包含了B 2 C 电子商务 系统中各个主要方面 2 分析B 2 C 电子商务数据仓库的数据源与数据预处理 在传统电子商务数据仓库 设计的基础上 引入了对用户页面点击数据的处理与分析 研究了对半结构化的日志 会话识别算法 3 将该模型应用于实际项目中 实现E T L 与O L A P 分析 1 4 本文组织结构 论文介绍了数居仓库的基本理论和电子商务的相关概念 提出了一个B 2 C 电子商务 数据仓库模型 包含了B 2 C 电子商务系统分析的主要方面 基于该模型 论文还以开 源电子商务系统为例 描述了该模型的物理实现 E T L 和O L A P 设计等 论文的具体组织结构如下 第一章 绪论 介绍课题背景及其研究意义 然后分析国内外的研究现状并阐述了 本论文主要的研究内容 最后说明了论文的整体组织结构 第二章 主要介绍数据仓库的基本概念包括定义 系统结构 阐明了B 2 C 电子商务 和O L A P 多维数据分析的相关概念 第三章 分析B 2 C 电子商务环境下数据仓库的用户需求 并提出了基于B 2 C 电子 3 广东工业大学硕士学位论文 商务数据仓库的多层次维度数据仓库模型 第四章 分析B 2 C 数据仓库数据源 研究对半结构化数据的预处理算法 提出了页 面媒体类型时间阈值的会话识别算法 第五章 在提出的B 2 C 电子商务数据仓库模型的基础上进行数据仓库物理设计 并 将该仓库模型应用到实际项目中 第六章 在以上概念模型和物理设计的基础上进行O L A P 设计与分析 并生成相 应的报表 4 第二章相关概念与相关技术 第二章相关概念与相关技术 2 1 数据仓库定义 数据仓库是将在大量事务型数据库中的数据进行抽取 整理 并转换为新的数据 存储格式 其作用是为决策服务 数据仓库之父W H I n m o n 将其定义为 数据仓库 是支撑管理部门决策过程的 面向主题的 集成的 随时间而变的 持久的数据集合 川 数据仓库并非一种产品 而是一种面向分析决策的数据存储方案 数据仓库的概 念可以从两个层次理解 首先 数据仓库不同于提高业务效率的操作型数据库 它主 要用于决策支持 面向分析型数据处理 其次 数据仓库对分布在企业中的多个异构 数据源集成 按照决策主题选择数据并以新的数据模型存储I s 此外 存储在数据仓 库中的数据一般不能修改 数据仓库主要有以下特征 l 数据仓库是面向主题的 2 数据仓库是集成的 数据源大都是分散的操作型数据 需要从原来的数据中抽 取所需数据并进行加工与集成 统一与综合后载入到数据仓库唧 3 数据仓库是非易失的 它物理存放数据 无需并发控制机制 恢复 事务处理 等 一般只有数据初始装入和数据访问两种操作I 0 1 4 数据仓库是随时间而变化的 数据仓库从历史的角度提供信息 都隐式或显示 的含有时间信息忉 2 2 数据仓库体系结构 数据仓库系统结构通常采用三层结构 如图2 I 所示 5 操作数据库 外部数据源 图2 1 数据仓库系统结构 F i g u r e2 lD a t aW a r e h o u s eS y s t e mA r c h i t e c t u r e 1 底层为数据仓库服务器 它通常基于关系数据库系统 使用后端工具和实用程 序从操作数据库或其他外部数据源提取数据 放入集成 这些实用工具和实用程序通 过对数据进行提取 清理和变换 以及装入和刷新操作以更新数据仓库 川 2 中间层为O L A F 服务器 主要是关系O L A F 模型 R O L A P 和多维O L A P 模 型 M O L A F R O L A F 扩充的关系D B M S 它将对多维数据的操作映射为标准的关系 操作 M O L A F 专门的服务器 直接实现了多维数据和操作 7 3 顶层为前端客户层 它主要包含报表工具和查询 数据挖掘或分析工具 6 第二章相关概念与相关技术 2 3B 2 C 电子商务 电子商务 E l e c t r o n i cC o m m e r c e 简称E C 或为E l e c t r o n i cB u s i n e s s 枷 19 9 7 年1 0 月在全球信息标准大会上 欧洲经济委员会将电子商务定义为 电子商务是各参与方 之间以电子方式而不是物理交换或直接物理方式完成任何形式的业务交易 咖 电子商务根据交易双方分为企业对企业 B 2 B B u s i n e s st oB u s i n e s s 企业对消费 者 B 2 C B u s i n e s st oC o n s u m e r 企业对政府机构 B 2 1 3 B u s i n e s st oG o v e r n m e n t 消 费者对政府机构 C 2 G C o n s u m e rt oG o v e r n m e n t B 2 B 在传统的交易过程中 企业往往耗费大量资源和时间在销售过程中 从而 加重企业的运营成本 通过B 2 B 的交易方式 买卖双方能通过互联网实现整个交易流 程 企业相互之间的工作流程大大简便 从而降低了管理费用等运营成本 网络的便 利及延伸性帮助企业扩大经营活动范围 企业发展跨地区跨国界更方便 交易成本更 低廉 更加有利于企业长远发展 B 2 C 企业对消费者的交易大多是电子零售 随着电子信息技术的发展 国内外 互联网上涌现出大量的网上购物场所 它们提供各种服务和消费品 比如 淘宝商城 京东商城 a m a z o n 等 放眼未来 通过B 2 C 企业与客户的交流将更加便利 高效 企业可提供更具个性化 人性化的服务 顾客将有更多的产品选择并享受更好的服务 而这些都是传统经营方式无法替代的 B 2 G 企业对政府机构的事务交易处理 企业通过互联网报税 报关 申领执照 或营业许可 采购 产权交易以及政府招标等m 一 C 2 G 个人对政府机构的事务处理 通过互联网实现收税 报税 个人身份的核 实等政府对个人开展的事务性处理 电子商务主要是指B 2 C 与B 2 B 电子商务 B 2 C 电子商务是企业针对个人开展的电 子商务活动的总称 它具有以下优势 1 低价格 低成本 据瑞士信贷的数据调研 在中国 通过互联网电子商务购买产品会比实体渠道要 便宜2 1 左右 一方面得益于电子商务的快速发展与普及使得电子商务供应商的议价能 7 可以避免潜在的损失 4 商品种类更丰富 由于实体渠道总是存在物理极限 而电子商务的这一特征是实体渠道所不能替代 的 事实上 互联网用户往往具有传统客户不具备的个性化特征 他们需要在主流产 品之外有更多的选择 而电子商务的出现正顺应了消费者的要求 5 消费者政策更透明 在实体领域 大的商家 包括厂家和零售商 会有详细的消费者政策 而大部分 的小型商家并没有做到这一点 但在电子商务领域 由于对手之间的竞争跨越了层级 和地域差异 在各细分市场上的领先者都在不断刷新消费者政策的行业标准 这种政 策对所有消费者一视同仁 有利于提升消费者信心 2 4O L A P 多维数据分析 O L A P 即联机分析处理 于1 9 9 3 年由关系数据库之父E E C o d d 提出 C o d d 认为 联机事务处理 O L T P 已不能满足终端用户对数据库查询分析的需要 S Q L 对大型数据 库进行的简单查询也不能满足用户分析的需求 因此C o d d 提出了多维数据库和多维分 析的概念 即O L A P O L A P 理事会将其定义为 联机分析处理是一种软件技术 使 8 第二章相关概念与相关技术 分析人员能够迅速 一致 交互地从各个方面观察信息 以达到深入理解数据的目的b 通过将这些原始数据按用户的理解进行转换处理来反映了企业实际运作情况 近来 人们对O L A P 理解的不断深入 有些学者提出了更为简要的定义 即联机分析处理是 共享多维信息的快速分析 f a s ta n a l y s i so f s h a r e dm u l t i d i m e n s i o n a li n f o r m a t i o n 当今的数据处理大致可以分成两大类 联机事务处理O L T P O n L i n eT r a n s a c t i o n P r o c e s s i n g 联机分析处理O L A P O n L i n eA n a l y t i c a lP r o c e s s i n g O L T P 是关系型数 据库的主要应用 完成基本的 日常的事务处理 例如购物交易 O L A P 支持复杂的 分析操作 侧重决策支持 提供直观易懂的查询结果 下表2 1 列出了O L T P 与O L A P 之间的对比I I s l 表2 1O L T P 系统和O L A P 系统的比较 T 出2 1D i f f e r e n c eb e t w e e n0 L r Pa n d0 L A P O L T PO L A P 用户 操作人员 低层管理人员决策人员 高级管理人员 功能日常操作处理分析决策 D B 设计面向应用面向主题 数据当前的 最新的细节历史的 聚集的 多维的 的 二维的分立的集成的 统一的 存取读 写数十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 D B 大小 IO O M B G B IO O G B T B O L A P 具有以下优势 1 O L A P 的优势是基于数据仓库面向主题 集成的 保留历史及不可变更的数据存 储 以及多维模型多视角多层次的数据组织形式 如果脱离的这两点 O L A P 将不复 存在 也就没有优势可言 2 数据展现方式 基于多维模型的数据组织让数据的展示更加直观 它就像是我们 平常看待各种事物的方式 可以从多个角度多个层面去发现事物的不同特性 而O L A P 正是将这种寻常的思维模型应用到了数据分析上 3 查询效率 多维模型的建立是基于对O L A P 操作的优化基础上的 比如基于各个 9 广东工业大学硕士学位论文 维的索引 对于一些常用查询所建的视图等 这些优化使得对百万千万甚至上亿数量 级的运算变得得心应手 4 分析的灵活性 多维数据模型可以从不同的角度和层面来观察数据 同时可以用 各类O L A P 操作对数据进行聚合 细分和选取 这样提高了分析的灵活性 可以从不 同角度不同层面对数据进行细分和汇总 满足不同分析的需求 O L A P 分析基本操作如下 1 切片和切块 切片操作是选择给定立方体的一个维 形成一个子立方体 例如 在购物活动事 实集立方体中 选择时间维y e a r 2 0 0 9 将生成一个关于2 0 0 9 年的购物活动子立方体 切块操作通过对两个或多个维执行选择 定义子立方体 例如 在购物活动事实集立 方体中 选择时间维 2 0 0 9o r2 0 1 0 产品维 家庭娱乐 o r 电子产品 在 多维数据结构中 按各个维度切片切块 可得到所需要的数据 2 钻取 钻取包含上卷和下钻两个操作 上卷操作公共沿着一个维的概念分层向上攀升或 者通过维规约 对数据立方体执行聚集 例如在地理维概念模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 驾照c1科目考试试题及答案
- 2025年广东省法检系统司法辅助人员招聘考试(综合知识)能力提高训练题及答案
- 2025年病历管理制度试题与答案
- 模型参数优化-第1篇-洞察与解读
- 出资协议条款及形式
- 2025年山西事业单位招聘考试综合类专业能力测试试卷(工程类)真题模拟解析
- 2025年事业单位招聘考试综合类职业能力倾向测验真题模拟试卷(北京)
- 2025江苏镇江丹阳市卫生健康委员会所属丹阳市人民医院招聘工作人员22人模拟试卷完整答案详解
- 2025江西吉安市吉州区樟山镇中心幼儿园招聘1人模拟试卷及答案详解(历年真题)
- 黑龙江省考试科目及答案
- 2025年秋统编版一年级语文上册集体备课教案设计(第7单元)
- 房地产营销渠道策略指南
- 2025年湖南大学事业编制管理辅助岗位招聘58人笔试备考试题及答案解析
- 2025年国防教育知识考试题库及完整答案
- 2024新版离婚协议书模板合集
- 2026年宁波市镇海中学公开招聘事业编制教师46人笔试备考题库及答案解析
- GB 18664-2025呼吸防护装备的选择、使用和维护
- 2025年中国钛杯行业市场全景分析及前景机遇研判报告
- 室内设计方案施工流程
- 10KV电力设备维护技术标准手册
- 中医药膳制作流程与行业标准
评论
0/150
提交评论