




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)crm系统中维度建模的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文 abs tract r 即 司l y , as阮 幽卿 比 以b 笼 r indus 妙 诵11 茂 s the in fo ry n 时 i o nte c 址 拍 fo gy to 脚 以 加 d. 记加u ect d at a isi . ip 代 四 e d 勿 a 初de. 目 rg 川 , 1 心 of山 阳 b 别 姆 5 毗 u se d inthe n ” 比 . 9 仁 。 场c 过初 浅 加9 , 即d sc i 曰 时 1 五 c 代 哭. rt b 胡d p r oj 喊 d e v e 】 o p m e nt, as a r . 姻丸 h o wto而1 七 笼1 刊 比 n . 时 访 n 侧 沈 旧 旧 叭 “ 活 , k e epexi st in gc u 引 泊 m er, 0 侧 勿up 此 。 e w功 团 改 et d 肠 币 相】 ya 回 助p 比 即 e也 ck ey 妙 侧 币 石 v enes s of浏e 印 对 娜, ish 沈 o m i n g触 。 。 r e 户 旧 b 】 em of切 凶 旧 州aiin format i onco理 由 川 ct i o n of吮赶二 刀 云 s p 呼 褚 r is , m 颐 川 y thro 哪 少t 】 ”5 切 团 口 班 尽ofth e e x 拼 泊 . e w b i cb汕p l e m ents the 如 d us 苗ai欲 园 刃 1 以 c r msy, 曰 mofbe亡 r ofnan 加 雌d a 犯 bao , tor e se 别 rc h and ze 山 . d e 幻 gn . l d汕p 】 tati on of伽 田 . 】 师司 c r 州 叮 成 的 ofbecri ndl叫冰 从 七 i chis 加阴do ndataw留e b 0 u s e . 玩 币 m e nsi o . al口 odeling, 血s i gn the l arge- sc 目 ec h 臼 l ge c u 川 泊 m erd i m ens ion 勿 spli tt in giti m o, 0 们 。 em 五 五d 公 n ens i o 。 d e gr e e . itl l a s sol v ed th ep ro b l em of比 以 旅 d ing hi s t 0 6 司 证 肠 n 几 拓on.d o 洲比面. g in q u 卿 自 加utl 司 电 e . 鱿 目 e c l l a l l gec u st 侧 旧 erd 如e n s io n e 价诵代扮 ; ina . a l 师s n 阅 刁 e l 沁 9,脚 旧 钾sea 汕脚ov目 m e 由 闻 ofspli tt in g c u st o m cri nt o 万 v e d c gr 幽 , “ 比 . 拼 川也 e c 妞 st o m er颐曰 吐 访c 日 ly即d e 引 比 b l i shl b e fo朋da石 加拓r 了 e 目 让 访 9 to阮 声r so n al 伪 eds e r 月 ce. hio l a 尸d a la 川 刀 re , d e s i gn助d re a 珍 配由 。 功 e 山 冈 c o m b in ed mo 曰妞幼比r o l a p.hb a s g , v e n consld 件 at i o n toth e ady 助t a g e t h at奴 hi gh- e ffi ci ent d a 扭s to 忱.d云 t 呐u 妙 比 匀 ” n d . me 即w 肠 le, l ookfo r 俩 限 叮 d toth e a p p 】 i c at i on ofd a l a m 面吨 1 即 如川 。 盯in悦e r 加 d 理 劝 寸如d 爬 那 ar c h 血 te s t in g m 闻e l 吨 ofc o nt e n 。 刀 e nt妙 心理蛇0幻 山 已 l k叮wo r d . : d 川 acrm,mode 】 in g,o l 六 夕 n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了加以 标注和致谢的部分外,不包含其他人己 经发表或 公布过的 研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同 事对本学位论文做出的贡献均己 在论文 中作了明确的说明。 研 究 生 。 .撰主1夕 乙 年, 佣 刁 旧 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的全部或部分内容,可以向 有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的全部或部分内 容。对于保密 论文,按保密的有关规定和程序处理。 研 究 生 签 名 : 撼习孰一 口 乙 年, 月 子 。 日 南京理工大学硕士李位论文c r m系统中维度建模的应用研究 1引 言 l l 研究背景 在我国,啤酒行业相对于其它行业来说,是开放最早的行业之一。 2002 年啤酒 产t达到2 3 86 万吨, 首次超过 美国 成为世界第一啤酒 生产大国。 111 市场竞争己 经升 级到了一个国际化的竞争水平, 众多的国际化啤酒品牌纷纷在国内投资建厂, 或收购、 控股, 使中国的啤酒市场风起云涌, 竞争日 趋白 热化。 面对如此激烈的市场竞争, 企 业要想拥有核心竞争力,就必须走信息化、国际化建设这条道路。 随着加 加 口 改技术在我国的不断发展和信息化的不断深入,啤酒行业利用信息技 术生产和搜集数据的能力大幅度提高, 千万个数据库被用于商业管理、 办公、 科学研 究和工程开发等等, 并且这一势头公 洲 阵 持续发展下去。 在每一个啤酒企业都同时 运行 着几个系统, 如o a , e r p等等。 每一个系统都在源源不断地采集数据, 并按照自己 的规则进行着梳理、 存放和利用。 这些系统大多来自 不同的软件公司, 它们之间很少 或者几乎没有交互和共享, 甚至没有可用于上述目 标的标准接口, 每一个系统收集和 管理着自己必须的数据。就这样一些可以公用的数据在每一个系统中有不同的版本, 不同的形式在不同的系统中日 复一日 地做着实质上相同的维护。 各个系统的数据长期 地分离,只有它们的综合才会使分析更有意义。 于是, 一个新的挑战被提了出来:在 这被称之为信息爆炸的时代, 如何才能不被信息的汪洋大海所淹没, 提高信息利用率 成为一个垦待解决的问题。 啤酒行业在数据仓库 ( 数据集市) 建设、 提高信息利用率的过程中, 系统设计普 遍缺乏必要的前瞻性。 从而导致数据仓库 ( 数据集市) 项目 缺乏良 好的扩展性。 这导 致的直接后果是, 项目 一期的设计、 开发和部署相当顺利, 对相应的需求有着良好的 支持和解决能力。 然而到了二期的时候, 无法对一期的工作进行必要的扩展和合理的 整合,最终导致项目 的 彻底失败。同时,由于对bl项目 的面向 决策人员的特性缺乏 必要的认识或者在bl项目 建设中没有给予足够的重视, 往往导致bl项目 对决策分析 人员的可用性相当差,决策分析人员无法理解数据仓库 ( 数据集市)中繁多的数据, 他们根本无法自 主的进行独立的分析。这样bl项目 事实上已 经失败。如何有效的提 高bl 项目建设的可扩展性和可用性成为bl 项目建设的突出问题。 1 2现实意义 加入wt o后的中国市场所面临的竞争压力是前所未有的, 提升企业的核心竞争 力无疑成为关键。 什么是核心竞争力?有观点指出“ 核心技术不等于核心竞争能力。 玩 立 “ 生产芯片, 是电脑的核心技术部件, 但其核心竞争能力不如u 贻 u强。 恤er获取 d 七 u 资源, 刀 睡 1 】 直接获取市场; 抓住供应链来满足需求不是核心竞争能力。 波音有核 l 1 引言硕士论文 心竞争能力,但最核心的部件是引攀发动机,来自g e 。 核心竞争能力并不在于你必 须有一个零部件, 更多意味着你有没有抓住市场用户的资 源, 能不能获得用户对你企 业的忠诚度。如果能,那就是市场竞争力, 核心竞争力。 ” 业界十分认同 这一观点。 其实, 现代企业的 核心竟争力就是争取新客户、 维护老客户、 增加客户利润贡献度的 能力,而不只是技术能力、生产能力,尽管后两者十分重要。 统计数据表明,现代企业 57%的销售额来自1 2 %的重要客户,而其余 88%中的 大部分客户使企业获利甚微, 有的不仅无利可图, 甚至还会给企业带来亏损。 数据还 告诉我们, 开发一个新客户的成本是留住一个老客户的5 倍, 而流失一个有价值客户 所带来的损失,就是争取到 10个新客户也可能无法弥补。可见,企业要想获得最大 程度的利润,就必须对不同 类型的客户采取不同的策略。 但是, 如何将争取客户和维护客户的能力变成为一种可以监督、 测量的规范, 而 不是一种短暂的热情?如何将客户关怀和服务贯穿在企业从市场、 销售、 服务的过程 之中,而不是只停留在某些环节?只有实施客户关系管理 ( c r 材) ,才能够打造 21 世纪企业的核心竞争力。 在c r m项目的建设中,维度建模是最为重要、最为基础的工作。它包含着维表 ( 包含事实表)的设计和实现、 分析模型的设计和实现两大部分工作。 维表 ( 包含事 实表) 的设计和实现的三个基本的目 标就是完成数据整合、 保证数据仓库范围内的维 度设计的一致性、 完成业务系统向分析系统的转换。 数据整合消除信息孤岛, 一致性 用来保证项目良 好的扩展性,而完成业务系统向分析系统的转换工作则是用来保证 bl项目 对决策人员良好的可用性。 显然,在信息时代, “ 拍脑门办事” 是愚蠢的,分析型c r m系统就是这种所谓的 “ 胖数据, 瘦信息” ( d a 恤 d 比but in fo rma t i onp o o r ) 馗尬问 题的 一 种解决方案。 缺乏良 好的可扩展性和可用性的bl项目是失败的, 细致和有全局观的维度建模是b l 项目 建 设的关键。 1 3研究现状 数 据 仓 库的 维 度 建 模13 月 , 首 先由r a lp h 幻 m 回1 提出 , 一 般 也 称 之为 星 型结 构 建 模, 有时也加入一些雪花模型在里面。 其总线架构实现方式是, 首先在数据准备区中 建立一致性维度、 建立一致性事实的计算方法; 其次在一致性维度、 一致性事实的基 础上逐步建立数据集市。 每次增加数据集市, 都会在数据准备区整合一致性维度, 并 将整合好的一致性维度同步更新到所有的数据集市。 这样, 建立的所有数据集市合在 一起就是一个整合好的数据仓库。 正是因为总线架构这个可以逐步建立的特点, 它的 开发周期比其他架构方式的开发周期要短, 相应的成本也要低。 在星型结构的原子层 南京理工大学硕士学位论文 c r m系统中维度建模的应用研究 上可以直接建立聚集,也可以 建立h o 曰 j。 c k m( c u st o m err e l atio ns hi pm . 吐 堪 ement) , 最早由 美国 著名rr管理咨询公司 g 留 切 口g m 即于加世纪末正式 提出, 随即 在全球得以 肯定和推广, 被认为能为企业 提供全方位的管理视角, 斌予企业更完善的客户交流能力, 进而实现企业收益和客户 收益的最大化。近年来, c r m 的内 涵得到了 进一步丰富, 逐步演变为一种以客户需 求为市场导向,以缩短销售周期,降低销售成本,扩展市场机会,提高客户满意度、 忠诚度和盈利性为根本目 标, 以 信息技术支撑和服务营销策略为 手段的现代客户管理 体系。概括地讲,c k m就是为了使企业能够在恰当的时间以 恰当的途径向恰当的客 户提出 恰当的销售建议( c r m。 加 由 l e s a co m p 越 iyto口 e , e nt气 山 e 形ght o 任 改tdth e 形沙t c u st o m erat the形gbt肠 m e t 加 ro u ghther i ght c h 越 口 e l ” . ) 两 。 目 前的c r m市场是一个约为20 亿美元的大市场,而且这一市场每年仍正在以 5 识 的速度持续增长。在f 全 o n t l in es o 佃i o n 公司的调查中, 发现大量企业仍然使用 mi croson q 伍 c e 或合同管理软件等进行客户关系管理。 企业对此也很不满意, 因为其 易用性差、功能有限或不能为企业带来过多生意上的好处。 销售技术的迅速演化定将会满足越来越高的客户期望, 与此同时, 也将会使他们 处于一个更具挑战性的竞争环境。竞争力的主要体现,就在于如果通过bl分析工具 和数据挖掘工具把c r m系统的数据展现出来, 并能够极大提升企业的服务质量。 几 乎每个商业公司都需要此类软件, 但大规模的市场分析主要集中在以下行业: 生话消费品行业:如各种烟、酒、 化妆品、 食品的生厂商。 通常每月或每周分析 一次。由于竞争激烈,此类行业通常需要复杂的分析和统计功能。 零售业: 如各大 超市、 连锁店。 主要 是e p o s 的使用和会员卡 ooy al tyc 田 心 5 ) 的引 入, 给此行业产生大量的数据。 一般每周或每天分析一次, 且经常要求察看具体每一 个顾客的数据,需要的复杂分析不多,关键是数据量巨大,因 此采用r o l a 卫较好。 电信及金融服务业: 如电信、银行、保险。主要用于销售分析。 分析时要具体到每个 客户,一 般是 维的层数较少, 但可能 有很多的 维( 变量) , 某些 维( 如客户) 会有上百万 的成员。 l 4 本人工作概述 分析型c r 玉 左系统是个相当庞:灿勺 项目, 作为bl 设计人员, 本人主要完成的工 作是结合c r m的业务流程, 针对啤酒工业的具体特点和啤酒工业分析和决策人员的 共性需求,对数据仓库 ( 数据集市, o d s数据源)进行维度 ( 事实) 设计,保证良 好的扩展性和对决策分析人员的高可用性。 在此基础上设计出一整套涵盖整个啤酒工 业c r m数据的分析模型。 分析模型的设计力求高效。最终,为特定用户预定义一整 1 引言硕士论文 套分析报表。这部分工作主要是针对啤酒工业进行业务分析时的共性问题。 在维度设计中, 采用了分裂为微型维度的方法设计了 大型变化客户维, 有效地解 决了 大型维度的历史信息记录和查询优化的问 题; 在分析模型设计中, 提出了改进的 五度客户分割法, 科学地分割了客户, 为实现对客户提供个性化服务奠定了基础。 在 o l 冉 卫数据存储上,设计和实现了m o l 八 卫和r o u 钾相结合的方法, 兼顾了高效的 数据存储和快速的查询响应的优点。 南京理工大学硕士学位论文c 翻 m系统中维度建模的应用研究 2相关技术简介 2. i bi技术简介 商务智能田画. e 朋h 血】 i l g e n c e , 简称b d 的定义很多, l a 刊 t 地 s k c e o兼总裁王茁 给出了一个比较严谨的定义,“ 商务智能是企业利用现代信息技术收集、管理和分析 结构化和非结构化的商务数据和信息, 创造和累计商务知识和见解, 改善商务决策水 平, 采取有效的商务行动, 完善各种商务流程, 提升各方面商务绩效, 增强综合竞争 力的 智惫 和能 力一闭商 务 智 能 田 d 是 数 据 仓 库 、 。 l a p和 数 据 挖 掘 等 技 术的 综 合 运 用, 是一种解决方案侧 , 把各个商业部门 之间的 商务 数据集成起来, 从中 预测商务 变化,找到潜在商机,为商业决策提供数据支持。 那么, 支撑商务智能的各项技术的 工作原理是什么?它们各自的功能如何?由于商务智能是数据仓库、 o l 冉 卫和数据挖 掘等技术的综合运用,所以有必要先来了解一下这些bl的支撑技术。 2. l i 数据存储技术一数据仓库和数据集市 数据仓库 ( d ata w 扯 e b o 嫂 ) 是将从多个数据源收集的信息,按照单一的模式进 行存储, 并 将这些信息驻留 在单个站点i4) 。 数据仓 库通过数 据清理、 数据变换、 数据 集成、 数据装入和定期数据刷新来构造其内容。 数据仓库收集了整个组织的主题信息, 因此, 它是企业范围的数据存储。宽松地讲, 数据仓库是一个数据库,组织可以将它 与组织 机构的 操作数 据库分别 进行维护15 。 数据仓 库系 统允许将各种应用系统集成在 一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 按照w.h.l n n l on这位数据仓库系统构造方面的权威设计师的说法, “ 数据仓库是 一个面向 主题的、 集成的、 时变的、 非易失的数据集合, 支持管理部门的决策过程” 间 。 这个简短而又全面的定义指出了表明数据仓库主要特征的四个关键词:面向主题的、 集成的、时变的、非易失的,将数据仓库与其他数据存储系统 ( 如关系数据库系统、 事务处理系统和文件系统)区别开来。进一步分析其关键特征如下: 面向 主 题的( s u bj ec t -o ri 。 时 ed) : 数据仓库围 绕一些主 题, 如顾客、 供应商、 产品 和销售组织。 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常 操作和事务处理。 因此, 数据仓库排除对决策无用的数据, 提供特定主题的简明视图 p习 集成的( 加 妞 9 助 团 ) : 通常, 构造数据仓库是 将多个异种数据源, 如关系数据库、 一般文件和联机事务处理记录集成在一起。 使用数据清理和数据集成技术, 确保命名 约定、编码结构和属性度量等指标的一致性。 时变的 ( t 汕e 户 v 面别 吐 ) :数据存储从历史的角度 ( 例如过去5 一 10年)提供信息。 数据仓库中的关键结构,隐式或显式地包含时间元素。 非易失的 ( nonvol 别 习 e ) : 数据仓库总是物理地分离存放数据; 这些数据源于操作 , 2相关技术简介 硕士论文 环境下的应用数据。 由于这种分离, 数据仓库不需要事务处理、 恢复和并发控制机制。 通常,它只有两种数据访问形式:数据的初始化装入和数据访问. 概言之, 数据仓库是一种语义上一致的数据存储, 它充当决策支持数据模型的物 理实现, 并存放企业战略决策所需信息。 数据仓库也常常被看作一种体系结构, 通过 将异种数据源中的数据集成在一起而构造, 支持结构化的 和专门的查询、 分析报告和 决策ll 。 2. 1 .2分析技术州o l a 尹 、数据挖掘 根据 。 l a 尹委员会的定义, 联机分析处理( 0 川 泳 为 画 切让 目乃 灿 比 s s in g ,简称 o l a p ) 是使分析人员、 管理人员或执行人员能够从多种角 度对从原始数据中转化出来 的、 能够真正为用户所理解的、 并真实反映企业维度特性的信息进行快速、一致、 交 互地存取, 从而获得对数据的更深入了 解的一类软件技术门 。 它的技术核心是“ 维” 这 个概念, 因此o l a p 也可以说是多维数据分析工具的集合。 有些历史的企业将会积累 下大量的来自外部或内部的数据, 在进行o l 冉 卫分析时, 要先将这些数据批量装入数 据仓库。此外,业务系统也会不断产生新的数据,并需要增量装入数据仓库。 数据仓库建立之后,即可以 利用 o l a p复杂的查询能力、数据对比、数据抽取 和报表来进行探测式数据分析了。 之所以称其为探测式数据分析, 是因为用户在选择 相关数据后,通过切片、切块、 上钻、下钻、 旋转等操作, 可以在不同的粒度上对数 据进行分析尝试,得到不同形式的知识和结果。 在多维数据结构中,从二维的角度选择数据,称为切片 ( 51 欢) ,按三维或者三 维以上的角度选择数据称为切块 ( 肠沈) 。如在“ 城市、产品、时间” 三维立方体中进 行切块和切片, 可得到各城市、 各产品的销售情况。 在数 据结构树中, 用户选择展开 同一级数据的详细信息, 称为下钻 ( d 哟 1 1 刁 o wn ) , 选择更高一级的数据详细信息以及 数据视图, 称为上钻( d 哟 1 1 一 ) 。 钻取的深度与维度中 划分的 层次相对 应. 旋转( r o 橄e ) 则可以 通过旋转得到不同 视图的 数据【气 数据挖掘是按照一定的规则对数据库和数据仓库中已 有的数据进行信息挖掘和 分析,从中识别和抽取隐含的模式和有用知识,并利用其为决策者提供决策依据。 数据挖掘的任务是从数据中发现模式。 模式有很多种, 按功能可分为两大类: 预 测型 ( h 曰 i c 石 v e ) 模式 和描述型 ( 1 死 即 约 p t 扮 e ) 模式。 预测型 模式是 可以 根据数 据项 的值精确确定某种结果的模式。 挖掘预测型模式所使用的数据也都是可以明确知道结 果的。 描述型模式是对数据中存在的规则做一种描述, 或者根据数据的相似性把数据 分组。 描述型模式不能直接用于预侧。 在实际应用中, 根据模式的实际作用,细分为 分类模式、 回归模式、 时间序列模式、 聚类模式、 关联模式和序列模式6 种。 其中包 含的具体算法有货篮分 析 ( m 田 瓜 c t anaiysis) 、 聚类检测( c l u 的 er in g d 日 必 以 沁 n ) 、 神经 南京理工大学硕士学位论文c r m系统中维度建模的应用研究 网 络( n el 兀 日 n 七 钾 阳 rl 困 ) 、 决策树方法( d ec i s i o n r re e s ) 、 遗传算法( g 印 比c 户 刀 a l y s i s ) 、 连接分 析( l 让 此 户 口 习 ysis) 、 基于范 例的 推 理( c aseb as e d r 份 曰 加 加 9 ) 和 粗 集( 助摊 少 s et )以 及各种统计模型。 数据挖掘与o l a 卫的区别和联系是: o l 冉 卫侧重于与用户的交互、 快速的响应速 度及提供数据的多维视图, 而数据挖掘则注重自 动或者半自 动的发现隐藏在数据中的 模式和有用信息, 尽管允许用户指导这一过程。 o l 八 卫的分析结果可以 给数据挖掘提 供分析信息作为挖掘的依据, 数据挖掘可以 拓展o l a 卫分析的深度, 可以发现o l a 卫 所不能发现的更为复杂、细致的信息。 2. 1 3表示和发布技术一敬据可视化和w七 b 技术 为了发现这些不同 类型的知识。 要采用多种发现知识的工具。 为了使发现知识的 过程和结果易于理解和在发现知识过程中进行人机交互, 要发展发现知识的可视化方 法。 为了了解数据之间的相互关系及发展趋势, 人们可以求助于可视化技术。 信息可 视化不仅用图像来显示多维的非空间数据, 使用户加深对数据含义的理解, 而且用形 象直观的图像来指引检索过程,加快检索速度。 在互联网的架构下, 支撑商务智能的各项技术是一种交融、 整合的关系,以提高 商务智能方案的协同性和开放性。 2 .2c r m简介 c k m以客户满意度为分析基础,重点研究对客户需求的敏捷快速反应和产品的 个性化定制,采用人工智能( a 币 五 d 目加 让 珑 9 oc e ) 、数据仓库(d幽 朴 b o 嫂) 和数据 挖 掘 ( d 以 ta m in 加 9 ) 技 术 开 发 基 于玩 t e 口 e t 的 智 能 型c r 材系 统 【 10111211 13 . c k m的内 涵 可 以分为下面三个层次。 2 .2.i c r m是以客户为中心的现代管理理念 面向 企业前台业务应用的管理标准, 其实质是在关系营销、业务流程重组旧p r, b u s i n 巴 妇p n x 艾 活 s r 剧 泊 g in e er in g ) 等基础上进一步发展而成的以 客户为中 心的 管理理念 1l lj 。 c k m以 客户为中 心的管理思想主要包括以 下三个方面: 1 、客户是企业发展最重要的资源之一 企业发展需要对资源进行有效整合与计划.。 在人类社会从“ 产品” 导向时代转变 为“ 客户” 导向时代的今天,客户的选择决定着一个企业的命运,因此, 客户己成为 当今企业最重要的资源之一。 完整的客户档案或数据库就是一个企业的宝贵资产, 通 过对客户资料的深入分析并应用销售理论中的刀 8 法则将会显著改变企业营销业绩。 2 、对企业与客户的各种关系进行全面管理 企业与客户之间的关系, 不仅包括单纯的销售过程发生的业务关系, 如定单的采 2相关技术筒介 硕士论文 集和处理、 发货、 收款等, 而且包括企业营销及售后服务 过程中的关系, 如在市场推 广过程中与潜在客户关系, 内 部营销人员与目 标客户的多对多关系, 售后服务过程中 对客户提供的服务及记录等。 对企业与客户间可能发生的各种关系进行全面管理, 将 显著提高企业的营销能力、 降低营销成本、 控制营销过程中 可能导致客户抱怨的各种 行为。 3 、为企业实施供应链管理 ( s c m) 奠定基础 c r m技术突破了供应链上企业间的地域边界和不同 企业间的组织边界,解决了 企业供应链中的下游链管理, 将零售客户与企业营销部门紧密结合在一起, 实现对客 户个性化需求的快速响应,降低销售成本。 2. 2 2c r m是透析客户的现代信息技术平台 c r m是综合应用了数据库和数据仓库技术、 o l a 卫技术、 数据挖掘技术、 加 t o . et 技术、 面向 对象技术、 客户机/ 服务器体系、图形用户界面、网络通讯等信息产业成 果的现代信息技术平台。 c r m 通过对客户的各种数据采集、分析、查询、挖掘,为 企业营销人员提供一个对客户3 60度视角的全方位分析, 真正理解客户需求; 在此基 础上, 根据企业不断变化的工作重点对客户进行即时的、 合理的、 可操作的分类测评; 利用企业掌握的不同服务、 管理手段, 建立个性化服务方案; 通过系统内设的日 志功 能, 将个性化服务方案分解为以一线人员的工作计划以实现差异化服务; 在服务、 管 理过程中, 不断吸收对整个营销、 风雷、 差异化服务的反恢, 最终形成一个数据采集、 分析、服务、反馈、再提升的良 性循环。c r m是企业认识客户、把握客户、最终服 务好客户的有力武器。 2 .2 3c r m是一种先进的管理系统 c r m是整合了管理理念、 业务流程、 人及信息技术于一体的管理系统。 c r m既 是一个概念,也是一套管理的软件和技术。利用c k m系统, 企业能搜集、追踪和分 析每个客户的信息. 从而知道他们是谁, 他们需要什么, 并把客户想要的送到他们手 中。 c r m还能观察和分析客户行为对企业收益的影响, 使企业与客户的关系及企业 盈利都得到最优化。c r m的目 标是一方面通过提供更快速、更周到的优质服务吸引 和保持更多的客户; 另一方面同过对业务流程的全面管理降 低企业成本。 分析型c r m 系统是其中的一种。 它主要是借助数据仓库、 数据挖掘等计算技术完成对企业操作性 数据库 ( o d b ) 进行抽取、 清洗、 整合, 并采用一定的分析算法 ( 聚类分析、 决策数, 回归分析等) ,从海量的信息中得到蕴涵的知识,最后利用图表、曲线、 三维立方体 等形式把企业的各种关键运行指标 ( k e y p e “ 沁 nnanceln d i c at o rs , k 卫 1 ) 反馈给决策者 来影响企业的经营管理。 出 南京理工大学硕士学位论文c r m系统中维度建模的应用研究 2 3数据仓库技术 在激烈的市场竞争中, 企业纷纷建立了自己的数据库系统,以 此来收集、存储、 管理业务操作数据, 改善办公环境, 提高操作人员的工作效率。同时, 企业也希望从 海量的数据中获得有价值的 信息,以 支持企业决策。 但是, 传统的 数据库应用系统并 不能很好的支持决策, 因为它是面向 业务的, 无论是查询、 统计, 还是生成报表, 其 处理方式都是对指定的 数据进行简单的数字处理。 虽然能减轻具体操作人员的劳动强 度, 但不能对这些数据所包含的内 在信息进行提取, 所以 对企业的中高层来说并没有 相应的决策支持系统。 企业需要新的技术来弥补原有数据库系统的不足, 需要把已经 广泛收集到的数据集成到数据仓库中, 以从业务数据中提取有用的信息, 帮助他们在 业务管理和发展上做出即使正确的判断。由此, 数据仓库技术应运而生, 成为信息技 术领域非常热门的话题之一。 20世纪50年代中期, “ 数据仓库” 技术这个名词首次出 现在号称“ 数据仓库之父” 的v 石 11 1 . 吐h . 加 功 o n 的 建立数据仓库一书中。其定义如下:数据仓库是一个面向 主题、 集成的、不可更新的、时 变的数 据集合, 它支持管理 部门 的 决策过程。 间 它有 以下几个特点: 面向主题 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类后 进行分析利用的抽象。 在逻辑意义上, 它是对应企业中某一宏观分析所涉及的分析对 象, 是针对某一决策问题而设置的。 面向主题的设置方式, 就是在较高层次上对分析 对象数据的一个完整、 统一并一致的描述, 能完整及统一地刻画各个分析对象所涉及 的有关企业的各项数据,以及数据之间的联系。 目前, 数据仓库的实现主要是基于关系数据库,每个主题有一组关系表或逻辑视 图实现。 这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的, 但 是为了方便支持分析数据处理, 对数据结构进行了重组, 其中还可能增加一些冗余数 据。 集成的数据 数据仓库中存储的数据从原来分散的各个子系统中提取出来, 但并不是原有数据 的简单拷贝,而是经过统一并综合。这是因为: 1 ) 数据仓库的数据不能从原有数据库系统中直接得到,原有数据库系统记录的是 每一项业务处理的流水账, 这些数据不适合于分析处理。 在进入数据仓库之前必须经 过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。 2) 数据仓库的每一个主题所对应的 源数据在原分散数据库中有许多重复或不一致 之处, 必须将这些数据转换成全局统一的定义, 消除不一致和错误之处,以 保证数据 的质量。 显然, 对不准确, 甚至不正确的数据分析得出的结果将不能用于指导企业做 9 2相关技术简介硕士论文 出科学的决策。 数据不可更新 从数据的使用方式看,数据仓库的数据不可更新。即数据保存到数据仓库中后, 最终用户只能通过分析工具进行查询和分析, 而不能修改, 即数据仓库的数据对最终 用户而言是只读的。 由于数据仓库的查询数据量往往很大, 并且查询分析的用户多是 企业的高层领导, 他们是所在领域的专家, 但不一定是计算机专家。 所以对数据查询、 查询界面的友好和数据的表示提出了更高的要求。 从数据的内容上看,数据仓库存储的是企业当前和历史的数据,在一定时间间隔 以 后, 当前数据需要按照一定的方法转换成历史数据。 年代久远且查询率低的数据需 要从数据仓库脱离到廉价的慢速设备( 如磁带比 , 并从数据仓库中删除分析处理不再 有用的数据, 这些工作是由系统管理员或系统自动完成的。 因此也可以说数据仓库在 一定时间间隔内是稳定的,如图2. 3-1 所示。 级 据的 记 录 处理 方式数据的 批 呈 载 入尹 访问 图2- 3 . 1数据不可更新问 题 时变性 数据仓库数据的不可更新是针对应用而言,即用户分析处理时不可更新数据。但 不是说, 数据进入数据仓库以后就永远不变, 这些数据随时间变化而定期更新。 每个 一段固定的时间间隔后, 抽取运行数据库系统中产生的数据, 转换后集成到数据仓库 中。 而数据的过去版本仍被保留在数据仓库中。 随着时间的变化, 数据以更高的综合 层次被不断综合, 以 适应趋势分析的要求。 当数据超过数据仓库的存储期限, 或对数 据分析无用时,从数据仓库中删除这些数据。 数据仓库是一种新型的面向数据应用的数据管理技术, 它以关系数据库管理系统 佃 。 b m s)为基础,数据在从操作型数据库进入数据仓库之前必须经过清理、集成、 选择、 变换, 从而使数据仓库能够提供集成的、 历史化的数据管理功能, 并支持综合 性的数据分析, 特别 是战略 分析11 4 。数据仓库的 基本体系 结 构116 1 如图2. 3 2所示。 l 0 南京理工大学硕士学位论文c r m系统中维度建模的应用研究 us e rus e r 数据 数据集成 数据提取 数据库1 1 文本l lh i ml 曰知识库 图2. 3. 2数据仓库的基本体系结构 图2. 3 2中,底层的数据库、文本、hn 讨 l和知识库代表数据源,数据源可以是 任何类型的信息存储, 还可以是流量统计、 客户点击率、图形图像等等。 数据提取模 块主要负责数据选择、 数据清理、数据变换。其中, 数据选择从数据库中检索与分析 任务相关的数据; 数据清理消除数据源中的噪声和不一致的数据; 数据变换将数据统一 成数据仓库的数据模式。 数据集成模块将多种数据源组合在一起, 初始装载数据仓库、 维护数据仓库视图。 元数据是关于数据的数据, 可以分为两种类型, 一种是为了从操 作型环境向数据仓库环境转换而建立的元数据, 它包括了所有源数据项属性及其在数 据仓库中的转换; 另一种是用来与终端用户的多维商业模鲤 乡 前端工具之间建立映射, 第二种元数据称为d s s 元数据。 从数据仓库的基本体系结构也能大致看出数据仓库的创建步骤。 联机分析处理 0 。 廿 ) 是一种数据仓库技术, 也称作多维数 据分析方法。数据仓 库技术的最根本的目的是决策支持。 决策的前提是数据分析。 数据仓库将数据用“ 维” 的结构, 将常用的统计结果汇集起来,以便于决策支持系统使用。 存储汇集操作结果 的地方称作多维数据库。 为了处理联机数据, 研究人员提出了 一种面向属性的归纳方 法。 它的思路是,直接对用户感兴趣的数据视图 ( 用一般的 s ql 查询语言即可获得) 进行泛化, 从而进行联机分析。 方法的提出者对这种数据泛化技术称之为面向属性的 归纳方法。 原始关系经过泛化操作后得到的是一个泛化关系, 它从较高的层次上总结 了在低层次上的原始关系。 有了泛化关系后, 就可以对它进行各种深入的操作而生成 满足用户需要的知识, 如在泛化关系基础上生成特性规则、判别规则、分类规则,以 及关联规则等。 3 维度模型设计与应用硕士论文 3维度模型设计与应用 3. 1 基本概念 维度表, 维度表中 包含 着单一的 主关 键字和 业务的 文 字 描述11 习 。 单一的 主 关 键 字是确保与之相关联的任何事实表之间引用完整性的基础。 对业务的文字描述, 要比 较清晰易懂, 有利于决策人员迅速准确地理解数据; 还要尽可能多的包含一些富有意 义的描述, 这些是查询约束条件、分组、 和最终报表标签生成的主要来源,以及进行 o l a 夕分析时候切片 ( 块) 、 旋转的 基础. 维 度表的记录数一 般控制在1 00万条以 内. 尽可能避免空值的出现。 表3 . 1 . 1 显示了一个维度表的基本特征。可以 看到, 在维表中存放着大量的业务 描述信息。 这些信息正是决策支持人员常用的看待分析数据的不同的角度。 大量有意 义的此类信息的设计和存放, 有利于决策支持人员更好的理解、 分析业务数据, 更直 观,更多角度的展现和审视数据。 表3.1 . 1维度表示例 属性设计 属 性 值描 述 产品关键字 0 7 5 3 0主关键字 产品描述高档啤酒产品的主要信息 s ku编号 99 3 4 3 5 2商 品 条 形 码 编 号 商标描述白金大富豪啤酒商标的主要信息 分 类 信 息啤 酒 酒 类类别属性信息 部门 信 息销 售 一 部部门 概要信息 包 装尺 寸普 通包 装的 尺 寸 信 息 包装类型透明啤酒瓶 包装属性描述 其它属性描述出口 日 本 其 它 概 要 信 息 位置描述二架下排摆放位置信息 事实表, 它是维度模型的 基本表, 其中 存放着大量的 业务性能的 度量值11 习 。 术语 “ 事实” 代表一个业务度量值。比如一个超市销售记录中的 “ 销售量” 和“ 销售额” 就是 所谓的 “ 事实” 。事实表的 一 行包含一些关联字段( 和维度表关脚和一些 度量值, 这些 度量值在任何一行都要有相同的粒度。 同时, 这些值在数据仓库中的数量是压倒性的, 并且更为重要的是,它们往往以相对固定的 “ 分组” 出现在分析中,所以事实表的存 放应该是减少副本来减少同步的代价, 并避免过度细化的分离的存储来提高查询的相 应速度。 表3. 1 .2是一个事实表的例子。可以 看到,事实表中存放了分析系统要分析的业 务数据,这些数据型字段有着统一的粒度。另外,为了提高分析系统的速度和效果, 往往将业务系统中抽取的数据转换成对分析更有意义的事实并加以存储,比如,表 3. 2中的 “ 平均价格” 字段。 需要注意的是,有一些转换虽然对分析非常有用, 但它 i 2 南京理工大学硕士学位论文c r m系统中维度建模的应用研究 们如果属于完全非可加型事实, 就不要存放在事实表中。 缓为突出的一个例子是, 事 实表中几乎从不存放比 例、比率等字段。 事实表的另一个显著特点是, 其中存放着很 多用做外键的维表主键。这些是多角度分析的基础。 表3 . 1 2事实表示例 属性设计属性值描迷 日期关键字 1 2 0 5 连接日 期维表 产品关键字 1 2 3 4 5 连接产品维表 销售区域关键字 3 4 5 连接销售区域维表 销售人员关键字 05 1 3 21 连接销售人员维表 销售额2 1 4 2 1 4 2 . 5 0当前粒度的销售量 销售量3 3 2 1 2 1当前粒度的销售金额 平均价格 6 .45 存放一些有意义的计算值 卜 可加事实、 非可加事实和半可加事实。 如果在任何一个维度的较高粒度上事实表 的度量值就是其子粒度的度量值的简单的加和, 这些度量值就是可加事实。比如, 销 售量、销售额等; 反之, 在任何维度的 较高粒度上事实表的度量值都不能通过其子粒度 的 度量值的简单的加和得到的度量就是非可加事实。比如, 销售额增长率等; 特殊地, 在一部分维度上是可加的而在另外一部分维度上是不可加的度量是半可加事实r比 如, 库存量,在时间维度上是不可加的,在其它维度上一般是可加的。 退化维。 有一些维度信息是业务系统所必须的,而分析系统中却不再需要的, 比 如说发票号。这些维度将在数据仓库中退化,称为退化维. 渐变维。 一般情况下, 维度不会随着时间发生变化,维度之间的相互独立的。但 是,事实并非如此,有一些维度随着时间缓慢的发生变化,这种维度称之为渐变维。 比如, 产品维就是这种情况, 一个企业的产品线的变化一般是随时间发生缓慢变化, 这种缓慢变化又对分析有着显著影响的。 一致性维度. 在不同的数据中 心( 集市) 中的相同的维度,比 如库存和零售分析中 的产品维度, 要么是同一的, 要么是具有最佳粒度性和细节性的维度的严格意义上的 子集。 它们必须具有一致的维度关键字, 一致的属性列名字, 一致的属性定义以及一 致的属性值。 自然关键字。对于一些维度,其中的某一或者某些属性能够唯一的标志该属性, 可以将它 ( 它们) 作为自 然的关键字。 比如日 期维度中的日 期属性, 如果时间维的粒 度为 “ 天” ,则日期就是日期维度的一个自 然的关键字。 代理关键字。 在数据抽取过程中, 往往不使用维度的自然关键字作为关键字, 而 是使用一些和业务无关联的 字符串 或数字作为关键字, 也不直接使用业务系统中 现有 l 3 3 维度模型设计与应用硕士论文 的关键字, 这些关键字称为代理关键字。 使用代理关键字的两个优点: 第一, 消除业 务系统中业务逻辑信息。 业务系统中的 关键字往往包含着一定的业务信息, 比如员工 的编码往往隐含着员工的部门和一些时间信息。 由 于数据仓库的面向的用户是决策人 员, 他们没有必要理会这些信息, 他们要么不需要这些信息, 要么需要确切的明确无 误的信息。 第二, 可以大大降低数据仓库的存储空间。 假设数据仓库是使用o r a c le 的产品,那么山恤类型的存储是7 个字节,而日期维度如果记录的是50年的数据, 应该 有50 x 3 65= i b250条 记录, 如果 使 用 代理关 键 字只 需 两 个字节(21 ,)就足 够了 , 如果有一张1 00万条记录的事实表, 那么在事实表中 只需要l oox z 万个字节而不是 l oox 7 万个字节。 维度模型 维 度、 事实以 及他们之间的关联一 起构成维度模型四。目 前主 要采用的星型和 雪花型模型。 星型模型是由一个事实表和多个维表组成, 各个维表以 事实表为中间媒 介联系在一起。维表之间没有联系。而雪花型模型可以认为是星型模型的一种拓展。 在雪花型模型中和事实表相连的维度表可能不只是一层, 外层的维表通过完整性约束 和内层的维表进行关联。 图3 . 1 1 和图3 . 1 2 显示了星型和雪花型模型的区别和联系。 图3 . 1 . 1星型模型 星型模型的特点: 决策分析人员容易理解。 优化浏览。 最适合查询处理。有星型 索引支持。占用的存储空间比较大。 南京理工大学硕士学位论文c 刊 m系统中维度建模的应用研究 图3. 1 .2雪花型模型 雪花型模型的特点: 有效减少存储空间。 规范化的结构更容易被数据库设计和维 护人员理解。便于更新和维护。不利于浏览和理解。维度建模的总线结构。 显然, 采用自 顶向下的设计方法进行整个数据仓库的维度建模因为需要太多的经 验和庞大的前期投入而让人望而生畏。 但是, 孤立的进行建模又会挫败任何重用和扩 展的美丽梦想。 这就需要有一种在体系结构上可以 按照增量方式进行维度模型扩展的 方法。本文采用的是一种可扩展的利于并行设计的总线型系统结构。 总线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 难点解析-人教版八年级物理上册第6章质量与密度-质量章节训练试卷(含答案解析)
- 2025年互联网与信息技术行业生成式AI内容安全法律责任认定考核试卷
- 考点解析人教版八年级物理上册第5章透镜及其应用-透镜同步测试试卷(解析版)
- 难点解析人教版八年级物理上册第5章透镜及其应用-透镜专题攻克试题(含答案解析)
- 2025年数字人民币试点操作考核试卷(策略与评估类)
- 重难点解析人教版八年级物理上册第5章透镜及其应用-透镜专题训练试卷
- 考点解析-人教版八年级上册物理光现象《光的反射》达标测试试卷(解析版)
- 考点解析-人教版八年级上册物理《物态变化》章节测试试题(含解析)
- 知识产权法公有领域问题研究
- 著作权质押合同(标准版)
- 工程欠款协议书范文
- 2025年中国鞋撬市场调查研究报告
- 事故隐患内部报告奖励制度
- 2024年广东省中考满分作文《当好自己故事的主角》2
- DB37-T 5001-2021 住宅工程外窗水密性现场检测技术规程
- 冬季心血管疾病的预防
- 心衰患者出入量管理研究进展
- 安全部经理竞聘汇报
- 《物料摆放规范》课件
- 《智能建造技术与装备》 课件 第二章 BIM技术与应用
- 基于传统知识体系的民族医药标准化研究
评论
0/150
提交评论