




已阅读5页,还剩79页未读, 继续免费阅读
(管理科学与工程专业论文)分析型crm系统的分析与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在传统的商业模式中,降低成本、提高效率和工艺是企业获得利 润的重要途径。而随着市场的完善和信息技术的发展,客户掌握了更 多的主动权,具有比以往更多的渠道和机会来选择个性化的服务和产 品。以客户为牵引的市场已经形成,客户资源成为企业盈利的重要资 产。随之对客户信息进行收集、加工和处理成为企业信息化的一个 重要方向。客户关系管理( c r m ) 为此提供了有效的途径,它将“以 客户为中心”的管理理念体现为一套计算机软件系统,为客户提供个 性化的服务,建立良好的客户关系,提高企业的竞争力。 客户关系管理不仅要处理大量的客户信息,而且要进行大量的统 计和分析,这是传统的信息系统无法完成的。而数据仓库技术为c r m 系统的实现提供了技术支撑,其中o l a p 技术和数据挖掘技术提升了 c r m 系统的核心价值。 保险行业由于其自身业务的特殊性,对c r m 系统的需求更为迫切。 保险公司销售的不是有形的产品,而是无形的服务和承诺。险种本身 并不具有明显的产品质量和技术含量,能吸引客户的是信誉和服务能 力。保险的销售是针对客户的纯关系型销售因此客户资源对保险行 业具有更为重要的意义。 本文结合中国人寿北京分公司团险分析型c r m 系统,在探讨数据 仓库相关技术和分析型c 刚相关理论的基础上,详细描述了团险分析 型c r m 的分析、设计和实施过程,从分析主题的确定、逻辑模型的设 计,到数据的抽取、物理模型的实现,再到系统的调度。从而在理论 和技术上为保险行业分析型c r m 系统的实施提供参考。 关键词:数据仓库、分析型客户关系管理、联机分析处理 a bs t r a c t i nt r a d i t i o n a lc o m m e r c ia lm o d e ,r e d u c i n gc o s t ,e n h a n c i n ge f f i c ie n c y a n di m p r o v i n gt e c h n i c sw e r et h em o s ti m p o r t a n tm e t h o d sf o re n t e r p r i s e s t o p u r s u ep r o f i t h o w e v e r 9 w i t ht h e d e v e l o p m e n t o fm a r k e ta n d i n f o r m a t i o nt e c h n o l o g i e s ,c u s t o m e ra c h i e v e sm o r ed o m i n a t i o n ,a n dg e t s m o r ec h a n n e l sa n dc h a n c e st oc h o o s ep e r s o n a ls e r v i c e sa n dp r o d u c t s c u s t o m e r - o r i e n t e dm a r k e th a sf o r m e d ,a n dc u s t o m e rw i l lb eo n eo f t h e m o s t i m p o r t a n t a s s e t s a c c o r d i n g l y , t h ec o l l e c t i n g ,p r o c e s s i n g a n d d i s p o s i n go f c u s t o m e ri n f o r m a t i o nw i l lb eam a i nt e n d e n c yo fe n t e r p r i s e i n f o r m a t i o n i z a t i o n f o r t u n a t e l y , c r mc a r ls u p p o r ti te f f e c t i v e l y a sa s e t o fs o f t w a r e ,c r mr e f l e c t sc u s t o m e rf o c u s e d i d e a ,p r o v i d e sp e r s o n a l s e r v i c e ,e s t a b l i s h e ss a t i s l y i n g c u s t o m e rr e l a t i o n s h i p ,a n de n h a n c e st h e c o m p e t i t i o n o f e n t e r p r i s e s c r mn o to n l ys t o r e s p l e n t yo f c u s t o m e rd a t a ,b u ta l s op r o c e s s e s k i n d so fd a t aa n a l y s i s ,w h i c hi sb e y o n dt r a d i t i o n a lm i s w h a t sm o r e , d a t aw a r e h o u s ec 肌s u p p o r tt h ei m p l e m e n to fc r md e e p l yi nt h ev i e wo f t e c h n o l o g y , e s p e c i a l l yb y t h et o o l so fo l a p a n dd a t a m i n i n g t h e p a r t i c u l a r i t yo f i n s u r a n c el e a d st ot h a tc r mi sn e e d e d u r g e n t l y w h a ti ss o l d b y i n s u r a n c e c o m p a n i e s i sn o tm a t e r i a l p r o d u c t s ,b u t i n t a n g i b l e s e r v i c e sa n d p r o m i s e s ,w h i c h d o e sn o t p o s s e s s o b v i o u s c h a r a c t e r sof q u a l i t y a n d t e c h n i q u e o n t h e c o n t r a r y , w h a t a t t r a c t s c u s t o m e ri sc r e d i t s t a n d i n g a n ds e r v i c e a b i l i t y t h e r e f o r e ,t h e s a t eo f i n s u r a n c ei sap u r er e l a t i o n s h i ps a l e ,a n dc u s t o m e rr e s o u r c e sa t em o r e i m p o r t a n t t oi n s u r a n c e b a s e do i lt h ea c r mo ft h eb e i j i n gb r a n c ho fc h i n a l i f ei n s u r a n c e c o m p a n y , t h i sd i s s e r t a t i o nd i s c u s s e st h er e l a t i v et h e o r y o fc r ma n dc o r e t e c h n o l o g y o fd a t aw a r e h o u s e f i r s t l y t h e ni te x p a t i a t e s o nt h ea n a l y z i n g , d e s i g n i n g a n di m p l e m e n t i n go ft h ea c r m ,i n c l u d i n gt h ed e f i n i t i o no f a b s t r a c t a n a l y t i c a ls u b j e c t s ,t h ed e s i g no fl o g i cm o d e l s ,t h ee x t r a c t i o no fd a t a ,t h e e x e c u t i o no f p h y s i c a lm o d e l s ,a n dg oo n b y t h i sm e a r l s ,t h i sd i s s e r t a t i o n p r o v i d e sr e f e r e n c et o t h ei m p l e m e n t a t i o no fa c r mi ni n s u r a n c eb o t hi n t h e o r y a n di nt e c h n o l o g y k e y w o r d s :d a t aw a r e h o u s e ,a c r m ,o l a p 结束语 y 7 4 1 8 9 5结束语 _ l 独创性声明 本人声明,所呈交的学位论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得北方交通大学或其他教学机构的学位或证书而使用过的材 料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了明 确说明并表示了谢意。 本人签名:壶苫数 日期:堕虹月卫日 引言 1 引言 1 1 论文背景 进入2 0 世纪9 0 年代以来,客户关系管理( c r m ,c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ) 得到了诸多媒体的普遍关注。c r m 不仅在 理论领域成为了研究的热点,而且在应用领域也被国内外厂商和企业 所高度重视。可以说继电子商务、e r p 之后,c r m 在不久的将来会引 领企业信息化的主导方向。这是市场竞争不断激烈化和信息技术不断 发展的必然趋势。 首先,随着市场机制的不断完善,企业之闻的竞争越柬越激烈, 在传统的市场体系下,企业仅关注于产品的质星和成本的控制。在这 一阶段,企业通常通过改进技术和工艺来提i f i i 利润。而随着商品经济 的发展和生活水平的提高,人们越来越强调个性化的服务和消赞。单 纯依靠产品的质量和价格信息已经远远不能满足用户的需求。随之, “以产品为中心”的商业模式i 丌始向“以客户为中心”的商业模式转 变,以“客户需求为牵引的市场不断发展壮大起来。在这种情况下, 客户成为了企业最为重要的资产,谁能够把握客户的需求,并以最快 的速度做出响应,谁就能不断地吸引新客户、留住老客户,从而在激 烈的市场竞争中获得绝对优势。美国g a r t n e rg r o u p 最早提出了客户 关系管理c r y l 的概念,目的在于建立一个系统,使企业在客户服务、 市场竞争、销售及支持方面形成个彼此协调的、全新的关系实体, 为企业带来长久的竞争优势。 其次,随着网络和信息技术的不断发展,大大地拓展了企业和客 户之间的沟通渠道。客户可以获得更多的产品信息,从而增加了消费 选择的自主权:企业可以获得更多的客户需求信息,从而提供个性化 的客户服务。客户信息是客户关系管理的基础。而在传统信息技术的 基础上,很难实现对大量历史客户信息的统计和分析。数据仓库、商 业智能、知识发现等先进技术的产生和发展,为客户信息的处理提供 了有效的途径。其中,数据仓库技术提供了海量数据的存储和处理方 北京交通大学硕士学位论文 案,成为了客户关系管理发展的推动力量。 就其功能而言,c r m 采用先进的信息技术,使企业市场营销、销 售管理、客户服务和支持等流程信息化,实现客户资源的有效利用和 管理。其核心思想是以“客户为中心”,提高客户满意度,改善客户 关系从而提高企业的竞争力。正如实施e r p 可改善企业的效率一样, c r m 的目标是通过缩减销售周期和销售成本,通过寻求扩展业务所需 的新市场和新渠道,并且通过改进客户价值、满意度、忠实度、赢利 能力等来改善企业的有效性。根据对那些成功地实现客户关系管理的 企业进行调查表明:每个销售员的销售额增加5 i ,顾客的满意度增 加2 0 ,销售和服务的成本降低2 1 ,销售周期减少三分之一,利润 增加2 0 。 近年来,越来越多的国内外企业和软件开发商把c r y l 作为研究热 点。c r m 系统是集成了后台应用的前台系统,是在以客户为中心的销 售、营销、服务和支持应用的增强、自动化的基础上,提高客户满意 度和忠实度,从而给企业带来长久利益的一种应用和理念。许多企业 在实施c r m 时,正是违背了这条原则,致使c r m 不成功的案例屡见不 鲜。 c r m 不仅是一种软件产品,更是一种管理理念。著名管理咨询专 家j i mb e r k o w i t z 认为c r m 必须具备两个坚实的基础 一个是合理的 组织结构( 0 r g a n i z a t i o n ) ,另一个是合理的信息结构( i n f o r m a t i o n ) 。 如果企业实施c r m 的动机是建立在各部门各自的利益之上而不是适应 面向客户为中心的商业哲理、文化和战略,那么c r m 就缺少了合理的 组织结构基础。这种合理的组织结构是将一个共享的、更加整合的工 作流和信息流代替原先集中的部门流程。这样,企业变成一个统一的 组织,来有效预测客户需求,管理客户价值,简化企业运作流程。 1 2 研究意义 c p 0 4 可咀划分为三种类型:操作型c r m 、协作型c r m 和分析型c r i 。 其中,操作型c r m 主要包括销售自动化、营销自动化和服务自动化等, 是c r m 的基础功能模块;协作型c r m 主要提供了企业与用户之间的沟 引言 通渠道,包括呼叫中心等模块:而分析型c r 对客户信息进行统计和 分析,发现潜在的规律和知识,从而进行辅助决策。分析型c r m 是体 现c r m 系统价值的核心部分。而数据仓库技术是分析型c r m 的重要支 撑点。本文将主要描述基于数据仓库技术的分析型c r m 系统的设计与 实现。 虽然分析型c r m 系统能够提升企业的客户价值,进而提高企业的 核心竞争力,但是并不是每一个企业都能具备实施分析型c r m 系统的 实力和必要性。目前,国内外分析型c r m 系统的成功案例主要集中在 保险、银行、证券、电信以及大型零售业等领域。 对于保险行业而言,其核心业务是险种的销售,提供的不是有形 产品,而是无形服务。因此,比起其它行业,客户资产对保险行业显 得更加重要。同时,在保险行业存在着更多的不确定性因素。对于风 险预测能力有较高的要求,这样就需要对历史数据进行积j l 和分析。 另外,随着w t o 的加入。大量的外资保险公司涌入中国市场,这些外 资公司经济实力雄厚、管理科学、经验丰富,无疑会对巾国的保险市 场带来重大冲击。在这种情况下,国内的保险公司要想在竞争t _ i 立足, 就必须进一步提高客户资产的价值,分析型c r m 为此提供了有效的途 径。 在保险行业实施分析型c r m 系统,具有以下意义: 首先,分析型c r m 系统集成了业务系统中的历史数据,整合了企 业的内部资源,将传统的电话保险、网络保险、自助设备、网点整合 成保险服务的前端体系,并潘透到管理、产品设计、财务、人力资源 等部门实现保险业务运营效率的全面提高。 其次,分析型c r m 能够将营销、服务和管理的业务流和信息流加 以整合,形成统一的、高效的、以“保户需求 为核心的强大团队。 同时提供一个各部门共享的信息平台,并通过这个平台,为保户提供 更加高效、便捷的个性化服务。从而提高客户的忠诚度和满意度,达 到留住老客户、吸引新客户的目的。 最后,分析型c r m 能够为保险系统打造核心竞争力。进行各种市 场分析和风险预测,加强开发、创新和营销险种的能力。通过分析型 c r 系统为领导决策提供客观依据,为打造核心竞争能力提供强有力 的系统保障。 北京交通大学硕士学位论文 中国人寿北京分公司在目前现有的信息平台上,投资实施分析型 c r m 。在项目初期主要针对团险部分,团险业务在人寿北分中占有重 要而特殊的位置。 事实上,保险行业一开始就是从团险做起的。团险业务占整个人 身险业务收入的比重曾高达6 9 9 。然而,最近几年,团险业务的保 费收入在整个寿险业务中所占比重逐渐萎缩,至今仍在2 0 左右。团 险业务质量不高,理赔成本和管理成本却居高不下。另一方面,外资 保险公司刚刚进入中国市场,就瞄准了团险市场,展开了激烈的竞争。 可见,团险业务并不是“鸡肋”业务,而是促进公司未来发展的核心 增值业务之一。 目前中国的社会保障体系正在经历着重大变革,教育、医疗、养 老等社会保障制度正由原来的国家包办向企业、个人统筹转变团体 保险需求将会不断升温。同时,随着我国社会主义市场经济体制和现 代企业制度的逐步建立和完善,大中型国有企业脱困目标的初步实现 和国家支持中小企业发展战略的实施,必将为团险业务的拓展提供更 为广阔的空问。 在旧的体制下团险业务主要是通过政府和企事业单位的行政干 预。随着保险市场的逐步完善,国内保险业还不能迅速适应体制转变, 团险业务发展显得相对滞后。大多数保险公司没有找到适合自身发展 的团险业务模式,或者固步自封,或者照抄西方经验,产品结构单一, 管理、技术、销售、服务较为滞后,都不能适应市场需求。 因此,相对而言,团险业务更需要转化管理模式,收集客户信息, 进行市场细分,进行趋势预测和风险控制。而这些都必须借助于分析 型c 蹦系统的支持。 1 3 主要内容 本文在对数据仓库和客户关系管理的相关理论进行阐述的基础 之上。详细地描述了团险分析型c r m 系统的分析、设计和实现过程。 本文共分为6 部分: 第一章,引言部分。介绍本文的研究背景、主要意义和主要内容: 引言 第二章,数据仓库理论部分。该部分详细地介绍了数据仓库技术 的发展背景、数据仓库的核心概念,数据仓库的体系结构以及数据仓 库相关的两大技术:o l a p 和数据挖掘; 第三章,分析型c r m 理论部分。该部分主要阐述了c p , m 的内涵, c r m 的三大类体系结构,即操作型c r 、协作型c r m 和分析型c r m 。并 在此基础上进一步阐述了以数据仓库技术为核心的分析型c r m 系统模 型以及分析型c r m 系统的主要功能: 第四章,团险分析型c r m 系统的分析与设计部分。该部分详细地 描述了中国人寿北京分公司团险分析型c r m 系统的分析与设计过程, 包括对分析型c r m 系统的需求现状分析,分析型c r m 系统实施的主要 过程,中国人寿北京分公司的团险业务现状分析,在这些工作的基础 之上进行分析主题的确定和逻辑分析模型的设计; 第五章,团险分析型c r m 系统的实现部分。该部分主要介绍了中 国人寿北京分公司团险分析型c r m 系统的实现过程,首先对系统进行 简要介绍,然后对数据的抽取过程、模型的建立过程、数据的前台展 示以及系统的调度过程加以详细描述,最后在系统中引入了对数据挖 掘技术的探讨。 第六章,结束语。对文章的主要内容加以总结,并提出进一步研 究的方向。 北京交通大学硕士学位论文 2 数据仓库理论 2 1 数据仓库的引入 在今天瞬息万变的商业环境中,企业之间的竞争越发激烈。随着 现代企业经营模式的不断转变咀及商业市场的不断完善,这种竞争已 经远远不单纯取决于产品本身的因素。销售渠道、客户需求等各种信 息成为了决定企业发展方向以及能否立足的关键所在。随之,信息技 术本身也迅猛发展起来。 一直以来,应用与技术都是相互作用的,二者相互推动,相互影 响。一方面,信息技术的发展很大程度上扩充了企业的信息获取渠道, 丰富了企业的数据量,同时提高了企业的运作效率。另一方面正是 在信息技术的推动下,企业的应用不断发展,同时竞争也越发激烈。 企业所获得的大量数据以及不断出现的商业应用为信息技术的发展 提出了挑战,并起到了重要的推动作用。 目前,信息技术的发展,主要朝着两个方向发展:广度发展和深 度发展。所谓的广度发展主要是针对数据的获取渠道而言。随着网络 技术的出现和迅猛发展,数据的获取渠道不断拓展。借助于网络技术, 大多数企业已经有能力以各种形式获取大量的数据,不仅来源于企业 的内部,而且来源于企业的外部。这些数据量大约不到5 年就可以增 长一倍。同时,数据的形式多种多样,包括原始的商业文档,商业数 字,以及图形、图像、声音等等。所谓的深度发展,是针对数据的处 理和加工而言的。企业之所以要投入成本收集大量的数据,归根到底 在于利用这些数据为企业的各项决策提供依据。决策来源于事实的发 现,事实来源于信息的分析,而信息来源于数据的收集。事实上,目 前企业面临的主要问题并不是数据本身的匮乏。恰恰相反正是由于大 量数据的充斥,导致了困扰大多数企业的“数据丰富,信息贫乏”问 题。也正是如此,如何识别数据,从海量的数据中提取有用的信息, 成为了企业信息化进程中的关键问题。 数据仓库是企业数据的处理过程,它将企业内分散的、异构的数 数据仓库理论 据经过重新组合、加工,构成一种综台的、面向分析的、支持决策的 数据体系,进而支持数据挖掘、多维数据分析、动态查询等各种技术 以及传统的查询报表功能,从而为决策的制定提供重要的参考价值, 最终提升企业的利润。数据仓库系统为这种信息技术的深度发展提供 了技术支持。 数据仓库是一种解决方案,它以传统的数据库技术作为存储和管 理资源的基本手段,以统计分析技术作为分析数据的有效方法,以人 工智能技术作为发现规律的科学途径,是一门综合运用多种领域知识 的新技术。 数据仓库系统基于传统的数据库系统之上,引入新的方法和技 术,从而解决了传统数据库系统中不可克服的问题。简单地说,数据 仓库系统在以下方面具有明显的优势: 1 、集成多个数据源:在实际的应用中,企业的数据源十分复杂, 可能分布在不同的地理位戢上,也可能分靠在不同的数据库和操作平 台上。在传统的数掘库系统中,很难将这些高度分靠的数掘集中起来 加以利用。而数据仓库系统能够将各种数掘源整合到统一的数据仓库 平台中,达到了利用多种数据源的目的。 2 、保持数据的一致性:由于应用的不同,在传统的业务系统中, 企业内部的数据通常被分割在各个业务部门内部。这种分割使得数据 很难在整个企业的高度保持一致性,从而形成了严重的“数据监狱 问题。数据即便能在企业内部得以共享,但由于业务应用的差别,也 会导致数据的不同解释和处理。而数据仓库系统按照数据一致性的原 则将数据转移到统一的数据仓库中,对数据进行了过滤和转换,保证 了数据的真实性和一致性。 3 、充分利用历史数据:在传统的业务处理中所用到的数据多数 是当前的数据,进行数据的查询和删改。然而,在企业决策中真正具 有参考价值的是历史数据,因为只有通过历史数据才能准确的对企业 作出各种趋势分析。在传统的业务系统中。历史数据大多数存储在磁 带、光盘等介质中,要查询一次历史数据是非常费时、费力的。而在 数据仓库系统中,存储的主要是大量的历史数据和汇总数据,这样对 历史数据进行查询和分析就非常容易。 4 、 提高分析效率:在传统的业务系统中,数据库中存储的基本 北京交通大学硕士学位论文 上都是具体的数据。然而在进行数据分析的时候,需要依据汇总数据 或统计数据,这样势必引起大量的计算,从而降低了效率。而在数据 仓库系统中,由于在数据仓库存储的就是一些经过预先计算的汇总数 据,从而避免了大量的计算过程,直接提高了分析效率。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的 积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这 些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥 作用,才有意义。而把信息加以整理归纳和重组,并及时提供给相应 的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看, 数据仓库建设是一个工程,一个过程,而不是一个产品。 2 2 数据仓库的概念 目前,数据仓库的理论和应用已经得到很大的发展,然而针对数 掘仓库一词却还没有形成一个统一的定义。其中著名的数据仓库专 家w , j + i n m o n 在其著作b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中给 予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i1 e ) 、反 映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。从该 定义中,我们可以看出,数据仓库拥有以下四个特点: l 、面向主题:操作型数据库的数据组织面向事务处理任务,各 个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域 进行组织。主题是个分析领域,是在一个较高层次上对数据进行组 织、归类的标准。面向主题的数据组织方式是在较高的层次上对分析 对象的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项 数据,以及数据之间的关系,从而使得面向主题的数据组织可以独立 于数据的处理逻辑,方便了在多种环境上开发新的分析型应用。 2 、集成:面向事务处理的操作型数据库通常与某些特定的应用 相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数 据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、 汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库 8 数据仓库理论 内的信息是关于整个企业的、一致的全局信息。 3 、稳定:操作型数据库中的数据通常实时更新,数据根据需要 及时发生变化。数据仓库中保存的是大量的经集成、加工过的综合性 历史数据,主要供企业决策分析之用。所涉及的数据操作主要是数据 查询。一旦某个数据进入数据仓库阻后,一般情况下将被长期保留。 也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少, 通常只需要定期的加载、刷新。 4 、反映历史变化:操作型数据库主要关心当前某一个时间段内 的数据,而数据仓库中的数据通常包含历史信息系统记录了企业从 过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信 息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析 和预测。 简而言之,对于数据仓库的概念我们可以从两个层次加以理解。 首先数据仓库用于支持决策,面向分析型数据处理,它不同于企业 现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集 成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据 仓库中的数据一般不再修改。 2 3 数据仓库的体系结构 传统数据库存储的是最基本的细节性数据,主要用于快速处理各 部门的日常事务。随着市场竞争的激烈化和管理过程的复杂化,单纯 的事务处理远不能满足企业需求,企业对分析和决策的要求越来越 高。然而,大量数据的罗列并不能解决任何问题。问题的关键在于能 从纷繁复杂的数据中找出规律性和潜在信息,这也正是数据仓库的精 华所在。 数据仓库的体系结构大概由三部分组成:数据源、数据仓库管理 平台和前端工具,如图2 1 所示。 北京交通大学硕士学位论文 数据仓库管理平台i前端工具 。 图2 - 1 :数据仓库体系结构 数据源:数据源是数据仓库系统的数据源泉,是进行分析处理的 基础。数据仓库中的数据来源广泛,形式多样。这些数据既包括企业 内部的数据,如企业信息系统中的各种业务处理数据和各类文档数 据,又包括企、a k cr - 部的数据,如市场信息,竞争对手信息和各种法律 法规等等。数掘的形式也比较复杂,包括各种类型的数据库系统中的 二维表、e x c e l 表格以及数据文件等等。数据的物理存储包括直接读 取设备、远程访问、磁盘、磁带等多种形式。 数据仓库管理平台:数据仓库管理平台的主要任务是对大量的数 据进行处理、存储和管理,这一部分是数据仓库的核心。 数据的处理是指从各种业务系统中提取数据的过程。由于数据仓 库的数据源十分复杂,在数据进行加载之前需要进行对数据的抽取、 清理和过滤,从而在保证数据的准确性和一致性的前提下将数据装入 到数据仓库平台中。 数据的存储是指数据在数据仓库中的组织形式。数据仓库的数据 组织方式决定了它有别于传统数据库,同时也决定了其对外部数据的 表现形式。数据仓库将各数据源中的数据进行有效的集成之后,主要 是按照主题进行数据组织,包括事实表和维表。其中,事实表存放着 数据分析的标准,也就是用户比较关心的内容。维表存放着事实信息 的属性,也就是用户考虑问题的角度。 数据的管理是指对数据仓库中的数据进行日常的维护。其主要管 理任务包括批处理作业管理,数据安全管理,数据冲突管理,数据质 量核查,元数据管理和数据的备份与恢复等。数据仓库管理中的一个 重要方面是元数据,元数据是关于数据的数据。 画画 嗽可日日口 蠢 数据仓库理论 具体的讲,元数据具有以下作用: 把数据源系统映射到数据仓库中的表上; 记录关于数据抽取、转换和装载的过程信息: 记录数据整理包括数据更新、转存等操作的信息: 有助于业务用户正确识别数据仓库中的数据: 有助于用户组织自己的查询,以获得所需的数据。 在数据仓库环境中,元数据扮演着重要的角色,不仅为系统的开 发人员和维护人员提供依据,而且为最终用户和业务分析人员更好得 利用数据仓库系统提供可能性。 前端工具:数据仓库为海量历史数据和汇总数据的存储和管理提 供了有效的途径。但是数据仓库系统的根本目的是将分析结果展示给 前端用户。数据仓库之所以区别于数据库恰恰是在于它强大的分析、 决策功能,而这些功能的实现要借助于前端的分析工具。数据仓库的 分析工具主要包括o l a p 工具和数据挖掘工具。数据仓库中的数掘分 析包括三个层次:描述性分析、推断性分析和数学模型分析。前两种 主要借助于o l a p 实现,而后者主要借助于数据挖掘技术实现。 2 4 联机分析处理( o l a p ) 目前,大多数的信息系统均属于联机事务处理( o l t p ,o n l i n e t r a n s a c t i o n p r o c e s s i n g ) 系统。顾名思义,o l t p 针对日常的业务处 理操作,主要用以记录执行企业日常操作所需的数据。o l t p 系统以数 据库为基础,对基本数据进行查询和增、删、改等处理。由于o l t p 系统直接代替了手工劳作,支持企业的日常运作,所以需要能够及时、 快速、准确地响应所输入的大量事务。然而,随着市场竞争的不断加 剧,单纯的事务处理已经不能满足企业的需求。企业对分析和决策的 需求越来越强烈。而要实现对决策的支持,就需要在大量的业务数据 中发现关键的因素以及发展趋势等信息。这方面的信息需要进行汇总 和分析,可能需要聚合过去十年的全部详细记录,产生大量的工作负 荷。因此,在事务处理环境中运行数据分析功能,不仅会影响实时性 的事务处理效率,而且在分散的数据存储中很难找到有价值的信息。 北京交通大学硕士学位论文 针对这种需求,o l a p 提供了有效的途径。 联机分析处理( o l a p ,o n l i n ea n a l y t j c a lp r o c e s s i n g ) 一诃 最早出现在数据库之父e f t o d d 于l9 9 3 年发表的论文。o l a p c o u n c il 对其定义为:o l a p 是使分析人员、管理人员或执行人员能够从多种角 度对从原始数据中转换出来的、能够真正为用户所理解的并真实反映 企业维特性的信息进行快速、一致、交互的存取,从而获得对数据的 更深入了解的一类软件支持技术。 o l a p 以多维数据分析著称,它允许多角度、多方位的考察用户的 信息,如产品维度、地理维度、时间维度和用户白定义维度等。多维 性分析使得用户能够从一种合乎人类思维的角度来灵活的观察、访问 多维数据分析结果。 o l a p 与o l t p 有本质的差别,针对分析决策的需求,提供了不可 比拟的优势。其主要功能包括: 1 提供数据的多维逻辑视图,并提供视图独立于数据存储的具 体形式。 用户可以使用切片、旋转、钻取等操作,多角度、多侧面、多层 次地考察数据库中的数据,并且能够以表格、图形和图表等多种形式 加以展示。 2 能快速响应用户交互式查询和复杂的分析查询 o l a p 多维数据模型和数据聚合技术可以组织并汇总大量的数据 对频繁查询的数据预先进行计算以便非常迅速地响应复杂的分析查 询。 3 能够提供动态的查询和分析功能 o l a p 提供了一种随机的、动态的查询和统计分析功能,分析内容 是由分析人员在分析过程中确定的,没有固定模式。o l a p 的报表在运 行过程中可以动态地定义结构,动态查询和得到新的报表。 4 提供对多用户的支持能力 多个用户可以同时工作于同一分析模型上或是可以在同一企业 数据上建立不同的分析模型,提供了并发控制、数据完整性以及安全 性机制。 5 可以在不同的数据源之间灵活的采集、转换和传输数据 o l a p 可以同时进行多个数据源的连接。数据可以来源于数据库、 数据仓库理论 数据仓库以及数据文件等。 o l a p 在数据的物理存储上主要有三种方式:基于多维数据库的存 储结构一m o l a p 、基于关系数据库的存储结构r o l a p 和混合型的存储 结构h o l a p 。其中: m o l a p :数据以多维方式加以存储,并咀多维视图方式加以显示。 m o l a p 以多维数据仓库为核心,通过多维数据库管理系统来管理所需 要的数据。m o l a p 结构的主要优点是进行了大量的预处理,从而具有 很强的查询性能和分析能力,能够迅速响应决策分析人员的分析请 求。其主要缺点是由于大量的预处理都是事先定义好的。因而限制了 分析的灵活性。 r o l a p :该结构以关系型数据库为核心,以关系型结构进行多维 数据的表示和存储。在r o l a p 中将多维结构化分为两类表:事实表 和维表。r o l a p 结构的主要优点是灵活性强,用户可以动态定义统计 和计算方式。而主要缺点就是预处理程度低,数据冗余最大,查询效 率低,管理和维护相对复杂。 t l o l a p :数据部分存储在关系数据库中,部分存储在多维数据库 中。事实上,h o l a p 是m o l a p 结构和r o l a p 结构的混合方式。在关系 数据库中记录了细节数据,在多维数据库中记录了综合数据,充分利 用关系数据库管理系统的各种技术,联合多维数据库管理系统的分析 报表工具,实现数据分析和查询的功能。 综上所述,三种方式都有自身的优劣所在用户可以根据数据访 问量和查询性能的要求综合加以考虑。 2 5 数据挖掘 在过去,人们收集大量的数据通常是为了科学研究的目的,同时 由于受到计算能力的限制。也很难实现复杂的数据分析。随着企业信 息化进程的不断发展,在企业内部所积累的数据量越来越多,这些数 据的产生不再是为了纯粹的科学研究,而是产生于纯机会的商业运作 过程中。同时。随着商业竞争的激烈和信息传递的发达,如何为商业 决策提供真正有价值的信息成为了企业获得利润的关键因素。目前, 北京交通大学硕士学位论文 大多数企业都面临着一个这样的问题:企业数据量非常大,而其中真 正有价值的信息却很少。因此,需要从大量的数据中经过深层分析, 获得有利于商业运作、提高竞争力的信息。而这个过程就像从矿石中 淘金一样,数据挖掘也因此而得名。 数据挖掘( d m ,d a t am i n i n g ) 可以描述为:按企业既定业务目 标,对大量的企业数据进行探索和分析,揭示出隐藏的、未知的或验 证己知的规律性,并进一步将其模型化的方法。数据挖掘是一种新的 商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进 行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关 键性知识。 简而言之,数据挖掘就是借助于先进的信息处理技术,从原始数 掘中来发现新的知识。其中,原始数据可以是结构化的,如关系数据 库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至 是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被 用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据 自身的维护。 数据挖掘所得到的知识应具有先未知性,有效性和可实用性三个 特征。先未知性是指所发现的知识是事先不曾预料到的,也就是说所 挖掘的结果往往是不能靠直觉来发现的,甚至于与直觉的信息正好相 反。有效性是指所发现的知识必须是用户所感兴趣的,要充分发挥挖 掘结果的价值,需要决策分析人员的良好配合。可实用性是指挖掘结 果是能够被用户所接受和理解的,虽然不可能是放之四海皆准的知 识,但应该是支持特定的问题发现的。 数据挖掘的最终目标是发现知识。概括的讲,所发现的知识可以 划分为以下几类: 广义知识:是对类别特征的概括性拙述知识。根据数据的微观特 性来发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的 知识。这些知识反映了事物的共同性质,是对数据的概括、精炼和抽 象。 关联知识:是反映一个事件和其它事件之间依赖或关联的知识。 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依 数据仓库理论 据其它属性值进行预测。 分类知识:是对事物特征的详细分析性知识,既包括反映同类事 物共同性质的特征型知识,又包括反映不同事物之间的差异型特征知 识。 预测型知识:是与时问序列密切相关的知识,根据历史的和当前 的数据所推测的未来的数据,也可以认为是以时间为关键属性的关联 性知识。 偏差型知识:是对差异和极端特例的描述性知识,用以揭示事物 偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等等。 所有这些知识都可以在不同的概念层次上被发现,并随着概念层 次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的 需要。 数据挖掘和o l a p 都是前端分析工具,然而二者却是有着本质的 差别。 o l a p 作为决策支持领域的一部分,是基于用户提出的一个假设 的,通过检索数据库来验证这个假设的正确与否。也就是说,o l a p 分 析师首先建立一系列的假设,然后通过o l a p 来证实或推翻这些假设 来最终得到自己的结论。o l a p 分析过程在本质上是一个演绎推理的过 程。因此,当分析的变量过多时,o l a p 分析起来将十分困难。 与此不同数据挖掘不是用于验证某个假定的模式( 模型) 的正 确性而是在数据库中自己寻找模型。数据挖掘在本质上是一个归纳 的过程。数据挖掘能够发现分析人员事先预想不到的一些重要因素。 但二者在功能上具有一定的互补性,通常需要综合考虑加以应用。 进行数据挖掘工作的主要步骤分为5 步:确定业务对象,数据准 备,数据挖掘,结果分析知识的同化。 确定业务对象:数据挖掘的第一步需要对业务问题进行清晰的定 义。尽管数据挖掘的结果是不可预见的,但是我们必须对要分析的问 题有明确的划分,否则挖掘的结果将缺乏实际的价值。 数据准备:数据的准备包括数据的选择、数据的预处理和数据的 转换3 个步骤。数据的选择是指搜索所有与业务对象有关的内部和外 部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处 理是指分析数据的质量,并进一步确定将要进行的挖掘操作类型。数 北京交通大学硕士学位论文 据的转换是指将数据转换为一个分析模型,这个模型是针对挖掘算法 建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关 键。 数据挖掘:选择合适的挖掘算法,对所得到的经过转换的数据进 行挖掘。选定算法以后,该步工作基本上是自动完成的。 结果分析:对挖掘结果进行解释和评估。对于分析结果的展示通 常借助于可视化技术。只有挖掘结果加以合理的解释,才能发挥出数 据挖掘的真正价值。 知识的同化:将分析所得到的知识集成到业务信息系统的组织结 构中去。 对于数据挖掘工作而言,数据挖掘工具只是其中的一个方面,同 时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未 来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事 数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供 管理者决策参考,最后把挖掘出的知识物化。 分析型c r m 3 分析型c r m 3 1 c r m 的内涵 目前,客户关系管理成为了国内外理论研究的热点,同时也引起 了各个企业的空前关注。这种趋势的出现决非偶然,简而言之,是市 场竞争不断激化和信息技术不断发展的必然结果。一方面。企业要想 在竞争中获得优势无非有两种主要途径:改善业务流程,提高效率, 降低内部成本;开拓市场保持现有客户的同时,增加新客户。过去, 前者一直是企业追逐的目标包括技术、工艺的改进,业务流程的再 造以及办公自动化等等虽然取得了显著的效果,然而降低内部成本 可挖掘的潜力毕竟是有限的。另一方面随着信息技术的发展,客户 捌有了比以往任何时候都多的对产品和服务进行选择和比较的机会 与权利,以客户为主导的牵拉型市场已经形成。无疑,良好的客户关 系将成为企业追求利润的重要资产。 在当前的消费环境中,产品的使用质量已经退居次位,表现自犹 的个性化消费成为了产品的主要内涵。也正是如此,客户资源的争夺 不再单纯依赖于产品的使用价值,而服务和营销活动的创新显得越发 重要。而客户关系管理恰恰用来保证在j 下确的时间使用正确的途径为 正确的客户来提供正确的服务。换而言之,客户关系管理能够针对个 性化的需求。在激烈的市场竞争中留住老客户,争取新客户。 客户关系管理( c r m ,c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 的 概念最早是由g a r t n e rg r o u p 提出来的:为企业提供全方位的客户视 角赋予企业更完善的客户交流能力和最大化的客户收益率所采取的 方法。然而,迄今为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电厂实操考试题库及答案
- 2025年康复医学治疗技术(副高级职称)试卷【含答案详解】
- 2025年电焊工证-上岗证考试试题考试题库(带答案)
- 2025年广东省清远市国家公务员行政职业能力测验模拟题(附答案)
- 2024-2025学年机械设备制造修理人员考前冲刺试卷含答案详解(满分必刷)
- 关于房屋出售合同
- 自考专业(工商企业管理)高分题库附参考答案详解(突破训练)
- 2025自考专业(计算机信息管理)通关题库及完整答案详解(典优)
- 米易安全员b证考试及答案
- 襄城科三安全员考及答案
- GA 1814.2-2023铁路系统反恐怖防范要求第2部分:旅客列车
- 个人养老保险重复缴费退费申请表
- 大气污染控制工程课程设计 车间除尘系统设计说明书1
- YY 9706.240-2021医用电气设备第2-40部分:肌电及诱发反应设备的基本安全和基本性能专用要求
- JJF 1059.2-2012用蒙特卡洛法评定测量不确定度
- GA/T 1788.3-2021公安视频图像信息系统安全技术要求第3部分:安全交互
- 省级公开课(一等奖)雨巷-戴望舒课件
- 全国第十四届冬季运动会疾病预防控制风险评估报告
- 反不正当竞争法-课件
- 六年级上册数学单元测试-5.数据处理 北师大版(含解析)
- 国家电网有限公司十八项电网重大反事故措施(修订版)
评论
0/150
提交评论