(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机软件与理论专业论文)通信企业中商务智能系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电学院学位论文独创性声明 y 。6 2 s 9 8 l 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:日期: 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:导师签名: 日期 南京邮电学院硕士研究生学位论文 摘要 商务智能是一个收集、存储、处理和分析大量数据并最终产生知识的过程。 随着电信市场竞争的日益激烈,越来越多的运营商开始意识到充分挖掘和利用企 业收集的海量数据中隐含知识的重要性。但系统建设经验的缺乏、不明确的需求 和计划往往导致商务智能项目的失败。 本文可以分为三个主要的部分:介绍、分析和实现。首先,为了更好地进行 讨论,文章介绍了商务智能的背景知识,包括基本概念、体系结构、支撑技术等。 文章在第二部分着重分析了通信企业信息系统建设的现状,并基于现状的分析, 提出了一个通信企业中商务智能系统建设的解决方案。最后,文章给出了一个系 统的原型实现,同时展示了基于该实现的一个应用。 关键词:商务智能:数据仓库;联机分析处理;数据挖掘 3 南京邮电学院硕士研究生学位论文 a b s t r a c t b u s i n e s si n t e l l i g e n c e ( b i ) c o v e r st h ep r o c e s so f c o l l e c t i o n ,s t o r a g e ,p r o c e s s i n g a n dc o n t i n u o u sa n a l y s i so f l a r g e 锄o u n t so f d a t at om e a n i n g 血li n f o m l a t i o n w i t l lt 1 1 e i n c r c a s i n go fc o m p e t i t i v ep r e s s u r e si nt e l e c o ma r c a ,m o f e a | 1 dm o r es e “i c ep r o v i d e r s r e a l i z et h ei m p o r t a l l c eo f d i s c o v e r i n ga n de x p l o “i n gt h ek n o w l e d g e 丘o m t h et 蹦出y t e s o fd a t am e yh a v ec o l l e c t t e d b u t 也el a c ko f e x p e r i e n c e ,u n c e n a i n t yr e q u i r e m e n t sa n d p l a l lo 舭n l e a d 廿l e mt oa nu 1 1 s u c c e s s f h lb i p r o j e c t t h e p a p e r i sd i v i d e di m ot h r e e m 勾o rp a n s :1 1 1 t m d u c t i o n ,a n a l y s i s ,a n d i b l p l e m e n t a t i o n t h ei n t r o d u c t i o nc o v e r sb a c k g r o 皿d i n f b a t i o nt ob e t t e ru n d e r s t a n d t h ed i s c u s s i o no fb is u c ha sb a s i cc o n c e p t s ,a r c 娥e c t i l r e ,s u p p o r tt e c h n o l o g i e s ,a n d e t c t h en e x tp a no ft h i sp 印e ra i l a l y s e s 协ec u 玎e n ts t a t eo fi n f b 珊a t i o ns y s t e m si n t e l e c o ma r e a b a s eo nt 1 1 ed i s c u s s i o n ,as o l u t i o nt om ep r a c t i c a lc o n s t n l c t i o np r o b l e m o f b ii sp r o v i d e d i nt h el a s tp a no f m i sp a p e r ,i tc o n c e m m t eo nm e i m p l e m e n t a t i o n o f ap r o t 0 u p es y s t e ma 1 1 dt l l e ni l l u s t r a t m ga na p p l i c a t i o nb a s eo n i t k e y w o r d s :b u s i n e s si n t e l l i g e n c e ;d a t aw a r e h o u s e ;0 l a p ;d a t am i n i n g 一4 - 南京邮电学院硕士研究生学位论文 引言 商务智能从概念的提出到逐渐走向商用,已经发展了十几年,越来越多的 人们开始关注这一领域的变化。这期间,基于商务智能的系统建设走过了很多的 弯路、同时也积累了宝贵的经验。目前,国内在这方面的研究和应用才刚刚起步, 仍然有许多工作需要完成。 在对待商务智能的支撑技术方面,存在两种倾向:许多学者囿于条件的限 制,只能进行纯理论的探讨,研究通用的方案、算法:而大多数的b i 系统集成 商则满足于简单工具的集成和使用。同时,在系统实旄的策略上,一些企业倾向 于采用整套的国外成熟产品,而另一些企业则看好国内厂商的本地化解决方案。 与此相对应的是,通信企业作为信息化建设的排头兵,已基本完成了基础 信息系统的建设。在市场竞争的压力下,不少企业纷纷提出甚至开始建设自己的 商务智能系统。 本文就是在这样的背景下提出的。作者在参与国内某知名企业级软件开发 商业务支撑和经营分析系统的实际研发工作基础上,紧密结合通信行业信息系统 建设的现状,并参考了大量国内外相关文献后,努力想解决下面几个问题: 1 目前国内通信企业信息系统建设的现状如何及其是否能满足企业对 数据分析的迫切需求。 2 通信企业需要怎样的商务智能系统,采用怎样的策略来建设系统。 3 企业建设商务智能系统后,怎样进行对数据的分析和利用。 5 南京邮电学院硕士研究生学位论文 第一章商务智能导论 1 1 商务智能概述 1 1 1 商务智能产生的背景 在全球经济一体化的浪潮中,企业问的竞争也日趋激烈,智力资本、商务 智能和知识管理已经成为企业在未来发展中获取胜利的关键因素。企业为了提高 自身的核心竞争力,需要获得更多的关于客户、市场、竞争对手及企业自身的信 息。通过多年的信息系统建设,许多大型企业,甚至是中小企业已经拥有自己的 一套基础信息平台,比如客户关系管理系统( c r m ) 、企业资源管理系统( e r p ) 等等。这些系统的使用,大大增强了企业对数据的收集、存储和处理能力。 但是企业在这些数据的使用上总是不尽如人意。现有的一些信息系统关注 于提高企业经营、管理和办公的自动化程度,很少涉足企业业务数据的分析与应 用。尽管提供了名目繁多的各级各类报表甚至比较灵活的用户报表定制功能,不 过企业仍旧很难对自身经营状况作出科学合理的分析,也难以通过分析日常的业 务数据,提取出隐含在海量数据中宝贵的业务知识,帮助企业在运营管理、市场 营销、企业规划等方面作出及时、科学的决策,把握、分析和发掘新的商机。商 务智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 的提出,在很大程度上就是为了解决这 一问题。 1 1 2 商务智能的基本概念 商务智能的概念最早是由g a r b l e rg r o u p 的h o w a r dd r e s n e r 于1 9 8 9 年提出, 并在2 0 世纪9 0 年代逐渐流行起来。他认为b i 是一个概念的集合,包含了一系 列的理论和方法,使得最终用户可以通过统计报表、定制查询、联机事务分析 ( o l a p ) 等方式同时访问多个信息系统,以提高企业的决策能力。 商务智能包括收集、处理、存储和分析企业中的所有数据,通过引入企业 所处行业的领域知识,将这些数据转换为有用信息,用于指导企业中生产、营销 6 南京邮电学院硕士研究生学位论文 及管理部门的日常工作,在本质上提高企业的核心竞争力。随着商务智能概念的 不断发展和完善,现在已经不仅仅局限于软件产品和工具范围,而成为一种整体 的应用解决方案。 商务智能通常建立在数据仓库、联机事务分析、数据挖掘等技术的基础之 上,通过收集、整理和分析企业内外部的各种数据,加深企业对客户及市场的了 解,并对企业运营状况、客户需求、市场动态等作出合理的评价及预测。商务智 能系统为企业提高了统一的企业级视图,构建基础数据分析平台,可以提高企业 对客户、市场的响应速度和决策水平,改善企业与客户、合作伙伴的关系。 商务智能的研究与应用已经成为企业、学术界的新热点。随着其概念的不 断发展与完善,已经在超市零售、金融保险证券及电信等行业中得到广泛的应用。 1 2 商务智能系统的体系结构 商务智能的生命周期包括从企业中各种异构数据源中抽取原始数据,到对 数据进行存储、处理、分析,并最终转化知识的整个过程。未经处理的数据其利 用价值非常有限,因此越来越多的企业开始利用b i 工具来发掘海量数据中的隐 含知识,在所有的层次上对企业的决策提供有力的支持。 不同的b i 产品虽然在实现的功能上各有特点,但它们在总体构架上基本是 一样的,如图1 ,l 所示: 7 南京邮电学院硕士研究生学位论文 数掘鹱现 教据分树 数据存储 数据潭 1 2 1 数据源 i教据艉避层 敦据扯取、转撬、加载( 玎l ) 图1 1 商务智能系统体系结构图 通常商务系统系统涉及的数据源相当复杂,这是由系统的问题域决定的。 商务智能系统面对的是整个企业级的视图,囊括了企业中所有的系统,比如运营 支撑系统、办公自动化系统等等。数据源可以是联机事务处理系统中的运行数据、 存储在磁盘或磁带等介质中的脱机数据、也可以是其它的政策、法规、市场调查 等文本数据。数据的格式可以是结构化的,也可以是非结构化的,数据存储的策 略可以是集中存储也可以是分布式存储。大量、复杂、异构的数据源正是数据分 析的难点所在。 1 2 2 数据存储 目前商务智能的数据存储主要采用数据仓库的方式。数据仓库这个概念曾 经被赋予太多的分析内涵,其真正的作用在于有效地收集、整合、清洗数据,并 以合适的方式存储。数据仓库扮演的只是一个“被动”的“仓库”的概念,是整 个b i 架构中一个重要的组成部分。 当然,数据仓库不同于传统的数据库概念。数据库适合工作在事务处理环 8 南京邮电学院硕士研究生学位论文 境中,支持高度并发的数据存取操作,同时对系统的响应时间有比较严格的要求。 数据仓库则主要应用于分析处理环境中,用户数比较少,一个分析任务往往连续 运行很长时间,消耗大量的系统资源。另外,数据库中只保存系统运行所需要的 细节数据,而数据仓库中不但有当前数据,而且有历史数据;不但有细节数据, 还有综合数据。 1 2 3 数据分析 不同类型的用户对数据分析的要求各不相同。目前比较常用的分析手段有 定制报表、联机分析处理、数据挖掘等。 报表是一种传统的分析工具,通过编制特定的报表程序,综合运用数据库、 报表工具等技术,对企业业务数据进行统计、归类和整理。报表的缺点在于不够 灵活,一旦发生需求变更,需要重新设计报表程序和数据模型,开发周期长。 联机事务分析是一种高度交互的数据分析过程。通过定义基于主题的多维 数据模型,为企业信息分析人员提供钻取、切片等多维度、多视角的数据分析手 段,灵活性大大高于普通的报表系统。 数据挖掘分析就是采用一系列的挖掘算法,分析数据中人们事先不知道、 但对企业决策支持有用的信息。数据挖掘的过程通常自动化程度比较高,但挖掘 出来结果也比较晦涩难懂,需要专业的分析人员运用丰富的领域知识进行解释、 评估后,才能成为领域知识。 1 2 4 数据展现 随着商务智能应用的不断发展,企业对数据分析结果的展现手段也提出了 越来越高的要求,融合w c b 技术已经成为发展的主流。通过提供饼图、柱状图 等二维甚至三维视图,能够让用户更好地理解数据分析的结果,提高系统可用性。 1 - 3 商务智能系统的建设 商务智能系统的建设在国外已经如火如荼地开展了好几年,并且积累了很 9 南京邮电学院硕士研究生学位论文 多建设经验。但在国内,无论是理论研究,还是系统商用都还在起步阶段。大多 数企业还没有充分认识到建设商务智能系统的必要性,成功实施商务智能的案例 更是风毛麟角。 在一些国际b i 厂商提供的经典案例和诱人的投资前景背后,也应该看到实 施商务智能系统的巨大风险。系统的建设是一项耗资巨大的项目,但很多资料表 明,相当比例的系统最终以失败告终,没有达到预期的效果。即使在认为效果不 错的企业中,大多数也仅能提供定性的描述,很少给出定量的说明。在总结了前 期系统建设经验的基础上,企业应当更加理性地对待商务智能系统的建设,既要 看到可能带来的巨大经济效益,同时也要注意规避风险。 系统规划建设的初期,企业应该集中精力定位系统的需求,结合企业自身 的领域特点和企业发展目标,寻求合理的解决方案。 1 3 1 商务智能系统分析 商务智能系统分析主要包括企业需求分析、经济技术可行性分析等。企业 需求分析关注的是企业实施商务智能系统的目的。通过对企业现有系统如运营支 撑系统、办公自动化系统进行深入分析,发现企业依靠这些系统仍旧不能解决的 问题,将它们从各个部门或系统中独立出来,在企业级的更高角度上进行重新审 视,以明确企业的需求。 一般情况下,商务智能系统的建设很少是从零开始的。大型企业通常以分 步骤、分阶段的方式来构建自己的信息系统,在日常的企业经营管理中积累大量 的业务数据,此时,商务智能的分析功能才能充分地体现出来。因此,在系统分 析阶段,应该明确分析系统的数据源是否符合系统的建设。 商务智能系统的建设不是一个简单的软硬件集成项目。它不仅考验企业的 基础信息构架,而且对企业管理、分析人员也提出了很高的要求。他们在系统的 成功实施方面起着举足轻重的作用。需求分析时必须对企业人员的储备情况进行 合理的分析和预测。 对于一个投资规模如此之大的项目,企业最关心的还是其投资回报率。根 一l o 南京邮电学院硕士研究生学位论文 据企业前期系统建设的情况和自身特点,制定系统的实施方案。可以考虑的方案 主要包括两种:次到位型和分布实施型。如果实施企业级的商务智能解决方案, 企业投资必然巨大,项目实施周期长,短期投资回报率低、风险比较大。所以, 目前主流的实施方案是分步骤、渐进式的实施策略,首先解决企业比较关心的问 题。这种方式当前投资相对较小,项目周期断、见效快、风险也低。 1 3 2 商务智能系统设计 商务智能系统设计,主要包括分析系统核心数据模型的建立、数据抽取方 案、数据分析方法及分析结果展示方案。 根据企业具体的需求,充分运用信息技术与相关领域知识,构架系统分析 模型并建立起数据仓库系统。这是整个系统建设中关键的一环,制约着系统分析 的类型、功能及性能。 系统数据的抽取方案是一个重要且容易被忽视的环节。许多系统的失败, 与数据仓库中数据质量有很大的关系。没有对数据抽取方案的深入调研、合理建 设,很难取得满足分析要求的数据。 目前对数据的分析方法已经比较成熟,可采用的方案包括联机事务分析和 数据挖掘。但没有一种方法或算法是全能的,对于企业具体的需求和应用,要有 针对性地选用不同的方法,甚至对其进行必要的修正与扩展。 分析展示是企业用户最关心的部分。对于企业分析人员来说,日常的分析 维护任务与系统的交互任务繁重,人性化的界面设计和丰富的表达元素无疑可以 大大减轻他们的工作压力。而企业管理人员也希望通过简单明了的分析展示,充 分发挥系统的作用。 1 3 3 商务智能系统维护与管理 商务智能系统维护与管理主要包括两个方面。一是维护和管理系统的正常 运作,二是不断完善、调整系统的运行。 商务智能系统的日常运行维护,设及系统各个模块的正常运行,如e t l 模 1 1 南京邮电学院硕士研究生学位论文 块、数据仓库系统、数据分析模块和数据展现模块。系统元数据的管理也是一个 重要的环节,设计数据源系统的数据模型、数据仓库系统的模型、数据抽取策略、 数据预处理策略等等。在扩展的元数据管理中,还可能涉及到系统的数据库管理、 系统安全管理等。 系统的成功实施,不仅需要定位准确的需求与正确的系统设计,还必须在 系统运行中不断地进行优化和调整。这里所说的调整主要是基于业务上的考虑。 无论国外还是国内企业,都非常缺乏即精通业务叉匿技术的复合型人才。企业在 系统规划、实施中要着重培养一批这样的人员,才能从系统建设中取得最大的回 报。 1 4 商务智能应用领域 在企业中的决策可以分为以下三种类型:操作型决策、战术型决策和战略 型决策。操作型决策主要确保企业的日常运作高效、有序,这类决策需要实时了 解企业的每笔交易数据,及时调整企业的日常运营管理。战术型决策主要确保企 业朝着既定的商业目标稳步前进。战略型决策则制定长期企业发展纲要,保证其 持续、健康发展。该类型的决策通常建立在历史的、统计的数据基础之上,因为 一个企业,不论大小,都必须制定一个长远发展计划,而这个计划不可能总是变 化的。商务智能对企业的支持是全方位的。 从传统的观点来看,企业建设商务智能系统总是基于中长期的决策需求。 他们往往没有意识到应该把实时分析也纳入到系统的建设需求中来。传统的、基 于历史数据的数据仓库和决策支持系统自身并不提供实时的操作型决策分析功 能。企业关注的是“已经发生”的而不是“正在发生”或“将要发生”的。当然, 我们所说的实时,并不是要求将所有的信息都用作实时分析,毕竟这样做的代价 太大了。我们采用的策略就是把企业最关心的数据先集成到实时分析模块中。 一1 2 一 南京邮电学院硕士研究生学位论文 第二章商务智能的支撑技术 经过十几年的快速发展,商务智能已经发展为一门涵盖数据库仓库技术、 数据分析、数据展现的多门类交叉学科。本章中,主要介绍数据仓库技术和数据 分析技术。 2 1 数据仓库概述 数据仓库是商务智能系统的核心构件,是建设商务智能系统的基础。数据 仓库是从数据库系统发展而来的,而传统的关系数据系统则更多的体现了事务处 理上的优势。由于过多强调系统的事务处理能力,使得关系数据库在处理分析决 策任务时显得力不从心。 另一方面,数据仓库收集了企业范围内实时的、历史的、结构化的、非结 构化的、细节的、综合的等不同层面的海量数据,提供了对企业原有基础信息系 统的一次集成,为企业建立统一的基础数据平台,对基于各种主题的分析任务打 下坚实的基础。 2 1 1 基本概念 数据仓库概念创始人w h i m o n 对数据仓库的定义是:数据仓库是面向主 题的、集成的、稳定的、随时间变化的数据集合,用来支持经营管理中的决策制 定过程。这个简短而又全面的定义指出了表明数据仓库主要特征的四个关键词: 面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统( 如 关系数据库系统、事务处理系统和文件系统) 区别开来。 面向主题的( s u b i e c t 嘶e n t e d ) :数据仓库的面向主题性与传统数据库的面 向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一 个宏观的分析领域,如顾客、供应商、产品和销售组织,这种方式通常比较易于 理解。传统的操作型系统是围绕企业组织机构的日常操作和事务处理进行组织 的,如一个顾客申请业务的流程等等。 1 3 南京邮电学院硕士研究生学位论文 集成的( i m e g r a t e d ) :数据采集是数据仓库系统的固有特性。构造数据仓 库是将多个异种数据源,如关系数据库、一般文件或其它外部数据集成在一起。 使用数据清理和数据转换技术,确保数据在命名约定、编码结构和属性度量等指 标的致性。 非易失的( n o n v 0 1 a t i l e ) :数据仓库的非易失性是指数据仓库中的数据不是 日常事务处理产生的数据,只允许访问,不允许修改。 时变的( t i m e v 撕a m ) :数据仓库中存储的数据在时间跨度上要远大于事 务型数据库中的数据,分析的主题往往涉及一个相对长时期的数据。数据仓库的 随时间变化的特性要求数据仓库中的数据保存时限能满足进行决策分析的需要, 而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库的概念描述了其所存储数据的特性,它是一种语义上致的数据 存储,它充当决策支持数据模型的物理实现。数据仓库也常常被看作一种体系结 构,通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、 分析报告和决策。 2 1 2 体系结构与实旅框架 数据仓库的体系结构如图2 1 所示: 教据骨折层 卜刮 ,f 数据潮 图2 1 数据仓库的体系结构 依据数据仓库所管理的数据类型及它所解决问题的范围,可分为以下几种 1 4 南京邮电学院硕士研究生学位论文 类型: l 企业数据仓库( e d w ) :这是一般意义上的数据仓库,它包含当前、历史 及综合的数据,用于企业的决策分析。 2 操作型数据存储( o d s ) :针对当前工作数据的处理、分析。可作为事务 型系统到e d w 的临时过渡区。仅包含当前的、细节的、轻度综合的数据,是易 变的、未累积的数据。 3 数据集市( d a t a m a r t ) :数据集市是数据仓库的一种具体化,它通常面对的 是企业中的一个部门或者某一专门的主题。 数据仓库系统的实施中很重要的一点就是确定数据仓库的体系结构,这里 的体系结构不仅指系统的物理体系结构,还包括其实施方案。目前主流的体系结 构有以下三种:统一的数据仓库、独立的数据集市和统一的数据仓库基础上构架 的数据集市。 统一的数据仓库构架即在一个数据仓库系统中,包含企业的运营、管理等 所有部门的数据。这些数据通过抽取、清洗和转换,构成企业的基础分析数据, 满足所有部门分析的需要。这里所说的统一,不能理解为数据存储上的统一,应 该理解为数据访问上的统一,也就是说系统的逻辑结构是集中的,而物理结构可 以是分布式的。大型企业的分支机构繁多,要求统一存储所有的数据不论在技术 上还是在操作上都有很大的难度。因此,通常在实际操作上,各地分支机构保存 自己的细节数据,而统一存储的是经过综合处理后的数据,而在数据访问时提供 的是统一的企业级视图。 独立的数据集市构架与上述构架最大的区别在于它提供的是面向部门的数 据视图,不依赖于中央数据仓库。这些各自独立的数据集市一般是为了降低企业 投资规模和投资风险而建立的。如果在建设这些独立的数据集市时,没有对企业 数据仓库建设一个长远的规划、缺乏统一的数据仓库标准,那么企业构建数据仓 库的努力将大打折扣。 统一的数据仓库基础上的数据集市也称为从属数据集市。通常企业在对一 些主题进行分析时,会在数据仓库的基础上创建相应的从属数据集市,以提供数 1 5 - 南京邮电学院硕士研究生学位论文 据分析的效率。这样就避免了独立数据集市中可能出现的数据不一致问题,又保 证了分析的性能。 2 1 3 数据组织与元数据管理 数据仓库中的数据分为四个级别:历史数据层、当前数据层、轻度综合层 及高度综合层。如图2 2 所示: 高虚综牟教摧 轾廑睬爵教疆 图2 _ 2 数据仓库的数据组织结构 从数据源中抽取的数据先进入当前数据层,在满足一定的存储时限后转入 历史数据层。对上述两层数据进行分类、加工,形成轻度综合数据,可产生部分 的图表。对轻度综合数据进一步挖掘,可以形成针对某一主题的决策数据。还有 一类重要的数据是元数据,它是“关于数据的数据”,用于建立、管理、维护和 使用数据库,支持不同数据源中的数据到数据仓库的映射以及数据仓库中数据到 前端分析工具之间的映射。 2 1 4 数据建模技术 数据仓库中的数据主要是用于数据分析,与事务系统中数据的作用存在很 大不同,在数据建模中为了创建有针对性的分析型模型,通常采用维度建模的方 法。常用的维度模型有:星型模型、雪花模型等。 1 6 南京邮电学院硕士研究生学位论文 星型结构模型属于一种多维的数据关系,由一个事实表( f a c tt a b l e ) 和一 组维表( d i m e n s i o nt a b l e ) 组成。每个事实表都可分为两部分,主属性和非主属 性。每一个主属性对应一个维表的外键;非主属性称为事实,它们一般为数值或 其它可以进行计算的数据。维表除了包含该维的主键外,还包含了维的其它一些 属性。维表中记录了维的层次关系,大都是文字、时间等类型的数据。 帐目类型标识 帐目类型名称 客户类型标识 客户类型名称 墨基垂 7 帐目标识 帐目类型名称 业务类型名称 客户类型名称 时间类型名称 费用 图2 3 星型模型 业务类型标识 业务类型名称 f 问类型维表 时间类型标识 时间类型名称 进行数据分析时,可以通过对事实表和维表的联合奄询,支持不同层次的 查询操作。不过在数据量非常庞大的情况下,星型模型的效率比较低。这时就应 该考虑优化星型模型,比如可以对事实表进行某种分割,按照分析查询的要求, 将相关性大的数据聚集在分表中。 雪花模型是星型模型的一个扩展。它与星型模型最大的区别在于通过多个 表来定义一个维表。在雪花模型中,事实表只与主维表进行连接,其它维表都连 接到相应的主维表。雪花模型将维表按照层次进行了规范化,因此在维度比较多 的情况下可以节省存储空间,使复杂维度的层次更为清晰。但是在查询时会涉及 到更多的表间关联。 1 7 南京邮电学院硕士研究生学位论文 图24 雪花模型 在大多数设计中,星型模型更加可取,因为它包含的用于信息检索的连接 更少,并且更容易管理。 2 2 数据分析技术 这里介绍的数据分析技术主要是建立在数据仓库的基础之上,进行业务应 用分析的方法,包括联机事务处理、数据挖掘等。当然,数据仓库并不是数据分 析的先决条件,一些数据分析的技术并不一定需要用到数据仓库,比如数据挖掘。 所有,即使是在没有建设数据仓库的企业中,也可以使用数据分析对企业的业务 数进行分析。 2 2 1 联机分析处理 根据o l a p 委员会的定义,联机分析处理( o n l i n ea n a l 如c a lp r o c e s s i n g ,简 称o l a p ) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中 转化出来的、能够真正为用户所理解的、并真实反映企业维度特性的信息进行快 速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 o l a p 技术的核心是“维”,它是人们分析数据时的一些特定角度。一类属 1 8 南京邮电学院硕士研究生学位论文 性或属性的集合构成一个维,例如时间维、地理维等等,也就是说,从时间的角 度、地理的角度来分析数。维还可以是分层次的。在基于某一角度对数据进行分 析的时候,可能会关注不同细节层次上的数据,比如时间维可以更具体地划分为 年份、季度、月份等,地理维可划分维洲、国家、省等。 在多维数据结构中,按二维选择数据,称为切片( s l i c e ) ,按三维选择数 据称为切块( d i c e ) 。如在“城市、产品、时间”三维立方体中进行切块和切片, 可得到各城市、各产品的销售情况。在数据结构树中,用户选择展开同一级数据 的详细信息,称为下钻( d r i l l d o w n ) ,选择更高一级的数据详细信息以及数据 视图,称为上钻( d r i l l u p ) 。钻取的深度与维所划分的层次相对应。旋转( r o t a t e ) 则可以通过旋转得到不同视图的数据。在o l a p 分析中,通过对多维数据的钻 取、切片及旋转等分析动作,深入了解数据中非直观的有用信息,完成决策支持 和多维环境下的查询及报表。 基于底层数据存储的不同,可以将o l a p 分为m o l a p 和r o l a p 两种。 m o l a p 是建立在多维数据库( m d d b ) 的基础之上,依靠数据“维”形成的超立 方体来支持多维分析。r o l a p 以关系数据库为核心,将数据的多维结构划分为 事实表和维表两类关系表。当进行o l a p 查询时,将用户的多维分析动作解释 成相应的s o l 语句,执行操作并返回查询结果。 2 2 2 数据挖掘 数据挖掘起源于统计分析和神经网络的研究,它其实是知识发现的核心部 分。在积累了大量数据后,许多信息被湮没其中,这就必然要求对数据进行分析、 整理,识别出有效的、潜在的、有用的及最终可以理解的知识。数据挖掘的目标 是在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来作出预 测。 2 2 2 1 数据挖掘的步骤 数据挖掘的步骤一般包括三个部分:数据准备、模型建立、模型的验证和 评估。 数据准备主要包括数据取样、数据预处理。数据挖掘的对象通常是海量的 1 9 誓 南京邮电学院硕士研究生学位论文 数据,要在如此庞大的数据群中寻找有用的知识不是一件容易的事情。此外,数 据分析操作不同于事务系统中增、删、改等普通操作,它往往要对数据进行复杂 的查找、排序、合并等运算,要消耗大量的系统资源。所以,对目标数据进行抽 样是一个有效的方法。抽样的一个先决条件就是要保证抽样数据能够真实反映目 标数据的情况。同时,每种数据挖掘方法都会对数据源提出一定的要求,比如有 的算法不能有效处理数值型数据。因此在数据准备阶段要针对要求对数据源进行 相应的预处理。 模型的建立是数据挖掘中的核心问题,它通常与要处理的问题紧密相关。 不同的方法可能针对某种应用比较好,对于另外的一些应用则可能完全失效。在 实践中模型的建立是一个反复的过程,需要仔细考察不同的模型,最终确定哪一 个最合适所要解决的问题。 通过数据挖掘可以得到一系列的分析结果和模式,必须对它们进行评估才 能用于实际工作的指导。首先,可以用训练模型的训练集对分析结果进行检验, 如果不能得到很好的结果,说明数据模型的选择和建立存在较大问题,应该采用 新的模型对问题域进行分析。其次可以采用样本空间中的其它数据对分析结果进 行检验,这次的结果大多数情况下会差于第一次的结果,就要求评估这种差异是 否能够容忍,如果效果太差,就要考虑第一次构建模型的训练集是否能充分反应 数据的真实情况或者模型本身是否符合该问题域。当然,这样建立的模型可以再 通过新鲜数据的检验。这里的新鲜数据指的是模型建立后抽取的数据。 并不是预测分析效果最好的模型就可以认为是一个正确的模型,例如对财 务指标的分析,如果一个模型预测值与真实值拟舍得非常好,但是需要两个月的 计算时间,这种分析模型的实用价值就大打折扣了。一般情况下,模型的选择都 是一个付出的代价与达到的效果之间妥协的产物。模型建立好后一直能良好工作 的情况非常少,分析模型是一个不断完善的过程。 经过验证的模型通常可以采用下面两种方式对企业运作发生影响。其一, 模型建立后,可以结合领域知识进行解释并提供给企业的市场或管理部门,用于 指导生产与决策,比如一个客户细分模型可以清楚地看到每一类业务主要的消费 群体,针对该特定群体的实际情况就能制定相应的营销策略以吸引更多的顾客。 2 0 南京邮电学院硕士研究生学位论文 其二,直接指导事务系统的运行。在通信企业的反欺诈系统中,模型对客户消费 行为进行预测,如果判定客户欺诈的可能性非常高,就可以指导运营支撑系统对 该用户进行停机处理,把企业的损失减少到最低程度。 2 2 2 2 数据挖掘的分类 数据挖掘的核心技术已经发展了数十年,商业产品中提供的大多都是比较 成熟的算法。对特定的挖掘任务常常要用到一个以上的方法来解决,因为任何一 个算法都不是万能的,需要其它的算法进行补充以提高分析的效率等。 数据挖掘的方法一般分为预测型( p r e d i c t i v e ) 和描述型( d e s c r i 口t i v e ) 两种, 如图2 5 所示: 图2 5 数据挖掘算法分类 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型 模式所使用的数据也可以是明确知道结果的。通常包含以下几种。 分类( c l a s s i f i c a t i o n ) :其目的在于通过训练集中数据表现出来的特性,学 会一个分类函数或分类模型( 常常称为分类器) ,使用该模型把目标数据集中的 数据映射到给定的类别中的某一个。分类的类别是预先在专家指导下建立好的, 因此通常认为是有监督的学习。这里对数据进行的分类,只是一种预测,是不肯 定的。 回归分析( r e g r e s s i o n ) :回归是通过具有已知值的变量来预测其它变量的 值。回归分析的函数定义与分类模式相似,它们的差别在于分类模式的预测值是 离散的,回归分析的预测值是连续的。 时间序列分析( t i m es e r i e s ) :时间序列分析是通过数据随时间变化的趋势 来预测未来的值。与回归分析一样,它也是通过已知的值来预测未来的值,只不 过这些值的区别在于所处的时间不同。 2 1 南京邮电学院硕士研究生学位论文 描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把 数据分组。描述型模式不能直接用于预测,它主要有以下几种: 关联分析( a s s o c i a l i o na n a l y s i s ) :关联分析的目的在于研究数据间隐藏着 的相互关系,寻找在同一个事件中出现的不同项目之间的相关性。这样挖掘出来 的规则只是说明了已有数据间的某种关系,没有其它数据来验证其正确性,不能 保证这些规则对以后的数据仍然有效。 序列关联分析( s e q u 矗t i a la n a l y s i s ) :序列关联分析与关联分析相似,其 目的也是为了挖掘数据间的关联关系,但序列关联分析的侧重点在于分析数据间 的前后序列关系,即把数据之间的关联性与时间联系在一起。 聚类分析( c 1 u s t e 曲g ) :聚类分析就是通过分析数据,根据一定的分类规 则,合理地划分集合,确定每组数据所在的类别。通过聚类分析,把每组数据划 分到不同的组中,保证组之间的差别尽可能大,组内的差别尽可能小。与分类模 式不同的是,聚类并不知道要划分成几个组、分成怎样的组,也不知道根据哪几 个数据项来定义组。这种方式也叫无监督学习。 2 2 3 两种分析技术的比较 作为数据分析中两种常用的分析方法,联机事务分析和数据挖掘之间还是 存在区别的。 联机事务分析首先是建立一系列的假设,然后通过其特有的钻取、切片、 旋转等功能,自上而下、不断深入地分析数据,通过验证或推翻假设来得到最终 的答案。联机事务分析从本质上来说是一个演绎推理的过程,他对操作人员的要 求比较高,必须拥有较高的业务素养和敏锐的分析能力,在与系统的不断交互中 解决问题。 数据挖掘与联机事务分析的区别在于它不是用于验证某个假设的正确性, 而是在数据中寻找新的模式。数据挖掘的自动化程度较高,能更深入地发掘数据 中的隐含信息。 从数据分析的深度来看,联机事务分析处于较浅的层次,数据挖掘处于比 2 2 南京邮电学院硕七研究生学位论文 较深的层次。当然,它们具有一定的互补性,o l a p 的分析结果可以给数据挖掘 提供分析信息作为挖掘的依据,数据挖掘可以拓展o l a p 分析的深度,可以发 现o l a p 所不能发现的更为复杂、细致的信息。 2 3 南京邮电学院硕士研究生学位论文 第三章通信企业中实施商务智能的分析 随着中国通信行业改革的不断深入,国内服务市场逐步形成了由政企不分 的垄断经营到数家大运营商主导、多家小运营商参与、新运营商不断进入的市场 竞争格局。加入w t o 后,国际电信企业已经开始逐步渗透到中国的通信服务市 场,可以预见市场将更加开放、竞争将更加激烈。 目前,各大运营商在网络服务质量方面相差甚微,甚至能与世界级电信企 业相媲美,但在运营管理、市场培育等方面还存在较大差距。依靠单纯的价格战 并不能从本质上解决问题,反而会对企业赖以生存的消费市场造成极大的伤害, 对竞争双方都造成巨大损失。因此,运营商们纷纷引入先进的管理方法和管理技 术,借助信息化工具,转变经营思想与经营模式,以提高企业的核心竞争力。 商务智能通过深层次、多角度地分析、挖掘当前和历史的生产业务数据、 客户信息、竞争对手的信息等相关领域的多种数据,发现其内在的规律,可以得 到宝贵的决策支持信息,快速、准确地分析商业问题,并且对企业未来的生产计 划和长远规划提供理论指导。 3 1 通信企业系统现状分析 通信行业是国内少数几个较早实施企业信息化的行业,目前系统规模在世 界上也属前列。一方面,业务系统庞大,种类繁多,而且近几年由于激烈的市场 竞争,出台了众多优惠政策,各种政策相互交叉更加剧了业务系统的复杂性,有 时甚至制定者也无法把各种优惠政策之间的相互关系理顺。另一方面,企业内部 运作着多个i t 系统,如9 7 计费系统、o a 系统等,这些系统每时每刻都产生着 各种各样的数据,并且数据量通常比较大。 典型的通信企业运营支撑系统如图3 1 所示: 2 4 南京邮电学院硕士研究生学位论文 一一一一一一一一一一一一一一一一一一一一;五;磊一? 圊圊隔葡li 智能科暮统ii 省纽硝持ii 太客p 舜理l ; lj l 蓬翌墨蕴jl 垂丝j l 际高压葫l 圆蚓;l 堂茎堑jl 点琏整蛰j: 。! 一一一一一一一一一一一一一一一一一二二i ;二i 磊j 圄圄圄 回国圄 图3 1 业务支撑系统现状 3 2 系统建设目前存在的问题 以中国电信为例,目前各省公司在建设支撑系统时主要采用省中心和本地 网两级模式。例如在华东某省级电信公司中,采用省中心模式建设的主要有长途 网管系统以及一些省级专业计费平台,如智能网计费系统、多媒体宽窄带计费系 统、家家e 计费系统、分组交换计费系统、电报计费系统、1 1 3 人工长途计费系 统等。以本地网模式建设的有”九七”系统、本地网计费帐务系统、网间结算系统、 1 0 0 0 号系统、1 1 2 系统等。 3 2 1 目前系统存在的缺陷 这些支撑系统是在不同历史时期、根据生产和业务的需要、由不同供应商 提供的,在系统整体规划、体系结构和指导思想等方面存在较大差异。各系统间 的数据也相对分散和独立、难以共享,没有建立统一的、用于分析处理的基础数 据平台。 系统中现有的统计分析功能基本都捆绑在相应的运营系统中。分析型系统 与事务型系统在设计思想上的根本性差异,决定了这样的一种构架不能同时满足 事务的快速响应与数据的深层挖掘这两种截然不同的应用需求。另一方面容易造 成运营系统负担过重,安全性和稳定性大大降低,不能满足企业长远发展的需要。 2 5 南京邮电学院硕士研究生学位论文 此外,原有系统通常依赖特定的接口程序进行业务数据的统计分析。一旦 系统需求发生变化,系统软件供应商就必须重新开发程序来满足新的需求。这种 流程涉及面广、响应周期长,制约了企业快速地推广及调整新业务的能力,难以 在灵活性、时效性方面提供良好的支持,缺乏实时地采集信息并产生实时分析数 据的能力。 3 2 2 系统实施难度大 通信事业的高速发展使得目前国内几大运营商的系统规模在世界上已经位 居前列。系统每天产生的运行数据和运营商积累下来的历史数据将对商务智能系 统的成功实施提出挑战。同时,数据分析系统对性能的要求也比较高,如果不能 满足时效性上的要求,也将大大降低系统的可用性。 3 2 3 系统实施经验不足 商务智能从概念的提出到现在不过短短的十几年,国内对其研究应用也刚 刚起步,无论是通信还是其它行业都没有大规模系统实施的经验可以参考。通常 国际b i 厂商都会提供国外成功实施的案例,但很多案例已经清楚地表明,国外 成功的经验只能作为借鉴,决不能生搬硬套。 目前国内的b i 产品大都还不够成熟,成功的案例更是风毛麟角。商务智能 作为企业数据分析处理、决策支持的整体解决方案,仅仅购买一套产品还远远不 够。系统的成功实施很大程度上依靠通信企业培养一批既懂技术又熟业务的专门 分析人员,能够熟练运用通用分析模型对客户、市场进行分类和规划,并且能够 针对具体的问题建立新的模型解决问题。 3 2 4 企业需求与传统理论间存在矛盾 商务智能系统中将存储了大量宝贵的运营数据,企业为了提高自身的竞争 力,当然希望能通过系统的建设向客户提供更优质的服务。但传统的数据仓库理 论限定了分析型的系统主要面向企业的运营管理和决策支持,不能支持实时性要 求比较强的业务处理。随着企业对实时分析需求的不断增强,系统在建设时必须 2 6 南京邮电学院硕士研究生学位论文 在数据源的整合、数据存储及信息检索等各方面对传统理论进行必要的修正。 3 3 系统建设的必要性及原则 企业要密切关注市场与客户的动向,及时为客户提供优质服务,并提高企 业决策的科学性,就必须建立一套完整、高效的商务智能系统,在客户关系管理、 市场营销及企业决策管理等方面提供强有力的支撑。一些新兴的运营商已经或正 在建设自己的统一经营分析系统,希望以此在竞争中取得有利的地位。 3 3 1 系统建设的必要性 l 集中管理 通信企业各支撑系统间比较独立,数据分散且一致性差。通过对这些数据 进行归纳、整理,形成统一的数据分析平台,并在此基础上建设一套企业级的综 合报表及分析系统,可以降低维护管理的成本、优化企业内部流程,提高生产和 服务质量。 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论