(计算机科学与技术专业论文)电信数据仓库中基于eca的主动信息服务.pdf_第1页
(计算机科学与技术专业论文)电信数据仓库中基于eca的主动信息服务.pdf_第2页
(计算机科学与技术专业论文)电信数据仓库中基于eca的主动信息服务.pdf_第3页
(计算机科学与技术专业论文)电信数据仓库中基于eca的主动信息服务.pdf_第4页
(计算机科学与技术专业论文)电信数据仓库中基于eca的主动信息服务.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信教据仓库中基于e c 的主动信息服务 电信数据仓库中基于e c a 的主动信息服务 摘要 数据仓库技术已经在电信行业中有了广泛的应用,较好地支持了 企业中上层的分析决策,但缺乏对日常战术决策的支持,对于突发性 事件,其数据变化不能及时地反映到数据仓库中来,而且不能主动地 把信息推送给合适的用户,主动实时数据仓库刚好可以解决这些问 题。 本文把主动数据库中成熟的e c a 规则技术引入到传统的数据仓 库系统中,设计了一个基于e c a 规则的主动信息服务系统架构,即 在原有的数据仓库基础上添加两个松藕合的模块:实时数据更新模块 和主动信息服务模块。本文设计了一种面向对象的e c a 规则描述方 法,并针对业务人员提供类似自然语言的规则编辑模版,然后结合 j a v a 规则引擎和j m s 设计实现主动信息服务模块,最后,以电信领 域客户流失预警分析作为一个实例对原型系统进行了应用实践。 关键词主动实时数据仓库e c a 规则引擎j m s 北京i 电大学项士论文 l 电信教据仓库中基于b c 的主动信息服务 a c t i v ei n f o r m a t i o ns e r v i c eb a s e do i le c ar u l e i nt e l e c o md a t aw a r e h o u s e a b s t r a c t d a t aw a r e h o u s et e c h n o l o g yi s w i d e l ya p p l i e d i nt h et e l e c o m i n d u s t r y , a n di t h a sb e e nu s e df o rm i d d l ea n du p p e rc l a s s e so ft h e e n t e r p r i s et ob e t t e rs u p p o r tb u s i n e s sa n a l y s i sa n dd e c i s i o n s h o w e v e r , i t s u p p o r t sl i t t e rt od a y - t o d a yt a c t i c a ld e c i s i o n ,r e f e rt oc r i t i c a le v e n t ,t h e f r e s hd a t ac a nn o tb el o a d e dt od a t aw a r e h o u s ei nt i m e ,b u ti tc a l ln o t i n i t i a t i v e l yp u s ht h ei n f o r m a t i o nt ot h ea p p r o p r i a t eu s e r s t os o l v et h e s e p r o b l e m s ,a c t i v er e a l t i m ed a t aw a r e h o u s ei si n t e r e s t e db yb o t hi n d u s t r y a n dt h er e s e a r c hc o m m u n i t i e s i tr e d u c e st h et i m es p a nb e t w e e nc r i t i c a l b u s i n e s se v e n t sa n dt h ea c t i o n st a k e na sar e s u l to fs u c he v e n t s i nt h i sp a p e r , w ei n t r o d u c et h ee v e n t - c o n d i t i o n a c t i o n ( e c a ) r u l e s i na c t i v ed a t a b a s et ot h ec o n v e n t i o n a ld a t aw a r e h o u s ea n dp r o p o s ea n e c ab a s e df r a m e w o r kf o ra c t i v ei n f o r m a t i o ns e r v i c es y s t e m i ta p p e n d s t w ol o o s e - c o u p l i n gm o d u l e s :r e a l - t i m ed a t au p d a t i n gm o d u l ea n da c t i v e i n f o r m a t i o ns e r v i c em o d u l e w ep r o p o s ea l lo b j e c t - o r i e n t e dm e t h o dt o d e s c r i b ee c ar u l e ,a n ds u p p l ya p i sl i k en a t u r el a n g u a g ef o rb u s i n e s s u s e r st o e a s i l yd e f i n ea n du n d e r s t a n dt h e i rb u s i n e s sr u l e sb a s e do nt h e b u s i n e s so b j e c t s ,a n dc o m b i n ej a v ar u l ee n g i n ew i t hj m st oi m p l e m e n tt o 北京邮电大学硕士论文 i v 电信敷捂仑库中基于e c a 的主动信息服务 t h ea c t i v ei n f o r m a t i o ns e r v i c e m o d u l e f i n a l l yw e v a l i d a t et h e e f f e c t i v e n e s so ft h ep r o t o t y p e s y s t e mb ya c u s t o m e rc h u ma n a l y s i s a p p l i c a t i o ni nt h ef i e l do f t e l e c o m m u n i c a t i o n k e yw o r d s :a c t i v er e a l - t i m ed a t aw a r e h o u s e e c ar u l ee n g i n ej m s 北京邮电大学硕士论文 v 电信敷据仓库中基于e c a 的主动信息晨务 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 始篡裂盗燮竺:适需 啦汤 本人签名:翅筮髭日期: 导师签名:霉3 望拈日期: 北京邮电太学硕士论文 i i 电信数据仓库中基于b “的主动信息服务 1 1 背景 第一章绪论 随着企业信息化的推广以及计算机系统的成熟应用,从数据到信息再到知识 的应用成为新的计算机系统开发的热点。基于数据仓库、联机分析处理( o l a p ) 和数据挖掘的系统越来越多,很多企业建立自己的数据仓库作为其实施o l a p 系统和决策支持系统的基础。国内各大企业( 尤其是电信、金融等领域) 都已经 完成或正在实施基于数据仓库、数据挖掘技术的经营信息服务平台的建设,为市 场和决策人员提供了数据和信息支持。 传统的数据仓库一般采用周期性的数据更新策略,选定一个更新周期,定期 的到源数据库中抽取数据,转换,加载至数据仓库中,一般主要面向市场分析、 决策人员提供简单报表查询,即席查询,o l a p 查询等,数据仓库被动的等待用 户来获取信息。而且对于突发性的事件,其数据变化不能及时地反映到数据仓库 中来,这样那些对数据实时性要求比较高的应用中,基于原来的数据做出的决策 对业务的指导性会大大降低。 现在数据仓库正在向实时型和主动型方向发展。所谓主动数据仓库,首先是 数据的主动更新,基于数据仓库的战术性决策需要最新的数据,能够主动的将业 务系统的数据加载至数据仓库,保证数据仓库数据的实时性;其次信息的主动生 成,最新的数据能够自动生成各指标的达成情况报告、日常报表等,帮助用户监 控企业的运行情况,并能根据预定义好的规则实现信息的主动服务,向企业内外 的信息消费者,采取“推”的方式将正确的信息推送给正确的人。 主动实时数据仓库在很多领域都有需求,如电信客户流失分析、实时信用控 制、反欺诈分析等。现在电信企业之间竞争加剧,运营商不断推出新的套餐和新 的业务,希望能够争取到更多的市场份额。但同时,这也在很大程度上加大了客 户的不稳定性,使得客户离网现象频繁发生。目前,国际上,美国电信行业客户 流失率为3 0 ,欧洲为2 5 ,亚洲运营商统计的客户流失率高达4 8 ,国内,中 国联通c d m a 客户流失率约为1 7 9 ,g s m 约为3 2 ,中国移动的客户流失率 为1 2 6 ,中国电信小灵通的客户流失率约为1 0 。g a r t n e r 公司的调查数据表 明,开发一个新客户的费用是维持一个老客户成本的4 5 倍。另外有研究表明, 一个公司如果将其顾客流失率降低5 ,利润就能增加2 5 8 5 。由此可见,大 量的客户流失让运营商蒙受巨大损失。 北京邮电大学硕士论文 电信数据仓库中基于e c 的主动信息服务 1 2 研究内容及成果 本文在主动数据库的基础上,结合数据仓库在当今企业中的应用需求,再结 合数据仓库技术的演进历程,设计了一个基于e c a 规则的主动信息服务的系统 框架,并重点对该系统中的主动信息服务模块做了设计与实现,包括设计了一种 面向对象的e c a 规则描述方法,并针对业务人员提供了类似自然语言的规则编 辑模版,然后把j a v a 规则引擎和j m s 结合设计实现了主动信息服务,最后,以 电信领域客户流失预警分析作为一个实例对原型系统进行了应用实践。 1 3 论文结构 第二章介绍了主动实时数据仓库产生的原因及其国内外研究现状,并对规则 引擎国内外应用情况作了介绍。 第三章提出了一种数据仓库中基于e c a 规则的主动信息服务的体系结构, 并对其中的各主要模块做了介绍。 第四章提出了一种面向业务对象的e c a 规则描述方法,把a c t i o n 与j m s 结合用来实现信息的主动推送。 第五章对j a v a 规则引擎进行了研究与设计,并以客户流失预警分析为应用 实例进行原型系统实践。 最后总结工作成果,并展望下一步工作。 北京邮电大学硕士论文 2 电信数据仓库中基于e t a 的主动信息服务 第二章主动实时数据仓库概述 本章首先介绍了主动实时数据仓库产生的原因,然后介绍了主动实时数据仓 库的一般架构及研究现状,最后介绍了规则表示现状及规则引擎应用情况。 2 1 主动实时数据仓库产生的原因 2 1 1 数据仓库 数据仓库1 1 系统是一个包含四个层次的体系结构, i io f a p 搬蠹墨 日 口 目 口 数据纛 i 具体由图2 - 1 表示。 辩龋工曩 鐾邈爱谰烈 摊寰工 凰黼 0 l 璺出 中联 : 菇螺复希 疆,冉p 艘务鬻: 图2 1 数据仓库体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类 文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集的信息等 等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点具体需求着手分析。针对现有各业务系统的 数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的 覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; 北京邮电大学硕士论文 电信数据仓库中基于b c 的主动信息服务 m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 r d b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 1 2 基于数据仓库的电信经营分析系统现状 2 1 2 ,1 基于数据仓库的电信经营分析系统功能体系结构 现有电信经营分析系统对经营信息的处理包括三部分内容,分别是采集、存 储、展现。 其中,经营信息的采集指按照数据源接口标准,从服务支撑系统的生产子系 统数据源( 如b o s s 系统、c r m 系统、统一客户资料系统等) 中进行抽取、转 换、装载,构成经营分析系统所需的信息。 经营信息的存储指对本系统数据仓库中各级信息进行组织、存储与访问控制 管理。 经营信息的展现使得用户可以通过上层提供的各种应用,利用w e b 、g u i 、 a p i 等方式对经营信息进行查看和访问。 现有经营分析系统的体系结构参考客户机应用逻辑服务器数据库服务器三 层结构,并采用“模块化”的软件设计策略进行规划,将软件在总体上分为五大模 块:数据采集模块、数据仓库生成模块、应用逻辑模块、元数据管理模块和系统 管理模块,从而形成模块化的分层体系结构。总体软件体系结构如图2 2 所示。 北京邮电大学硕士论文 4 电信微据仓库中基于e c a 的主动信息最务 圉2 - 2 现有电信经营分析系统的软件体系结构 2 12 2 电信经营分析系统所提供的服务 目前电信经营分析系统的功能主要为数据仓库的生成以及对外提供数据访 问。功能模块包括数据采集、数据仓库生成、数据仓库接口、标准报表数据文件 报表生成与传输、平台系统管理。平台数据包括元数据( e t l 规则、标准报表 元数据) 、数据采集后的目标文件、o d s 数据、d w 数据、标准报表数据文件、 标准报表。 电信经营分析系统所提供的服务分为三个层次( 如图2 - 2 ) : 数据服务:我国电信企业的数据仓库体系结构中都规划了o d s ( 操作数据 存储) 详细型数据层次,o d s 集成了来自于各个独立的电信运行支撑系统( o s s ) 中的操作型数据,不仅进行了数据一致性和完整性的规范化工作,而且存储时间 北京邮电大学硕士论文 电信微据仓库中基于b c a 的主动信息屐务 较o s s 长。在此之上可以提供原来在o s s 上提供的数据服务功能,包括:详单 查询、日常报表生成、即席查询等。 信息服务:电信数据仓库体系结构在o d s 之上规划了不同粒度的面向分析 主题的信息服务,包括企业报表、k p i ( 关键性能指标) 、o l a p ( 在线分析处理) 、 数据挖掘信息等,为企业的经营分析人员了解企业现状、分析现状产生的原因、 预测未来的情况提供了全方位的信息支持。 从现有电信经营分析系统的软件体系结构( 如图2 2 ) 可以看出,目前的电 信经营分析系统建设已经实现的服务为数据服务和信息服务。 知识服务:信息如果不及时地提供给相关人员用来解决实际问题,那么信息 就无法转变为对企业有用的知识。知识服务层次的目的就是支持经营分析人员根 据特定的商业目标、按照常规的认知思维过程,分析和解决特定的商业问题,这 个层次的主要服务体现就是电信经营专题分析,另外还有主管信息系统( e i s ) 和第三方经营服务应用接口等。 在现有电信企业经营分析系统所实现的功能中,对于知识服务的提供还只停 留在手工收集信息服务层和数据服务层的相关信息,根据分析人员的经验,判断 信息的关联关系和潜在知识,并以专题分析报告形式向决策人员提交分析结论的 阶段。这种半自动的知识服务越来越不适应电信企业快速发展的要求,而且,过 分依赖于分析人员个人经验和工作能力的专题分析报告也不能准确而客观地反 映企业的经营状况。 因此,电信企业迫切需要一个能够提供数据层、信息层乃至知识层的全面服 务的智能化电信经营分析系统。 2 1 3 传统数据仓库的不足 传统数据仓库系统一般采用固定的抽取周期,时间粒度比较大,现在最快的 一般为一天一个抽取周期,数据导入一般采用接口文件的方式,这种应用较好的 支持了企业中上层人员分析决策,但一般只提供对战略性决策的支持,不支持战 术性决策,也基本不面向企业前端的业务人员使用。对于那些对数据实时性要求 比较高的应用中,业务系统的中数据不能及时反映到数据仓库中来,这样基于以 前的数据做出的决策可用性就会大大降低。 现在基于传统数据仓库的应用,基本上是用户主动发起查询请求,数据仓库 系统被动的等待用户获取信息。即使是那些基于数据仓库的固定报表应用,现在 可以做到数据更新后自动生成最新的报表,但数据仓库应用一般周期比较长,需 求阶段本来有些需求就不明确,制定的固定报表很有可能到项目真正实施的时候 有所改变,设定的阀值可能不同时间段需要更改,或者需要添加新的观测维,现 北京邮电大擘硕士论文 6 电信数据仓库中基于e c a 的主动信息服务 在这些业务规则基本上都是写死在应用程序中,参数一般可以利用配置文件作修 改,但一旦业务规则变更,对应用改动代价太大而且不灵活,迫切需要把业务规 则从应用逻辑中提出出来单独管理,刚好规则引擎可以解决这个问题。 下面这些应用在传统数据仓痒中是难以实现的,但主动实对数据仓库【2 】提供 了可能: 利用呼叫中心,进行自动的、直接的客户营销; 在信用卡业务处理过程中,及时进行欺诈检测; 飞机满座率低时,可以在飞机起飞前,让更多的乘客坐上飞机; 基于当前的客户贡献度和价值度,给客户灵活的综合定价和折扣; 及时决定运行中卡车的最优线路,降低货物运送时延,并实现对不同客户的 不同服务承诺; 基于客户近期的信用卡交易情况、结合他们长期的购买行为,优化即将要送 给客户的交叉销售购物券。 2 2 什么是主动实时数据仓库 现在数据仓库正在朝主动实时数据仓库方向发展,数据仓库系统的发展如下 所示: 图2 - 3 数据仓库的演进【3 l 主动实时数据仓库是对传统数据仓库的扩展,它是一个整合的、集中的数据 仓库,它包含操作型和分析型两种数据,并通过实时数据更新,主动事件监测、 规则驱动的机制。以达到对不同用户( 业务人员、分析人员、决策人员、外部人 北京邮电大学硕士论文 7 电信敷据仓库中基于e “的主动信息服务 员,以及e a i 中相关应用) 的动态决策支持( 战术型、战略型决策) ;同时保证 企业内部的业务和决策在一个闭环过程中运行。 主动实时数据仓库需要考虑以下问题: 数据更新的实时性: 当发生如一个账号关闭、一次购买、或默认的借贷,几秒之内,相关的信息 就要被存储到数据库中。一般而言,数据的实时性越高,所触发的事件的实时性 就越高,从而所得到信息的价值就越高,如图2 - 4 所示: u c 山 3 图2 _ 4 实时性与价值的关系 因此,采用何种方式实时更新数据仓库中的数据是主动实时数据仓库成功的 基础。 多重负载带来的性能要求 一个战术决策不像战略决策那样有几个月或几年的生命周期,它的生命周期 仅仅几分钟。一个战术决策的关注面往往比一个战略决策的关注面窄得多,所以, 它需要较少的数据扫描、排序和分析但这并不意味着简单。因此,主动实时 数据仓库中存在多重负载问题,这些不同种类的负载在对外提供服务时对系统的 要求是不一样的,因此,个主动实时数据仓库系统要合理安排多重负载的优先 级问题,以及由此带来的性能问题。 事件的实时监控与规则触发 主动实时数据仓库中的包含实时数据,在这些数据基础上,采用什么事件触 发机制,触发的活动事件什么时候、什么方式绑定规则库中的规则,是主动实时 数据仓库系统的核心。 信息的主动推送 主动实时数据仓库之所以是主动,是因为系统不再被动的等待用户来获取信 息,而是利用预定义的业务规则,通过规则引擎推理自动生成可用的信息,然后 北京邮电大擘硕士论文8 电信敷据仓库中基于e c a 的主动信息服务 利用消息的订阅发布机制主动的推送给用户,这正是主动实时仓库最终发挥意 义之所在。 数据可靠性与错误恢复 做长期的战略决策时,如果数据仓库出现一段时间不能使用的情况,对于业 务的影响可能经常察觉不到。但对于支持战术决策的环境就不同了。例如,如果 要做一个好的客户关怀的决策,外部客户的呼叫是不能有延迟的。主动实时数据 仓库的停工期会直接导致机会的丢失。因此,要最大限度的压缩停工期以提高商 业价值。而且,一旦发生错误,还需要考虑使用哪种错误恢复机制恢复。 主动实时数据仓库扩展了传统数据仓库的功能,使得数据仓库进入到战术决 策制定的领域。通过快速调控整合的数据、过程和程序,组织内部所有的人员, 包括那些直接同客户和供应商打交道的人,都可以很容易的得到丰富的信息以支 持其决策的制定。 2 3 主动实时数据仓库国内外现状 目前,国内外的研究成果主要还是集中在主动数据库方面,主动实时数据仓 库还没有大规模的成功案例。下面先介绍下主动数据库1 4 】,及其应用现状,然后介 绍下主动实时数据仓库的研究现状。 23 1 主动数据库及其现状 2 3 1 1 主动数据库 传统的数据库管理系统( d b m s ) 只能响应用户或应舟程序的要求,对数据库 进行相应的操作,而不能根据系统( 或应用程序) 事件发生的条件或数据库的状态 进行相应的主动处理,它是被动式d b m s ( p d b m s ) 。但是,现代信息系统越来 越要求d b m s 能够主动捕捉系统事件( e v e n t ) ,并根据一定的条件( c o n d i t i o n ) 做出 相应的处理。在2 0 世纪8 0 年代初,开始了主动数据库管理系统( a c t i v ed b m s ) 的研究,因此,8 0 年代中后期,主动数据库成为数据库领域的重要研究方向之 ,在9 0 年代中期取得了突破性的进展,建立起了比较完整钓“事件( e v e n 0 - 条 件( c o n d i t i o n ) 动作( a c t i o n ) ”规则理论,即e c a 规则体系。 a d b m s 是指具有主动服务功能的d b m s ,并以一种统一两方便的机制来实 现各种主动性需求,即要求把这些主动性功能用一种统一的方法与传统的d b m s 进行集成。它主要完成下列主动性要求:主动进行实时检测和控制;主动动态监 控d b m s 状态,包括一致性或完整性检查等;主动进行异常情况处理和错误监 测、警报和处理;主动完成分布数据库系统中各子系统之间的通讯和同步;主动 北京邮电大学硕士论文 9 电信数据仓库中基于e c a 的主动信息服务 检索或推理策略的自动选择和切换;主动完成中断处理;主动对数据库系统运行 情况进行统计和审计。 a d b m s 的规则可描述为: o n i f t h e n 即当发生某一事件( e v e n t ) 时,如果满足给定条件( c o n d i t i o n ) ,则执行相应的 动作( a c t i o n ) 。这种规则称为主动数据库规贝l j ( a c t i v ed a t a b a s er u l e s ) ,又称e c a 规 则,也称触发器( t r i g g e r ) 。一个规则的定义除了有事件、条件、动作三个主要部 分外,还有一些辅助部分,用以说明规则在执行时的约束条件,有耦合模式,优 先级别。优先级别用以规定当一个事件触发多个规则时,多个规则之间的执行顺 序。耦合模式有三种:立即模式( i m m e d i a t e ) ,延迟模式( d e f e r r e d ) 和分离模式 ( s e p a r a t e ) 。 一个主动数据库系统的功能模型可以由一个传统数据库系统( d b m s ) 和一个 事件驱动的知识库( e b ) ,及相应的事件监测器( e m ) 组成。其中传统数据库系统 用于存储数据和对数据进行维护管理和使用:事件库是一组由事件驱动的规则集 合,每一项规则表示在相应的事件发生时,如何主动地执行其中包含的预定义的 动作;事件监测器时实现主动数据库系统的关键,它随时监视事件库中的事件是 否已经发生,一旦监视到某事件已经发生就主动触发系统,执行相应的动作。 2 3 12 国内外的现状 国外尤其是美国在主动数据库、实时数据库和分布式数据库等领域的研究已 经进行了多年,达到了一定的理论深度并付诸实践,而且取得了丰硕的成果。将 主动数据库、实时数据库和分布式数据库系统、面向对象的理论和技术进行有机 的集成也有了一定的进展。 在主动数据库研究方面,主要有如下主动数据库管理系统: 1 h i p a c ( h i g hp e r f o r m a n c ea c t i v ed a t a b a s es y s t e m ) h i p a c 系统是由威斯康辛大学( c o m p u t e rc o r p o r a t i o no f a m e r i c a n ) 于1 9 8 7 年 开始研制的,基于o o d b p r o b e 的主动规则管理系统。h i p a c 首先提出了主动 数据库的大多数重要的观点,例如:耦合模式和复合事件。它在管理时间约束的 数据方面解决了两个关键问题:对数据中的时间约束的处理,及条件评价时冗余 询问的避免。h i p a c 的一个不同的特征是触发规则作为子事务并行执行。采用 北京邮电走擘硕士论文 1 0 电信数据仓库中基于b c 的主动信息服务 的执行模型允许事务之间、情形评价与活动之间的不同匹配模式,并为事务与被 触发的活动之间的正确并发执行提供了算法。h i p a c 探讨了调度有时问约束的 任务的不同调度方法,并设计了一种体系结构以协调数据库与操作系统间的交互 作用。 2 s a m o s ( s w i s sa c t i v em e c h a n i s m - b a s e do b j e c t - o r i e n t e ds y s t e m ) s a m o s 5 1 是瑞士苏黎士大学s t e l l ag a t z i u 、k i a l l s d i t t r i c h 等人在1 9 9 0 1 9 9 4 年间开发研制,建立在o b j e c ts t o r e 之上的面向对象主动数据库。它主要着力于 以一种合理的方式将主动机制与面向对象机制结合在一个系统中。面向对象技术 的使用增加了主动机制的灵活性,为规则的封装与继承及复杂事件的定义提供了 便利s a m o s 使用e c a 规则说明和实现主动行为。它的一个显著特色是复杂的 事件代数,支持的事件操作符有析取、合取、顺序、非和闭包。此外还定义t i m e s 操作符,用于返回指定类型的事件在一个时间段内第m 次发生的发生时刻。 s a m o s 允许在事件发生时刻收集数据库的状态作为确定的事件参数集,传递给 规则的条件评价器。这些参数包括事件发生时刻,事件发生时所在事务的事务识 符,事务的属主以及调用方法的对象。 3 o d e o d e 系统是由a t & t 贝尔实验室于1 9 9 1 年开发的。它提出了一种数据库编 程语言o + + ,为说明约束与触发器提供了强大的功能。o _ 卜+ 对c h 进行了扩展, 可创建持久对象,并为利用一个对象联系约束与触发器提供了便利。o d e 利用约 束和触发器来实现主动功能,它们不是作为对象而是在类层次上定义的。o d e 支 持硬约束和软约束:硬约束在事件发生后立即检查;软约束检查延迟到事务结束。 4 s e n t i n e l s e n t i n e l 系统是美国佛罗里达大学研制,它的设计很大程度受h i p a c 的影响。 s e n t i n e l 具有全面的事件说明语言s n o o p 。s n o o p 定义了事件操作符a n d ,o r , n o t ,s e q u e n c e 及周期操作符( p ,p 幸) 和非周期操作符( a ,a t ) ,并且利用事件代 数进行复合事件监测。为了减少复合事件监测高额的计算量和巨大的存储空间, s n o o p 定义四种约束环境:顺序环境、最近环境、连续环境和积累环境。利用这四 种约束环境可以准确地表达出所需要的各种复杂实时环境事件。 国内关于主动数据库的研究起步较晚,迄今出现的一些关于主动数据库系统 的文章大多讨论主动数据库系统的体系结构和评价方式。华中理工大学现代数据 库与信息系统科研组最早开展的a r t d b m s 的独创性研究,提出了r t d b s 与 a d b s 的结合机制并开发了一个原型系统a r t s i 和a r t s c s 。在商品化的实时 数据库产品的开发上,比较具有代表性的是武汉华工达梦数据库有限公司经开发 的达梦数据库管理系统d m 3 ;中国国家电力公司自动化研究院于1 9 9 2 年开发的 北京邮电失擘硕士论文 电信数据仓库中基于b “的主动信息晨务 n s i s 石油化工生产实时数据库产品:中国大庆金桥信息技术工程有限公司于 1 9 9 3 年开发的c o n r t d b 实时数据库产品;中国北京三维天地计算机技术开发有 限公司开发的s u p e r l n f o 实时数据库产品;中科院软件所开发的a g i l o r 2 0 等。 2 3 2 主动实时数据仓库研究现状 目前主动实时数据仓库的研究与应用主要是对主动数据库技术的扩展,国内 方面,计算机工程上介绍的基于分析规则的主动数据仓库【6 l ,它是在常规的数据 仓库的基础上引人了分析规则构建出一种主动数据仓库的概念模型,通过扩展主 动规则形成分析规则,来分析多维数据做决策;基于多a g e n t 的主动数据仓库的 研究1 7 】,提出了基于多a g e n t 系统的四层数据仓库体系结构( m a r t - d w ) ,一方面 提高了数据仓库的主动性和实时性,另一方面也增强了系统的伸缩性,能够更加有 效地管理分布式集成环境系统仿真学报中提到了一种数据仓库的主动更新方法 突发事件驱动的方法1 8 】,这种方法的基本思想是:监控业务数据库,捕获发 生在业务数据库中的数据变化,一旦捕获到感兴趣的数据变化,就启动数据仓库 更新操作,将相应的数据变化反映到数据仓库中来,它使得数据仓库和作为其数 据源的业务数据库联系得更紧密,提高了决策。 在国外方面,a l e x a n d r o sk a r a k a s i d i s 提出了基于e t l 队列理论的主动数据 仓库数据更新方案1 9 j ,n c r 公司根据主动数据仓库的思想,提出了一个实时企业 参考体系结构1 1 0 1 ,如下图所示: 图2 - 5r e a l - t i m ee n t e r p r i s er e f e r e n c ea t c h i t :t u r e 北京邮电大学项士论文 电信教据仓库中基于b c 的主动信息晨务 n c r 的实时企业架构主要在原有的企业数据仓库基础上对数据获取集成模 块和数据仓库应用作了改进,数据获取集成模块同时支持批量更新和实时数据流 更新,这样就能保证那些对实时性要求高的业务处理能够获得最新的业务系统中 的数据,然后基于数据仓库的应用方面添加了一个基于事件的业务流程自动处理 模块,能够自动完成那些预定义的业务流程,并通过企业消息总线技术、服务代 理技术等对外主动提供信息服务。 2 4 规则引擎国内外现状 数据仓库项目一般实施周期都比较长,很有可能在项目丌始需求调研阶段和 验收阶段有所变动,条件有所变化,指标有所变动等,或者又有新的需求等等, 原来的解决方案可能不能满足部分需求,需要重新修改查询条件或新建查询,如 果把这种不断变化业务规则( b u s i n e s sl o g i c ) 写在应用程序中,一旦规则变更, 修改代价太大也不易于管理,现在迫切需要分离商业决策者的商业决策逻辑和应 用开发者的技术决策,并把这些商业决策放在中心数据库或其他统一的地方,让 它们能在运行时可以动态地管理和修改,规则引擎正是应用于上述动态环境中的 种解决方法。 2 0 0 3 年1 1 月定稿并于2 0 0 4 年8 月最终发布的j s r 9 4 t l ( j a v a 规则引擎a p i ) 使得j a v a 规则引擎的实现得以标准化。j a v a 规则引擎a p i 允许客户程序使用统 一的方式和不同厂商的规则引擎产品交互,就像使用y d b c 编写独立于厂商访问 不同的数据库产品一样。 规则引擎的推理基本上都是基于c h a r l e sl f o r g y 发明的p e t e ! ”1 算法,该 算法是一个快速的模式匹配算法,它通过存储关于规则的信息而获得速度。r e t e 算法快速匹配的重要依据是: ( 1 ) 时间冗余性工作存储器中的内容在推理过程中的变化是缓慢的,即在每 个执行周期中,增删的事实只占很小的比例,因此,受工作存储器变化而影响的 规则也只占很小的比例。因此只要在每个执行周期中记住哪些事实是已经匹配 的,需要考虑的就仅仅是修改的事实对匹配过程的影响。 ( 2 ) 结构相似性许多规则常常包含类似的模式和模式组。 r e t e 算法的基本思想就是:保存过去匹配过程中留下的信息,以空闻代价 来换取产生式系统的执行效率。 国外方面。i l o gj r u l e s 是最有名的商用b r m s ,刚拿了j o l t ;d r o o l s 是最 活跃的开源规则引擎,一路高歌猛进;j e s s 是c l i p s 的j a v a 实现,就如j r u b y 之 于r u b y ,是m 系的代表。 北京邮电太学硕士论文 1 3 电信微据仓库中基于e “的主动信怠屐务 国内方面,杭州旗正信息技术有限公司拥有独立自主产权的软件产品旗正 商业规则定制平台,是国内第一个规则引擎产品,已经德到国家科技部创新基 金的支持。 j s r9 4 中没有涉及用来创建规则和动作的语言规则语言是规则引擎应用程 序的重要组成部分,所有的业务规则都必须用某种语言定义并且存储于规则执行 集中,从而规则引擎可以装载和处理他们。由于没有关于规则如何定义的公用规 范,市场上大多数流行的规则引擎都有其自己的规则语言,因此,当需要将应用 移植到其他的j a v a 规则引擎实现时,可能需要变换规则定义。如将d r o o l s 私有 的d r l 规则语言转换成标准的r u l e m l ,j e s s 规则语言转换成r u l e m l 等。这个 工作一般由x s l t 转换器来完成。 d r o o l s i l3 】用基于x m l 的节点来表达i f - t h e n ,而里面可以嵌入j a v a 或 g r o o v y 、p y t h o n 语言的代码作为判断语句和执行语旬,其中j a v a 代码会使用a n t l r 进行解释,而g r o o v y 和p y t h o n 本身就是脚本语言,可以直接调用。d r o o l s 的聪 明之处在于,用x m l 节点来规范i f - t h e n 旬式和事实的定义,使引擎很好理解 规则。而使用j a v a , g r o o v y 等原生语占来做判断和执行语句,让程序员很容易过 渡、移植,学习曲线较低。 j e s s ”佣c l i p s 来表达i f - t h e n ,c l i p s 是真正的程序员专用语言,需要 专业的程序员才能编写,但这种语言本来就是用来做专家系统的a i 语言,对规 则的表达能力也应该是最强的。 如果客户可以自己任意编写规则,而且只有把规则编写交给客户,才能达到 规则引擎的全部意义。本文正是提出了一种易于客户编写的规则表示方法,后面 会详细介绍。 北京邮电大学硕士论文 1 4 电信微据仓库中基于b “的主动信息服务 第三章基于e c a 的主动信息服务框架 本章首先提出了一套电信数据仓库中基于e c a 规则的主动信息服务系统的 总体架构,该架构主要包括两大模块:主动数据更新模块,基于规则引擎和消息 服务的主动信息服务模块,然后分别介绍了这两个模块的功能。 3 1 基于e c a 规则的主动信息服务框架 本文把主动数据库中的e c a 规则引入到传统的电信数据仓库系统中,提出 一个基于e c a 规则的主动信息服务的系统框架,如图3 1 所示。 ( 系统相关说明如下: o l t p 联机事务处理 b m c h e t l 批量e t l r e a l t i m e e t l 实时e t l l o a d i n g 加载 仇1 s f o 册a t i o n 转换 e x u a c t i o n抽取 d a t aw a r e h o i l s e 数据仓库 r e a it i m ed a t ac a c h e实时数据缓冲 o l a p 联机分析处理 e v e n td e i c e r 事件监测器 r u l ee n g i n e 规则引擎 r u l e b a s e 规则库 r u l eb m l d e r 规则编译器 e v e n tb a s e 事件库 f a c tb a s e 事实库 ) 北京邮电大学硕士论文 电信敷据仓库中基于e c a 的主动信息服务 围3 1 基于e c a 规则的主动信息服务框架 该系统采用松耦合的方式在传统数据仓库的基础上增加了实时数据更新模 块来保证决策数据的实时性,然后规则引擎和消息服务模块根据预先定义的规则 生成信息并主动发送给对该信息感兴趣的用户。 3 2 模块功能描述 基于e c a 规则的主动信息服务系统比传统的数据仓库应用系统主要增加了 如下两个功能模块: 3 2 1 实时数据更新模块 传统的数据仓库_ 般采用的周期性的数据更新策略,选定一个更新周期,定 期的到各生产系统中抽取数据,转换,加载至数据仓库中,对于突发性的事件, 其数据变化不能及时地反映到数据仓库中来,这样在一些对数据实时性要求比较 高的应用中,基于原来的数据做出的决策对业务的指导性会大大降低。要解决这 个问题,可以有两种方法。第一种方法是缩短整个数据仓库系统更新周期,选择 北京邮电走肇硕士论文 1 6 电信教据仓库中基于b c 的主动信息厦务 一个更短的更新周期,比如说小时级,对所有的源数据系统都进行抽取、转换、 加载到数据仓库。这样一来对整个系统的硬件性能需求有较大的提高,而且比较 短的更新周期,对生产系统的影响也比较明显。第二种方法是原来的抽取策略不 变,只是再辅助一个的实时更新模块,只对业务系统中感兴趣的数据变化进行实 时抽取,其他的数据还是原来的周期性的批量更新。本系统正是采取了第二种方 法。在已有的批量数据更新策略基础上添加一个松耦合的事件驱动的实时更新模 块,根据预定义的事件,监测源数据系统即生产系统,一旦有预定义的事件发生, 立即实施实时数据抽取、转换,加载,其他的数据还是按照原来的周期性的批量 更新。 3 2 ,2 主动信息服务模块 主动信息服务模块主要包括事件监测、规则引擎、规则编辑、消息服务等予 模块,下面分别介绍。 3 22 1 事件监测子模块 此模块包括事件库,事件监测器。事件库用来配置需要监测的事件,这些事 件包括不同类型,如时间事件、数据操作事件、异常事件等。事件监测器实时地 扫描数据仓库系统,一旦有预定义类型的事件被监测到,相应的事件处理模块将 此事件加入事件实例队列,并将每个事件的实例作为一个事实存储到相应的事实 库中。这里事件的激发产生事实,进而触发该事件关联的规则。事件和事实是一 对多的关系,事实相当于事件的一个实例。 32 2 2 规则引擎子模块 规则引擎应用模式匹配技术将事实库中的事件实例同规则库中的规则做匹 配,以触发一条或多条规则,进而按照一定的规则选取策略对已触发规则的条件 部分进行判断,若条件为真,则调用相应的动作。这个动作可以是得到一个结论、 执行一个外部应用程序或一个脚本,也可以产生一个新的事实,进而可能触发新 的规则,以此类推,直到得到所有结论为止。规则引擎模块需要解决规则匹配效 率、冲突处理等操作。 3 22 3 规则编辑子模块 规则编辑人员编辑业务规则源文件,然后经过规则编译器生成规则库中的规 则供规则引擎使用。这罩的规则是e c a 规则,即当某特定事件( e v e n t ) 发生并且 北京邮电大学硕士论文 电信数据仓库中基于e c a 的主动信息服务 条件( c o n d i t i o n ) 为真,则执行动作( a c t i o n ) 。事实库中的事实可以触发规则库中的 规则,规则库中的已触发的规则可以产生新的事实并加入到事实库,也可以产生 新的规则并加入到规则库,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论