(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf_第1页
(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf_第2页
(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf_第3页
(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf_第4页
(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)公安决策支持系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公安决策支持系统的研究与设计 研究生黄富洁 指导教师李玉忱教授 摘要 传统的数据库应用主要面向事务处理,在进行事务处理方面有着较为成熟 的理论和产品,但是决策支持系统主要面向决策支持,其应用的特点决定了传 统的数据库技术无法对其提供很好的支持,因此人们提出了数据仓库和在线联 机分析的概念。警务动态管理系统的应用已有多年,在其中积累了大量的案件 和嫌疑人数据,在领导层和决策层进行分析的时候,需要进行大量的手工报表 统计,不但工作量大而且分析过程较慢,不能准确及时的指导工作。我们根据 公安局工作的性质和特点,建立了公安决策支持系统p d s s ,用以更好的对领导 的决策提供支持。 虽然国内外研究决策支持系统技术的很多,并且有些公司在这方面已经取 得了一些成功,但是绝大多数公司并不公开自己的解决方案。本文以公安数据 分析为应用背景,按照需求分析、概念设计、逻辑建模、系统实现的软件工程 过程,对基于数据仓库和o l a p 技术的决策支持系统进行了较深入的探讨、研 究和实现:( 1 ) 研究了决策支持系统的开发过程,实现了- - 0 0 适合本课题的决 策支持系统的开发流程,它使复杂的数据层次关系变得简单明了。( 2 ) 根据实 际的分析需求探讨了如何在决策支持系统中实现多维数据模型。( 3 ) 研究了如 何实现多维数据模型的逻辑建模,以及如何设计维层次的处理方法,使得维层 次结构变得清晰易于理解。( 4 ) 研究了如何实现历史数据的抽取、转换和清洗 工作,以便数据仓库中的数据集成化程度更高。( 5 ) 探讨并实现如何根据数据 仓库中的数据建立o l a p 数据库中的数据立方体。( 6 ) 探讨并实现系统可视化 分析界面,分析输出格式符合工作习惯。 该系统正处于试运行阶段,取得了良好的效果。但是,整个系统的研究设 计是个摸索的过程,还需要在实践中不断地完善。该系统还应包含数据挖掘的 实现,由于时间关系尚未给出解决方案,这也是下一步需要做的工作。 关键词:决策支持系统,数据仓库,o l a p ,逻辑建模,多维数据模型 r e c e a r c h & d e s i g no f p o l i c ed e c i s i o n s u p p o r ts y s t e m p o s t g r a d u a t e :h u a n g f u j i e t u t o r :p r o f l iy u c h e n a b st r a c t t r a d i t i o n a ld a t a b a s ea p p l i c a t i o n sa r e m a i n l yt r a n s a c t i o n o r i e n t e da n dt h e r ea r es o m e m a t u r et h e o r i e sa n dp r o d u c t si nt h ea r e ao ft r a n s a c t i o np r o c e s s i n g b u td e c i s i o n s u p p o r ts y s t e m sa r em a i n l yd e c i s i o n - s u p p o r t o r i e n t e da n dt h ea p p l i c a t i o na t t r i b u t e s d e c i d et h et r a d i t i o n a ld a t a b a s e t e c h n o l o g y c a n n o t p r o v i d es t r o n gs u p p o r t s o r e s e a r c h e r sp r o p o s e dt h ec o n c e p t so fd a t aw a r e h o u s ea n do n - l i n e a n a l y s i sp r o c e s s t h ed y n a m i cp o l i c em a n a g e m e n ts y s t e mh a sb e e nu s e df o rm a n y y e a r s ,a n dt h e r e a r eag r e a td e a lo fd a t aa b o u tc a s e sa n dd e f e n d a n t s ,w h e nt h e d e c i s i o n m a k i n g l e a d e r sc a r r yo da n a l y z i n g ,t h e yh a v et om a k em a n ys t a t i s t i c sb yh a n d t h i sc o s t s m a n yt i m e a n dm a n p o w e ra n dc a n n o td i r e c tt h ew o r ko nt i m e b a s e do nt h e a t t r i b u t e sa n dc h a r a c t e r so f p o l i c ew o r k ,w ec r e a t et h ep o l i c e d s s ( p d s s ) w h i c hi s u s e dt op r o v i d eb e t t e rs u p p o r to nt h el e a d e r s d e c i s i o n s p r e s e n t l y , t h e r ea r em a n y r e s e a r c h e so i lt h et e c h n i q u e so fd s sa n ds o m ec o m p a n i e s h a v eg a i n e ds o m es u c c e s s ,b u tt h e s ec o m p a n i e sd on o to p e nt h es c h e m e b a s e do n t h eb a c k g r o u n do fp o l i c ed a t aa n a l y s i sa n df o l l o w e do nt h e p r o c e s s o fs o f t w a r e e n g i n e e r i n g :d e m a n da n a l y z i n g ,c o n c e p td e s i g n i n g ,l o g i c a lm o d e l i n ga n ds y s t e m p r o g r a m m i n g ,t h i sp a p e rh a v ed o n es o m ed e e p l yr e s e a r c ha n d r e a l i z a t i o no nt h ed s s b a s e do nd a t aw a r e h o u s ea n do l a p :( 1 ) d os o m er e s e a r c ho nt h ep r o c e s so f d e s i g n i n gd s s a n dr e a l i z eap r o c e e d i n gm e t h o dw h i c hs i m p l i f i e st h ec o m p l e xd a t a r e l a t i o n s ( 2 ) d i s c u s sh o w t or e a l i z em u l t i d i m e n s i o n a ld a t am o d e li nd s sa c c o r d i n g t ot h ef a c t u a lr e q u i r e m e n t s ( 3 ) d os o m er e s e a r c ho nh o wt or e a l i z et h el o g i c a l m o d e l i n go f m u l t i d i m e n s i o n a ld a t am o d e la n dh o wt od e s i g nt h ep r o c e s sm e t h o do f d i m e n s i o nh i e r a r c h i e sw h i c hm a k et h es t r u c t u r eo fd i m e n s i o nh i e r a r c h i e sm o r ec l e a r a n dm o r ee a s yt ou n d e r s t a n d ( 4 ) d os o m er e s e a r c ho nh o wt o r e a l i z et h ed a t a e x t r a c t 、d a t at r a n s f o r ma n dd a t ac l e a n i n gw o r ko fh i s t o r i c a ld a t a ,w h i c hm a k e i i 山东大学硕士学位论文 i n t e g r a t i o no f t h ed a t ai nd wm o r eh i g h e r ( 5 ) d i s c u s sa n dr e a l i z ec u b eo fo l a p d a t a b a s ea c c o r d i n gt ot h ed a t ai nd w ( 6 ) d i s c u s sa n dr e a l i z et h ev i s u a li n t e r f a c eo f t h es y s t e mw h i c hf i tf o ru s e r s o p e r a t i n gc u s t o m n o w , p d s si so np r e r u n n i n ga n dh a v eg o tg o o de f f e c t b u t ,t h er e s e a r c h & d e s i g n o ft h es y s t e mi ss t i l li ne x p l o r i n g ,s ot h es y s t e mn e e d si n c e s s a n ti m p r o v i n g a n d ,t h e s y s t e ma l s os h o u l di n c l u d e t h er e a l i z i n go fd a t am i n i n g ,w h i c hi sw h a tw es h o u l dd o n e x t k e y w o r d s :d e c i s i o ns u p p o r ts y s t e m ,d a t aw a r e h o u s e ,o l a p , l o g i c a lm o d e l i n g , m u l t i d i m e n s i o n a ld a t am o d e l l i l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:煎量鎏日期 知诈4 n d 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅:本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 f 保密沦文在解密后应遵守此规定) 獬一:越遗靳签缸 期 2 们年4 他o 第1 章绪论 传统的数据库应用主要面向事务处理,在进行事务处理方面有着较为成熟的 理论和产品,但是决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 主要面向决策 支持,其应用的特点决定了传统的数据库技术无法对其提供很好的支持 1 o 数据 仓库( d a t aw a r e h o u s e ,d w ) 和联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g , o l a p ) 正是在这种情况下应运而生,成为信息技术领域非常热门的话题之一。 数据仓库支持的决策支持系统和联机分析系统的要求能够让用户以多维的角度 来观察和分析数据仓库中的数据,同时提供给用户进行多维数据分析的功能,并 且让用户能够以交互和简洁的方式对数据进行分析和做出决策。 1 1 决策支持系统的产生与发展 随着市场竞争的目趋激烈,信息对于企业的生存和发展发挥着越来越重要的 作用。由于计算机技术的普遍应用,承载信息的数据随着时间的推移而不断增长, 并且分布在不同的系统平台,具有多种存储形式。能否从纷繁复杂、大量沉淀的 数据环境中得到有用的决策信息,及时做出正确的分析与决策,已成为企业生存 与发展至关重要的环节。自从2 0 世纪7 0 年代提出决策支持的概念以来,人们在 决策支持系统理论及应用上做了大量的研究工作,并且在企业决策中发挥了积极 的作用。但现有的大部分决策支持系统是基于传统数据库基础之上的,随着企业 数据量的不断增加,需要对原有的信息进行提炼和加工,需要为企业领导提供集 成化和历史化的数据,需要为企业全局的战略和长期趋势分析提供更有效的支持 【”。然而,传统的数据库管理系统因自身的局限性已无法满足决策支持系统对数 据的要求。进入9 0 年代后,信息技术界悄然掀起数据仓库( d a t aw a r e h o u s e ) 、 联机分析处理( o n l i n e a n a l y t i c a l p r o c e s s i n g ,o l a p ) 和数据挖掘( d a t a m i n i n g ) 技术的研究和丌发热潮,这为克服传统d s s 存在的问题提供了技术上的支持,使 d s s 的发展跃上了一个新的台阶。目前开发的综合d s s 多数是以数据仓库技术为 基础,以联机分析处理和数据挖掘工具为手段进行实施的整套解决方案。 数据仓库和o l a p 技术到9 0 年代中期已经形成潮流,成为继i n t e m e t 之后的 又一技术热点。数据仓库是市场激烈竞争的产物,它的目标是达到有效的决策支 持a 大型企业几乎都建立或计划建立自己的数据仓库,数据库厂商也纷纷推出自 己的数据仓库软件。目前,以建立和使用的基于数据仓库的决策支持系统大都取 得了明显的经济效益,在市场竞争中显示了强劲的活力。 我国决策支持系统的研究始于8 0 年代中期,尤其是1 9 8 5 年以后,关于d s s 的研究课题、各种实际系统以及少数成功案例的介绍越来越多地出现在有关刊物 和报告中。近年来。我国在将数据仓库技术应用于决策支持方面也取得了长足的 进步,不少i t 企业相继推出自己的解决方案,出现了不少成功应用的案例。 1 2 课题研究背景及意义 公安机关在“向科技要警力”、“科教兴警”的目标的指引下,近二十年来信 息领域的建设取得了长足的发展【2 j 。其中网络系统建设从无到有,从小规模到大 规模,直到目前遍及全国各级公安机关的公安信息网:而各类基于大型数据库和 群件的管理信息系统建设也相当普遍,由于其自身的行业性质和工作特点,所涉 及的范围极其广泛。在这些系统中较为引人注f 7 7 1 的是山东省安丘市公安局研制的 基于计算机网络的警务动态管理系统,该系统采用了实用的浏览器j j l 务器 ( b s ) 模式,系统实现了网上办案,可以全面规范民警的执法行为,从根本上 消除了人为因素对执法活动的干扰,杜绝人情案、关系案的发生,确保执法公平、 公正,实现了“严格执法,热情服务”的精神和全心全意为人民服务的工作宗旨。 该系统其功能强大,然而在使用的过程中容量越来越大,用户越来越多,许 多问题也逐渐暴露出来: f 1 1 由于种种原因,每时每刻都会产生大量的业务数据,时间一长,我们称 之为历史数据,或对其进行处理( 如每年归档) ,或任由数据库无限膨胀。显然, 后者将使其性能下降,速度变慢,甚至会超出系统极限而崩溃。 ( 2 ) 所有业务系统均无法提供决策支持帮助,传统的插入、删除、修改、查 询、统计都只能反映具体业务的情况,缺乏对业务趋势的分析功能。 总之,该系统事务性功能已基本完善,但集成度差,数据质量有待提高,分 析功能相当欠缺,具备关联性的规律趋势等潜藏在大量业务数据后面,尚有待挖 掘和提取,“金盾工程”对此也提出了相应要求。 虽然国内外研究决策支持系统技术的很多,并且有些公司在这方面已经取得 了一些成功,但是他们所做的系统都是商品,并不符合我们的需求,同时绝大多 数公司并不公开自己的解决方案。因此,我们依靠自己的力量,参考相关文献和 资料,提出了一种较为通用的决策支持系统解决方案,此方案已经在我们的公安 决策支持系统( p o l i c ed e c i s i o ns u p p o r ts y s t e m ,简称p d s s ) 中得到成功应用。 1 ,3 课题的研究内容 本论文以公安决策支持系统为应用背景,按照需求分析、概念设计、逻辑建 模、系统实现的软件工程过程,对基于数据仓库和o l a p 技术的决策支持系统及 其实现方法进行了较深入的探讨和研究,主要研究内容如下: ( 1 ) 研究了决策支持系统的开发过程,实现了一种适合本课题的决策支持系 统的开发流程,它使复杂的数据层次关系变得简单明了。 ( 2 ) 根据实际的分析需求探讨了如何在决策支持系统中实现多维数据模型。 ( 3 ) 研究了如何实现多维数据模型的逻辑建模,以及如何设计维层次的处理 方法,使得维层次结构变得清晰易于理解。 ( 4 ) 研究了如何实现历史数据的抽取、转换和清洗,以便数据仓库中的数据 集成化程度更高。 ( 5 ) 探讨并实现如何根据数据仓库中的数据建立o l a p 数据库中的数据立方 体。 ( 6 ) 探讨并实现系统可视化分析界面,界面需要根据用户的要求和操作习惯 人性化地设计,使交互式的分析更加面向用户,分析输出格式符合工作习惯。 1 4 本文的组织结构 结合我们所做的工作,本文的组织结构如下: 第1 章中对决策支持系统的产生和发展进行了综述,介绍了本文的研究背景 和主要研究内容;第2 章对本文中涉及到的主要理论做了一个简要的描述;第3 童介绍了p d s s 的需求,根据需求我们提出了该系统的总体结构和数据模型;第 4 章给出了在设计和实现系统时主要的实现技术以及可视化的分析界面:第5 章 总结了本文的主要贡献以及对未来工作进行了展望。 第2 童 相关理论支持概述 2 1 数据仓库( d a t aw a r e h o u s e ) 技术介绍 数据仓库系统构造方面的领头设计师w h i n m o n 于1 9 9 2 年首次提出了通过 数据仓库( d a t aw a r e h o u s e ) 来解决事务处理和分析处理的矛盾。定义如下:数 据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门 的决策过程i ”。 所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分 析利用的抽象,它对应企业中某一宏观领域所涉及的分析对象,如客户、产品、 分销商等。集成性以多种形式表现出来,如一致的命名转换、变量度量、编码结 构、数据物理存储属性等。还有相当重要的数据的综合和计算。从联机事务处理 系统( o l t p ) 的源数据库到数据仓库必须经过数据集成。时变性是指数据仓库内 的数据通常针对具体时间,整个数据仓库随时间变化不断从o l t p 增加新的数据 内容,同时又不断删去旧的无用数掘,而综合数据也随着时间变化不断新增和变 化。非易失性指数据仓库内的数据一般只用于查询,并不修改更新,即数据仓库 只有数据装载和数掘访问两种基本操作。所以就技术而言,只需在物理层上做一 些优化工作:如多级存储、索引等f 4 j 。 数据仓库内含的海量数据是分析决策的基础,除此而外,还有诸如搜集、整 理科学数据,保存工程应用中的历史档案数据,维护企业的历史数据以及对分析 密集型的应用提供更好的性能等。 2 2o l a p ( o n - l in ea n a i y t i c a ip r o c e s s i n g ) 技术介绍 7 0 年代,关系数据库之父e f c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 的发展( 数据以表格的形式而非文件方式存储) 。1 9 9 3 年,e e c o d d 又提出 了o l a p 概念译l ,认为o l t p 已不能满足终端用户对数据库查询分析的需要,s q l 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析 需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者 山尔大学硕十学位论文 提出的需求。因此,e fc o d d 提出了多维数据库和多维分析的概念,即o l a p 。 根据o l a p 委员会的定义【6 】,o l a p 是使分析人员、管理人员或执行人员能 够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映 企业多维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了 解的一类软件技术。o l a p 的目标是满足决策支持或多维环境特定的查询和报表 需求,它的技术核心是“维”这个概念,因此o l a p 也可以说是多维数据分析工 具的集合,是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是: 企业的决策者应能灵活地操纵企业的数据,以多维的形式从各方面和多角度来观 察企业的状态、了解企业的变化。 2 3 数据仓库的几个相关概念 ( 1 ) 主题 主题是一个在较高层次上将数据归类的标准,是在较高层次上将企业信息系 统中的数据进行综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企 业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较 高层次上对分析对象所涉f i 的k _ , j k 各项数据,以及数据之间的关系。 ( 2 ) 粒度 粒度是指数据仓库中数据单元的详细程度和级别【刀。数据越详细,粒度越小, 级别就越低;数据综合度越高,粒度越大,级别就越高。在传统的操作型数据库 系统中,对数据处理和操作都是在最低级别的粒度上进行的。由于数据仓库环境 中,为了方便各种级别的分析应用,一般需要将数据划分为:详细数据、轻度汇 总、高度汇总三级或更多级粒度。 ( 3 ) 维度 维度是指人们观察事物的角度。例如时间维、客户维、产品维、地区维等。 人们从某个维的角度观察数据,还可以根据细节程度的不同形式多个描述层次, 称为维层次。 f 4 ) 数据立方体 数据立方体是指有两个或更多个维柬描述的数据。在三维的情况下以图形来 表示,改类数据具有立方体结构,一般称为数据立方体。虽然我们通常从几何意 义的角度将立方体理解为三维的,但是在数据仓库中数据立方体是一个n 维的概 念。 。 些垄盔堂堡主堂焦笙塞 ( 5 ) 联机分析处理 联机分析处理( o l a p ) 的目的是支持分析决策,满足多维环境的查询和报 表需求。o l a p 访问和分析的数据对象是多维数据信息,这些数据信息是已经从 原始数据完成了抽取、清洗、转换的信息,反映的是用户所能理解的企业的业务 事实和观察这些事实的维度。o l a p 可以从不同的维度以不同的粒度对多维数据 进行快速、交互性的访问,使管理决策人员掌握企业数据信息。 ( 6 ) 数据集市【” 数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数 据集市有机组合而成的。数据集市一般在某一个业务部门建设,满足其分析决策 的需要,可以将其理解为“部门级数据仓库”,但是各数据集市都应该是数据仓 库的有机组成部分,且各数据集市间应协调一致,满足整个企业分析决策的需要。 第3 章 公安决策支持系统( p d s s ) 的体系结构 3 1 p d s s 需求分析 3 1 1 业务分析需求 公安决策支持系统分析的数据,来源于在山东省安丘市公安局运行多年的警 务动态管理系统。该系统主要包括执法办案模块、执法监督模块、执法考评模块 和综合查询模块,其中的执法办案模块包括治安行政案件管理和刑事案件管理, 用于实现案件的网上呈报、网上审核和网上审批等功能。 执法办案模块是领导关注的重点。所有的案件和嫌疑人信息都由这个模块管 理。由于原系统功能设计较简单,无法提供决策支持帮助,传统的插入、删除、 修改、查询、统计都只能反映具体业务的情况,缺乏对业务趋势的分析功能。因 此,需要建立公安决策支持系统。 公安决策支持系统应能完成对历年案件、嫌疑人信息的导入、清洗和加载, 提供对数据进行多角度、多层次的分析功能,并将分析结果以多种形式展现给用 户,支持管理决策者进行决策。 数据仓库是信息技术领域的个新概念,是近年来迅速发展起来的存储管理 技术。其设计思想是建立一种体系化的数据存储环境,将分析决策所需的大量数 据从传统的操作环境中分离出来,使分散的、难于访问的操作数据转换为集中统 一、随时可用的信息。联机分析处理( o l a p ) 技术则实现了将数据仓库中的数 据按照多维结构进行组织和存储,并在用户面前展现多维概念视图,使用户能多 角度、多层次地对数掘进行观察和分析。因此,使用数据仓库和o l a p 技术建立 公安决策支持系统是一个最佳的选择。 31 2 系统功能需求 在充分了解了系统的业务需求后,我们得n t 来自两方面的系统功能需求。 首先是对于案件,包括刑事案件和治安行政案件,需求如下: 7 ( 1 ) 希望通过图形绘制出年内各个月份的总案件的起数趋势,以及今年与 往年相比总案件的起数趋势; ( 2 ) 希望通过案别的种类分析一年内各个月份的案件的起数趋势,以及今年 与往年相比案件的起数趋势: ( 3 ) 希望得到每个办案单位一年内各个月份处理的案件的起数比例,以及今 年与往年相比案件的起数比例; 注:案件起数包括发案起数、立案起数、破案,结案起数。 其次是对于人,包括刑事嫌疑人和违反治安行政人,需求如下: ( 1 ) 希望得到一年内各个月份处理的人数趋势,以及今年与往年相比处理的 人数趋势; f 2 ) 希望分别根据性别、文化程度、职业、年龄段、寨别得到一年内各个月 份处理的刑事嫌疑人违反治安行政人人数趋势、比例,以及今年与往年 相比处理的人数趋势、比例; f 3 ) 希望得到每个办案单位在一年内各个月份处理的刑事嫌疑人违反治安 行政人的人数比例,以及今年与往年相比处理的刑事嫌疑人违反治安行 政人的人数比例; 如果我们针对上面的需求集中结果做一些归纳的工作,将不难发现分析的基 准点可以分为下面的2 大类: ( 1 1 案件( 刑事案件治安行政案件) ; f 2 ) 嫌疑人( 刑事案件嫌疑人嬲i 反治安行政行为人) 。 分析的角度可以分为下面的6 大类: ( 1 ) 办案单位; ( 2 1 案别; f 3 ) 性别; ( 4 ) 文化程度; f 5 1 职业; ( 6 ) 年龄段。 3 ,2p d s s 总体结构 图3 1 展示了p d s s 系统的总体结构图8 1 。从总体上讲,公安决策支持系统 的结构是个c s 结构,包括前台和后台两部分。后台负责分析型应用的数据准备 8 工作,完成数据到多维数据的转换,转换过程包含3 大步骤:从数据源进行所需 数据的抽取,抽取的数据放在数据准备区里;对数据准备区的数据进行抽取、转 换、清洗,形成事实表和维度表放到数据仓库里;根据事实表和维度表建立立方 体放到o l a p 数据库里。前台是面向最终用户的。对于最终用户而言,立方体数 据是直接的数据来源。 后台 : 目日 图3 - 1p d s s 系统总体结构图 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、m o l a p 、 h o l a p 。在公安决策支持系统里,我们采用h o l a p ( h y b r i do l a p ) 。数据仓库里的 数据以r o l a p 组织f 9 】,r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a l o l a p ) 。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键 字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维 的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型 模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个 表来描述,这种星型模式的扩展称为“雪花模式”。0 l a p 数据库里的数据以m o l a p 组织,i ( ) l a p 表示基于多维数据组织的0 l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。 以多维数据组织方式为核心,也就是院,m o l a p 使用多维数组存储数据。m o l a p 依据数据仓库中的事实表数据形成o l a p 数据库中的“立方体( c u b e ) ”结构,依 据维度表中的数据形成o l a p 数据库中的维度。在m o l a p 中对“立方体”的“旋 3 3 p d s s 数据模型 3 3 1 系统主题的选定 通过对安丘公安局原有的警务动态管理系统的仔细分析和征询公安局领导 的意见所做的需求分析,我们选定了四个主题进行统计分析和联机分析,这些主 题是: 刑事案件: 治安行政案件; 刑事嫌疑人; 违反治安行政行为人。 案件和嫌疑人是公安系统中的最重要的组成部分,这两方面的数据可以为今 后办案提供预测,帮助领导制定工作重点。通过分析这些主题,我们可以得到案 件的起数趋势,各案别的案件起数趋势,嫌疑人人数趋势,嫌疑人中男女人数趋 势等等。总之,通过分析这些主题的数据,公安系统的工作可以有的放矢,减少 社会犯罪率,提高工作效率。 3 3 2 系统维度的确定 ( 1 ) 维的确定 维是人们观察数据的特定角度,公安决策支持系统的o l a p 的维是按照主题 来区分的。详细情况请看表3 1 。 主题名分析的维度公井维度 刑枣案别维、刑事办案单位雏、 窠件刑事发案时问维、刑事立案时0 雒、刑事破案耐涮维 治安行政案别维、治安行政办案无 单位维、治安行政发絮时问创f , 治安行政察仆 治安行政立寨时闯继、治安行政 结案时问维 卅0 事姗疑人时间t 怔、刑事案别 刑班娥疑a 维、刑事办案单位雒钳别神,职业摊、年龄段 治安行政赚疑人时间维、治宜行绯、文化程度维 造反治史行政a 政案别维、治安行政办案单位维 表3 - if d s s 中的维度表 山尔大学硕士学位论文 ( 2 ) 维的层次的划分 维的层次是指人们观察数据的某个特定角度( 即某个维) 还存在细节程度不 同的多个描述方面,本系统的维大多存在维层次的划分。 例如,我们按文化程度维分析刑事嫌疑人情况时,把维的层次分为三层,刑 事嫌疑人情况包括人员总数( 可以作为第一层) ;其中人员总数又包括大专以上 人员、高中人员、小学初中人员、文盲人员( 作为第二层) ;而大专以上人员又 包括大学本科、大学毕业、大学肄业、一、专科肄业( 作为第三层) 。维的层次 图如图3 2 所示: 第层 第二层 第三层 图3 - 2文化程度维层次结构图 再如,根据案别维分析案件的发生起数时,案别维也存在层次结构,如图3 - 3 所示: 幽3 - 3 案别维层次结构酬 第层 嚣二层 山东大学硕士学位论文 其他,比如时间维和办案单位维等也存在维的层次划分,时间有年、月、季 度划分,办案单位有所属级别划分等。 3 3 3p d s s 中数据仓库的数据模型 根据前面的分析,本系统的数据仓库的数据是按照r o l a p 组织的1 2 。在 案件的两个主题里,事实表和维度表采用的模式是星形模型,数据模型图如图3 - 4 所示;在嫌疑人违反治安行政行为人两个主题里,事实表和维度表采用的模式是 雪花模型,数据模型图如图3 5 所示: 图3 - 4 案件主题数据模型图 山尔大学硕士学位论文 图3 - 5 嫌疑人违反人主题数据模型图 3 3 4p d s s 中0 l a p 数据库的多维数据模型 o l a p 数据库的核心是多维数据模型。 ( 1 ) 维度 这里所说的维度与需求分析的分析角度一一对应,在实际操作中通过向导将 代表维度意义的数据源字段作为c u b e 的维。但需要考虑以下几点”驯: 维度的层次 人们观察数据的某个特定角度存在细节程度不同的多个描述方面,称为维的 层次( h i e r a r c h y ) 。维度的层次决定用户在使用系统时可以看到某一分析对象何 种粒度的数据内容,层次越多,则数据粒度越小,用户看到的数据就越详细,但 是,c u b e 的体积就越大,存储空间的压力就越大。因此,我们必须根据实际需求 确定维的层次。 本系统主要为公安局领导决策服务的,他们关心的是案件发生的趋势和嫌疑 人的人数走向。因此,在设计维度时,案件的案别维、办案单位维,以及嫌疑人 的文化程度维、职业维、时间维,都需要层次关系a , 在数据维的层次结构中,层次是多级结构中某级别与下一层级别之间的 “父子”关系,位于层次顶部的是“根级”( r o o tl e v e l ) ,位于层次底部的 是一个或多个“叶子”( l e a f ) 。“全部”( a 1 1 ) 级是一个层次的根级,它里面包含 了一个特殊成员,该成员把所有与根级紧邻的成员进行了汇总,因此该级是一个 数据维里最具综合性的级别。例如,描述刑事嫌疑人年月维度可以从年、月等不 同层次来描述。那么“全部”级、年、月就是刑事嫌疑人年月维的层次,层次如 图3 - 6 所示: 目乜”i # l l i t i l a i 9 7 1 ,蟹a ( 全部) 茁年 焉- - 月 图3 6 刑事嫌疑人年月维层次结构图 维的一个取值成为该维的一个维成员( m e m b e r ) ,如前例所述每段时间、每 种文化程度、每种职业都是某一维的一个维成员。那么陔维的维成员是在不同维 层次的取值的组合,例如“2 0 0 2 年8 月”就是刑事嫌疑人年月维的一个维成员。 维度项目数量 在设计c u b e 时如果维成员包含的项目太多,虽然c u b e 的生成不会有什么 问题,但是会对用户在使用系统造成一些障碍,所以在设计维度时,在满足需求 的情况下,项目要尽量的少,一般情况下,项目的数量不超过3 0 个。例如,在 嫌疑人分析时,嫌疑人年龄段的划分、嫌疑人文化程度的划分等等。 共享维度 设计立方体时,多个立方体可能会用到同一个维度,例如,刑事嫌疑人、违 反行政行为人这两个立方体都需要分析嫌疑人的年龄段、文化程度等,因此,我 们就需要把这样的维度做成共享维度,以节省存储空间。在o l a p 数据库里,我 们创建了18 个共享维度,它们将在建立数据立方体时用到。例如,对刑事嫌疑 人可以从时间的角度或文化程度的角度或职业的角度来分析嫌疑人的人数情况, 这里的时间、文化程度和职业均为共享维度,与数据仓库中的维表相对应。 ( 2 ) 度量值 度量值( m e a s u r e ) 是一组数据,是所分析的多维数据集的中心值。是最终用 户浏览多维数掘集时重点察看的数字数据,是各维交叉的结合点。在分析刑事案 件治安行政案件时案件起数是度量值,分析刑事嫌疑人违反治安行政人时人数 就是度量值。当多维数据集的各个维都选择一个维成员,这些维成员的组合就唯 一确定了一个或几个值 ( 3 ) 单元 单元( c e l l ) 是多维数据集的原子元素,即为多维数据集的任意一个子集, 单元也是由度量值、层次以及维度组成,多个单元组成了多维数据集。要想获得 特定的单元,需要指定相应的成员和维度,这些成员和维度的交集就形成了想要 获得的单元。 ( 4 ) 超立方体多维数据集 在多维数据库中,当维数等于三时,多维数组构成一个数据立方体;当维数 大于三时,多维数组便成了人们不能想象的超立方体。我们用立方体的形式来描 述多维数据库中数据的存储,称为立方体( c u b e ) 。一个多维数据集( c e l l s e t ) 就 是一个立方体,是包含维度和度量值的多维结构。维度定义立方体的结构,而度 量值提供最终用户感兴趣的数值。立方体内的单元位置由各维度成员的交集确 定,通过对度量值进行聚合得到单元中的值。在本系统中共设计了2 2 个立方体, 立方体名及其功能如表3 - 2 。 主题立方体功能 x s _ a j f a :i :案时问维、枭别维对刑事案件的发寰起啦进行趋静分析、同 根据立案时间维、案别维对刑事案件的立案起敛进行趋势分析、同 刑事案件 x s 一l a 比分析 根据破案时间维、幕别维、办案单位维对刑事寨件的破案起数进行 x s _ a j p a 趋势分析、同比分析 x 2 _ a j f a 篙茬;时问维案别维对泊安行政案件的控案趋散进行趋辨分析1 治安行政案件 x z 一l a :茬i 翥时问维案别雉对洁安行政案件的立案蔚数进行趋势丹析 根据破案时间绁、寨别维、办案单位维对亍自安行政案件的破案起数 x z _ a j p a 进行趋势分析、同比分析 x s x y r 根据时间维对刑事嫌疑人处理总人数进行趋势分析,同比分析 x sx y r a b 器据时间维案刈维对刑事嫌疑人处理人数进行趋势分析同比分 琵雾罂问维、办案单位维对刑事嫩疑人处理人教进行趋势分析同 x s x y r n l d 桃耕时间珂c 、年龄段神埘刑率燎疑 处理人数进行趋势分析、同比 丹析 刑斫嫌鞋 :i :问绁、文化程度维对刑事嫌疑人处理人啦进行趋势分析同 根撕时问推、性别蛐列刑班珊疑人处理 鼓避行趋势分析、同 ! :舟 x s x y r x b 析 楗据时问鼎、叭业维对刑事姬疑 处理 投进行劫辨分析、同比分 x s x y r z y 析 x s x y r z h对所有的维度进行共联分析 枫姑时问维剐址度 f i 安行政人处理总人数进行趋辨丹析、同比分析 报耕州问维、絮别绁对违反请安 _ 政人处理 数进行趋辨分析、同 x z x y r a b 比讣析 机掘叫问纰、办案坤位维埘址反治童行政人处理人数进行趋辨分析、 x z x x * b a d w 同比分析 机掷时“ :、“:龄艘班对址厦 f 安行政 灶理人数进行趋讣分析、 同比分析 址反汛安订衄凡 柑抛时问维,芷化刷座维埘违反m 安行政 地理 数避_ 亍趋抖分析, 同比仆析 根拍;州问绁、牲埘师。刊址厦泊安行政人处理人数进行玛静分析、同 比讣析 批掷:时州钏、业维对扎反渝安行政人处理 数i i 【 i 越势什折、同 比讣析 袁3 - 2p d s s 中立方体功能表 山东大学硕士学位论文 ( 5 ) 聚合 聚合是预先计算好的数据汇总,在问题提出之前已经准备好了答案,能够提 高查询响应的时间。但聚合的处理和存储需大量的时间和空间,进行聚合设计是 应权衡存储空间和i 响应时间两者之间的关系。系统的度量值案件起数和嫌疑人人 数时均采用了聚合函数c o u n t ,通过计算数据仓库里事实表的行数得到案件起数 和嫌疑人违反人人数。 本系统o l a p 数据库的数掘是按照m o l a p 组织的,多维数据集包含了上述 的五种对象模型。以立方体x s x y r z h 为例说明具体对应,如图3 7 所示: 3 3 5p d s s 使用的平台 【兰| 3 7 多维数据集示惑幽 该系统所采用的数据库服务器是m i c r o s o f t s q ls e r v e r2 0 0 0 t 所采用的 o l a p 服务器是m i c r o s o f t a n a l y s i sm a n a g e r 。前台所采用的开发语言是m i c r o s o f t v i s u a lb a s i c6 0 。 出于数据源一个是s q ls e r v e r2 0 0 0 ,一个是o r a c l e 数据库,我们选用了s q l s e r v e r2 0 0 0 存放数据仓库,把o r a c l e 数据库中的数据导入到s q ls e r v e r2 0 0 0 。 采用m i c r o s o f t 公司的o l a p 服务器的原因是为了与数据库服务器的连接方 便,可以实现数据仓库与o l a p 数据库的无缝连接,提高系统的丌发速度和可靠 性。 作为一个数据密集型应用,使用v i s u a lb a s i c 或d e l p h i 进行丌发是一个较好 的选择因为它们属于r a d ( r a p i d a p p l i c a t i o nd e v e l o p m e n t ,即快速应用开发) 些銮奎堂堡主兰垡鲨兰 语言,可以提高系统的开发速度。由于市面上开发的决策支持系统几乎没有公开 源代码,而s q ls e r v e r 自带例予以v i s u a l b a s i c 作为源语言,因此为了节省大量 的探索时间,本系统采用v i s u a lb a s i c 作为前台开发语言。 实践证明,以上平台的选择提高了开发的效率,取得了很好的效果。 山东火学硕十学位论文 第4 章p d s s 的主要实现技术 4 1 加载数据准备区的数据 向数据准备区加载数据时,在原数据库中选择需要装载的表数据,这一步不 需要更改表结构。我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论