




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库技术在犯罪数据分析中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京航空航天大学颈士学位论文 摘要 ( 随着数据量的快速增长和数据分析需求的不断提高, 生。保课题的目的正是研究如何有效地将数据仓库技术应用 数据仓库技术应运而 于公安决策系统中。 数据仓库技术是由方法、技术和工具所共同构成的在集成平台上为最终用户 提供数据的手段,是多种技术的综合体。根据数据仓库体系结构,我们将工作划 分为以下环节:分析本系统的设计方案;用星型模式进行数据模型的设计;编制 程序,通过数据抽取工具对数据进行抽取和净化;根据用户需求开发相应的数据 分析工具等。 为了对联机分析处理技术、多维数据存储、数据抽取进行较为深入的理解, 我们在系统中实现了联机分析处理的核心模块:使用脚本语言对数据进行灵活的 抽取;提出了一些有一定特色的概念:本文对它们作了重点的分析并给出了相应 的算法简介。 关键字:o l t p ,o l a p ,d a t a m a r t ,d w ,粒度,平衡点粒度 墼堡垒壁塾苎三堡翌翌鍪堡坌堑主塑查旦 a b s t r a c t w i t ht h er a p i dg r o w t ho fd a t aq u a n t u ma n d a n a l y t i cr e q u i r e m e n t ,t h e r ec o m e sd a t a w a r e h o u s e t e c h n o l o g y t h ea i m o f t h i sp r o j e c ti st oa p p l yd a t aw a r e h o u s e t e c h n o l o g y t oc r i m i n a li n f o r m a t i o nd e c i s i o n s u p p o r ts y s t e me f f e c t i v e l y d a t aw a r e h o u s et e c h n o l o g yi sam e a n sc o m b i n i n gm e t h o d s t e c h n o l o g ya n dt o o l st o p r o v i d ed a t at o e n du s e ro nai n t e g r a t e d p l a t f o r m ,i t i sai n t e g r a t i o no fm u k i t e c h n o l o g y a c c o r d i n g t ot h es y s t e ms t r u c t u r eo fd a t aw a r e h o u s e , w ed i v i d eo u rw o r k i n t os e v e r a lp a r t sa s f o l l o w i n g :c o m p a r i n gs c h e m eo fo u rs y s t e m ;d e s i g n i n gd a t a m o u l dw i t hs t a r s c h e m a ;p r o g r a m m i n ga n d u s i n g t o o l st op u m pa n d p u r g ed a t a ;u s i n g t o o l st op r o c e s s0 l a p , d e v e l o p i n gd a t aa n a l y s i st o o l s i no r d e rt om a k e d e e p g o i n gc o m p r e h e n s i o n i no l a p , m u l t i d i m e n s i o nd a t as t r u c t u r e a n dd a t ap u m p i n g ,w e i m p l e n m e n t a t et h ek e r n e lo fo l a p , c o d e d a t a p u m p i n g m o d u l e a n db r i n gu ps o m e c o n c e p t s i nt h i sm - t i d e ,w ee m p h a s i so n i ta n dg i v ear e a i i z a t i o n m e t h o di nd e t a i l k e y w o r d :o l t p , o l a p d a t a m a r t , d w , g r a n u l a r i t y j b a l a n c e p o i n tg r a n u l a r i t y 南京航空航天大学硕士学位论文 1 1 、课题简介 第一章引言 随着计算机及相关技术的飞速发展,它们已经应用到了社会各个部门,尤其 随着计算机数据库技术的逐步成熟,许多企业或单位都运用各自的应用系统存储 了大量的业务数据,并且还在不断的增加。许多历史数据一般都被备份起来束之 高阁,有的甚至被丢弃,对于一些系统来说它们已经失去了存在的价值。难道真 的没有用了吗? 现代的数据库专家的研究发现,投资于该历史数据的决策支持系 统会产生意想不到的高回报率( r e t u r no ni n v e s t m e n t ) ,正是这样的高r o i 驱使 着越来越多的公司和部门投资于数据仓库系统一种全新的建立在现有业务数 据之上的数据库系统。 2 1 世纪日益临近,“信息就在你手边”的远见卓识不仅显示出了数据仓库的 潜力,而且对于企业或些部门也是至关重要的成功因素。这些企业或部门要么 认识到并利用数据仓库的信息化力量,要么被落在后面。就象电子商业的时代来 摘时,市场实体被基于i t 的虚拟市场空问排挤样。“信息化”可以定义为“注 重任何过程的信息维”,而与之对应的自动化则是注重一个过程中涉及到的各种 业务。由于在使手工过程计算机化时牵涉的复杂性,自动化常与信息化混为一谈。 通过注重信息维,企业或部门不必匆匆地使过程自动化,就可以看到在分析和决 策中以数据为基础作出的改进。 信息访问和决策支持( 信息化) 的i t 过程的有效性和事务密集型核心企业过 程的自动化,早已成为一个关键性的成功因素。从企业在业务战略和i t 战略之 间建立连续、动态联合的能力,就可以明确地判断出企业是为了取得竞争优势而 使用信息,还是只想找到通往信息高速公路的通路,更不用说有策略地使用信息 了。业务智能系统既是个业务问题,又是一个技术机会,同时还是客户机朋日务 器体系结构的逻辑扩展和新代的决策支持系统。 无锡市公安局自九十年代初以来一直致力于管理信息系统的研究,力图为市 公安局的各个部门建立一套完善的高科技信息化系统,为全市的治安、交通、户 政管理提供高效的技术手段,使市局的工作更上一层台阶。到目前为止,无锡市 公安局已经建成了全江苏省最先进信息中心之一,户籍、交通等数据每天都能够 及时地从郊县的各个分局、派出所汇总到市信息中心,然后由专门的人员对其进 行加工、整理。由于市局开发了一套基于w 1 】w 的网上查询系统,所以公安干警随 时可以从分局或派出所的电脑上查阅相关的资料。真正体现出了系统的分布性和 数据仓库技术在犯罪数据分析中的应用 实时高效性,为市局相关工作的顺利完成立下了汗马功劳。 随着时间的流逝,系统已经积累了大量的历史数据,如每年的各类犯罪信息 和现有的户籍信息,系统已经有了几千兆字节的信息。面对如此庞大的历史数据, 系统的查询性能也明显地下降,有时一个简单的查询操作要耗费数分钟! 如果仅 仅简单地将历史数据备份到外存中去,虽然暂时提高了工作效率,但从长远的观 点看,这样做实际上是损失了的许多有价值的信息。因为从历史的犯罪信息中完 全可以分析出许多有价值的信息,为办案人员和决策人员的工作提供非常有价值 的情报。譬如:“今年春季和夏季相比,盗窃案的情况是怎样的? ”、“哪一个地 区容易发生谋杀案? ”、“下雨天时,哪种案件比较频繁? ”等等诸如此类的问题。 这些问题的答案对于领导决策的作用是显而易见的。但是,传统的数据库系统( 也 就是传统的m i s ) 是无法回答这样灵活多变的问题的,即使可以,它们的效率的 低下有时几乎让最终用户无法忍受。为此我们开发了这套系统无锡市公安局 犯罪信息决策支持系统c i d s s ( c r i m i n a li n f o r m a i o nd e c i s i o ns u p p o r t s y s t e m ) ,虽然它还没有完全符合理想中的模式,但令人高兴的是,它毕竟向着 数据仓库应用这一方向迈出了一大步。 1 2 、应用系统框架 右图是整个系统的总体结构图。从 中可以看出整个c i d s s 系统的框架结 构:传统的基于联机事务( o l t p ) 的数 据库应用系统所积累的数据经过净化和 一些必要的转化后,被数据抽取模块抽 取到系统的数据仓库中。o l a p d m s e r v e r 会根据实际的情况对它们进行 不同粒度的聚合,然后向系统最终用户 提供一致的、透明的服务。系统o l a p 蹦 s e r v e r 实现了一些a p i 或一些对象并 通过它们的属性和方法来帮助实现最终 的分析查询和其它操作。当然,在未来 的发展中,我们希望将该结构拓展成为 基于i n t e r n e t 的三层结构体系,以使 本系统能够提供更为灵活的、开放的服 务。 用户管理员 : o l # m 叫s e r v e rl - 茎i ,、 陲三三乡 l 鱼堡塑塑一j t 散据抽取模块l _ _ - 卜 图卜1 系统总体结构图 南京航空航天大学硕士学位论文 第二章数据仓库应用概况 2 1 、建立数据仓库的原因以及数据仓库与传统数据库的区别 人们经常会问:“数据仓库真的很有必要吗? ”、“数据仓库和传统的数据库 到底有什么区别? ”。面对这些问题,我总是试图去劝说他们,让他们认识到数 据仓库的重要性和必要性。我始终认为数据仓库是数据库技术发展的必然结果, 它是与信息时代的“信息化”相适应的。一个企业或部门经过长年的积累,必然 存储了大量的有价值的数据。说它们有价值是因为这些数据是该行业或部门所拥 有的日常实践数据,它们当中包含了一些具有本行业特色的规律和模式,而这些 规律和模式对未来发展的预测和规划有着非常重要的作用,它们可以帮助决策部 门作出及时准确的判断和决定,从而在某种程度上提高了自身的工作效率和竞争 力,而这正是一个利润驱动的企业所最关心的问题。在国外。越来越多的企业已 经意识到了数据仓库的重要性并纷纷开始建设自己的数据仓库系统。有些企业已 经获得了非常令人满意的结果。i d c 调查了欧美6 2 个组织的数据仓库。客观分 析了数据仓库的投资情况。 据i d c 调查,数据仓库三年投资回报率平均值为4 0 1 。其中9 0 以上的企 业三年投资回报率超过4 0 ,5 0 的企业超过1 6 0 ,2 5 的企业超过6 0 0 。数 据仓库应用的投资平均为2 千2 百万美元,收回投资的平均时间为2 3 年。收回 投资时间的中值为1 6 7 年,r o 中值为1 6 7 。 在接受调查的所有企业中,最终用户获得的效益大约占总效益的5 0 ,信息 收集人员获得的效益占总效益的3 0 ,数据仓库的维护人员获褥的效益占总效益 的2 0 。 数据仓库实现的目标不同,其投资回报也不同。以管理控制为目标的数据仓 库平均r o i 为4 4 1 ,以机会为目标的数据仓库平均r o i 为4 0 1 ,以核心业务 为目标的数据仓库平均r o i 为3 5 6 。 i d c 的调查表明,对于环境比较复杂的企业或部门,数据仓库肯定是一种有 价值的投资。 同时,很多著名的数据库厂商也先后推出的了自己的数据仓库产品和解决方 案。例如r e db r i c kw a r e h o u s e 、s y b a s e 的i qa c c e l e r a t o r 、c o g n o sp o w e r p l a y 、 b u s i n e s s o b j e c t sm e r c u r y 以及m i c r o s o f t 的s q ls e r v e r 7 0 等等。可以毫不夸 张的说,未来的大型企业没有一家不建立自己的数据仓库系统。也许有人会问, 难道一定要数裾仓库系统才能做到吗? 这个问题很有代表性,答案当然是否定 的。因为既然数据都存放在传统的操作型的数据库中( o p e r a t i n gs y s t e m ) ,用 数据仓库技术在犯罪数据分析中的应用 户的分析当然可以直接从中获取。比如一个查询功能很强的m i s 系统可以回答决 策部门提出的很多关键性问题,而这些问题也正是数据仓库所回答的。但是,问 题就在于传统的、基于事务的数据库系统无法满足灵活多变的、要求实时性很强 的特定查询。虽然传统的数据库可以回答上述的一些问题,但其付出的代价是巨 大的,有时候甚至是令人无法容忍的。根据最终用户的需求而建立的面向主题的 数据仓库系统可以很好地解决上述得问题。使得人们得工作事半功倍1 2 2 、什么是数据仓库 2 2 1 、数据仓库的概念 关于该问题,数据仓库之父- i 衄o n ,w h 为它下了个经典的定义: “数据仓库是面向主题的,不随时间改变的,稳定的数据库系统”【1 】,或: “数据仓库是集成的面向主题的数据库集合,它是用来支持决策支持功能的,其 中每个数据单位都与时间相关。” 从中不难看出以下几点: i 、面向主题:所谓面向主题是指用户分析的对象不在是传统的流水式的记录, 而是根据某些共同的特性所组织起来的数据集合。譬如“1 9 9 7 年无锡市犯罪情 况”、“1 9 9 7 年无锡市的犯罪人员情况”以及“1 9 9 7 年无锡市被盗物品情况”等 等。这些问题就形成了以后分析的主题雏形。决策部门可以根据这些主题来建立 自己的数据仓库系统以为自己的决策服务。 i i 、不随时间改变的、稳定的:这一点很多人或许会误解定义的本意。此处的不 随时间改变并不是意味这数据仓库系统从来都不变化。而是指数据仓库中的数据 相对于传统的基于o l t p 的数据库系统而言要稳定的多。一般说来,数据仓库系 统中的数据为既成事实的历史数据,不需要也不能够去改变它们。因为如果那样 作了,就会使其中的数据失去了原有的意义。当然数据仓库也会刷新其中的数据, 这只是在系统需要大批追加新的历史数据时,才会这样做。因为每过一段时间原 有的系统都会产生新的数据。也只有不断地将这些新的历史数据追加到数据仓库 系统中,才会提高仓库系统的准确率和结果的可靠性,这时显而易见的。 这些数据应该是良好定义的、一致的、不变的。另外数据量也应足够支持数 据分析、查询、报表生成和与长期积累的历史数据的对比。数据仓库就是一种能 满足上述所有目标的方法。它不是种能买到的产品,必须循序渐进地进行构造。 数据仓库必须是用户驱动的。有些部门或企业曾试图不让用户参与来构建数 据仓库,但最终失败了。他们以为从用户已提出的现有需求的基础上就能够了解 南京航空航天大学硕士学位论文 用户的全部需要,但不幸的是,许多用户是因为其需求未及时满足而不再要求新 的数据和功能。而且用户的需求往往是不成熟的,在系统完全建立起来之前,它 们时常是不断变化地,现有的要求只是冰山一角。 还有就是一个成功的数据仓库系统自始至终都必须要有高层决策人员的参 与。数据仓库最根本的目标是为某个企业或部门建立一套完整的决策支持系统 ( d e c i s i o ns u p p o r ts y s t e m ) ,也就是说,系统的最终用户是该企业或部门的高 层领导人员。系统的可用性和工作流程、思路都要尽力去符合他们的工作方式和 习惯,也只有这样做,系统才会具有强大的生命力。 2 2 2 、数据仓库的构成及框架模型 一个数据仓库系统,大致包括数据的预处理部分、数据存储部分、o l a p d m 引擎以及用户访问控制层等几个部分。当然,随着某个食库系统的实际侧重点不 同,它的结构也会有一些细微的不同。不过,它们各个部分的构成关系基本上是 大同小异的。关于数据仓库的一般构成关系,可以参照下面的结构图: 图2 - 1 数据仓库结构图 我们可以清楚得看到,数据仓库的主要组成部分以及它与基于o l t p 的数据 库系统和其它遗留系统之间的关系。原有的历史数据可能是关系型的,也有可能 数据仓库技术在犯罪数据分析中的应用 是非关系的,如一些二进制信息和超文本数据。这些数据都可以被数据的抽取和 净化工具整理加工成为数据仓库系统可用的数据。 大家还可以从中看到数据仓库元数据的重要性。很显然它们和数据库中的数 据字典的作用很类似,而且从某种程度上说,它们就是数据仓库的数据字典。 数据仓库无论在概念上还是在实践中都是许多市场领导者的工作核心。基于 数据库的项l ;_ j ,包括w w w 卜的专业数据服务站点、处理服务器 :的大规模多维数 据库、通过探察企业数据资源的迷宫来打开市场主导地位之迷的数据采掘项目等 等。数据仓库的主要目标是提高业务过程的“智能”,并增加参与此过程的员工 的知识。产品营销经理能够评审影响产品销售业绩的各个方面,如:地区、销售 类型( 零售、目录销售等) 、顾客的人口统计特征,这样就能很好地改进促销工 作、提高产量或调整产品库存和分销,并能够阻止企业生产滞销产品。航空公司 可通过评审特定航线的运输模式和竞争者的机票价格数据结合起来,从而调整特 定日期特定航班上特定座位的价格,而公安部门可以通过评审犯罪率较高的地 区、时间和人群,从而合理地控制某个地区的治安情况或降低某类人群的犯罪率。 数据仓库虽然是一个刨新的、与传统系统有本质区别的系统,但它并不是随 心所欲的胡思乱想。它使企业或部门有能力采用先进的方法( 基于经验,但更基 于数据) 去追求更好的成绩。此外,数据仓库能够也应该与基于o l t p 的业务系 统建立某种形式的联系,这些联系未数据仓库提供了数据来源。 2 。2 3 、数据仓库的建立过程 虽然有了这么多的概念,可是到底如何从头开始去建立一套完整的数据仓库 系统呢? 这正是本文所要探讨的。 做任何一个系统都需要完整、详细需求分析,建立数据仓库系统也是一样的。 也就是说,数据仓库也存在生命周期( d w l c ) 。它包括调查阶段、分析当前环境 阶段、确定需求阶段、确定体系结构阶段、数据仓库设计阶段、开发阶段、实施 阶段和数据管理( 持续运行) 阶段。 在这些阶段中,需要说明一下的是需求阶段。因为和开发传统的应用系统一 样,我们必须要在这上面花费大量的时间和财力,以保证后续阶段能够进行得更 加顺利。目前主要有两种建立用户需求的方式,用户驱动和数据驱动。所谓用户 驱动是指,先不去关心企业或部门有些什么样的数据,而是直接去了解用户需要 什么样的结果,或者说决策人员需要知道些什么样的答案。然后根据这些问题在 去建立相应的主题,进而去组织数据仓库的中的主题和其它相关的数据结构。显 然这种方法产生的系统是很好地符合了决策人员的要求,但它同时也会给开发人 员带来这或那样的问题,有的问题也许根本无法实现。在让我们来看看什么叫数 南京航空航天大学硕士学位论文 据驱动。很明显,首先关心的是我们有什么样的数据,这些数据能够回答什么样 的问题。而这些问题的主题又该如何去组织。这样的方法可能使开发人员比较满 意,但决策人员会怎样认为昵? 答案是很显然的。在实际的工作中,一般是需要 开发人员不断地与高层决策人员进行沟通,以使最终的系统满足各个方面的要 求。所以国外许多企业的数据仓库项目都有上层的领导人员直接领导并参与。也 只有这样做才会使数据仓库的r o i 达到令人满意的程度。下图以c i d s s 为例说明 。 数据仓库建造过程 , ,厂、,、厂、 建模 建库 部署 】“理解”ll 。构造”ll “实施”l l l 一,7 :现有工作流程1 发展 探索使用 信息需求_ - 卜 数据模型 培训用户 了一个数据仓库系统的建立过程。 图2 2c i d s s 的建立过程 2 2 4 、数据挖掘与联机分析处理 数据挖掘和联机分析处理是一个成功的数据仓库系统必不可少的组成部分。 对于企业或部门的海量数据而言,只有它们才能最终发挥出数据仓库系统的价 值。 2 2 4 1 数据挖掘 数据挖掘( d a t am i n i n g ) 是指为寻找未知的模式或趋势而在数据中进行搜 数据仓库技术在犯罪数据分析中的应用 索的过程。这一过程要使用某种搜索方法,直到找到或找不到某些模式为止,找 出来的模式既可能是完整的,也可能只在一个变化的概率之内。从某种角度来讲。 数据挖掘一直是个含糊的外来技术,在理论上和人工智能领域讨论得更多些。作 为种工具,它必须能够搜索仓库数据、业务数据、现有数据和分布式的数据。 它的困难在于,往往只为了几个相关的事实就得去处理一些超大型数据库。过去 所用的算法积搜索标准很可能无法再按照完全相同的方式重复使用。以前用来深 入了解的某些特定模式或趋势的搜索标准,在第二次执行之前往往要进行修改。 不过我们可以将数据挖掘技术所涉及到的处理算法或规则方法分为四大类:关 联、顺序模式、聚类和分类。在此主要向介绍前两种,因为在我们的系统中我们 主要使用了它们。 关联分析或联系分析 挖掘关联往往是指搜索业务系统中的所有细节或事务,从中找出重复出现概 率很高的模式。由于对关系数据集也可以使用这种处理,所以这种方法比较常用, 但搜索的结果可能不会具有竞争性企业行为所必须的精度。关联分析最著名的例 子就是在某家商店的销售数据中搜索到“已婚男子买尿布之后又买啤酒”这一模 式。 序歹i l 模式( 顺序模式) 序列模式与关联分析的最主要的不同之处在于序列模式更加强调时间的重要 性。它被用来在某段时间内搜索出重复发生概率较高的模式 当然,数据挖掘这一概念并不是数据仓库系统所特有的。早在数据仓库系统 之前就有各种形式的数据挖掘系统。但经过数据专家的研究发现,基于数据仓库 的数据挖掘将能更好地发挥数据挖掘的威力。目前通常的做法是将d m 与联机分 析处理( o l a p ) 两大功能集成在同一个数据仓库系统中,让d l 借助。乙a p 发会它 巨大的威力。在本文所阐述的系统中,考虑到我们时间与知识顽的不足,并未开 发出上述的功能强大的d m 模块,只是做了一定程度的研究工作。 2 2 4 2 联机分析处理 在实际决策过程中,决策者需要的数据往往不是某指标单一的值,他们希 望能从多个角度观察某一指标或多个指标的值,并且找出这些指标之间的关系。 比如,决策者想知道“东部地区和西部地区今年6 月份和去年6 月份在销售总额 上的对比情况,并且销售额按1 0 万2 0 万、2 0 万3 0 万、3 0 万4 0 万,以及 4 0 万以上分组”,上面的问题是比较有代表性的,决策所需数据总是与一些统计 指标( 如销售总额) 、观察角度( 如销售区域、时间) 和不同级别( 如地区、统 计值区间划分) 的统计( 或合并) 有关,我们将这些观察数据的角度称之维。可 南京航空航天大学硕士学位论文 以说决策数据是多维数据,多维数据分析是决策的主要内容。但传统的关系数据 库系统、报告书写及查询工具对于管理和应用这样复杂的数据显得力不从心。 联机分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ) 正是为了解决这类问题 而出现的。它专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人 员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理, 并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业 或部门的业务状况,了解市场需求和环境的变化,制定正确方案,增加效益或管 理职能。 本文主要从o l a p 出现的背景,o l a p 区别于其他软件产品的特征,以及o l a p 的实施( 包括它与数据仓库的关系) 等几个方面对o l a p 进行介绍。由于o l a p 在国外的兴起也不过是近几年的事,各个厂家对o l a p 的认识也未完全统一,因 此我希望通过本文的介绍可以使大家能对o l a p 有一个较为全面的认识,获得启 发,引起讨论。 0 l a p 的出现 6 0 年代末,e e c o d d 所提出的关系数据模型促进了关系数据库及联机事务处 理( o l t p ) 的发展。数据不再以文件方式同应用程序捆绑在一起,而是分离出 来以关系表的方式供大家共享。随着政府及商业应用的发展,数据量从8 0 年代 的兆( m ) 字节及千兆( g ) 字节过渡到现在的兆兆( t ) 字节和千兆兆( p ) 字节,同 时用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一 条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合。 关系数据库系统已不能在高性能的基础上全部满足这一要求。这两类应用操 作型应用和分析型应用,特别是在性能上难以两全,尽管为了提高性能,人们常 常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综 合数据的应用逻辑却是分散杂乱的,非系统化的,因此分析功能有限,不灵活, 维护困难。在国外,不少软件厂商采取了发展其前端产品来弥补r d b m s 支持的 不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统 一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。 1 9 9 3 年,e f c o d d 将这类技术定义为“o l a p ”。鉴于c o d d ( “关系数据库之父”) 的影响,o l a p 的提出引起了很大反响,o l a p 作为一类产品同o l t p 明显区分 开来。 o l a p 是针对特定问题的联机数据访问和分析。通过对信息( 这些信息已经 从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”) 的很多 种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数 据进行深入观察。o l a p 理事会( 0 l a pc o u n c i l ,它以推广o l a p 的使用为 目标) 对于o l a p 给出了一个更为简明的定义: 9 数据仓库技术在犯罪数据分析中的应用 联机分析处理是一种软件技术,它使分析人员、经理和执行官能够迅速、一 致、交互地从备个方面观察信息,以达到深入理解数据的目的。这些信息是从原 始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。 0 l a p 应用程序一般使用的是小规模到中等规模的数据库( 有十万兆字节) , 数据库中包含概括数据,历史数据和衍生数据。这类应用程序的特点,是在进 行特别分析和预定分析时要涉及到多维上的计算和建模,二是对概括数据和可能 的细节数据进行从高水平到低水平的细化展示。 o l a p 使用户可以从多维观察和分析数据,因此得名“多维分析( m d a ) ”。 下图表明该如何使用m d a 从时间、位置和天气得维或观点来分析犯罪数据。如 图所示,m d a 工具把数据看作以阵列或立方体( c u b e ) 的形式存放着,立方 体的每一面代表了一个维。立方体中的各个单元包含了感兴趣的所有实际数据 值。这些数据值被称为变量或事实。 图2 - 3 多维数据分析 目前o l a p 主要分为m o l a p 和r o l a p 两大类。m o l 心主要是基于m d b m s 来实现的,而r o l a p 则是基于r d b m s 来实现的。它们各有自己的优缺点。 从概念上讲,m d b m s 中的数据可以作为多维阵列存储起来,阵列中的每个 单元都是由所有维的交叉点构成的。在这样的设计中,不是所有单元都有一个值。 例如,在案情系统中,不是每一类罪行都在所有的天气中发生,也不是在所有给 定的时间段中发生。随着数据立方体中维的增加,稀疏性( 即。空单元的数目) 也随之增加。用所谓的多立方体设计将逻辑设计分散到多个数据立方体中保存所 有数据。有些m d b m s 产品还运用了特殊的物理存储管理技术( 例如数据压缩) 和索引方案,以减弱数据稀疏性的影响,并提供迅速访问数据立方体中单元的方 法。一般m d b m s 还提供了在加载过程中合并输入数据的能力。当用户要求得到 概括水平较高的概括数据时,预先合并好的数据能使响应速度加快。但缺点是扩 大了数据库规模。 m d b m s 的一个重要问题是伸缩性善于处理概括数据,但并不总是适于 处理大量的细节数据。开发商正在解决这个问题,增加动态合并设施,还提供让 用户透明地访问存储在r d b m s 中数据的功能。但这的确比较困难。 m d b m $ 另一个重要问题在于缺乏标准化一每个m d b m s 都有自己专有的 南京航空航天大学硕士学位论文 客户机接口。这些接口通常能提供比r d b m s 中的s q l 更强大的数据处理能力, 但问题是,每个客户机工具都必须去适应所有接口。o l a pc o u n c i l 正在着手 解决这一问题,它们试图设计出一种o l a p 产品共用的a p i ,例如o l a p a n y g e t 、艋u e ( m e m b e rm e m b e o 、p r o p e r t yg e t p m p e r t y b y n a m e ( s t r i n gn a m e ) 、 m e m b e r q u e r yn e w q u e r y ( s t r i n gn a n e , i n i t i a l s e l e c t i o n i n i t i a l s e l e c t i o n ) 、 a d d m e m b e r ( m e m b e rm e m b e r ) 等等。 就结构而言,r o l a p 与m o l a p 的主要区别就在于它们各自的数据组织方 式有所不同。r o l a p 用r d b m s 代替了m o l a p 中的m d b m s 。m d a 的重要 特点之一是具备从商度概括的数据到细节数据的细化展示能力。在r o l a p 中, r d b m s 服务器一般既含有细节数据,也含有概括数据。如果不存在概括数据, 客户机工具则会动态地生成它。这提供了强大的灵活性,但肯定要付出性能的代 价,有时对它的等待往往使最终用户无法忍受。r o l a p 的优点还在于,关系产 品有稳健的管理工具和开放式的s q l 接口,使开发商易于建立可移植的工具, 它们还能利用例如并行查询处理这样的技术得到良好的数据库伸缩性。其缺点是 m d a 所需的大量关系表格使性能有所下降,这主要是因为表格连接和索引处理 的系统开销比较大。通过星形模式的引入可以在某种程度上减少此类处理的系统 开销。目前r d b m s 开发商正在增强他们产品的功能,以优化处理星形模式数据 库的性能。 就我个人认为,将来的o l a p 平台应 该是m d b m s 与r d b m s 相结合的。它 们的结构大致如右图所示。大量的细节数 据主要由r d b m s 存储和维护。基于平衡 点这一粒度( 将在下文详细介绍这一概 念) 的概括数据被转移到内存中去,以多 维的方式( m d b m s ) 存储和维护。而对 这些数据的访问是由o l a ps e r v e r 来统一 调度。因此在本文中,我主要是根据上述 的设想来对这种崭新的o l a p 结构做一些 研究工作。我以为,在不远的将来,大容 量的内存必然会很普遍。而o l a p 的系统 软硬件平台也会有越来越可靠的保障。因 此,这种结构的存在是非常可能和合理 的。同时,内存o l a p 所提供的查询性能 也将会更另人满意。 0 l a ps q lm e t h o d 够 图2 4c i d s s 的o l a p 结构 数据仓库技术在犯罪数据分析中的应用 2 2 4 2 1 基本概念: ( 1 ) 变量 变量是数据的实际意义,即描述数据“是什么”。例如:数据“1 0 0 0 0 ”本身 并没有意义或者说意义未定,它可能是一个学校的学生人数,也可能是某产品的 单价,还可能是某次案件的损失物品总值,等等。一般情况下,变量总是一个数 值度量指标,而“1 0 0 0 0 ”则是变量的一个值。 ( 2 ) 维 维是人们观察数据的特定角度。例如,公安刑警常常关心案件发生的数量随 着时间的推移而产生的变化情况,这时他们是从时间的角度来观察案情,所以时 间就是一个维( 时间维) 。当然他们也时常关心各类案件在不同地区的案发情况, 这时是从地理分布的角度来观察案情,所以地理分布也是一个维( 地理维) 。 ( 2 ) 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个 描述方面,我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如 描述时间维时,可咀从日期、月份、季度、年等不同层次来描述,那么日期、月 份、季度、年等就是时间维的层次:同样,地区、城市、省份等构成了一个地理 维的多个层次。 ( 3 ) 维成员 维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的 维成员是在不同维层次的取值的组合。例如,我们考虑时间维具有日期、月份、 年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到了时间维 的个维成员,即“某年某月某日”,一个维成员并不一定在每个维层次上都要 取值,例如,“某年某月”、“某月某日”、“某年”等等都是时间维的维成员。对 应一个数据项来说,维成员是该数据项在某维中位置的描述。例如对一类案情数 据来说,时间维的维成员“某年某月某日”就表示该类案件在“某年某月某日” 的案发数量和造成的物品损失情况,“某年某月某日”是该案情数据在时间维上 位置的描述。 ( 4 ) 多维数组 一个多维数组可以表示为:( 维l 。维2 。,维n ,变量) 。例如下图所示 的物品损失数据是按时间、地区和危害程度组织起来的三维立方体,加上变量“物 品损失总值”,就组成了一个多维数组( 地区,时间,危害程度,损失物品总值) 。 如果我们在f 图的基础上扩展一个维,案别维,就得到一个四维的结构。也就是 另一个多维数组( 地区,时间。危害程度,案别,损失物品总值) 。 1 2 南京航空航天大学颈士学位论文 锅山市 ( 万元) 123 4时i 司( 月) 图2 5 三维立方体表示多维数组 ( 5 ) 数据单元( 单元格) 多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这 些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以表示为:( 维】 维成员,维2 维成员,维1 1 维成员,变量的值) 。又如上图所示,我们在 地区、时间和危害程度上各取维成员“锡山市”、“1 9 9 7 年1 月”和“重大”,就 唯一确定了变量“损失物品总值”的一个值( 假设为1 0 0 ) ,则表示为:( 锡山市, 1 9 9 7 年1 月,重大,1 0 0 ) 。 2 2 4 2 2 多维分析的基本分析动作 多维分析是指对以多维形式组织起来的数据采取切片、切块以及旋转等各种 分析动作,以求剖析数据,使最终用户能从多个角度、多个侧面来观察系统中存 储的数据,从而深入地了解包含在数据中的信息和内涵。多维分析方式迎合了人 的思维模式,因此减少了混淆并且降低了出现错误解释的可能性。多维分析的基 本动作有: ( 1 ) 切片( s l i c e ) 定义在多维数组的某一维上选定一维成员的动作称为切片,即在多维数组( 维 1 ,维2 ,维n ,变量) 中选一维,即维i ,并取其一维成员( 设为“维成 员”) ,所得的多维数组的子集( 维1 ,维成员,维n ,变量) 称为 在维i 上的一个切片。 按照定义,一次切片一定使原来维数减1 ,所以得到的切片并不一定是二维 的“平面”,其维数取决于原来的多维数据的维数。这样的切片定义不通俗易懂, 因为该切片的为数可能仍然是多于三维的。为使所得的切片便于理解和显示,我 们一般都将切片的为数控制在三维以内,当然用户完全可以获得更高维数的切 案 别 维 数据仓库技术在犯罪数据分析中的应用 片。 地区维 地区维 图2 6 多维数据的切片操作 如上图,我们选定多维数组( 地区,时问,案别,损失物品总值) 中的地区 维与案别维,在另外一维时间维,选取一个维成员( 如“1 9 9 7 年1 月”) 就穆到了多维数组( 地区,时间,案别,损失物品总值) 在案别和地区两维上的 一个切片( 案别,地区,损失物品总值) 。如上图所示,这个切片表示1 9 9 7 年1 月各地区、各类案件所造成的物品损失情况。 切片可能是o u 垤最经常做的动作,我们从中可以得出两点: 一个多维数组的切片最终是由该数组中除切片所在维之外的其他维的成员值 确定的。如上图中,所得的切片是由除案别和地区两个维之外的时间维的取值决 定的,即取时间维成员“1 9 9 7 年1 月”确定一个切片,取维成员“1 9 9 7 年2 月” 则可以确定另个切片。 维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人 们能在比较少的维上集中观察数据。因为人的空间想象能力毕竟有限,般很难 想象四维以上的空间结构所以对于维数较多的多维数据空间。数据切片是十分 有意义的。 ( 2 )切块( d i c e ) 。 和切片相对应,我们对切块也有如下的定义: 定义在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制 多维数组的某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一 个切片( 切片定义) 。 1 4 南京航空航天大学硕士学位论文 从另一角度来讲,切块可以看成是在切片的基础上,进一步确定各个维成员 的区间得到的片段体。也即由多个切片叠合起来。在卜图中,如果将时间维上的 取值设定为一个区间( 例如取“1 9 9 7 年1 月至1 9 9 7 年1 0 月”) ,而非单一的维 成员时,就得到一个数据切块,它可以看成由1 9 9 7 年1 月至1 9 9 7 年1 0 月十个 切片叠合而成的。 ( 3 ) 旋转 旋转即是改变一个报告或页面显示的维方向。例如,旋转可能包含了交换行 和列;或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的 维进行交换( 令其成为新的行或列中的一个) 。如下图所示,( a ) 的例子是把一 个横向为时间、纵向为案别的报表旋转成为横向为案别、纵向为时间的报表。( b ) 的例子是把一个横向为时间、纵向为案别的报表,变成一个横向仍为时间和纵向 旋转为地区的报表。 案 别 维 案 别 维 时褐缝 时 间 维 案勋维 时l 司维时间维 图2 7 ( a 、b ) 多维数据的旋转操作 o l a p 的数据来源于数据库。通过o l a p 服务器,将这些数据抽取和转换为 多维数据结构,以反映用户所能理解的企业的真实的维。通过多维分析工具对信 息的多个角度、多个侧面进行快速、一致和交互的存取,从而使分析员、经理和 行政人员能够对数据进行深入地分析和观察。 在数据仓库系统中o l a p 使用的多维数据可以位于不同的层次:作为数据仓 库的一部分:作为数据仓库工具层的一部分。由于所处的层次不同其分析结果 1 5 数据仓库技术在犯罪数据分析中的应用 的综合程度也相应有高低之分,所以可以满足具有不同应用需求用户的要求。 2 2 423o l t p 与o l a p 的关系及比较 o l a p 是以数据库或数据仓库为基础的,其最终数据来源与o l t p 样均来 自底层的数据库系统,但由于二者面对的用户不同,o l t p 面对的是操作人员和 低层管理人员,o l a p 面对的是决策人员和高层管理人员,因而数据的特点与处 理也明显不同 o l t p 数据o l a p 数据 原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作 导出数据 综合性或提炼性数据 历史数据 不可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人员,支持管理需要 由上表可见,0 l a p 与o l t p 是两类不同的应用,o l l p 面对的是操作人员 和低层管理人员,o l a p 面对的是决策人员和高层管理人员;o l t p 是对基本数 据的查询和增删改操作处理,它以数据库为基础,而o l a p 更适合以数据仓库为 基础的数据分析处理。o l a p 其历史的、导出的及经综合提炼的数据均来自o l t p 所依赖的底层数据库。o l a p 数据较之o l t p 数据要多一步数据多维化或预综合 处理的操作,例如,对一些统计数据,首先进行预综合处理,建立不同级别的统 计数据,从而满足快速统计分析和查询的要求。除了数据及处理上的不同之外, o l a p 的前端产品的界面风格及数据访问方式也同o l t p 有别,o l a p 多采用便 于非数据处理专业人员理解的方式( 如多维报表、统计图形) ,查询提出及数据 输出直观灵活,用户可以方便地进行逐层细化及“切片与切块”数据旋转等操作。 而o l t p 多为操作人员经常用到的固定表格,查询及数据显示也比较固定、规范。 有关o l a p 的其他特点下面还要迸一步论述。 2 2 4 2 4c o d d 关于o l a p 产品的十二条评价准则 1 9 9 3 年,e f c o d d 在p r o v i d i n go l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) t o u s e ra n a l y s t s ) ) 中提出了有关o l a p 的十二条准则,这也是他继关系数据库和分 布式数据库提出的两个“十二条准则”后提出的第三个“十二条准则”。尽管业 界对这个十二条准则褒贬不一,但其主要方面,如多维数据分析、客户德务器结 6 南京航空航天大学硕士学位论文 构、多用户支持及一致的报表性能等得到了大多数人的认可。e f c o d d 在文 中系统阐述了有关o l a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际高中考试及答案
- 2025年山东化学中考试卷及答案
- 2025年精麻处方考试试题及答案
- 慢性病防治知识培训课件
- 慢性咽炎课件
- 金融学基础考试大题及答案
- 情景再现法课件
- 青华中学考试试题及答案
- 护理评估单考试题及答案
- 航空航天概论考试及答案
- 劳动教育读本中职版专题一崇尚劳动学习资料
- 教学查房流程
- 《建筑材料与构造》课件-3.建筑材料的基本要求与选用
- 《员工行为准则培训》课件
- 仓管员晋升组长述职报告
- 《付出总有收获》课件
- 方剂学知到智慧树章节测试课后答案2024年秋安徽中医药大学
- 《慢性乙型肝炎防治指南(2022年版)-》解读
- 《蚕丝微观结构》课件
- 《公路养护安全培训》课件
- 第七讲推动构建新时代的大国关系格局-2024年形势与政策(课件)
评论
0/150
提交评论