(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的警情数据分析系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库、o l a p 分析和数据挖掘技术是新兴的数据管理和分析技术其应 用也越来越广泛,但目前在公安领域的应用还不多。本课题就是以满足公安指挥 中心对辅助决策信息方而的需求为目的,以业务信息系统中的历史数据为基础, 通过微软的b 1 开发平台,利用数据仓库、o l a p 分析和数据挖掘技术为手段通 过分析接处警数据获取辅助决策信息,是实现警务指挥向更高层次转变的一种尝 试。 警情数据分析系统能提供人量的辅助决策信息,并提升指挥中心对社会治安 状况的研判能力,提高指挥效率和对社会治安状况的防控能力。该系统是以数据 仓库、o l a p 和数据挖掘技术为核心构建的,数据仓库是进行数据分析的基础, 但只是提供被分析的数据,因而还必须有强有力的分析和决策工具。o l a p 是基 于多维数据仓库的专用分析型操作技术。关联规则挖掘致力于知识发现,它能通 过支持度和置信度指标挖掘出数据库中有趣的规则,在警情数据分析中可以挖掘 出反映社会治安动态的规则,这些规则可以直接指导日常警务的安排。综合利用 这两种数据分析工具,管理者可以从不同的观察角度和形式对数据进行深入分析 和观察。 本文在深入学习、研究数据仓库、o l a p 技术和关联规则挖掘技术原理和开 发方法的同时,针对公安指挥中心的需要,设计了警情数据分析系统。系统在指 挥中心使用的1 1 0 接处警系统的基础上,将业务数据库的数据通过抽取转换建 立警情数据仓库,决策者根据实际需要可以选择面向不同的主题使用联机分析处 理和数据挖掘工具分析数据,从而为管理者提供了分析型信息和一定的决策支 持,是面向应用的一种探索性课题。 本文在对业务数据结构和工作需求进行全面分析的前提下,确定以接警量为 数据仓库的主题,并设计了相关因素的星型模式。解决了数据集成过程中案件地 址的一致性问题,设计了完整的数据抽取、转换和加载流程,构建了警情数据仓 库。利用s s a s 技术实现了对警情数据的o l a p 分析,并在o l a p 分析的基础 上改进了关联规则挖掘算法。利用平均数据单元支持度解决了不同层支持度阈值 应设置不同的问题,设计并实现了基于o l a p 的多维多层关联规则挖掘算法。 关键词:数据仓库o l a p 关联规则警情数据分析 a b s t r a c t d a t aw a r e h o u s e ,0 l a pa n a l y s i sa n dd a t am i n i n gt e c h n o l o g yi st h ee m e r g i n gd a t a m a n a g e m e n ta n da n a l y s i st e c h n o l o g y ,i t sa p p l i c a t i o n sa r em o r ea n dm o r ew i d e l y ,b u t a p p l i c a t i o ni nt h ef i e l do fp u b l i cs e c u r i t yi sn o tm o r e t h i si s s u ei st om e e tt h en e e d so f t h ep u b l i cs e c u r i t yc o m m a n dc e n t e rt oa s s i s ti nd e c i s i o n - m a k i n gi n f o r m a t i o nf o rt h e p u r p o s eo ft h ed e m a n df o rb u s i n e s si n f o r m a t i o ns y s t e mb a s e do nh i s t o r i c a ld a t a , t h r o u g ht h ed e v e l o p m e n to fm i c r o s o f t sb ip l a t f o r m ,t h eu s eo fd a t aw a r e h o u s i n g , o l a pa n a l y s i sa n dd a t am i n i n gt e c h n o l o g ya sam e a n so fa n a l y s i sa c c e s sa l a r md a t a a c q u i s i t i o ni n f o r m a t i o nt os u p p o r td e c i s i o n m a k i n g ,i st oa c h i e v eah i g h e rl e v e lo f p o l i c ec o m m a n d t oc h a n g ea t r y p u b l i cs e c u r i t yi n t e l l i g e n c ed a t aa n a l y s i ss y s t e mi si m p o r t a n tt or e a l i z ep o l i c e i n t e l l i g e n c e ,f o ri tc a np r o v i d eag r e a td e a lo fi n f o r m a t i o nf o rd e c i s i o n - m a k i n ga i da n d i m p r o v et h ec o m m a n dc e n t e ro nt h ea b i l i t yt oj u d g ea n dt op r e v e n ta n dc o n t r o lt h e s i t u a t i o n p u b l i cs e c u r i t y i n t e l l i g e n c ed a t aa n a l y s i ss y s t e mi sb a s e do nd a t a w a r e h o u s e ,o l a pa n dd a t am i n i n gt e c h n o l o g y d a t aw a r e h o u s ei st h eb a s i so fd a t a a n a l y s i s ,b u ti to n l yp r o v i d e s d a t a s oas t r o n ga n dp o w e r f u la n a l y s i sa n d d e c i s i o n m a k i n gt o o ls h o u l db et h e r e o l a pi sb a s e do nt h es p e c i f i ca n a l y t i c a l t e c h n i q u e o fm u l t i d i m e n s i o n a ld a t aw a r e h o u s e a s s o c i a t i o nr u l em i n i n gi s c o m m i t t e dt ok n o w l e d g ed i s c o v e r y i tc a ne x c a v a t ei n t e r e s t i n gr u l e si nt h ed a t a b a s e t h r o u g hs u p p o r ta n dc o n f i d e n c ec o e f f i c i e n t ,a n dd y n a m i cs o c i a lo r d e rr u l e si nt h e p u b l i cs e c u r i t yi n t e l l i g e n c ed a t aa n a l y s i s ,w h i c hc a nd i r e c t l yg u i d ed a i l yp o l i c e a r r a n g e m e n t s b yu t i l i z i n gt h e s et w od a t aa n a l y s i st o o l s ,m a n a g e r sc a l la n a l y z ea n d o b s e r v et h ed a t af r o md i f f e r e n tv i e wa n df o r m s t h i sp a p e rp r e s e n t sad e e ps t u d ya n dr e s e a r c ho ft h ep r i n c i p l ea n dd e v e l o p m e n t m e t h o d so fd a t aw a r e h o u s e ,o l a pt e c h n o l o g ya n da s s o c i a t i o nr u l em i n i n g t e c h n o l o g y ,a n da tt h es a n l et i m e ,p r e s e n t sad e s i g no f t h ep u b l i cs e c u r i t yi n t e l l i g e n c e d a t aa n a l y s i ss y s t e ma c c o r d i n gt ot h en e e df o rp u b l i cs e c u r i t yc o m m a n dc e n t e r b a s e do nt h el1 0e m e r g e n c yr e s p o n s es y s t e mw h i c hp u b l i cs e c u r i t yc o m m a n d c e n t e ru s e d ,s y s t e mt r a n s f e r st h ed a t ai nt h ee x i s t i n gd a t a b a s et op u b l i cs e c u r i t y i n t e l l i g e n c ea n a l y s i sd a t aw a r e h o u s e t oa n a l y z ed a t a ,d e c i s i o n - m a k e r sc a nc h o o s e , a c c o r d i n gt ot h e a c t u a ln e e d s ,f r o mt h eo n l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n g t o o l st om e e td i f f e r e n tt h e m e s t h e r e f o r e ,t h e yc a np r o v i d ea n a l y z e di n f o r m a t i o na n d ac e r t a i nk i n do fd e c i s i o ns u p p o r t t h a ti sa l le x p l o r i n gp r o j e c tt o w a r d sa c t u a l a p p l i c a t i o n t h i sp a p e rs e tat h e m eo ft h ea m o u n to fr e c e i v i n ga l a r ma sd a t aw a r e h o u s eo nt h e p r e m i s eo fac o m p r e h e n s i v ea n a l y s i so f b u s i n e s sd a t as t r u c t u r ea n dw o r kd e m a n d s , a n de s t a b l i s h e das t a r - s h a p e dp a r e m i ts o l v e dt h ei s s u eo ft h ec a s ea d d r e s s e s c o n s i s t e n c yi nt h ed a t ai n t e g r a t i o np r o c e s s ,d e s i g n e dac o m p l e t ep r o c e s s e so fd a t a e x t r a c t i o n ,t r a n s f o r m a t i o na n dl o a d i n g ,a n db u i l tad a t aw a r e h o u s ea n a l y s i so fp u b l i c s e c u r i t yi n t e l l i g e n c ed a t a b yu s i n gs s a st e c h n o l o g y ,i tr e a l i z e dt h eo l a pa n a l y s i s , a n di m p r o v e dm i n i n ga s s o c i a t i o nr u l e sb a s e do ni t b yu s i n gt h ea v e r a g es u p p o r t c o e f f i c i e n to fd a t au n i t ,i ts o l v e dt h ep r o b l e mo fd i f f e r e n tt h r e s h o l do fs u p p o r t c o e f f i c i e n ta td i f f e r e n t l e v e l s d e s i g n e da n dr e a l i z e dm u l t i d i m e n s i o n a lo l a p a s s o c i a t i o nr u l e sm i n i n g k e yw o r d s :d a t aw a r e h o u s e ,0 l a p , a s s o c i a t i o nr u l e s ,p u b l i cs e c u r i t y i n t e l l i g e n c ed a t a a n a l y s i s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和耳义得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盘鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:杏斌 签字日期:山叼:p 年6 月日 学位论文版权使用授权书 本学位论文作者完全了解苤盗态堂有关保留、使用学位论文的规定。 特授权墨鲞基堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:杏d导师签名:孓l 乙 签字日期:如吵年月 同 签字月期:h 。( 1 年( ,月 l f t 第一章绪论 1 1 背景与意义 第一章绪论 2 0 0 6 年1 1 月,我国历史上建设规模最大的全国公安信息化建设项目“金盾 工程”一期建设通过验收,标志着公安信息网各类基础设施建设基本完成,信息 化应用已覆盖主要公安业纠。同时国家正式批准“金盾工程”二期建设,公安 信息化建设进入到新的发展阶段。“金盾工程”二期建设是要以建设公安情报信 息综合应用平台为龙头,探索建立具有中国公安特色的“大情报系统”,并以此 为突破口不断推动公安工作的改革创别2 1 。公安指挥中心是公安机关内部的核心 部门,承担着接处警、指挥调度、情报信息收集汇总和分析、决策参谋等职能, 是公安系统内部汇总、处理情报信息的重要部门之一。现代化的指挥中心一般都 设立了1 1 0 、1 1 9 、1 2 2 “三台合一”接警系统、指挥调度系统、电子地理信息系 统( g i s ) 、监控系统、信息综合查询系统和办公自动化系统( o a ) ,有的甚至 还建设了车辆卫星定位系统( g p s ) 、安全技术防范报警监控系统、车辆信息识 别系统等业务系统【3 】。现有的这些系统切实提高了快速接处警、调度指挥、情报 收集等工作的效率,但这些系统都是为了进行日常事务处理而设计的,缺乏情报 分析的功能,不能向指挥员提供更高层次的决策信息。在新形势下,迫切需要利 用更前沿的计算机技术,综合利用各种业务信息,分析挖掘出更高层次的情报信 息或知识,进一步提高公安指挥中心自身的管理水平和运行效率,提升公安工作 效率,以及对外的服务水平,提升破案率和公安机关的形象。 商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 技术是利用当今计算机前沿技术作支 撑、运用现代管理技术进行指导的,能有效帮助企业提高决策能力和运营能力的 新技术【4 】。商业智能系统作为一种新概念,它是在数据仓库的基础上,利用数据 挖掘和信息挖掘工具获取商业信息、以辅助和支持商业决策的仝过程。商业智能 技术包括数据仓库、数据集市技术、数据挖掘技术、o l t p ( o n l i n et r a n s a c t i o n p r o c e s s i n g ) 、o l a p ( o n l i n e a n a l y t i c a l p r o c e s s i n g ) 等分析技术。商业智能( b i ) 技术通过获取与所关心主题有关的高质量的数据或信息,利用自动或人工参与使 用具有分析功能的算法、工具或模型,帮助人们分析信息、得出结论、形成假设、 验证假设。它通过对数据的获取、管理和分析,为贯穿企业组织的各种人员提供 信息,以提高企业战略决策和战术决策能力【5 j 。商业智能( b i ) 的兴起与发展为 公安情报分析提供了强大大的技术保障。 第一章绪论 公安指挥中心在日常工作中积累了大量详尽真实的数据,这些历史数据是指 挥中心在处理各类接警事件的真实反映。但这些数据一般只是在事务处理过程中 发挥作用,事后长期闲置并占用大量存储空间。删除这些数据又可惜,不删除又 占用守间,这种矛盾随着时间的推移和数据的积累日趋尖锐。同时指挥中心在日 常的事务处理和警力调度指挥工作中又需要大量的辅助决策信息,如实际工作中 如何合理的安排一线部门的巡逻时段、巡逻线路才能最有效的遏制犯罪,而这些 信息却缺少数据来源。商业智能( b i ) 技术正好解决可以这些问题和矛盾,通过 按主题构建数据仓库能将历史数据进行转储,并释放事务数据库的大量空间。同 时数据仓库是为了对从信息系统中抽取的数据进行综合深入分析而设计的,在数 据仓库上进行深入的数据分析,能获得社会治安形势的当前状况,并科学地分析 和预测社会治安状况的发展变化趋势同时还能分析各种社会治安动态的内在联 系和成冈,这些信息正是各级公安机关指挥q j 心需要的辅助决策信息。这种一举 两得的方案不仅能很好的解决问题,同时也是前沿技术在公安领域的大胆尝试。 基于此,本课题从公安机关指挥中心正在使用的接处警系统中抽取部分历史数 据,通过深入探讨和分析实际应用的需要,研究如何构建警情数据仓库,并研究 如何利用o l a p 和数据挖掘技术对数据进行深入分析,以获取有用的辅助决策信 息。 1 2 研究现状 商业智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 的概念最早是g a r m e rg r o u p 的 h o w a r dd r e s n e r 于1 9 8 9 年提出来的,在2 0 0 7 年的b i 峰会上b i 被定义“商业智 能是一个伞状的概念,它包括了分析应用、基础架构、平台和良好的实践”【6 7 1 。 商业智能不是什么新技术,它代表的是为提高企业运营性能而采用的一系列方 法、技术和软件的总和。商业智能适应不同的需要,量身定制不同的战略和决策 环境,从不同的应用系统中提取数据提供决策分析支持。在面对特定应用或特定 战略和决策问题时,商业智能从数据准备做起,通过构建一个集成的数据环境, 在集成的特定的数据环境之上,再利用科学的决策分析工具,通过数据分析、知 识发现等过程,为战略制订和决策提供支持。整个过程中,集成的数据环境和决 策分析环境是十分重要和不要缺少的。数据仓库、o l a p 和数据挖掘是实现商业 智能必不可少的组件捧】。 1 、数据仓库 大约在上世纪6 0 年代中期,由于信息技术的发展,数据量迅速膨胀,并出 现大量冗余数据,同时带来了数据的一致性、开发和维护程序的复杂等诸多问题。 2 第一章绪论 数据抽取使人们对数据的使用更加便捷,但数据的多次抽取却带来了数据不可信 的严重问题。同时决策支持技术的发展急需要对数据进行集成,在时数据仓库出 现了。数据仓库概念是w i l l i a m h i n l t l o n 在数据仓库一书中提到的【9 ,l0 1 。数 据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工 转换成有规律的信息之后,形成一个综合的、面向分析的数据环境,用于支持企 业的信息型、决策型的分析应用【1 1 1 。通常其关键技术可分为数据的抽取、存储与 管理以及数据的表现等三个基本方面。 数据仓库( d a t a w a r e h o u s e ,d w ) 技术早在上世纪9 0 年代就已经开始在国 外应用于实际的企业及政府的信息系统之中了。在发达国家由于信息化程度已经 很高,在应用过程中已经积累了大量的数据,数据仓库得以广泛地应用,并且己 经形成了许多实时更新的有价值的数据仓库。国外的许多软件公司也都陆续推出 了自己的数据仓库产品,如i b m 、n f o r m i x 、m i c r o s o f t 、n c r 、o r a c l e 、s y b a s e 等。而我国各地各部门中由于业务工作的规范化和数据的完整、准确、及时难以 保障,此外数据分析需求不多,数据仓库的应用相对比较薄弱。 但随着信息化进程的发展,我国许多行业已经开始建立数据仓库,并进行了 综合分析、决策支持方面的应用,如银行、保险、证券等行业。在公安系统中, 这方面的应用相对滞后。目前,由于公安部“金盾工程”的实施,公安业务工作 信息化建设得到了突飞猛进的发展,由此而产生了大量的公安业务数据。“金盾 工程”一期建设项目的完成时,公安工作已基本实现信息化,大量应用系统和数 据库的运用,如人口信息、违法犯罪信息、机动车驾驶人信息、出入境人员信 息等最基础、最常用的一类应用系统就有2 3 个,积累了巨大的数据量,已经具 备建立数据仓库的基本条件。公安决策支持方面的需求也日益显著,建设公安数 据仓库的也显得越来越必要。 2 、联机分析处理 2 0 世纪7 0 年代,随着联机事务处理技术的飞速发展,企业大量建设业务信 息系统,这些系统在短时间内就积累了大量数据。但却带来了数据危机,为了分 析数据,企业纷纷建立数据仓库。然而,原有的以o l t p 系统为基础的联机事务 处理模型却不适合数据分析的需要。关系型数据库的设计是为了使o l t p 系统最 大限度地提高运作效率,但却并不适合处理在预测和决策支持等问题。联机分析 处理( o l a p ) 利用多维空间的观点解决了这一问题。联机分析处理o l a p 的概 念最早是由关系数据库之父e f c o d d 于1 9 9 3 年出版的题名为为用户分析提供 o l a p ( 在线分析处理) :一种i t 命令 1 2 】的白皮书中提出的,在书中他同时 提出了关于o l a p 的1 2 条规则。在最近的研究中发现o l a p 的有关思想和技术, 在c o d d 提出之前就已经存在,最早可以追溯到1 9 6 2 年k e ni v e r s o n 的一种编 第一章绪论 程语言【”】一书。经过近4 0 多年的发展,o l a p 技术得到了大量的应用,许 多的软件公司也都推出了其相关产品,如c o g n o s ( p o w e r p l a y ) 、h y p e r i o n ( e s s b a s e ) 、微软( a n a l y s i ss e r v i c e ) 以及m i c r o s t r a t e g y 几大厂商的产品。 o l a p 在各个领域应用已日益受到青睐,但在理论和应用上仍然存在一些有 待进一步研究的问题。比如:数值型维( 非离散量) 、非数值型变量、维类型与 量度之间的转换、概念层次提升、实时更新、o l a p 分析结果的可视化等等问题。 未来研究的另一个重要方向是将o l a p 与数据挖掘技术相结合,向高级或特殊用 途的数据库拓展,包括拓展的关系数据库、面向对象的、文本、空问、暂时、多 媒体、和异类数据库,以及网络信息系统等 1 4 , 1 5 。 3 、数据挖掘 数据挖掘( d a t am i n i n g ,简称d m ) 1 6 , 1 7 又叫知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,简称k d d ) 是为了解决“数据灾难”,从数据资源中挖掘知识而产生 的。数据挖掘( d m ) 技术的重大意义己经被人们广泛的认识,并且被列为数据库 研究领域中最重要的课题之一。1 9 8 9 年8 月在美国底特律召开的第11 届国际人 工智能会议首先出现k d d 这个术语,随后引起了国际人工智能和数据库等领域 专家的广泛关注【l 引。经过二十来年的努力,数据挖掘技术的研究己经取得了丰硕 的成果,不少软件公司研制出数据挖掘软件产品,并在北美、欧洲等国家得到应 用。如i b md b 2i n t e l l i g e n tm i n e r 、m i c r o s o f ts q ls e r v e ra n a l y s i ss e r v i c e s 、d b m i n e r 、s a s e m ( e n t e r p r i s em i n e r ) 等。 随着数据挖掘技术的发展与成熟,该技术也正被越来越多地应用于公安业务 数据分析中【9 1 。例如通过对违法犯罪信息数据进行数据挖掘分析,用于获取犯罪 规律性的知识,挖掘犯罪活动在人、事、物、时、空等方面的关联和规律性信息 2 0 - 2 2 1 ,如提高对“首次作案与年龄分布的关系”、“不同地区同一时期某类案件 的发案规律性”、“同一地区不同时期某类案件的发案规律性”以及“重复犯罪” 等问题的关联和规律性认识,揭示出犯罪活动的原因和条件,从而为制定科学的 侦查决策以及预防、控制和打击刑事犯罪活动提供依据。数据挖掘还能在犯罪案 件的侦查工作中帮助发现犯罪证据【2 3 1 。如在计算机犯罪中的证据取证工作中对入 侵的时问、使用的i p 地址、修改的文件、增加的文件( 后门、木马、病毒等) 、删 除的文件、下载和上载的文件等日志信息进行关联分析,可以发现同一事件不同 证据的关联性。在对团伙犯罪案件和系列犯罪案件的串案分析和并案侦查方面数 据挖掘技术也有着很好的应用。 4 第一章绪论 1 3 研究内容 公安指挥中心在日常工作中的核心应用系统足“1 1 0 、1 1 9 、1 2 2 ”三台合一 接处警指挥调度系统,该系统承担着辖区内报警接入及调度工作,接警后接警员 按照不同的报警地点和警情,调动警力进行相应的处置。三台合一指挥调度系统 会记录大量的日常接处警及指挥调度信息,这些信息包括报警电话信息、报警人 信息、报警内容信息、处警反馈信息、值班员信息等内容。对这些信息进行二次 分析能再次发挥它们的作用,如用于警务监督考核、社会治安状况的动态分析等, 不仅如此这些记录还是案件记录的重要证据和侦破线索。 本课题的研究是实现警务智能的重要环节之一,是以满足公安指挥中心对辅 助决策信息方面的需求为目的,利用商业智能相关理论为指引,以业务信息系统 中的历史数据为基础,通过微软商业智能开发平台,利用数据仓库、o l a p 分析 和数据挖掘技术从日常警情信息中获取辅助决策信息。本文研究的主要内容有: l 、日常警务指挥智能化与警情数据分析信息系统构架。根据实际工作需要, 分析实现口常警务指挥智能化对高层次信息的需求,并结合b i 理论指出日常警 务指挥智能的学习周期,提她基于数据仓库技术构建警情数据分析系统的体系结 构和实现方法。 2 、多维数据建模与构建警情数据仓库。讨论数据仓库技术和多维数据建模 方法,在充分分析接处警信息系统中业务数据结构的基础上,利用多维数据建模 技术设计警情分析多维数据模型,并使用数据抽取技术从公安指挥中心接处警信 息系统中抽取数据构建警情数据仓库,为o l a p 分析和数据挖掘做好数据准备。 3 、在警情数据仓库上利用o l a p 技术进行探索性分析。在数据仓库环节虽 然按多维数据模型构建了警情数据仓库,但数据是以星形结构存储在关系型数据 库中,该环节就是以数据仓库为基础,利用s s a s 技术实现o l a p 分析,并展示 部分分析结果。 4 、在警情数据仓库上开展有针对性的数据挖掘研究。将数据挖掘技术与 o l a p 技术相结合,在o l a p 分析的基础上,利用数据在各个维度不同层次上的 特性,开展关联规则分析从中发现日常活动中各类案件发生的时间和地域上的规 律,并用于指导日常警务活动的安排。 1 4 文章结构 本论文共分六章,具体安排如下: 第- 章绪论 第一章是全文的绪论。首先介绍本课题的研究背景与意义,并阐述数据分析 技术的研究现状,同时简述本论文研究主要内容及本论文的组织安排。 第二章介绍构建警情数据分析系统的相关技术, 第三章介绍构建警情数据分析系统构架。在分析指挥中心对构建数据分析系 统的功能需求的基础上,提出了构建警情数据分析系统的体系构架。 第四章主要介绍警情数据仓库与o l a p 分析。通过多维数据建模和数据清洗 转换- 力口载过程,设计并完成数据仓库的构建,并利用微软分析服务技术构建多 维数据集实现o l a p 分析。最后使用p r o c l a r i t y 将最终分析数据转换成各类图表 进行直观展示。 第五章主要介绍警情数据的关联规则分析。在分析经典的a p r i o r i 关联规则 算法及其改进的基础上,提出了基于o l a p 的a p r i o r i 关联规! i ! u 算法,并使用平 均单元支持度,解决了多维多层关联规则挖掘巾不同层支持度衡量标准难统一的 问题,实现了基于o l a p 的多维多层关联规则挖掘算法。最后对警情数据仓库关 联规则挖掘结果,就规则的生成方法、有效性和应用进行了分析。 第六章总结全文。这部分对论文的整个工作做了全面的总结,并提出对未来 工作的展望和意见。 6 第一章相关技术 第二章相关技术 实现警务数据分析系统,主要的技术有:用于数据的存储和组织的数据仓库 技术;集中于数据分析的联机分析技术;致力于知识发现的数据挖掘技术。 2 1 数据仓库 数据仓库是“一个面向主题的、集成的、非易失的且随时间变化的数据集合, 用来支持管理人员的决策” 1 0 2 4 2 5 。一w i l l i a m h i n m o n 2 1 1 数据仓库的特点 面向主题:主题是指面向具体的分析领域所涉及的分析对象。信息系统的设 计是面向应用和事务处理,而数据仓库的设计是面向数据分析,所以要以企业或 组织的业务主题作为主体,按主题重新组织数据来进行数据分析。 集成:数据仓库是从应用系统中抽取的数据,不同的应用系统其信息的表示 方式不同,有些应用系统经过多年使用,在不同的阶段信息的表示形式存在着巨 大差异,必须经过处理来消除应用系统中存在的信息不一致性问题才能进入数据 仓库时,使之在数据仓库中有一致的表示。 非易失:事务信息系统在事务处理中通常是一次访问和处理一条记录。数据 仓库中的数据则通常成批载入和访问的。数据仓库中的数据,只要没有超过数据 存储期限,一般不进行更新操作,只进行查询操作。 随时间变化:数据仓库中的数据时间期限要远远长于操作型系统中的数据时 间期限。操作型系统的时间期限一般是6 0 - - - 9 0 天,而数据仓库中数据的时间期 限通常是5 l o 年。操作型数据库含有“当前值”的数据,这些数据的准确性在 访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仪是历史 数据,一般不更新。操作型数据的键码结构可能包含也可能不包含时间元素,如 年、月、日等。而数据仓库的键码结构总是包含某时间元素。 2 1 2 数据模型 构建数据仓库可以使用的数据模型有关系型数据模型和多维数据模型两种 【1 0 2 5 2 6 】 0 7 第_ 章相关技术 关系型数据建模通常用于企业级( 行业级) 数据仓库设计。企业数据仓库的 关系型数据建模与一般的业务数据库的关系型数据建模不同,数据仓库中的数据 建模是按主题设计的,而业务数据建模是按事务处理设计的,两者的需求不同, 而且数据仓库中的数据足按一定的粒度综台在一起的,是非易失的、集成的、且 随时问变化的e 2 4 。 多维数据模型的设计是为了以数据立方体的形式观察来数据。如果将表中的 每个字段看作坐标系中的一个维度,每个字段的所有取值将转化为坐标中的不同 刻度,表中的每个记录则成为了数据立方体( 或n 维超立方体) 中的一个点。这 种视角使得数据分析工作显得更直观和容易理解,可以大大简化和调整被访问和 分析的数据。 多维数据模型的定义是“一种数据建模方法学,它从一系列基本的度量事件 开始构造一个实事表,通常每条记录对应于一个具体的度量。该实事表又被一套 维表所包围,这些维表准确地描述了每条度量记录的上下文信息。根据多维模型 的结构特征,通常称为星形模型。”多维模型是o l a p 的逻辑基础。 多维数据模型与数据仓库的设计不同,它通常是根据具体的数据分析需求来 设计的,该方法只适合数据集市的设计而不适合数据仓库的设计。这是因为数据 仓库是为整个组织内所有的数据分析人员提供服务的,对其响应的任何需求来说 性能和便捷性要求不是最重要的,使用多维数据模型为星形连接中央的实体提供 了较好优化,但是削弱甚至删除了其他的实体的信息。数据集市是一个直接面向 数据分析的环境,它包含许多历史数据,并且有大量数据要管理,使用星形连接 的数据结构即能满足需要又能方便的进行o l a p 分析,是理想的模型结构。所以 在警情数据仓库中我们使用的是多维数据模型。 多维数据模型摹本概念: 事实( f a c t ) :一种度量方法,典型的是数字事实和可加事实。事实保存在 事实表中,也称为度量,关键性能度量,关键事务度量。 事实表( f a c tt a b l e ) :多维模型中的中心表,它的特征是有个复合键,复 合键中的每一个字段都是从另一张维表中取出的外健。 维( d i m e n s i o n ) :一个组织模型里面的独立实体,它被作为一种信息入口, 或者是划分度量的一种机制。 维表( d i m e n s i o nt a b l e ) :多维模型中的一种表,有一个独立的主键。 第二章相关技术 2 2 联机分析处理( o l a p ) 联机分析处理( o n l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) 是使分析人员、管理人员 或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解 的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数 据的更深入了解的一类软件技术o l a p 委员会的定义【2 ”。 o l a p 的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技 术核心是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合 2 8 2 9 。 2 2 1o l a p 的功能 多维的o l a p 服务通过支持空间聚合路径或层次结构和多重层次结构,提 供了大量数据视图或多维的概念性视图。 容易理解一为o l a p 分析设计的数据市场可以处理与应用程序和开发人员相 关的任何业务逻辑和统计分析,同时使它对于目标用户而言足够简单。 交互性l a p 帮助用户通过对比性的个性化查看方式,以及对各种数据模 型场景中的历史数据和预计数据进行分析,将业务信息综合起柬。用户可以在分 析中定义新的专用计算,并可以以任何希望的方式报告数据。 快速o l a p 服务常常以多用户的客户机服务器模式实现,而且无论数据库 的规模和复杂性有多大,都能够对查询提供一致的快速响应。合并的业务数据可 以沿着所有维度中的层次结构预先进行聚合,从而减少构建o l a p 报告所需的运 行时计算。 2 2 2 基本概念 l 、维 维度( d i m e n s i o n ) 描述数据中要分析的要素。如时间维度。 维的成员( m e m b e r ) 是维度属性( 包括度量值维度) 的值,如时间维度上 的星期一。层次结构中的成员可以是叶成员、父成员、数据成员或“( 全部) ”成 员。 值( v a l u e ) 是一个成员的唯一特性。如时间维度中的日期。 属性( a t t r i b u t e ) 是成员的完整集合。如一周的所有日期是时间维度的属性。 长度( s i z e 或c a r d i n a l i t y ) 是一个维度包含的成员数。例如星期的天数构成 的时间维度的长度为7 。 2 、层次 9 第一章相关技术 维的层次( h i e r a r c h y ) 是人们观察数据的某个特定角度( 即某个维) 存在细节程 度不同的各个描述方面( 时间维:日期、月份、季度、年为一个层次,日、周、 年是另一个层次) 。每个维度可以有多个层次,但每个层次都要使用相同的关键 属性。有均衡层次结构( b a l a n c e dh i e r a r c h y ) 和非均衡层次结构( u n b a l a n c e d h i e r a r c h y ) 两种。 均衡层次结构( b a l a n c e d h i e r a r c h y ) 是顶级成员与任何叶成员之间存在相同级 别数的层次结构。 非均衡层次结构( u n b a l a n c e dh i e r a r c h y ) 是顶级与叶级之间存在不同级别数的 层次结构。父子层次结构即是不齐整层次结构的一个例子。非均衡层次结构也称 为“不齐整层次结构。 级别层( l e v e l ) 是通往维的一个明细数据阶梯,是维度层次结构的一个元素。 级别描述了数据的层次结构,从数据的最高( 汇总程度最大) 级别直到最低( 最 详细) 级别( 如大分类中分类小分类细分类) 。级别仅存在于维度内。级别基 于维度表中的列或维度中的成员属性。例如,一卜面所述“地理”维有四个级别: 国家地区、地区、城市和位置。 全部成员( a l lm e m b e r ) :层次结构中项层的唯一一个成员,也是这个层次的 所有成员。 叶成员( l e a f m e m b e r ) : “叶成员”是层次结构中不包含子级的成员。 子成员( c h i l dm e m b e r ) : “子成员”是层次结构中位于顶层下面的成员。 3 、度量 度量值( m e a s u r e s ) 表示按多维数据集中包含的其他维度组织的数据。在多维 数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而 且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最 终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用 户所请求的信息类型。一些常见的度量值有销售量、金额等。 m e a s u r e s 维度( m e a s u r e sd i m e n s i o n ) 是包含多维数据集中所有度量值的维度。 度量值维度是一种特殊的维度,其中的成员通常是根据各个维度属性( 存在指定 的度量值) 的当前成员( 通常采用求和或计数方式) 进行聚合。 4 、多维数据空间 超立方结构( h y p e r c u b e ) 指用三维或更多的维数来描述一个对象,每个维 彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的 维属性。这种结构可应用在多维数据库和面向关系数据库的o l a p 系统中,其主 要特点是简化终端用户的操作。 1 0 第- 二章相关技术 多立方结构( m u l t i c u b e ) 将大的数据结构分成多个多维结构。这些多维结构 是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子 立方结构。它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 事实卒间( f a c ts p a c e ) 将每一条事实记录看作卒间中的一个点,则所有事实 记录构成的空间称事实空问或事实数据( f a c td a t a ) 。 逻辑空间( l o g i c a ls p a c e ) 与事实空间相对的数据空间,它由所有的维成员 构成。逻辑空间和事实空间构成多维模型的完全空间,即整个多维数据集。 单元( c e l l ) 多维数据空间中的一个点。多维数据集中的单元是度量值维度成 员的成员与多维数据集中各个属性层次结构的成员相交处所在的空间点,如2 0 0 8 年1 月2 日,某单位,盗窃案件,经济损失$ 1 0 0 0 0 。度量值维度的成员可以是叶 成员( 单个事实数据) 或聚合成员( 例如,特定年份聚合的销售额) 。 元组多维数组( t u p l e ) 多维数据空问的坐标,由维和度量的组合表示。一 个多维数组可以表示为:( 维1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论