




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据仓库和数据挖掘的行为分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 行为分析是一种特殊的社会网络分析,其e l 的是为国家司法( 执法) 部门从事案件 侦查、预防和打击违法犯罪提供有效的情报信息。利用数据仓库和数据挖掘技术从看似 杂乱无序的各种海量信息中发现知识,进行行为分析和特征描述,研究其中的规律和联 系,从而产生情报信息并服务实战,具有相当重要的现实意义。 目前,各行各业的信息和数据大多自成体系,相互独立,联合应用有一定困难,限 制了情报信息的分析和获取,因此,设计了行为分析数据仓库模型,利用星型模型构建 数据仓库,用关系模型存放数据,合理组织和管理数据,构建了一个可以实现跨行业跨 领域、整合各类信息的数据仓库。利用o l a p 动作提供多维数据,实现了行为分析的基 础功能查询和比对,为情报分析人员提供辅助决策的数据信息支持。 利用i d 3 算法实现对行为数据的分类,发现行为属性的特征模式,引入经验参考系 数6 对算法进行改进。利用a p r i o r i 算法对特征属性与事件关联关系和行为特征属性间 的关联关系进行挖掘研究,发现关联规则。利用概念分类的聚类思想,使用概率和频率 度量对行为数据分类,获得指导情报分析的模型。 应用上述研究成果于实际案例,可以实现行为分析的最终目标,即产生情报信息用 来指导侦查破案。a 城统计结果表明,试用行为分析后一个季度情报线索的自主发现率 ( 非举报、报案) 环比提高了1 1 。利用数据仓库和数据挖掘进行行为分析,可以有效 拓宽情报信息的获取途径和方法,达到了研究的预期效果,有较高的实用价值。 关键词:信息应用,行为分析,数据仓库,数据挖掘 a b s t r a c t b e h a v i o ra n a l y s i si sas p e c i a ls o c i a ln e t w o r ka n a l y s i s ,i st op r o v i d ee f f e c t i v ei n t e l l i g e n c e i n f o r m a t i o nf o rt h es t a t ej u d i c i a ld e p a r t m e n t ,w h i c ha r eu s e dt od e t e c t i n g ,p r e v e n t i n ga n d c o m b a t i n gc r i m e s b yu s i n gd a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g y , d i s c o v e r i n g k n o w l e d g ef r o mm a s so fd i s o r d e r l yi n f o r m a t i o n , a n a l y z i n ga n dd e s c r i b i n gt h eb e h a v i o r , d e a l i n g 谢t l lt h eh i d d e nr u l e sa n dl a w s ,i n t e l l i g e n c ei n f o r m a t i o nw i l lb eb o r nt os u p p o r t i n v e s t i g a t i o na n dd e t e c t i o n i th a si m p o r t a n ta n dp r a c t i c a ls i g n i f i c a n c e c u r r e n t l y , t h ei n f o r m a t i o na n dd a t ai nd i f f e r e n ti n d u s t r i e sa n da r e a sa r ei n d e p e n d e n t ,a n d d i f f i c u l tt oc o m b i n e i tl i m i t e dt h ea n a l y s i sa n da c c e s so ft h ei n t e l l i g e n c ei n f o r m a t i o n t h e r e f o r e ,t h em o d e lo ft h eb e h a v i o ra n a l y s i sd a t aw a r e h o u s ew a sd e s i g n e d ,b yu s i n gt h es t a r s t r u c t u r ea n dt h er e l a t i o n a lp a t t e r n i n f o r m a t i o na n dd a t aw e r eo r g a n i z e da n dm a n a g e d r e a s o n a b l y n 圮d a t aw a r e h o u s ew h i c hi n t e g r a t e dt h ei n f o r m a t i o na n dd a t af r o md i f f e r e n t i n d u s t r i e sa n da r e a sw a sb u i l t m u l t i d i m e n s i o n a ld a t aw a sm a d ef r o mo l a p t h eb a s i c f u n c t i o n so fi n q u i r ya n dm a t c h i n gh a v er e a l i z e d i n t e l l i g e n c ea n a l y s t sg o tt h ei n f o r m a t i o na n d d a t as u p p o r tf o rd e c i s i o n a l g o r i t h mi d 3w a su s e dt oc l a s s i f yt h eb e h a v i o rd a t a , d i s c o v e rt h ef e a t u r e sa n dm o d e s a d d i n ge x p e r i m e n t a lc o e f f i c i e n tw a sf e a s i b l et oi m p r o v ea l g o r i t h mi d 3 a l g o r i t h ma p r i o r i w o r k e df o rd i s c o v e r i n gt h el a w sa n dr u l e sf r o mt h er e l a t i o n s h i pw h i c hw a sa m o n gf e a t u r e a t t r i b u t e s ,b e h a v i o ra n de v e n t s u s i n gt h ec o n c e p to fc l a s s i f i c a t i o no fc l u s t e r i n g ,t h eb e h a v i o r d a t aw e r ec l a s s i f i e db yp r o b a b i l i t ya n df r e q u e n c y , a n dt h em o d e lw a sb u i l tf o ri n t e l l i g e n c e i n f o r m a t i o na n a l y s i s a p p l i n gt h er e s u l t so ft h er e s e a r c hi np r a c t i c a lc a s e s ,b e h a v i o ra n a l y s i sh a sa c h i e v e dt h e u l t i m a t eg o a l ,w h i c h sp r o d u c i n gt h ei n t e l l i g e n c ei n f o r m a t i o nf o ri n v e s t i g a t i n g 1 1 1 es t a t i s t i c s o fc i t yas h o wt h a tt h er a t eo ft h ea b i l i t yt of i n dt h ei n t e l l i g e n c ec l u e si n c r e a s e d1 1 b yu s i n g b e h a v i o ra n a l y s i s i tc a ne x p a n dt h ea c c e s s e sa n dm e t h o d st of m dt h ei n t e l l i g e n c ec l u e sb y u s i n gb e h a v i o ra n a l y s i s i th a sa c h i e v e dt h ee x p e c t e da i m ,a n dh a sg o tt h eh i g hp r a c t i c a l v a l u e k e yw o r d s :i n f o r m a t i o na p p l i c a t i o n ,b e h a v i o r a n a l y s i s ,d a t ew a r e h o u s e ,d a t em i n i n g i l 长安大学硕士学位论文 1 1 研究背景和意义 第一章绪论 近年来,人类生活的科技化、网络化、信息化程度日益提高,各类数据信息量以几 何级数倍增,人们积累的数据量之大远远超过了人们分析和理解数据的能力。由于激增 的海量数据背后隐藏着许多重要的信息,所以,数据处理的重点已经从传统的业务处理 扩展到在线分析处理,希望通过对其进行更深层次的分析,更好的应用数据,发现知识, 并从中得到面向各种主题的统计信息和决策支持信息。 目前,公安系统的信息化建设已具有一定规模,积累了大量的基础业务数据,但是, 多数对系统的应用仍停留在传统的录入、查询、统计等简单功能上,缺少对数据的深层 次分析和理解。因此,公安部门迫切需要一种方法,可以发现隐藏在各种数据中的行为 规律和趋势,从而提高对情报信息的获取和使用能力,达到有效预防和打击犯罪的目的。 社会网络是一种结构关系,可以反映行动者之间的社会关系。社会网络分析是一种 独立的社会研究方法,是对社会网络的关系结构及其属性加以分析的一套规范和方法。 它又被称结构分析( s t r u c t u r a la n a l y s i s ) ,因为它主要分析的是不同社会单位( 个体、群体或 社会) 所构成的社会关系的结构及其属性【l 】。 行为分析是一种特殊的社会网络分析,其目的是为国家司法( 执法) 部门从事案件 侦查、预防和打击违法犯罪提供有效的情报信息。利用数据仓库和数据挖掘技术从看似 杂乱无序的各种海量信息中发现知识,进行行为分析和特征描述,研究其中的规律和联 系,从而产生情报信息并服务实战,具有相当重要的现实意义。 随着经济问题的发展变化,其他社会问题的层出不穷,各类治安、刑事案件时有发 生,尤其是各类恶性事件常伴有灾难性的影响,因此必须利用科技手段提高情报分析和 获取的能力。这样做可以: 1 促进情报工作信息化建设 当前的情报工作信息化程度仍然很低,各种信息系统数据只是简单地存储在数据库 中,数据本身的价值没有得到充分利用,隐藏在这些数据信息中的潜在价值被长期闲置, 且普遍存在数据分散,数据存储不连续,信息资源浪费,查询、分析手段落后,存储容 量有限等问题。通过该研究,可以实现信息资源的整合,消除信息孤岛,大大促进情报 工作信息化建设。 第一章绪论 2 拓宽情报来源,提高情报获取水平 传统情报信息的来源主要是人工方式,多为举报、报案及经验发现,途径有限。通 过构建行为分析数据仓库,可以给情报人员提供更加直观,更加有效,多维、多面、多 种综合度的数据;通过对行为信息数据的挖掘研究,可以发现数据背后的规律和意义, 将更好的服务于情报工作,辅助领导决策,拓宽情报来源,提高情报获取水平。 3 为打击违法犯罪行为提供数据支持 建立行为分析数据仓库,有效整合了各行各业的信息和数据,充分挖掘行为轨迹信 息中的数据价值,可以成为案件侦破或审查过程中的突破口,为打击违法犯罪行为提供 数据支持。 基于数据仓库和数据挖掘的行为分析研究正是在上述背景下,为了适应信息处理技 术的发展,情报工作信息分析需求的变化应运而生的产物。如图1 1 所示,在现有侦查 破案工作机制和情报分析获取的现状和契机下,构建行为分析系统,从而实现情报主导 侦查,具有较高的研究价值。 出发 契机 出发点 1 2 国内外研究现状 图1 1 行为分析的用途 根据信息技术处理的新要求,尤其是管理决策分析支持系统的迫切需要,数据仓库 和数据挖掘已成为在信息技术领域研究和应用的热点。 目前,纵观国内外,数据仓库和数据挖掘技术在商业智能领域应用十分广泛,由于 它们能够给企业带来显著的经济效益,为企业的竞争构筑信息与决策的优势,各行各业 都对其投入了极大的热情。典型行业应用有银行和金融部门的应用,零售部门的应用, 电信部门的应用,生物制药和基因研究的应用等。 数据仓库和数据挖掘在行为分析上的应用,是为了获得可以产生情报信息的相关数 2 长安大学硕士学位论文 据,用于情报分析研判的辅助决策。由于涉及数据和结果的敏感性,国内外在这个领域 的最新最近的研究成果和应用结果几乎没有公开发表的相关资料,这里不再赘述。 1 3 论文研究主要内容 为了发现隐藏在各种数据中的行为规律和趋势,拓宽情报信息的获取途径和方法, 本文研究了基于数据仓库和数据挖掘的新应用行为分析。 本文各章节的安排如下: 第一章绪论 简要介绍了行为分析的目标和意义。 第二章数据仓库和数据挖掘 为了对数据仓库和数据挖掘有初步的了解和认识,综述了数据仓库的基本原理和数 据挖掘技术基础。 第三章行为分析数据仓库的设计与应用 设计和应用行为分析数据仓库。按照行为分析的需求设计数据仓库模型,利用星型 模型构建数据仓库,用关系模型存放数据,合理组织和管理数据,构建了一个可以实现 跨行业跨领域、整合各类信息的数据仓库。利用o l a p 动作提供多维数据,实现行为分 析的基础功能查询和比对,为情报分析人员提供辅助决策的数据信息支持。 第四章行为分析挖掘及应用研究 对行为数据进行挖掘研究和应用探索。重点研究了决策树分类法,利用i d 3 算法实 现对行为数据的分类,发现行为属性的特征模式,在模型应用过程中发现i d 3 算法存在 的问题,引入经验参考系数6 对算法进行改进。利用a p r i o r i 算法对特征属性与事件关 联关系和行为特征属性间的关联关系进行挖掘研究,通过行为分析的应用发现算法不 足,提出改进设想。利用概念分类的聚类思想,使用概率和频率度量对行为数据分类, 获得指导情报分析的良好模型。以实际案例证明行为分析的研究结果可以有效应用于实 践,指导侦查破案。 第五章结论与展望 对全文的工作进行总结,并给出本研究的发展方向和有待完善和探索的新问题。 3 第二章数据仓库与数据挖掘 第二章数据仓库与数据挖掘 当前,信息技术已经从简单的批处理、联机事务处理的信息处理时代,进入了联机 分析处理、数据仓库和数据挖掘的信息分析时代。 2 1 数据仓库的基本原理 计算机与人类相比,最大的优势是能够迅速、准确地处理大量数据,数据处理的中 心问题是数据管理,即对数据的分类、组织、编码、存储、检索和维护等,而数据仓库 正是数据处理技术发展到比较成熟的产物【2 1 。数据仓库是近年i t 技术和信息管理迅速发 展的结果【3 1 。 数据仓库( d a t aw a r e h o u s e ,d w ) 的概念始于二十世纪八十年代中期,由数据仓库理 论创始人w i l l i a m h i i i i t i o d 于1 9 9 3 年在建立数据仓库( b u i l dt h ed a t aw a r e h o u s e ) ) ) 一 书中提出【4 】。 2 1 1 数据仓库的概念与特点 w i l l i a m h i i l l i l o n 在建立数据仓库( b u i l dt h ed a t aw a r e h o u s e ) ) ) 书中指出:数据 仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳 定的( n o n - v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策【5 1 。 s a s ( s t a t i s t i c a la n a l y s i ss y s t e m ) 软件研究所的观点是:数据仓库是一种管理技术, 旨在通过通畅、合理、全面的信息管理,达到有效的决策支州6 1 。 传统的数据库用于日常事务处理工作,即操作型处理,存放在其中的数据为操作型 数据。而数据仓库用于决策分析,也称分析型处理,数据仓库中存放的数据是为了满足 和适应数据分析处理的要求,是分析型数据。 w h i n l t l o n 列出了操作型数据和分析型数据的区别,如表2 1 所示。二者从根本上 体现了事务处理和分析处理的差异【7 1 。 从数据库发展到数据仓库的主要原因是: ( 1 ) 数据量极大,信息匮乏。 ( 2 ) 异构环境数据的转换和共享成为热点。 ( 3 ) 利用数据进行事务处理转变为利用数据进行决策支持。 4 长安大学硕士学位论文 表2 i 操作型数据和分析型数据的区别 操作型数据的特点分析型数据的特点 细节的综合的、经过提炼的 在存取时是准确的代表过去的数据 可更新不更新 操作需求通常事先可知 分析需求通常事先不知道 对性能( 如操作延迟) 要求高 对性能要求较宽 一个时刻操作一个数据单元一个时刻操作一个数据集合 事务驱动分析驱动 面向应用面向分析 一次操作数据量小一次操作数据量大 支持日常操作需求支持管理需求 根据数据仓库的定义,数据仓库有以下四个特点阳1 】: 1 面向主题( s u b j e c to r i e n t e d ) 操作型数据库的数据组织是面向事务处理任务的,各个业务系统之间相互独立、相 互分离,而数据仓库中的数据是按照一定的主题域进行组织,一个主题通常与多个操作 型信息系统相关。主题是个抽象的概念,是用户使用数据仓库进行决策和分析时所关 、 心的重点方面。 2 集成的( i n t e g r a t e d ) 面向事务处理的操作型数据库往往是异构的,相互独立的,并且与某些特定的应用 ” 相关。而数据仓库中的数据是整合集成的,是在对分散在数据库中的原有数据进行抽取 和清理的基础上,经过加工、汇总和整理得到的,消除了源数据中的不一致性,从而保 证了数据仓库内的数据信息是关于整体的、一致的全局数据信息。 3 相对稳定的( n o n - v o l a t i l e ) 操作型数据库中的数据通常是实时更新的,往往根据需要及时变化数据和信息。而 数据仓库中的数据主要用以决策分析,所涉及的对数据的操作多为数据查询,因此,数 据和信息经过整合和集成进入数据仓库后,极少更新,通常只需要定期的加载刷新。 4 反映历史变化( t i m ev a r i a n t ) 操作型数据库关心的是当前某一段时间内的数据,而数据仓库中的数据通常包含了 大量的历史数据和信息,用来对发展历程和未来趋势做出定量和定性的分析和预测。 5 第二章数据仓库与数据挖掘 2 1 2 数据仓库的体系结构 数据仓库的体系结构0 2 - 1 5 1 如图2 1 所示。 99 外部数据 内部数据 文档资料 数 据 源 = o二= = 一 9 9 9 数据集市数据集市数据集市 管与 理控 制 图2 1 数据仓库的体系结构 数据源:是数据仓库的数据基础,是在数据仓库构建所界定的范围内的内部数据和 外部数据。这些数据通常是异构的,来自于不同的操作型业务系统,分散在不同的应用 服务器中。较为完善的数据仓库,其数据源还要包括其他外部数据,即界定范围外的相 关业务系统中的相关数据。 6 长安大学硕士学位论文 数据仓库管理与控制:数据仓库是按照宏观的主题组织数据的,这些数据经过整合、 标准化、统一化,形成全局的、一致的分析型基础数据,即全局的、统一的、唯一的数 据视图,用户在进行分析时,只关心从优质的数据源( 数据仓库) 中抽取需要的数据, 将其格式化为数据集市技术所要求的数据格式,并且交付这些数据到数据集市环境用于 分析,这个过程就是数据仓库的管理与控制的基本过程。其中,数据集市是完成对已知 的具体分析主题的数据预处理,通常采取多维模型的方式组织数据,又称多维数据集, 可以通过引入大量的数据冗余对数据进行组织以提高查询分析的效率,对数据进行了各 种层次的汇总,计算派生数据,解决特定的业务和部门的需求。 数据的存储与管理:是数据仓库体系的重要组成部分,是整个系统的核心,是对数 据仓库源数据的抽取、清洗、转换并最终按照数据仓库( 数据集市) 物理模型生成数据 仓库数据然后装载到数据仓库进行存储的过程。 应用服务器:这里的服务器是o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 服务器和数据挖掘服务器。对需要分析的数据进行有效的集成,按多维模型予以组织, 为用户提供来自数据仓库或者数据集市的多维数据,以便用户进行多维、多角度、多层 次的分析和应用,从而发现隐含在数据背后的规律和趋势。 前端工具及应用:前端工具主要包括各种数据分析工具、查询工具、报表工具、数 据挖掘工具以及基于数据仓库或数据集市的应用开发工具。通常情况下,终端用户利用 对各种前端工具的操作和使用获取需要的分析结果和挖掘结果。 为实现数据仓库的功能,数据仓库的总体层次结构应该由数据仓库基本功能层、数 据仓库管理层和数据仓库环境支持层组成【1 6 1 ,如图2 2 所示。 图2 2 数据仓库的总体层次结构 数据仓库基本功能层应该包含从数据源抽取数据,对所抽取的数据进行筛选、清理, 将清理后的数据加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复 杂查询、决策分析和知识挖掘等功能。数据仓库管理层包含数据管理与元数据管理两部 分。数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。 7 第二章数据仓库与数据挖掘 2 1 3 数据仓库的构建策略 数据仓库的设计是面向分析的,它的开发从最基本的主题开始,不断发展新的主题, 完善已有的主题,最终建立起一个面向主题的分析型环境。数据仓库不是一个提供战略 信息的硬件或者软件产品,而是一个解决方案,一个用户可以从中找到所需决策信息的 计算环境。在这个环境中,用户可以通过与数据的接触来做出好的决策。 数据仓库的构建是一个不断循环反复而使系统不断增长与完善的过程,数据仓库的 设计大体上可以分为以下几个步骤【1 7 1 8 】,如图2 3 所示: 图2 3 数据仓库的设计步骤 1 决策需求分析阶段: 在数据仓库的决策需求分析阶段主要有三个方面的工作:决策需求分析、界定系统 边界和确定主题。在数据仓库的设计之初,可能无法得到详细而明确的需求,但是用户 能够提供需求的大方向,先对基本的需求信息进行初步的分析,划定一个大致的系统边 界,集中精力进行最需要和最重要部分的开发。然后,在深入分析原有业务系统数据的 基础上,进一步理解业务运作模式和规律,进而更深层次的明确决策需求,确定数据仓 库系统的主要主题及其关系。 2 数据仓库建模阶段: 为数据仓库中存储的数据建立模型是数据仓库设计中关键的一步。数据模型是对现 实世界进行抽象的工具,不同的抽象程度,就形成了不同的抽象级别层次上的数据模型。 通过数据模型,可以得到完整而清晰的描述信息,因此,在数据仓库的设计过程中数据 模型的设计至关重要,是数据仓库设计中核心部分。 数据建模通常有三种不同的视觉角度:概念模型、逻辑模型和物理模型。其中,概 念模型是对真实世界的情况描述,逻辑模型是从真实世界的信息到数据的物理存放细节 的映射,而物理模型表示的是信息存放于硬件中的细节情况。 3 数据仓库建立阶段: 数据仓库中的数据来源于不同的数据库或信息系统,分属于不同的数据源。在数据 仓库的创建过程中,一个重要的步骤是对数据和信息进行采集和组织。将各类数据从不 同的操作型数据库系统中抽取出来,进行整合和集成,使其标准化、一致化,消除数据 中的数据缺陷,完成一系列的转换工作,最终将数据加载到数据仓库中。 8 长安大学硕士学位论文 4 数据仓库维护阶段: 对数据仓库的日常维护,主要工作就是周期地加载或更新数据仓库中的数据。一方 面,用户要使用数据仓库中的数据服务于决策分析的目的;另一方面,根据用户的具体 使用情况和反馈回来的新需求,要对数据仓库作进一步的完善。加载各类数据和信息到 数据仓库后,随着时间的推移,可以根据操作型数据库系统的数据变化,周期地更新数 据仓库中的数据。 此外,还需要对数据仓库中的数据做好备份工作,以保证系统被破坏后,数据仓库 中的数据可以恢复到破坏前的状态。 2 2 数据挖掘技术 1 9 8 9 年8 月,在第1 1 届国际人工智能联合会议的专题研讨会上,首次提出基于数 据库的知识发现( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 技术。该技术涉及机器学习、 模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领 域,技术难度较大,一时难以应付信息爆炸的实际需要【1 9 】。到了1 9 9 5 年,在美国计算 机年会( a c m ) 上,提出了数据挖掘( m d ,d a t am i n i n g ) 的概念,即通过从数据库中抽 取隐含的、未知的、具有潜在使用价值信息的过程。数据挖掘是k d d 过程中最为关键 的步骤。超大规模数据库的出现、先进的计算机技术、经营管理的实际需要和对这些数 据的精深计算能力等原因促进了数据挖掘诞生、发展和应用1 2 0 1 。 2 2 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ,d m ) 就是从大型数据库的数据中提取人们感兴趣的知训羽。 提取的知识可以表示为:概念( c o n c e p t ) 、规贝, l j ( r u l e s ) 、规律( d i s c i p l i n a r i a n ) 、模式( p a t t e r n s ) 等形式,这些知识是隐含的、事先未知的、潜在的、有用的信息。也可以认为,数据挖 掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不 知道的、但又潜在的有用的信息和知识的过程【1 6 1 。简单地说,数据挖掘就是从大量数据 中提取或“挖掘知识1 2 1 1 。 广义地讲,数据和信息是知识的表现形式。但是在数据挖掘中,更多地是把概念、 规则、模式、规律和约束等看成知识【1 。原始数据可以是结构化的,如关系数据库中的 数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型 数据等等。发现知识的方法可以是数学的或非数学的、演绎的或归纳的。数据挖掘所发 9 第二章数据仓库与数据挖掘 现的知识可被用于信息管理、查询优化、决策支持、过程控制等诸多应用。因此,更广 义的说法是:数据挖掘即意味着在一些事实或观察数据的集合中寻找模式的决策支持的 过程,它是一个利用各种工具在海量数据中发现模型和数据间关系的过程【2 2 l 。 2 2 2 数据挖掘的过程 数据挖掘是一种新的信息处理技术。数据挖掘技术把人们对数据的应用,从低层次 的联机查询操作,提高到决策支持、分析预测等更高级的应用上。通过对数据进行微观、 中观乃至宏观的统计、分析、综合和推理,来发现数据间的关联性、未来趋势以及一般 性的概括知识等,这些知识性的信息可以用来指导高级活动。 图2 4 表示了数据挖掘的一般过程,各环节如下1 2 3 ,2 4 l : 臣l 数据准备 i1 0 ;埘 、 取】1 】 数据挖掘 号k 数摆清洗与集成 r一,一 目标; ,一力卜1 7 乙 隔髻丽 数据选择和转换 图2 4 数据挖掘的一般过程 ( 1 ) 数据清理:对数据进行一致化处理,清除噪声或不一致的数据。 ( 2 ) 数据集成:将多种数据源组合在一起,对数据进行整合。 ( 3 ) 数据选择:从数据库中检索与分析任务相关的数据,对数据进行筛选。 ( 4 ) 数据转换:对数据格式进行调整,使数据转换成适合挖掘的形式。 ( 5 ) 数据挖掘:抽取数据中隐含的模式,提取知识的过程。 ( 6 ) 模式评价:按照对兴趣度的度量,识别表示知识的模式。 ( 7 ) 知识表示:向用户提供挖掘结果。 结合具体的业务问题,数据挖掘的基本流程步骤是: 先了解数据挖掘所要应用的领域并熟悉相关知识,接着建立目标数据集合,并通过 l o 1 嚣 + 。 长安大学硕士学位论文 采样或抽取动作,选择子目标数据集;再对目标数据做预处理,消除错误的和不一致的 数据;然后对数据进行简化及转换工作;再由相应的数据挖掘算法发现潜在的模式;最 后通过解释或评估模式使其成为有用的知识,并且这些过程是可以循环和重复的。 数据挖掘过程的标准化目前包括以下三个标准:c 对s p d m 、p m m l 、o l ed bf o r d m t l9 1 。目前使用较为普遍的标准是c r i s p d m ,被认为是开发数据挖掘项目的过程的 标准方法,许多数据挖掘软件商依照这套标准来开发数据挖掘软件【2 5 1 。数据挖掘项目的 生命周期由6 个阶段构成,图2 5 展示的是c r i s p d m 标准的数据挖掘过程: 图2 5c r i s p - d m 标准的数据挖掘过程 ( 1 ) 理解业务:理解项目目标和需求,转换成数据挖掘的问题定义。 ( 2 ) 理解数据:收集初步的数据,进行各种熟悉数据的工作。 ( 3 ) 准备数据:搜索内部和外部数据信息,选择出适用于数据挖掘应用的数据。 ( 4 ) 建模:选择和应用各种建模技术,并对其参数进行优化。 ( 5 ) 模型评估:对模型进行评价,确认其是否实现了预定的目的。 ( 6 ) 模型部署:将模型应用到决策过程中。 图中的箭头只说明了步骤之间相对重要的依赖关系,步骤间的顺序不是固定不变 的,可以根据每个阶段的结果,在不同的步骤之间来回流动。 2 2 3 数据挖掘的功能和方法 在数据挖掘的使用中,其基本目标往往是描述和预测,因此,可以把数据挖掘分为 1 1 第二章数据仓库与数据挖掘 两类:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘关注的是找出描述可以解释 的数据模式;预测性数据挖掘则是对数据进行分析,建立一个或一组模型,使用数据集 中的变量来预测其他的未知变量或未来的值。 根据数据挖掘的目标分析,数据挖掘主要有以下几类功能和方法【2 6 。2 】: ( 1 ) 聚类分析 数据库中的记录可以被划分为一系列有意义的子集,即聚类。聚类可以增强人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括:传统的模式 识别方法和数学分类学。聚类是在事先不规定分组规则的情况下,将数据按照其自身特 征划分成不同的群组。要求是在不同群组的数据间要有明显差别,而每个群组内部的数 据尽量相似。 ( 2 ) 分类分析 分类可以解决的问题是为一个事件或对象归类,在使用上既可以用此模型分析已有 的数据,也可以用它来预测未来的数据。分类分析首先从完整的数据集合中划分出一部 分数据作为训练集合,找到合适的映射函数h :f ( x ) 一c 来表示模型,然后为这个训练 集合中的每一个记录分配一个标记,即对训练集合的一次划分。接着检查这些标定的记 录,描述具有同类标记的子集的特征或重要的相关因素,形成分类规则。最后将发现的 重要因素运用到数据集合的整体上,从而完成数据集合的分类工作。 ( 3 ) 自动预测趋势 在大型数据库中寻找预测性信息,以往需要进行大量手工分析来解决问题,如今可 以利用数据挖掘迅速直接由数据本身得出结论。最典型的例子是市场预测问题,数据挖 掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。 ( 4 ) 关联分析 数据关联是数据中存在的一类重要的可被发现的知识。若两个或多个变量的取值之 间存在着某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等等。 关联分析的目的是找出数据中隐藏的关联关系网。数据间的关联函数有时是并不知道 的,即使知道也是不确定的,因此关联分析生成的规则一般带有可信度。 ( 5 ) 概念描述 概念描述就是对某类对象的内涵或属性进行描述,概括这类对象的有关特征。概念 描述分为特征性描述和区别性描述,前者描述对象的共同特征,后者描述不同类的对象 1 2 长安大学硕士学位论文 间的区别。 ( 6 ) 偏差检测 数据库中的数据常有一些异常记录,检测和发现这些偏差很有意义。偏差包括很多 潜在的知识,如分类中的反常实例,不满足规则的特例等等。 2 3 数据仓库与数据挖掘的联系 数据仓库与数据挖掘二者的联系可以概括为以下几剧6 1 : ( 1 ) 数据仓库为数据挖掘提供了更好的、更广泛的数据源 数据挖掘库中的内容可以是数据仓库数据的一个逻辑上的子集,而不一定是物理上 单独的数据库,如图2 6 所示。 单独建立挖掘库,在挖掘库的 基础上进行数据挖掘 对数据仓库进行数据挖掘,数据挖掘 的数据可以是数据仓库数据在物理上 或者逻辑上的划分 图2 6 数据挖掘库是数据仓库物理或逻辑上的数据子集 ( 2 ) 数据仓库为数据挖掘提供了新的支持平台 ( 3 ) 数据仓库为更好地使用数据挖掘工具提供了方便 ( 4 ) 数据挖掘为数据仓库提供了更好的决策支持 ( 5 ) 数据挖掘对数据仓库的数据组织提供了更高的要求 ( 6 ) 数据挖掘还为数据仓库提供了广泛的技术支持 总之,数据仓库在纵向和横向都为数据挖掘提供了广泛的活动空间。数据仓库完成 数据的收集、集成、存储、管理等工作,数据挖掘面对的是初步加工的数据,使得数据 挖掘能更专注于知识的发现。数据仓库所具有的特点,对数据挖掘技术提出了更高的要 1 3 第二章数据仓库与数据挖掘 求,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可 以说,数据挖掘和数据仓库技术要充分发挥潜力,就必须结合起来。 2 4 本章小结 本章重点介绍了数据仓库的基本原理和数据挖掘技术基础。 数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决 策支持。数据仓库的体系结构由数据源,数据仓库的管理与控制( 和数据存储与管理) , 应用服务器,前端工具及应用构成。数据仓库的设计构建分四个步骤:决策需求分析, 建模阶段,建立阶段和使用维护阶段。 数据挖掘是从大型数据库的数据中提取人们感兴趣的知识的过程,是一种崭新的信 息处理技术。数据挖掘的过程简单分为数据准备,数据挖掘和结果评价。通过数据挖掘 可以实现聚类分析,分类分析,自动预测趋势,关联分析,概念描述和偏差检测。 数据仓库提供了集成数据的一种方式,数据挖掘是从数据中发现隐含的、有意义的 知识的过程和技术,数据仓库与数据挖掘实现有效的联结,相互补充、协同工作。 1 4 长安大学硕士学位论文 第三章行为分析数据仓库的设计与应用 在设计数据仓库时必须明确,数据仓库不是一个购买来提供战略信息的硬件或者软 件产品,而是一个解决方案,一个用户可以从中找到所需决策信息的计算环境,在这个 环境中,用户可以通过与数据的接触来做出好的决策。 3 1 数据仓库规划 3 1 1 需求分析 目前,公安系统的信息化建设已具有一定规模,积累了大量的基础业务数据,但是, 多数对系统的应用仍停留在传统的录入、查询、统计等简单功能上,缺少对数据的深层 次分析和理解【3 3 川。因此,公安部门迫切需要一种方法,可以发现隐藏在各种数据中的 行为规律和趋势,从而提高对情报信息的获取和使用能力,达到有效预防和打击犯罪的 目的。这个方法实现的基础是,有一个满足需求的数据集合。 各行各业的信息和数据大多自成体系,相互独立,联合应用有一定困难,限制了情 报信息的分析和获取,而这个数据集合要求可以消除或弱化这种限制,可以整合各类信 息,可以给情报分析人员提供了一种更加直观,更加有效,多维、多面、多种综合度的 剖析数据的环境【3 5 1 ,可以实现服务于行为分析和情报获取的综合查询和自动比对,可以 为数据挖掘发现知识提供简化预处理的数据源。 3 1 2 总体设计 数据仓库的设计面向分析,从最基本的主题开始,不断发展新的主题,完善己有的 主题,最终建立起一个面向主题的分析型环境。数据仓库系统的需求通常不明确,其项 目往往需要首先完成一个初步的系统,然后展示此系统的功能,让用户有了比较清晰地 认识后,提出比较准确的需求。随着新需求的产生,数据仓库系统也需要不断发展完善, 如图3 1 所示【1 6 1 。 数据仓库采用“数据驱动 的设计方法。数据驱动就是了解原有系统已经存在的数 据和已经完成的工作,同时了解业务需要的数据和要求,然后在以前所取得的工作成果 上进行系统建设。数据驱动的优点是可以通过了解原有数据库系统中的数据和需要建设 的数据仓库主题中数据的共性,最大程度的利用现有系统,减少系统建设的工作量。 一个数据仓库系统的设计可以分成数据仓库模型设计部分和数据管理( 数据装载接 1 5 第三章行为分析数据仓库的设计与应用 口设计) 部分【1 8 】,其设计的基本过程如图3 2 所示。 图3 1 数据仓库建设的循环过程 , , , 设计业务模型 将业务模型映射到数据库系统 将业务模型映射到数据仓库系统 、 i 、 图3 2 数据仓库设计的基本过程 1 6 长安大学硕士学位论文 3 1 3 系统架构设计 行为分析数据仓库的应用模型由四部分组成,如图3 3 所示。 第一部分是行为分析相关信息涉及相关领域、部门的各类数据( 包括历史数据、业 务数据和其它数据) ,是行为分析相关信息现有业务系统数据源,其数据特点是分散的 和难以再次利用的。 第二部分是中心数据仓库,由数据仓库和多维数据库组成,源数据经过抽取、清洗 和转换之后装载到行为信息数据仓库中,数据仓库中的数据是集中的、经过了清洗和转 换的,便于进行分析;存储于多维数据库中的数据是经过再次加工的,为行为分析与决 策提供了必要的分析基础。 第三部分是应用服务层,以数据仓库为基础,以数据挖掘技术为核心,负责连接用 户对数据仓库、多维数据库的查询访问。 第四部分是信息展示层,负责为用户展示分析后的结果,并可对展示的数据进行再 次分析利用,形成最后的分析报表。 图3 3 行为分析数据仓库的基本架构 1 7 第三章行为分析数据仓库的设计与应用 3 2 模型设计 在数据的世界里,数据建模通常基于3 种不同的视角:概念模型、逻辑模型和物理 模型。其中,概念模型用来表示真实世界的情况,逻辑模型是从真实世界到数据的物理 存放细节的媒介,而物理模型即表示信息存放于硬件中的细节。 e r 模型面向对象 的分析方法 概念模型到关系 模型的映射 关系模型到物理 一 二习一一一:实现的映射 3 2 1 概念模型 概念模型设计的成果是在原有的数据库的基础上建立了一个较为稳固的概念模型。 概念模型用来表示真实世界的情况。进行概念模型设计主要完成的工作有:界定系统边 界和确定主题两方面。 1 界定系统边界 对于情报分析人员,他们进行行为分析涉及很多公安业务数据和个人信息数据,通 过分析相关数据,可以发现涉及下列问题的目标信息: 哪些行为属性值得关注,容易引起犯罪行为; 具有哪些行为特征的人群有犯罪倾向; 这些行为属性或特征之间是否有一定联系,以及关联的程度。 2 确定主题域及其内容 情报分析人员进行行为分析,需要的主题包括:人员主题、案件主题、行为主题。 行为主题包括通讯、金融、出访以及其他后期需要加入分析项目的主题。行为分析数据 的主题确定如图3 5 所示。 1 8 长安大学硕士学位论文 3 2 2 逻辑模型 图3 5 行为分析主题的确定 在数据仓库的建设过程中,最关键的工作是逻辑模型的设计,它决定了数据仓库的 数据框架。 1 系统数据量估算【1 8 1 数据仓库的逻辑模型设计需要先粗略的估算将来数据仓库的数据量级,根据这个比 一 较粗略的估计值确定相对合理的数据粒度。 数据仓库数据量级的简单估算方法: nn a ( ( s + k ) k 丁) a ( ( s + k ) 如。x t ) ( 3 1 ) t = ll = l 其中,n 概念模型中出现的表的个数;s 表的大小;k 表的关键字大小;l 表在 单位时间内的最大记录数k 和最少记录数k ;r 数据在数据仓库中存在的周期;口由 于数据索引和数据冗余而使得数据量增大的冗余因子,通常取1 2 2 。 上式的含义是数据仓库数据量= ( 表记录的大小+ 主关键字大小) 记录的数量单 位时间存储时间冗余因子。 2 数据粒度的选择 对于不同的数据量将采取不同的数据粒度策略。数据量较小的环境采用单一的数据 1 9 第三章行为分析数据仓库的设计与应用 粒度,即直接存储细节数据并定期在细节数据基础上进行数据综合。数据装载后所有细 节数据都将保留在数据仓库中,几年存储期限后才会导出到后备设备。图3 6 所示的是 单一数据粒度的策略。 综合数据 ,j 7貅 2 0 0 9 52 0 0 9 4 2 0 0 9 32 0 0 9 22 0 0 9 1 2 0 0 1 1 2 0 0 0 l 图3 6 单一的数据粒度策略 据 大量数据则需要采用双重的粒度,细节数据只保留近期的数据在数据仓库中,当保 留周期到达时,距离当前较远的数据导出到其他存储设备上,从而为新数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度GRC建筑一体化施工合同模板
- 2025年智能环保型住宅建设技术转让合作合同
- 2025版煤炭居间代理合同样本
- 2025版能源公司股权无偿转让及节能减排合作合同
- 二零二五年度第十一十二章行政项目监理服务合同标准
- 二零二五年度离婚协议书定制及情感咨询合同
- 二零二五年度短途货运时效与违约赔偿合同
- 二零二五版39上公司兜底协议:海洋工程合作保障合同
- 二零二五年度集装箱板房租赁及社区活动服务合同
- 2025届“建”证梦想·成就非凡中建装饰集团西北公司校园招聘笔试参考题库附带答案详解
- 2024年10月中级注册安全工程师《金属冶炼安全》真题及答案
- 《高值医用耗材临床应用点评制度》
- 图书分类与管理制度
- 探索数字化技术在博物馆藏品保护与展示中的创新应用
- 康复治疗过程中突发事件的应急预案和处理流程
- 应急调度员电话压力疏导
- 农户建筑垃圾管理制度
- 2025年烟花爆竹安全作业特种操作证考试试卷备考建议
- 学校快递驿站管理制度
- 四川电网新建电源并网服务指南(2025年)
- 皮肤病的中西医结合治疗策略
评论
0/150
提交评论