(计算机软件与理论专业论文)visualdm:一个基于olam的可视化数据挖掘系统.pdf_第1页
(计算机软件与理论专业论文)visualdm:一个基于olam的可视化数据挖掘系统.pdf_第2页
(计算机软件与理论专业论文)visualdm:一个基于olam的可视化数据挖掘系统.pdf_第3页
(计算机软件与理论专业论文)visualdm:一个基于olam的可视化数据挖掘系统.pdf_第4页
(计算机软件与理论专业论文)visualdm:一个基于olam的可视化数据挖掘系统.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 数据挖掘可视化技术包括数据挖掘技术与可视化技术,它首先来自于科学计算 可视化。o l a m 是数据挖掘( d m ) 与o l a p 技术的有机结合,充分利用:r - - 者的优势,克 服二者的不足。本论文所研究的基于o l a m 的可视化数据挖掘技术将数据挖掘工具与 可视化展现工具融为一体,并使用户与数据挖掘过程充分地交互,从而大大地提高 数据挖掘的效率和质量,增加用户对结果模式的理解。 可视化数据挖掘使用可视化技术让数据挖掘者和分析师来评估、监控和指导数 据挖掘的输入、结果和整个过程。它能够在数据挖掘的早期引入用户的认识和偏好, 从而降低整体的计算复杂度,并且减少无意义结果的数量。 基于目前国内公安系统还没有关于数据挖掘方面的成功案例,本文提出了一个 新颖的体系结构。将数据挖掘融入公安业务,并根据其行业的特点构建模型,将数 据挖掘与公安执法办案有机结合起来,在源数据库中挖掘出关于嫌疑人、案件等大 量切实有效的规则,实现真正意义上的数据挖掘。 本论文在原“公安决策支持系统”的基础上,增加了数据挖掘及其可视化的内 容该项目针对犯罪嫌疑人和案件的分析业务,以数据挖掘、数据仓库和联机分析 处理技术为核心,开发数据挖掘算法包( 包括关联分析算法、决策树算法、聚类算法) , 并将其集成到数据挖掘服务器中。 本文设计了一个基于o l a m 的v i s u a l d m 系统,它结合了可视化、数据挖掘和o l a m 技术。在该系统中,o l a p 与d m 做到了真正地有机结合,用户参与到整个挖掘过程中, 彻底改变“黑箱”挖掘的局面。 本文从业务需求、功能需求、体系结构、功能设计、模块实现等方面设计并实 现了v i s u a l d m 系统,包括数据源模块、数据挖掘模块和可视化模块;针对本论文的 课题背景,可视化组件主要实现了关联规则的可视化展现、聚类的可视化展现、决 策树的可视化展现;并给出了关键技术。 关键词:k d d ( 知识发现) 、d m ( 数据挖掘) 、可视化、o l a p ( 在线分析处理) 、o l a i l ( 在 线分析挖掘) 山东大学硕士学位论文 a b s t r a c t t h ev i s u a ld a t am i n i n gi sm a d eu po f t h e t e c h n i q u eo f d a t am i n i n ga n dv i s u a l i z a t i o n , w h i c hi sd e r i v e df r o mv i s u a l i z a t i o ni ns c i e n t i f i c c o m p u t i n g o l a m ( o n - l i n e a n a l y t i c a lm i n i n g ) i n t e g r a t e so l a pw i t h d a t am i n i n g ,w h i c hm i n e sk n o w l e d g ei n m u l t i d i m e n s i o n a ld a t a b a s e so rd a t ac u b e o l a mm a k e sf u l iu s eo ft h ea d v a n t a g eo f o l a pa n dd a t am i n i n g ,a n do v e r c o m e st h es h o r t a g e so f t h e m i nt h i sp a p e r ,t h et e c h n i q u e o fv i s u a ld a t am i n i n gb a s e d - o no l a m c a p , i n t e g 伯:t et h et o o l so fd a t am i n i n gw i t ht h e t o o l so fv i s u a l i z a t i o n ,a n da l l o wu s e rj o i ni nt h ed a t am i n i n gp r o c e s s a l li na l l ,o l a m c a l li m p r o v et h eq u a l i t yo fd a t am i n i n ga n dh e l pu s e ru n d e r s t a n dt h er e s u l to fd a t a m i n i n g v i s u a l i z a t i o no fd a t am i n i n gc a nm a k eu s e r se v a l u a t ea n ds u p e r v i s et h ep r o c e s sa n d r e s u l to f d a t am i n i n g ,c a ni m p o r tu s e r s f o n d n e s si nd a t am i n i n ge a r l yt i m e st or e d u c et h e u s e l e s sr e s u l t s b e c a u s et h e r ea r e n ts u c c e s s f i l ld a t am i n i n gc a s e si nt h ep o l i c es y s t e m ,t h i sp a p e r p r o p o s ean e ws y s t e ma r c h i t e c t u r e ,i n t e g r a t ed a t am i n i n gw i t hp o l i c ed a t a , a n de s t a b l i s h m o d e l sa c c o r d i n gt ot h ep o l i c ev o c a t i o ns p e c i a l t y , m i n et h er u l e sa b o u tc 撇sa n d s u s p e c t sf r o mt h ed a t a b a s et or e a l i z et h e r e a ld a t am i n i n g b a s e do n “p d s s ”a i m i n ga tc a s e sa n dc r i m e sd a t a , t h i sp a p e ra d dd a t am i n i n ga n d v i s u a l i z a t i o na n d e x p l o r e d a t a m i n i n ga l g o r i t h m s ( i n c l u d i n g a s s o c i a t i o n r u l e s ,c l u s t e r , d e c i s i o nt r e e s ) b a s e do no l a m ,t h i sp a p c rd e s i g nav i s u a l d ms y a e mi n c l u d i n gd a t am i n i n g , v i s u a l i z a t i o na n do l a m i tc o m b i n eo l a pa n dd a t am i n i n g u s e rc a np a r t i c i p a t ei nd a t a m i n i n gp r o c e s ss oa st oc h a n g ei t sp r i m a r yp h a s e t h i sp a p e rd e s i g na n da c c o m p l i s has y s t e mo fd a t am i n i n gb a s e d - o no l a mw h i c h i n c l u d e s f o u r a s p e c t s :o p e r a t i o nr e q u i r e m e n t , s y s t e ma r c h i t e c t u r e ,f u n c t i o nd e s i g n , m o d u l er e a l i z a t i o n ;i n c l u d i n gt h r e em o d u l e s :d a t as o u r c e s ,d a t am i n i n g ,a n dd a t a v i s u a l i z a t i o n a c c o r d i n gt ot h es t u d yb a c k g r o u n d t h ev i s u a lc o m p o n e n t si n c l u d e a s s o c i a t i o nr u l e sv i s u a l i z a t i o n ,c l u s t e r i n gv i s u a l i z a t i o n ,d e c i s i o nt r e ev i s u a l i z a t i o n k e y w o r d :k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。d m ( d a t am i n i n 曲,v i s u a l i z a t i o n , o l a p ( o nl i n ea n a l y s i sp r o c e s s ) ,o l a m ( o nl i n ea n a l y s i sm i n i n g ) 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所 取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已 经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文 中以明确方式标明。本声明的法律责任由本人承担。 论文作者签名:蔓蠢查日期:亟略自f ! 眚 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权 l 【j 东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:趣导师签 期: ! 堕! 哟 山东大学硕士学位论文 第一章绪论 1 1 论文的研究背景 1 数据挖掘的现状和存在问题 随着信息技术和网络技术的飞速发展,人们在认识到信息重要性的同时,对信 息的使用程度和要求也越来越高。各行各业每年都有大量的数据要产生,而这些数 据本身并不能直接给人们带来效益,人们需要的是蕴藏在这些数据里的信息。如何 采用有效的方法,把这些有用的信息从大量数据中挖掘出来已成为很多业界人士研 究的热点,从而产生了数据挖掘这项新兴技术。 在民用商业系统和经济系统中,大量的数据通常利用数据库管理。无论在时间还 是空间意义上,传统的数据分析手段已经难以应付。这在需要对大量数据分析之后才 能做出正确决策的领域中( 如银行、商业、军事等) 是普遍存在的问题。对大量的数 据进行相关性信息挖掘,充分利用数据资源,找出有用的内在关联信息,可为领导层 的决策提供科学而直观的依据。从数据库中去发现人们感兴趣且具有高回报率的关 联知识,是国际上热门的开发技术,1 9 9 3 年己开始进行基于大型数据库系统的数据挖 掘、知识发现等方面的研究。 数据挖掘由于其自身具有的十分重要的理论及现实意义和广泛的应用前景,从 诞生开始就吸引了国内外众多科研工作者的青睐。经过十多年的努力,数据挖掘系 统已经从早期专注于挖掘算法的研究步入了应用阶段,数据挖掘技术与应用相结合 是今后数据挖掘发展的主要方向之一。然而,目前,国内的数据挖掘研究主要集中 在算法理论方面,或者是在国外软件基础上开发特定的应用,并且他们所开发的平 台互不兼容在这种情况下我们尝试开发一个可视化数据挖掘平台此平台以o l 蛐i 为基础,以可视化为特征,实现了数据预处理可视化,数据挖掘任务定义及执行的 可视化,数据挖掘结果显示的可视化。同时,本系统又是一个通用的数据挖掘平台, 它可以平滑地嵌入其它遵守o l ed bf o rd m 规范m 的应用中,这就解决了不同挖掘平 台的兼容问题对于分析人员来说,将数据挖掘整个过程进行可视化具有非常高的 山东大学硕士学位论文 价值和重要性。将抽象的信息以一种简明的形式呈现出来,从而给用户一个关于分 析结果总体情况的概念这样,也可以给分析人员更多的自信以指导下一步的工作。 针对这种情况,本文进行了大量的研究和实现工作,不但实现了信息的可视化, 而且可以在可视的基础上能够交互的选择显示的内容和范围。 2o l a p 和数据挖掘( d m ) 的互补性 另一方面,o l a p ( 在线分析处理) 和d m ( 数据挖掘) 都是建立在数据仓库上的分析 工具,在具体的应用中各有侧重:o l a p 分析虽然可给用户提供在不同角度、不同抽 象级别的视图,但是由于事先对用户需求的了解可能不十分全面深入,视图中缺乏 所应包含的维度,从不同的视图得到的结果可能并不相同,容易产生错误引导,因 此用户需要做大量的工作才能得出正确的结果,但是仍然可能遗漏数据间重要的模 式和联系,因此很难发现数据中隐含的深层次的信息;而蹦能够发现隐藏在数据间 的有用的信息,但在选定挖掘算法和任务后,就自动执行因而,o l a p 和d m 这两 种工具本身就具有互补性,这为它们的结合o l a m ( ( o n - l i n ea n a l y t i c a lm i n i n g ) 提 供可能,只有这样,在决策分析中它们才能发挥更好的作用 o l a p 的分析结果给d m 提供挖掘的依据,引导d m 的进行;而在数据挖掘的结果中 进行o l a p 分析,则o l a p 分析的深度就会扩展。这样用户可以灵活选择所需的数据挖 掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。 o l a p 与d m f h 于内在技术以及适用范围不同,在决策分析中必须协调才能发挥更 好的作用。针对这一特点子9 0 年代末提出了在线分析挖掘( o nl i n ea n a l y t i c m i n i n g ) 。o l a m 能集o l a p 技术和d m 技术的优点,克服它们各自的不足,是一种建立在 o l a p 和数据立方体基础上的新数据挖掘技术,允许用户介入知识发现处理过程即采 用半自动的知识发现方式从而能够有效地限制搜索空间加速搜索过程,并获取相关 的信息和知识。 公安办案面临的一个问题是:办案业务数据量大,在增加了网上办案系统以后, 办案效率有了很大的提高,但在大量的信息中,真正能辅助领导决策和进行分析预 测的信息却很少,因此只有从大量的数据中经过深层分析,获得有利于办案和案情 2 山东大学硕士学位论文 分析的信息,才能提高领导者的决策分析能力因此如果在公安决策支持系统中加 入数据挖掘的方法和技术,就能在这些业务数据中找到深层次的规律,有助于决策 分析。 原“公安决策支持系统”是建立在公安数据仓库和o l a p 的基础之上的,主要研究 了o l a p 数据库的创建和使用,o l a p 数据视图的前台展示等。 本论文的主要工作是研制开发一个基于o l a m 的v i s u a l d m 系统,它结合了可视化、 数据挖掘和o l a m 技术本系统在“公安决策支持系统”的基础上增加了数据挖掘和 可视化的内容,使o l a p 和d m 相结合,形成了一个较完整的可视化决策支持系统。在 该系统中,o l a p 与d m 做到了真正地有机结合,用户参与到整个挖掘过程中,彻底改 变“黑箱”挖掘的局面。 1 2 可视化数据挖掘的研究现状 数据挖掘可视化技术的概念首先来自于科学计算,科学计算可视化技术的发展 大大促进了数据挖掘可视化技术的研究而数据挖掘可视化继承和发展了科学计算可 视化它不仅包括科学计算数据的可视化而且包括工程数据和测量数据的可视化。 国际k d d 研究知名学者加拿大s i m o nf r a s t e r 教授h a nj i a w e i 就是最早从事这方面 的研究,主要包括:可视化分类、可视聚类分析、关联规则的在线分析挖掘等等,提出 了将o l a p 和d m 相结合的o l a i 技术和相应的理论框架。并指出按可视化数据的类型 和过程,将数据挖掘可视化分为四类:数据挖掘结果的可视化、数据挖掘过程的可视 化、源数据的可视化和交互式数据挖掘。 可视化的知识发现过程的导航就是利用图和图表使得知识发现人员来估计、监 视和指导知识的发现过程,包括降维、聚集、方向和层次的设定。在子空间法的基 础上可以得到高维数据的子集。在聚类分析的过程中可以得到高维数据集的可视化 描述。在知识发现的初始阶段利用可视化过程引导分析员确定进行知识发现的初始 条件,确定知识发现的过程,以减少计算复杂性和减少不感兴趣的模式集合。可视 化的查询是通过对象查询语言( o q l ) 与数据对象交互,语句的设定和修改利用可视化 山东大学硕士学位论文 组件使得查询更为简洁明了,并减少了出错的可能性。基于知识的可视化将知识发 现过程同可视化技术结合在一起,充分利用了人的视觉认知和形象思维的能力和计 算机的存储、计算和形象展示能力来实现知识发现。 目前国外称具有数据挖掘可视化技术的数据挖掘工具系统有:s a s 公司的 e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 。以及加 拿大s i m o nf r a s t e r 大学的d b m i n e r 。 在国内,1 9 9 3 年国家自然科学基金首次支持对数据挖掘领域的跟踪和研究,目 前相对比较成熟,但对o l a m 和数据挖掘可视化技术的研究开始不久。国内许多科研 单位和高等院校竟相开展数据挖掘可视化的基础理论及其应用研究,如复旦大学德 门软件公司开发了“天眼数据挖掘工具集” m i n e r 嘲,天眼智能化客户分析平台c i a s 和信息卡智能分析平台d m c a ,以及中科院的m s m i n e r 嘲,广泛应用于金融、通信和商 业等领域。 数据挖掘可视化技术还应用于网站数据( w e bs i t ed a t am i n i n g ) 的数据挖掘”1 、图 形数据的挖掘、视频图像数据的挖掘、生物信息或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的挖掘、文本的数据挖掘( t e x t u a lm i n i n g ) 乃至于综合多媒体数据的挖掘嘲等。 信息可视化和数据挖掘是两个可互为补充利用的相关研究领域,当信息可视化 作为数据挖掘的技术之一时,同其它技术相比有一个独特之处就是能极大地发挥用 户的主动参与性由于对数据进行了可视化,用户愿意进行探索( e x p l o r e ) 旧,在探 索过程中有可能发现意外的知识。 迄今有关数据挖掘可视化技术的理论、方法和工具方面的研究虽然己经取得了 相当大的进展,但尚未得到广泛的应用本文是可视化数据挖掘系统的一个尝试, 系统是在微软s q ls e r v e r 组件a n a l y s i ss e r v i c e s 基础上实现的,具有一定的实用 价值和创新性。 1 3 论文的研究内容及所作的工作 1 本论文在“公安决策支持系统”的基础上,增加了数据挖掘及其可视化的内 4 山东大学硕士学位论文 容。该项目针对犯罪嫌疑人和案件的分析业务,以数据挖掘、数据仓库和联机分析 处理技术为核心,开发了数据挖掘算法软件包( 包括关联分析算法、决策树算法、聚 类算法) ,并将其集成到数据挖掘服务器中。 2 本文研究了数据预处理和数据采集,数据挖掘任务的处理过程。 3 本文实现了包括直方图、饼图、平行坐标可视化、决策树等在内的具有在线 展现能力的可视化2 d 3 d 组件,并以该项目为背景对数据挖掘可视技术进行了广泛的 研究忉 4 本文研究了o l a m 的核心技术、基于o l a m 的数据挖掘系统结构t 分析了可视化 系统的业务需求、功能需求、体系结构等,设计了一个基于o l a m 的可视化数据挖掘 的平台 5 本文研究了关联规则的可视化展现方法、聚类的可视化展现方法、决策树的 可视化展现方法;面向像素的可视化方法以及针对公安决策支持系统中挖掘出特定 数据的可视化展现技术等。 1 4 论文的研究成果 本文结合课题背景,深入研究分析了基于o l a m 的可视化数据挖掘技术,主要涉 及到以下几个方面的工作: 1 关联规则可视化展现方法 本论文中,共描述了4 种关联规则展现方法:平行坐标可视法、直方图表示法、 饼图表示法以及面向像素可视化方法等这些方法大大地丰富了关联规则的可视化 展现,并加深了用户对关联规则的理解。 2 聚类的可视化展现方法 共有三种聚类可视化方法:平行坐标可视化、散点图可视化、基于a n a l y s i s s e r v i c e s 的微软聚类挖掘模型的研究 3 决策树的可视化展现方法 基于a n a l y s i ss e r v i c e s 的微软决策树挖掘模型的可视化研究。 5 山东大学硕士学位论文 4 0 l a m 弓i 擎的结构旧 0 l a m 弓i 擎是在线分析挖掘技术的核心部件,根据0 l a p 与d m 技术特征,探讨t o l a m 引擎中0 l a p 与d m 的两种结合方式和它们各自的适用范围为了获得效率最佳,在具 体的实现时,应根据需要选择其中某一种结合方式。 5 基于0 l a m 的可视化数据挖掘系统 本论文设计了一个基于o l a m 的可视化数据挖掘系统结构,并对它进行深入研究。 i 5 论文的组织结构 本文的组织结构如下: 第一章绪论。简要介绍了本文的课题背景、当前的研究现状、研究内容和本论 文的组织结构。 第二章可视化数据挖掘技术。简要介绍了可视化技术的概念、方法、发展和应 用,数据挖掘技术的概念、过程、任务、方法,以及可视化技术与数据挖掘技术结 合而成的数据挖掘可视化技术及其应用。 第三章从业务需求、功能需求、体系结构、功能设计、模块实现等方面设计了 了一个基于0 l a m 的可视化数据挖掘平台- - v i s u a l d m 系统。 第四章详细介绍了v i s u a l d m 系统的数据预处理模块和数据挖掘模块的实现 第五章详细介绍了v i s u a l d m 系统中可视化组件的设计与实现。结合数据挖掘技 术。详细地介绍我们针对v i s u a l d m 中案件和嫌疑人数据进行展现所需的各种可视化 组件的设计和实现,主要包括关联规则可视化、聚类可视化和决策树可视化组件的 总体结构、设计、具体实现等。 第六章介绍v i s u a l d m 系统用到的关键技术。 第七章结束语。对论文的工作进行总结,讨论相关技术发展以及进一步的工作 6 山东大学硕士学位论文 第二章可视化数据挖掘技术和0 l 删技术 可视化数据挖掘技术是可视化技术和数据挖掘技术的有机结合,是数据挖掘技 术发展的必然。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉 及人机交互技术等多个领域。 随着数据量的递增和数据信息的复杂化和多元化,通过数据挖掘算法挖掘出的 信息可能不易理解或不一定正确,因而提出了使用可视化的数据挖掘技术,即利用 人们容易理解的图形、图表等直观的表现方式来表示复杂的数据信息,或要求用户 参与到数据挖掘过程中,通过设置参数控制挖掘进度和质量,从而能够加深用户对 复杂数据信息的理解和保证数据结果信息的正确性。 数据可视化是指对大型数据库或数据仓库中的数据的可视化,其基本思想是将 数据库中的每一个数据项作为单个图形元素表示,大量的数据集构成数据图像,同 时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而 对数据进行更深入的观察和分析数据可视化是数据分析过程中必不可少的一个阶 段 2 1 可视化数据挖掘 2 1 可视化数据挖掘的定义 可视化数据挖掘是k d d 过程中的一个特定步骤,提供了用户与计算机之间的一个 通讯接口,以便帮助用户从数据库或数据仓库中发现未知的、潜在的、有使用价值 的信息的方法、理论和技术嘲,可视化数据挖掘可与k d d 过程中的数据挖掘和模式评 估相关,先通过挖掘算法从数据库或数据仓库中挖掘出信息,然后以容易理解的形 式通过人机接口显示出来,从而使用户对挖掘结果有更清楚的认识,也可以是用户通 过人机接口与数据挖掘过程充分交互,实时观察挖掘出的信息,以便及时纠正错误 的数据模式。 山东大学硕士学位论文 2 1 2 数据可视化的主要技术 数据的可视化方法很多,如几何方法,基于图表的方法,面向像素的方法, 等级方法,以及以上任意几种方法的混合使用“。可视化的方法是把隐藏于大规模 数据集中的物理信息转化为有组织结构表示的视觉信号集合的方法“,如空间几何 形状、颜色、亮度等。几何技术是数据的几何变换和投影,通过映射将数据和二维 或多维空间的几何形状联系在一起;基于图标的技术也称为图标显示技术,通过将 多维数据项映射到一个图标内,来将数据的数值作为图标的特征进行显示1 面向 象素的技术,把数据项的每个属性值表示为彩色象素并分开的显示在各数据所对应 的窗口,这种方法又可分为二:查询依赖和非查询依赖的方法。 目前常用的可视化技术根据绘制方法分有:几何映射法、色彩法、面向像素法和 光学法。 多维可视化的工具包括柱形图和条形图,分布图和直方图,箱式图和折线图、 散点图、饼图,此外还包括层次和地形可视化工具:树型可视化、地图可视化 1 几何映射技术 平行坐标法( p a r a l l e lc o o r d i n a t e s ) “”是最早提出的以二维形式表示n 维空间的数 据可视化方法之一,它的基本思想就是将n 维数据属性空间用n 条等距离的平行轴 映射到二维平面上,每条轴线对应一个属性维,坐标轴的取值范围从对应属性的最 小值到最大值均匀分布,这样,每一个数据项都可以用一条折线段表示在n 条平行 轴上由于平行坐标轴将数据值按其变化范围均匀分布,数据的分布一目了然,等 数据值的点自然形成一类 2 色彩法“” 色彩法是用色彩或灰度来描述不同区域的数据值的方法。传统的几何方法如点 图,线图,柱状图,饼图等。数据分析的目的不同,采用的方法也是不同的 ( 1 ) 散点图它可能是数据挖掘中用的最广泛的可视化工具它帮助人们分析数 据聚类,观察数据的分布,有无奇异点。对于只有两个或三个维的数据,可采用平 面的或立体的表现方式。而对于有多个属性的数据集,要用到离散点矩阵“”。 山东大学硕士学位论文 3 。面向象素技术 面向象素技术的基本思想是把每个数据值映射为一个彩色象素。由于一个象素 代表一个数据值所以这种技术可以同时可视化大量数据。 面向象素技术分为独立于查询的可视化技术( q u e r y - i n d e p e n d e n tp i x e l o r i e a l e d t e c h n i q u e s ) “”和基于查询的可视化技术( q u e r y d e p e n d e n t p i x e l - o d e n t e d t e c h n i q u e s ) 4 其它可视化技术 除了以上几类数据可视化技术,目前还有分层可视化技术、基于图表的可视化 技术和混合可视化技术等分层可视化技术把数据分成不同的层次,并在不同的层 次上显示。主要用来可视化多变量函数。这类技术包括n - v i s i o n ,t h ed i m e n s i o n a l s t a c k i n g ,t r e e m a p s ,c o n et r e e s 和i n f o c l i h e 等技术“”。基于图表的可视化技术 的主要思想是用特定的布局算法、查询语言以及抽象技术来有效地把数据显示成一 个大的图表,从生成的图表中发现信息。混合可视化技术就是把各种可视化技术结 合到一起,使各种技术相互补充,更有效的来表示数据。 2 1 3 可视化数据挖掘的分类 可视化数据挖掘分为如下三类: 1 数据挖掘结果的可视化嘲 对数据库中的数据通过算法进行挖掘后,把结果信息用可视化形式表示出来。 如果用户对挖掘的结果不满意,可以重新进行挖掘和可视化,最终形成知识可视 化可用柱状图、条形图、时间序列图、饼图、高低区域图等表示决策树、关联规则、 簇、孤立点、概化规则等目前,这是最为常见的一种形式。显然,整个过程简单 易懂,实现起来也比较容易,但挖掘出的结果是否正确难以保证,这是由。黑箱子” 挖掘造成的。 2 数据挖掘过程的可视化 用可视化的形式描述数据挖掘过程,即挖掘过程和可视化过程同时进行。随着 9 山东大学硕士学位论文 挖掘的进行,将挖掘出的中间结果和最终结果实时显示出来,如果用户对挖掘的模 式不满意,可以更改、调整系统参数及停止挖掘过程,然后再进行挖掘,直到满意 为止。”。这个过程中,用户可以观察数据从哪里抽取,怎样抽取、清理、集成、预 处理和挖掘的,挖掘的结果又放在哪里,如何表现挖掘结果等等,并要求挖掘过程 与用户保持充分的交互 3 源数据的可视化 在没有执行挖掘算法之前直接可视化源数据源数据可视化是展示源数据是 如何分布的。通过可视化的人机交互与操作,用户完全能够在搜索空间中控制整个 搜索过程,并从中获取模式,最终形成知识。 4 挖掘模型的可视化矧 挖掘模型的使用克服了重复挖掘带来的时间浪费问题,基于任务建立的数据挖 掘模型可以永久使用,或者对挖掘模型进行参数调整之后重新应用。这涉及到如何 快捷建立高效的数据挖掘模型和数据挖掘模型快速维护调整的问题。 2 1 4 可视化数据挖掘的应用 可视化数据挖掘应用范围比较广泛,主要应用于金融、电信、证券、商业、市 场营销、政府、军事等部门在这里我们把它用在案件和嫌疑人的分析上御 公安系统在办案和处理日常事务的过程中积累了大量的数据,这些是操作型数 据它是面向事务驱动的,如果能在这些数据中发现趋势、找到发案规律,就能够 有助于今后的办案及案情分析。整个的公安业务数据可以分为两大类:案件数据和 嫌疑人数据。如果对这些数据进行分析、整理、加工后,用直线、曲线和折线、点、 图、树等图形结合相应的数据挖掘算法表示出案件的发案趋势和规律,嫌疑人的特 点及规律,并根据这些规律制定出相应的处理方案,定能为领导和侦察员提供强有 力的信息统计和分析的能力,为破案提供了辅助决策手段。 山东大学硕士学位论文 2 2 在线分析挖掘0 l 棚 z2 1 在线分析挖掘0 l 棚的出现 在线分析挖掘( o l a m 是o l a p 技术与硎技术相结合的产物,又称为o l a pm i n i n g 。 o l a m 能集o l a p 技术和d m 技术的优点,克服它们各自的不足,是一种建立在o l a p 和数 据立方体基础上的新数据挖掘技术,允许用户介入知识发现处理过程,即采用半自 动的知识发现方式,从而能够有效地限制搜索空间,加速搜索过程,并获取相关的 信息和知识。 一 o l a f 与d m 的有机结合意在使二者能在一个统一的理论框架下协调工作并结合 可视化、多媒体等技术将研究和应用推向更高、更深的层次。o l a m 是o l a p 与数据 挖掘相结合的产物,它兼有o l a p 多维分析的在线性、灵活性和数据挖掘对数据处理 的深入性,是数据仓库( 数据库) 应用工具未来发展的方向渊 o l a m 集o l a p 与d m 技术所长,克服二者的不足,是一种建立在0 l a p 和数据仓库 基础上的新的挖掘技术,将更能适应实际的需要。o l a m 出现的原动力主有以下四点 汹】 ( 1 ) 跚工具需要的数据是一些经过净化,集成处理的数据,通常这种处理过程 是比较昂贵的,而数据仓库( d a t aw a r e h o u s e ) 作为o l a p 的数据源存储的就是这样的 数据它能为o l a p 提供数据,当然也可以为d m 提供数据这为o l a p 和d m 结合提 供了可能。 ( 2 ) d m 作为数据分析工具的一种不是孤立的也必然要与其他的工具( 如o l a p 工具) 发生联系因此,考虑到如何最大限度地利用这些现成的工具,也是o l a m 研究之初所关心的问题明 ( 3 ) 成功的数据挖掘需要对数据进行探索性( e x p l o r a t o r y ) 分析,如挖掘所需的 数据只是一部分、一定范围的数据因此对多维数据模型的切片、切块、下钻等操 作同样适用于d m 的过程中也就是说可以将d m 建立在多维模型的基础之上。 基于o l a m 的交互式数据挖掘系统是交互式数据挖掘研究的一个新的方向,它采 山东大学硕士学位论文 用多维模型将现有的交互式研究统一在一个基础框架之下,遵循该框架能够构建一 个用户友好的交互式数据挖掘环境。 2 2 2o l 柚引擎的结构 如前所述,在决策分析时,只有o l a p 和d m 的有机地结合,充分利用o l , p 和d l 的优 点,并克服它们的不足,才能获得最佳的效果。那o l a m 6 p 的o l a p 和d m 怎样结合才能 发挥最佳的效果呢? 在此讨论硬种o l k t i 【的体系结构,如图2 2 所示。 ( a ) 图2 2o l a m 引擎的结构 ( b ) 图2 2 ( a ) 中所示结构是o l a m 引擎的一种结构,在此结构中,o l a p 和d m 相结合 的方式是先进行o l a p ,然后对o l a p 分析的结果进行数据挖掘由图2 2 ( a ) 可知,通 常源数据都存放在数据库或者数据仓库中,应对数据库或数据仓库中的数据经过数 据清洗和集成,形成数据立方体,这样o l a p 引擎就可对数据立方体进行在线分析, 并将分析结果信息送到数据挖掘部件,通过选择挖掘算法进行挖掘处理,最后将结 果由用户接口返回给用户显然,这种结合方式中o l a p 与d m 只是简单的结合由 山东大学硕士学位论文 于o l a p 不适用于深层的数据分析,而数据挖掘又只对o l a p 分析的结果进行挖掘, 这样可能导致很多有用的信息在o l a m 引擎中丢失,因而影响挖掘效果。另外,在 o l a m 引擎中,o l a p 与d m 是按顺序进行的,必须先要进行o l a p 才能进行d m ,所以 其时间开销比单独执行o l a p 与叫的时间要多一些。但是这种结构实现起来比较简 单。 图2 2 ( b ) 所示的是o l a m 引擎的另外一种结构,在这种结构中,o l a p 与d m 是交 互式的结合。由图2 2 ( b ) 可知,o l a p 与d m 是同时进行的,o l a p 对数据立方体中的 数据进行在线分析,而数据挖掘通过挖掘算法直接对数据库或数据仓库进行数据挖 掘,也可以从数据立方体中进行挖掘。o l a p 分析得到的结果可以送到d m 中去,用 以指导数据挖掘过程,并对数据挖掘结果进行预测分析,真正做到o l a p 与蹦的有 机结合,允许用户加入到整个的数据挖掘过程中,有效限制搜索空间,加速搜索过 程。在该结构中,由于数据挖掘直接对源数据进行挖掘而不需先进行o l a p 步骤,所 以在挖掘过程中不会丢掉能够挖掘出的有用信息,而且o l a p 与d m 是同时进行的, 因而时间开销与单独执行o l a p 与阴所花的时间相差不大,但是要实现这种技术比 较复杂。 由上述可知,总体上讲,第二种结构比第一种结构要优越,但是在实际中各有 优点。对于数据量不大,而且数据结构本身比较简单,可以用第一种结构相反, 如果数据规模比较大且结构复杂,就应该选用第二种结构。本系统因为数据结构简 单,应用了第一种结构。 山东大学硕士学位论文 第三章v i s u a l d n 系统分析与设计 3 1v i s u a l d i i 系统需求分析 公安机关办案流程管理暨执法监督系统是公安业务的重要模块,所有的案件和 嫌疑人信息都由这个系统管理。由于原系统提供传统的插入、删除、修改、查询、 统计功能,这些只能反映具体业务的情况,缺乏对业务趋势的分析功能,无法给领 导提供决策支持帮助,所以我们设计了公安决策支持系统和v i s u a l d m 系统。 在办案过程中积累起来的数据是操作型的数据,这些数据经过清洗转换之后, 装载入数据仓库,在分析服务器中建立了o l a p 立方体,原系统对这些数据进行了多 角度、多层次的分析功能,并将分析结果以多种形式展现给用户,支持管理决策者 进行决策。 我们还应该看到这些是远远不够的,数据挖掘能够分析数据深层次的规律,挖 掘出潜在的模式,以助于决策者的分析,所以我们增加了数据挖掘的模块。但是单 纯的数据挖掘也是不可行的,因为信息部门的决策者希望看到的信息无疑应该是清 晰和一目了然的,数据的视图可采用曲线图、直方图、饼图等表示方式。但有时 这些传统的数据表示方式并不一定能向信息决策者展示信息的方方面面,用户所能 看到的只是一些趋势性和数据间的简单比较,而且显示后的视图是死的,不能改变。 近年来,随着可视化技术的开发,用很少的可视化视图就能够取代原来上百页表格 式的报表。因此寻求好的数据视图表现方式并提供人机交互是最佳的选择。 选择合适的数据挖掘工具也是很重要的一部分,这有赖于当前分析的业务问题, 包括两大类工具:有监督和无监督的数据挖掘。 因此我们根据公安业务的需求结合数据挖掘算法的特点,设计了关联规则可视 化、聚类可视化和决策树可视化,并且给出了挖掘结果的多种表示方式。 基于以上的分析可知,增加可视化数据挖掘模块,是现代公安决策支持系统的 新需要。 山东大学硕士学位论文 3 2v i s u a l d m 系统业务分析 数据挖掘工具能解决复杂的业务问题,这些工具的核心由一些特定的任务组 成为了使用数据挖掘技术,首先要将业务问题转换成一个或者多个任务。数据挖 掘工具的输出是特定种类的模型。也可以将这些模型看成是解决某个问题的从业务 数据集中得到的一组规则或者模式。可以利用这些模型来分析数据和预测趋势,数 据挖掘工具一次只能解决一个问题或者任务如分类、估计、预测、关联分析、聚 类和细分,这样往往需要使用多种数据挖掘工具来解决业务问题。 估值和分类很相似,在估值任务中,每个对象都和一个连续值关联在一起。例 如电信公司会给每个客户分配一个生命周期价值,信用卡公司会估计客户一年的花 费,我们可以将估计得到的值根据预先定义好的区间转换成种类值。例如可以将生 命周期价值转换到低、中、高三类。 大多数的数据挖掘技术都可用于预测1 ,虽然它往往和分类和估值联系在一起。 预测往往用于决定一个事件在将来是否会发生在分类的时候,分类和预测之间的 关系是很微妙的。我们可以使用分类工具来创建一个模型对已知的嫌疑人数据进行 分析,以找到那些特征的人犯罪率高 关联分析用于鉴别哪些实体或者元素很可能在某些情况下共同出现。可用于嫌 疑人特征如身份、学历等等之间关系的分析 聚类和细分是将目标对象分成一些彼此相似子群体的过程”。我们可以将嫌疑 人进行分组,以找到他们共同特征。针对不同类型的嫌疑人采取不同的防范和控制 措施。 利用分类、聚类可以对案件或者嫌疑人进行分类、对异常数据进行监测:利用 关联分组发现嫌疑人特征数据之间的关系;还可以利用分类对犯罪进行预测,以进 行有效的预防 这里可以使用多种的数据挖掘工具,对业务数据进行分析和预测,以助于办案 和支持领导者的决策。 山东大学硕士学位论文 3 3v i s u a l d i 系统平台分析 根据公安决策支持系统的数据特点和分析需求,我们应用了多种可行的数据挖 掘算法,结合合适的可视化方法,形成了v i s u a l d m 系统。 本系统中,采用s q l s e r v e r2 0 0 0 作为数据库服务器,采用m sa n a l y s i ss e r v i c e s 为开发应用平台,利用a n a l y s i ss e r v i c e s 可以方便的开发三层c s 结构的数据挖 掘应用程序。a n a l y s i ss e r v i c e s 作为数据挖掘服务器,它在此体系中是一个中间 层的服务器。a n a l y s i ss e r v i c e s 系统包括a n a l y s i ss e r v e r 和p i v o t t a b l e 。分析 服务器通过o l ed b 从数据源获取数据。在我们的系统中,挖掘数据可以来自各种各 样的数据源,可以是数据库,也可以是文本文件或者电子表格等等,通过o l ed b , 挖掘系统在a n a y s i ss e r v i c e s 里对各种数据源拥有统一的数据视图。同时还可以 对数据源的数据应用决策树和聚类挖掘模型进行预测。 因原系统在v b 平台上实现的,所以本系统模块采用v b + o p e n g l 技术,进行前台 可视化组件的设计和实现,数据算法大部分使用v c ,形成d l l 文件,在v b 中调用 决策支持对象( d e c i s i o ns u p p o r to b j e c t ,d s o ) 可以使开发人员用来开发分析服 务器端的应用程序,即在分析服务器上建立挖掘模型、更新挖掘模型、删除挖掘模 型,这些挖掘模型存储在分析服务器上,客户端应用可通过o l ed bf o rd m 进行调 用这里用d s o + v b 技术对挖掘模型进行操作和展示 3 4v i 8 u a i 叫系统体系结构 1 本系统o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论