(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf_第1页
(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf_第2页
(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf_第3页
(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf_第4页
(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)可视化数据挖掘技术研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 , f 可视化一直是计算机领域的研究热点,随着数据挖掘应用的发展。人们对数 据挖掘的可视化要求越来越高,数据挖掘可视化是目前数据挖掘研究的一个重要 方面。可视化数据挖掘方法目的就是要很好利用了人类的这种对于可视化形式下 模型和结构的获取能力,并且对这个结果进行分析解释。可视化数据挖掘已经证 明在探索性数据分析中有很大的价值,同时在处理大型数据库中也有很好的潜 力。y 木文对可视化数据挖掘包含的内容以及重要性进行了阐述,同时提出了一些 u j 视化力法。具体上作如卜: 1 ) 总结了可视化数据挖掘主要应用的四个方面:数据准备阶段的可视化、 模型生成阶段的可视化、结果呈现阶段的可视化、数据挖掘流程的可视 化,探讨了可视化在数据挖掘中的重要性。然后重点阐述了结果呈现阶 段模型可视化的重要性,并且提出了模型可视化中两个重要的因素:模 型的理解和模型的信任。 2 ) 针对数据挖掘中三个重要的方面:关联规则、分类、聚集,分别提出了 可视化的模型。其中包括关联规则中单维和多维关联规则的可视化;分 类中决策树和贝叶斯分类的可视化;聚集中层次聚集和其他类型聚集的 可视化。 3 、虻现了一个数据挖掘夏鎏业丕统3 给p 。实现了对数据挖掘各个方面的可 丰见化,i 州时v a p 采用构件的设计方法,利用插件的概念增强了系统的可 扩展性,i 殳计并实现了基于x m l 的模型表示方法,使得v a p 能够和预言 模型系统集成,并能在翌:三磁下发布。 关键词:可视化数据挖掘、数据挖掘模型可视化、模型的信任、模型的理解、构 件 v + ,一 a b s t r a c t t h ev i s u a ls e n s e sf o rh u m a n sh a v eau n i q u es t a t u s ,o f f e r i n gav e r yb r o a d b a n d c h a n n e lf o ri n f o r m a t i o nf l o w v i s u a la p p r o a c h e st o a n a l y s i sa n dm i n i n ga t t e m p tt o t a k ea d v a n t a g eo fo u ra b i l i t i e st op e r c e i v ep a t t e r na n ds t r u c t u r ei nv i s u a lf o r ma n dt o m a k es e n s eo fw h a tw es e e v i s u a ld a t am i n i n g t e c h n i q u e sh a v ep r o v e n t ob eo f h i g h v a l u ei ne x p l o r a t o r yd a t aa n a l y s i sa n d t h e ya l s oh a v eah i g hp o t e n t i a lf o rm i n i n gl a r g e 口,视化数据挖掘技术研究及实现 复且大学硕j :学位论文 摘要 d a t a b a s e s i nt h i sw o r k w ed e s c r i b et h ec o n t e n ta n di m p o r t a n c eo fv i s u n ld a t am i n i n ga n d p r o p o s es o m e n e wv i s u a ld a t am i n i n g t e c h n i q u e s h e r e a r et h ed e t a i l so fo u rw o r k : 1 ) s u m m a r i z et h ef o u ra s p e c t so fv i s u a ld a t am i n i n g :v i s u a l i z a t i o no fd a t a p r e p a r a t i o n s ,v i s u a l i z a t i o n o fm o d e l d e r i v a t i o n ,v i s u a l i z a t i o no fm o d e l v a l i d a t i o n w ee l l l 曲a s i z et h ei m p o r t a n c eo fv i s u a ld a t am i n i n g t h e nw e g o o nd e s c r i b et h e i m p o r t a n c e o fm o d e lv i s u a l i z a t i o na n db r e a kt h ed r i v i n g f o r c e si n t ot w ok e ya r e a s :u n d e r s t a n d i n ga n dt r u s t 2 ) p r o p o s es o m em o d e lv i s u a l i z a t i o nt e c h n i q u ei nt h r e ei m p o r t a n td a t am i n i n g f i e l d s :a s s o c i a t i o n ,c l a s s i f i c a t i o n ,c l u s t e r i n g i t i n c l u d e st h ev i s u a l i z a t i o no f s i n g l e a n dm u l t id i m e n s i o na s s o c i a t i o n r u l e s ,d e c i s i o nt r e e sa n ds i m p l e b a y e s i a nc l a s s i f i e r , h i e r a e h i c a lc l u s t e r i n ga n do t h e rk i n d so f c l u s t e r i n g 3 ) i m p l e m e n t av i s u a ld a t am i n i n gs y s t e m ( v a p ) e v e r ya s p e c to fv i s u a ld a t a m i n i n g a r e i m p l e m e n t e d i n z pt h e e x p a n s i b i l i t y i se n h a n c e d b y t h e a d o p t i o no fc o m p o n e n td e s i g n w ed e s i g na n di m p l e m e n tt h ex m l s t y l e p r e s e n t a t i o no fm o d e la n di n t e g r a t et h ev a ps y s t e mw i t hp r e d i c t i o ns y s t e m a n dt h em o d e l sc a nb er e l e a s ev i an e t w o r k k e yw o r d s :v i s u a ld a t am i n i n g ,v i s u a l i z i n gd a t am i n i n gm o d e l s ,t r u s t i n gt h em o d e l , u n d e r s t a n d i n g t h e m o d e l ,c o m p o n e n t n r 戳化数据挖掘技术研究及盛现4 复旦大学硕士学位论文 第一章引言 1 1 立论背景和研究意义 第一章引言 当前,在各种企业、商业领域中的交易记录与财务报表,科学研究领域所收 集的数据( 例如,气象卫星传回的气象图象) ,其数据规模经常在数十兆( m ) , 甚至上干兆( g ) 。现代计算机技术与数据库技术,己可以支持存储并快速检索 这样规模的数据库。这意味着已具有将这样的“数据洪流”转换为“整齐有序” 但州“堆积如山”数据集合的能力。 但是,面对“堆积如山”数据集合,无论在时间意义上还是在空间意义上, 传统的数据分析手段还是难以应付,人们无法理解并有效的使用这些数据,由此 导致越来越严重的“信息饥荒”。另外,传统的数据分析方法( 例如,统计) ,只 能获得这些数据的表层信息,而不能获得数据属性的内在关系和隐含的信息。这 样,快速的数据产生和拙劣的数据分析方法之间形成了鲜明的对照,这需要新的 技术来“智能地”和“自动地”分析这些原始数据,以使消耗大量财力与物力所 收集与整理的宝贵的资源一数据得以利用。这就是数据挖掘( d a t am i n i n g ) 技术 产生的背景。 数掘挖掘指的是从大量的数据中提取人们感兴趣的知识,这些知识是隐含 的、事先未知的、并且潜在有用的信息 f a y y a d 9 6 1 。数据挖掘是目前国际上数掘 库和信息决策领域的最前沿研究方向之,引起了学术界和工业界的广泛关注。 一些国际上高级别的工业研究实验室,例如i b ma l m a d e n 和g t e ,众多的学术 单位,例如u cb e r k e l e y ,都在这个领域开展了各种各样的研究计划。研究的主 要目标是发展有关的方法论、理论和工具,以支持从大量数据中提取有用的和让 人感兴趣的知识和模式。 可视化数据挖掘对于数据挖掘应用的推广有着理论和应用上的重要意义。一 份最近的g a r t n e r ( w w w g a r t n e r c o m ) 报告中列举了在今后3 5 年内最重要的五 项关键技术,其中数据挖掘和人工智能排名第一。同时,这份报告将数据挖掘列 入今后5 年内公司应该投资的1 0 个新技术领域,数据挖掘具有良好的发展和应 用前景。随着数据挖掘算法研究的成熟,市场重心开始从算法研究逐渐向数据挖 掘戍用转移这个时候可视化数据挖掘对于增加数据挖掘的交互性、友好性都有 很前要的意义。同时利用可视化技术,就可以形成非常友好的界面,这样数据 挖掘将不再局限在某些专家中了,利用可视化的理念开发的系统能够适用于更多 的人群,而不是只为专家所使用,对于数据挖掘的应用推广具有很重要的作用。 町桃化数捌挖掘技术研究厘实现5 复旦大学硕士学位论文 第一章引言 1 2 当前研究状况 1 2 1 数据挖掘和知识发现 对数掘挖掘( d a t am i n i n g ) 的定义有两类:广义的和狭义的。 广义的定义为数据挖掘即数据库中的知识发现( k n o w l e d g ed i s c o v e r y i n d a t a b a s e ,k d d ) ;即从大规模的数据库中抽取非平凡的、隐含的、未知的、有 潜在使用价值的信息的过程 f a y y a d 9 6 。 狭义的理解认为数据挖掘是k d d 的一个步骤。k d d 为从数据中识别正确的、 新颖的、有潜在使用价值的、最终可理解的模式的非平凡的过程i f p s 9 6 1 。它包 括数据选取、数据预处理和数据清洗、数据挖掘、知识评估等多个步骤。数据挖 掘是其中对经过预处理的数据进行处理,抽取知识的过程。 但是无论是哪种定义,有以下方面的共识: - 数据挖掘的对象是大规模的高维数据,这些数据可能来自于数据库、数 扳:仓库或者其它数掘源( 如科学数据) ; - 数据挖掘的结果是准确的、有用的、未知的、可解释的“知识”( 有可能 是近似的) ,知识可能以各种形式存在:概念、规则、模式、约束等: - 数掘挖掘的目的是支持决策分析,由于决策分析往往有时间要求的( 如 实时的数据流) ,所以数据挖掘过程必须高效。 随着对于数掘挖掘的需求的增多,越来越多的研究者投身于该领域的研究。 1 9 8 9 年到1 9 9 4 年召开了四届“数据库中的知识发现”研讨会( w o r k s h o po n k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。该研讨会自1 9 9 5 年开始演变为“知识发现与 数掘挖掘”学术年会( c o n f e r e n c eo nk n o w l e d g ed i s c o v e r ya n dd a t a m i n i n g ) 。从 1 9 9 9 年丌始,a c m 组织成立s i g k d d ( s p e c i a li n t e r e s tg r o u po nk d d ) 。随着数 掘挖掘研究者的增加,现在每年包含数掘挖掘或者知识发现主题的学术会议超过 十个。参加者涉及人工智能、统计、数据库等多个领域。 随着数据挖掘技术的成熟和应用的推广,很多软件提供商推出了相应的数据 挖掘软件包、系统或者解决方案。s a s 、s p s s 、i b m 、o r a c l e 、m i c r o s o f t 等软件 公司都开始涉足数据挖掘市场。 虽然数据挖掘的研究已经开展了十几年,但是在数据挖掘应用中遇到的很多 问题仍然等待解决。例如: 一 大规模数据的处理数据挖掘要处理的对象可能是g b 级甚至t b 级的数 j 恍化数据挖掘技术研究驶实现复旦大学硕士学位论文 第一章引言 据; 复杂数据的处理数据的形式可能不规则,数据的维数可能很高,数据的 某些值可能缺失,数据的质量不能保证: - 高效地处理存在于数据库系统或者数据仓库中的数据; - 数据挖掘任务的自动化执行: 一 不嗣数抓挖掘操作、技术的协同工作: - 数据挖掘操作的模块化、标准化。 根据这些问题,当前,数据挖掘的研究主要侧重于以下几个方面: - 新的数据挖掘操作随着应用的改变,对数据挖掘操作提出一些新的要 求。例如,局外数据发现、例外规则的发现等: 对于超大规模数据的高效挖掘很多研究者利用采样、统计、索引和人工 智能等技术来加速对于大量数据的挖掘: - 对于复杂高维数据的挖掘很多研究者致力于缺失属性数据的挖掘、不规 则数据的挖掘,还有大量的研究者进行高维数据挖掘的研究、多媒体数 删挖抛的研究; 数据挖掘工具和数据库管理系统、o l a p 工具、数据仓库系统的集成大 量数据存放在数据库系统或者数据仓库中,在这些系统中已经存在了很 多数据管理工具,利用这些工具可以加速数据挖掘的速度,减小数据移 植的代价。 特定环境下的应用在空间数据库、多媒体数据库、面向对象数据库、 w e b 数据库中,数据形式、质量都和传统数据库不同,一些数据挖掘方 法是针对这些数据库而开发的; 数据挖掘的标准化数据挖掘包括很多操作,技术众多。一些研究者提出 了数据挖掘操作的标准。例如,m i c r o s o f t 提出了o l e d bf o rd a t a m i n i n g i n c 0 0 】、d m g 组织提出了p m m l u r l c 、i b m 的q u e s t 研究 小组丌发了分类和关联规则挖掘的基准测试数据 u r l a l 。 数据挖掘操作的集成很多研究者将数据挖掘算法综合成为集成工具。例 如,d b m i n e r 在m i c r o s o f to l a ps e r v i c e s 的基础上集成了聚类、分类、 关联规则发现、时序模式发现等四个操作;i b m i n t e l l i g e n tm i n e r 则集成 呵视化数据挖掘技术研究及实现 复旦大学硕士学位论文 第一章引言 了从数掘准备、数据挖掘到挖掘结果解释的一系列操作。 1 2 2 可视化数据挖掘 可视化数据挖掘使用可视化技术让数据挖掘者和分析师来评估、监控和指导 数据挖掘的输入、结果和整个过程。它能够在数据挖掘的早期引入用户的认识、 偏好,从而降低整体的计算复杂度,并且减少无意义结果的数量。 在数据的可视化方面,研究了将数据库或者数据仓库中的数据,从不同的抽 象层次或者将属性、维度进行联合之后,以各种不同的呈现形式展现在用户的面 前 h p j 0 0 【a d 9 9 c h r 9 6 】,其研究内容包括对于各种不同类型的数据的可视化 t u f 9 0 【a s 9 9 ;对于各种高维数据的可视化 h p j 0 0 c m 9 6 】 i d w 9 9 ;各种交互 式的数据可视化方法研究 s d t s 9 5 】 y m e 9 9 d h t 9 8 。 存结果可视化方面,对于不同种类的知识,也分别提供了一些知识可视化表 现的形式 k b d 9 8 a d v 】【q u e s t m i n e s e t 。目前研究的关键点是可视化模型的表 达方式、交互性、整合性方面的改进。 在过程的可视化方面,已经形成了一些产品 j n 0 0 s j c a l w 9 9 s p s s ,将 数据挖掘从数据抽取、数据整理、数据挖掘、算法选择、结果的存放和展现的整 个过程直观的体现了出来。目前研究的重点是对整个流程统一有效的表达以及和 c r i s p _ d m 方法的结合。 在交互式的可视化数据挖掘领域中,通过将可视化技术有机的结合在数据挖 掘的算法中,能够提供给用户充分的互动性 m e v 9 6 1 。例如,在分类方面已经提 出的有一个p b c 算法 m c e 2 0 0 0 1 。交互式可视化数据挖掘是难度最大的领域, 打拜究的莺点还在于如何利用可视化技术将人类的特长与计算机的特长有机结合 越来。 1 3 本文工作 本文的主要工作如下: 1 ) 总结了可视化数据挖掘主要应用的四个方面:数据准备阶段的可视化、 模型生成阶段的可视化、结果呈现阶段的可视化、数据挖掘流程的可视 化,探讨了可视化在数据挖掘中的重要性。然后重点阐述了结果呈现阶 段的模型町视化的重要性,并且提出了模型可视化中两个重要的因素: 模型的理解和模型的信任。 n j 桃化数姑挖抛技术哪f 巍鼓实现 - 8 复里大学硕士学位论文 第一章引言 2 ) 针对数据挖掘中三个重要的方面:关联规则、分类、聚集,分别提出了 一些可视化的模型。其中包括关联规则中单维和多维关联规则的可视化; 分类中决策树和贝叶斯分类的可视化;聚集中层次聚集和其他类型聚集 的可视化。 3 ) 实现了一个数据挖掘可视化系统v a p 。实现了对数据挖掘各个方面的可 视化,同时g a p 采用构件的设计方法,利用插件的概念增强了系统的可 扩展性,设计并实现了基于x m l 的模型表示方法,使得v a p 能够和预言 模型系统集成,并能在网络环境下发布。 全文共分成6 章,文章结构及各章内容简介如下: 第一章是前言,主要介绍了数据挖掘提出的背景,阐述了可视化数据挖掘研 究的意义,然后对本文的内容以及文章结构安排进行了介绍。 第二章是可视化数据挖掘概述,首先介绍了可视化数据挖掘包括的四个阶 段,探讨了可视化数据挖掘的重要性。然后探讨了数据挖掘模型可视化的重要性, 并且提出了在模型可视化中两个重要的因素:模型的理解和模型的信任。 第三章是关联规则可视化。首先对关联规则的基本概念进行了描述,然后将 关联规则划分成几种类型。最后重点分别对单维和多维关联规则的可视化进行了 重点介绍。 第四章是分类可视化。首先介绍了分类的基本概念,然后将分类采用的技术 进行了总体的描述。以下专门探讨了在决策树和朴素贝叶斯中使用的几种可视化 方法。 第五章是聚集可视化。首先介绍了聚类的基本概念,然后将聚类中采用的技 术进行了一个分类。之后专门针对层次聚类和其他聚类方法的可视化进行了一些 探索。 第六章是v a p 系统介绍。本章主要介绍了一个数据挖掘可视化的系统。v a p 通过可视化的流程与用户交互,能够生成数据挖掘过程的报告。系统具有很好的 可扩展性,并且已经在实践中体现了不错的效果。 可视化数据挖掘技术研究及实现复且大学磺i 学位论文 第二章可视化数据挖掘概述 2 1 概述 第二章可视化数据挖掘概述 人类的视觉能力是一个很独特的东西,他能够对信息进行广泛的处理。可视 化数据挖掘方法目的就是要很好利用了人类的这种对于可视化形式下模型和结 构的获取能力。并且对这个结果进行分析解释。可视化数据挖掘已经证明在探索 性数据分析中有很大的价值,同时在处理大型数据库中也有很好的潜力。本章的 内容包括在数据挖掘过程中的四个可视化的应用,同时本文强调了可视化数据挖 掘的承要p 1 - 。然后本文重点分析了数据挖掘模型可视化的重要性,并且提出了在 模型可视化t 十,两个重要的因素:模型的理解和模型的信任。 2 2 可视化数据挖掘介绍 2 2 1 数据挖掘过程 数据挖掘是一个知识发现的过程,从大型的数据库中发现以前未知的,可以 采用的有用信息。从细节上来说,就是从数据中抽取出非平凡的、隐含的、以前 未知的、可能有用的信息。换一句话说,就是从大型数据库中,发现隐藏在大量 数据中的关系和全局模式。这些关系代表了数据库和现实世界中的有用知识。 本文所定义的数据挖掘更加广泛,不仅包括在数据挖掘和知识发现中的工 作,同时包括很多其他领域的工作,如:多变量统计、数据库操作、和信息抽取。 最近几年在以上的领域中都取得了重要的进展,开发了不少新的数据挖掘技术, 并且实现了些先进的数据挖掘系统。 在给出了数据挖掘的定义之后,就可以确定一下实践应用中数据挖掘以及和 可视化数据挖掘的关系。本文将数据挖掘的生命周期分成三个阶段:数据准备、 模型生成、知识使用。 i l l 数据准备。数据准备阶段的工作包括提高数据的质量和对数据进行汇总 以方便其后的分析的挖掘过程。数据挖掘既可以在操作型数据库上进行, 也可以在数据仓库( 往往就是一个汇总数据库或者整个企业商业数据的 整合) 上进行。数据仓库中的数据质量由数据分析师不断地进行监控。 由于数据的异质性和不同数据库中的非标准性,数据仓库中的数据往往 郝址经过数蚶抽敬之后清沈和标准化的。 a ,桃化数据挖掘技术研究及实现 复旦大学硕士学位论文 第二章可视化数据挖掘概述 模型生成。模型生成阶段的工作重点是选择训练集、测试集和使用合适 的算法。由于可以获得巨量数据的原因,数据挖掘完全可以在其中的一 个子集上进行。一个合适的数据样本从全部数据中获取出来并对其进行 描述。这个过程可能需要重复几次直到获得合适的样本。经过选择的样 本就形成了数据挖掘算法的训练集。在本文的框架中,数据挖掘过程就 足从数掘巾挖掘出些对丁i 用户来说是有用的知识和模式。数据挖掘算 法使用来自分析者的指导来确定各种参数,从而控制整个学习过程的计 算复杂性。整个过程可能产生几个模型。 _ 知识使用。在所有生成的模型中,用户可能只选择几个有用的模型用于 最终的应用。使用和维护阶段的工作的焦点是监测数据库的更新和模式 有效性的监测。虽然学习的过程是用户指导的,但是并不是所有的知识 都将用于实际应用中。只有有用的模型才会被选择出来,并用于实践。 这个阶段另外一个很重要的工作就是在数据发生变化的情况下,持续的 监测模型的有效性。当数据仓库中的数据发生很大的变化之后,就需要 衍生新的模型。可以通过在新的数据上产生新的模型,如此重复以上三 个阶段的t i 作。 2 2 2 可视化数据挖掘的内容 可视化数据挖掘可以应用在对于数据挖掘划分的所有三个阶段上。可视化数 据挖掘的目的是提供一个可视化和数据挖掘的整合环境,以提高整个数据挖掘的 有效性。由于这个整合的工作非常新所以很少有工作涵盖了所有的部分。 可视化数据挖掘包含了对于数据挖掘生命周期的三个阶段:数据准备、模型 生成、知识使用,创造性的可视化表达。这个也就暗示了将可视化数据挖掘分成 阴部分其中前i 个部分对应于个阶段,最后一部分就是对数据挖掘整个应用 过程的可视化,所有四个部分的目标都是为了提高信息和知识在工程师和数据挖 掘流柙之问交流的方便性。更进。步的描述如下: 一数据准备。数据准备阶段的可视化的目标就是将数据预处理的功能以可 视化的形式进行。也就是将对于原始数据安装要求进行处理的过程以一 种可视化的形式进行。这里可视化操作的内容包括:丢失植的处理、数 据转换、数据采样和修剪等等。 一模型生成。模型生成阶段的目标就是将模型创建的整个细节以一种可视 化形式呈现出来。训练集、模型的选择、参数的设定、训练过程的细节、 结果的存储都是这个阶段的工作。可视化数据挖掘的工作就是目的在这 可税化散据挖掘技术研究及实现复旦大学硕士学位论文 第一章卅视化数据挖掘概述 些任务上的可视化运用。更进一步的,按照本文的观点,还需要一个关 于模型生成阶段的整体可视化方案。也就是以一种可视化的形式评估、 监督、指导数据挖掘模块。评估包括对训练集、测试集、模型在不同数 据中的表现和对于特定情况数据和学习算法的选择等的有效性验证。监 督包括:跟踪算法的进程、评估模型随着数据库更新之后的情况等等。 指导包括的内容:用户初始观点的设定、输入的变化、习得的模式和其 他的系统决定。可视化的呈现应该存在于所有这些任务中,以提高用户 和数据挖掘模块之间信息的交互性。 一知识使用。该阶段的可视化呈现目标是通过将数据挖掘过程的结果以可 视化的形式呈现出来,从而帮助知识工程师更好的获取知识。在大多数 怙况卜,数抛挖掘算法的结果比如关联,分类等,都是以一种人类的视 觉系统很难理解的方式存在的。已经有一些可视化技术提出来用于解决 这个问题,如以树的形式展示规则,但是只有极少一部分能够展示出重 要的结果特征来。大多数情况下,如果生成了大量的结果的时候,对于 知识工程师来说,还是很难获取有用的信息。在验证阶段,可视化数据 挖掘的工作就是数据可视化,其中包括的数据有:原始数据,汇总数据, 配置数据,或者是抽取得到知识信息。这个阶段的数据往往太多,超过 了人能处理的范围。这里,可视化数据挖掘的基本想法就是将在数据空 1 8 j 中隐藏的信息尽量多的呈现在视觉空间中。这里的映射工作包括了将 数据库中可以获得信息映射到可以用可视化技术呈现的信息上。 流程a 丰见化。数据挖掘流程可视化的目标就是将数据挖掘的整个过程用 种u j 视化的彤式腱观住用户的面的。这样,也可以给知识工程师更多 的自信以指导下一步的工作。通过将数据挖掘过程用可视化方式呈现出 来,从而帮助用户以一种具体和简明的方式掌握知识萃取和决策分析的 过程,并让你充分的融入其中。 所有前面的努力都是产生可视化的结果,帮助知识工程师从数据中获取尽可 能多的信息。可以对任何数据进行可视化,只要有利于知识的获取。可视化方法 不仅可以帮助我们理解数据中隐藏的信息,同时可以帮助我们理解数据挖掘分析 的结果。 这里,就可以定义任何可视化模型的目的:将信息以可视化的形式呈现出来, 并能够为人类的视觉系统容易的接受。在这里,有两点重要的内容。第一:可视 化模型应浚呈现墀量多的信息和从数据中获取的知识:第二,可视化应该以一利, 知识工程师容易理解的形式表达出来。 同样,可以定义任何可视化数据挖掘模型的评价标准:一个可视化数据挖掘 可税化数据挖橱技术研究及实现复里大学硕士学位论文 第二章可视化数据挖掘概述 模型有用性是和其产生的可视化的信息量成正比,这些信息应该和我们预定义目 标相一致:信息的范围和易理解性。如果可视化展现不能为知识工程师所理解, 那么这种可视化就是完全失败的。 彤成个好的u r 视化模型的难点两个重要因素之间的平衡:信息的质和量; ,式易理解性。在数据挖掘中又多了一个难点:数据的数量非常大。即使是数据 挖掘的结果,也是一个很大的数据集,简单的行呈现方式是很难进行分析的。在 指定了目标之后,本文并没有限制采用什么方式达到最终的目的。完全可以尝试 各种方法来提高现有的技术。个主要的原则就是在现有的研究基础上,提高模 型的质量,使用更好的映射方法,更好的表现形式。 2 2 3 可视化数据挖掘的重要性 一个有趣的观察是:大多数的数据挖掘技术是一个完全自动化的过程,但是 确实需要个预先定义好的任务。这个任务是一个具体的假设,然后数据挖掘进 行具体化寻找到量化的规则、来让用户使用或者丢弃它。基于任务的数据挖掘很 重要,但同时基于数据的假设生成也很重要 i b 0 1 1 。所以要将人类的灵活性,创 造力、各种常识和当今计算机的巨量存储和强大的计算能力结合起来。特别是 人们视觉的非匹配能力让其能够在很短的时间内,分析复杂的现象,识别重要的 信息,从而做出决定。人类的知觉系统能够以一种非常灵活的方式处理各种数据 类型,自动的识别出不寻常的特征,同时忽略一些平凡的特征。对于模糊、不精 确信息的处理能力强于当前的计算机系统,并且能够利用各种知识,做出复杂的 判断。 可视化数据挖掘的作用就是将知识工程师变成数据挖掘过程的一部分,同时 有效利用人类的知觉系统。我们关于可视化数据挖掘的灵活定义允许将人的能力 结合到数搬挖赫l 的二二个不i 司阶段中。这样,尖端的科学知识就可以充分的结合进 土。 本文的方法就是将人结合到数据挖掘的过程中去,并将这种结合应用到当今 计算机系统中存在的大量数据中。为了达到这样一个目的,对于大量的数据和各 种分析之后产生的结果进行可视化就显得非常的必要了。也就是将数据空间隐藏 的信息尽可能多的可视化出来。 对】二知识工程视来说,将数据挖掘整个过程进行可视化具有非常高的价值和 重要性。将抽取出的信息以一种简明的形式呈现出来,从而给用户一个关于分析 结果总体情况的概念。这样,也可以给知识工程师更多的自信以指导下一步的工 作。通过将数据挖掘过程用可视化方式呈现出来,从而帮助用户以一种具体和简 桃化觳抛挖捌技术i l i f 究故实现1 3 复旦大学颂士学位论文 第一二章可视化数据挖掘概述 明的方式掌握知识萃取和决策分析的过程,并让你充分的融入其中。 将规则或者分类预测进行可视化,这样就可以形成非常友好的界面,从而数 据挖掘将不再局限在某些专家中了。正如我们已经提到过的,数据挖掘结果的原 始形式对于分析师来说是非常难以理解的。结果,有些数据挖掘系统就变得非常 得难用,仅仅局限在少数专家中。利用可视化的理念开发的系统能够适用于更多 的人群,而不是只为专家所使用。 总之:可视化数据挖掘的重要性在于: 一数掘驱动的假设生成 人类能够成为数掘挖掘的个部分。 从数据空问中进行知识获取、了解 _ 将关联、规则、分类、预测以一种形象具体的方式展现出来。 可视化数据挖掘能够在数据挖掘的早期阶段将用户的知觉、知识等等结合起 来,从而降低数据挖掘整体计算的复杂性。更进一步的,分析师可以从数据分析 的过程中,形成新的认识,这些新的想法能够有利于开发更好的算法和过程。这 样以下三个方砸:人、数据挖掘算法、可视化数据挖掘,就成为了一个有机的整 体,每一方都能够在和其他两方的交互中得到提升。 2 3 数据挖掘模型可视化 2 3 1 模型可视化介绍 由于数据挖掘往往是从数据库中挖隐藏的信息,这样的一个理解过程就可能 变得更加复杂了。在大多数数据库操作中,几乎每一样用户看到的东西都是他们 明确知道确实存在于数据库中。一个按照地区、产品排列的销售报表对于用户来 说是很直接的,因为直觉上他们知道这些东西在数据库中是已经存在的。如果公 司在不同的地区销售不同的产品,那么将这些显示出来的信息和相关的商业流程 联系起来不会有任何问题。 数据挖掘则不同,其得到的结果往往是用户事先所不知道的。变量之问有用 f i i 一:r t 观的关系不是数据挖掘希望发现的珍宝。出于用户事先并不知道数据挖掘 将会发现什么东阳所以将系统得到的结果转化成一个好的表达形式给商业用户 就成为了一个很重要的问题。由于有很多种方法可以用来将模型可视化,因此我 们应该选择能够对用户提供最大价值的可视化方法。这就要求我们了解用户的需 求并且从用户的观点设计可视化方法。假设用户是某个问题领域的专家但不擅长 数据建模,那么我们必须将模型以种他们可以理解的自然的方式呈现出来。 u f 桃化数姑挖掘技术矾宄技实脱复旦火学硕士学位论文 第二章可视化数据挖掘概述 2 3 2 模型可视化的因素 任。 对于数据挖掘模型进行可视化的驱动力可以分成两个关键的部分:理解和信 2 3 2 1 模型的理解 理解毫无疑问是对模型进行可视化的最根本的驱动源泉。虽然对数据挖掘模 型最简单的处理方法就是将输出作为一个黑盒,用户也不一定需要对一些他们感 兴趣的潜在内容进行理解。例如,他们可以利用这个黑盒对数据库进行打分,然 后获得一个目标客户的列表( 比如向其发送产品目录,比如提高其信用值) 。对 j j 。水泌j l 婴坐卜看着信件发送出去就可以了。这也是一个很有效的方法, 存不降低响麻率的前提下,通过减少发送量成本可以大幅度的降低。 但是另外一种更加好的使用数据挖掘模型的方式是让用户了解模型的内涵, 从而其能够直接采取行动。通过可视化这个模型,让用户可以对同事,顾客和其 他的用户解释模型背后的逻辑。让用户对模型的逻辑和原理有所了解是建立用户 的信任感的重要一部分。例如,用户需要展开一个广告宣传活动,了解客户的地 理分布就是一个关键因素。究竟在什么地方投放广告的决定就是理解了关于客户 行为的数据挖掘模型之后的结果。在这里,是没有自动化方法的,而必须依靠市 场经理对模型的理解。除非数据挖掘系统的输出可以被量化的理解,否则这些结 果将一点用处都没有。另外,模型也需要被理解以方便相应采取的行动能够及时 的进行调整。 衅解小单单包括明白模型:i 刊时还需要明白周境( c o n t e x t ) 。如果用户能够结 合相应的商业问题来理解模型的结果,他们将很容易信任这个模型并付诸使用。 这里包括两部分的内容: 1 ) 将数据挖掘的结果以一种有意义的方式进行可视化; 2 ) 允许用户对模型进行一些简单的交互,从而能够回答一些简单的问题。 对于第一部分的解决方法是引入如:提升率,响应率,和( 可能也是最重要的) 一些经济指标( 利润,成本,r o i ) ,这样用户马上就可以结合实际对模型的结 果作出一个迅速的判断。另外,对于挖掘结果的简单表达能够让用户很快的了解 模型。例如图形化的显示决策树。当然有些算法可能困难更大一些( 比如神经元 网络) ,但是最近一些崭新的解决方法正在出现。 另外需要着重探讨的是交互性。交互性对于很多用户来说,是数据挖掘可视 u r 雠化数锯挖掘技术聊f 宄敏实现复旦入学i :i i 1 二学位论史 第二章可视化数据挖掘概述 化的圣杯( t h eh o l yg r a i l ) 。对于数据的操纵和动态的察看结果让用户有一种动态 察看和测试是否真的有一些和直觉不同的内容存在。交互性越多,形式越简单越 好。察看一棵决策树当然很好,但是他们真正希望的是将最佳的分片拖拉到地图 上看看是不是还有什么销售的确给忽略了。需要回答的“如果“问题是没有止 尽的:客户是如何按照性别分布的? 预测是违约客户的平均余额是多少? 邮件响 应者的特征是什么? 只有当用户真正了解其客户的行为之后,交互才可能终止。 崩户往j 希望能够深入到模型之卜,看看实际的数据,虽然这只是一种感觉的需 要而不是因为实际上有用。最后,通过和其他的决策支持工具( 如o l a p ) 结合 起来,能够让用户以一种熟悉的方式来了解数据挖掘的结果。通过将交互性结合 到这个过程中,用户将可能将数据挖掘的结果和他的客户联系起来。 总而言之,对于理解模型有三个不可或缺的要素:表示方法( r e p r e s e n t a t i o n ) 、 交互( i n t e r a c t i o n ) 、整合( i n t e g r a t i o n ) 。表示方法是指模型的展示方法。一个好的表 示方法应该尽量多的使用那么用户已经熟悉的视觉元素。并且应该尽量的简单, 以方便理解,同时还必须表达出所有应该展现得信息。交互性是指用户可以实时 的对模型采取行动,就好象在操作一台机器一样。整合是指展示模型内部的关系 以及模型所使用数据的能力,整合向用户提供了模型的周境。 2 3 2 2 模型的信任 对于模型达成一定的信任程度,对于灵活的使用是十分必要的。对于“信任 “的比较好的度量最终将体现在模型对于未来预测的准确率上。但是由于大多数 数据挖掘任务本身的探索性和大量性,模拟所有的可能性往往很难实现。因此, 与其将信任建立在某个可能性的度量上,还不如将一些影响信任的关键因素可视 化出来。进一步,和任何科学模型一样,一个模型最后只能被证明伪,所以可视 化模型的局限性成为了首要任务。事实上,对于模型信任感的建立是建立在对于 模型局限性的理解之上,而不是对于模型本身的理解。 由于数据挖掘非常依赖于训练数据,所以理解训练数掘的局限性对于未来的 应_ l j 就显得非常重要了。标准的可视化工具应该包括对于训练集的概率密度估计 年u 柴集。其t 非常重要的应该是训练集中不寻常的但是又不违反领域约束的区 域。当输入数据比较特殊的时候,模型准确性更高的时候,人们对于模型的信任 度就会降低。对于时序数据,可视化其中的一些非平稳指标也是很重要的。 相对于模型理解的目标来说,评估模型的可信程度相对来说是比较直观的, 本质上因为前者是创造性的,而后者是破坏性的。例如,即使没有对模型深入的 理解,我们还是可以使用一些领域知识来检测模型是否违背了一些量化的原则。 口j 观化散姑挖掘技术研究及实现复旦大学硕士学位论文 第二章廿j 视化数据挖掘概述 个很著名的例子就是当你察觉到一个模型在鞋子的大小和i q 之间建立统计关 系的时候,就应该提高警惕了。当然,这里还是有不小的挑战来确定这样的知识 是否是完备和一致的。 领域知识对于利用异常检测来进行数据清理是非常重要的,这样可以避免一 些荒唐的结果。这里,可视化通常的任务就是显示出模型中违反领域知识的地方。 但是信任评估并不总是负面的。特别的。可以通过对几个模型的比较而增加 对模型的信任程度,这里,信任评估可能和模型的比较相似了。特别的,显示模 型预测的敏感性和质量随着参数和模型结构的变化是非常有用的。有很多方法可 以用于这种可视化的显示。 各种形式的统计汇总对于获取模型的可信程度是很常见和有用的。成对的散 布网和低维密度显示尤其常见。当比较两个模型之问的可信程度的时候,汇总显 得尤其有用,通过将分析聚焦在两个模型之间差别最大的地方。同时将汇总和交 互式的钻入操作结合起来也是很有效的一种方式。 最后,如果可能的化,可以将模型的可信程度进行量化,比如量化用于预测 时候的期望方差。当然,在实践中,这样的模型是相当少的。将重点放在期望的 情况下,而不是最坏情况下的性能表现并不是不合理的,毕竟人们最终感兴趣的 也是一些例如期望值之类的概念。 随着数据挖掘应用的越来越广泛,各种自动化技术的不断涌现,一种自然的 趋势就是模型越来越复杂。为了避免这些模型成为不可解的秘密,我们必须开发 出业加有效的可视化技术来跟上日益增加的模型复杂性。不然,将会存在这样的 危险,我们将存不了解模型的情况下做出各种决策。 口f l ! i l 化数据挖掘技术目f 究及实现复巨大学硕士学位论文 第三章关联规则可视化 3 1 概述 第三章关联规则可视化 在最近几年里关联规则( a s s o c i a t i o nr u l e s ) 的挖掘是数据挖掘中一个重要的 问题。a g m w a l 等于1 9 9 3 年 a g r a w a l 9 3 首先提出了挖掘顾客交易数据库中项集 日j 的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研 究。他们的工作包括对原有的算法进行优化,如引入随机采样 t o i v o n e n 9 6 1 、并 行的思想 s a v a s e r e 9 5 等,以提高算法挖掘规则的效率;对关联规则的应用进行 推广。 本章的侧重点主要是关联规则的可视化方面。首先对关联规则的基本概念进 行了描述,然后将关联规则划分成几种类型。最后重点分别对单维和多维关联规 则的可视化进行了重点介绍。 3 2 基本概念描述 设,= 扣,i 2 甜是二进制文字的集合,其中的元素称为项( i t e m ) 。记d 为交 ( t r a n s a c t i o n ) t 的集合,这里交易丁是项的集合,并且7 l 了。对应每一个交易 有唯一的标识,如交易号,记作t i d 。设z 是一个,中项的集合,如果x _ c t ,那 么称交易r 包含丘 一个关联规则是形如x j y 的蕴涵式,这里x c ,y c l ,并且x n y = o 。规则 x j y 在交易数据库d 中的支持度( s u p p o r t ) 是交易集中包含x 和y 的交易数 与所有交易数之比,记为s u p p o r t ( x j y ) ,即 s u p p o r t ( x j y ) = t :x u y c _ t ,t e d i d | 规则x j y 在交易集中的可信度( c o n f i d e n c e ) 是指包含x 和y 的交易数与 包含x 的交易数之比,记为c o n f i d e n c e ( ) ( j y ) ,即 c o n f i d e n c e ( x j y ) = l t :x u y c _ t t e d v t :x c t ,t e d i 给定一个交易集d ,挖掘关联规则问题就是产生支持度和可信度分别大于用 户给定的最小支持度( m i n s u p p ) 和最小可信度( m i n c o n f ) l 构l 关联规则。 可视化数据挖掘技术研究及实现复旦大学硕士学位论文 第三章关联规则可视化 3 3 关联规则的种类 本文将关联规则按不同的情况进行分类【蔡伟杰0 1 】: 基于规则中处理的变量的类别,关联规则可以分为种类型和数值型。 种类型关联规则处理的值都是离散的、种类化的:而数值型关联规则可以和 多维关联或多层关联规则结合起来,对数值型字段进行处理,当然数值型关联规 则中也可以包含种类变量。 一基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同 的层次的;而在多层的关联规则中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论