




已阅读5页,还剩117页未读, 继续免费阅读
(计算机软件与理论专业论文)面向聚类的数据可视化方法及相关技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学博士学位论文 摘要 面向聚类的数据可视化方法及相关技术研究 摘要 数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式 的数据处理方法,是2 0 世纪9 0 年代初为解决“数据丰富、知识贫乏”问题应运而生 的一种新技术。但是,数据挖掘的过程非常耗时,算法相对复杂,常常会发现大量 的无用的知识,且容易出现偏差和错误。因此,需要采用有效的方法更清晰地观察 数据的分布结构,了解数据之间的相互关系及发展趋势,理解数据挖掘豹过程和结 果。数据可视化技术成为解决这一阅题的新的且有效的途径,已经成为数据挖掘领 域的研究热点。数据可视化利用散点图、树图、曲线、曲面等图形图像来显示多维 的非空间数据,用形象直观的图像来指引数据挖掘的过程,使用户加深对数据含义 的理解,加快获取知识的速度。 聚类分析是数据挖掘的一项重要功能,特别对高维数据分析具有很大优势。本 文以聚类算法为基础,总结和分析现有的数据可视化方法,围绕着新的面向聚类的 数据可视化技术、聚类分析的过程及结果可视化技术、可视化聚类分析交互技术等 方面,进行深入且细致的研究。本文的主要工作如下: ( 1 ) 虽然数据可视化方面已提出了很多方法,但是对数据可视化仍然没有明 确的界定。本文对数据可视化同可视化、科学计算可视化、信息可视化的关系及应 用范畴作了明确的划分。详细、系统地介绍了主要的数据可视化方法,通过对这些 方法和技术的介绍,可以对数据可视化的作用、运用范围、区别于其他可视化技术 的特点等方面有更深入的认识,这是迸一步研究的基础。 ( 2 ) 现存的聚类算法众多,其中包括基于划分的聚类算法和基于层次的聚类算 法等。本文在研究了现有的几种聚类算法,发现一些算法有的对脏数据敏感:有的 虽不敏感,但计算量大,只适用于小规模数据量。针对这些问题本文提出了一种基 于主次属性划分的聚类方法和一种颞的数据可视化方法。利用数据的主属性积次属 性的特征值对数据集进行聚类。实验表明,本方法算法简单、容易实现。 ( 3 ) 提出一种利用彩色刺激光谱投影到r g b 颜色空间的原理,通过色度学中 麦克斯韦的三角平面坐标色度图对各聚类结果进行可视化显示。实验表明,通过用 这种多维数据的可视化方法对聚类结果进行可视化,有利于用户全面的理解数据, 为数据的预测、决策起到重要作用。 ( 4 ) 一些聚类算法需要预先确定聚类个数、迭代次数或终止条件,而这些参数 i i 东北大学博士学位论文摘要 在聚类之前很难确定。本文针对这个难点提出一种基于近邻方法的聚类算法及其可 视化方法。该算法时间复杂度低,聚类结果精确,聚类过程中能够发现同类对象之 间的相异程度,而这一点许多算法达不到。同时,需要输入的参数可以很容易的估 算,能够发现孤立点,发现任意的形状的聚类。最后,用2 da n d3 ds c a t t e r p l o t s 对聚 类结果进行了可视化,增加了直观性、可理解性。 ( 5 ) c h e m o f f 脸谱图是一种有效的数据可视化技术。但c h e m o f f 脸谱图在进行 脸部容貌对应变量的分配时,不同作图者会有不同的选择,从而产生不同的分类结 果,这样对数据的分析就会产生歧异。本文对c h e m o f f 脸谱图的这一缺点提出了一 种改进的方法。在绘脸谱图之前,季4 用主成分分析方法,提取原变量的主成分,将 原变量的协方差进行重新分配,将变异最大的指标分配到脸的最敏感部位,最后进 行绘图。实验表明该方法的聚类结果与聚类分析的聚类结果非常相似,改进了脸谱 图绘图法,使脸谱图的变量分配问题变得较为简单并且可以得到较好的聚类结果。 ( 6 ) 平行坐标数据可视化技术是高维数据分析的常用工具。本文对此技术在聚 类分析方面的应用进行了深入研究,针对传统平行坐标数据可视化方法的不足进行 了改进,采用了动态平均线、标准偏差和聚类之间相关系数三种方法,实现了一种 动态基于平行坐标可视化聚类分析方法。特别是,实现了一种直接操纵平行坐标的 方法。增强了传统平行坐标数据可视化方法的交互性、实用性、信息反馈的即时性。 ( 7 ) 可视化技术产生的数据图像,有个很大的缺点就是图像特征不明显,如一 幅有噪声的图像,干扰使用者对数据主要特征的把握。那么能否利用已有的计算机 图像处理技术,对己产生的数据图像进行再处理,消除数据图像上的噪音,以致增 强挖掘得到的数据图像可读性,帮助用户从数据集中挖掘出新颖的、未知的信息和 模式。本文提出了一种支持可视化数据挖掘方法的计算机图像处理技术,利用一种 类邻域平均方法对数据挖掘结果图像进行后处理,可帮助用户准确把握数据的主要 特征,进而从数据中发现有用的模式。实验表明,该方法具有很强的直观性、便利 性、有效性,为可视化数据挖掘提供了一个新途径。 总之,面向聚类的数据可视化技术是一类重要的数据挖掘技术,本文提出的一 些聚类算法、数据可视化方法和相关处理技术可有效地应用到各种可视化挖掘系统 中。 关键词:数据可视化,可视化数据挖掘,聚类分析,彩色刺激函数,色度图,切尔 诺夫脸谱图,动态平均线,相关系数,交互技术,图像后处理技术。 一i i i 东北大学博士学位论文 a b s t r a e t s t u d yo nd a t av i s u a l i z a t i o nm e t h o d s a n dr e l a t e dt e c h n i q u e s f o r c l u s t e r i n g a b s t r a c t d a t am i n i n gi sad a t ap r o c e s s i n ga p p r o a c ht h a te x t r a c t sh i d d e n ,u l k n o w n ,p o t e n t i a l l y u s e f u lk n o w l e d g ea n dp a r e r nf r o mh u g ev o l u m eo fd a t a i ti san e wt e c h n i q u et h a t a p p e a r e di n1 9 9 0 sf o rs o l v i n gt h ep r o b l e mo f “r i c hd a t ab u tp o o ri n f o r m a t i o n ”b u tt h e p r o c e d u r e so fd a t am i n i n go f t e ns p e n tm a n yt i m e sa n dt h ea l g o r i t h m so fd a t am i n i n ga r e r e l a t i v e l yc o m p l e x ,w h i c hr e s u l t i ng i v i n gt m u s e f u lk n o w l e d g ea n de a s i l yc o m i n gf o r t h d e v i a t i o na n de r r o r t h e r e f o r e ,t h eu s e r sn e e dt oe x p l o r es o m ee f f e c t i v em e t h o d st om o r e c l e a r l yo b s e r v et h ed i s t r i b u t i n gs t r u c t u r eo fd a t a , t ok n o wc o r r e l a t i o nb e t w e e nd a t aa n d t h e i rd e v e l o p i n gt r e n d s ,t ou n d e r s t a n dt h ep r o c e d u r e sa n dr e s u l t so fd a t am i n i n g d a t a v i s u a l i z a t i o nt e c h n i q u ei san o v e l ,e f f e c t i v ea p p r o a c ht or e s o l v et h a tp r o b l e ma n dt h i s t e c h n i q u eh a sb e c o m et h e h o ts p o ti nt h er e s e a r c hf i e l do fd a t am i n i n g d a t av i s u a l i z a t i o n t e c h n i q u ei st ou t i l i z eg r a p h i co ri m a g e ,s u c ha ss c a t t e r p l o t ,t r e e m a p ,c u r v e ,s u r f a c e ,t o d i s p l a ym u l t i d i m e n s i o n a ln o n - s p a t i a ld a t a , t ou t i l i z ed i r e c t l yv i e w i n gi m a g et oh e l pu s e r s t oe x p l o r ed a t as e t ,t od e e p e nt h eu n d e r s t a n do fd a t af o ru s e r s ,t oq u i c k e nt h es p e e df o r o b t a i n i n gk n o w l e d g e c l u s t e ra n a l y s i si sa ni m p o r t a n tf u n c t i o ni nt h ed a t am i n i n gt e c h n i q u e s ;e s p e c i a l l yi t h a ss u p e r i o r i t yf o rm u l t i d i m e n s i o n a ld a t a a s c l u s t e r i n ga l g o r i t h m ,t h ed i s s e r a t i o n s u m m a r i z e sa n da n a l y z e ss o m ee x i s t i n gd a t av i s u a l i z a t i o nt e c h n i q u e s ,a n di n d e t a i l s t u d i e st h en o v e ld a t av i s u a l i z a t i o nt e c h n i q u e sb a s e do nc l u s t e r i n g ,t h et e c h n i q u et h a t v i s u a l i z et h ep r o c e d u r e sa n dr e s u l t so f c l u s t e r i n ga n a l y s i sa n dt h ei n t e r a c t i v et e c h n i q u e si n t h ev i s u a lc l u s t e r i n ga n a l y s i se t c t h i sd i s s e r a t i o nm a d e m a j o rw o r k sa sf o l l o w s : ( 1 ) a l t h o u g h m a n y i d e a s a r es u g g e s t e d i n t e r m so f d a t ev i s u a l i z a t i o n t h e r e i ss t i l ln o c l e a rd e f i n i t i o no fd a t ev i s u a l i z a t i o n t h i sd i s s e m t i o nm a d eac l e a rd i s t i n c t i o nb e t w e e n v i s u a l i z a t i o n ,d a t av i s u a l i z a t i o n ,s c i e n t i f i c c o m p u t i n gv i s u a l i z a t i o n , i n f o r m a t i o n v i s u a l i z a t i o na n dt h e i ra p p l i c a t i o na r e a s t h i sd i s s e r a t i o ns y s t e m a t i c a l l yi n t r o d u c e st h e m a i nm e t h o do f m u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o n t h e i rc o m m o ng o a li st od i s p l a yt h e d a t aa t t r i b u t e sa n dt h e i rr e l a t i o n s h i p sa sm u c ha sp o s s i b l eo nt h el i m i t e ds c r e e r tt or e f l e c t t h er e l a t i o n s h i p sa m o n gt h ed a t a t h r o u g ht h i sw ec a nh a v eab e t t e ru n d e r s t a n d i n go f t h ef u n c t i o ni nm u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o n ,i t s u t i l i z i n ga r e aa n di t su n i q u e i i i 东北大学博士学位论文 a b s t r a c t f e a t u r e s t h a ti st h eb a s i so f s t u d y i n gt h em u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o n ( 2 ) n o w ,t h e r ea r em a n ye x i s t i n gm e t h o d so fd a t am i n i n g ,i n c l u d i n gc l a s s i f i c a t i o n , c l u s t e n n g ,a s s o c i a t i o nr u l e s ,p r e d i c t i o ne t o a f t e rw es t u d ys h o r t c o m i n g so ft h ee x i s t i n g c l u s t e r i n ga l g o r i t h m s ,t h ed i s s e r a t i o np r o p o s e sac l u s t e r i n gm e t h o db a s e do np r o p e r t y c l a s s i f y i n g t h eb a s i ci d e ao ft h em e t h o di s t oc l u s t e rd a t as e tw i t ht h ef e a t u r eo fp r i m e a t t r i b u t e sa n ds e c o n d a r ya t t r i b u t e so fd a t a t h ee x p e r i m e n t sp r o v et h a tt h ea l g o r i t h mi s s i m p l ea n de a s i l yi m p l e m e n t e d f 3 、t h ed i s s e r a t i o np r o p o s e san o v e ld a t av i s u a l i z a t i o nm e t h o d t h eb a s i ci d e ao f t h e m e t h o di su n d e rt h ep r i n c i p l eo f m a p p i n gc o l o rs t i m u l u ss p e c t r u mt or g bc o l o rs p a c e ,t o v i s u a l i z ee v e r yc l u s t e r i n gb yt h ec h r o m a t i c 时d i a g r a mo fj c m a x w e l l st r i a n g l ep l a n e c o o r d i n a t e s t h ee x p e r i m e n t sp r o v et h a tt h ev i s u a l i z a t i o n st e c h n i q u e sa r eh e l p f u lf o ru s e r s t oo v e r v i e wd a t a , a n dp l a ya l li m p o r t a n tr o l ei np r e d i c t i o na n dd e c i s i o n ( 4 ) s o m ec l u s t e r i n ga l g o r i t h m sn e e dt op r e d e f m et h en u m b e ro fc l u s t e r s ,t h et i m e so f i t e r a t i o na n dt h ec o n d i t i o no fe n d i n g ,b u tt h e s ep a r a m e t e r sa r ed i f f i c u l tt ob ed e t e r m i n e d b e f o r ec l u s t e r i n g a i m 砒t h e s ed i f f i c u l t i e s t h ed i s s e r a t i o np u tf o r w a r d sac l u s t e r i n g a l g o r i t h mb a s e do nn e a rn e l 。出o u ra n di t sd a t av i s u a l i z a t i o n t h sa l g o r i t h mh a sl o w e r t i m ec o m p l e x a n da c e t a t ec l u s t e r i n gr e s u l t sa n dc a nd i s c o v e rd i s s i m i l a r i t yd e g r e e b e t w e e ns a m ec l u s t e r si nt h ec l u s t e r i n gp r o c e d u r e m o r e o v e rt h a tc a n n o tb ed o n ew i t h o t h e rc l u s t e r i n ga l g o r i t h m a tt h es a m et i m e ,t h i sa l g o r i t h mc a r ld i s c o v e ri s o l a t e dp o i n t s a n dd i s c r e t i o n a ls h a p ec l u s t e r s f i n a l l y ,c l u s t e r i n gr e s u l t sa r ev i s u a l i z e dw i t h2 da n d3 d s c a t t e r p l o t s ,t oi n c r e a s ei n t u l f i o n i s t ,u n d e r s t a n d a b i l i t y f 5 ) c h e m o f f - f a c ei sa ne f f e c t i v em u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o nt e c h n o l o g y b u tw h e nt h ec h e m o f - f a c ed i s t r i b u t e st h ec o r r e s p o n d i n gv a r i a b l e s ,d i f f e r e n tu s e r sw i l l h a v ed i f f e r e n tc h o i c e s ,w h i c hc a u s ed i f f e r e n tr e s u l t s ,w h i l et h ed i v e r g e n c ew i l lc o m ea s w e l l t h i sd i s s e r a t i o ni m p r o v e sc h e m o f f - f a c e ,b e f o r ed r a w i n gt h eg r a p h t h eu s e r sc a n p i c ku pt h em a i np a r to f t h eo r i g i n a lv a r i a b l eb yu s i n gt h ep r i n c i p a lc o m p o n e n ta n a l y s i s , w h i c hc a u s e st h er e d i s t r i b u t i o no f 恤eo r i g i n a lv a r i a b l ec o v a r i a n c ea n dd i s t r i b u t et h ei n d e x t h a tm a pt h el a r g e s tc o m p o n e n tt ot h em o s ts e n s i t i v ep a r to f t h ef a c e ,a n df i n a l l yd r a wt h e p i c t u r e e x p e r i m e n t sp r o v e t h a tt h i sm e t h o di m p r o v e st h ec h e m o f f - f a c em e t h o d ,m a k e i tam u c he a s i e ro nt h ev a r i a b l ed i s t r i b u t i o np r o b l e ma n dg e tt h eb e t t e rr e s u l t s f 6 1p a r a l l e lc o o r d i n a t e sa r eu s e f u lt o o lf o rm u l t i d i m e n s i o n a ld a t aa n a l y s i s t h i s d i s s e r a t i o nd e e p l ys t u d i e st h i st e c h n i q u ei nt h ea s p e c to fc l u s t e r i n ga n a l y s i sa p p l i c a t i o n a i m i n ga tt h e1 a c ko ft r a d i t i o n a lp a r a l l e lc o o r d i n a t e s ,t h i sd i s s e m t i o ni n t r o d u c e st h r e e n o v e lt e c h n i q u e s ,s u c ha sd y n a m i cp l o t l i n ea v e r a g i n g ,c o r r e l a t i o nc o e f f i c i e n t sa n d s t a n d a r dd e v i a t i o n ,t om a n i p u l a t ep a r a l l e lc o o r d i n a t e sa n di m p l e m e n tad y n a m i cv i s u a l 一 东北大学博士学位论文 a b s t r a c t _ _ _ _ _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ _ _ _ _ _ - _ - _ _ _ _ _ _ - _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ _ _ _ _ _ _ _ - - - - _ - _ _ _ _ _ _ _ _ _ _ _ _ _ 一 c l u s t e r i n gm e t h o db a s e do np a r a l l e lc o o r d i n a t e s a l lt e c h n i q u e sa r ed y n a m i ci nn a t u r ea s t h e ye n c o u r a g eo n et oe x p e r i m e n ta n dd i s c o v e rn e w i n f o r m a t i o nt h r o u 曲i n t e r a c t i n gw i t h a d a t as e t ( 7 ) t h es h o r t a g eo f d a t a i m a g ep r o d u c e do n l yb yp i x e l - o r i e n t e dt e c h n i q u e si st h a tt h e i n t a g ef e a t u r e sc o r r e s p o n d i n gt od a t aa r en o to b v i o u s ,s u c ha si m a g e sw i t hn o i s e ,w h i c h m a k ei th a r df o ru s e r st oo b s e r v es i g n i f i c a n tf e a t u r e s a l t h o u g hi t i st h er e a lr e f l e c t i o no f d a t a , t h ed a t ac a n n o ts t r i c t l yf o l l o wc e r t a i np a t t e r n sa n dt h ef l u c t u a t i o no fd a t a i s i n e v i t a b l e ,t h a ti st h en o i s ew h e nr e f l e c t e do nt h ei m a g e o u ri d e ai st od e s i g nac o m p u t e r i m a g ep r o c e s s i n gm e t h o df o rv i s u a ld a t am i n i n gt oi n c r e a s et h ev i s i b i l i t ya n dr e a d a b i l i t y o fd a t a - i m a g es oa st oh e l pu s e r sd i s c o v e rm o r eu n k n o w ni n f o r m a t i o na n dp a t t e r n sf r o m t h eo r i g i n a ld a t as e t t h i sd i s s e r a t i o np r o p o s e sa ni m a g ep r o c e s s i n gm e t h o d ,n a m e d r n a m ( r e s e m b l en e i g h b o r h o o da v e r a g i n gm e t h o d ) ,t of a c i l i t a t ev i s u a ld a t am i n i n g , w h i c hi su s e dt op o s t - p r o c e s st h ed a t am i n i n gr e s u l t - i m a g ea n dh e l pu s e r st od i s c o v e r s i g n i f i c a n tf e a t u r e sa n du s e f u lp a t t e r n se f f e c t i v e l y t h ee x p e r i m e n t ss h o wt h a tt h em e t h o d i si n t u i t i v e ,e a s i l y - u n d e r s t a n d i n ga n de f f e c t i v e n e s s i tp r o v i d e san e wa p p r o a c hf o rv i s u a l d a t am i n i n g i nac o n c l u s i o n , d a t a a s u a l i z a t i o nt e c h n i q u e sf o rc l u s t e r i n ga r eo n eo fi m p o r t a n td a t a m i n i n ga p p r o a c h e s t h ep r o p o s e da l g o r i t h m s ,s u c ha st h ec l u s t e r i n ga l g o r i t h m s , t h en e w d a t av i s u a l i z a t i o nm e t h o d sa n dr e l a t e dt e c h n i q u e s ,w i l lh ea p p l i e di n t ot h ef i e l d so n c l u s t e r i n ga n a l y s i sa n dv i s u a ld a t am i n i n g k e yw o r d s :d a t av i s u a l i z a t i o n ,v i s u a ld a t am i n i n g ,c l u s t e ra n a l y s i s ,c o l o rs t i m u l a t e f u n c t i o n ,c h r o m a t i c i t yd i a g r a m ,c h e m o f f - f a c e ,d y n a m i ca v e r a g el i n e ,r a r r e l a t i o n c o e f f i c i e n t ,i n t e r a c t i v et e c h n i q u e ,p o s t - p r o c e s s i n gi m a g e v 一 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果 除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包 括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:祝加砂声 t s t 期:州 - - 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定: 即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅a 本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进 行检索、交流。 学位论文作者签名:但永硝 日期:仇一石乙。l _ 另外,如作者和导师不同意网上交流,请在下方签名;否则视为同意。 学位论文作者签名 签字月期: 导师签名: 签字日期: 东北大学博士学位论文 第一章导言 第一章导言 1 1 数据可视化技术 近年来,国际上提出了数据可视化问题。一般说来,科学计算可视化是指空间 数据场的可视化,丽数据可视化则是指非空间数据的可视化。 1 1 1 数据可视化技术的需求 随着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大。除了需求 对海量数据进行存储、传输、检索及分类等以外,更迫切需要了解数据之间的相互 关系及发展趋势。实际上;在激增的数据背后,隐藏着许多重要的信息,人们希望 能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以 高效地实现数据的录入、查询、统计等功能,但无法有效地发现数据中存在的关系 和规则,无法有效地根据现有的数据预测未来的发展趋势。另一方面,人工智能自 1 9 5 6 年诞生后也取得了重大进展。目前的研究热点是机器学习。机器学习是用计算 机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库 管理系统来存储数据,用机器学习的方法来分析和挖掘大量数据背后的知识,这两 者的结合促成了数据库中的知识发现( k d d :k n o w l e d g ed i s c o v e r yi nd a t 曲a s e ) 的 产生。实际上,k d d 是一门交叉性学科,涉及到机器学习、模式识别、统计学、智 能数据库、知识获取、数据可视化、商性能计算、专家系统等多个领域。k d d 可以 用在信息管理、过程控制、查询优化、科学研究、决策支持和数据自身维护等许多 方面f j l 。 k d d 的核心技术是数据挖掘( d a t a m i n i n 9 5 。它是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石 中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构 化的,如文本、图形、图像数据,甚至是分布在网络上的不同构型数据。数据挖掘 的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。通过 数据挖掘可以发现多种类型的知识,包括反映同类事物共同性质的广义型知识:反 映事物各方面特征的特征型知识;反映不同事物之间属性差别的差异型知识:反映 一事物和其它事物之间依赖或关联的关联型知识;根据当前历史和当前数据推测未 来数据的预测型知识;揭示事物偏离常规出现异常现象的偏离型知识。为了发现这 些不同类型的知识,要采用多种发现知识的工具。但是,数据挖掘的过程非常耗时。 技术相对复杂,常常会发现大量的无用的知识,且容易出现偏差和错误。需要采用 东北大学博士学位论文 第一章导言 有效的方法更清晰地观察数据的分布结构,了解数据之问的相互关系及发展趋势, 理解数据挖掘的过程和结果。数据可视化( d a t av i s u a l i z a t i o n ) 技术成为解决这一问 题的新的且有效的途径。数据可视化利用散点图、树图、盐线、曲面等图形图像来 显示多维的非空间数据,用形象直观的图像来指引数据挖掘的过程,使用户加深对 数据含义的理解,加快获取知识的速度。 在日常生活中,人的创造性不仅取决于人的逻辑思维,而且取决于人的形象思 维。重要的决定常常是来自决策者观察数据后产生的直觉。海量的数据只有通过变 成可视化的形式,才能激发人的形象思维。由于信息不能像知识那样去反映数据之 间的内在联系,信息也不能完全表达人类全部的隐知识,只有将数据和信息用图形 和图像表示出来,才有可能为获得十分宝贵的隐知识创造条件。 1 1 2 数据可视化的作用 数据可视化在商务、金融和通信等领域,有着十分广阔的应用前景。在通信领 域,一方面,目前正在开发更为精细和高级的网络模型,以辅助将来的规划过程。 另一方面,更复杂的发射和交换设备,为现行网络的重构提供了更大的自由度和灵 活性,但造成在单个网络单元上运行的原始数据不断增加。全部网络运行的最优化, 需要有效地使用来自所有这些信号源,而且需要在诸如市场、网络规划和日常管理 等传统的不同领域之间,进行信息和思想的动态交换。覆盖物理网络的是一个包括 声音、数据和图象服务的广阔领域,其中每一项都有自己的数据和管理要求。 图1 1 意大利中央银行对各分行业务的统计图 f i g 1 1s t a t i s t i c a lc h a r to f t h eb u s i n e s si nb a n c ad i t 越i a 此外,现代网络不受国界的限制,是一个覆盖很多国家和载体的国际性结构, 一2 东北大学博士学位论文 第一章导言 因而其潜在的数据量和复杂程度均以更大的数量级在递增。这些应用可以非常容易 地用于金融信息,诸如每个区域、每个时间段的股票收益特性,或按地理和按收入 进行可视化挖掘( v i s u a lm i n i n g ) ,通过显示各个分行的货币流通总量、总收入和 现金运作统计的消费总量。如图1 1 所示,意大利中央银行就使用了意大利人工智能 软件公司开发的可视化软件,可以从异常现象中发现通过银行系统的菲法活动u ”。 由于数据可视化对日益显著的“数据超载”问题,可以提供近实时的了解,它将对商 务、金融和通信等领域的信息管理,产生重要的影响。 1 2 数据可视化技术与数据挖掘 1 2 1 数据挖掘中可视化技术的提出 由于数据库的日益庞大和计算机硬件处理能力的飞速发展,需要存储和表现于 最终用户之前的信息也不断增长。然而,无论数据库有多大,或是计算机有多快, 最终,信息必须流经一个最紧的瓶颈人脑吸收和处理新信息的能力所能达到的 速度。数据的庞大是压倒一切的,人类的视觉系统和大脑不足以满足人类以数据本 身的形式来工作的要求,因此,迫切需要提供可视化的工具。利用可视化技术和新 型计算机的处理能力使人脑吸收和处理新信息变得简单,从而解决这个问题。并且, 使用可视化技术在很多时候还可以发现用其他方式都无法发现的规律、模式。例如, 假设把一个数据仓库想象为一座待挖掘的数据矿山,那么,把它可视化为一座真正 的矿山将更加有助于得到想得到的知识。 用户的专业知识 剧1 2 传统的数据挖掘过程 f i g 1 2p r o c e d u r eo f t r a d r i o n a ld a t am i n i n g 在数据挖掘算法所生成的大量模式中,最终只有十分少量的信息能够以文字的 形式解释和评估。因而使用可视化技术作为服务于计算机与用户之间的沟通纽带, 为用户提供关于数据和知识的直观信息。这虽然不是数据挖掘系统中必不可少的, 却是极其重要的一步。并且,传统的挖掘过程不可见、不直观,用户无法干预挖掘 一3 东北大学博士学位论文 第一章导言 过程,对用户来说好像一个黑箱子,使得用户对系统得出的结论持怀疑态度。使用 适当的可视化技术,帮助用户更紧密地与整个挖掘过程相结合,解决挖掘系统中存 在的一些问题。 1 2 2 数据挖掘中可视化技术的作用 传统的数据挖掘过程如图1 2 所示,是以机器为中心的,而新的吸纳了可视化 技术的数据挖掘过程是以人为中心的,如图1 3 所示。以人为中心的数据挖掘过程, 将数据挖掘与可视化技术完美结合,提高了整个数据挖掘过程的灵活性、有效性、 以及用户的交互性。 数坚u 舟 。 图1 3 以人为中心的数据挖掘过程 f i g 1 3h u m a n - c e n t r i cm i n i n gp r o c e d u r e s 可视化技术在数据挖掘中可以起到以下作用: ( 1 ) 通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和 提高挖掘出的结果模式的有效性。 ( 2 ) 利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户 能够使用自己丰富的专业知识来规整、约束挖掘过程,改善挖掘结果。 ( 3 ) 提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理 解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。 1 2 3 数据挖掘中可视化技术的应用 从数据挖掘的整个过程来看,可视化技术应用于数据挖掘主要有以下几个方面 2 】: ( 1 ) 作为观察“数据矿山”的第一步,应用于数据预处理阶段。以图形方式提 供一个数据的可视印象,给用户一个大体直观感觉,帮助用户确定从何处着手进行 挖掘,如图1 4 ( a ) 所示。 ( 2 ) 作为直接执行数据挖掘的一种方式,应用于数据挖掘实施阶段,允许最 一d 一 东北大学博士学位论文 第一章导言 终用户借助人脑的探索分析功能寻找发现模式。当人脑可以对显示的图形实时作出 判断时,这种方式较使用计算机的自动数据挖掘技术要有效得多,如图1 4 ( b ) 所 刁。 ( 3 ) 作为显示挖掘结果和预测模型的一种方式,应用于数据挖掘的最后阶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学校体育馆体育赛事组织空间评估报告
- 地坪修整施工工程合同
- 恩施州2026届高三第一次质量监测暨9月起点考试 历史
- 煤矿职业病危害防治责任制度
- 四年级禁毒防艾教学计划
- 巡游出租车课件
- 岩石观察课件
- 输电线路安全培训课件
- 输液过敏反应课件
- 10.2.2 复数的乘法与除法
- 律所销售培训
- 《质谱分析方惠群版》课件
- 急性脑卒中课件
- 月度财务分析报告(3篇)
- 2025年10月自考15040习概押题及答案
- (人教版2024)八年级语文上册全册各课导学案(含答案)
- 2024年浙江省城市轨道交通行车值班员职业技能竞赛考试题库(含答案)
- 人教版九年级全册英语Unit 3大单元整体教学设计
- DL∕T 711-2019 汽轮机调节保安系统试验导则
- 《背影》阅读理解及答案4篇
- 合成生物学在生物技术中的应用
评论
0/150
提交评论