




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘中多维数据可视化的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更 高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数 据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致了 “数据爆炸但信息贫乏”的现象。 数据挖掘技术的发展有效地满足了人们的这一愿望。因为它可以对广泛存在 的大量数据进行分析,将这些数据转换成有用的信息和知识。获取的信息和知识 可以广泛应用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科 学探索等等。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓 转换成知识“金块”。近年来,人们在数据挖掘的理论和方法上做了大量的研究 工作,并以此为基础开发出不同种类的数据挖掘工具。但是,这些工具在处理大 型的多维数据集方面仍然没有取得令人满意的挖掘效果。于是,人们开始在数据 挖掘中借助可视化技术,使用丰富的可视化方式将多维数据直观地表示出来,进 而利用人类特有的认知能力来指导挖掘过程,最后将数据挖掘的结果以可视化的 形式呈现给用户。因此,数据挖掘领域中产生了一个新的方向:可视化数据挖掘。 可视化数据挖掘的目的就是使用户能够交互地浏览数据,挖掘过程等,当所要识 别的不规则事物是一系列图形而不是数字表格时,人的识别速度是最快的。数据 可视化与数据挖掘相辅相成,只有两者紧密结合起来才能发挥完美的作用。数据 可视化主要针对数据库或数据仓库中的数据,根据数据的属性多少,可以分为一 维数据可视化,二维数据可视化和多维数据可视化。广义的讲,一维和二维数据 可视化技术可以看作是多维数据可视化的子集。多维性是非空间数据场的一个重 要特性,所以我们在数据仓库中针对多维数据可视化进行的研究是一个很重要的 课题。 多维数据可视化技术目前在国内外已经得到了广泛的研究,现在有很多常用 的多维数据可视化方法,如基于几何的技术,面向图标的技术,基于层次的技术, 密集象素技术等等。在本文中,我们将首先对数据挖掘技术、多维数据可视化技 术、可视化数据挖掘技术进行介绍,然后我们会通过实例来介绍多维数据可视化 技术在数据挖掘中的应用。 关键字:数据挖掘,数据仓库,多维数据可视化,可视化数据挖掘 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fd a t a b a s et e c h n o l o g ya n de x t e n s i v e a p p l i c a t i o no fd a t a b a s em a n a g e m e n ts y s t e m ,m o r ea n dm o r ed a t aa r ea c c u m u l a t e d i n s i d et h e s eq u i c k l yi n c r e a s e dd a t at h e r eh i d em u c hi m p o r t a n ti n f o r m a t i o n ,a n dp e o p l e h o p et og oo nh i g h e rl a y e ra n a l y s i si no d e rt of a c i l i t a t et h e s ed a t ab e t t e r p r e s e n t d a t a b a s es y s t e m sc a nr e a l i z ev a r i o u sf u n c t i o n ss u c ha sr e c o r d i n g , q u e r y , s t a t i s t i c s ,a n d s oo n ,b u ts o m er e l a t i o na n dr e g u l a t i o na m o n gd a t ac a n tb ed i s c o v e r e d t h u st h e d e v e l o p m e n tt r e n do ff u t u r ec a n tb ef o r e c a s t e da c c o r d i n gt oc u r r e n td a t a ,a n dt h e m e a n st h a tm i n eh i d d e nk n o w l e d g ei n s i d ed a t ai si nl a c k , w h i c hl e a d st ot h e p h e n o m e n o nt h a td a t ai se x p l o s i v ea n di n f o r m a t i o ni ss c a r c e t h ed e v e l o p m e n to fd a t am i n i n gt e c h n o l o g yc a l le f f e c t i v e l ys a r i s f yt h ed e s i r eo f p e o p l ee f f e c t i v e l yw i t ht h er e a s o nt h a ti tc a na n a l y z e se n o r m o u sd a t at h a ta b r o a de x i s t a n dt r a n s f o r mt h e mi n t ou s e f u li n f o r m a t i o na n d k n o w l e d g e i n f o r m a t i o na n d k n o w l e d g ea c q u i r e dc a n b ew i d e l yu s e di nm a n yf i e l d s ,s u c ha sb u s i n e s sm a n a g e m e n t , p r o d u c t i o nc o n t r o l ,m a r k e ta n a l y s i s ,e n g i n e e rd e s i g na n ds c i e n c ee x p l o r i n g ,a n ds oo n t h e g a pb e t w e e nd a t aa n di n f o r m a t i o nr e q u i r e st h es y s t e m a t i cd e v e l o p m e n tf o rd a t a m i n i n gt o o l sw m c ht r a n s f o r md a t at o m bt ok n o w l e d g eb u l l i o n p e o p l eh a v ed o n ea m a s so fr e s e a r c ho nt h et h e o r ya n dm e t h o do fd a t am i n i n gr e c e n t l y , b a s e do nw h i c h m a n yd a t am i n i n gt o o l sh a v eb e e nd e v e l o p e d h o w e v e r ,t h e s et o o l sh a v e n tb r o u g h t a b o u ts a t i s f a c t o r ym i n i n ge f f e c to np r o c e s s i n gl a r g e - s c a l em u l t i d i m e n s i o n a ld a t a t h e r e f o r e ,p e o p l eb e g i nt or e s o r tt ov i s u a l i z a t i o nt e c h n o l o g yi nd a t am i n i n g ,w h i c h c a ne x p r e s sm u l t i - d i m e n s i o n a ld a t ad i r e c t l yu s i n ga b u n d a n tv i s u a l i z a t i o nm e a n s ,i n o r d e rt od i r e c tt h ep r o c e s so fm i n i n g ,a n dp r e s e n tt h eo u t c o m eo fd a t am i n i n gf o ru s e r s i nt h ef o r mo fv i s u a l i z a t i o n t h a ti st os a y , t h e r ea p p e a r san e wd i r e c t i o ni nd a t a m i n i n gf i e l d :v i s u a ld a t am i n i n g t h eo b j e c t i v eo fv i s u a ld a t am i n i n gi st om a k eu s e r s b r o w s ed a t aa n dm i n i n g p r o c e s sm u t u a l l y w h e ni r r e g u l a rt h i n g st h a tw i l lb e r e c o g n i z e da r eas e r i o u so fg r a p h i c sb u tn o tf i g u r et a b l e s ,t h er e c o g n i z i n gs p e e do f p e o p l ei st h em o s tq u i c k d a t av i s u a l i z a t i o na n dd a t am i n i n gs u p p l e m e n te a c ho t h e r , o n l yw h e nt h e s et w oa r ei n t i m a t e l ya t t a c h e dc a ni n t a c tr o l eb ee x c e e d d a t a v i s u a l i z a t i o na i m sa td a t ai nd a t a b a s eo rd a t aw a r e h o u s em a i n l y , a n dv i s u a l i z a t i o nc a n b ec a t e g o r i z e di n t ou n i l a t e r a l d i m e n s i o nd a t av i s u a l i z a t i o n ,p l a n a r - d i m e n s i o nd a t a v i s u a l i z a t i o na n dm u l t i d i m e n s i o nd a t a v i s u a l i z a t i o n g e n e r a l l ys p e a k i n g , i i u n i l a t e r a l d i m e n s i o nd a t av i s u a l i z a t i o na n dp l a n a r - d i m e n s i o nd a t av i s u a l i z a t i o nc a nb e c o n s i d e r e da st h es u b s e to fm u l t i d i m e n s i o nd a t av i s u a l i z a t i o n m u l t i d i m e n s i o ni sa n i m p o r t a n tc h a r a c t e r i s t i co fn o n - s p a c ed a t af i e l d ,s ot h er e s e a r c ho nm u l t i d i m e n s i o n d a t av i s u a l i z a t i o ni nd a t aw a r e h o u s ei sa v e r yi m p o r t a n tt a s k m u l t i - d i m e n s i o nd a t av i s u a l i z a t i o nt e c h n o l o g yh a sb e e nw i d e l yu s e di nt h ew o r l d , a n dm a n yc o m m o nm u l t i - d i m e n s i o nd a t av i s u a l i z a t i o nm e t h o d sh a v eb e e np r o p o s e d , s u c ha st e c h n o l o g yb a s e do ng e o m e t r y , t e c h n o l o g yo r i e n t e di r o n i c , t e c h n o l o g yb a s e d o nl a y e r , d e n s ep e l st e c h n o l o g y , a n ds oo n i nt h i sd i s s e r t a t i o n ,w ew i l li n t r o d u c ed a t a m i n i n gt e c h n o l o g y , m u l t i - d i m e n s i o nd a t av i s u a l i z a t i o nt e c h n o l o g y , v i s u a ld a t am i n i n g t e c h n o l o g yf i r s t l y f u r t h e r m o r e ,w ew i l li n t r o d u c et h ea p p l i c a t i o no fm u l t i d i m e n s i o n d a t av i s u a l i z a t i o nt e c h n o l o g yi nd a t am i n i n gt h r o u 曲p r a c t i c a le x a m p l e k e yw o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,m u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o n t e c h n i q u e s ,v i s u a ld a t am i n i n g 1 1 1 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所傲的任何贡献均已 在论文中作了明确的说明并表示了谢意 研究生签名:a 鳌j 整日期2 豳韭垃丘吾i 扫 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部内容,可以采用影印、缩印或其他复制 手段保存论文 ( 保密的论文在解密后应遵守此规定) 暇生始蛰乳导师签名翘期盘簿制臣 武汉理工大学硕士学位论文 第1 章引言 1 1 数据挖掘技术简介 1 1 1 数据挖掘产生的动力 在现实生活中,我们的身边存在着这样一些俯拾即是的现象:纽约时报 由6 0 年代的1 0 2 0 版扩张至现在的1 0 0 2 0 0 版,最高曾达1 5 7 2 版;北京青 年报也已是1 6 4 0 版;市场营销报已达1 0 0 版。然而在现实社会中,人均日 阅读时间通常为3 0 4 5 分钟,只能浏览一份2 4 版的报纸1 1 。”。大量信息在给人 们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信 息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一 处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如 何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率? ”面 对这一挑战,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。 另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人 们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高 效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手 段,导致了“数据爆炸但信息贫乏”的现象。快速增长的海量数据收集,存放在 大型和大量数据库中,没有强有力的工具,理解他们已经远远超出了人们的能力。 结果,收集在大型数据库中的数据变成了“数据坟墓”。 需要是发明之母。近年来,数据挖掘技术引起了人们的广泛关注。因为它可 以对广泛存在的大量数据进行分析,将这些数据转换成有用的信息和知识。获取 的信息和知识可以广泛应用于各种应用,包括商务管理、生产控制、市场分析、 工程设计和科学探索等等。利用数据挖掘工具进行数据分析,可以发现重要的模 式,对商务决策、知识库、科学和医学研究做出了巨大的贡献。数据和信息之间 的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商 业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问, 进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶 段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在 武汉理工大学硕士学位论文 联系,从而促进信息的传递。以下四个主要的技术理由激发了数据挖掘的开发、 应用和研究的兴趣: 1 1 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记 录: 2 ) 先进的计算机技术,例如更快和更大的计算能力和并行体系结构; 3 1 对巨大量数据的快速访问; 4 1 对这些数据应用精深的统计方法计算的能力。 1 1 2 数据挖掘的定义 我们可以从技术角度和商业角度两个方面来探讨数据挖掘的定义。 首先,从技术角度上看,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有知识提 取、数据模式分析和数据库中知识挖掘等等。这个定义包括好几层含义:数据 源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识 要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的 发现问题。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数 据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异 构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的, 也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程 控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人 们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数 据挖掘这一新兴的研究领域,形成新的技术热点。 其次,从商业角度上看,数据挖掘是一种新的商业信息处理技术,其主要特 点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经 有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究。另外, 由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限 2 武汉理工大学硕士学位论文 制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这 些数据不再是为了分析的目的而收集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商 业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决 策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过 深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的 先进有效的方法。 1 1 3 数据挖掘的过程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有 效的,可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境可示意如图1 1 : 图1 1 数据挖掘环境框图 图1 2 描述了数据挖掘的基本过程和主要步骤: 图1 2 数据挖掘的基本过程和主要步骤 3 武汉理工大学硕士学位论文 过程中各步骤的大体内容如下: 1 ) 确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖 掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的, 为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。 2 1 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中 选择出适用于数据挖掘应用的数据。 3 ) 数据的预处理:研究数据的质量,为进一步的分析做准备。并确定将要 进行的挖掘操作的类型。 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算 法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 5 ) 数据挖掘:对所得到的经过转换的数据进行挖掘。除了完善从选择合适 的挖掘算法外,其余一切工作都能自动地完成。 回结果分析:解释并评估结果。其使用的分析方法一般应根据数据挖掘操 作而定,通常会用到可视化技术。 刀知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘 过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。图1 2 各 步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。数据挖掘的 过程并不是自动的,绝大多数的工作需要人工完成。图1 3 给出了各步骤在整个 过程中的工作量之比。可以看到,6 0 的时间用在数据准备上,这说明了数据挖 掘对数据的严格要求,而后挖掘工作仅占总工作量的1 0 。 黔 一“o 孵g “一一4 埘。# 鞠 + : 瑚 嘲 淘 i 。墨 。i i i 。己_b 一l 图1 3 数据挖掘过程工作量比例 1 1 4 数据挖掘的应用 数据挖掘虽然只有短短十余年的历史,但发展迅速,算法研究日趋成熟,在 4 们 m o 武汉理工大学硕士学位论文 9 0 年代中期即在许多行业投入应用,各大软件巨头也都有数据挖掘工具软件产 品问世,数据挖掘解决方案迅速广泛、深入地进入各行业的决策支持中,如零售 业、银行、邮电、保险、医疗保健、运输业、行政司法、生物信息处理( 生物信 息学) 、采矿业等,不仅在传统行业展现了巨大的能力,在新兴的科技领域中也 发挥了其巨大的潜力。在金融业,可进行金融服务产品的交叉销售,个人或企业 的信用评估,在电子商务领域,可进行w e b 行为模式分析、个性化服务及设计; 在生物、制药领域,进行基因序列分析、药毒理分析;在电信行业,进行客户 流失分析,欺诈甄别;在证券行业,分析、预测股票价格的走势及相关性;在保 险行业,用索赔数据来分离可能的舞弊指示项;在零售业,识别最有可能对新产 品或服务做出反映的一组客户,识别交叉销售的新机会等等,其对利润的提升和 对风险的控制得到普遍承认。在第三章中我们将会对数据挖掘进行更详细的介 绍。 1 1 5 数据挖掘与数据可视化 数据挖掘技术的发展,是为了帮助用户发现数据中存在的关系和规则,从而 根据现有的数据预测未来的发展趋势,使得数据库中隐藏的丰富知识得到充分的 发掘和利用。由于数据挖掘技术本身的复杂性,一般用户很难掌握,得到的结果 也很难解释。由于人们对图形和图像表现方式,更加容易理解和接受,可视化数 据挖掘技术正在兴起,呈现出广阔的应用前景。 数据可视化和数据挖掘是两种技术,常被用来创建和部署成功的商业智能解 决方案。通过应用数据可视化和数据挖掘技术,业务人员能够充分地探索业务数 据,从而发现潜在的、以前未知的趋势、行为和异常。可视化是帮助业务人员和 数据分析人员从业务数据集中发现新的模式和趋势的关键。它能够将大量复杂的 模式简化成二维或三维数据集的图片或数据挖掘模型。可视化数据挖掘可认为是 从数据到可视化形式再到人的感知系统的可调节的映射。可视化数据挖掘指的是 采用可视化的方式检查、理解交互数据挖掘算法。有效的利用数据可视化和可视 化数据挖掘,商业的盈利和投资回报率就会得到保障。下面让我们对数据可视化 技术进行简单的了解。 1 2 数据可视化技术简介 1 2 1 数据可视化技术的动力 科学技术的发展,特别是计算机技术的迅猛发展,使人类产生与获取数据的 5 武汉理工大学硕士学位论文 能力成数量级地增加。面对这浩如烟海的数据,想通过人工分析这些数据从而得 以深刻理解并进一步形成正确的概念和看法几乎是不可能的了。人们需要新的技 术来帮助理解这巨大数量的数据。数据可视化技术正是在这样的背景下,获得了 人们越来越大的重视和迅速发展。在日常生活中,人的创造性不仅取决于人的逻 辑思维,而且取决于人的形象思维。重要的决定常常是来自决策者观察数据后产 生的直觉。海量的数据只有通过变成可视化的形式,才能激发人的形象思维。由 于信息不能像知识那样去反映数据之间的内在联系,信息也不能完全表达人类全 部的隐知识,只有将数据和信息用图形和图像表示出来,才有可能为获得十分宝 贵的隐知识创造条件。 数据可视化技术凭借计算机的巨大处理能力及计算机图像、图形学基本算法 以及可视化算法把巨大数量的数据转换为静态或动态图像或图形呈现在人们的 面前,并允许通过交互手段控制数据的抽取和画面的显示,使隐含于数据之中不 可见的现象成为可见,为人们分析、理解数据、形成概念和找出规律提供了强有 力的手段。数据可视化技术今天已被应用于广泛的领域:不仅应用于如数学、物 理、力学、化学等基础学科,也被应用于如医药学、地质、气象、建筑、制造等 技术部门,还可应用于商业和政府部门的大量统计数据之中。因此数据可视化是 一门对国家科技和国民经济发展都具有重要意义的技术,应该受到有关部门的充 分重视和大力的推广。 1 2 2 数据可视化技术的定义及其重要意义 近年来,随着数据仓库技术、网络技术、电子商务技术等的发展,可视化技 术涵盖了更广泛的内容,并进一步提出了数据可视化的概念。 所谓数据可视化( d a t av i s u a l i z a t i o n ) 是对大型数据库或数据仓库中的数据 的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关 系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示, 大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示, 可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。 数据可视化技术包含以下几个基本概念: 1 ) 数据空间:是由n 维属性和m 个元素组成的数据集所构成的多维信息空 间: 2 1 数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算; 3 ) 数据分析:指对多维数据进行切片、切块、旋转等动作剖析数据,从而 能多角度多侧面观察数据; 6 武汉理工大学硕士学位论文 数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用 数据分析和开发工具发现其中未知信息的处理过程。 目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可 以划分为基于几何的技术、面向象素技术、基于图标的技术、基于层次的技术、 基于图像的技术和分布式技术等等。 发展数据可视化技术具有如下重大意义: 1 1 大大加快数据的处理速度,使目前每日每时都在产生的庞大数据得到有 效的利用。 实现人与人和人与机之间的图像通讯,改变了目前的文字或数字通讯, 从而使人们观察到传统方法难以观察到的现象和规律。 使科学家不仅能被动地得到计算结果,而且知道在计算过程中发生了什 么现象,并可改变参数,观察其影响,对计算过程实现引导和控制。 可提供在计算机辅助下的可视化技术手段,从而为在网络分布环境下的 计算机辅助协同设计打下了基础。 5 1 用户可以方便地以交互的方式管理和开发数据,使得人工处理数据,绘 图仪输出二维图形的时代一去不返。 价用户可以看到表示对象或事件的数据的多个属性或变量,而数据可以按 其每一维的值,将其分类、排序、组合和显示。 乃数据可以用图像、曲线、二维图形、三维体和动画来显示,并可对其模 式和相互关系进行可视化分析。 踟促进诸如医学、地质、海洋、气象、航空、商务、金融、通信等领域的 快速发展。 1 2 3 数据可视化技术的应用 数据可视化的应用十分广泛,几乎可以应用于自然科学,工程技术、金融、 通信和商业等各种领域。下面举例说明几个数据可视化成功应用的领域。 1 1 医学。在医学上由核磁共振、c t 扫描等设备产生的人体器官密度场,对 于不同的组织,表现出不同的密度值。通过在多个方向多个剖面来表现 病变区域,或者重建为具有不同细节程度的三维真实图像,使医生对病 灶部位的大小、位置不仅有定性的认识,而且有定量的认识,尤其是对 大脑等复杂区域,数据场可视化所带来的效果尤其明显。借助虚拟现实 的手段,医生可以对病变的部位进行确诊,制定出有效的手术方案,并 在手术之前模拟手术,同时还可以在屏幕上监视手术进行的情况,从而 7 武汉理工大学硕士学位论文 大大提高手术的成功率。在临床上也可应用在放射诊断、制定放射治疗 计划等。 气象预报。气象预报关系到亿万人民的生活、国民经济的持续发展和国 家安全。对灾害性天气的预报和预防将会大大减少人民生命财产的损失。 气象预报的准确性依赖于对大量数据的计算和对计算结果的分析。一方 面,科学计算可视化可将大量的数据转换为图像,在屏幕上显示出某一 时刻的等压面、等温面、旋涡、云层的位置及运动、暴雨区的位置及其 强度、风力的大小及方向等,使预报人员能对未来的天气做出准确的分 析和预测。另一方面,根据全球的气象监测数据和计算结果,可将不同 时期全球的气温分布、气压分布、雨量分布及风力风向等以图像形式表 示出来,从而对全球的气象情况及其变化趋势进行研究和预测。通常情 况下,气象工作者将二维的层状数据人为叠加来进行分析,而运用三维 可视化,可让气象工作者从大量二维图像计算中解脱出来,让他们的精 力集中于预报所需的实际数值。 3 1 油气勘探。油气勘探的主要方式,是通过天然地震波或人工爆炸产生的 声波在地质构造中的传播,来重构大范围内的地质构造,并通过测井数 据了解局部区域的地层结构,探明油藏、气藏位置及其分布,估计蕴藏 量及其勘探价值。由于地震数据及测井数据的数据量极其庞大,而且分 布不均匀,因而无法根据纸面上的数据做出分析。利用可视化技术可以 从大量的地质勘探数据或测井数据中,构造出感兴趣的等值面、等值线, 并显示其范围及走向,并用不同颜色显示出多种参数及其相互关系,从 而使专业人员能对原始数据做出正确解释,得到矿藏是否存在、矿藏位 置及储量大小等重要信息。这不仅可以指导打井作业、减少无效井位、 节约资金,而且必将大大提高寻找油藏的效率,从而具有重大的经济效 益及社会效益。 1 3 可视化数据挖掘 近年来,人们在数据挖掘的理论和方法上做了大量的研究工作,并以此为基 础开发出不同种类的数据挖掘工具。但是,这些工具在处理大型的多维数据集方 面仍然没有取得令人满意的挖掘效果。于是,人们开始在数据挖掘中借助可视化 技术,使用丰富的可视化方式将多维数据直观地表示出来,进而利用人类特有的 认知能力来指导挖掘过程。因此,数据挖掘领域中产生了一个新的方向:可视化 数据挖掘。数据挖掘一般可以归结为三个阶段:假设产生,挖掘,结果表示。如 8 武汉理工大学硕士学位论文 果在产生假设的过程中可以给予用户可视化反馈的引导,那么,用户就能够迅速 了解到有关数据属性的更多信息,从而更清楚地知道需要挖掘的主题是什么,该 从哪些数据着手进行挖掘;如果在挖掘过程中能够为用户提供即时的可视化反 馈,那么用户就可以对当前挖掘过程的进展情况和产生的效果进行评估,调整下 一步挖掘的方向和方法;如果产生结果之后能够迅速有效地将挖掘结果表示给用 户,那么,用户就能知道原先的假设是否正确,或者是基于这些数据的挖掘过程 发现了什么规律。因此,在可视化数据挖掘技术中,可视化的直接交互能力是挖 掘过程成败的关键,对可视化技术在数据挖掘中应用形式和使用方法的研究是数 据挖掘可视化急需解决的问题。 在数据挖掘中使用可视化技术可以起到以下作用:通过提供数据和知识的可 视化,可以利用人类的模式识别能力评估和提供挖掘出的结果模式的有效性:利 用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自 己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果;提供对挖掘结果的可 视化显示,使用户对结果模式能够有深刻直观的理解。从而打破传统挖掘算法的 黑盒子模式,使用户对挖掘系统的信赖程度大大提高。在第四章中,我们将会详 细的讨论数据挖掘中的多维数据可视化。 1 4 小结 本章分别从发展动力、概念定义及社会应用等方面对数据挖掘技术和数据可 视化技术的基本知识进行了简介,进而将二者结合提出了可视化数据挖掘技术。 数据可视化是对大型数据库或数据仓库中的数据的可视化,根据属性的多少,我 们可以进一步将数据可视化分为一维数据可视化,二维数据可视化和多维数据可 视化。下一章,我们将来进一步探讨多维数据可视化技术。 9 武汉理工大学硕士学位论文 第2 章多维数据可视化的概念和技术 2 1 数据可视化的分类 数据可视化主要针对数据库或数据仓库中的数据,根据数据的属性多少,可 以分为一维数据可视化,二维数据可视化和多维数据可视化。广义的讲,一维和 二维数据可视化技术可以看作是多维数据可视化的子类,但是多维数据不同于一 维数据和二维数据之处在于没有清晰的结构关系,如一维的序列关系和二维的方 位关系,这就决定了多维数据可视化有着不同的方法和技术。下面让我们对这三 类数据的可视化做个简单的介绍。 2 1 1 一维数据可视化 一维数据就是简单的线性数据,如某一列基于时间变化的数据,某一列整齐 排列的文件,甚至一行行的计算机程序语句。将一维数据可视化的效用取决于数 据大小和用户想用数据来处理什么任务。最常见的一维数据恐怕就是文本文档 了。大多数情况下,用不着对文本文档进行可视化。因为人们只是将文本从头读 到尾,或者在必要时,对有关部分进行参阅。不过在另一些情况下,我们可以充 分发挥计算机和数字信息的功能,利用可视化增强一维数据文本文档的效用,以 便用户浏览,或者通过链接将同一文档的不同部分联系在一起。一维数据可视化 系统能帮助用户快速地找到目标对象,同时还能帮助用户直观地比较数据之间的 差异,其可视化系统还包括能通过线长或颜色展示数据的相对大小和重要程度, 根据用户的选择过滤掉一些无用的数据,在一个屏幕上给出尽可能多的信息。 2 1 2 :维数据可视化 在数据可视化当中,二维数据是由在空间体现的两种主要属性构成的数据。 譬如,宽度和高度表示物体尺寸,而物体在x 轴和y 轴上的位置表示空间方位。 标明城市位置的地图、建筑物的楼层平面图以及文档库里面的一批相关文档都是 二维数据的可视化实例。二维数据可视化给定数据的两个坐标,在平面上显示时 数据有了更多的方位感,当要比较数据之问的方向、位置或距离时,二维可视化 系统能够起到有效的作用。最常见的二维数据可视化就是g i s ( g e o g r a p h y i n f o r m a t i o ns y s t e m 地理信息系统) 。大型的商业化g i s 系统历来用于地区规划、 武汉理工大学硕士学位论文 交通规划与管理、气象预测及地图绘制。简单的g i s 应用在互联网上司空见惯, 表现为接到搜索引擎的查询后,定制地图就能显示地址方位。对于二维数据,有 一点需要特别注意,二维数据集里面的物体可能有两种以上属性,数据是不是二 维数据,取决于数据由两种主要属性来描述,而不是属性的总数量。 2 1 3 多维数据可视化 我们通常将对含有三个以上属性的数据的可视化称为多维数据可视化,其中 每一种属性在视图上大体相同。当然,我们也可以将前面所述的一维数据和二维 数据的可视化看成是多维数据可视化的特例。譬如说有一张表,列出了所有房子 的财产及地址( 一维数据) ,就可以按照价值对房子进行分类及排序。我们还可以 根据表示房子的点的大小来创建缩放比例,以表明房子的相对价值:然后把一个 个点放在地图上,表明位置( 二维数据) 。虽然有些信息可能与房子的其他属性( 如 卧室数量、房子年限和面积) 相关,而在前文所述部分,这些属性都是次要属性, 数据不是多维数据。不过,如果有一个数据库,列有房子的诸多属性,而应用目 的是让用户可以用其中任何一种属性对房子信息进行排序,那么这些数据就是多 维数据。 在当今世界,诸如医学、地址勘探、气象学等众多领域内都涉及了空间数据 的可视化,而空阃数据就是多维数据的一种,因此我们可以将空间数据的可视化 看成是多维数据可视化的一个特殊情况。科学计算可视化经过多年的发展,已经 形成了很多实现三维空间数据场可视化的方法,这也为实现多维数据的可视化奠 定了基础。数据仓库中应用的可视化技术是一种非空间数据场的可视化。数据仓 库中的数据一般是多维的,这种多维数据是经过人们“加工”形成的。即便如此, 在数据仓库中的多维数据的维度与空间多维数据的维度也没有本质的区别。我们 完全可以将这些多维数据想象有空间上的特性,进而将科学计算可视化中的成果 应用到数据仓库的多维数据可视化上来。不过值得注意的是:非空间数据场的数 据维度往往很多,有时会远远超过三维,这取决于人们观察数据的角度。多维性 是非空阃数据场的一个重要特性,所以我们在数据仓库中针对多维数据可视化进 行的研究是一个很重要的课题。下面让我们来进一步了解多维数据可视化的相关 概念。 2 2 多维数据可视化相关概念 多维数据可视化的研究重点在于对关系数据库中数据的可视化,这些数据以 1 1 武汉理工大学硕士学位论文 关系表的形式存在,每一个数据被看作是表中的一行,数据有多个属性,在关系 表中以列表示,每一列代表一个属性。将每一个属性看作一个变量,关系数据库 成为一个多变量数据库。多维数据可视化将每一个变量看作多维空问中的一维, 变量的值,即数据的属性值表示数据在这一维上的坐标。数据库中的数据被映射 为多维空间中的点,这些点也被称为多维矢量,矢量坐标由属性值确定,这样数 据的分布空间可以被看作是一个多维空间。多维数据可视化的目的就是通过在二 维或三维的可视空间中再现这些多维矢量,反映出它们在多维空间中的特性,从 而帮助用户发现在关系数据表中难以察觉的规律和信息。 多维可视化技术包含以下一些基本概念: 1 1 数据空间( d a ms p a c e ) :也称作多维数据空间,是由p 维属性和n 个元素 组成的数据集所构成的多维空间。 映射空问( m a p p i n gs p a c e ) 也称作投影空间,是将多维数据按一定的函 数或规则转换后得到的低维可视空闻。 多维数据分析( m u l t i d i m e n s i o n a ld a t aa n a l y s i s ) :指对多维数据进行切片、 切块、旋转等动作剖析数据,从而能多角度多侧面观察数据。 多维数据探索( m u l t i - d i m e n s i o n a ld a t ae x p l o r a t i o n ) 是指利用定的算法 和工具对多维数据蕴涵的信息进行搜索,得到有用、新颖的信息。 5 ) 多维数据可视化( m u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o n ) :是指将大型数据 集中的数据以图形图像形式表示,并利用数据分析和挖掘工具开发其中 未知信息的处理过程。 多维数据可视化的处理过程是先采用一定的可视化技术将多维数据由多维 数据空间转换到低维映射空间,并展示给用户,然后用户利用多维分析的手段发 现其中的某些规律,这些发现的规律还仅仅是一些猜想和假设,还要由多维数据 探索的过程加以数学验证,得到验证的规律和假设作为用户发现的知识和规则保 留下来,最后,选择运用适合的可视化技术展示这些知识和规则1 1 9 1 。 2 3 多维数据可视化的技术 多维数据可视化技术目前在国内外已经得到了广泛的研究,现在有很多常用 的多维数据可视化方法,如基于几何的技术,面向图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 留学生招生代理协议书详细版中文5篇
- 宝鸡网约车人证考试题库及答案
- 采油工技师实际考试题目及答案
- 初级餐饮食品安全员证考试及答案
- 行政法相关题目:行政诉讼管辖、复议赔偿等测试题附答案
- 2025年病历管理制度与病历书写规范考试题(附答案)
- 2025年电厂外包人员试题及答案
- 环境质量精准监测-洞察与解读
- 商业综合体生态环境融合-洞察与解读
- 2025年事业单位招聘考试综合类职业能力倾向测验真题模拟试卷(成都)
- 爱工友考试题库及答案详解
- 酒水销售技巧培训
- 2025至2030中国航空货运行业运行分析有效策略与实施路径评估报告
- 值班水手业务教学课件
- 静脉导管感染护理
- 公司周例会会议管理制度
- 【暑假提前学】2025年秋初中语文八年级上册教学课件 第2单元 9《天上有颗“南仁东星”》第2课时
- 抗衰老植物干细胞技术行业跨境出海项目商业计划书
- 《秘书实务》课件-16督查工作
- CJ/T 94-2005饮用净水水质标准
- 外事笔试题及答案
评论
0/150
提交评论