




已阅读5页,还剩66页未读, 继续免费阅读
(计算机科学与技术专业论文)基于数据挖掘系统的可视化技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:型型兰日期:三塑尘7 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学问论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:查:垃全导师签名:同期:塑! ! :曼:! 摘耍 摘要 面对传统的数据挖掘研究,以可视化的形式对数据挖掘的研究有其独特的优 势。利用可视化技术可以使用户更好地了解数据挖掘的全部过程,包括从数据预 处理的可视化展示,到数据挖掘过程的可视化显示,再到数据挖掘结果的可视化 显示。用户与数据挖掘系统建立非常良好的交互沟通方式,如通过丰富用户的专 业知识来规整、约束数据挖掘的过程,然后根据数据挖掘的结果再分析改善其过 程,最终得到正确合理的数据挖掘结果,通过这些活动可以使用户对挖掘结果有 深刻并且直观的理解,这样做打破了传统的数据挖掘算法的黑盒子模式。实践证 明,将可视化技术应用到数据挖掘中有很高的研究价值。 本文的主要工作如下: 第一,对相关技术进行研究。包括可视化数据挖掘技术的研究,即通过观察 数据挖掘可视化的结果分析调整其中的预处理技术,数据挖掘算法,使得可视化 展现的结果更清晰正确。由于时间的关系本文实现平行坐标系技术,星型坐标系 技术,多边形技术,散点图技术的展示。还分析数据挖掘算法中分类算法和聚类 算法等等。 第二,对可视化数据挖掘系统进行总体设计。包括设计思路,系统设计原则, 预处理模块,数据挖掘模块,可视化技术模块等各个模块的总体设计介绍。 第三,对可视化数据挖掘系统进行深入的分析和设计。包括系统设计的开发 环境,接口设计,类图,用例图,各个模块的详细设计。预处理模块的设计包括 非空化,去重复值,标准化,维控制;算法选择模块的设计包括数据挖掘算法中 分类算法和聚类算法的设计;可视化技术模块的设计包括四个可视化方法的实 现。 第四,将分类算法和聚类算法的结果用四种可视化方法进行展示,通过对展 示结果的分析,确定了数据挖掘算法和可视化方法的使用特点和应用范围。 最后,对系统和项目进行总结,指出下一步的工作。 关键词数据挖掘系统;数据挖掘算法;可视化技术 北京_ 业大学t 学硕:l 学位论文 i i a b s t r a c t a b s t r a c t f a c et ot r a d i t i o n a ld a t am i n i n gr e s e a r c h ,v i s u a ld a t am i n i n gr e s e a r c hh a si t s u n i q u ea d v a n t a g e s u s i n gv i s u a l i z a t i o nt e c h n o l o g ye n a b l e su s e r st om a k e b e t t e ru s eo f d a t am i n i n gt ou n d e r s t a n dt h ee n t i r ep r o c e s s ,f r o mv i s u a ld i s p l a yo fd a t ap r e p r o c e s s i n g ,v i s u a ld i s p l a yo fp r o c e s so ft h ed a t am i n i n g ,t ov i s u a ld i s p l a yo ft h ef i n a l r e s u l t so fd a t am i n i n g d a t am i n i n gs y s t e ma l l o w su s e r st os e tu pav e r yg o o d i n t e r a c t i v ec o m m u n i c a t i o n , t h eu s e r sa c c o u n tt h r o u g ht h e i ro w ne x p e r t i s et or e g u l a r , c o n s t r a i nd a t am i n i n gp r o c e s s ,a n dt h e ni m p r o v et h er e s u l t so fd a t am i n i n g ,w h i l e p r o v i d i n gav i s u a ld i s p l a yo fd a t am i n i n gr e s u l t si tw i l le n a b l eu s e r s t oh a v ed e e pa n d i n t u i t i v eu n d e r s t a n d i n g t h i sb r e a k st h et r a d i t i o n a ld a t am i n i n ga l g o r i t h m si nt h e b l a c kb o xm o d e l i ti ss h o w nt h a tt h ev i s u a l i z a t i o nt e c h n i q u ea p p l y i n gt od a t am i n i n g h a v eh i g hr e s e a r c hv a l u e t h em a i nw o r ko ft h i sp a p e ri sa sf o l l o w s : f i r s t ,t h er e l e v a n tt e c h n o l o g yr e s e a r c hi n c l u d e sv i s u a l d a t am i n i n g t h r o u g h v i s u a lo b s e r v a t i o no ft h er e s u l t so fd a t am i n i n gw ea n a l y s i so fa n da d j u s tt ot h ep r e - p r o c e s s i n g ,d a t am i n i n ga l g o r i t h m s ,s ot h er e s u l t ss h o wm o r ec l e a r l y t h ep a p e rh a s f i n i s h e dt h ed e m o n s t r a t i o no f p a r a l l e l c o o r d i n a t et e c h n o l o g y , s t a rc o o r d i n a t e t e c h n o l o g y , p o l y g o n a lt e c h n i q u e ,s c a t t e rt e c h n o l o g y a l s oih a v ea n a l y z e dt h ed a t a m i n i n ga l g o r i t h m si nc l a s s i f i c a t i o na l g o r i t h m sa n dc l u s t e r i n ga l g o r i t h m s ,a n ds oo n s e c o n d ,o v e r a l ld e s i g nv i s u a ld a t am i n i n gi n c l u d e sd e s i g ni d e a s ,p r i n c i p l e s , d e s c r i p t i o no fe a c hm o d u l e ,p r e p r o c e s s i n gm o d u l e ,d a t am i n i n gm o d u l e ,v i s u a l t e e l m o l o g ym o d u l ed e s i g na n ds oo n t h i r d ,t h ep a p e rd e s i g n sa n da n a l y z e sv i s u a ld a t am i n i n gs y s t e mi n d e p t h i t i n c l u d e sd e v e l o p m e n te n v i r o n m e n t ,s y s t e md e s i g n ,i n t e r f a c ed e s i g n ,c l a s sd i a g r a m s , 嗽c a s ed i a g r a m s d e t a i l e dd e s i g no fe a c hm o d u l e t h ed e s i g no fp r e p r o c e s s i n g m o d u l ei n c l u d e sn o n c a v i t a t i o n ,r e p e a tt h ev a l u e ,s t a n d a r d i z a t i o n ,d i m e n s i o n a lc o n t r o l ; t h ed e s i g no fs e l e c t a l g o r i t h mm o d u l ei n c l u d e sc l a s s i f i c a t i o na l g o r i t h ma n dc l u s t e r i n g a l g o r i t h mi nt h ed a t am i n i n ga l g o r i t h m s ;t h ed e s i g no fv i s u a l i z a t i o nm o d u l ei n c l u d e s v a r i o u sv i s u a l i z a t i o nm e t h o d s f o u r t h ,f o u rm e t h o d so fv i s u a ld i s p l a yo ft h ec l a s s i f i c a t i o na l g o r i t h m a n d c l u s t e r i n ga l g o r i t h ma r et od e t e r m i n eu s i n gf e a t u r e sa n da p p l i c a t i o n so fd a t am i n i n g a l g o r i t h m sa n dv i s u a l i z a t i o nm e t h o d st h r o u g ht h ed i s p l a yo f t h er e s u l t s 1 1 1 北京t 业大学t 学硕二l 学位论文 f i n a l l y , t h ep a p e rs u m su pt h es y s t e ma n dp o i n to u tt h en e x tw o r k k c y w o r d sd a t am i n i n gs y s t e m ;d a t am i n i n ga l g o r i t h m s ;v i s u a l i z a t i o nt e c h n i q u e i v 目录 目录 j i i i 要i a b s t r a c t i i l 第1 章绪论。1 1 1 选题背景以及研究意义1 1 2 相关领域研究概况3 1 2 1 国外研究及应用现状。3 1 2 2 国内研究及应用现状3 1 3 研究内容4 1 4 本文结构和组织5 第2 章相关技术研究。7 2 1 可视化数据挖掘技术概述7 2 1 1 数据挖掘和可视化技术的分类7 2 1 2 可视化数据挖掘系统8 2 2 可视化技术1 0 2 2 1 平行坐标系技术1 0 2 2 2 散点图技术11 2 2 3 星型坐标系技术1 2 2 2 4 多边形技术l3 2 3 数据挖掘算法l3 2 3 1 分类算法1 3 2 3 2 聚类算法1 4 2 3 3 关联规则1 5 2 3 4 遗传算法1 6 2 4 本章小结1 7 第3 章可视化数据挖掘系统总体设计1 9 3 1 设计思路1 9 3 2 系统设计原则2 0 3 3 总体设计2 l 3 3 1 数据集的选取和保存2 1 3 3 2 数据预处理模块2 2 3 3 3 算法选择模块2 3 3 3 4 可视化模型模块2 4 3 4 本章小结2 4 第4 章可视化数据挖掘系统分析与设计2 5 v 北京t 业大学t 学硕i :学位论文 4 1 系统设计2 5 4 1 1 开发环境2 5 4 1 2 接口设计2 5 4 1 3 类图2 6 4 1 4 用例图2 8 4 2 预处理模块的设计2 9 4 2 1 非空化2 9 4 2 2 去重复值2 9 4 2 3 标准化3 0 4 2 4 维控制3 0 4 3 算法选择模块的设计3 1 4 3 1 算法选择设计31 4 3 2 算法设计3 2 4 4 可视化模型模块的设计3 4 4 4 1 可视化选择设计3 4 4 4 2 可视化设计3 4 4 5 系统界面3 8 4 6 本章小结3 9 第5 章可视化技术的应用4 1 5 1 实验数据介绍4 l 5 2 平行坐标系技术的应用4 2 5 2 1 平行坐标系技术在聚类算法中的应用4 2 5 2 2 平行坐标系技术在分类算法中的应用4 4 5 3 散点图技术的应用4 5 5 3 1 散点图技术在聚类算法中的应用4 5 5 3 2 散点图技术在分类算法中的应用4 6 5 4 星形坐标系技术的应用4 7 5 5 多边形技术的应用4 9 5 5 1 多边形技术在聚类算法中的应用4 9 5 5 2 多边形技术在分类算法中的应用5 0 5 6 四种可视化技术的比较5 1 5 7 本章小结5 2 结论5 3 总结:5 3 展望5 3 参考文献5 5 攻读硕士学位期间发表的学术论文5 9 致谢6 1 v i 第l 章绪论 第1 章绪论 1 1 选题背景以及研究意义 数据挖掘这个定义并不陌生,最早出现在1 9 6 6 年的统计学的论文中,而到 1 9 8 9 年这个词组就不再是负面意义了。数据挖掘,又称为数据库中知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 或知识发现,它的定义是指从大量数据中 抽取挖掘出未知的,有价值的规律和知识的过程,它是一个复杂的过程,它与数 据库,数据仓库等都有着非常密切的联系。数据挖掘的功能主要是指从指定数据 集中寻找,按照一定的算法挖掘出想要的类型的模型。而数据挖掘的任务一般可 以分为两类即描述和预测。描述性挖掘任务主要是指描述数据库中数据集的一般 特性。而预测性挖掘任务则是在数据库中的数据集上推断,以进行相应的预测。 数据挖掘的一般步骤包括:第一,数据清理( 消除噪音和不一致的数据,查补缺 失数据) ;第二,数据集成( 多种不同的数据集集合到一起) ;第三,数据选择( 从 数据库中有目的有选择的读取数据) ;第四,数据变换( 将数据集转化成符合要 求的数据集) ;第五,数据挖掘( 使用数据挖掘算法进行数据挖掘) ;第六,模式 评估( 对真正重要的模式提供模式评估) ;第七,知识表示( 以可视化的形式表 现出来) 【l 】。按照数据挖掘的分析进行分类可以分为6 种,分别是概念描述( 对 信息进行总结描述) ;关联规则分析;分类与预测( 信息过滤,信息自动分类, 图像识别等) ;聚类分析;异常分析( 入侵检测,信息安全等) ;趋势,演化分析 ( 回归,序列模式挖掘) 。 数据挖掘【2 】的研究意义非常广泛,它的产生和发展为人们从大量的数据信息 中发现有用有效的规律和知识提供了一条有效的途径,它对用户发现隐藏在大型 数据库中的规律和模式都具有非常大的帮助,它融合了多种学科的研究理论、科 研方法和研究技术,包括人工智能、统计、机器学习、模式识别和数据库等等, 并且已经在许多领域得到了非常有效的应用,如商业、企业、政府、科研及不同 类型的组织机构等等,即使在日常生活中,数据挖掘技术也已经潜移默化地参与 到改善人们的生活质量中。所以我们所要研究的数据挖掘系统,它的研究意义更 加重大,它的作用在于架起了数据挖掘技术与数据挖掘应用之间一座有效的桥 梁,深入研究和开发数据挖掘系统对进一步推进数据挖掘的应用研究有很大的帮 助,能够继续促进数据挖掘技术的发展。 数据挖掘系统从体系结构上分为四个部分,分别为可视化、a p i 接口、数据 挖掘引擎d m e 和存储,而可视化技术是其中重要的一方面。可视化数据挖掘包 北京工业大学t 学硕十学位论文 含了四个阶段:数据准备、模型生成、知识使用、流程可视化表达。 第一,数据准备:数据准备阶段的可视化方面不容忽略,数据准备阶段的目 标是将数据预处理的功能以可视化的形式进行,进行可视化操作的内容包括:丢 失值的处理、数据转换、数据采样和修剪等等。 第二,模型生成:模型生成阶段的可视化的目标是将整个模型的创建以可视 化的形式呈现出来。这个阶段的主要内容包括训练集的选择、模型的选择、参数 的设定、训练过程的操作和结果的存储等等。 第三,知识使用:知识使用阶段的可视化的目标是通过将数据挖掘过程得到 的结果以可视化的形式呈现出来,从而帮助用户更好的获取知识。 第四,流程可视化表达:数据挖掘流程可视化的目标就是将数据挖掘的整个 流程用一种可视化的形式展现在用户的面前【3 1 。 可视化技术具有许多方面的重要意义。一方面它大大加快数据的处理速度, 使目前每日每时都能有效地利用不断产生的大量数据;一方面它实现了人与数据 之间、人与人之间的图像通信,从而使人们能够观察到在传统的科学计算中观察 不到的现象;另一方面它还实现了对计算过程的引导和控制,比如,通过一些互 动的手段改变计算所依据的条件,分析其所造成的影响。可视化技术对业务人员 和数据分析人员的工作有很大帮助,使其在业务数据集中能够发现新的模式和趋 势,使业务人员和数据分析人员能够进行信息的交流。它在各行各业都有很大的 应用,比如在医学上,在地质勘探中,都会有很重要的影响。具体而言,将可视 化技术运用到数据挖掘系统的基本思想就是将数据库中的每一个数据项作为图 形元素输出,将每一个图形元素组合就构成了数据图像,同时以多维数据的形式 来表示数据的各个属性值,可以从多个维度观察数据,从而对数据进行更深入的 观察和分析。利用可视化技术建立起用户与数据挖掘系统之间良好的交流方法, 使用户能够通过使用自学所学的知识和行业中的知识来分析,规整、约束挖掘过 程,从而改善挖掘结果,显示可视化的数据挖掘结果,这一系列的活动,使用户 对整个数据挖掘流程都有了深入深刻的理解。从而打破传统挖掘算法的黑盒子模 式,使用户对挖掘系统的信赖程度和使用程度大大提高。实践证明,可视化数据 挖掘技术在数据分析和探索大型数据库都有很高的价值。 第l 章绪论 1 2 相关领域研究概况 1 2 1 国外研究及应用现状 目前,国际上对可视化数据挖掘的研究异常火热,将数据挖掘和可视化技术 联系结合是一个热门的课题。数据挖掘可视化分为三个过程,包括数据可视化, 数据挖掘结果可视化,数据挖掘过程可视化。数据挖掘可视化按种类分可以分为 多类,有曲线、柱状图、饼状图、散点图、三维立方体、数据分布图表等。 可视化技术是国内外研究的热点,一些可视化数据挖掘工具如雨后春笋般出 现。数据挖掘工具按使用的方式可以分为两类:一类是特定领域的数据挖掘工具 另一类是通用的数据挖掘工具。特定领域的数据挖掘工具顾名思义,就是为了某 一个特定领域而实现数据挖掘任务的专用的数据挖掘工具。通用的数据挖掘工具 定义显而易见。数据挖掘工具在设计算法的时候,需要充分考虑到数据集和特定 要求的各个特性,对待具体问题需要具体分析并作相应的处理。在国外,数据挖 掘工具相对比较成熟,并且多种多样。例如由i m b 公司开发研制的l b m i n t d l i g e n t m i n e r ,它是一个全面的、综合的数据挖掘工具集,帮助用户对n b a 的数据以各种组合的方式结合起来;芬兰赫尔辛基大学计算机科学系开发的 t a s a 工具,该工具的特点是能够预测网络通信中的警报。由s g i 公司和美国 s t n a d f o r d 大学开发研制的m i n e s e t 工具,它集成多种数据挖掘算法和可视化工具 于一成,帮助用户直观地、实时地数据挖掘,并在数据挖掘中发现大量的规律。 而d b m i n e r 是一种数据挖掘公用工具和多策略工具,它可以支持如自主发现式 o l a p 分析模型、聚类模型、关联规则模型、总结归纳模型和可视化技术之类的 方法。c l m e n e t i n 是一种综合的数据挖掘工具包,它采用的是神经网络和规则简 化的方法,等等。 1 2 2 国内研究及应用现状 在国内,专家们在研究数据挖掘方面也有一定的进展。比如刘君强等开发的 智能型数据挖掘工具s m a n m i n c r ,该工具是以在数据挖掘算法研究和专家系 统研究中取得的成果为基础,提出了挖掘作业描述语言m d l 和挖掘任务模型脚 本语言,设计挖掘向导、可视化向导和挖掘任务模型,该工具具有管理数据仓库 的各个功能,还具有智能的数据挖掘引擎和开放并且可扩展的体系结构。何耀东 等开发的d mt o o l s ,该工具以决策支持使用为目的,从各行各业的历史业务数 北京t 业人学丁学硕十学位论文 据库中挖掘出有用的,潜在的知识,并且完成了基于数据库的知识发现( k d d ) 的主要过程,这些过程包括数据、可视分析、数据预处理、数据库的知识发现、 数据挖掘、模型解释及模型评估等等。袁红春等开发的空间数据挖掘工具 g i s m i n e r ,该工具是一个g i s 数据库,它采用面向属性的归纳的数据挖掘算法 和关联规则的数据挖掘方法,并且该方法是应用于关系数据库和事务数据库的。 刘伟、田小霞等学者设计的基于c o r b a 的数据挖掘工具。而另一方面的学者, 他们主要研究工具的应用性,研究一些企业或学术机构研发的数据挖掘工具的功 能应用,例如:邓英等开发了两类工具,即w e b 数据挖掘工具和文本信息挖掘 工具,汤海鹏等介绍了专业航空遥感图像处理系e r d a s 和d b m i n e r 的特点。王颖 等开发了可视化数据挖掘工具叫e f v i z ,它的基本功能包括数据导入与导出、 数据分析、顾问、词表工具等等,并以肺炎支原体为例介绍了该工具的用法【4 】。 1 3 研究内容 本文主要研究三种算法技术,分别为预处理算法,数据挖掘算法,可视化技 术的算法。将数据挖掘可视化方法以类的方式组件化,将数据挖掘算法按分类算 法和聚类算法以接口的方式组件化。这样实现了系统的通用性和可扩展性。分析 各种可视化技术的优缺点。其主要研究内容如下: 可视化技术。可视化技术多种多样,基于几何的技术,面向图标的技术,基 于层次的技术,面向象素的技术等等。研究几种典型的可视化模型,如包括平行 坐标技术,星型坐标系技术,多边形技术,散点图技术。分析各个可视化技术的 优缺点,适用范围。通过可视化的展示,分析数据,分析算法,从而调整预处理 方法,数据挖掘算法。 组件技术。研究中当不断扩充新的数据挖掘算法和数据挖掘模型的时候整个 系统不用重新改动,这时可以采用组件技术,将各种数据挖掘算法,预处理方法, 可视化模型封装起来,将其组件化。通过接口调用不同的数据挖掘算法,从而实 现具体算法和可视化的分离。当完成数据挖掘任务的时候,再调用不同可视化方 法以不同的方式展示出来。 数据挖掘算法。研究典型的数据挖掘算法中的聚类模型、分类模型。聚类是 相似元素的集合,分类是按照种类、等级或性质分别归类。随着系统的不断扩充, 不断增加新的算法。 第l 章绪论 1 4 本文结构和组织 本文具体的章节安排如下: 第一章绪论,简要介绍了可视化数据挖掘的知识背景和国内外研究现状。 第二章进行相关技术研究,简要介绍可视化数据挖掘技术,可技术挖掘系 统的模型,可视化技术,数据挖掘算法。 第三章主要进行数据挖掘系统总体概括,包括设计思路,系统设计原则, 总体设计模块介绍。 第四章主要进行可视化数据挖掘系统详细设计。包括输入模块,预处理模 块,算法选择模块,可视化模块。 。 第五章通过聚类算法和分类算法在各种可视化技术的展示下,比较各种可 视化技术的适用范围,数据挖掘算法的适用范围。 结论对本课题工作的总结和对该领域未来研究的展望。 6 第2 章相关技术研究 第2 章相关技术研究 2 1 可视化数据挖掘技术概述 可视化数据挖掘可以认为是从数据到可视化形式再从可视化形式到人的感 知系统的可调节的映射。可视化数据挖掘指的是利用可视化的方式检查、理解交 互式数据挖掘算法,它包括数据可视化和可视化数据挖掘。数据挖掘中的可视化 技术分为两类:科学计算可视化和信息可视化。科学计算可视化指的是运用计算 机图形学和图像处理技术,将计算过程中产生的中间数据和计算结果以图形或图 像的方式展示到屏幕上。信息可视化指的是用合适的设计和方法映射显示出来, 这个映射是从数据信息到可视化形式再到人的感知系统的可调节的映射。它反映 了多维数据与数据之间和多维数据相互之间的关系。信息可视化就是要处理一些 具有抽象性的对象,在这些对象中发现信息中的一些模式、聚类、区别与联系、 趋势等等。 可视化数据挖掘是指利用可视化技术从大量数据集中选用特定的数据挖掘 算法发现其中隐含的和有用的知识的过程。可视化数据挖掘的基本思想是将数据 库中的每一个数据项作为图形元素输出,大量的数据项就构成数据图像,同时将 数据的各个属性值以多维数据的形式来表示。可视化技术对数据挖掘有很大帮 助,可视化数据挖掘其中一部分是指将数据挖掘的过程可视化,用户可以利用通 过可视的交互手段灵活的选择后台的数据挖掘算法。可视化数据挖掘实现了数据 可视化和数据挖掘之间的一种更紧密的结合,运用各种技术包括( 计算机图形学、 图像处理技术) ,将数据挖掘源数据、中间结果和最终挖掘的结果转换为直观易 于理解的方式表现出来,并进行交互处理的理论、方法和技术。可视化数据挖掘 从不同的维度观察数据,从而对数据进行更深入的观察和分析p j 。 2 1 1 数据挖掘和可视化技术的分类 2 1 1 1 数据挖掘的分类 数据挖掘按照数据挖掘方法来分类,包括聚类分析方法、机器学习方法、统 计方法、探索性分析、遗传算法( g e n e t i ca l g o r i t h m ) 、神经网络( n e u r a ln e t w o r k ) 方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方 法、现代数学分析方法、粗糙集( r o u g hs e t ) 方法、集成方法等。 数据挖掘按照数据挖掘任务来分类,包括分类或序列模式发现、数据总结与 北京工业人学- 学硕f :学位论文 聚类发现、关联规则发现、依赖关系或依赖模型发现、相似模式发现、预测模型 发现、混沌模式发现、异常和趋势发现等。 数据挖掘按照数据挖掘对象来分类,包括空间数据库、关系数据库、面向对 象数据库( o b j e e t o r i e n t e dd a t a b a s e ) 、多媒体数据库、时态数据库、文本数据源、 异质数据库、遗产数据库以及w e b 对象的挖掘等。 数据挖掘按照所能发现的知识来分类,包括广义型数据挖掘、预测型数据挖 掘、差异型数据挖掘、关联型数据挖掘、偏离型( 异常) 数据挖掘、不确定性知 识等 6 1 。 2 1 1 2 可视化技术的分类 ,按照数据的属性,将可视化技术分为一维数据可视化,二维数据可视化,多 维数据可视化。一维数据可视化是指一些简单的线性数据,包括某一列基于时间 变化的数据,某一列整齐排列的文件,或者是一行行的计算机程序语句。二维数 据可视化是指在空间中包括两种属性的数据。例如物体尺寸包括宽度和高度,物 体在空间中的方位包括x 轴和y 轴等等,二维数据的可视化实例多种多样,如标 明城市位置的地图、档库里面的一批相关文档合建筑物的楼层平面图等等。多维 数据可视化顾名思义,是指包含有三个以上属性的数据,在二维空间上显示三维 或者三维以上的数据的图形口1 。 多维数据的可视化方法多种多样,如基于几何的技术,基于图标的技术,基 于层次的技术,基于象素的技术等等。其中基于几何的技术包括几何投影技术和 几何变换技术,几何投影技术是基于图形的投影和变换数据的可视化,它包括投 影追踪、三点图矩阵、r a d v i z 方法、平行坐标法等等。基于图标的技术是将每 一个数据项对应为一个图标,图标的各个特征包括大小,颜色,形状对应于每个 数据性的值,将这些图标按照某种特定的顺序连接起来,连接之后就构成了基于 图标的技术,它包括c h e m o f f f a c e 8 】【9 】方法,形状编码,彩色图标,粘沾图等等。 基于层次的技术是指按照层次把空间分割成一个一个的子空间,这样不断的划分 下去,它包括分层轴线,t r e e m a p 【1 0 1 ,锥形树等等。基于像素的技术是指将数据 值映射到像素上,典型的例子是圆形分段技术【1 1 】。 2 1 2 可视化数据挖掘系统 可视化数据挖掘系统有单一的和联机的两种形式,单一的可视化数据挖掘系 统是由如下几部分组成:知识展示层,控制层,数据源层,待挖掘数据层,挖掘 层,知识评价及知识库层。 2 1 2 1 知识展示层 知识展示层主要是指数据挖掘的可视化,以可视化的形式显示数据挖掘的各 个过程给用户。数据挖掘的可视化是指利用可视化技术从大量的数据集中发现隐 含的和有用的知识。它主要包括数据的可视化、挖掘过程的可视化和挖掘模型的 可视化。重点是数据挖掘过程的可视化,用户通过可视的交互手段调用后台的数 据挖掘算法,分析数据挖掘算法得到的结果,再修改参数,直到最满意的结果出 现为止。可视化数据挖掘实现了可视化技术和数据挖掘之间的一种更紧密的结 合。可视化方法包括基于几何技术的可视化方法,基于图像技术的可视化方法, 基于像素的可视化方法等等。 2 1 2 2 控制层 控制层控制数据挖掘系统的整个过程,是核心部分。使整个系统按照一个顺 序井然有序的执行,维持各个部分之间的关系。首先分析数据挖掘的任务,根据 其特点采取具体问题具体分析,采用合适的数据集,预处理方法,数据挖掘算法, 参数设置,可视化技术,等等。 2 1 2 3 数据源层 数据源层是针对数据的操作,包括对数据进行定义、维护、访问和修改,将 对数据源的操作从其他层中分离开来,为了让数据库能够集成到数据挖掘系统 中,主要采取四种方式,包括无耦合的,松耦合的,半松耦合的和紧耦合的。 数据源服务器可以选择特定的数据库管理系统( d b m s ) ,也可以选择多种 平台,或者联合的数据库构成。例如,d b m s 可以是m i c r o s o f ts q l s e r v e r 的数 据库,但处理客户端不同来源的数据采用m i c r o s o f to d b c 和o l e d b 的技术。 数据集的选取e t l 要求非常高。数据源层需要有e t l 接口,这样可以保证算法的 准确率高。 2 1 2 4 待挖掘数据层 该层为数据挖掘层提供数据集,主要是数据挖掘的预处理过程,为数据挖掘 任务前提供合理合法合要求的数据集。数据预处理主要包括数据清理、数据集 成、数据变换、数据规约。数据集经过预处理过程后,更合适进行数据挖掘操作。 2 1 2 5 挖掘层 挖掘层是数据挖掘系统的核心,主要完成数据挖掘模型的生成工作。该层采 用了组件技术来实现数据挖掘算法及其管理。该层包含常规的数据挖掘算法。主 要包括概念类描述、关联规则分析、分类及预测、聚类分析、孤立点分析和演 变分析等等,并且具有可扩展性,能不断增加新的算法。当前比较成熟的组件技 术主要有c o m d c o m 、e j b j a v ar m i 和c o r b a i i o p 1 2 j 。 北京t 业大学工学硕士学位论文 2 1 2 6 知识评价及知识库层 知识评价出现在数据挖掘结果之前,作用在于去掉一些无用的数据挖掘的结 果。它的度量标准主要包括有效性、新颖性、潜在性、有用性和最终可理解性。 数据挖掘系统挖掘的知识模式经过知识评价后存储在知识库中以便于知识模式 的重用。d m g 组织( t h ed a t am i n i n gg r o u p ) 提出了预言模型标记语言p m m l t l 3 】 ( p r e d i c t i v em o d e lm a r k u pl a n g u a g e ) 【1 4 】更加有利于不同数据挖掘系统间知识模 式的共享。 2 2 可视化技术 2 2 1 平行坐标系技术 平行坐标系是指以二维形式表示1 1 维空间的数据可视化方法。它的基本思想 是将n 维数据属性用n 条等距离的平行轴映射到二维平面上,每条轴线对应一个 属性维,坐标轴的取值范围从对应属性的最小值到最大值均匀分布,这样,每一 个数据项都可以用一条折线段表示到n 条平行轴上【1 5 】。当不同类型的数据采用不 同的颜色显示时,可以清晰地显示不同类型的数据之间的差异。需要注意的是在 显示之前需要对源数据进行转换处理。平行坐标系的数据类型一般可以分为两 种,连续数据和实义数据【1 6 1 。 平行坐标系的数学思想就是将n 维数据点映射到处于n 条平行的坐标轴上的 彼此相连的n 1 条线段。这n 1 条线段与n 条轴相交的n 个点分别代表了数据点 的n 维数据。这条折线用方程表示出来如公式2 1 所示。 ( x l a 1 ) u t = ( 耽一a 2 ) u 2 = = ( x n - a n 坳n ( 2 - 1 ) 由上面的公式可以推导出如2 2 所示, x i + l = m _ ;x i + b , i = l ,2 ,n 一1( 2 2 ) 其中,聊严甜f + l u f 表示斜率,6 尸似i + 1 - m f a f ) 表示在施+ lx 平面中尬+ l 轴上的 截距【l5 1 ,如图2 - 1 所示。 1 o4 4 隐 2 21 ,oo 3 07 94 1摹725 c - s e p a l - l e l w l hs e p a b l - l c l l hp e t a l q e n o l hp 臼卜_ n 帅 图2 1 平行坐标系 f i g u r e2 - 1p a r a l l e lc o o r d i n a t e s 刷技术分为两种,一种是基于普通平行坐标的刷,另一种是基于分层平行坐 标的刷。刷技术的作用是突出显示数据中的一部分,在平行坐标系中突显需要强 调的一部分折线,不明显的显示其他的折线。这样的目的是突出显示用户所需要 的一部分,更清晰的了解局部的规律。 交换坐标轴,主要目的是发现数据间的关系,将属性关系较密切的坐标轴放 在相邻的位置分析信息,这样做的效果是更好得展示属性之间的关系。当不知道 属性之间的相互关系的时候,可以通过多次调换坐标轴次序的方法,将坐标轴反 转和隐藏的方法,这样可以发现不同属性间隐含的关系,进行数据分析。 维放大和维放缩是两种技术。当数据量很大,或者局部刷技术之后,局部显 示不是很清晰,需要将局部的区域以全局的方式展现出来。可以采用维放大的方 式。反而如果数据量小并且分散开来的时候,如果采用维缩小的方式进行集中观 察数据,便于发现数据之间的规律【1 7 】。一方面用局部的平行坐标系图,一方面用 全局的平行坐标系图,将二者结合起来,全面理解数据。 数据的抽象是指对平行坐标系中的数据用数据的平均值来表示。用数据的平 均值来度量数据的中心趋势,这是对数据的一种抽象。在普通的平行坐标系中, 如果采用一系列折线的平均值( a v e r a g e ) 来绘制坐标系时,可以突出显现数据的 特性,加强理解,显示数据的特性。 上卷和下钻使数据呈现不同的详细程度,从不同的层次上观察和分析数据的 的特点【1 8 】【19 1 。 2 2 2 散点图技术 散点副2 4 1 是一种成对比较数据值的可视化方法。它把数据集中的每一条记录 ( 行) 映射成二维或三维坐标系中对应的图形实体。散点图映射的是点而不是将 北京丁业大学工学硕七学位论文 点连接起来的直线。散点图反映原因与结果的关系,表示两者之间的关系。横坐 标表示数据的原因,纵坐标表示数据的结果,横坐标的值由左向右渐渐增多,纵 坐标的值由下到上渐渐增多,从对属性的两两比较中得到隐含的信息。利用散点 图技术,可以发现两个变量之间是否具有对应关系,数据当中是否存在孤立点以 及数据当中是否存在聚类等问题等等。散点图矩阵是由属性的个数决定的。如果 有k 个属性,则创建一个包含k 行k 列的散点图矩阵,其中每行每列均唯一定义 一个散点图。通过观察第i 行、第,列的散点图来获得变量x i 和变量x j 之间的关 系。 2 2 3 星型坐标系技术 星形坐标系是一种将n 维数据映射到一个二维平面的多维坐标轴图形,它 的基本思想是在二维平面的圆上以圆的中心为圆点,绘制相同角度的轴作为坐标 轴,每个轴长度相同,夹角也相同,轴的长度与数据值成比例,最小值映射到圆 点,最大值映射到轴的另一端,计算单位向量。通过调整轴长和角度,可以调整 数据集在二维平面上的分布,从而实现数据分析的过程【2 l 】【2 2 1 。 星型坐标系的数学思想是通过定义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年外教聘用合同范本
- 2025资阳劳动合同续签申请书
- 教师招聘之《幼儿教师招聘》模拟卷包及参考答案详解(夺分金卷)
- 建筑工程防渗方案(3篇)
- 教师招聘之《幼儿教师招聘》能力检测及参考答案详解(综合题)
- 2025年冷拉钢项目合作计划书
- 教师招聘之《幼儿教师招聘》考试综合练习及参考答案详解【基础题】
- 虚拟现实应用创新创业项目商业计划书
- 冷链物流配送网络创新创业项目商业计划书
- 教师招聘之《幼儿教师招聘》考前冲刺练习试题及参考答案详解【满分必刷】
- 鼻腔冲洗护理技术团体标准解读
- GB/T 41130-2021展览场馆安全管理基本要求
- 湘美版美术一年级上册全册课件
- 环境经济学(张)课件
- 人才管理-人才选用育留课件
- 成功八步课件
- 玉石床垫讲稿课件
- 初中音乐七年级上册第一单元 红岩魂走进歌乐山
- 栈桥修复方案(全文)
- 某五星级酒店单项工程经济指标
- 电气一次设备吊装搬运施工方案
评论
0/150
提交评论