




已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)基于多重关系领域知识的分类问题研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多重关系领域知识的分类问题研究 摘要 数据库规模的急剧增长要求数据挖掘能更有效地搜索与发现问题相关的数 据,使发现的模式更有意义。现在的知识发现算法大多是“从零开始”的无需 领域知识的独立发现,而在实际应用中,存储于用户大脑中或现有数据库中的 领域知识在数据预处理、引导发现过程以提取更有意义的规则、解释发现结果 等阶段都发挥着重要的作用。因此,在知识发现过程中融入领域知识已引起国 内外学者的普遍关注,基于领域知识的知识发现已成为当前数据库中知识发现 的一个重要的研究方向。 概念格是一种完备的知识表示模型,是数据分析和规则提取的有效工具。 本文在对概念格及其扩展模型进行研究的基础上,提出基于概念格及其扩展模 型表示领域知识,从多个概念层次上进行知识发现。本文的主要研究内容如下: 1 详细地讨论了领域知识的各种不同的知识表示模型,探讨了由不同知识 表示模型表示的领域知识在知识发现过程各个阶段中的重要作用,展现了基于 领域知识的知识发现的应用前景及所面临的挑战。 一2 知识发现的实质是发现数据之间的潜在规律性,而这种潜在的规律往往 是在不同的抽象层次上进行描述的,反映了不同粒度上的共性知识。然而,在 知识发现中,数据库中存储的实际数据往往都只停留在某一粒度层次,有的数 据所处的层次较低,难以从宏观的角度反映数据的规律;有的数据所处的层次 较高,隐藏了一些细节上的共性知识。为此,本文提出对目标数据集引入多重 关系领域知识,通过对细粒度信息进行泛化、对粗粒度信息进行展开发现数据 之间紧凑的描述信息。 3 基于概念格这种完备的概念层次模型表示多重关系领域知识,将多重关 系领域知识用于知识发现中分类问题的求解,设计了一种基于多重关系领域知 识的分类算法c sm r d k ,通过实验验证了该算法能发现隐藏在数据内部的共 性信息,有效地提高发现知识的质量。 4 在上述研究工作的基础上,实现了基于多重关系领域知识的分类知识发 现原型系统。 关键词:数据库中的知识发现数据挖掘领域知识概念格分类 i i i t h er e s e a r c ho fc l a s s i f i c a t i o n b a s e do nm u l t i - r e l a t i o nd o m a i nk n o w l e d g e a b s t r a c t w i t ht h ee x p l o s i v eg r o w t ho ft h es i z eo fd a t a b a s e s ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ( k d d ) a r ef a c i n gn e wp r o b l e m ss u c ha s , f o c u s i n g s e a r c ht or e l e v a n tp o r t i o no fd a t a ,m a k i n g t h ed i s c o v e r e dp a t t e r n sm o r em e a n i n g f u la n ds oo n a d d i t i o n a lk n o w l e d g e ,c a l l e dd o m a i n k n o w l e d g e ( d k ) ,i su s e d t o h e l pt h es t e p so ft h ed i s c o v e r yp r o c e s s s u c ha sd a t a p r e - p m c e s s i n g ,f i n d i n gt h es t r o n g r e l e v a n ta t t r i b u t e s ,g e n e r a l i z i n gt h ec o n c e p t st om o r e i n t e r e s t i n gl e v e l s ,g u i d i n gt h ed i s c o v e r yp r o c e s st oe x t r a c tm o r eu s e f u lr u l e s ,i n t e r p r e t i n g t h ed i s c o v e r e dr e s u l t sa n dm a k i n gt h er e s u l t sb em o r cu n d e r s t a n d a b l et ot h ee n du s e ra n ds o o n , s oa st om a k et h ed i s c o v e r yp r o c e s sm o r ee f f i c i e n t l ya n de f f e c t i v e l y h o w e v e r , t h e r e s e a r c ha n da p p l i c a t i o nr e f e r r i n gt ot h i sr e s e a r c hf i e l da r ea tap r i m a r ys t a g e ,t h u sd e s e r v e o u re x p l o r i n ga n df u r t h e rr e s e a r c h k d db a s e do nd k i san e w l yp r o m i s i n gr e s e a r c hf i e l d c o n c e p tl a r i c e ,a l s oc a l l e dg c l ( g a l o i sc o n c e p tl a t t i c e ) i s ac o m p l e t ef o r mo f k n o w l e d g er e p r e s e n t a t i o n i nt h ed i s s e r t a t i o n ,i n c o r p o r a t i n gd o m a i nk n o w l e d g eb a s e do n c o n c e p tl a t t i c ei sp r o p o s e d ,w h i c hi si n t e n dt of i n dt h ei n n e rr e l a t i o n s h i pa m o n ga t t r i b u t e v a l f i e s t h ec o n t e n to f t h ed i s s e r t a t i o ni sa sf o l l o w s : 1 t h er o l eo fd o m a i nk n o w l e d g ei nt h ep r o c e s so fk d di sd i s c u s s e di nd e t a i l b a s e d o nd i f f e r e n tr e p r e s e n t a t i o no fd o m a i nk n o w l e d g e ,t h ee f f e c t a n dt h ec o r r e s p o n d i n g m e c h a n i s mo fu s i n gd o m a i nk n o w l e d g ea r ed i f f e r e n t 2 t h ee s s e n t i a lp u r p o s eo fk d di st of i n dt h ep o t e n t i a lr e l a t i o n s h i pa m o n gd a t at h a t d e s c r i b e di nm u l t ic o n c e p tl e v e t s h o w e v e r ,t h ed a t as t o r e d i nt h er e a lw o r l dd a t a b a s e s c o r r e s p o n dt o ac e r t a i ns p e c i a l i z e dl e v e l ,w h i c hc a n tr e v e a lt h ec o l n m o r li n f o r m a t i o n a m o n gt h e s ed a t a t h i sd i s s e r t a t i o ni n c o r p o r a t e sm u l t i r e l a t i o nd o m a i nk n o w l e d g et h a tc a l l b eu s e dt of i n dt h ei n n e rr e l a t i o n s h i po fa t t r i b u t e si n t ok n o w l e d g ed i s c o v e r ya n du t i l i z e s c o n c e p tl a t t i c ef o rd e s c r i b i n gt h ec l o s e s tr e l a t i o n s h i pa m o n g a t t r i b u t ev a l u e s 3 ac l a s s i f i c a t i o na l g o r i t h mi sa l s op r e s e n t e d ,w h i c hd e m o n s t r a t e st h es u p e r i o r i t yo f u s i n gm u l t i r e l a t i o nd o m a i nk n o w l e d g er e p r e s e n t e db yc o n c e p tl a r i c e 4 b a s e do nt h ew o r ks t a t e da b o v e ,ap r o t o t y p es y s t e mt h a tc a nu t i l i z em u l t i r e l a t i o n d o m a i nk n o w l e d g ei nk n o w l e d g ed i s c o v e r yi nd a t a b a s ei si m p l e m e n t e d k e y w o r d s :k d d ;d a t am i n i n g ;d o m a i nk n o w l e d g e ;c o n c e p tl a t t i c e ;c l a s s i f i c a t i o n 插图清单 图1 1 k d d 的处理过程模型 图1 2 关于地理信息的概念层次 图2 1 数据库中知识发现原型系统的框架 图2 2 领域知识与知识发现过程中各阶段的关系, 图3 1 表3 1 对应的概念格( g c l ) 的哈斯图 图3 2 表3 1 对应的扩展概念格( e c l ) 的哈斯图 图3 3 表3 1 对应的相对约简概念格( r r e c l ) 的哈斯图 图4 1 表4 4 对应的e c l 图4 2 表4 5 对应的e c l 图4 3 由表4 6 构造的初始e c l ( 1 a t t i c e l ) 图4 - 4 相关领域知识的e c l ( 1 a t t i c e 2 ) 图4 5 引入相关领域知识后的e c l ( 1 a t t i c e 3 ) 图5 1 选择目标数据库 图5 2 选择目标数据表 图5 3 显示目标数据表与领域知识表 图5 - 4 不引入领域知识的运行结果截图 图5 ,5 使用多表合并方法引入领域知识的运行结果截图 图5 - 6 使用c sm r d k 算法引入领域知识的运行结果截图 v i i i 4 n”凹弛曲蛇记舛钻甜甜=2 表3 1 表4 1 表4 2 表_ 4 3 表4 4 表4 5 表4 - 6 表4 7 表4 8 表4 9 表4 1 0 表4 1 l 表4 1 2 表4 1 3 表格清单 形式背景示例 某高校研究生信息表 院校信息一 地点相关数据表一 目标数据集一 领域知识集 目标数据集 中间结果l 中间结果2 相关的领域知识表一 实验结果1 实验结果2 三种方法的运行结果对比 c s m r d k 算法在不同阈值时的运行结果 i x 们档扣豫弱钙鼹”趵 独创性声明 本人声明所里交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得盒l b 王些盔堂或其他教育机构的学位或证书而使用过的材料。与我一同j 一 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 签字日期:y 屏怕,日 学位论文版权使用授权书 本学位论文作者完全了解盒胆至些盘堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送挛论文的复印件和磁盘,允许论文被查阅和借阅本人授权金目b 王些太堂可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:1 瘸 签字日期:呜年够月培日 闪翻受鞋 i i 电话 邮编 删 白嘶 门-=i年 “ 轹 瑚 隘 社 鼢 签 致谢 三年的研究生生滔即将划上句号,在这三年的学习和生活中,老师、同学、 亲人、朋发们给予我的关心和帮助将永远留在我美好的记忆深处。 首先,我要衷心的感谢我的导师胡学钢教授。胡老师程这三年中以他在数 矮箍疆矮城深霉懿理谂藏穑瑟霹磺究方羯静良好把握,捂萼| 我甄事辩攀磷究, 使我在研究中少走了很多弯路。胡老师治学态腱严谨、工作作风踏实、举术思 维开阔、知识渊博、见解新颖独到,我在硕士期间所取得的成绩,离不开胡老 师的悉心攒馨窝鼓縻。我的硕士论文也是倾注了麓老魉的大餐心盘,没蠢氇夔 指导与帮助,我是不搿辘完成我豹硬士学位论文的。胡老筛性格上乐躐豁达, 在做人与做事等方面为我们树立了举习的榜样,他经常指导我们要热爱生活、 热心工作,并身体力行,这种耳满目染的熏陶对于我们的一生都将是德宝贵 戆财塞。 在这爨,我要感谢计算机与信息学院人工智能与数据挖撅实验室韵老师们, 感谢马冯对我实验编耧上面的帮助,感谢陈慧、王听娅、胡舂玲、张冬艳、徐 勇、张亮、予海涛,岛你蜘在一起学习生活的点点滴滴都楚像快露难意靛。尽 管我程瑟瓣分开,鸯麓务鑫静工终溺位,毽是亵这三年串建立起来的度谊将如 同一杯美满,随着时间的流逝越存越浓! 感谢0 4 级与0 5 级的师弟师妹们,感 谢实验室每一个成员对我的关心和帮助! 我要裳,洛感谢我熬家人,这么多年来毽餐一弼襞毒主黪欺默戆关心我,不莰 驭物蒺上绘予交持,嚣扶精稗上给予无尽的关爱,鼓舞我不断前进,为我创造 了一个轻松的生活和学习环境。 最后,感谢计算机学院以及梭研究生院老师们的辛勤工作,对所脊绘予我 关心窝零驹豹欢友翻表示深深熬潦懑! v 作者;胡谢筵 2 0 0 6 年4 筠 第一章绪论 数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 以及数据挖 掘( d a t am i n i n g ) 是随着信息技术革命的挑战,特别是i n t e r n e t 的迅猛发展以及数 据库技术的成熟而迅速兴起的研究领域。近些年来,在社会生活的各行各业中 存储了数以百万计的数据,面对这些海量的时间数据、空间数据、w e b 数据、 商业数据,如何获得用户感兴趣的潜在有用的知识,如何为决策支持提供有价 值的信息等,成为数据库中知识发现的主要研究目标。本章主要介绍k d d 的 发展和研究现状,探讨在知识发现中领域知识应用的重要意义,展望数据挖掘 的研究和应用前景。 1 1 引言 近十几年来,随着网络应用的普及、数据库技术的迅速发展以及数据库管 理系统的广泛应用,人们利用信息技术产生和搜集数据的能力大幅度提高,在 社会生产生活各部门中积累的数据越来越多。然而“数据过剩、知识贫乏”i t , 2 , 这些激增的数据本身并不带有任何的信息,但其背后隐藏着的内在规律却苦于 没有智能的数据分析工具而无法发现。数据的爆炸性增长激起了对新技术和自 动发现工具的需求,为了充分利用现有的数据资源,从数据的海洋中发现有价 值的知识,数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 及 其核心技术数据挖掘( d a t a m i n i n g ,d m ) 应运而生,目的在于对数据进行更高 层次、更深入的分析,从大量的、微观的原始数据中提取出精炼的、宏观的知 识,发现有价值的信息,为商业决策提供技术支持,从而利于商业运作,提高 企业的竞争力。 数据库中的知识发现及其相关术语是1 9 8 9 年8 月在美国底特律市召开的第 l l 届国际人工智能联合学术会议( i j c a i 1 1 1 上首次提出的。其后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年相继举行了k d d 的专题学术研讨会。随着k d d 研究的深入,k d d 在学术界和工业界的影响越来越大,国际k d d 组委会于1 9 9 5 年把专题讨论会 更名为国际学术大会,并在加拿大蒙特利尔市召开了第一届知识发现和数据挖 掘国际学术会议( k d d 一9 5 ) ,以后每年召开一次。迄今为止,由美国人工智能 协会主办的国际k d d 会议已经召开了1 l 届,第8 届国际知识发现与数据挖掘 会议( t h ee i g h t ha c ms i g k d di n t e r n a t i o n a lc o n f e r e n c eo nk n o w l e d g e d i s c o v e r ya n dd a t am i n i n g ,k d d 一2 0 0 2 ) 在加拿大阿尔伯达省省会埃德蒙顿召 开。第9 届国际k d d 会议( k d d - 2 0 0 3 ) 于2 0 0 3 年8 月在美国华盛顿召开。 第1 0 届国际k d d 会议( k d d - 2 0 0 4 ) 于2 0 0 4 年8 月在美国西雅图召开。去年, 第l l 届国际k d d 会议( k d d - 2 0 0 5 ) 于2 0 0 5 年8 月在美国芝加哥召开。而在 今年,第1 2 届国际k d d 会议( k d d 一2 0 0 6 ) 将于2 0 0 6 年8 月在美国费城召开。 随着k d d 研究及应用的深入,参加会议的人数已经由最初的二三十人增加到 八九百人,收录论文的比例从2 :1 到6 :l ,研究重点也逐渐从发现方法转向系统 应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,通过 有效融合各种知识发现方法的优点,最大限度地提高知识发现的效率以及发现 知识的质量。亚太地区于1 9 9 7 年在新加坡组织召开了第一次规模较大的k d d 学术研讨会( p a k d d 一9 7 ) ,其后又在澳大利弧的墨尔本召开了第二届亚太知识 发现与数据挖掘会议( t h es e c o n dp a c i f i c a s i ac o n f e r e n c eo nk n o w l e d g e d i s c o v e r ya n d d a t a m i n i n g ) 。此后,每年都召开一次,1 9 9 9 年在中国北京召开 了第三届( p a k d d 一9 9 ) 。从2 0 0 0 年至2 0 0 5 年,亚太知识发现与数据挖掘会议 都在每年的四月或五月左右召开,2 0 0 0 年4 月在日本京都召开了第四届 ( p a k d d 2 0 0 0 ) ,2 0 0 1 年4 月在中国香港召开了第五届( p a k d d 2 0 0 1 ) ,2 0 0 2 年5 月在中国台北召开了第六届( p a k d d 2 0 0 2 ) ,2 0 0 3 年4 月3 0 日到5 月2 日,在韩国汉城召开了第七届( p a k d d 2 0 0 3 ) ,2 0 0 4 年5 月在澳大利亚的悉尼 市召开了第八届( p a k d d 2 0 0 4 ) ,2 0 0 5 年5 月在越南首都河内召开了第九届 ( p a k d d 2 0 0 5 ) 。今年,第1 0 届亚太知识发现与数据挖掘会议( p a k d d 2 0 0 6 ) 于4 月9 日一1 2 日在新加坡召开。 近年来,k d d 在研究和应用方面发展迅速,知识发现的研究已经成为当今 计算机科学与技术研究、应用的热点领域之一。数据库、人工智能、信息处理、 知识工程、智能计算、机器学习等领域的国际学术会议或刊物都纷纷开辟专栏 讨论k d d 领域的最新动态与研究近况。随着k d d 在国际上的兴起,我国也积 极地开展了相应的理论和应用研究,1 9 9 3 年国家自然科学基金首次资助对该领 域的研究项目,目前国内许多学术会议,如中国人工智能大会、数据库学术会 议、机器学习会议等也都将k d d 列为重要的研究方向。 k d d 技术的迅速发展得益于目前全世界所拥有的巨大数据资源,以及将这 些数据资源转换为信息和知识资源的巨大需求【3 】。目前,国外很多计算机公司 都非常重视知识发现产品的开发与应用,i b m 和微软都成立了相应的研究中心 进行这方面的工作。在我国,一些高等院校与科研机构也着力于知识发现理论 模型的构建与改进、学习算法的设计与优化,开展了知识发现理论和应用等方 面的研究。而今,k d d 系统已经广泛地用于市场预测、金融投资、生产控制、 银行、通讯等领域,并产生巨大的经济和社会效益。可以看出,数据挖掘与知 识发现的研究和应用已经受斟了学术界和实业界越来越多的重视,并得到蓬勃 发展,越来越显示出强大的生命力。 1 2 数据库中知识发现概述 随着信息时代的来临,方面是迅速积累的海量数据,另一方面是人们在 信息处理和分析技术上的缺乏,因而迫切需要设计新的技术去分析和理解数据 库中的海量数据,开发新的工具自动地从数据库中发现知识。从数据库中有效 获取有价值的知识成为人们亟待解决的问题。 1 2 1k d d 的定义 自1 9 8 9 年k d d 一词在第1 l 届国际人工智能联合学术会g 义( i j c a i - 1 1 ) 上提 出以来,k d d 的定义随着人们研究的不断深入也在不断地完善,目前较为公认 的定义是w j f r a w l e y 和u s a m af a y y a d 分别在1 9 9 1 年【4 】和1 9 9 6 年 1 】的k d d 会议论文中给出的,即认为: k d d 是从大量数据中提取出有效的、新颖的、有潜在作用的、并最终被人 理解的模式的非平凡的处理过程。 一般认为,从实际数据到发现潜在有用知识的整个k d d 过程由一系列的 步骤组成,如数据准备、模式发现、知识评价及解释等。通常将k d d 中进彳亍 知识发现的阶段称为数据挖掘( d a t am i n i n g ,d m ) ,它是运用具体的算法从数 据中提取模式。而前期的步骤一般认为是数据的预处理,包括数据清理、数据 集成、数据选择、数据转换等,在对含有噪音、不完整、甚至不一致数据进彳亍 数据挖掘时,前期数据的预处理工作可以提高挖掘对象的质量,并最终提高数 据挖掘所获得的模式和知识的质量。在数据挖掘的后期,模式的解释评价以及 知识的合并表示以量化的方式度量模式的可信度和兴趣度,根据应用领域的特 点评价模式的有用性或新颖性,使得知识以更精练、更易于理解的表现形式展 示给用户,为用户更好的理解挖掘结果、辅助决策提供了方便。 在实际应用中,很多场合并不区分数据挖掘与数据库中知识发现的概念, 认为二者是同义词,而另一些人则把数据挖掘看作是整个知识发现过程的一步, 并且是最重要的一步。 数据库中的知识发现涉及许多学科,是多种技术的集成,包括数据库技术、 机器学习、人工智能、统计学、高性能计算、模式识别、神经网络、数据可视 化、信息检索、图像与信号处理和空间数据分析等1 2 l 。自从2 0 世纪9 0 年代中 后期以来,许多软件开发商基于上述理论技术以及市场需求开发了数据挖掘和 知识发现软件工具,从而形成近年来软件开发市场的热点。目前数据挖掘工具 已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的 一个重要的里程碑【3 】。国外比较著名的数据挖掘软件产品主要有:i b m 公司的 i n t e l l i g e n tm i n e r ,s a s 的e n t e r p r i s em i n e r ,s p s s 的c l e m e n t i n e ,s i m o nf r a s e r 大学的d b m i n e r ,s g i 的m i n e s e t 等。在我国,复旦大学德门软件有限公司自 主研制开发了数据挖掘软件a r m i n e r 、d m i n e r 与c i a s i9 1 。 1 2 。2k d d 的处理过程 k d d 的目的是通过对大量数搌使用数据挖掘冀法生成对用户而言有价值 的信息,并以适当的形式表示出来。u s a m a f a y y a d 等人认为数据库中的知识发 现楚一个多阶段的处理模型雒1 ,包禽了交互的、重复的、包括大量由用户决策 的阶段。图l l 是u s a m af a y y a d 等入给密静多阶段处理模羹。 强1 - 1k d d 鹣处理过稔模型 一般采说,k d d :;建程分为拯下a 个处理玲段: ( 1 ) 壬务理解:了解应焉领域,理解藕关麴簇城知识帮先验躲识,麸用户 约角度确寇k d d 过程瓣尽标。 ( 2 ) 数据选择;建立瓣标数据集,帮选择令数据集,关注需要发现嚣交 量或数爆梯本的一个予集。 3 ) 数据鞭处理;包捶去除曝蠢数摄、剿除镫误或冗余数攥,处理缺省及 丢失数据,将数摄准备成所需的表示形式。另岁 ,还可以进行数据约麓和数据 规约,即根据知识发现的目的寻找能够体现数据特点的有用特征。通过降维或 其他的数据转换方法,最大程度地减少所需考虑的窭量的数目。 ( 4 ) 根据k d d 的目标选择特定的数据挖撼任务,如分类,回归,聚类等。 ( 5 ) 确定数据挖掘算法:根据所确定的数据挖掘任务选择邋当的知识发现 算法,包括选取合适的模挺和参数,使得所选择的数据挖掘算法与整个k d d 的目标相一致。 ( 6 ) 数据挖掘:运用选定的知识发现算法从数据中提取出用户感兴趣的模 式,并将这釜模式良一种特定的形式表示出来,如分类蕊瓣、祷等。 ( 7 ) 模式解释评价:解释发现的模式,必要时反复前述步骤。 ( 8 ) 知识表示合著:搀发现的知识以髑户能理熬豹方式黧现给用户,这 期间也甑含对知识盼一致髋梭查,解决潜在的冲突。 上述对k d d 处理过程的划分并非绝对的,各个阶段也并j e 独立的,有些 专家靛穰淹予台并葜孛菜足令除段【5 】,不过这些合并或拆分并没有改变f a y y a d 模型的实质。实际上,根据知识发现目的的需要,k d d 的过程w 以在任懑两个 除段之嘲莛复,即翔果发现繁k 个玲段产生的结果与濒想或期麓分辑的内容有 出入,剐需要用户重复良前的工作,爵淤重葳第k 1 个阶段,谯可以熏簸第1 个阶段到第k 1 个阶段的任意组合。目前k d d 的大部分研究工作都集中在第 六羧段,帮数摆挖撼,透过开震各融嚣效豹数据挖掘雾法静赣究挺裹数攒挖藏 的效率和发现知识的质量。然而在实际应用中,其它备个阶段对数据挖掘算法 的成功威用也同样具有重娶的意义,数据预处理为数掇挖掘提供高质量的数据 游,蠢攘斌译徐叛及知识艇示剐囱矮户提供翳于理解豹宏溪傣惑,获焉辅魏决 策。在知识发现的过程中,领域知识的应用也必不可少,知识发现应以用户为 中心【5 1 ,发现对用户丽言有价值的傣息。用户的参与、专家的搬导、领域特点 静约泰与整个耋垦识发现遘辍密不可分。 f a y y a d 模型怒一个偏技术的模型,该模拟从数据入手,最终得到知识。但 楚该摸羹没鸯薅袭建餐选择这些鼗撂、缮妥鹣黯谖将蘩 霉棱使麓、翔终写凌有 的信息系统集成等方面。程数据挖掘系统的开发中,潦实上遵循的是交叉行业 数据挖搦过程标猴c r i s p d m ( c r o s s i n d u s t r yp r o c e s sf o rd a t am i n i n g ) ,它划更 注重按拳懿应蔫,倡导一季孛由不同僚务维畿翁数据挖攘方法攀,它麸数攒挖掘 技术应用的角度划分数据挖掘任务,更加注熏数据挖掘模型的质量和如何与业 务问题秘结会、如德有效剥鞠挖掘雩寻到豹模型等实际应用孛用户壤关心的翘题。 单麓开发的大部分数据挖掘系统都遵循的是f a y y a d 过程模型。如i b m i n t e l l i g e n tm i n e r ,s a se n t e r p e r i s em i n e r ,d b m i n e r 等,而目前数据挖掘系统的 磅铡翻开发大罄遵锤c r i s p d m 标壤诤1 ,窝s p s sc l e m e n t i n e 葛。 1 2 3k d d 与相关技术的比较 k d d 是一夸多颁壤交叉豹磷窕器瘟震矮域,涉及毒警多学辩,楚多种技术的 集成,包括机器学习、模式识别、人工智能、统计学、专家系统、神经网络等, 其中k d d 主要豹技术支柱为数据瘁、人工智鼹和数理统计。k d d 与这羧领域 的援求密仞相关,健又有一定区剐。下瑶篱要讨论k d d 与这些技术的跑较。 k d d 与机器学习 知谖发现是簸数据中穗联知识酶过程,稀穰嚣学习中静归魏学习也燕觚数 据中提取知识,但二者是有区别的。( 1 ) k d d 是从现实世界中已有的具体数据 中提取知识:而机器学习所使用的是专门为机器学习特别准备的数据,大多经 过专家挑选。( 2 ) k d d 使用来自现实世界数据库中的实际数据,数据量大,因 此学习算法的效率和可扩充性就尤为重要。而且由于数据来自实际数据库,因 此数据的一致性、完整性、正确性很难保证,存在一定的缺失和噪音;而机器 学习的数据一般由专家精心挑选,一般没有或较少出现噪音和缺失数据。( 3 ) 由于k d d 处理的数据来自实际数据库,与这些数据库以及实际应用领域还有 一些相关的领域知识或背景知识,这些知识的合理运用将会显著提高算法效率、 改善发现知识的质量【j 4 j 。 k i ) d 与数据库技术 k d d 与数据库技术都是对数据库进行操作,但是两者也是不同的。( 1 ) 数 据库技术侧重对数据库存储处理的高效率和并发控制的研究;而k d d 则是利 用数据库已经成熟的技术对数据进行分析。( 2 ) k d d 与目前数据库管理系统 d b m s 的作用不同,后者的侧重点是把大量的数据组织起来,以方便用户进行 存取、维护、查询,并对数据的一致性和完整性进行约束;而k d d 则侧重于 对数据库中的数据进行分析,以得到有用的结果。( 3 ) k d d 与数据库中的数据 库报表工具也是不同的,后者只是根据用户的选择对相应的数据进行简单的数 学运算和处理,并以特定的方式提交给用户;而前者是要对这些数据进行由微 观到宏观的统计、分析,企图发现隐藏在数据背后的总体特征和发展趋势,利 用已有的数据对未来进行预测。 k d i ) 与传统的统计方法 尽管统计方法为数据分析提供了一个坚实的理论基础,但对k d d 来说, 仅有统计方法是不够的。( 1 ) 传统的统计方法一般只能处理数值型数据;而对 k d d 而言,由于数据库中存储的不仅仅是数值型数据,因此k d d 不仅要能够 从数值型数据中发现其内在的规律性,还要能够从名词型、结构化的数据中发 现有价值的信息。( 2 ) 统计方法完全是由数据驱动的,依赖于特定分布和独立 性假设,排除了领域知识的参与;而对k d d 而言,领域知识的合理运用是非 常有必要的,能够为用户提供更有价值的信息”j 。 k d d 与专家系统 k d d 和专家系统都需要领域专家或用户的参与,然而从知识获取以及领域 专家在整个过程中的作用等方面,二者也存在差别。( 1 ) 专家系统必须要从领 域专家那里获得知识,或从专家已经解决的问题中进行归纳,得到规则,因此 专家知识的获取以及正确性检验是建立专家系统之前首先要做的工作;而k d d 主要处理现实世界数据库中的数据,它要处理的数据无需额外的获取工作,而 数据的正确性、有效性检验也是交由k d d 的数据预处理来完成的。( 2 ) 专家 6 系统是用已有的知识去解决问题,且它用于解决问题的知识一定是专家系统里 面已存在的、或经过演绎推理能够得到的知识,问题解决之后不会产生新的知 识;而k d d 是用于发现知识的,它运用已有的数据挖掘方法是从大量数据中 发现隐含的、未知的知识。( 3 ) 专家系统完全依靠领域专家的知识,注重经验 第一;而k d d 以现实世界中的数据为依据,虽然强调要使用领域知识,使得 整个k d d 过程有用户的参与、受专家的指导,但是它更注重的还是事实第一。 1 3 数据挖掘 数据挖掘是k d d 过程中的一个步骤,而且是最关键的一个步骤,它是指 运用特定的知识发现算法是从数据中提取隐含的、有价值的模式。目前数据挖 掘主要的研究内容包括基础理论的研究、理论模型的构建、发现算法的设计与 优化、以及针对各种复杂数据类型的挖掘,如结构化和半结构化数据挖掘、w e b 挖掘、多媒体和文本挖掘、空间数据挖掘等等。 1 3 1 数据挖掘的研究内容和基本任务 数据挖掘的任务就是从数据集中发现隐含的、事先未知但潜在有用的模式, 它从一开始就是面向应用的。数据挖掘的任务一般可以分为两类:描述和预测。 描述性挖掘任务刻画数据库中数据的一般特性,而预测性挖掘任务则是在当前 数据上进行推断,阻进行预测。具体来说,数据挖掘的基本任务主要有以下几 种: 分类( c l a s s i f i c a t i o n ) :即区分数据的类别,寻找一个能够描述数据集合典 型特征的模型或函数( 也称作分类器) ,使之能够识别未知数据的类别( c l a s s ) 。 由分类得到的分类规则反映了同类事物所具有的共性特征以及不同事物之间的 差异型特征。目前典型的分类方法主要有决策树、神经网络、粗糙集、贝叶斯 等等。 预测( p r e d i c t i o n ) :根据已知数据的类别去推断其他类别未知的数据的类 别或根据历史的和当前的数据去推测未来的数据。它可以分为两种:( 1 ) 可以 根据分类所构造出的分类模型对其它类别未知的数据进行分类,从而预测这些 数据的类别;( 2 ) 基于时间序列的预测,通过建立统计上的随机模型或建立神 经网络预测模型进行时间序列预测。 关联规则( a s s o c i a t i o nr u l e s ) :它是反映一个对象与其他对象之间依赖或 关联的知识。关联规则发现的任务就是从数据库中发现满足用户指定阈值的强 规则。关联规则挖掘分为两步:第一步是找出目标数据库的所有频繁项集:第 二步是由频繁项集产生关联规则。其中第一步是关联规则发现算法的核心,对 挖掘效率起关键作用,而第二步只是由频繁项集产生关联规则的枚举过程。最 为著名的关联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法【6 1 以及j i a w e ih a n 搓i 当静f p ,g r o w t h 朝。 序列模式( s e q u e n t i a lp a t t e r n s ) :序列模式的概念最早由a g r a w a l _ 釉s r i k a n t 提国 8 1 ,慧捂在多个数据序列审发现共简的幸亍菇模式。每关联痰雯| j 掩掘频繁模 式类似,序列模式挖掘的是频繁出现的序列。例如,对于莱顾客,在序列数据 蓐d 中,窿硒模式发现阐蘧藏楚在该数箔痒中器我所蠢酶额繁痔舞或新春的藏 长频繁序列。r a g r a w a l 称最长频繁序列为序列模式。 聚类( c l u s t e r i n g ) :穰据“备聚集内部数瓣对象闯翁裙能度最大亿和各聚 集对象间的相似度最小化”的基本原则,以及度量数据对象之间相似度的计算 公式,褥数据辩象巅分为若于缎,获露辩未分类静鼗舔进行类澍鹃谈巅。一登 聚炎得以确定,各个对象就作相应的聚炎标记,并概括同一聚类中的各个对象 豹莛霹穗链,麸甏影成娄溺接述。聚类分辑与分类瓣簸大区测在于懿者数据抟 类别是未知的,属于无监督学习,而后糟用于训练的数据类别是已知的,因而 属予蠢整餐学习。 偏离( d e v i a t i o n ) :发现数据中与常规值相比最裔意义的变化。在数据集 串不霹麓掰骞嚣数据嫠帮会袈谈发璎嚣获褥熬搂鍪,辩予舔骛不籍合大多数数 据所构成的规律的数据就称作偏离或异常。在很多情况下,这些数据都被当作 嗓密嚣不予考虑,毽在鸯些场台,翔囊渡欺诲行为戆巍动发瑗、羁终竣老梭瓣 等方面,偏离知识发现往往更有应用价值。发现偏离数据主鬻是利用数理统计 的嘏关知识,根掇从已知数据厨获褥豹概率统讨分布模型确认镶褰数据。 泛化知识( g e n e r a l i z a t i o n ) 泛化知识是一种概括性描述知识,指用汇总 熬、楚洁熬、糖礁鹣方式撰述数援凄震浆类或壤念,扶位子较悠概念瑶靛原始 数据中发现带有营遍性的、位于较高概念层次的宏观知识,反映同类事物的共 固性质,建对数据豹概攒、精炼秘抽象。泛化知识发现豹技术有攫多,热数糕 立方体、面向属憔的归纳( a t t r i b u t e o r i e n t e di n d u c t i o n ,a o i ) 等。数据立方体主 要用于数撰仓库,该方法的基本思想是裳现某燎常用的代价较离的聚集函数的 计算,诸如计数、求和、平均、最大值等,并将这些实现视圈储存在多维数据 库中。既然很多聚集函数需经常燕复计算,那么在多绒数据立方体中存放预先 诗舞好的缩果将徽保证袄速璃应,并可麓活逢掇供不简角度稻不蔺獭象层次上 的数据视图。加塞大s i m o nf r a s e r 大学j i a w e ih a n 提出的面向属性归纳的方法 美穰念层次糖终麓知识袭示形式,在鬓经离值静控镶下逶过穰念屡次褥攀升实 现商层次知识的发现。概念格也怒一种可以用于泛化知识发现的知识簌示形试, 它瑷格豹形式表承现实 鎏器复杂怼象之润豹关系,可巍较毒静概念菇次主发瑷 有价值的倍息。相对于概念层次树而言,概念格对于知识的表示形式更符合客 理 缱界豹特点。 实际上,崮于数据群中存储静数据都是对现实谶乔较低层次的描述,通过 传绞数攥挖攘方法扶这些愿始鼗攥孛得到熬大量描述低鼷次信息静援刘往往无 法满足实际虚用中决策袭对于宏双信息的震波,因北,数据挖掘舨发现笺的知 识都应该可以在不同的概念层次上被发现,并随着概念屡次的提升,从微观到 到宏观,满足不问用户不同层次决策的需要。 1 3 2 数据挖掘的硒究热点 数擐挖掘的鏖照领域菲裳广泛,查鞋金融、毫售、零售、瞧子裔务、气象、 生物等等。鼹前,与应用领域相缝合的复杂类型数据的知识发现是国内夕 知识 发现领域的研究热点。具体包括:空间数据挖掘( s p a t i a ld a t am i n i n g ) 、w e b 挖掘( w e bm i n i n g ) 、文本挖掘( t e x tm i n i n g ) 以及生物信息或基因的数搦挖掘 等等,舅矫领域知谈的含理运用也已经受到研究学者们的广泛关注。 空间数据挖滴:随着空间数据库技术在邋感、地理信息系统等方面韵应用, 嚣盏丰富的英有空黼特秘的数据在一定程度上己超击了入脑的分析能力,因此 空翅数翳挖掇技术应运惑生。空阕数据库存窍大囊空阕对象, 冀空游数据类鼙 以及空间关系进行表示,空间数握具有谗多独套购特性,它繁有接羚、方攮凌 距离信息,相比关系数攒库和事务数据摩,塑问数据库中的数据结构和访问方 法更为复杂,因而相应的数据挖掘算法的研究所遇到的挑战也就更大。 _ _ ? 。 文本挖掘:文本挖搦是信息挖掘的一个研究分支,分析和发现大量非结构 化或半结构化文本中的潜在关系。文本挖掘包括文本总结( 以简洁的形式对文 穑内容迸彳亍摘要藏解释) 、文本分类( 报稻预先定义的分类体系,将文档妇入某 个类爨) 、文本聚粪( 将文档分组,整褥缴肉文档靛稻骰溲最大、缱闯文稻的相 似度最小) 锩。文本挖撼躲一个莛要螅应用场舍鹱是信患检索。 w e b 挖握:筵着网终技零的发震黻及互联薅渣务懿饕及,弼络中不仗存肖 巨大的文档瓷料,还有动态的网夏链接售息与网夏读敷秘馒翅信患等,这羲为 数据挖掘提供了个巨大的信息数据源。然而网页的复杂性远大子任何传统的 文本、动态的链接以及读取和使用信息也在不断更新、而实际上网上只有很小 一部分燕真正有用或相关的,因此,这些都对w e b 挖掘掇出了挑战。 生物信息或蒺因的数据挖掘;近十几年,生物医学研究发展迅猛,研究的 内容大多铡羹于d n a 数据前分析,迸彳亍入类基豳的识别和研究,寻找疾病与 基困豹美联。奎于基蠢豹组合于变万 二,嚣数据挖掘中已经存在类谈的痔剜模 式分板以及蝴应熬检素技术,因l 邈数据撼攘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民族弹拨乐器扬琴课件
- 2023年中考理科模拟试卷解析
- 橡胶管道标识与追踪系统创新创业项目商业计划书
- 智能家居场景模式自定义App创新创业项目商业计划书
- 郑州商学院《幼儿园游戏与活动指导》2024-2025学年第一学期期末试卷
- 河南牧业经济学院《建筑安全学概论》2024-2025学年第一学期期末试卷
- 广东茂名健康职业学院《化工数据处理》2024-2025学年第一学期期末试卷
- 黑龙江冰雪体育职业学院《数据结构与数据库》2024-2025学年第一学期期末试卷
- 成都银杏酒店管理学院《嵌入式系统设计与应用》2024-2025学年第一学期期末试卷
- 潍坊护理职业学院《信息化管理与技术创新》2024-2025学年第一学期期末试卷
- 2025年匹克球裁判试题及答案
- 2025秋苏教版科学三年级上册教学设计(附目录)
- 《初中必读名著导读:《水浒传》核心知识点与深度解读》
- 深圳微利房管理办法
- 诊断学血管检查
- 大连市甘井子区社区工作者招聘笔试真题2024
- 生产安全会议纪要
- 哪个团队收益大+课件2025-2026学年+北师大版(2024)八年级数学上册
- 初中情景教学法教案课件
- 《中华人民共和国传染病防治法(2025年版)》解读
- 智慧校园建设“十五五”发展规划
评论
0/150
提交评论