(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf_第1页
(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf_第2页
(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf_第3页
(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf_第4页
(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机应用技术专业论文)领域知识在辅助知识发现过程中的初始聚焦问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 用于数据分析与挖掘的数据可能包含数以百计的属性,其中大部分属性与数据挖掘 任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而 费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留下不相关 属性,会导致知识发现的模式质量很差。此外,不相关或冗余的属性增加了数据量,减 慢挖掘进程。如何在大量属性中选择与知识发现任务相关的属性数据,从而提高知识发 现的效率,完成知识发现的聚焦问题,是本文的主要研究内容。 本文将领域知识应用于知识发现的初始聚焦问题上,采用基于粗糙集理论的属性约 简算法通过属性约简来完成知识发现的初始聚焦问题,其主要内容和创新如下: 1 研究了领域知识与知识发现的关系,领域知识在知识发现各阶段的作用,重点 研究了应用于知识发现初始聚焦问题的领域知识的分类、表示和存储,以及领域知识在 知识发现初始聚焦问题上的应用算法; 2 为了提高分类的准确性,重点研究了基于粗糙集理论和条件熵的离散化算法; 3 在对一般的可辨识矩阵算法研究的基础上提出了改进算法,去掉了可辨矩阵中 不起作用的重复元素,降低了算法的时间复杂度,提高了算法的运行效率; 4 研究了基于属性重要性的启发式算法,其中重点研究了基于信息熵的属性约简 算法,提出了基于领域知识权重大小的属性约简算法,加入了用户的偏好,方便了算法 与领域专家的交互; 5 在此基础上,开发了基于领域知识的知识发现初始聚焦系统,将该系统应用于 铝电解槽生产数据的分析中,取得了良好的效果。 关键词:知识发现,领域知识,属性约简,初始聚焦 北方工业人学硕士学位论文 i 沁s e a r c ho ft h ei n i t i a lf o c u s i n gq u e s t i o no fk n o w l e d g ed i s c o v e i yi l l d a t a b a s eu n d e rd o m a i nk n o w l e d g e a u x i l i a r y a b s t r a c t d a :t a1 l s 。df o rd a t a 锄a i y s i s 锄dda _ t a 血血gm a yc o n t a i nh u n d 捌so f 砌b u t e s ,m o s to f w l l i c ha r en o tr e l a t e dt 0m i n i n gt a s k s w i 】i l e 懿p e r t si f lt 1 1 e 丘e l dc a l lp i c kt l l eu s e 彻a t t 曲u t 销, b u t t l l i s m a y b e ad i m c l l l ta i l d t i m 伊c o i l s 眦血g t a 啦e s p e c i a l l y w h e n w e d o n o t k l o w m e a d s o f d a t a o i l l i s s i o no fr e l e v a n t 砷m e sw i l ll e a dt op i rq u a l i 够o f 1 em o d e l h la d d i t i o 玛 i 玎e l e 啪to rr a 如1 d a n t 砌b u t e sm a yi i l 。 l s ev o l u l n eo fd a t a 锄ds l o wd o w n l em 嘶n g p r o c e s s h o wt os e l e c t l ea h 抽u t e s 恤c hi sr e l e v a mt 0m e 乜l s l ( o fh o w l e d g ed i s c o v e 彤 l h e r 曲yi l l l p r 响g t 1 1 ee 伍c i e l l c yo fk n o w l e d g ed i s c o v 钮y ,肌dc 。i m p l e c em ef 0 c 吣p b l e mi s m em a i l lc o n t e n to f 1 i sa r t i c l e t 1 l i sp a p e ru s ed o m a nk n o w l e d g ea n da t t m u t e 删o na l g o r i t h i i lb a s e do nm l j 醣s e t t 1 1 e 0 巧t 0s u 啊) o r th l o w l 矗i g ed i s c o v e 叫p c e s sa i l dc o m p l e t e 廿1 ef o c u sp i - o b l e 脚o fk d d ,、析l l em 血c o n t e n t 舭di 1 1 n c i 、馏t i o na r ea sl b l l o w s : 1 r e s e 砌t l l er e l 撕0 i l s :h i pb e t w 嘲d o m a i nh l o w l e d g e 锄dl ( 1 1 0 w l e d g ed i s c 0 、,e 巧,m e r o l eo fd o m a i nk n o w l e d g em 删o u ss t a g eo fd a t am i n i n 吕1 ec l a s s i 6 c 撕。玛s h o w ,s t o r a g ea n d u s i i la 1 鲥m mo fd o m a i nh o w l e d g e 、v i l i c hu s e dt 0 跚p p o r th o w l e d g ed i s c o v e 巧p r o c e 鼹a n d c o m p l e c e l e 南c u sp r o b l e m so fi d ; 2 h lo r d e rt oi l t l p r o v em ea c c u r a c yo fc l a s s i f i c a t i o i l ,“sp 印e rr e s e a r c h e dn l ed i s c r e t e a l g 嘶w l l i c hb a s e do nr o u 曲s e cm e o 巧肌dc o n d i t i o n se n 臼o p ) ,; 3 g i v em ei i l l p r o v e da l g 嘶no fm eg e n e r a li d e m i 6 e dm a n 戗a 1 9 0 r i 1 i n ,1 en e w a l g o r i t l l l n 彻n 0 v e dm er 印e a t e da n dn o n - 劬c t i o n 面e l e m e l l t si i l l ei d 训6 。dm a t r i xa n d r e d u c e dm et i i l l e 唧l e x 时如di i i 】啊o v e dm eo p 蹦l t 崦e f i i c i c yo f m ea 1 9 0 ; 4 r e s e a r c :hs e v e r a li n s p i r e da l 昏丽m m 帕c hb 舔e do nm e i n l p o n 锄c eo f 砷匝b u t e s ,f o c 憾 o nm er e d u c t i o na l g o r i 廿】1 1 1b a s e do nm f o 肌撕o ne n n o p y ;百v el h ed o m a i nk n o w l e d g e 砌b u t 骼 r e d u c t i o na l g o d t l l m ,l en e wa l g 耐岫j o i i lm eu s d sp r e f e r e n c ea 1 1 d 伍c i l i t a t em ei 1 1 t e r a c t i o n 研mt 1 1 ed o m 血e ) 【p e r t s ; 5 b a s e do n 1 e 南m l e r 删o n a l g o r i 1 i i l ,b u i l tt 1 1 eh o w l 。d g ed i s c o v e 巧f o c u ss y s t e i i l , l es y s t e mi su s e di i la l w l i l l i u me l e c o l y s i sp 1 0 d u c d o nd a t aa n a l y s i s ,h a 、,ea c l l i e w dg s i o d r e ! m l t s k e yw o r d s :k n o w l e d g ed i s c o v e r y ,d o a i n j nk n o w l e d g e ,a t t 订b u t er e d u c t i o n ,i i l i t i a i f o c u s - 3 - 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得j e 友王些盔堂或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:i i i 、砰,签字日期:) 。孵年5 且站日 学位论文版权使用授权书 本学位论文作者完全了解j 垦虚王些太堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权j 匕友王些太堂可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:积战书 签字日期渤。器成彳日 学位论文作者毕业后去向: 工作单位: 通讯地址: 签字日期;z 绰f 胁日 电话: 邮编: 北方工业大学硕士学位论文 1 引言 1 1 概述 随着电子计算机、数据库、网络通信等技术的发展,人们积累了海量的资料。但是 在信息提取及其相关处理技术方面却相对大大落后,导致存储的数据使用率非常低。如 何快速有效地实现分析和处理数据,从中提取隐含的知识,一直以来是智能决策领域的 研究热点。在这种情况下,知识发现和数据挖掘等新的智能数据处理技术应运而生,并 在理论和应用领域都取得了一定的成果。因此,知识发现和数据挖掘是实际应用中需求 推动下的跨学科发展的产物。 1 2 课题背景和意义 1 2 1 研究背景 当今社会正处于信息化、网络化、经济全球化的时代,为各行业带来了新的机遇和 挑战,知识经济是这一时代的显著特征。随着计算机应用的普及,数据库技术的广泛应 用,网络和通信等信息技术的高速发展,信息化水平迅速提高,商务贸易电子化、企事 业单位和政府事务电子化等产生了大规模的数据。同时不断增长的科学计算和大规模的 工业生产流程也产生了海量的数据。一方面,日益成熟的数据库系统和数据库管理系统 都为这些海量数据的存储和管理提供了技术保证;另一方面,计算机网络技术的长足进 步和规模的迅猛增长,则为数据的传输和远程交互提供了技术手段。这些都表明在信息 化的世纪,人们在生成、采集和传输数据等方面的能力迅速提高。 但是,人们在信息提取及其相关处理技术方面却相对大大落后。在信息爆炸的年 代,更多的信息意味着更多的竞争。随着全球化竞争的加剧,谁能更快更好地做出决 策,谁就会占得先机赢得胜利。在某种程度上,数据意味着最宝贵的资源,是催生决策 的源泉,基于信息的决策能力是最核心的竞争力。然而,未能充分利用的海量数据并不 是财富,而是意味着沉重的负担。 面对着日益增长的海量数据,无论在时间意义上还是在空间意义上,传统的基于统 计学的数学分析手段难以应付,只能获得这些数据的表层信息,而不能在对数据充分理 解的基础上获得数据属性之间的内在关系和隐含信息。这样人们就无法理解并有效地使 用这些数据做出决策、预测未来的发展趋势,从而导致“数据冗余而知识贫乏 【l 】的现 北方:l :业大学硕士学位论文 象。因此,迫切需要新的技术和工具,以便将隐藏在大量的数据背后的很多有价值的、 具有决策意义的知识或信息智能且自动地抽取出来。 知识发现便应运而生并得到迅速发展,由于蕴涵知识的信息大多数存储于数据库 中,数据库知识发现,又称为数据挖掘,成为当前知识发现的主要研究课题。数据挖掘 是指从大量的、不完全的、有噪声的、模糊的和不确定的实际应用数据中挖掘出隐含 的、有规律的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非 平凡化过程z - 。 数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习和统计学等多个领 域的理论和技术【3 1 。它利用各种分析工具从海量数据中发现模型和潜在关系,帮助决策 者进行预测和决策。但是,用于数据分析的数据可能包含数以百计的属性,其中大部分 属性与挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是 一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或 留下不相关属性是有害的,会导致所用的挖掘算法无所适从。这可能导致发现的模式质 量很差。此外,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程【4 j 。如何在大 量属性中选择与知识发现任务相关的属性数据,从而提高知识发现的效率,完成知识发 现的聚焦问题,是本文的主要研究内容。 1 2 2 研究意义 知识发现的每一个阶段的进行都是以前一阶段任务的成功完成为必要条件,数据属 性选择即知识发现的聚焦的作用在整个的知识发现过程中十分重要。这种重要性体现 在: ( 1 ) 提高了数据挖掘的效率:数据挖掘要处理的数据量通常是十分巨大的,成百上 千的表,上百万条记录。更多的属性意味着高维的搜索空间,从而导致组合爆炸。属性 值之间的关系变得更加复杂,这些因素都使得搜索知识的代价极高。通过对数据进行属 性选择,如运用采样的方法处理大规模数据,可以获得了较高的计算效率,或根据问题 的定义或相关知识选择出需要的属性从而降低要处理的维数,使得数据挖掘处理代价大 大降低【5 1 。 ( 2 ) 提高挖掘出知识的质量:在实际的商业数据库中,由于人为因素的影响,如数 据的手工录入以及主观选取数据等的错误,使得数据具有噪声,带噪声的数据会影响抽 取的模式的准确性,其错误直接影响到发现的结果。可以通过数据属性选择,对这些噪 声进行过滤,这样就可以避免使错误影响到发现的知识1 6 j 。 2 - 北方工业人学硕士学位论文 ( 3 ) 数据挖掘算法的需要;许多的数据挖掘算法其面向的是离散的属性空间,而实 际的数据库系统中的属性的类别却是多种多样,这样的挖掘算法运行在连续属性上,要 么会影响其处理的精度,要么效率极差,解决的方法就是对其进行属性选择,将连续的 属性转换为离散属性,以便于符号归纳【7 1 。 数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数 据属性选择包含很多方面:一方面是从多种数据源去综合数据挖掘所需要的数据,保证 数据的综合性、易用性、完整性、一致性、数据的时效性,这可能要用到数据仓库的思 想和各种数据预处理技术,另一方面就是如何从现有资料中提炼或者衍生出所需要或者 有意义的指针或者属性,这主要取决于数据挖掘者的分析经验和工具的方便性【8 】。此 外,还包括如何针对不同的算法对数据的特殊格式和规范性要求来转换数据,本文针对 利用粗糙集进行数据属性约简展开研究。 1 3 属性约简概述 用于数据分析的数据可能包含数以百计的属性,其中很多属性与挖掘任务不相关, 这在增加了数据量、减慢挖掘进程的同时,会降低挖掘质量。尽管领域专家可以挑选出 有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚,数据量 大的情况下更是如此。遗漏相关属性或留下不相关属性是有害的,都会导致发现的模式 质量很型w 。 属性约简又叫属性归约、维归约,就是在对发现任务和数据本身内容理解的基础 上,从大量的数据属性中提取出一部分对目标输出有重要影响的属性,即降低原始数据 的维数,从而在尽可能保持数据特征的前提下最大限度的精简数据量,达到改善数据质 量和提高数据挖掘速度的目的u q 。 目前有两种属性约简思路,第一种思路是采用并枝思想,根据原有数据特征,生成 少量的新特征属性代替原有属性集合,主成分分析是一种代表;第二种思路是剪枝,即 选择原有属性的一个子集作为约简结果。主成分分析不象属性子集选择通过保留原属性 集的一个子集来减少属性集的大小,而是通过创建一个新的较小的属性集,将原数据可 以投影到该较小的集合中。主成分分析计算花费虽然低,但是只可处理二维稀疏和倾斜 数据,并且失去了属性约简的直观性【j 。 - 3 北方j i :业人学硕士学位论文 1 4 课题来源 本课题来源于北京市市管高等学校“学术创新团队计划”项目基于知识发现的 模糊专家系统,主要研究、开发基于知识发现的模糊专家系统,在所开发的基于非对称 变论域技术的模糊专家系统基础上,开发相关的数据挖掘算法,如聚类、分类、多维关 联规则、时间序列模式等,将模糊专家系统知识库与数据挖掘结果自动结合,以解决模 糊专家系统规则自动获取的难题,建立通用的、功能强大的模糊专家系统开发平台。本 文的主要研究重点是在领域知识的辅助下,完成知识发现的聚焦问题,而完成聚焦则是 根据粗糙集理论进行属性约简。 1 5 论文主要内容 属性约简是粗糙集理论的核心内容之一,其主要思想是在保持分类能力不变的前提 下,通过知识约简消除信息系统或决策表中不必要的知识,导出问题最终的决策或分类 规则。目前,静态的属性约简算法主要有两类:一类是基于属性重要性的启发式算法, 该算法的基本思路是先计算出核,而后根据其它属性的重要程度依次在核的基础上添加 属性或者根据决策属性对条件属性的依赖程度依次剔除掉那些对分类不产生影响的属 性,直到使所得的属性集与原信息系统或决策表的分类能力相同为止,但该算法往往不 能得到系统的所有约简。另一类是基于可辨识矩阵和可辨识函数构造的属性约简算法, 这种算法的基本思路是利用可辨识矩阵导出可辨识函数,然后求解可辨识函数的析取范 式,该范式中的每一个析取项即为系统的一个约简。算法直观,易于理解,能够计算出 核与所有约简,不足之处是在可辨识矩阵中会出现大量的重复元素,降低了属性约简算 法的效率。 本文共分为六章,各章内容如下: 第一章引言,简要介绍本文的课题背景、研究目的和意义,属性约简的概念,课 题来源以及论文的主要内容。 第二章知识发现概述,概述了知识发现的产生,知识发现的定义,知识发现的过 程,知识发现的任务,知识发现的方法,知识发现的应用以及知识发现的发展趋势等。 第三章研究领域知识在知识发现中的作用,领域知识运用于知识发现的研究现状 和前景。 4 北方工业人学硕士学位论文 第四章介绍粗糙集的基本理论,主要是在属性约简过程中用到的一些基本概念知 识与知识库、不可分辨关系力、近似与粗糙集、下上近似集、正域、负域和边界域、知 识约简、知识的依赖性、信息系统和决策表。 第五章主要研究了应用于知识发现的初始聚焦问题的领域知识的分类,表示和存 储,以及在知识发现的初始聚焦问题上如何运用领域知识。 第六章主要研究了知识发现的初始聚焦问题研究,首先研究对连续属性的离散化 方法,然后研究完成知识发现的初始聚焦所采用的属性约简算法,重点研究了属性约简 的两类算法,第一类基于可辨识矩阵的算法,本章在对基于可辨识矩阵的一般属性约简 算法的研究下,提出了对其改进方法,降低了原算法的时间复杂度,提出了改进的基于 可辨识矩阵的属性约简算法。同时探讨了基于属性重要性的属性约简算法,着重研究基 于信息熵的属性约简算法,然后在其基础上提出了改进算法,基于领域知识得属性约简 算法,根据用户赋予每个属性相对决策属性得权重,从而求出该数据集得属性约简。 第七章给出了应用领域知识的知识发现初始聚焦系统的设计和实现,分别介绍各 模块的设计和功能;最后将该系统用于电解槽的生产数据分析。 第八章总结本文研究内容,并展望未来的研究内容。 5 - 北方工业大学硕十学位论文 2 知识发现概述 2 1 知识发现的产生 据估计,全世界的信息每2 0 个月翻一番,数据库的规模和数量增长得更快。现代 社会几乎一切人类活动的领域都在朝着信息化、自动化的方向发展,由此产生的信息洪 流汇成广阔的信息海洋,大大超过了人们的人工分析能力。信息以数据的形式存储于各 式各样的数据库中,如何分析、理解这些数据,总结、抽象出隐藏在大量数据中的有用 信息,使之真正成为可以利用的宝贵资源,成为一个迫切需要解决的问题。人们寄予厚 望的数据库技术在一定程度上帮助人们有效利用了信息,但数据库基本上是一个检索工 具,只能完成诸如汇总、统计、检索之类的操作,远远谈不上对数据的理解和概括。尽 管利用统计学原理发展的数据分析技术己出现多年,但能够分析发现多种模式的智能技 术还远不成熟。 1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论会上, 针对人们迫切需要新的技术和工具以便从大量数据中智能地、自动地抽取有价值的知识 或信息,科学家们提出了数据库中的知识发现( 1 0 0 w l e d g ed i s c o v e d ,i nd a t a b a s ek d d ) 。 2 2 知识发现的定义 数据库中的知识发现是从数据集中识别出有效的、新颖的、潜在有用的以及最终可 理解的模式的非平凡化过程【l 引。 在上面的定义中,涉及“数据集”、“模式”、“过程”、“有效性 、“新颖 性 、“潜在有用性 和“最终可理解性“。 数据集是一组事实f ( 如关系数据库中的记录) 。 模式是一个用语言l 来表示的一个表达式e ,它可用来描述资料集f 的某个子集。 过程在k d d 中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复 的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性( 仅仅给 出所有数据的总和不能算作是一个发现过程) 。 有效性是指发现的模式对于新的数据仍保持有一定的可信度。 新颖性要求发现的模式应该是新的。 潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统旱可提高经济效 益。 6 - 北方工业大学硕士学位论文 可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、 新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。 “数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e 或k d d ) ”常常和另一个 术语“数据挖掘”一起出现。1 9 6 6 年,p a y y a d 、p i a t e t s k y s h a p i r o 和s m y t h 对k d d 和 数据挖掘的关系进行了阐述:l ( d d 是识别出存在于数据库中有效的、新颖的、具有潜在 效用的、最终可理解的模式的非平凡过程,而数据挖掘则是该过程中的一个特定步骤 【1 3 】。但是,随着该领域的不断发展,研究者们目前趋向认为k d d 和数据挖掘具有相同的 含义,即认为数据挖掘就是从大型数据库中提取人们感兴趣的知识。“数据挖掘”主要 流行于统计界、数据分析、数据库和管理信息系统( m i s ) 界;而k d d 主要流行于人工智 能和机器学习别1 4 。 知识发现是一门来自各种不同领域的研究者关注的交叉性学科,受多个学科的影 响,最主要的包括数据库技术、统计学、人工智能、机器学习、模式识别、高性能计 算、可视化技术、信息科学等。 2 3 知识发现的过程 数据库知识发现过程是一个以知识使用者为中心,人机交互的探索过程。整个过程 如图2 1 【1 5 】所示: i 同丽骶 赞锫挖擅解释评价 l - 医 - 际 致据准备 数撬挖援 解弹评估 。 图2 1 知识发现的过程 2 3 1 数据准备 数据准备可分为三个子步骤:数据选取、数据预处理和数据变换【1 6 】。数据选取的目 的是确定发现任务的操作对象,即目标数据。它是根据用户的需要从原始数据库中抽取 的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、 完成数据类型转换( 如把连续值数据转换为离散型的数据,以便于符号归纳,或是把离 散型的转换为连续型的,以便于神经网络归纳) 等【1 7 1 。当数据开采的对象是数据仓库 时,一般来说,数据预处理己经在生成数据仓库时完成了。数据变换的主要目的是消减 - 7 北方工业大学硕士学位论文 数据维数,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量 个数【1 8 】。 2 3 2 数据挖掘 数据挖掘阶段首先要确定挖掘的任务或目的是什么,如数据总结、分类、聚类、关 联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。 同样的任务可以用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据 有不同的特点,因此需要用与之相关的算法来开采;二是用户或实际运行系统的要求, 有的用户可能希望获取描述型的容易理解的知识,而有的用户或系统的目的是希望获取 预测准确度尽可能高的预测型【1 9 】。完成了上述准备工作后,才能实施数据挖掘操作。需 要指出的是,尽管数据挖掘算法是知识发现的核心,也是目前研究人员的主要努力方 向,但要获得好的采掘效果,必须对各种挖掘算法的要求或前提假设有充分的理解。 2 3 3 解释评估 数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模 式,这时需要将其剔除掉;也有可能模式不满足用户要求,这时则需要整个发现过程退 回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数 值,甚至不得不换一种挖掘算法。另外,由于最终是面向人类用户的,因此可能要对发 现的模式进行可视化,或者把结果转换为用户易懂的另一种表利2 0 j 。 在上述的每个处理阶段,l d 系统会提供处理工具完成相应的工作。在对挖掘的 知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都 可以返回以前的阶段进行再处理。这也再一次说明了数据挖掘过程不是简单的线性流 程,步骤之间包含了循环和反复。 2 4 知识发现的任务 知识发现的两个高层目标是描述和预测【2 1 1 。描述性挖掘试图刻画数据库中数据的一 般特性;而预测性挖掘则根据当前资料进行推导,以进行预测。根据可以发现的模式类 型,将数据挖掘任务归纳为以下几类【2 2 。2 5 】: 1 概念类描述( c o n c 印比! l a s sd e s 谢p t i o n ) 数据库中通常存放大量的细节数据,然而用户往往希望以简洁而精确的描述形式来 观察汇总的数据。这种数据描述可以提供一类资料的概貌,或可将它与其它类相区别。 这种描述性数据挖掘就称为概念描述。 2 分类和回归( c 1 2 l s s i f ic a _ c i o na n dr 哪s s i o n ) 8 北方工业大学硕士学位论文 分类是寻找描述数据类型或概念的模型或函数的过程,以便能够使用这些模型来预 测类标号未知的对象所属的类。这些模型基于对训练数据集( 即类标号己知的数据对象) 的分析而得到,可以用多种形式表示,如分类规则、判定树、数学公式或神经网络等。 回归则是通过具有初值的变量来预测其它变量的值。和分类方法不同的是,分类输 出的是离散的类别值,而回归输出的则是连续数值。 3 聚类分析( c l u s t e ra m l y s i s ) 与分类和回归不同,聚类在处理数据对象时不考虑类标号,而是根据“最大化类内 的相似性、最小化类间的相似性 的原则对数据对象进行聚类或分组的。聚类分析可以 建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 4 关联分析( a s s o c i 撕o na n a l y s i s ) 关联分析用于发现大量数据集中记录之间有意义的关联或相互关系,寻找给定数据 集中项之间的有趣联系。关联规则的支持度和置信度是两个规则兴趣度度量,它们分别 反映发现规则的有用性和确定性。 5 孤立点和演变分析( o u t l i e r 知l a l y s i s 锄de v 0 1 u t j o n 加1 a l y s i s ) 数据库中可能包含一些数据对象与大部分数据的一般行为或模型不一致,称为孤立 点。大部分数据挖掘方法将孤立点视为噪声或例外而丢弃,然而在一些应用( 如欺骗检 测) 中,罕见的事件可能比正常出现的那些更有趣。针对孤立点的资料分析称为孤立点 挖掘。 数据演变分析描述行为随时间变化的对象的规律或趋势,它包括趋势分析、相似性 查找、序列模式挖掘、周期性模式分析等方面。 2 5 知识发现的方法 知识发现受多个学科的影响,因此根据知识发现方法所属领域的不同可以分为以下 几类:数学统计方法,一般是首先建立一个数学模型或统计模型,然后根据这种模型提 取出有关的知识刚;机器学习方法:大多数方法是用人类的认识模型模仿人类的学习方 法从数据中提取知识;面向数据库的方法:利用现有的一些数据库技术和某些专门针对 数据库的启发式方法,提取出数据库中的特征知识;其它方法:如数据可视化技术、知 识表示技术等【27 1 。 具体说来,主要有以下几种资料挖掘技术【2 8 删: 一9 - 北方工业大学硕十学位论文 1 统计方法:统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。 它主要完成总结知识和关联知识挖掘时对关系表中多个属性进行统计分析,找到它们之 间存在的关系。 2 决策树:利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字 段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,在每个分支子集中 重复建树的下层结点和分支的过程,即可建立决策树。 3 卉申经网络方法:在结构上模拟人脑神经元,通过训练来学习,是一个具有联想记 忆功能的非线性模型,可用于分类、回归和聚类等,但用神经网络来进行数据挖掘存在 着以下几个问题:神经网络很难解释:神经网络会学习过度;除非问题非常简单,训练 一个神经网络可能需要相当可观的时间才能完成;建立神经网络需要做的数据准备工作 量很大。 4 覆盖正例排斥反例方法:利用覆盖所有正例、排斥所有反例的思想来寻找规则。 比较典型的有m i c h a l 幽的a q l l 方法、洪家荣改进的a q l 5 方法,以及洪家荣的a e s 方法。 5 粗糙集方法:粗糙集理论是近年来才兴起的研究不精确,不确定知识的表达、学 习、归纳等的方法。粗糙集理论仿真人类的抽象逻辑思维,以各类接近人们对事物的描 述方式的定性,定量或者混合信息为输入,输入空间与输出空间的映射关系通过简单的 决策表简化得到【3 l 】。知识表达空间的简化基于不可分辨关系的思想和知识简化的方法, 它通过考察知识表达不同属性的重要性来确定哪些知识是冗余的,哪些是有用的。总体 上,粗糙集理论基于一个机构关于一些现实的大量数据信息,以对观察和测量所得数据 进行分类的能力为基础,从中发现、推理和分辨系统特点、过程和对象。具体内容将在 后面章节详细讨论。 6 卉申经网络方法:人工神经网络从结构上模仿生物神经网络,以求达到模拟人类的 形象直觉思维的目标。它是在生物神经网络研究的基础上根据生物神经元和神经网络的 特点,通过简化、归纳、提炼总结出来的一类并行处理网络。人工神经网络技术利用其 非线性映像的思想和并行处理的方法,用神经网络本身结构表达输入与输出的关联知 识。它通过不断学习、调整网络结构,最后以特定的网络结构来表达输入空间与输出空 间的映像关系,是一种通过训练来学习的非线性预侧模型,可以完成分类、聚类、特征 挖掘等训练任务。 7 可视化技术:可视化技术基于“一幅图画胜过千言万语 这一事实,利用空间和 非空间的属性( 如:大小、颜色等) 。采用直观的图形方式将信息模式、数据关联或趋势 1 0 北方工业大学硕士学位论文 等呈现给用户。用户可以通过可视化技术交互地观察数据、分析数据关系,进而在一个 相当高的层次上找出数据间可能的关系。近来,随着i n t e n l e t 的爆炸式成长,商业和政 府机构的普遍计算机化,以及数据仓库的发展,可视化技术成为众多商业和技术领域的 基本工具。 8 云模型方法:云是统一刻画语言值和数值间随机性和模糊性的模型,能够在定性 描述的语言值和定量表示的数值间、连续量和离散量问随时转换,较好地解决了数据挖 掘中的知识表示问题。 9 其它方法:概念树方法、遗传算法、模糊论方法、公式发现、s v m ( 支持向量机) 等等。 2 6 知识发现的应用 知识发现即数据挖掘技术从一开始就是面向应用的【3 2 】。目前,在很多领域,资料挖 掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售( 如超级市场) 等商 业领域。数据挖掘所能解决的典型商业问题包括:数据库营销( d a t a b a s em 矾( 曲n 曲、客 户群体划分( c u s t o l n e rs e :g m e n t a t i o n & c l a s s i 丘c a t i o n ) 、背景分析( p r 0 6 l ea n a l y s i s ) 、交叉销 售( c m s s s e l l 岫等市场分析行为,以及客户流失性分析( c 1 1 l 】ma n a l 河s ) 、客户信用记分 ( c r o d i ts c o 血曲、欺诈发现( f r a u dd e t e 甜o n ) 等等。 1 银行和金融部门的应用 在银行和金融业中,信用欺诈的建模与预测、风险评估、收益分析、客户关系优化 以及股票价格、商品价格和金融危机的预测等方面,有着较好的应用。 2 零售部门的应用 零售业是数据挖掘的主要应用领域,如销售、顾客、产品、时间和地区的多维分 析,网站购物的推荐服务,促销商品组合、库存分析、商品排架物、流整合等等。 3 电信部门的应用 由于电信业存在的激烈竞争,利用数据挖掘技术获取帮助变的非常有意义。它的应 用包括盗用模式分析、移动通信欺诈的甄别与预测以及客户的忠诚度分析等。例如,通 过对客户的忠诚度分析,对最有可能跳槽的客户进行针对性的弥补处理留住该客户,因 为保留一个客户要比争取一个新客户便宜得多。 4 生物制药、基因研究的应用 在这一领域,最著名的是基因组的研究,包括d n a 序列间的相似查询、序列比 对、核酸与蛋白质结构和功能的预测分析以及基因组序列信息分析等的研究。 北方j r 业大学硕+ 学位论文 5 科学研究的应用 数据挖掘在科学研究中的典型应用领域是天文学。美国加州理工学院喷气推进实验 室与天文科学家合作,开发了一个用于帮助天文学家发现遥远的类星体的资料挖掘工 具:著名的应用系统s c a t ( s k yh na _ g ec a c a l o 百n ga n da n a l y s i st 0 0 1 ) 。利用s c a t , 天文学家发现了1 6 个新的极其遥远的类星体。 在教育业、航空业、制造业、海关部门、医疗业也都有着广泛的应用。 2 7 知识发现的发展趋势 鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性 的课题。数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和集成 的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘 研究人员、系统和应用开发人员所面临的主要问题【3 3 1 。本节描述一些数据挖掘的发展趋 势,它反应了面对这些挑战的应对策略p 4 3 6 j 。 1 应用的探索:早期的数据挖掘应用主要集中在帮助企业提升竞争能力。随着数据 挖掘的日益普及,数据挖掘也同益探索其它应用范围,如生物医学、金融分析和电信等 领域。此外,随着电子商务和电子市场逐渐成为零售业的主流因素,数据挖掘也在不断 扩展其在商业领域的应用面。通用数据挖掘系统在处理特定应用问题时有其局限性,因 此目前的一种趋势是开发针对特定应用的数据挖掘系统。 2 可伸缩的数据挖掘方法:与传统的数据分析方法相比,资料挖掘必须能够有效地 处理大量资料,而且,尽可能是交互式的。由于数据量是在不断地激增,因此针对单独 的和集成的数据挖掘功能的可伸缩算法显得十分重要。一个重要的方向是所谓基于约束 的挖掘( c o n s 觚缸- b a s e dm i n i n g ) 。它致力于在增加用户交互的同时如何改进挖掘处理的总 体效率。它提供了额外的控制方法,允许用户说明和使用约束引导数据挖掘系统对感兴 趣模式的搜索。 3 数据挖掘与数据库系统、数据仓库系统和w e b 数据库系统的集成:数据库系统、 数据仓库系统和w w w 己经成为信息处理系统的主流。保证数据挖掘作为基本的数据 分析模块能够顺利地集成到此类信息处理环境中,是十分重要的。我们知道,数据挖掘 系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。事务管理、查询处理、 联机分析处理和联机分析挖掘集成在一个统一框架中,这将保证数据的可获得性,数据 挖掘的可移植性,可伸缩性,高性能,以及对多维资料分析和探查的集成信息处理环 境。 1 2 北方工业人学硕+ 学位论文 4 数据挖掘语言的标准化:标准的数据挖掘语言或其它方面的标准化工作将有助于 数据挖掘的系统化开发,改进多个数据挖掘系统和功能问的互操作,促进数据挖掘系统 在企业和社会中的教育和使用。近期在这方面的工作包括m i c r o s o f l so l e d b 衙d a t a m i i l g 。 5 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。系统研 究和开发可视化数据挖掘技术将有助于推进数据挖掘作为数据分析的基本工具。 6 复杂数据类型挖掘的新方法:复杂数据类型挖掘是资料挖掘中一项重要的前沿研 究课题。虽然在地理空间挖掘、多媒体挖掘、时序挖掘、序列挖掘以及文本挖掘方面取 得一些进展,但它们与实际应用的需要仍存在很大的距离。对此需要进一步的研究,尤 其是把针对上述数据类型的现存数据分析技术与数据挖掘方法集成起来的研究。 7 w e b 挖掘:w e b 挖掘的有关问题在相关杂志有过讨论。由于w e ;b 上存在大量信 息,并且w c b 在当今社会扮演越来越重要的角色,有关w e b 内容挖掘、w e b 日志挖掘 和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。 8 数据挖掘中的隐私保护与信息安全:随着数据挖掘工具和电信与计算机网络的日 益普及,数据挖掘要面对的一个重要问题是隐私保护和信息安全。需要进一步开发有关 方法,以便在适当的信息访问和挖掘过程中确保信息安全。 - 1 3 - 北方:i :业人学硕士学位论文 3 领域知识概述 知识发现( 通常也称为数据挖掘) 的定义是从数据集中识别出有效的、新颖的、潜 在有用的、以及最终可理解的非平凡过程【3 7 】。对于知识发现系统来说,系统应该能够自 动为用户发现那些有用的知识。事实上,这样的系统存在着许多困难,因为现实世界的 数据库规模庞大,尽管研究人员提出了许多高校的算法,系统效率在实际应用中仍是困 扰用户的主要问题之一。同时,无用户参与的知识发现系统往往导致从数据集合中发现 了大量的知识,其数量甚至有可能超过数据集合本身。如果系统能够得到并利用一定的 领域知识,就可以用来提供系统自身的学习或发现能力,有目标的进行知识发现,一方 面可以缩小目标搜索范围,提高效率,另一方面可以提高发现模式的兴趣度、可信度。 同时兴趣度和可信度本身也和领域知识有关。因此,领域知识在知识发现过程中具有至 关重要的地位,具有重要的研究和应用意义。 3 1 领域知识的定义 领域知识( d o m a i nl c 幽们e d g e ) 意指一个专门领域重要的问题或概念以及这些问题和 概念之间的相互关系【3 8 】,某个领域的领域知识可以从该领域的专家那里获得,也可以从 其他数据挖掘的结果中提炼。领域知识己被应用于数据库设计,信息查询,关键字抽取 以及数据挖掘结果的分析中【3 8 枷】,起到了很好的优化作用,将领域知识应用于数据挖掘 的过程中,对数据源进行过滤或补充,将有效地减少数据源的样本数量,提高数据源的 质量,从而加快数据挖掘的速度。 3 2 领域知识与知识发现 3 2 1 数据选择 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高知识发现的质 量。对于不同的数据的选择,不仅依赖于知识发现要求本身以及一些通用的知识,而且 更应该依赖于知识发现算法所应用的具体领域的专家经验和知识,针对一种知识发现算 法的具体应用领域定制数据源。 3 2 2 数据预处理 高质量的决策必然依赖于高质量的数据。数据预处理的目的是为数据挖掘准备规范 的、满足挖掘要求的以及符合所应用领域实际的数据源。本质上说,领域知识能够反映 1 4 北方t 业大学硕士学位论文 客观实际的数据挖掘结果,是对该数据源的高度概括,是对隐藏在数据源内部的知识的 一种形式化描述,与领域专家的经验知识相比,它来自实际数据,因而更具客观性。通 过在预处理阶段结合领域知识,可以更有效地清洗原数据集中的“脏”数据和噪音数 据,补充其中被丢失的数据,将多个异地、异构的数据集转换成为数据挖掘所需的数据 源的形式,使数据挖掘在比较规范的数据源中进行。预处理中进行数据清洗时,一个数 据在数据集中是否属于噪音数据,除应用通用的概念如平滑性外,还需要应用领域知识 进行确认,而对缺失值和噪音数据的处理也往往要应用领域知识。比如进行数据归纳, 应用领域知识可以减少数据源中的属性或记录数目,有效地压缩数据源的样本数量。将 领域知识应用于数据预处理过程,旨在提高数据源的质量,使之更加精炼,以加快数据 挖掘的速度。 3 2 3 数据挖掘 领域知识在知识发现过程中,尤其是数据挖掘阶段时非常有用的。首先,需要根据 用户要求,确定知识发现的知识类型,即确定数据挖掘的目标。接着,可以通过领域知 识提供的信息决定目标所在的不同抽象层次,因为对知识

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论