




已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)领域知识参与数据挖掘预处理阶段的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北方工业大学硕士学位论文 摘要 众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据 等诸多情况,这些数据成了知识发现的一大障碍。因此,数据预处理就成为数据挖 掘过程中非常重要的一环。如果将领域知识应用于数据于处理当中,可以有效地改 善数据集的质量,缩小数据集的样本数量,从而提高数据挖掘的速度和质量。 本论文针对应用领域知识的数据预处理技术进行了深入的理论和应用研究,改 进了部分现有的数据预处理算法,并设计和实现了通用的应用领域知识的数据预处 理系统。主要研究内容如下: 1 、对数据预处理技术的概念和意义做了全面和详细的描述,分析了数据预处理 的各种主要方法,涉及数据清理、数据集成、数据变换和数据规约,并指出了现阶 段数据预处理存在的缺陷; 2 、介绍了领域知识的概念和研究现状,重点给出了领域知识在数据挖掘各个阶 段的重要意义和领域知识的表示方法; 3 、重点研究了面向数据预处理技术的领域知识的分类和表示,将应用于数据预 处理的领域知识分为:范围知识、层次知识、规则知识和数理统计知识,依据此分 类设计了领域知识的基于数据字典和x m l 文件的两层存储结构和存储方法,以及 将领域知识应用于数据预处理过程的通用算法; 4 、着重研究了缺损数据处理和数据离散化两种数据预处理方法,分析了基于聚 类的缺损数据处理算法,使用量化相似关系模型改进了r o u s t i d a 算法,从初始分 割点、最大容忍区间和综合考虑各属性的分割点三个方面改进了属性类别差异数据 离散化算法; 5 、给出了所开发的应用领域知识的数据挖掘系统的框架结构、设计方法及处理 流程,实现了基于领域知识的数据预处理系统。 关键词:领域知识,数据预处理,数据挖掘 北方工业大学硕士学位论文 t h e s t u d yo ni n c o r p o r a t i n gd o m a i nk n o w l e d g e i n t od a t a p r e p r o c e s s i n g a b s t r a c t a sw ea l lk n o w ,u s u a l l yt h e r ea r er e d u n d a n td a t a , m i s s i n gd a t a , u n a 玎t a i l ld a t aa n d i n c o n s i s t e n td a t ai nt h ed a t a b a s e sa n dt h e yb e c o m eag r e a tb a r r i e rt ok d d s oi nt h ep r o c e s so f d a t am i n i n g , d a t ap r e p r o c e s s i n gi so n ek e yp o i l l t u s i n gd o m a i nk n o w l e d g ei nd a t a p r e p r o c e s s i n g , c a ne f f e c t i v e l yi m p r o v et h eq u a l i t yo fd a t as e t s ,r e d u c et h en u m b e ro fs a m p l e so f d a t as e t s ,s oa st oe n h a c et h es p e e da n dq u a l i t yo f d a t am i n i n g t h i sp a p e rf o c u s e so nt h ei n c o r p o r a t i n gd o m a i nk n o w l e d g ei n t od a t ap r e p r o c e s s i n g s o m ei m p r o v e dd a t ap r e p r o c e s s i n ga l g o r i t h mi sg i v e n ,a n da l li n c o r p o r a t i n gd o m a i n k n o w l e d g ei n t od a t ap r e p r o c e s s i n gs y s t e mi sd e s i g n e da n di m p l e m e n t e d m a i nc o n t e n t sa r e a sf o l l o w s 1 t h ec o n c e p ta n ds i g n i f i c a n c eo fd a t ap r e p r o c e s s i n gi sd e s c r i b e dg e n e r a l l ya n d p a r t i c u l a r l y t h em a i nd a t ap r e p r o c e s s i n gt e c h n i q u e s ,w h i c hi n v o l v e dd a t ac l e a n i n g ,d a t a i n t e g r a t i o n ,d a t at r a n s f o r m a t i o na n dd a t ar e d u c t i o n ,a n dd e f e c t s ,a r ei n t r o d u c e d 2 t h i sp a p e ri n t r o d u c e st h ec o n c e p ta n dt h er e s e a r c hs t a t u so fd o m a i nk n o w l e d g e , s i g n i f i c a n c eo fa p p l y i n gd o m a i nk n o w l e d g ei nd a t am i n i n ge v e r yp r o c e s s ,a n dm a i n r e p r e s e n t a t i o no fd o m a i nk n o w l e d g e 3 t h i sp a p e rl a y sas t r o n ge m p h a s i so ns t u d y i n gc l a s s i f i c a t i o na n dr e p r e s e n t a t i o no f d o m a i nk n o w l e d g ef o rd a t ap r e p r o c e s s e s ,s u c ha s r a n gk n o w l e d g e ,h i b e r a r c h y k n o w l e d g e ,r u l ek n o w l e d g e ,s t a t i s t i ck n o w l e d g e ,d e s i g n ss t o r es t r u c t u r ea n da l g o r i t h m h a v i n gt w ol a y e s ,b a s eo nd a t ad i c t i o n a r ya n dx m l f i l e sa n dp r e p r o c e s s e sa l g o r i t h mu s i n g d o m a i nk n o w l e d g e 4 t w od a t ap r e p r o c e s s i n ga l g o r i t h mi n c l u d i n gm i s s i n gd a t ac l e a n i n ga n dd a t a d i s c r e t i z a t i o na r ef o c u s e do n am e t h o do fa p p l y i n gc l u s t e r i n ga l g o r i t h mf o rm i s s i n gd a t a c l e a n i n g ,a ni m p r o v e dr o u s t i d aa l g o r i t h mb a s eo nv a l u e ds i m i l a r i t yr e l a t i o na n da a t t r i b u t e - c l a s sd i f f e r e n c ed i s e r e t i z t i o nw i t ht h r e ei m p o v e da s p e c t s ,i n c l u d i n gt h ei n i t i a lc u t - p o i n t ,t h eg r e a t e s tt o l e r a n c ei n t e r v a la n dt h ec u t - p o i n to fe v e r ya t t r i b t e ,a r er e s e a t c h e d 5 t h ef r a m e w o r k ,d e s i g n i n gm e t h o da n dw o r k i n gp r o c e s so ft h ea p p l y i n gd o m a i n k n o w l e d g ed a t ap r e p r o g r e c e s s i n gs y s t e ma r eg i v e na n di m p l e m e n tt h es y s t e m k e yw o r d s :d a t ap r e p r o c e s s i n g , d o m a i nk n o w l e d g e , d a t am i n i n g - 3 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得j 壁友王些太堂或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:旅致签字日期:掰年歹月髟日 学位论文版权使用授权书 本学位论文作者完全了解j 匕友工些太堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权j 量友王些太堂可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:杂文眨 签字日期:细绛汨髟日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导撇球夏毒 签字日期:柝铲月循 电话: 邮编: 北方工业大学硕+ 学位论文 1 引言 1 1 研究背景 近年来,随着信息技术的高速发展,世界正处于一个“数据爆炸 的时代,人 们积累的数据越来越多,现在面临的问题已经不在是缺少数据,而是数据被淹没 了,正所谓“人们被数据淹没了,却饥渴于知识”【i 】。面对这样的状况,传统的统 计分析和检索工具已经不能满足人们的需要,一个新的研究领域一一数据挖掘 ( d a t am i m n g ) 应运而生。目前,它已成为计算机科学研究中一个十分活跃的前沿 领域,并在市场分析、金融投资、医疗卫生、环境保护、产品制造和科学研究等许 多领域获得了广泛的成功应用,取得了十分可观的社会和经济效益。 但现实中的数据是错综复杂的,总体而言,它们不可避免的存在冗余数据 ( r e d u n d a n td a t a ) 、缺失数据( m i s s i n gd a t a ) 、不确定的数据( u n c e r t a i nd a t a ) 和不 一致的数据( i n c o n s i s t e n td a t a ) 等诸多情况【2 】,这些数据简称为“脏数据 ,成为 发现知识的一大障碍。根据“垃圾进,垃圾出”( g i g o ,g a r b a g ei n ,g a r b a g eo u t ) 原 理,数据的质量就成为了关键问题,提高数据质量就成为提高数据挖掘的精度和性 能的重要手段。因此,在从数据库中挖掘知识之前必须对其进行一系列的预处理工 作。大量的事实证明,在数据挖掘系统中,数据预处理所占的工作量达到了整个工 作量的6 0 至8 0 。【3 】 领域知识( d o m a i nk n o w l e d g e ) 意指一个专门领域重要的问题或概念以及这些问题 和概念之间的相互关系。某个领域的领域知识可以从领域的专家那里获得,也可以从其 它数据挖掘的结果中提练。本质上说,领域知识能够反映客观实际的数据挖掘结果,是 对该数据源的高度概括,是对隐藏在数据源内部知识的一种形式化描述,与单一的领域 专家的经验知识相比,它来自于实际数据,因而更具客观性。将领域知识应用于数据挖 掘的预处理过程中,可以解决整个过程的基点都是“从零开始”的状况,正所谓“名师 出高徒”,能够对数据源进行过滤或补充,将有效地减少数据源的样本数量,从而提高 整个数据挖掘的速度和质量。 1 2 课题来源和研究内容 本课题来源于北京市市管高等学校“学术创新团队计划”项目基于知识发现的 模糊专家系统。本课题主要研究、开发基于知识发现的模糊专家系统,在所开发的基于 非对称变论域技术的模糊专家系统基础上,开发相关的数据挖掘算法,如聚类、分类、 北方工业大学硕十学位论文 多维关联规则、时间序列模式等,建立相关的应用模板在线a g e n t ,利用应用模板的诸 多内建模型迅速完成数据挖掘过程并获得新的知识,通过智能规则连接a g e n t ,将模糊 专家系统知识库与数据挖掘结果自动结合,以期解决模糊专家系统规则自动获取的难 题,建立通用的、功能强大的模糊专家系统开发平台,同时将数据挖掘与生产数据多维 分析系统有机地结合起来,从而形成为企业提供一体化的智能分析、管理、决策、控制 服务的智能软件开发平台,为北京市国有大中型企业服务。系统的框架结构图见图 】。 图i i 基于知识发现的模糊专家系统结构图 我在课题中的主要工作是研究有领域知识参与的数据预处理过程,解决以往数据预 处理都是“从零开始 的状况,进行更有效率和更精确的数据预处理,从而提高整个数 据挖掘的速度和质量。 1 3 论文组织结构 本论文的结构组织如下: 第二章介绍了数据预处理技术的概念、意义、必要性和常用的数据预处理方 法。 第三章主要阐述了领域知识的概念,讨论其在数据挖掘过程中的作用和分类, 强调了其对提高系统的学习能力的作用。同时,综述领域知识的应用现状,并展望 了有关研究和应用的前景。 第四章研究了面向数据预处理的领域知识的分类和表示方法,并根据分类设计 了面向数据预处理技术的领域知识存储结构,进而给出了将相应的领域知识应用于数据 预处理过程的算法。 2 - 北方t 业大学硕士学位论文 第五章重点研究了数据预处理算法中的缺损数据处理方法和数据离散化方法, 改进了基于聚类的缺损数据处理算法、r o u s t i d a 算法和属性类别差异算法。 第六章介绍了应用领域知识的数据预处理系统的框架结构和设计方法。 第七章给出了本课题的总结,并对本课题的进一步研究提出了自己的看法。 3 _ 北方t 业大学硕士学位论文 2 数据预处理技术 从事数据挖掘研究的人都知道数据准备是必不可少的一步。但是,他们往往把主要 的精力用于改进现有挖掘算法或研究新挖掘算法上,很少有人去真正花时间和精力去研 究数据的前期准备工作。其实数据挖掘最后成功与否,数据预处理起到了至关重要的作 用。 2 1 数据预处理简介 2 1 1 系统原始数据中存在的问题 1 ) 杂乱性。 原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标 准的定义,数据结构也有较大的差异,因此,各系统间的数据存在较大的不一致 性,往往不能直接拿来使用。 2 ) 重复性。 对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。 这是应用系统实际使用过程中普遍存在的问题,几乎所有应用系统中都存在数据的 重复和信息的冗余现象。 3 ) 不完整性。 由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的,数据 记录中可能会出现有些数据属性的值丢失或不确定的情况,还可能缺失必需的数 据,而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数据甚至 还具有一定的随机性质。 2 1 2 数据预处理的必要性 一个完整的数据挖掘系统必须包括数据预处理模块。它以发现任务作为目标,以领 域知识作为指导,用全新的“业务模型 来组织原来的业务数据,摈弃一些与挖掘目标 不相关的属性,为数据挖掘内核算法提供干净、准确、更有针对性的数据,从而减少挖 掘内核的数据处理量,提高挖掘效率,提高知识发现的起点和知识的准确度。数据预处 理是数据挖掘前的数据准备工作,一方面保证挖掘数据的正确性和有效性,另一方面通 过对数据格式和内容的调整,使数据更符合挖掘的需要。其目的在于把一些与数据分 析、挖掘无关的项清除掉,为了给挖掘算法提供更高质量的数据。 4 北方工业大学硕士学位论文 目前进行的关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨,而忽视了 对数据预处理的研究。但是一些比较成熟的算法对要处理的数据集合一般都有一定的要 求,比如数据的完整性要好、数据的冗余少、属性之间的相关性小。然而,实际系统 中的数据一般都具有不完整、冗余性和模糊性,很少能直接满足数据挖掘算法的要 求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行 效率,而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此,对不理想的原始 数据进行有效的归纳分析和预处理,已经成为数据挖掘系统实现过程中必须面对的 问题。 2 1 3 数据预处理的概念和意义 在数据挖掘中,数据预处理就是在对数据进行知识发现前,先对将要研究的原始数 据进行必要的清洗、集成、转换、离散和约简等等一系列的处理工作,使之达到挖掘算 法进行知识获取研究所要求的最低规范和标准。 。 通过预处理工作,人们可以使残缺的数据完整,将错误的数据纠正,将多余的 数据祛除,将所需的数据挑选出来并且进行数据集成,将不适应的数据格式转换为 所要求的格式,还可以消除多余的数据属性,从而达到数据类型相同化、数据格式 一致化、数据信息精练化和数据存储集中化。总而言之,经过预处理之后,我们不 仅可以得到挖掘系统所要求的数据集,使数据挖掘成为可能;而且,还可以尽量的 减少挖掘系统所付出的代价和提高挖掘出的知识的有效性与易懂性。 2 2 数据预处理的主要方法 2 2 1 数据清理 数据清理是要去除原数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数 据,去除空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等。主要包 括重复数据处理和空缺值数据处理,并完成一些数据类型的转换。数据清洗可以分 为有监督和无监督两类。有监督过程是在领域专家的指导下,分析收集的数据,去 除明显错误的噪声数据和重复记录,填补缺值数据;无监督过程是用样本数据训练 算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验,完成数据 清洗工作。 数据清洗的另一个重要内容是数据类型的转换,通常是指连续属性的离散化。 一般来说,与类别无关的离散化方法有等距区间法、等频区间法和最大墒法。与类 5 - 北方,f 业人学硕士学位论文 别有关的方法有划分法( s p l i t t i n g ) 和归并法( m e r g i n g ) 等。通过离散化,可以有效 地减少数据表的大小,提高分类的准确性。 2 2 2 数据集成 数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解 决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的 处理问题。由于数据可能来自多个实际系统,所以存在异构数据的转换问题。另 外,多个数据源的数据之间,还存在许多不一致的地方,如命名、结构、单位、含 义等。因此,数据集成并非是简单的数据合并,而是把数据进行统一化和规范化处 理的复杂过程。它需要统一原始数据中的所有矛盾之处,如字段的同名异义、异名 同义、单位不统一、字长不一致等,从而把原始数据在最低层次上加以转换、提炼 和聚集,形成最初始的挖掘数据。 另外,在数据集成中还应考虑数据类型的选择问题,应尽量选择占用物理空间 较小的数据类型,如在值域范围内使用t i n y i n t 代替i n t ,这对大规模数据集来说 将大大减少系统开销。 2 2 3 数据变换 数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数 目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。 规范化指将元组集按规范化条件进行合并,也就是属性值量纲的归一化处理。 规范化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属性 特点,一般可以分为取值连续和取值离散的数值规格化问题:归约指将元组按语义 层次结构合并。语义层次结构定义了元组属性值之间的i s - a 语义关系。规格化和归 约能大量减少元组数量,提高计算效率。同时也提高了数据挖掘的起点,使得一个 算法能够发现多层次的知识,适应不同应用的需要。 我们还可以用多维立方体( d a t ac u b e ) 来组织数据,采用数据仓库技术中的切 换、旋转和投影技术,把初始的数据集按照不同的层次、粒度和维度进行抽象和泛 化,从而生成不同抽象级别上的数据集。 2 2 4 数据规约 有些数据属性对数据挖掘任务是没有影响的,这些属性的加入会大大影响挖掘 效率,甚至还可能导致挖掘结果的偏差。因此,有效地缩减数据是很必要的。数据 简化是在对挖掘任务和数据本身内容理解的基础上,寻找依赖于发现目标的数据的 有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精 - 6 北方工业大学硕士学位论文 简数据量。它主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属 性和记录。 属性选择包括针对属性进行剪枝、并枝、找方程和找相关等操作。剪枝就是去 除对数据挖掘没有贡献或贡献很小的属性;并枝就是对属性进行主成分分析,把相 近的属性进行综合归并处理;找方程就是发现两个或多个数值型属性之间的函数关 系;找相关就是因子分析,在取值无序且离散的属性之间寻找依赖关系,确定某个 特定属性对其他属性依赖的强弱,并进行比较。通过属性选择能够有效地减少属 性,降低数据空间的维数。 数据采样就是进行数据记录之间的相关性分析,用少量的记录集来表示大量的 记录。主要采用统计方法,如简单随机采样、等距采样、分层采样等,对于相同元 组进行归并,并增加必要的支持度属性域。最简单的支持度属性域就是相同元组的 数目,或占总元组的百分比。最后去除那些支持度较低的元组( 可视为例外或噪 声) 。 2 3 现阶段数据预处理的缺陷 实际上,数据挖掘是针对性很强的技术,对于不同领域的应用,数据预处理、 发现规则和模式分析等过程的处理也不尽相同。显然,对应不同的数据集,应如何 进行预处理,应处理成什么种类的数据源,这不仅依赖于数据挖掘要求本身以及一 些通用的知识,而且应该依赖于数据挖掘算法所应用的具体领域的专家经验和知 识,因此,预处理的过程实际是针对一种数据挖掘算法的具体应用领域定制数据源 的过程。而现阶段的数据预处理算法大都是一些通用的算法,没有或很少应用具体 领域的领域知识,基本上所有的算法都是“从零开始的 。如果在数据预处理阶段 应用了某个领域的知识,无疑会提高数据预处理的质量,从而加快数据挖掘的速度 和改善挖掘结果。 7 一 北方工业大学硕士学位论文 3 领域知识 目前的许多数据挖掘大多是“从零开始”的、无需领域知识的独立发现,既没 有发挥已有知识的作用,也没有对以后的发现提供必要的积累。如果系统能够得到 并利用一定的领域知识,就可以用来提供系统自身的学习或发现能力,有目标的进 行知识发现,一方面可以缩小目标搜索范围,提高效率,另一方面可以提高发现模 式或结果的兴趣度、可信度,同时兴趣度和可信度本身也和领域知识有关。因此, 领域知识在知识发现过程中具有至关重要的地位,具有重要的研究和应用意义。 3 1 领域知识的概念 在知识发现系统中,把加入的那些有关指导和限制搜索感兴趣知识的知识称为 背景知识或领域知识,“a d d i t i o n a lk n o w l e d g e a r eo f t e nu s e dt og u i d ea n d c o n s t r a i nt h es e a r c h o fi n t e r e s t i n gk n o w l e d g e w er e f e rt ot h i s f o r m o f i n f o r m a t i o na sd o m a i nk n o w l e d g eo rb a c k g r o u n dk n o w l e d g e 【4 1 。其中,并不把 领域知识和背景知识进行区分。 我们所说的背景知识是指关于客观世界的一般知识,即与研究领域中的问题的 求解没有直接关系的一般知识或常识【5 】,而领域知识指一个专门领域中重要的问题 或概念以及这些问题和概念之间的相互关系【6 】。需要强调的是,所谓的背景知识和 问题求解没有直接关系,是指求解问题时不直接使用的知识,并不是说这些知识与 所求解的问题毫无关系。与研究问题毫无关系的知识在知识发现过程中是没有用处 的。 背景知识和领域知识是相对而言的。领域知识是求解问题时所需要的知识,知 识发现的目的就是要建立和完善领域知识。同时,领域知识在发现过程中也被用来 分析、理解所观察到的事物,从而发现其中包含的原来的领域知识所不能说明的新 的特征或新的现象。另一方面,可以从大量的背景知识中找出与所求解问题有关 ( 不是直接相关) 的知识加以分析,以获取新的知识,并在证实之后,用于补充、 修改原来的领域知识,使原先不完全的领域知识得到完善。因此,背景知识在发现 过程中起到了重要的作用,并在一定条件下可以转化成领域知识。在一个问题领域 中的领域知识,对于另一个问题领域可能就成为背景知识。背景知识不仅能使系统 的性能得到提高,而且可以使系统具有创造能力。 8 北方工业犬学硕士学位论文 3 2 领域知识在数据挖掘中的角色 结合领域知识的数据挖掘是在操作者的主动参与下进行知识发现的过程。知识 发现是在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理 解并加以有目的运用的知识,是社会信息化发展到一定程度的必然产物,是从宏观 角度利用积累数据进行知识抽象的高级阶段。领域知识可以结合到数据挖掘过程的 各个环节中。两者的关系如图3 1 所示。 图3 1 领域知识和数据挖掘过程中各步骤的关系 3 2 1 数据选择阶段 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高知识发现 的质量。对于不同的数计的选择,不仅依赖于知识发现要求本身以及一些通用的知 识,而且更应该依赖于知识发现算法所应用的具体领域的专家经验和知识,针对一 种知识发现算法的具体应用领域定制数据源。 3 2 2 数据预处理阶段 高质量的决策必然依赖于高质量的数据。数据预处理的目的是为数据挖掘准备规范 的、满足挖掘要求的以及符合所应用领域实际的数据源。本质上说,领域知识能够反映 客观实际的数据挖掘结果,是对该数据源的高度概括,是对隐藏在数据源内部的知识的 一种形式化描述,与领域专家的经验知识相比,它来自实际数据,因而更具客观性。通 9 北方丁业大学硕士学位论文 过在预处理阶段结合领域知识,可以更有效地清洗原数据集中的“脏”数据和噪音数 据,补充其中被丢失的数据,将多个异地、异构的数据集转换成为数据挖掘所需的数据 源的形式,使数据挖掘在比较规范的数据源中进行。预处理中进行数据清洗时,一个数 据在数据集中是否属于噪音数据,除应用通用的概念( 如平滑性) 外,还需要应用领域知 识进行确认,而对缺失值和噪音数据的处理也往往要应用领域知识。比如进行数据归 纳,应用领域知识可以减少数据源中的属性或记录数目,有效地压缩数据源的样本数 量。将领域知识应用于数据预处理过程,旨在提高数据源的质量,使之更加精炼,以加 快数据挖掘的速度。 3 2 3 数据转换阶段 数据转换阶段主要工作是找到数据的特征表示,用维变换或转换方法减少有效变量 的数目或找到数据的不变式。除应用通用的转换规则,所应用领域的特殊要求也必须考 虑,转换结果是否符合该领域的实际也需要用领域知识来校验。 3 2 4 数据挖掘阶段 领域知识在知识发现过程中,尤其是数据挖掘阶段时非常有用的,首先,需要根据 用户要求,确定知识发现的知识类型,即确定数据挖掘的目标。接着,可以通过领域知 识提供的信息决定目标所在的不同抽象层次,因为对知识发现的不同要求,决定在具体 的知识发现过程中采用不同的知识发现算法。数据挖掘的第一个步骤是产生假设,有两 种方式,一种是让数据挖掘系统为用户产生假设,另一种是用户自己对于数据库中可能 包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证性的数据挖掘。 选择合适的数据挖掘算法和工具,包括选取合适的模型和参数,并使得挖掘算法与整个 知识发现的评判标准相一致。利用各种数据挖掘工具进行知识发现时,使用领域知识可 以有效地减少数据源的规模,提高知识发现的质量,加快数据挖掘的速度和发现过程。 3 2 ,5 模式解释和评价阶段 这个阶段的主要任务就是根据最终用户的决策目的对提取的信息进行分析,把最有 价值的信息区分出来,并且通过决策支持工具提交给决策者,因此这一步骤的任务不仅 是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,还需要重复以 上数据挖掘过程。因此,解释和评价的手段和方法直接和用户相关。有效的领域知识融 入将使得这一阶段得到相应的支撑和辅助,指导搜索,评估结果模式的兴趣度,使得结 果更有效、更符合用户需要。 - 1 0 北方工业大学硕士学位论文 3 2 6 领域知识的反馈 对于数据挖掘得到的规则或模式,进行模式解释或评价后得到的知识,或者可以直 接作为领域知识,或者可以用于修正原来领域知识中的内容,从而使领域知识具有了一 个反馈的作用。这说明领域知识不仅可以解决数据挖掘的基点都是“从零开始”的状 况,而且可以不断地充实知识库,丰富已有知识库的内容,以便使发现的规则或模式更 客观真实、有效地指导实践。这样的反馈是知识源源不断得到积累和更有效的利用。 使用领域知识可以有效地减少数据源的规模,提高知识发现的质量,加快数据 挖掘的速度和发现过程。但同时,也可能产生矛盾和困难。除了领域知识本身的特 点造成的困难,因为领域知识告诉系统要查找什么,到哪里查找,那么自然也就限 制了查找,可能会阻碍发现一些事先并没有期望但却有价值的知识。其次,发现过 程希望领域知识能提供诸如用户定义的属性值层次结构或者和属性值相关的一些规 则之类的知识,那么这些知识必须是计算机能够识别的形式。针对某一特殊问题领 域使用领域知识,可以产生一些特定的学习算法或者方式,但这些算法或者方式一 旦变换了领域,就可能失效,因此要想找到一种通用的方法是困难的。 3 3 领域知识的表示 领域知识在知识发现和数据挖掘中得到了一定程度的应用,在这些应用中,领 域只是被分类并提供了多种表示方法,以此作为查询或生成规则的过滤器,以优化 查询条件和查询空间,在获得的规则集中筛选用户真正感兴趣的规则【7 1 。 关于领域知识的分类和描述能够有效地将领域知识应用于查询优化和数据挖掘 的规则解析,但是,数据挖掘不完全等同于信息查询,对领域知识的使用方法也不 同于专家系统。因此,领域知识的表示也不尽相同。信息查询是目标驱动的,有明 确的查询要求,因而其优化过程可以根据查询所涉及的属性,应用领域知识对数据 集进行过滤。规则筛选是在挖掘出大量规则的基础上,应用领域知识设定的一些阀 值参数获得更精确的、用户更感兴趣的知识。专家系统中的领域知识种类较多,形 式各异,知识本身又包含各种推理机制。数据挖掘的目的在于揭示隐藏在大量数据 中的知识,一般没有明确的用户要求,某些用户根据经验,对挖掘过程或者结果提 出某些限定。 3 3 1 常用的知识表示方法 对于同一问题可以有多种不同的表示方法,这些表示具有不同的表示空间。在 人工智能领域中,最常用的知识表示方法,包括状态空间法、问题归约法、谓词逻 北方- 丁业人学硕士学位论文 辑法、语义网络法、框架、剧本和过程表示等。知识表示方法对知识发现结果及发 现过程中时空性能影响甚大。 3 3 2 数据挖掘中常用的领域知识表示方法 ( 1 ) 概念层次 领域知识包含的有关数据的信息可以通过一些发现过程或者领域专家来获取。 在数据挖掘和知识发现的实际应用中,应用较多的领域知识是以概念层次来描述。 这种表示方法简单但功能很耐8 1 ,概念分层允许在多个抽象层上发现知识。 传统的概念定义有其广度和深度,必须能涵盖所有属于该概念的对象及属性 【9 】。出于数据挖掘的实际需要,我们将概念简化,凡是能表述为文学词语的都成为 概念,如:“计算机科学”、“动物”等都是概念。在此基础上我们定义概念层次如 下。 定义( 概念层次) :一个概念层次日是一个偏序集( 办, ) ,其中h 是一个有限的 概念集,- 是h 上的一个偏序。 基于这种偏序的最典型的形式是概念树,在文献 8 ,1 0 ,1 1 中已有其应用描述。 然而,在许多实际应用中,也可表示为概念格形式。 概念层次在k d d 中最基本的作用是可以作为一种领域知识作用于k d d 中的各个 步骤,提高k d d 算法的效率和j 下确性,提高知识的准确性和可理解性。其实概念层 次可以作用于k d d 的各个步骤,如利用概念层次进行数据预处理可得到清洁的元数 据。此外,概念层次在数据仓库、知识表示等多个领域担当重要角色。概念分层定 义了一组由底层概念集到高层概念集的映射。它使得原始数据可以在较高的、泛化 的抽象层上进行处理。当某个属性值过多、过细,而挖掘过程又要求该属性值“浓 缩 或者需要对数据集进行汇总时,应用层次之时,依据对应的概念层次,对属性 值进行概念提升,使之提升到理想的层次。数据的泛化或上卷可以通过用较高层概 念替换较底层的概念来实现。这使得用户可以在更有意义、更明显的抽象层次观察 数据,使发现的模式更易于理解。泛化的另一个优点是压缩数据。与在大量的、未 压缩的数据上挖掘相比,在压缩的数据集上挖掘需要较少的i o 操作,并更有效。 如果结果数据过于一般化,概念分层也允许特化或下钻,概念值用较低层的概 念代替。使用上卷和下钻,用户可以用不同的视图来观察数据,洞察隐藏的数据联 系。 概念层次表示某个属性值由细化到粗糙的提升过程,该过程采用概念层次树或 者概念层次图表示,它由领域专家或知识工程师给出,或通过与用户交互的方式建 1 2 北方工业大学硕士学位论文 立。通常,这些映射是面向特定数据或应用的,根据不同用户的特点,可能有多个 概念分层结构。 ( 2 ) 概念层次分类 数据挖掘的实际应用中,通常采用概念层次来表示领域知识。通过分析,概念 层次可分为四种基本类型9 】:模式层次、集合分组层次、范围层次、规则层次。 模式层次:模式层次通过定义属性关系的偏序层次形成。模式层次可以形式的 的表示属性间的语义联系。例如,属性房间号、街道、城市、省份、国家就形成了 一种逻辑上的偏序关系,如地址“中国北京石景山区晋元庄路6 号 ,整个数据定 义了一个模式层次关系:晋元庄路6 号 石景山区_ 北京 中国。 集合分组层次:集合分组层次把具有某些关系的概念实例集( 或属性实例集) 定义为一组,以反映在实际应用领域的语义关系特征。当两种类型的分层结构结合 时,集合分组层次可以用于精炼或丰富模式定义的层次。例如, 硕士生,博士生) 研究生, 本科生,研究生) 高校学生。 范围层次:范围层次表示某个属性的取值范围或操作中定义的集合,它来自于 领域专家的知识、用户要求或聚类分析的结果的反馈。这类概念层次通常都是为数 值属性而定义的。例如, 8 5 1 0 0 _ 条件:= 属性名 操作符 ,= ,) 值域 数值,范围,集合) 4 1 1 范围知识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年通信科技行业通信网络技术发展前景分析报告
- 奶牛乳制品线上销售平台用户体验创新创业项目商业计划书
- 2025年金融科技服务行业智能支付解决方案市场前景分析报告
- 工厂车间岗位技能操作培训教材
- 2025年综合肺功能测定仪行业研究报告及未来发展趋势预测
- 小刺猬理发课件
- 离婚协议中赡养费及子女教育基金分配公证书
- 离婚后子女监护权、探视权及抚养费支付协议
- 夫妻双方出轨离婚财产分割及子女抚养合同
- 热气球驾驶培训考试题
- 围墙装饰墙帽施工方案
- 2025-2026学年粤教粤科版(2024)小学科学二年级上册(全册)教学设计(附目录)
- 企业安全生产费用预算表模板
- 小学生班干部竞选
- 机场消防安全管理培训课件
- 妇科外阴解剖学课件
- (正式版)DB44∕T 2697-2025 《岩土工程勘察安全技术标准》
- 2025年生态环境综合行政执法考试参考题库(附答案)
- QC/T 262-2025汽车渗碳齿轮金相检验
- 畜牧兽医专业毕业论文豆
- T-CFLP 0016-2023《国有企业采购操作规范》【2023修订版】
评论
0/150
提交评论