已阅读5页,还剩63页未读, 继续免费阅读
(计算机科学与技术专业论文)数据挖掘技术的研究及其在plm中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业大学硕士学位论文摘要 摘要 当前,数据挖掘己成为数据库系统研究领域日益受重视的研究主题之一。数 据挖掘技术可以通过对大量的数据进行探索分析,挖掘出有意义的规则,以期对 未来的决策提供适当的参考建议。p l m ( p r o d u c tl i f e c y c l em a n a g e m e n t ,产品 生命周期管理) 是近年来兴起的一种极具潜力的商业战略,它是企业信息化 ( 尤其是制造业信息化) 非常重要的组成部分。在p l m 系统中应用数据挖掘技 术能够很好地提升p l m 的核心竞争力,有利于企业的信息化建设。 本论文从数据挖掘的基本原理和技术入手,对数据库知识发现进行了深入研 究,探讨了几种知识发现的方法,分析了数据挖掘所采用的技术、方法和应用领 域,重点研究了在p l m 中应用数据挖掘技术需要解决的关键问题及解决方法。 本论文按照数据挖掘标准流程c r i s p - - d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s s - - d a t am i n i n g ) 设计了p l m 系统中应用数据挖掘技术的解决方案。该方案采用 基于最大一最小规范化的属性构造方法和基于径向基函数神经网络的数据聚类 方法进行数据预处理,结合p l m 系统数据分析业务,采用基于高频模式树的项 约束关联规则发现方法分析产生次品的潜在因素;采用聚类分析算法 c l i m b ( c l u s t e r i n ga l g o r i t h mb a s e do ns u b s p a c e ) 分析产品的物流数据与产品利润之 间的关系;采用基于信息熵的决策树算法来分析和预测客户给企业创造价值的潜 能,并根据业务数据阐述了这些算法应用于p l m 系统数据分析业务的具体思路。 本文从现代软件工程技术的角度,用面向对象的分析设计方法,对p l m 数 据挖掘系统的体系结构及各功能模块进行了论述,并设计实现了p l m 数据挖掘 系统。 关键字:产品生命周期管理,数据挖掘,决策分析,知识发现 a b s t r a c t西北工业大学硕士学位论文 a b s t r a c t a tp r e s e n t ,d a t am i n i n gh a sb e c o m eah o t s p o ti nd a t a b a s ef i e l d i tc a ne x p l o r ea n d a n a l y z eal a r g ea m o u n to fd a t a , a n dd i go u ts i g n i f i c a t i v ei n f o r m a t i o nt oo f f e rp r o p e r s u g g e s t i o nf o rf u t u r ed e c i s i o n p l m ( p r o d u c t “f c - c y c l em a n a g e m e n t ) ak i n do fi t s t r a t e g yt h a ti se x t r e m e l yp o t e n t i a li nc o m m e r c ei sr i s i n g i nr e c e n t y e a r s i t s s i g n i f i c a n tt oc o r p o r a t i o n si n f o r m a t i o n i z a t i o n ,e s p e c i a l l yt o t h e m a n u f a c t u r i n g a p p l y i n gd a t am i n i n gt e c h n o l o g yi np l mc a np r o m o t et h ep l m sc o m p e t i t i v e n e s s v e r yw e l l ,a n da c c e l e r a t et h ec o r p o r a t i o n si n f o r m a t i o n i z a t i o n i nt h i sc a s e ,t h ek d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s c ) a n ds o m em e t h o d so f k n o w l e d g ed i s c o v e r yb a s e do nb a s i cd a t am i n i n gt h e o r ya r es t u d i e d ,a n ds o m ed a t a m i n i n gt e c h n i q u e sa n di t sa p p l i c a t i o na r ec o n s t r u e di nt h i st h e s i s t h e n ,t h i st h e s i s f o c u s e so nk e yt e c h n i q u e sa n dm e t h o d so f 印p l y i n gd a t am i n i n gi np l m a f t e rt h a t ,t h es o l v i n gs c h e m eo fa p p l y i n gt h ed a t am i n i n gt e c h n o l o g yi np l m b a s e do nc r i s p - d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s s - - d a t am i n i n 【曲i sd e s i g n e d , a n dt h ea t t r i b u t ec o n s t r u c tm e t h o db a s e dm a x - m i ns t a n d a r da n dc l u s t e r i n ga n a l y s i s m e t h o db a s e dr a d i a lb a s e df u n c t i o nn e r v e n e t w o r ka r e a d o p t e d t or e s o l v e d a t a - p r e t r e a t m e n ti nt h i st h e s i s i na d d i t i o n ,b a s e do np l m sd a t aa n a l y s i so p e r a t i o n , t h ea s s o c i a t e dr o l e sm i n i n gm e t h o di sc h o s e nt oa n a l y z et h ep o t e n t i a lf a c t o ro ft h e s u b s t a n d a r dp r o d u c ta p p e a r a n c e ,t h ec l u s t e r i n ga n a l y s i sa r i t h m e t i ci sa p p l i e dt o c o n s t r u et h er e l a t i o nb e t w e e nt h el c i # s t i e sd a t ao ft h ep r o d u c t sa n dp r o d u c t sp r o f i t , a n dt h ed e c i s i o nt r e ea r i t h m e t i cb a s e di n f o r m a t i o ne n t r o p yi su s e dt oa n a l y z ea n d p r e d i c tt h ec u s t o m e r sl a t e n te n e r g yo fv a l u ef o re n t e r p r i s e s f i n a l l y , a c c o r d i n gt od a t a t h em e t h o da n dt h o u g h to fa p p l y i n gt h e s ed a t a m i n i n gt e c h n o l o g yi n t op l m s b u s i n e s si se x p l a i n e d a tl a s t ,b a s i n go na d v a n c e ds o f t w a r e e n g i n e e rt e c h n o l o g y a n d0 0 o o d ( o b j e c to r i e n t e da n a l y s i s d e s i g n ) t h ep l md a t am i n i n gs y s t e mi sd e s i g n e da n d r e a l i z a t i o n i z e d ,a n dt h es y s t e ms t r u c t u r ea n dm o d u l e so fp l md a t am i n i n gs y s t e ma r e d e p i c t e di nd e t a i l k e yw o r d :p r o d u c tl i f e c y c l em a n a g e m e n t ,d a t am i n i n g ,d e c i s i o na n a l y s i s , k n o w l e d g ed i s c o v e r yi nd a t a b a s e i l 西北工业大学硕士学位论文第一章绪论 第一章绪论 1 1 研究意义 数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知 识的热门技术。传统的交易型系统、九十年代兴起的互连网技术及e r p 系统在 越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和 知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有 被充分利用,没有转化成指导生产的“知识”,从而形成“数据的海洋,知识的 荒漠”。显然在这海量数据中拥有丰富的信息,如何处理这些数据得到有益的信 息,人们为此进行了有益的探索。结合了统计学、数据库、机器学习等技术的数 据挖掘技术就是针对上述“知识荒漠”问题而来的。 p l m ( p r o d u c tl i f e c y c l em a n a g e m e n t ,产品生命周期管理系统) 是一种极具 潜力的商业r r 战略,它专注于企业在可持续发展的基础上,如何解决开发和交 付新产品过程中的重大问题。战略上,p l m 是一个以产品为核心的商业战略, 它应用一系列商业解决方案来协同化地支持产品定义信息的生成、管理、分发和 使用,从地域上横跨整个企业和供应链,从时间上覆盖从产品的概念阶段一直到 产品结束其使命的全生命周期;数据上,p l m 包含完整的产品定义信息,包括 所有机械的、电子的产品数据,包括软件、硬件内容等信息;技术上,p l m 结 合了一整套技术和最佳实践方法;业务上,p l m 能够开拓潜在业务并且能够整 合现有的及未来的技术和方法,以便高效地把创新和盈利的产品推向市场;发展 上,p l m 正在迅速地从竞争优势转变为竞争必需品,成为企业信息化的必由之 路。显然,p l m 系统对于各企业都具有意义非凡的影响,有着强劲的推动力, 是促进企业健康发展的有力杠杆。 在企业的信息管理系统中,数据是企业的灵魂、核心。没有数据,再好的数 据管理工具都是虚设;没有结构合理、性能优异的数据库,任何高效的数据管理 工具的优异性能也都无从谈起。然而,如果只有结构合理、性能优良的数据库, 而没有一套“变数据为知识”的策略和工具,那么这些数据也形同废物,尤其是 对那些大型企业而言,他们的数据量常常都数以t ( t b ) 计,甚至数以p ( p t ) 计。如果没有一套优良的数据挖掘工具,他们只能面对浩瀚的信息海洋“望洋兴 叹”,而无法从零乱复杂的数据中找到新颖的知识,做出正确的决策以促进企业 健康发展。 如今,作为现代企业管理系统的新宠,p l m 系统管理着以产品为中心的所有 数据,把握着企业发展的命脉。面对着这浩如烟海,而又至关重要的数据,如果 第一章绪论西北工业大学硕士学位论文 能用一个强大的工具发掘出次品与生产流程、产品与企业发展、客户与企业效益 等关系的内在规律,帮助企业管理者制定正确的决策来指导企业的长远发展,这 对任何一个企业来讲,都无疑是一个天大的福音。数据挖掘就是从大量的数据中 发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废 弃虚伪无用的数据,这是数据挖掘技术的最重要的应用。把数据挖掘技术引入到 p l m 系统中,可以很好地管理并利用海量的数据,用以指导生产,引导企业发 展,并提升p l m 系统的性能和核心竞争力。几经思考,我选择了数据挖掘这一 新兴领域作为我的研究课题。我相信,对数据挖掘技术应用于p l m 系统的研究, 一定能够促进我国加工制造企业在企业信息化方面的发展,并能为国有大中型企 业深化信息化改革提供原动力。 1 2 问题分析 如上所述,p l m 系统引入数据挖掘技术会变得更加富有吸引力,更加有利于 企业信息化的发展,因此在p l m 系统中应用数据挖掘技术是极具发展前景的。 但是,数据挖掘是一个过程不是一蹴而就的任务,而是一种“发现一表示一 再调查”的持续过程。在它的开发、实施过程中都有很多问题需要解决: 1 分析挖掘算法 数据挖掘技术经过近年来的长足发展,其搜索模型、搜索技术和搜索算法都 已经相当成熟。现在,数据挖掘研究出了一些适用的算法,有决策树、神经元网 络、k 个最近邻居( k - n n ) 、和n a i v e b a y e s 等等。另外,统计学与数据挖掘有 着密切的联系,可以从统计学中汲取某些优秀的知识运用于数据挖掘算法的分析 研究。然而,有些数据挖掘算法的效率亟待提高,尤其是对超大规模数据集的数 据挖掘、网络与分布式环境下的数据挖掘和动态数据与知识的数据挖掘等。需要 在研究分析现有算法的基础上,比较哪种算法更适合在p l m 系统中运用,进而 开发出一个数据挖掘工具,使之运用于p l m 系统中,以提高p l m 系统的性能 及市场竞争力。 2 研究挖掘流程 在数据挖掘技术的应用中,不同的业务需要不同的模型和模式结构,因此, 需要按照业务进行数据挖掘模型和模式结构的分析研究。另外,如何有效地集成 数据和算法,灵活地组织数据挖掘流程,是一个非常重要的问题。现有的许多数 据挖掘工具都是采用数据驱动的、单步骤的任务处理方式,它难以描述复杂任务 和进行复杂流程控制,无法满足各种数据挖掘任务的需要。我们需要分析p l m 的业务流程、业务规则,结合常用的挖掘流程,进行业务研究分析,以找出适合 p l m 系统应用的挖掘流程。 3 分析系统架构 两北工业大学硕士学位论文第一章绪论 根据业务需要,p l m 系统是构建在企业内部网( i n t r a n e t ) 之上的,并支持 外部因特网( i n t c m e t ) 上的访问。为了更好地与p l m 系统进行无缝对接,我们 的数据挖掘系统也需要构建在企业内部网( i n t r a n e t ) 上,并支持外部因特网 ( i n t e m e t ) 访问。随着软件工程近几年来的飞速发展,已经有许多优秀、成熟 的架构方案涌现出来。面对这种形式,到底该要用什么样的架构才能既利于用户 的使用,又方便开发商的开发、实旋、维护是一个重要而又棘手的问题。 4 分析开发平台 在计算机技术飞速发展的今天,不仅硬件技术在以几欲超越“摩尔定律”的 速度发展着,软件技术的发展也是马不停蹄,日新月异。随着s u n 的j 2 e e 和 m i c r o s o f t 的n e t 开发平台的问世,软件开发平台的纷争更加火热。因此,需要 综合考量,分析各开发平台优缺点,选择出一个既顺应市场潮流,又适合业务处 理,并且符合企业自身条件的开发平台。 1 3 本文的工作和结构 1 3 1 本文的工作 本文研究的内容围绕p l m 系统的业务应用展开,重点论述了面向p l m 的数 据挖掘应用的构建。具体工作内容如下: 1 论述了数据挖掘技术的研究内容及其具体功能应用,还研究了数据挖掘与 传统分析方法的区别,并对数据挖掘技术的未来研究方向进行了分析; 2 阐述了p l m 的产生背景、商业目标,研究了p l m 系统的管理功能和发展 现状,并对其系统功能、业务范围以及与其它企业管理信息系统的关系进 行了分析; 3 根据数据挖掘标准流程c r i s p - - d m ,利用数据挖掘理论和技术为p l m 数 据挖掘系统建立分析方法与分析模型。首先,采用属性构造方法和神经网 络算法对业务数据进行数据预处理,清理脏数据和不完整数据,为下一步 挖掘工作奠定坚实基础。而后结合产品分类、次品预测和客户分析三种业 务需求,分析选择了适当的数据挖掘算法进行业务处理:采用关联规则挖 掘算法分析产品生产数据,寻找导致次品的原因,及时对生产环节进行修 正,以提高正品率及产品质量;采用聚类分析算法对产品物流数据进行挖 掘,以产品给企业创造价值的大小为度量,对产品进行归类划分,以指导 企业更优化地组织生产:采用决策树算法分析客户数据,按照客户带给企 业的效益大小对客户潜能进行分类和预测。 4 结合现代软件工程理论、数据库技术和组件技术,研究了基于w e b s e r v i c c 技术的p l m 数据挖掘系统的软件设计架构,详细分析了s u n 的j 2 e e 和 第一章绪论 西北工业大学硕士学位论文 m i c r o s o f t 的n e t 两个开发平台,最后研究了p l m 数据挖掘系统的模块设 计和实现。 1 3 2 本文的结构 第一章绪论部分阐述数据挖掘技术应用于p l m 系统这一课题的研究意义、 着眼点和所面临的问题,并概述了本论文的主要工作。 第二章重点研究数据挖掘技术及挖掘算法,并结合近年来数据挖掘算法的发 展及应用,详细阐述了数据挖掘技术的发展及将来的研究方向,并展望了数据挖 掘技术的前景。 第三章从p l m 解决方案的思想谈起,结合现代企业都在积极地加快信息化进 程的现实,着重论述了p l m 系统的作用、功能以及与其他企业信息化系统的关 系,并介绍p l m 解决方案的发展及其在企业信息化进程中的前景。 第四章从工程应用的角度,结合p l m 系统的业务逻辑,研究分析了数据挖掘 技术在p l m 系统中应用的可行性,设计出p l m 系统应用数据挖掘技术的解决 方案。结合p l m 系统数据分析业务,详细阐述了所用的数据挖掘算法。 第五章从p l m 数据挖掘系统业务分析的角度,针对实际业务,结合数据分析, 详细阐述了p l m 数据挖掘系统的数据挖掘模型。 第六章主要是结合p l m 系统和数据挖掘技术,对p l m 数据挖掘系统的构架 进行了设计,分析并选择了m i c r o s o f t 的n e t 为开发平台,详细设计了p l m 数据 挖掘系统的系统结构。最后给出了一些系统实现的主要类和数据结构。 第七章结束语,总结了本课题研究的收获,分析了p l m 系统中应用数据挖掘 技术的后续工作,并对该应用前景进行了展望。 4 西北工业大学硕十学位论文 第二章数据挖掘技术研究 第二章数据挖掘技术研究 2 1 数据挖掘概述 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着 整个人类和社会。如果用芯片集成度来衡量微电子技术,用c p u 处理速度来衡 量计算机技术,用信道传输速率来衡量通信技术,那么摩尔定律告诉我们,它们 都是以每1 8 个月翻一番的速度在增长,这一势头已经维持了十多年。在美国, 广播达到5 0 0 0 万户用了3 8 年;电视用了1 3 年;i n t c m e t 拨号上网达到5 0 0 0 万 户仅用了4 年。全球l p 网发展速度达到每6 个月翻一番,国内情况亦然。1 9 9 9 年初,中国上网用户为2 1 0 万,现在已经达到6 0 0 万。网络的发展导致经济全球 化,在1 9 9 8 年全球产值排序前1 0 0 名中,跨国企业占了5 1 个,国家只占4 9 个。 有人提出,对待一个跨国企业也许比对待一个国家还要重要。在新世纪钟声刚刚 敲响的时候,回顾往昔,人们不仅要问:就推动人类社会进步而言,历史上能与 网络技术相比拟的是什么技术呢? 有人甚至提出要把网络技术与火的发明相比 拟。火的发明区男l j 了动物和人,种种科学技术的重大发现扩展了自然人的体能、 技能和智能,而网络技术则大大提高了人的生存质量和人的素质,使人成为社会 人、全球人。 现在的问题是:网络之后的下一个技术热点是什么? 让我们来看一些身边俯 拾即是的现象:纽约时报由6 0 年代的1 0 2 0 版扩张至现在的1 0 0 2 0 0 版, 最高曾达1 5 7 2 版;北京青年报也已是1 6 4 0 版;市场营销报已达1 0 0 版。 然而在现实社会中,人均日阅读时间通常为3 0 4 5 分钟,只能浏览一份2 4 版的 报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量, 难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形 式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人 们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信 息利用率? ”面对这一挑战,数据开采和知识发现( d m k d ) 技术应运而生,并 显示出强大的生命力。 另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人 们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高 效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手 段,最终导致了“数据爆炸但知识贫乏”的现象。 第二章数据挖掘技术研究西北工业大学硕士学位论文 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商 业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问, 进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶 段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在 联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入 使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:海量数 据搜集、强大的多处理器计算机和数据挖掘算法。另外,f f i e d m a n 1 9 9 7 歹l j 举了 四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣i l i : 1 超大规模数据库的出现,如商业数据仓库和计算机自动收集的数据记录; 2 先进的计算机技术,如更快和更大的计算能力和并行体系结构; 3 对巨大量数据的快速访问; 4 对这些数据应用精深的统计方法计算的能力。 因此,数据挖掘技术蓬勃发展起来。数据库技术也在一步步进化中,从商业 数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。在表 1 1 中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶 段的数据库技术已经可以快速地解答商业上的很多问题了。 表1 1 数据挖掘的进化历程 进化阶段商业问题支持技术产品厂家产品特点 数据搜集“过去五年中我的总计算机、磁带和磁 提供历史性 ( 6 0 年代1 收入是多少? ”盘 i b m , c d c 的、静态的数 据信息 数据访问 “在新英格兰的分部 关系数据库在记录级提 去年三月的销售额 ( r d b m s ) ,结构 o r a c l e 、s y b a s e 、 供历史性的、 ( 8 0 年代) 化查询语言 l n f o r m i x 、m m 、 动态数据信 是多少? ”m i c r o s o f t ( s q l ) ,o d b c息 “在新英格兰的分部 在各种层次 数据仓库;决策去年三月的销售额联机分析处理 p i l o t 、c o m s h a r e 、 上提供回溯 支持是多少? 波士顿据( o l a p ) 、多维数-a r b o r 、c o g n o s 、 的、动态的数 ( 9 0 年代) 此可得出什么结据库、数据仓库 m i c r o s t r a t e g y 据信息 论? ” 数据挖掘 “下个月波士顿的销高级算法、多处理 售会怎么样? 为什器计算机、海量数 p i l o t 、l o c k h e e d 、i b m 、提供预测性 ( 正在流行)s g i 、其他初创公司的信息 么? ” 据库 经过了这十多年的发展,数据挖掘算法也已经成为一种成熟,稳定,且易于 理解和操作的技术,数据挖掘的核心模块技术( 其中包括数理统计、人工智能、 机器学习) ,加上高性能的关系数据库引擎以及广泛的数据集成,让数掘挖掘技 术在当前的数据仓库环境中进入了实用的阶段。数据挖掘其实是一个逐渐演变的 西北工业大学硕士学位论文 第二章数据挖掘技术研究 过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当 时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功 解决的问题作为范例输入计算机,机器通过学习这些范佣总结并生成相应的规 则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网 络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那 样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规 则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得 到的成果,但它有投资大、效果不甚理想等不足。8 0 年代人们又在新的神经网 络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业 数据库。随着在8 0 年代末一个新的术语,它就是数据库中的知识发现,简称 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。它泛指所有从源数据中发掘模式或联系 的方法,人们接受了这个术语,并用k d d 来描述整个数据发掘的过程,包括最 开始的制定业务目标到最终的结果分析,而用数据挖掘( d a t am i n i n g ) 来描述使 用挖掘算法进行数据挖掘的予过程。但最近人们却逐渐开始使用数据挖掘中有许 多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机 的结合起来。 2 2 数据挖掘的定义 认知学研究表明,一个事物详尽确切的定义和说明对于全面正确地认知该事 物是很有帮助的。下面本文就从数据挖掘的定义谈起,来深入研究数据挖掘技术。 2 2 1 定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程【2 1 。它也是一种新的商业信息处理技术,其主要特点是对商 业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取 辅助商业决策的关键性数据。与数据挖掘相近的同义词有数据融合、数据分析和 决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声 的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用:并不 要求发现放之四海皆准的知识,仅支持特定的发现问题即可。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数 据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异 构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的, 7 第二章数据挖掘技术研究 西北工业大学硕士学位论文 也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程 控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人 们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数 据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发 现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有 发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要 能够易于被用户理解。最好能用自然语言表达所发现的结果。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经 有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外, 由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限 制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这 些数据不再是为了分析的目的而收集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商 业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决 策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过 深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的 先进有效的方法。 2 2 2 研究内容 随着d m k d 研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三 根强大的技术支柱:数据库、人工智能和数理统计。因此,k d d 大会程序委员 会曾经由这三个学科的权威人物同时来担任主席。目前d m k d 的主要研究内容 包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表 示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及 网上数据挖掘等【1 】。 数据挖掘所发现的知识最常见的有以下五类: 1 广义知识( g e n e r a l i z a t i o n ) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性 西北工业大学硕上学位论文第二章数据挖掘技术研究 质,是对数据的概括、精炼和抽象。 广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。 数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“o l a p ”等。 该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求 和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函 数需经常重复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快 速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。另一种广义知 识发现方法是加拿大s i m o n f r a s e r 大学提出的面向属性的归约方法。这种方法以 类s q l 语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据 集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性 闽值控制、计数及其他聚集函数传播等。 2 关联知识( a s s o c i a t i o n ) 它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之 间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名 的关联规则发现方法是r a g r a w a l 提出的a p d o f i l 3 】算法。关联规则的发现可分为 两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用 户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值 的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最 大的部分。 3 分类知识( c l a s s i f i c a t i o n & c l u s t e r i n g ) 它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是 一种有指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成决策树。如 果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复 该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结 点是带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习 系统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法c 4 5 和c 5 0 都是i d 3 的扩展,它们将分类领域从类别属性扩展到数值型属性。 数据分类还有统计、粗糙集( r o u g h s e t ) 等方法。线性回归和线性辨别分析 是典型的统计模型,在数据分类中也有广泛的应用。另外,为降低决策树生成代 价,人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库 中进行分类和规则提取1 4 j 。 4 预测型知识( p r e d i c t i o n ) 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以 9 第二章数据挖掘技术研究西北工业大学硕士学位论文 认为是以时间为关键属性的关联知识。 目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和分析方法,这些经 典的数学方法通过建立随机模型,如白回归模型、自回归滑动平均模型、求和自 回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序 列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅 通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的 预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现 存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立 新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。 5 偏差型知识( d e v i a t i o n ) 此外,还可以发现其他类型的知识,如偏差型知识( d e v i a t i o n ) ,它是对差异 和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚 类外的离群值等。所有这些知识都可阻在不同的概念层次上被发现,并随着概念 层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。 2 2 3 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的 信息应具有先未知、有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些 不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越 是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过 数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 2 3 数据挖掘技术功能及应用 与统计学相比,数据挖掘技术的发展不是很久远,但是随着近些年来计算机 科学的迅猛发展,数据挖掘技术的发展也取得了长足的进步。现在较为流行的常 用技术有以下几种: 1 人工神经网络 人工神经网络是对人类大脑系统的一阶特征性的一种描述。简单地讲,它是 一个数学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智 能研究的一种方法。它仿照生理神经网络结构的非线形预测模型,通过学习进行 模式识别。它的特点和优越性,主要表现在三个方面: 1 ) 具有自学习功能。例如实现图像识别时,只在先把许多不同的图像样板 西北工业大学硕士学位论文第二章数据挖掘技术研究 和对应的应识别的结果输入人工神经网络,网络就会通过自学习功能, 慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预 期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益 预测,其前途是很远大的。 2 1 具有联想存储功能。人的大脑是具有联想功能的。如果有人和你提起你 幼年的同学张某某,你就会联想起张某某的许多事情。用人工神经网络 的反馈网络就可以实现这种联想。 3 ) 具有高速寻找优化解的能力。寻找一个复杂问题的优化解,往往需要很 大的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥 计算机的高速运算能力,可能很快找到优化解。 数据挖掘中技术中,应用最为广泛的模型是前馈神经网络( f e e d f o r w a r d n e u r a ln e t w o r k ) ,也就是多层感知器( m l p ) 。m i j p 结构提供了从实数的输入向 量x 到实数的输出向量y 的非线性映射。因此,m l p 可以用作回归问题的非线 性模型,也可以通过对输出数据作出恰当的解释来用于分类。 2 决策树 决策树是一系列的树状结构的列表集,它由树根,树叶,内部节点,树枝组 成。它根据一定的算法( 如:最大的熵减少量,x 2 统计量,基尼系数等) 自动 对数据收集信息,选择对当前决策所含信息最多的判别属性,并用它来制定判别 规则,代表着决策集的树形结构。 在数据挖掘算法中,决策树比神经网路好在它可以生成一些规则,当我们进 行一些决策,同时需要相应的理由时,最好使用决策树。常用的算法有c a r t 、 c h a i d 、i d 3 、c a 5 、c 5 0 等1 5 】。 3 遗传算法 遗传算法是一类模拟生物进化的智能优化算法,它是由j h h o l l a n d 于六十年 代提出的。目前,遗传算法已成为进化计算研究的一个重要分支。与传统优化方 法相比,遗传算法的优点是: 1 ) 群体搜索 不需要目标函数的导数 3 1 概率转移准则 数据挖掘技术中的遗传算法应用是基于进化理论,并采用遗传结合、遗传变 异、以及自然选择等设计方法的优化技术,主要是进化算法,遗传神经网络算法 等。 4 关联规则挖掘算法 关联规则的概念首先由r a g r a w a l 等人在1 9 9 3 年首次提出【6 i 。其一般定义如 第二章数据挖掘技术研究两北工业大学硕上学位论文 f : j = 1 1 ,1 2 ,i m ) 是一项目集,d 是一事务数据库,其中每个事务t c - - j 。每 个事务都有一个标识符,称之为t i d 。若a 一是项目集,当且仅当a - - t 时,我 们说事务t 包含了a o 一条关联规则就是形如a 。b 的蕴含关系,其中a c j , b c j 且a n b = 妒。如果d 中包含a u b 的比例是s ,就称关联规则a b 在d 中的支持度为s ,也可以表示为概率p ( a u b ) ;如果d 中包含a 的同时也包含 b 的比例是c ,则说关联规则a b 的置信度为c ,表示为条件概率p ( b i a ) 。 就是: s u p p o r t ( a 4 b ) = p ( a u b ) c o n f i d e n c e ( a b ) = p ( b i g ) 支持度( s u p p o r t ) 和置信度( c o n f i d e n c e ) 两个阈值是描述关联规则的两个 重要概念,支持度反映关联规则在数据库中的重要性,置信度衡量关联规则的可 信程度。 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型;基于规 则中数据的抽象层次,可以分为单层关联规则和多层关联规则;基于规则中涉及 到的数据的维数,关联规则可以分为单维的和多维的。 关联规则是描述数据之间存在关系的规则,形式为“a 1 a a 2 八a n ? b i 八 b 2 八b n ”。一般分为两个步骤:1 求出大数据项集。2 用大数据项集产生关 联规则。常用的挖掘算法有:经典频集方法,f p g d 叭h 【7 】方法,m i n _ h a s h i n g ( m h ) 1 3 方法,l o c a l i t y 的关联规则,我们将o l a p 和d a t a m i n i n g 技术结合在一起形成了新的体系 o l a m ( o n l i n e a n a l y t i c a lm i n i n g ) 方法。从关联规则中我们可以挖掘出他们之 问的相互关系【8 】,形成知识,进而指导生产。 另外,除了上述的四个常用方法外,还有粗糙集方法,模糊集合方法,b a y e s i a n b e l i e fn e t o r d s 算法,最邻近算法( k - n e a r e s tn e i g h b o r sm c t h o d ( k n n ) ) 等。采用上 述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对 的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数 据仓库和联机分析系统中去了。 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖 掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能: 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Python大数据可视化方法与实践课件 第3章 对比与趋势可视化
- 2026安全产品面试题目大全及答案
- 锅炉安全检查培训课件
- 2025年区块链溯源在冷链物流的应用
- 期末综合测试卷(二)《思政 心理健康与职业生涯》(高教版) 答案
- 隔离酒店保洁外包合同
- 广东省江门市2026年高三语文一模考试试卷(含答案)
- 中级注册安全工程师《安全生产技术》高频考点
- 2026年CATTI考试真题历年真题
- 2026年药学考试问答试题及答案
- 2026年北京市石景山区初三二模英语试卷(含答案及解析)
- 广告牌安装外包合同
- GB/T 47328.3-2026乳及乳制品感官分析第3部分:产品感官特性符合性评价评分法
- 2026汽车后市场行业格局与消费趋势研究报告
- 2025年中国海洋大学辅导员和专职党政管理人员招聘考试真题
- 2026年山东省济南市历下区中考化学二模试卷(含答案)
- 2026国家粮食和物资储备局招聘面试题库
- 2026年超星尔雅学习通尔雅文艺复兴史试卷押题宝典试题附答案详解(突破训练)
- 2026年苏教版小学四年级数学上册期中卷含答案
- 2026年4月浙江卷高考预测模拟数学试卷01
- 2026年洗涤厂转让合同(1篇)
评论
0/150
提交评论