




已阅读5页,还剩58页未读, 继续免费阅读
(机械制造及其自动化专业论文)基于pdm的数据挖掘理论和应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 面对入世后全球化的激烈竞争,企业迫切需要知识资源的增长和知识管理体 系的不断增强来提高自身的核心竞争力,丰富企业文化的内涵,并且,随着信息 技术和新的管理方法的进一步发展,实现产品数据的充分挖掘以及企业知识的不 断积累已成为企业向知识化迈进的必然趋势。在拥有p d m 系统的企业中,其 p d m 系统往往缺乏知识发现功能,其中蕴藏的大量产品数据资源没有得到充分 的挖掘和利用,造成企业隐性知识的一种浪费,从而不利于企业知识的积累和共 享。本文首先通过对国内外p d m 技术以及数据挖掘技术的分析研究,针对企业 知识发现和积累现状,并且结合国内外信息技术、管理理念的发展,提出了基于 p d m 的数据挖掘原型系统概念以及利用p d m 系统辅助企业进行知识管理的设 想,阐述了在p d m 应用环境下进行产品数据挖掘的特点和优势,并且分析了在 该环境下进行数据挖掘的目标和过程。进而,提出了基于p d m 的数据挖掘原型 系统框架,并着重研究了数据挖掘原型系统与p d m 系统的集成应用。在系统的 应用集成中,本文介绍了应用集成的三种模式以及实现集成的方法,并且根据 p d m 的对象模型,实现了两个系统之间的接口交换集成模式。最后,本文以浙 江省制造业重大科技攻关项目为背景,针对飞跃缝纫机集团的知识积累和管理的 实际情况,构建了一个基于p d m 的数据挖掘原型系统,并实现了p d m 系统的 知识管理功能。该系统为知识专家以及普通员工提供了一个进行知识发现和共享 的交互平台,提升了企业员工的工作效率,增强了企业的知识管理功能,取得了 良好的效果。本文的研究方法与成果对于大型机械制造行业的企业具有一定的借 鉴意义和参考价值。 关键词:产品数据管理;数据挖掘;数据挖掘原型系统;数据挖掘查询语言;j 2 e e v 上海大学硕士学位论文 a b s t r a c t i nt h ef a c eo fg l o b a lc o m p e t i t i o n ,a ne n t e r p r i s em u s ti n c r e a s e k n o w l e d g e r e s o u r c e ,e n h a n c ek n o w l e d g em a n a g e m e n ts y s t e mt oi m p r o v ei t sk e r n e lc o m p e t i t i o n a b i l i t y w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dn e wm a n a g e m e n t m e t h o d s ,t h ee n t e r p r i s en e e d st om i n ep r o d u c td a t af u l l ys ot h a ti t sk n o w l e d g e r e s o u r c ec a na c c u m u l a t e t h ee n t e r p r i s e sp d ms y s t e ml a c k st h ef u n c t i o no f k n o w l e d g ed i s c o v e r y , s oag r e a td e a lo fp r o d u c td a t ah a sn o tb e e nm i n e da n du s e d e n o u g hs oa st om a k ea g a i n s tt h ea c c u m u l a t i o na n ds h a r i n go fk n o w l e d g er e s o u r c e f i r s t ,o nt h eb a s eo fa n a l y z i n gp d ma n dd a t am i n i n gt e c h n i q u e sd o m e s t i ca n d a b r o a d ,a i m i n ga tt h ep r e s e n tc o n d i t i o no ft h ee n t e r p r i s e sk n o w l e d g ed i s c o v e r ya n d a c c u m u l a t i o na n dc o m b i n e dw i t hi n f o r m a t i o nt e c h n o l o g ya n dm a n a g e m e n tt h o u g h t s , t h i sp a p e ri l l u s t r a t e st h ec o n c e p to fd a t ai n i 血n gp r o t o t y p e s y s t e mb a s e do np d m a n d t h et h o u g h to fk n o w l e d g em a n a g e m e n ti np d m s y s t e m ,i n t e r p r e t st h ef e a t u r e sa n d a d v a n t a g e so fd a t am i n i n gb a s e do np d m a n da n a l y s e st h eo b j e c t i v ea n dp r o c e s so f d a t am i n i n gb a s e do np d m t h e n ,t h i sp a p e rb r i n g sf o r t ht h ef r a m e w o r ko ft h e p r o t o t y p es y s t e ma n ds t u d i e st h ei n t e g r a t i o nb e t w e e nt h ed a t am i n i n gs y s t e ma n d p d m a b o u tt h e i n t e g r a t i o n ,t h et h e s i s i l l u s t r a t e st h r e em o d e so fa p p l i c a t i o n i n t e g r a t i o na n dt h e i rm e t h o d s a c c o r d i n gt oo b j e c tm o d e l s o fp d ms y s t e m ,i t i m p l e m e n t st h e f r a m e w o r ko fd a t ai n t e r f a c ea n dt h ef u n c t i o no fk n o w l e d g e m a n a g e m e n ti np d ms y s t e m f i n a l l y b a s e do na b o v e t h e o r ya n dp r a c t i c a l e n v i r o n m e n to ff e i y u es e w i n gm a c h i n eg r o u pc o m p a n y , ad a t am i n i n gp r o t o t y p e s y s t e mb a s e do np d m i sc o n s t r u c t e da n dt h ef i m c t i o no fk n o w l e d g em a n a g e m e n to f p d mi si m p l e m e n t e d k n o w l e d g ee x p e r t sa n de m p l o y e e sc a l lu s et h es y s t e mt o p r o c e s sk n o w l e d g ed i s c o v e r ya n ds h a r i n gs ot h a tw o r ke f f i c i e n c yi n c r e a s e sa n d k n o w l e d g em a n a g e m e n ta b i l i t yi m p r o v e s t h er e s e a r c ho ft h et h e s i sh a si m p o r t a n t t h e o r e t i c a lm a d p r a c t i c a ls i g n i f i c a n c e t o l a r g e e n t e r p r i s e s i nm e c h a n i c a l m a n u f a c t u r i n gf i e l d , k e yw o r d :p r o d u c td a t am a n a g e m e n t ,d a t am i n i n gp r o t o t y p es y s t e m ,d a t am i n i n g q u e r yl a n g u a g e ,j 2 e e 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留 论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容。 ( 保密的论文在解密后应遵守此规定) 签名:砭塾 导师签名:! 刍丝壅 日期: 小三_ ;矿 上海大学硕士学位论文第一章绪论 第一章绪论 随着市场需求的日益多变、技术的不断进步,并伴随中国加入w t 0 ,企业之 间的竞争曰益激烈,企业核心竞争力的提升不仅仅依靠其信息化技术,更重要的 是依赖于企业的知识积累和管理。企业庞大的产品数据资源蕴藏了广大设计工程 师的心血和智慧,是企业进行知识积累的根本源泉。在众多拥有p d m 系统的企 业中,p d m 系统作为一种用来管理所有与产品相关信息( 包括零件信息、配置、 文档、c a d 文件、结构、权限信息等) 和所有与产品相关过程( 包括过程定义 和管理) 的平台,其自身拥有的产品数据是否能够得到有效的开发和利用,对于 企业知识的积累和管理将起到十分关键的作用。在p d m 系统平台上,通过结合 数据挖掘技术,不仅可以在保证产品数据安全性的前提下,挖掘出蕴藏在产品数 据中的信息和知识。而且,可以运用p d m 系统的文档管理功能将发掘的信息和 知识管理起来,增强p d m 系统的知识发现和管理功能,从而对企业的知识运用 和共享起到一定的辅助作用。 目前国内外在这一领域的实践和应用较少,p d m 系统与数据挖掘系统往往 都是独立的,没有实现有效的数据交换和集成,难以保障数据挖掘原始数据的安 全性以及数据挖掘过程的时效性,从而不利于增强p d m 系统的知识发现功能。 面对入世后全球化的激烈竞争,企业迫切需要知识资源的增长、知识管理体系的 不断增强来提高自身的核心竞争力,丰富企业文化的内涵,并且,随着信息技术 和新的管理方法的进一步发展,实现产品数据的充分挖掘和企业知识的积累已成 为企业向知识化迈进的必然趋势。针对这一现实要求,本文结合国内外数据挖掘 技术以及系统集成研究成果,就p d m 系统环境下的知识发现与管理进行了初步 的研究和探讨。本章主要阐述国内外p d m 技术以及数据挖掘技术的发展概况、 本文的研究内容及本文研究的背景和意义。 1 1 课题提出的背景 随着世界经济的全球化和知识化,企业面临着更为激烈的市场竞争。知识已 成为企业的第一资源,创新能力的实现是企业可持续发展的根本保证 1 1 0 知识来 第1 页共6 0 页 上海大学硕士学位论文第一章绪论 源于实践,来源于人们对企业内外经营环境的了解以及在长期经营活动中积累起 来的经验。当前,许多企业中拥有大量的数据,也有不少信息,可是却没有系统 的知识,其主要表现在: 大量的产品数据存储在企业的数据库中,没有得到有效的开发利用。许多 企业只是简单地将数据库看作是存储企业数据的工具,殊不知在这些数据包含了 大量的有用信息和知识。没有将企业积累的数据进行有效的利用,无疑是对企业 无形资产的一种浪费。 企业中经验丰富的工程师虽然拥有许多个人累积的知识,但是他们的知识 仍然是片断的、零散的,没有得到有效的整理,形成系统的知识体系,其参考价 值远远没有显现出来。 对于那些人员流动频繁的企业,当工程师从企业中离开时,企业损失的不 仅仅是经验丰富的工程师,还有这些工程师大脑中的知识企业无形资产的重 要组成部分。甚至,有些工程师的经验知识仅仅存在于自己的大脑里,并未形成 书面的文字,这些知识对其自身、对整个企业,都是非常宝贵的。 对于企业而言,只有系统化地把这些知识整理出来,才能对企业的发展起到 巨大的推动作用。 本课题来源于浙江省“十五”制造业信息化工程重大科技攻关项目“基于支 持智能化缝纫机创新的开发平台”,项目编号:0 2 1 1 0 1 1 4 6 。飞跃缝纫机集团是浙 江省大型民营企业,地处浙江省台州市。近年来,企业发展迅速,已经成为中国 缝纫机行业最大企业之一。由于企业在短时间内的迅速壮大,各种相应的管理及 软硬件设施未能及时的到位,企业急需处理发展时期存在的诸多问题。其中,企 业知识的发现和积累是其中一个急待解决的问题。上面提到的我国众多企业知识 积累和管理中存在的问题,在飞跃缝纫机集团中都或多或少的存在着。面对这种 情况,飞跃缝纫机集团与上海大学计算机集成制造中心积极合作,希望后者能够 提出一套先进的解决方案,在有效管理飞跃集团产品数据的同时,能够将其中蕴 藏的宝贵知识挖掘出来。本文正是在这种背景下展开的。飞跃集团是中国机械制 造行业的一个典型代表,本文提出的解决方案对知识发现和积累中存在类似问题 的企业有一定的借鉴意义。 第2 页共6 0 页 上海大学硕士学位论文第一章绪论 1 2 国内外研究概况 1 2 1 国外研究概况 白8 0 年代初诞生以来,p d m 软件的功能不断增强,覆盖的范围越来越广, 国外许多大公司纷纷投入巨资实施p d m 项目,建立支持并行工程的产品开发框 架,取得了显著的成果。例如美国通用汽车公司采用了u g s 公司的p d m 软件 i m a n ,构造其新产品开发环境,在设计开发新型豪华a u r o r a 新车的时候, 把分析部门、设计部门和制造部门的人员组织在一起,成立a u r o r a 团队,将原 来串行、分散的设计活动并行化、集成化,最终大大缩短了设计周期,且价格比 日本的同类豪华型车低2 0 0 0 美元;大宇、劳斯莱斯集团采用p t c 公司的o p t e g r a 软件作为集成框架,该软件具有a u t o c a d 、c a t i a 、p r o e 等c a d c a m 软件的 接口,支持并行设计,给两大汽车企业带来了巨大的效益;美国s d r c 的 m e t a p h a s e 是企业及产品数据管理软件,它覆盖了通用p d m 软件的各大模块, 并且拥有或正在开发多个c a d 软件的接口,在飞机制造业中的波音麦道公 司,汽车行业中的福特、马自达、奔驰、雷诺等公司获得了广泛的应用【2 1 。 随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及, 人们面临着快速扩张的数据海洋。与日趋成熟的数据管理技术和软件工具相比, 人们所依赖的数据分析工具无法有效地为决策者提供其决策支持所需要的相关 知识,从而形成了一种“丰富的数据,贫乏的知识”现象。为了解决这一问题, 自2 0 世纪8 0 年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展, 得益于目前全世界所拥有的巨大数据资源,以及对将这些数据资源转换为信息和 知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控 制、市场分析到工程设计、科学探索等等。国外的许多行业,如通讯、信用卡公 司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工 具来协助其商务活动。目前,数据挖掘已成为一个炙手可热的行业,仅在美国, 就有数百家公司从事数据挖掘相关产品的研发。各家公司纷纷推出自己的挖掘工 具,比较著名的有i b m ,s a s ,s p s s ( s t a t i s t i c a lp a c k a g e f o rt h es o c i a l s c i e n c e s ) ,c o g n o s ,b o ( b u s i n e s so b j e c t s ) ,a c c r u e 等。 第3 页共6 0 页 上海人学硕士学位论文第。章绪论 1 2 2 国内研究概况 我国从9 0 年代初也开始研究和开发p d m 产品。1 9 9 7 年1 2 月,国家高技术 研究中心也开始了p d m 商品化项目的招标。目前国内已经有p d m 的商品化软 件出现,如华中的i n t e p d m 、清华的高华p d m 、同创的p d m s 、浙江人天公司 的g s p d m 等等,它们都顺应了当前国内制造业的环境和实际需求,具有一定 的风格和特色,为我国的p d m 的研究开发做出了积极的探索和贡献。与国外的 同类产品相比,国内的p d m 产品普遍存在功能不够完善、开放性差等缺点,但 符合国内企业的实际管理模式,价格也相对低廉,并且结合企业的实际提供全面、 深入的技术支持和服务,这对中小企业来说是一种最合适的选择。随着p d m 产 品在我国的广泛应用,越来越多的人们开始认识并接受产品数据管理的思想,这 将会积极地促进我国企! 世的信息化建设。 数据挖掘技术从诞生到现在短短的十几年里,就吸引了各个行业的研究人员 的浓厚兴趣,数据挖掘在它的形成与发展过程中表现出强大的生命力。目前,它 己成为最近几年对人类生活影响最大的几项i t 技术之一,并且数据挖掘的应用 已取得初步的成功。随着众多数据挖掘人员对于技术的不断改进,软件供应商所 提供韵工具的币断完善,数据挖掘技术的应用和开发不再是具有专业背景的人士 的专利,而成为一项不需要很多培训就可以为人们所利用的普及工具。国内在这 方面的应用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来 说,我国是一个有巨大潜力的市场。而对于困内的用户来说,谁优先使用了这一 技术,谁就有可能取得制胜的机会例。菲奈特一融通公司在i b m 数据挖掘软件的 基础上开发了商业智能套件b i 0 f f c e ,在b i o f f i c e 的基础上又开发了系列 的b i b a n k 、b it a x a t i o n 、b i e l e c t r i cp o w e r 、b i r e t a i l 、b i i n s u r a n c e 、 b i t e l e c e m 和b i c i q 软件。广州华工明天科技开发了多功能数据挖掘器( 岍d m 1 0 ) 。该产品的特点如下:多平台、企业级的数据挖掘;数据分类和处理功能; 多种挖掘算法;串行、并行计算环境:可视化的结果分析工具。它提供了三方面 的功能:挖掘、处理、统计。 但是,在国内外将数据挖掘技术应用于p d m 系统的研究和开发还比较少。 因此,本文在研究国内外p d m 和数据挖掘技术的基础上,大胆地提出了基于 p d m 的数据挖掘原型系统这一概念,对该系统的理论研究和实现进行了初步的 p d m 的数据挖掘原型系统这一概念,对该系统的理论研究和实现进行了初步的 第4 更共6 0 页 上海大学硕士学位论文第一章绪论 探讨。 1 3 本文研究的内容 目前,p d m 系统都能够有效地解决企业产品信息、产品相关过程的管理问 题,很大程度上促进了企业信息化的进程。但是,p d m 系统拥有庞大的数据资 源,如何从这些数据中挖掘出有价值的信息和知识就成为提高人员工作效率、增 强企业知识发现和积累能力的关键。 本文首先通过对p d m 系统体系架构以及数据挖掘技术的研究,提出了基于 p d m 的数据挖掘原型系统概念以及利用p d m 系统辅助企业进行知识管理的设 想,并着重分析了原型系统框架设计、数据挖掘查询语言、算法树、数据交换接 口、数据挖掘原型系统与p d m 系统集成等关键技术。通过该模型的提出,较好 地解决了p d m 系统缺乏挖掘、分析产品数据功能的问题,保障了数据挖掘中原 始数据的安全性。最后通过应用前述的各种理论,针对飞跃缝纫机集团目前的知 识发现和应用情况,构建了基于p d m 的数据挖掘原型系统。 1 4 本文研究的意义 随着计算机、通讯、电子等信息技术的飞速发展,信息和知识在企业发展中 的关键地位得到越来越多的关注。企业的信息和知识是其生存的关键。在这个全 新的知识时代,只有那些成功地收集、分析、掌握信息和知识并根据相关信息或 知识决策的企业才能够真正立于不败之地。 将数据挖掘技术应用到p d m 系统中,提升p d m 系统的知识发现能力,其 主要意义在于以下两个方面: 1 理论上的意义 将数据挖掘技术应用于p d m 系统对于丰富p d m 和数据挖掘技术有着重大 的意义,它将会极大地推动p d m 系统知识发现和积累功能、数据挖掘理论应用 的快速发展,并且在企业产品数据的充分开发和利用,以及企业知识管理等诸多 方面也有一定的借鉴作用。由于p d m 系统在理论上可以将不同的软件解决方案 集成到一起,形成一种可运行的整体解决方案,因此,将数据挖掘技术成功地应 用到p d m 系统就成为可能。 第5 页共6 0 页 上海大学硕士学位论文第一章绪论 2 生产实际上的意义 随着网络技术、数据库技术和面向对象技术的发展,p d m 技术在全球范围 内得到了广泛的应用,其应用领域已经由原来的机械制造扩展到包括机械、电子、 汽车、航空、航天以及非制造业等十分广泛的领域。 数据挖掘技术与p d m 系统的结合,使得数据库中的大量数据可以得到充分 开发和利用,获得可用于企业分析决策的信息和知识,例如各类数据对象的重要 性、零部件更改频率的统计、员工完成计划任务的进度、完成计划任务的预测时 间、员工进行产品设计的熟练程度等等。同时,利用p d m 系统的产品数据保护 机制,有效地保障了数据库中原始数据的安全性。通过对被发现信息和知识的分 析利用,可以有效地提高产品数据的利用率以及员工的工作效率,从而促进企业 经济效益的提升。 第6 页共6 0 页 上海人学硕士学位论文第二章传统数据挖掘与基于p d m 的数据挖掘技术 第二章传统数据挖掘与基于p d m 的数据挖掘技术 数据挖掘技术的理论研究与实际应用在国外已经比较成熟,随着全球一体化 进程的加快,许多国内企业也从国外引入这一先进的技术理念,取得了明显的经 济效益。但是,目前对于基于p d m 数据挖掘技术的研究探讨还较少。本章采用 对比的手法,在研究传统数据挖掘技术的基础上,分析了基于p d m 的数据挖掘 技术的特点及其功能,并对不同环境下的数据挖掘优劣进行了深入的比较。 2 1 传统数据挖掘技术 随着世界上信息总量的不断增加,迫切需要有效的信息分析工具,它们能发 现大量数据间隐藏的依赖关系,它们能从大量数据中抽取有用的信息或知识。尽 管很早就出现了简单的数据统计技术,但先进的智能数据分析工具尚未成熟。因 此,在数据生成和数据理解之间存在很大的差距。数据挖掘就是为解决这矛盾 而出现的一类深层次的数据分析方法【4 。数据挖掘( d a t am i n i n g ) ,也称为数据库 中的知识发现( k d d :k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,是指从大型数据库或数 据仓库中提取人们感兴趣的知识,这些知识是隐含的、潜在的、有价值的有用信 息,提取的知识一般可表示为概念( c o n c e p t s ) 、规贝, l j ( r u l e s ) 、规律( r e g u l a r i t i e s ) 、 模式( p a t t e r n s ) 等形式【”。数据挖掘可以发掘出数据间潜在的模式,找出企业经营 者可能忽视的信息,以便以理解和观察的形式反映给用户,并为企业做出基于知 识的决策参考意见。目前国际上在该领域的研究相当活跃,无论在理论上,还是 实用技术上都取得了喜人的成果,同时也开发出了各种专用或通用的商业数据 挖掘软件。 数据挖掘的对象不仅仅是数据库,也可以是文件系统,或其他任何组织在一 起的数据集合。 从数据分析的角度,数据挖掘可以分为两类:描述式数据挖掘和预测式数据 挖掘。描述式数据挖掘以简洁概要的方式描述数据,并提供数据的一般性质。预 测式数据挖掘分析数据,建立一个或一组模型,并试图测试新数据集的行为。 数据挖掘技术可以按照数据挖掘发现的模式类型分类如下: 1 概念描述:特征化和区分数据特征化是目标类数据的一般特性的 第7 页共6 0 页 上海大学硕士学位论文 第二章传统数据挖掘与基于p d m 的数据挖掘技术 汇总。数据区分是将目标对象的一般特性与一个或多个对比对象的一 般特性比较。 2 关联分析关联分析发现关联规则,这些规则展示属性一值频繁的 在给定数据集中一起出现的条件。 3 分类和预测分类可咀找出描述并区分数据类或概念的模型,以便 能够使用模型预测类标记未知的对象类。当被预测的值是数值数据时, 通常称之为预测。 4 聚类分析聚类可以分析数据对象,把对象集合按照最大化类内的 相似性、最小化类间的相似性的原则进行分组,而不考虑已知的分组 标记。 5 孤立点分析数据库中可能包含一些数据对象,它们与数据的一般 行为或模型不一致。从数据集中找出这些对象就称为孤立点分析。 6 演变分析数据演变分析描述行为随时间变化的对象的规律或趋 势,并对其建模陋l 。 典型的数据挖掘系统如图表1 所示: 图表1 典型的数据挖掘系统 第8 页共6 0 页 = 三兰釜主筌圭兰笙鲨三 茎三至釜釜茎塑垄塑主茎三:2 竺望茎耋釜塑茎查 2 2 基于p d m 的数据挖掘特点 基于p d m 的数据挖掘是为满足企业对知识积累和管理的更高要求而提出 的,从实际操作上来分析,它主要有以下几方面的特点: 网络化 网络化是基于p d m 的数据挖掘的首要基石。通过p d m 的网络化体系结构, 数据挖掘系统可以即时地访问中心数据库的最新数据资源,这些数据来自于 p d m 系统中的各个节点。 信息共享 信息共享是基于p d m 的数据挖掘实施的关键。信息技术的支持增加了数据 挖掘系统信息获取的即时性和透明性。在p d m 系统的不同节点之间共享信息, 使数据挖掘系统的各个节点都可以实时动态了解相关信息,从而降低了数据挖掘 系统的运营成本,并提高了其运行效率。 数据安全性 p d m 系统的安全体系架构保障了其数据传输和共享的安全性。基于p d m 的 数据挖掘系统构建在p d m 的系统应用层之上,从而避免了对数据库的直接访问 操作,保障了产品数据的安全性。 集成性 在p d m 系统的集成框架下,通过完善的接口,实现p d m 与数据挖掘系统 之间的数据共享和交流。p d m 系统通常提供应用程序接口( a p i ) 开发工具箱, 可以为数据挖掘接口建立应用集成接口,以满足数据交互的需要。 数据、知识一体化 通过p d m 系统的集成模式,可以在所有部门真正实现数据和知识共享的一 体化。 第9 页共6 0 页 上海大学硕士学位论文 第二章传统数据挖掘与基于p d m 的数据挖掘技术 2 3 基于p d m 的数据挖掘优势 2 3 1 传统数据挖掘存在的问题 在传统的数据挖掘技术中,存在数据挖掘方法、用户交互、性能与可扩展性, 以及多样化数据的处理等许多尚待解决的问题,在一定的程度上,这些问题的存 在影响了数据挖掘技术的发展与进步,从而,降低了数据挖掘系统的性能和可用 性。 传统的数据挖掘技术往往忽略了原始数据的安全性,重要的企业数据得不到 有效安全机制的保障,从而有可能造成数据的破坏和遗失,并损害了企业的 经济利益。 数据挖掘技术可以从大量的数据中发现有用的模式和知识,为企业的知识积 累和决策起到了一定的促进作用,但是,数据挖掘技术并不能够有效地管理 这些知识,就会造成大量有用知识的浪费以及重复的数据挖掘。 目前的数据挖掘系统尚不能支持多种平台。一些产品是基于p c 的,一些是 面向大型主机系统的,还有一些是面向客户机服务器环境的。另外,由于方 法功能单一的发现系统的适应范围的限制,要充分发挥系统的作用,应该和 数据库、知识库、专家系统、决策支持系统、可视化工具、网络技术等进行 有机集成 ”。 由于不同的应用需要不同类型的知识,因此数据挖掘应该覆盖广泛的数据分 析与知识发现任务需求。其中包括:数据概念描述、对比概念描述、关联知 识、分类知识、聚类分析、趋势和偏差分析,以及相似性分析。因此还需要 设计开发大量的数据挖掘技术才能满足以上需求。 由于无法准确了解从一个数据库中究竟能够发现什么,因此一个数据挖掘过 程应该是交互的。往往,用户不能够参与并指导对要挖掘模式的搜索,或精 炼所返回的挖掘结果。 关系数据库查询语言能够帮助用户提出各种有针对性的数据检索要求。同 样,也需要开发出高水平的数据挖掘查询语言以帮助用户描述特定的挖掘任 务,这样的查询语言还在不断地完善之中。 数据挖掘应该能够用高级语言、可视化表示或其它表示方式来描述所挖掘出 第1 0 贞共6 0 页 上海大学硕士学位论文 第二二章传统数据挖掘与基于p d m 的数据挖掘技术 的知识,以使用户更加容易地理解和应用所挖掘出的知识。当前的数据挖掘 的可视化表示还比较单一,不能从多个方面来描述挖掘结果。 一个数据挖掘系统能够发现数以千计的模式,而用户常常只对其中的一部分 模式感兴趣:其他大多数都属于常识性或缺乏新意的知识。如何对挖掘出的 模式的趣味性进行评估,特别是如何基于用户信念和期待对所挖掘模式进行 主观评估,仍然是一个尚待进一步研究的问题 引。 2 3 2 基于p d m 的数据挖掘优势 基于p d m 的数据挖掘原型系统集成了p d m 系统已有的体系结构和功能, 从而能够有效地解决传统数据挖掘系统的一些问题,主要体现在如下几个方面: 由于p d m 系统将数据对象存储于数据库内,面向对象的管理层封装了数据 库中的原始数据,并且p d m 应用程序都构建于面向对象的管理层之上,从 而,保障了数据库中数据的安全性。同样地,将数据挖掘系统架构在面向对 象的管理层上,将会有效地保障原始数据的安全性,消除了数据挖掘工具对 数据库造成的安全隐患。 p d m 系统能够有效地对电子文档进行有效地管理,同样地,对于在数据挖 掘过程中产生的原始数据以及挖掘结果都能够进行有效的管理,因此避免了 知识的浪费和重复的挖掘过程。通过p d m 系统对知识管理的辅助作用,为 企业的知识共享提供了统一的平台。 通过数据挖掘原型系统与p d m 系统的集成应用,有效地解决了数据挖掘系 统支持的有限性和集成的单一性,扩展了数据挖掘技术应用的外延。 由此可见,在p d m 系统环境下,数据挖掘技术能否充分发挥其优势,以及 p d m 系统能否有效地实现其知识发现和管理功能,都与p d m 系统自身的功能特 点密切相关。 第1 1 页共6 0 页 上海大学硕士学位论文第三章基于p d m 的数据挖掘原型系统 第三章基于p d m 的数据挖掘原型系统 从数据挖掘目标的角度出发,基于p d m 的数据挖掘目标分为:概念描述、 关联规则、分类和预测、聚类分析等。在分析数据挖掘目标及较为独特的数据挖 掘过程的基础上,本章提出了基于p d m 的数据挖掘原型系统的架构,并且着重 研究了系统框架、数据挖掘查询语言以及数据挖掘算法树等关键技术。 3 1 基于p d m 的数据挖掘目标和技术 从数据分析角度出发,数据挖掘的目标可以分为两种类型:描述型的模式和 预测性的模式。前者是以简洁概述的方式表达数据中存在的一些有意义的性质: 而后者则通过对所提供的数据集,应用特定方法分析所获得的一个或一组数据模 型,并将该模型用于预测未来新数据的有关性质。 数据挖掘功能及其发现的模式类型可以按照概念描述、关联规则、分类和预 测以及聚类分析进行分类。 3 1 1 概念描述 数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观 察汇总的数据集。这种数据描述可以提供一类数据的概况,或将它与对比类相区 别。此外,用户希望方便、灵活的以不同的粒度和从不同的角度描述数据集。这 种描述性数据挖掘称为概念描述,它是数据挖掘的一个重要部分。概念描述并不 是简单地进行数据合计操作,而是生成对数据的定性描述和对比定性描述。概念 描述分为特征性描述和区别性描述f 9 】。常见的概念描述算法有两种方法:基于数 据立方的o l a p 方法和基于属性的归纳方法。 在基于p d m 的数据挖掘中,根据产品零件完成的难易度,使用基于属性的 归纳方法统计出某一员工完成任务的进度,并且有针对性,对某些经验不丰富的 员工进行辅导。 第1 2 页共6 0 页 上海大学硕士学位论文第三章基于p d m 的数据挖掘原型系统 3 1 2 关联规则 所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是 从数据库中发现那些确信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 都大于给定值的强 壮规则。关联规则的挖掘【l0 j 是数据挖掘领域中一个非常重要的研究课题,它是 由a g r a w a l 等人首先提出的。从数据库中发现关联规则近几年研究得最多。目前, 已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。在 概念层次上的不断深入,使得发观的关联规则所提供的信息越来越具体,实际上 这是个逐步深化所发现知识的过程。在许多实际应用中,能够得到的相关规则的 数目可能是相当大的,而且,用户也并不是对所有的规则感兴趣,有些规则可能 误导人们的决策,所以,在规则发现中常常引入“兴趣度”( 指一则在一定数据 域上为真的知识被用户关注的程度) 概念。而基于更高概念层次上的规则发现研 究( 如一般化抽象层次上的规则和多层次上的规则发现) 则是当前研究的重点之 一。在数据挖掘中,常见的关联规则发现算法有:a i s 、s e t m 、a p f i o f i 【l “、d h p 、 m l t 2 l i 、m l t m l l 等,其中,a p r i o r i 和d h p 是比较成功的两个算法。 在基于p d m 的数据挖掘中,使用关联规则挖掘的a p r i o r i 、d h p 算法,对 b o m 表进行统计,分析出零件或部件与其他零件或部件的关联关系。 3 1 3 分类和预测 分类和预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或 预测未来数据趋势的模型。分类用于估计数据对象的离散类别:而预测则用于估 计数据对象的连续取值。作为数据挖掘的一个重要主题,数据分类和预测在统计 学、机器学习、人工智能等领域中得到了较早的研究,只是近些年来,人们才将 它与数据库技术结合起来解决实际问题。在数据挖掘中,常用的分类和预测算法 有:i d 3 1 2 、贝叶斯分类、神经网络分类【1 3 】、后向传播分类、线形回归预测、 非线性回归预测等。 在基于p d m 的数据挖掘中,使用决策树或神经网络的分类方法,对对象引 用次数进行统计分析,并根据使用频率对各种对象进行分类,划分“重要”、“一 般”、“不重要”、“未使用”四类,并且有针对性地,对“重要”数据进行备份和 第1 3 页共6 0 页 上海大学硕士学位论文 第三章基于p d m 的数据挖掘原型系统 权限控制。使用线性回归方法,根据员工的工作进度来预测出完成预定任务的时 间。 3 1 4 聚类分析 在机器学习中,数据分类称为监督学习,而数据聚类则称为非监督学习,两 者所采用的方法相差甚远。数据聚类是将物理的或抽象的对象分成几个群体,在 每个群体内部,对象之间只有较高的相似性,而在不同群体之间,相似性则比较 低。一般地,一个群体也就是一个类,但与数据分类不同的是,聚类结果主要基 于当前所处理的数据,我们事先并不知道类目的结构及每个对象所属的类别。另 外,数据聚类计算量巨大,其时间复杂度也要比数据分类大得多。目前,数据聚 类已有很多不同的方法和技术,常见的算法有p a m 、c l a r a 、c l a r a n s 、b i r c h 等。 在基于p d m 的数据挖掘中,使用聚类算法,来评定员工进行产品设计的熟 练程度,并且有针对性地对某个或某些员工进行再培训。 3 1 5 相关技术 这些技术尽管独立于数据挖掘技术,但同时运用这些技术和数据挖掘技术 能提高整个数据挖掘工程的使用价值。 ( 1 ) 在线分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,o l ap ) 。 在线分析处理技术是一种与数据挖掘技术相似的技术,不同之处在于在线 分析处理技术是一非自动过程,但它能迅速响应用户的请求。在线分析处理工具 允许用户观察、操作及分析所谓的多维数据库。 ( 2 ) 在线事务处理( o n l i n e t r a n s a c t i o n p r o c e s s i n g ,o l t p ) 。 在线事务处理技术主要应用于处理大量用户同是创建、编辑和访问同一记 录。 ( 3 ) 可视化数据技术( d a t a v i s u a l i z a t i o n ) 。 即采用直观的图形方式来将信息模式、数据的关联或趋势呈现给决策者,这 样决策者就可以通过可视化技术来交互地分析数据关系,而可视化技术主要包括 数据、模型和过程三方面的可视化,其中,数据可视化主要有直方图和散点图; 第1 4 页共6 0 页 上海大学硕士学位论文第三章基于p d m 的数据挖掘原型系统 模型可视化的具体方法则与数据挖掘采用的算法有关;而过程可视化则采用数据 流图来描述知识的发现过程【1 5 。 ( 4 ) 管理信息系统( m a n a g e m e n ti n f o r ma ti o ns y s t e m s ,mi s ) 。 管理信息系统通过按一定规则生成结构化报表来帮助管理企业。它旨在提供 战略上而不是日常管理企业的信息。 3 2 基于p d m 的数据挖掘过程 3 2 1 数据挖掘原语和元数据 在数据挖掘系统中,用户需要通过数据挖掘原语来与系统进行通信,以支持 有效的发现过程。原语主要包括数据挖掘目标、知识类型、背景知识、模式表示 等内容,它是数据挖掘任务的格式化表示形式。数据挖掘原语允许用户在数据挖 掘过程中实时地与数据挖掘系统进行交互,从不同的角度和深度审查发现结果, 并指导整个挖掘过程。而元数据主要对各个经过数据预处理、可进行数据挖掘的 数据源提供了相关参数的定义,方便数据的访问。 数据挖掘任务是数据挖掘系统的输入,可以用数据挖掘查询的形式说明。数 据挖掘查询的原语定义包括以下部分: 任务相关的数据:这是数据挖掘任务的原始数据。在p d m 系统之中, 通过其对象层来提取原始的数据。 要挖掘的知识类型:指明需要得到的知识形式,包括概念描述、关联、 分类、预测、聚类等。 背景知识:背景知识是关于挖掘领域的知识,在挖掘过程中起到非常重 要的作用。 模式评估的兴趣度度量和阀值:在大量的数据挖掘结果中,仅有一小部 分是用户想要得到的知识,通过设定兴趣度度量和阀值来清除不需要的 挖掘结果。 模式的表示:发现的模式应该以多种形式来表示,可以帮助不同类型的 用户识别有趣的模式,并与数据挖掘系统交互或者指导进一步发现。 在p d m 系统环境下,数据挖掘查询应用于p d m 的数据对象层,并不是直 第1 5 页共6 0 页 上海大学硕士学位论文第三章基于p d m 的数据挖掘原型系统 接对数据库进行查询,从而保障了数据的安全性。 3 2 2 基于p d m 的数据挖掘过程 与一般的数据挖掘过程相似,基于p d m 的数据挖掘同样需要有数据准备、执 行挖掘算法以及显示结果等几个关键阶段。如果将其过程进行细分,可分为以下 几个步骤: 1 理解和定义问题 在进行数据挖掘之前,需要对数据挖掘的目的和问题进行较全面的分析。挖 掘结果用来支持企业分析和决策。如果对待处理的问题没有进行认真地理解,那 么,得到的结果也是没有任何用处的。 2 数据采集和转换 在定义问题之后,就要采集与问题相关的数据。传统的数据挖掘中,数据都 来源于数据库或数据仓库,通过使用数据库管理系统的查询引擎来提取出相关的 二维数据表。在p d m 环境下,为了保证企业产品数据的安全性,避免数据库中 的数据被直接访问,需要经过p d m 系统的对象管理层来获得各类数据。在得到 相关的数据后,还需要将这些数据转换成统一的格式。 3 数据净化 数据净化的目标是保证数据的一致性、精确性,消除拼写错误、重复记录等 噪音问题。 净化带噪音的数据是一个复杂的过程,数据净化过程的步骤如下: ( 1 ) 检查拼写错误; ( 2 ) 去掉重复的记录; ( 3 ) 补上不完全的记录; ( 4 ) 解决不一致的记录; ( 5 ) 用测试查询来验证数据; ( 6 ) 根据验证结果反复迭代上述步骤。 在数据净化阶段,通常采用统计学提供的技术来检测异常值,必要时平滑数 据和估计噪音参数,用于处理对丢失数据的评估方法也是必要的。 4 生成原始数据文件 第1 6 页共6 0 页 上海大学硕士学位论文第三章基于p d m 的数据挖掘原型系统 在数据净化之后,生成原始的数据文件,并将其保存在p d m 系统之内,从 而得到有效的管理。 5 算法规划 算法的选择直接影响着所挖掘模式的质量。另外,即使选定了某一种算法, 这个算法中参数的改变也会影响
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福建省龙岩市新罗区国有资产经营集团有限公司招聘1人模拟试卷及答案详解(夺冠系列)
- 2025福建厦门启航培训服务有限公司招聘1人模拟试卷及参考答案详解1套
- 2025年蚌埠固镇县连城镇招聘村级后备人才3人考前自测高频考点模拟试题及答案详解参考
- 2025江苏徐州医科大学招聘专职辅导员4人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025年福建省福州第十八中学招聘1人考前自测高频考点模拟试题及答案详解1套
- 2025辽宁能源控股集团所属抚矿集团拟聘人员补录考前自测高频考点模拟试题附答案详解(典型题)
- 2025春季新疆石河子大学第一附属医院、石河子大学附属中医医院(兵团中医医院)校园招聘10人模拟试卷及答案详解(网校专用)
- 2025河南新乡市延津县县外在编在岗教师回乡任教的考前自测高频考点模拟试题及答案详解1套
- 2025广东广佛产业园区运营管理有限公司招聘考前自测高频考点模拟试题及答案详解1套
- 2025年合肥市第一人民医院双凤院区招聘31人考前自测高频考点模拟试题及1套参考答案详解
- 督导门店工作总结
- 水泥行业年度汇报
- 2026中国电力工程顾问集团华东电力设计院有限公司校园招聘考试参考试题及答案解析
- 2025邮储银行校招笔试真题及答案
- 2025年重获驾驶权限科目一机动车理论考试题库
- 山东省菏泽市牡丹区2024-2025学年七年级上学期第一次月考数学试卷(含答案)
- 《项目基金管理办法》
- 2025年西藏司法考试真题及答案
- 民族团结一家亲知识竞赛试题及答案
- 运动跑步专业知识培训课件
- 禁塑知识培训课件
评论
0/150
提交评论