(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf_第1页
(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf_第2页
(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf_第3页
(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf_第4页
(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(机械电子工程专业论文)减速器设计中的数据挖掘技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 在市场经济高速发展的今天,企业间的竞争日趋激烈,如何减少产品的开 发成本、增加市场应变能力及快速反应能力成为了企业追求的主要目标。 一方面随着企业的发展,会积累大量的产品设计数据,这些数据蕴含着丰 富的信息,存放在大型集中数据库或者分布在多个数据库中,可以根据需要进 行查询,但是如何有效的利用这些数据实现产品的快速设计一直是个难题。另 外,当企业获取新的产品订单的时候,如何从原有的产品设计数据中提取有用 的设计模型或数据支持新设计或者在原有设计数据上进行改进,以节约设计成 本,是企业设计部门迫在眉睫需要解决的问题。 基于实例推理的数据挖掘技术正是解决这个问题的有效方法,该技术的核 心思想是结合产品实例检索技术,利用基于规则的产品配置技术来提高传统制 造企业的产品设计能力,提高企业产品的客户定制开发能力,使凝聚在企业产 品实例中的设计知识和经验得到充分利用。 论文的研究目标是开发一个支持减速器产品实例推理的数据挖掘原型系 统,为减速器产品的快速开发提供理论依据。 本文首先介绍了数据挖掘的基本原理以及数据挖掘技术在产品设计中应用 的国内外研究现状,然后分析了几种常用的数据挖掘算法,包括基于实例的检 索算法、聚类分析算法、关联规则算法和粗糙集算法。进而对减速器设计知识 进行了分类,在分类的基础上提出了基于实例库的减速器设计数据挖掘框架, 该框架包括通用系统层、设计数据挖掘算法功能集层和设计工具层。 本文主要研究将基于实例的推理方法( c b r ) 应用于减速器产品设计所涉及 的关键技术,文中给出了减速器产品设计实例表达方式及表达内容,并阐述了 如何在关系数据库基础上建立层次结构的减速器产品设计实例库、标准件库、 零部件库以及规则库。 在此基础上,通过描述基于的实例相似度的表示方法,本文介绍了相似度 原理和相似度度量等概念,并给出了整体相似度的计算公式,以及减速器产品 实例相似度计算流程,同时给出了减速器产品实例检索的实例。文中提出了减 速器设计规则挖掘算法流程、数据规范挖掘流程以及粗糙集算法在减速器产品 故障中的应用并给出实例予以论证。 本文在上述工作的基础上,利用v c + + 6 0 、s q ls e r v e r 2 0 0 0 数据库管理系 统和s o l i d w o r k s 2 0 0 6 等工具和平台,结合某传动机械制造企业的产品数据最终 实现了减速器产品实例推理的数据挖掘原型系统的开发,应用该系统可以使企 业设计人员能够快速开发减速器产品。 关键词:c b r ,实例库,数据挖掘,减速器 武汉理工大学硕士学位论文 m a r k e te c o n o m yi si nh i g h s p e e dd e v e l o p m e n tt o d a y , t h ec o m p e t i t i o na m o n gt h e m a n u f a c t u r ee n t e r p r i s e si sm o r ea n dm o r ei n t e n s e h o wt or e d u c et h ep r o d u c tc o s t , i n c r e a s et h em a r k e ts i r a i nc a p a c i t ya n dt h eq u i c kr e a c t i o nc a p a b i l i t yh a v eb e c x i m et h e e s s e n t i a lt a r g e tw h i c ht h ee n t e r p r i s e sp u r s u e o nt h eo n eb a n 正a l o n gw i t he n t e r p r i s e sd e v e l o p m e n t , t h em a s s i v ep r o d u c t s d e s i g nd a t ac 锄b ea c c u m u l a t e d ,t h e s ed a t ac o n t a i n i ns t r o n gm e s s a g e d e p o s i t si n s i d e l a r g e s c a l eo rt h em a n yd a t a b a s e s ,m a yv e r yc o n v e n i e n t l yc a r r yo nt h ei n q u i r y ,b u t h o wt oe f f e c t i v e l yu s et l l e s ed a t ai sa l w a y sad i f f i c u l tp r o b l e m m o r e o v e r , w h e nt h e e n t e r p r i s eg a i n st h en e wp r o d u c td e s i g no r d e rf o r nt i m e h o wt od r a wt h eu s e f u l d e s i g nf r o mt h eo r i g i n a lp r o d u c td e s i g nd a t at om a t c h o rm a k et h ei m p r o v e m e n ti nt h e o r i 百h a ld e s i g nd a t a , b ys a v i n gt h ed e s i g nc o s t ,i st h ee n t e r p r i s ed e s i g n st h eq u e s t i o n w h i c ht h ed e p a r t m e n ti si m m i n e n tn e e d st os o l v e s o l u t i o nt ot h i sq u e s t i o ne f f e c t i v em e t h o di sb a s e do nt h ec a s e - b a s e dr e a s o n i n g d a t am i n i n gt e d m o l o g y ;t l l i st e c h n i c a lo o 砖t h o u g h tu n i f i e st h ep r o d u c te x a m ) l e r e t r i e v a lt e c h n o l o g y i te n h a n c e st h et r a d i t i o n a lm a n u f a c t u r ee n t e r p r i s eb a s e do nt h e m l ep r o d u c td i s p o s i t i o nt e c h n o l o g yt h ep r o d u c td e s i g n e dc a p a c i t y , e n h a n c e st h e e n t e r p r i s ep r o d u c tt h ee l l s t o m e rt oh a v eo l s t o m - m a d et h ed e v e l o p m e n ta b i l i t y , c a u s e s t h ec o n d e n s a t i o no b t a i n st h ef u i iu s ci nt h ee n t e r p r i s ep r o d u c t x a m p l ed e s i g n k n o w l e d g ea n dt h ee x p e r i e n c e t h ea i mo ft h er e s e a r c hi st od e v e l o pad a t am i n i n gs y s t e mo ft h er e d u c e r p r o d u c tb a s e do nt h ec a s e b a s e dr e a s o n i n g , i tc o u l dp r o v i d et h et h e o r yb a s i sf o rt h e r e d u c e rp r o d u c tf a s td e v e l o p m e n t a tf i r s t ,t h ea u t h o ri n t r o d u c e dt h ed a t am i n i n gb a s i cp r i n c i p l ea sw e l la st h e a p p l i c a t i o ns i t l i a t i o na th o m ea n da b r o a do ft h ed a t am i n i n gt e c h n o l o g yi nt h ep r o d u c t d e s i g n , t h ea u t h o rh a ss t u d i e ds e v e r a lk i n do fd a t a - m i n i n ga l g o r i t h m s ,i n c l u d i n ga r e t r i e v a la l g o r i t h mb a s e do nt h ee x a m p l e ,t h ec l u s t e r i n ga n a l y z i n ga l g o r i t h m , t h e a s s o c i a t i o na l g o r i t h ma n dt h er o u g hs e ta l g o r i t h m t h e nt h ea u t h o rc a r r i e do nt h e c l a s s i f i c a t i o nt ot h er e d u c t i o ng e a rd e s i g nk n o w l e d g e ,p r o p o s e dad e s i g nd a t am i n i n g f r a m et h a tb a s e do nt h ee x a m p l es t o r e h o u s eo ft h er e d u c t i o ng e a t , t h i sf r a m e i n c l u d i n gg e n e r a ls y s t e m a t i cl e v e l ,d e s i g nd a t am i n i n ga l g o r i t h mf u n c t i o nc o l l e c t i o n l e v e la n dd e s i g nt o o ll e v e l 。 t h ea u t h o rh a ss t u d i c dt h ee s s e n t i a lt e c h n o l o g yo fc a s e - b a s e dr e s e a r c h ( c b r ) w h i c ht h er e d u c t i o ng e a rp r o d u c td e s i g nd e a lw i t h ,p r o p o s e dt h er e d u c t i o ng e a r p r o d u c td e s i g ne x a m p l ee x p r e s s i o nw a y a n dt h ee x p r e s s i o nc o n t e n t , s t u d i e dh o wt o e s t a b l i s ht h er e d u c t i o ng e a rp r o d u c td e s i g ne x a m p l es t o r e h o u s e 。t h es t a n d a r d l e t t e r s t o r e h o u s e ,t h es p a r ep a r ts t o r e h o u s ea sw e l la st h er e g u l a rs t o r e h o u s ei nt h er e l a t i o n a i d a t a b a s ef o u n d a t i o n o nt h eb a s i so ft h ea b o v et h e o r y , t h r o u g hd e s c r i p t i o nb a s e do nt h ee x a m p l e s i m i l a re x p r e s s i o nm e t h o d i n t r o d u c e dc o n c e p ta n ds oo ns i m i l a rp r i n c i p l ea n ds i m i l a r m e a s u 坤,a n dh a sp r o d u c e dt h ew h o l es i m i l a rf o r m u l a , a sw e l la st h er e d u c t i o ng e a r p r o d u c te x a m p l es i m i l a rc o m p u t a t i o nf l o w , a n dh a sp r o d u c e dar e d u c t i o ng e a rp r o d u c t e x a m p l e 化t r i e v a le x a m p l e t h ep a p e rs i m u l t a n e o u s l yp r o p o s e dt h er e d u c t i o ng e a r d e s i g n - r u l ec x c a v a t i o na l g o r i t h mf l o w , t h ed a t as t a n d a r de x c a v a t i o nf l o wa sw e l la s 武汉理工大学硕士学位论文 t h er o l l g hs e ta l g o r i t h ma n dp r o d u c et h ee x a m p l ei nt h er e d u c t i o ng e a t p r o d u c t b r e a k d o w na p p l i c a t i o nt op r o v e i nt h ea b o v ew o r kf o u n d a t i o n , t h ea u t h o ru s e dv c + + 6 0 s q l s e r v e r 2 0 0 0 d a t a b a s em a n a g e m e n ts y s t e ma n ds o l i d w o r k s 2 0 0 6 , n n i f i e dt h ep r o d u c td a t ao fs o m e g e a r i n gm a n u f a c t u r ec o m p a n y , f i n a l l yt or e a l i z et h er e d u c t i o ng e a rp r o d u c tt h a ti s b a s e do nt h ec a s e b a s e dr e a s o n i n gd a t am i n i n gs y s t e md e v e l o p m e n t i ta l l o w st h e p r o d u c td e s i g n e r sd e v e l o pn e wr e d u c e r p r o d u c tf a s t e rt h a tu s et h i ss y s t e m k e yw o r d s :c b r ,e x a m p l es t o r e h o u s e ,d a t am i n i n g , r e d u c e r r l 武汉理工大学硕士学位论文 第一章引言 随着计算机科学技术飞速的发展,c a d c a m 等计算机辅助技术得到了很大 的提高,与此同时,企业产生了涉及到各个领域大量的数据。这些数据蕴含着 丰富的信息,存放在大型或者多个数据库里面,可以很方便地进行查询,但是 面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深 层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言 已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。如何使用 有效的方法来处理这些海量般的数据,是企业急需解决的迫在眉睫的问题。 1 1 课题背景 当前,机械产品的设计正处在一个高速发展的阶段,已经不再局限于机械 这一领域,而是与入工智能、嵌入式系统、数据挖掘等多学科相互交叉,发展 成为一个涉及面广的交叉学科。 c a d c a m a 墟等各种产品设计软件的普及,为各种机械产品的详细设计 提供了极大的便利。但是现有的计算机技术尚不能在设计的前期对设计人员提 供有效的帮助,例如:在产品的需求分析阶段抑或产品的概念设计阶段,计算 机都表现得无能为力。另外一方面,随着企业生产自动化程度的日益提高,产 品的功能与结构日趋复杂,产品设计在整个生命周期内占有越来越重要的位置。 作为只占5 产品成本的设计活动往往决定占到7 0 一8 0 的产品成本。因此,深 入研究产品设计过程的特点及其方法、规律成为产品设计的主要研究课题。 毫无疑阀,这些庞大的数据库及其中的海量资料是极其丰富的信息源,传统 的信息检索机制和统计分析方法只能获得这些数据的表层信息,不能充允利用 丰富的数据资源,这远远满足不了人们对数据内部隐含的、有价值的信息和知 识获得的需求。如何将这些数据资源的利用提高到更高阶段,达到数据资源利 用过程和人的知识创新过程的有机结合,是信息社会发展到一定阶段的客观要 求。 因此,一门新兴的自动信息提取技术:数据挖掘( d a t am i n i n g ,简称d m ) 也称 为数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简称a d d ) 应运而生并 得到迅速的发展,它的出现为自动和智能地把海量的资料转化为有用的信息和 知识提供了手段i l j 。 武汉理工大学硕士学位论文 国外数据挖掘权威网站 k n o w l e d g e d i s c o v e r yn u g g e t s ( h t t p :w w w k d n u g g e t s c o m ) 将数据挖掘定义为:“d a t am i n i n gi st h ep r o c e s s o ff i n d i n gn e wa n dp o t e n t i a l l yu s e f u lk n o w l e d g ef r o md a t a ”。即:数据挖掘是从 数据中提取新的、潜在有用的知识的过程。 1 2 产品设计知识数据挖掘在国内外的研究现状 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国 际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会, 研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成, 以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届 p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t a e n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网 络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专 题和专刊讨论,甚至到了脍炙人口的程度。 此外,在i n t e m e t 上还有不少k d d 电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威( h t t p :w w w k d n u g g e t s c o m s u b s c r i b e h t m l ) 。在网 上还有许多自由论坛,如d me m a i lc l u b 等。至于d m k d 书籍,可以在任意 一家计算机书店找到十多本。目前,世界上比较有影响的典型数据挖掘系统 有:s a s 公司的e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的 s e t m i n e r 、s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s t r e s e a r c h 公司的s e e 5 、还有c o v e r s t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r y w o r k b e n c h 、d b m i n e r 、q u e s t 等。读者可以访问h t t p :w w w d a t a m i n i n g l a b c o m 网站,该网站提供了许多数据挖掘系统和工具的性能测试报告。 一 最近,g a r t l l e rg r o u p 一次高级技术调查将数据挖掘和人工智能列为“未来一 到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系 和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近g a r t l l e r 的h p c 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户 将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系 统来创建新的商业增长点”。 数据挖掘在国外有不少成功的案例,例如,由加拿大大不列颠哥伦比亚省 s i m o nf r a s e r 大学“智能数据库系统眼睛实验室”( i n t e l l i g e n td a t a b a s es y s t e m s 2 武汉理工大学硕士学位论文 r e s e a r c hl a b o r a t o r y ) 创建,由d b m i n e r t e c h n o l o g y 公司做进一步开发的数据挖 掘系统d b m i n e r 。s a s 公司的e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、 s g i 公司的s e t m i n e r 、s p s s 公司的c i e m e n t i n e 、s y b a s e 公司的w a r e h o u s e s t u d i o 、r u l e q u e s tr e s e a r c h 公司的s e c 5 、还有c o v e r s t o r y 、e x p l o r a 、 k n o w l e d g ed i s c o v e r yw o r k b e n c h 等。 目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的 进一步研究,如近年来注重对b a y e s ( 贝叶斯) 方法以及b o o s t i n g 方法的研究和提 高;统计学回归法在k d d 中的应用;k d d 与数据库的紧密结合:对网络信息 挖掘方法的研究等。国外很多计算机公司非常重视数据挖掘的开发应用,m m 和微软都成立了相应的研究中心,一些公司的相关软件也开始在国内销售,如 p l a t i n t m a 、b o 以及m m 。 在国内,数据挖掘系统起步较晚,不过k d d 也逐步成为计算机研究的热 点,同时国内也涌现出一大批优秀的研究成果,如中科院计算机研究所的史 忠植教授,他在数据挖掘方面的研究涉及到基于内容的图像信息检索系统 m i r e s 、智能搜索引擎g h u n t 等【2 l ;中国人民大学的韩家炜教授f ”,他撰写的 d a t am i n i n g :c o n c e p t sa n dt e c h n i q u e s ,一书被翻译为多种语言( 包括中文) , 并被全球众多高校选作“数据挖掘”课程的教科书,其在关联规则、分类、 聚类、时间序列分析以及地理信息系统和空间数据库等领域上的一系列研究 成果居于国际领先地位。还有浙江大学的潘云鹤教授i3 1 、复旦大学的施伯乐教 授等都在数据挖掘方面也有较深的研究。虽然如此,但是在数据挖掘方面的理 论研究和应用研究还是十分薄弱的,而且大部分都停留在理论和算法的研究上 面,实际的应用型研究很少。 目前的国内的研究重点也正在从理论方面的研究转向应用方面的研究, 但是将数据挖掘技术应用于支持产品设计的方面的研究还较少。 华中科技大学周济教授等人的研究主要集中在基于实例的基础上,将之 应用于工程中的再设计问题及实例检索与重用上,在相控雷达的方案设计支 持系统中应用了这一方法。这种方法可以在再设计中找出相近实例 4 1 。 东南大学景旭文博士提出了基于数据挖掘工具的产品概念设计模型,探讨 了产品功能设计和基于数据挖掘技术的功能一结构映射。以机床传动系统为例, 研究决策树算法的数据挖掘模型,并初步实现了产品概念设计过程的功能,结构 映射1 5 , 6 1 。 华南理工大学卢清华硕士通过对当前产品设计领域面l 临问题的分析,以灯 饰产品设计为例,讨论了产品设计中的三种设计决策以及在这些决策中的数据 3 武汉理工大学硕士学位论文 挖掘算法。在此基础上,通过分析研究,初步论述了一个基于网络的产品设计 数据挖掘系统及其实现方法 7 1 。 1 3 产品设计中数据挖掘的特点 众所周知,产品的研制过程,往往是在一定的信息资源基础上的知识创新, 从原有的信息资源中挖掘的知识在一定程度上给设计人员以启发和借鉴。把成 熟的设计资源中蕴涵的知识应用到新产品的研制中,不仅可以缩短设计周期、 降低成本,而且可以确保产品的设计质量。能否充分合理地利用现有的丰富的 设计资源,是影响产品研制周期、产品设计质量以及产品的创新性的重要因素, 也是衡量设计人员水平的重要标准之一。因此,利用数据挖掘技术,从不同侧 面、不同应用层次最大限度地利用企业积累的丰富信息资源中蕴涵的设计知识, 是数据挖掘技术在工程实践领域的最终目标。 当前我国制造业所遇到的很大困难是在新产品设计过程中,缺乏获取新设计 知识的能力。而在产品设计方法研究中,主要存在以下问题 s l : 1 ) 产品设计师在设计时,通常要花费大量的时间查找参考资料获取知识,仅 靠个人的经验进行设计决策,而缺少适用的知识供应与决策支持工具: 2 ) 目前的设计知识供应方法研究主要集中在对已有知识的推理及运用上,而 对潜在知识的获取却研究得不够,隐含在大量产品数据及设计实例中的知识不 能够有效利用: 3 ) 设计书籍及设计手册上存在大量定性的知识,需要针对特定的产品将部分 定性的知识转变为定量的知识,以便更有效地支持设计决策; 4 ) 产品设计决策支持及智能化程度比较低,产品开发速度缓慢,不能及时响 应市场需求。 1 4 课题的提出、研究意义及研究内容 1 4 1 课题的来源 本文“减速器设计中的数据挖掘技术”是在企业项目“传动机械网络化制造 系统”和武汉理工大学科学研究基金项目( x j j 2 0 0 4 0 6 3 ) :“基于s o l i d w o r k s 的智 能工艺设计系统关键技术研究”的基础上提出来的。 4 武汉理工大学硕士学位论文 1 4 2 课题的研究意义 本课题将阻减速器为具体研究对象,将基于实例推理的数据挖掘理论应用 到减速器设计开发中去。基于实例的推理是由目标实例的体制而得到历史记忆 中的源实例,并由源实例来指导目标范例求解的一种策略,它是一种重要的机 器学习方法,在机械产品以往的大量设计实例和方案中,蕴含着大量的有用信 息,产品设计阶段特别是概念设计阶段需要借鉴以前成熟的设计方案中蕴含的 信息,从中找出有用的信息来指导实际设计或用以解决实际设计遇到的疑难问 题:而数据挖掘技术可以挖掘出海量数据中蕴含的经验性知识,因而将数据挖 掘技术应用到机械产品设计中具有重要的意义。 1 5 论文的主要工作 1 5 1 研究内容 通过查阅大量文献资料,研究总结了数据挖掘的理论,总结了数据挖掘研 究目的和采用的方法。结合企业提供的数据。研究数据挖握技术在减速器产品 设计中的应用问题。 3 本文重点是结合减速器的设计,以在减速器产品的设计数据为基础,设计 并实现了基于实例的推理系统相结合的原型系统,获得设计参数与设计方案之 间的相互关系,以此来给设计人员在产品设计时提供经验性知识。具体内容如 下: 1 ) 首先对减速器各类设计知识进行整理分类,以利于建立减速器知识库,然 后建立了一套标准件以及零件编码规则,并对建立减速器产品实例库、规则库、 标准件库和零件库进行探讨并实践。 2 ) 分析了数据挖掘的原理和各类算法,探讨了数据挖掘算法应用于产品设 计特别是减速器产品设计的可行性。 3 ) 研究基于产品实例库的减速器数据挖掘,利用实例检索等一系列算法从减 速器产品实例库以及标准件实例库、零件库中挖掘有用的知识。 4 ) 建立了减速器数据挖掘原型系统,对减速器产品设计的各类知识进行分类 挖掘,从中找出有用的信息,用以指导减速器产品设计人员。 5 武汉理工大学硕士学位论文 1 5 2 主要特点 本文主要研究基于实例的数据挖掘在减速器设计中的应用,产品设计中的 数据挖掘应用一直是个难点,因为产品设计知识特别是三维c a d 一向都是强经 验弱理论的领域,要想从中寻找规律,获取知识,用于指导设计人员的设计开 发是个复杂而繁琐的工作。本文基于c b r 理论和数据挖掘理论,结合减速器设 计实例的相关数据,实现了数据挖掘算法,并建立了基于实例的减速器数据挖 掘系统。 6 武汉理工大学硕士学位论文 第二章面向产品设计的数据挖掘理论基础 产品的设计过程是立足于设计人员丰富的经验与知识基础上,是创造性的 思维过程,是在现有经验知识基础之上的进一步积累创新,是包含了对知识的 继承、集成、创新和管理的过程。而数据挖掘技术可以从原有的设计数据中挖 掘出蕴含的经验性知识,随着c a d 的发展趋势,数据挖掘的理论正逐渐地被引 入到产品的开发设计过程中。本章将就数据挖掘的基本理论和算法做一介绍。 2 1 数据挖掘概述 2 1 1 数据挖掘的定义 数据挖摇( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程嗍。 简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。还有些术语,具 有和数据挖掘类似但稍有不同的含义,如数据库中知识挖掘、知识提取、数据 模式分析、数据考古和数据捕捞。许多人把数据挖掘视为另一个棠用的术语数 据库中的知识发现即k d d 的同义词。 1 ) 数据挖掘与统计学的区别 数据挖掘不是为了替代传统的统计分析技术,相反它是统计分析方法学的 延伸和扩展,在数据挖掘中大量的使用了机器学习的方法,因此在大数据量、 复杂的计算问题上比统计具有更加强大的处理能力。 大多数的统计分析技术都基于完善的数学理论和高超的技术,对使用者的 要求很高,统计工具一般是给专门的技术人员使用 9 1 ;然而随着计算机计算能力 的不断增强,数据挖掘技术可以通过相对简单和智能的方法完成同样的功能, 决策者只需要很少的训练就能掌握在大型数据库中挖掘知识的工具。 2 ) 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分祈) 的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的 信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预 先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚 7 武汉理工大学硕士学位论文 至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布 和啤酒之间有着惊人的联系。 2 1 2 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一 般可以分成两类:描述和预测。描述性挖掘任务刻画数据库中的一般特性。预 测性数据挖掘任务在当前数据上进行推断,以进行预测。 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能【l o l 。 1 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分 析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测 问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户, 其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 2 1 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据 库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有 可信度。 3 1 聚类 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人 们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术, 其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某 种内涵描述,从而避免了传统技术的某些片面性。 钔概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 8 武汉理工大学硕士学位论文 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 2 2 数据挖掘算法综述 数据挖掘以机器学习、模式识别、统计学、数据库和人工智能等众多学科 为基础,是目前国际上数据库和信息决策系统最前沿的研究方向之一,己引起 了学术界和工业界的广泛关注。 与此同时,各种数据挖掘算法纷纷出现,本节就目前有一定影响力的算法 按关联规则、聚类分析、决策树、遗传算法和粗糙集分别进行阐述与讨论,指 出它们各自适用的范围和尚存的问题,最后指出了这一领域可能的发展方向。 2 2 1 关联规则算法 关联规则是数据挖掘技术所能发现的非常重要的一类规则,它首先由 a g r a w a l 、i m i e l i s k i 和s w a m i u l 于1 9 9 3 年提出,用于发现大量数据中项集之间的 有趣联系。例如,关联规则挖掘可用于发现交易数据库中不同商品( 项) 之间的联 系,从而找出顾客购买商品的行为模式,进而把它应用于商品货架设计、货存 安排以及根据购买模式对用户进行分类等。我们通常会提出这样的问题,“购买 牛奶的顾客同时也购买面包的可能性有多大? ”,“购买计算机的顾客大多在哪个 年龄段? ”等,这些都是属于关联规则数据挖掘所要解决的问题。 ( 1 ) 基本概念 设i 一 “如,i m 是由m 个不同的数据项组成的集合,给定一个交易数据库 d ,其中每一个事务t 是l 中一组项的集合,即r ,t 有一个唯一的标示符 t i d ! “】。设a 为一个数据项集合,当且仅当a _ c t 时,称交易t 包含a 。 一个关联规则就是具有”a b ”形式的蕴含式;其中有a c l ,b c i ,且 a i - i b - 币。规则a b 在交易数据集d 中成立,且具有s 支持度和c 可信度。 这也就意味着交易数据集中有s 比例的交易t 包含a u s 数据项目,交易数据集d 中有c 比例的交易t 满足“若包含a 就包含b 条件”。满足最小支持度阀值和最 9 武汉理工大学硕士学位论文 小信任度阀值的关联规则就称为强规贝j ( s t r o n g ) 。通常为方便起见,都将最小支 持度阀值简写为m i n _ _ s u p ,最小信任阀度简写为m i n _ c o n f o 这两个阀值均在0 到1 0 0 之阔。 ( 2 ) 算法步骤 关联规则挖掘是一个两步的过程: 1 ) 找出所有频繁项集:根据定义,要求这些项集出现的频繁程度应该大于 等于给定的最小支持度。 2 ) 由频繁项集产生关联规则:这个过程由第一步产生的频繁项集产生强规 则,即这些规则必须同时满足最小支持度和最小置信度。 其中,第二个问题的解决相对容易。对于任意一个频繁项集m 和m 的任何 非空子集m ,如果比值: s u p p o r t ( m ) s u p p r t ( n l 急m i nc o n f 则生成强关联规则r :一( m 一) 。其他形式的规则也多可以通过简单的数 值和集合运算获得。 而在第一步过程中,要直接处理事务数据库,面临的数据量巨大,此过程决 定了关联规则挖掘的总体性能。目前大量的研究工作都集中在这一问题上,该 过程也是关联规则挖掘算法的核心过程。 ( 3 ) 常用算法 常用的关联规则算法有a p r i o r i 算法及其改进算法: 1 a p r i o r i 算法 a p d o d 算法【1 2 】是一种具有影响的挖掘布尔关联规则频繁项集的算法,它以 循序渐进的方式,由下往上( b o t t o m - - u p ) ,一步一步地产生候选频繁( c a n d i d a t e l a r g ei t e m s c ! ) ,并利用频繁集的所有子集( s u b s e t ) 也是高频的特性,将不可能 成为高频的项目集删除,以减少会产生的大量候选项目集个数,进而加快挖掘 速度。a p r i o r i 算法的步骤如下: 1 ) 首先让使用者设计最小支持度阀值与最小信任度阀值。 2 ) 根据最小支持度阀值扫描数据库一次,找出满足最小支持度的高频单项目 集( l a r g e1 - - i t e m s e t ) ,利用高频项目集的所有子集也是高频的特性,所以只需 组合这些高频单项耳集来产生候选2 项目集( c a n d i d a t e2 - i t e m s e t ) 。 3 ) 扫描数据库,计算所有候选2 项目集的支持度,根据最小支持度找高频2 项目集( l a r g e2 - - i t e m s e t ) ,并根据最小信任度产生2 项目集规则,存到规则表 格。再由高频2 项目集互相结合产生候选3 项目集。 4 ) 重复扫描数据库,计算候选项目集支持度与规则强度及产生下一层候选项 1 0 武汉理工大学硕士学位论文 目集,直到无法再结合出新的候选项目集为止。 a p r i o r i 演算法就是利用以上的步骤,循序渐进地将不可能的组合排除,以 减少庞大的运算量,但仍需要多次扫描数据库,且整个挖掘的过程都依照使用 者事先所设定的阀值为依据来运算,所以缺乏弹性,一旦使用者要更改阀值, 就必须重新作挖掘,非常得浪费时间,而且重新挖掘时,会重复地计算许多先 前已经计算过的数据,造成了资源的极大浪费,因此,需要对a p r i o r i 算法进行 改进。 2 。改进的a p r i o r i 算法i ”i 为了提高a p r i o r i 算法的有效性,研究人员提出了各种基于a p r i o r i 的变形算 法,目的在于提高算法的效率,比较典型的有a p r i o r i t i d 算法和a p i o r i h y b r i d 算 法。 a p r i o r i t i d 寻找频繁项集的思路不同于a p a o l - i 算法,它仅仅是第一次扫描的 时候使用实物数据库d 计算候选频繁项集的支持度,其他各次扫描用其上一次 扫描产生的候选实物数据库d 来计算候选频繁项集的支持度,如此将减少对数 据库的扫描次数,在一定程度上能够迅速削减候选频繁项集, 但是,即便进行了一系列的优化,a p r i o r i 算法还是有些先天的缺陷: 1 1 它在运算的过程中可能会产生大量的候选集。 2 ) 内存要求很大,事务过多的时候资源难以满足。 3 1 尚且无法对稀有信息进行分析运算。 4 ) 算法效率低。 为了有效地改善a p r i 碰算法和a p r i o r i t i d 算法的不足,有学者提出了 a p i o r i h y b r i d 算法,这种算法将a p r i o r i 算法和a p r i o r i t i d 算法混合,利用各自优 点弥补不足,先使用a p r i o r i 算法,当能匹配的事务减少到内存可以容纳的程度, 再使用a p i r o f i t i d 算法。a p r i o r i h y b r i d 算法性能比a p a o r i 和a p r i o r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论