(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf_第1页
(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf_第2页
(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf_第3页
(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf_第4页
(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(机械制造及其自动化专业论文)基于离散制造业bom的数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理t 大学颂一l 学位论文摘要 摘要 机械制造业是典型的离散制造业。离散制造企业的产品结构可以用树的概念 进行描述,最终产品一定是由固定个数的零件或部件组成,这些关系非常明确和固 定。e r p 是实现企业信息化有效的工具。e r p 系统中物料清单( b o m ) 是产品结构的 技术性描述文件是信息传递的主要载体,它所管理的技术文件是企业的核心数 据。通过对b o m 的挖掘和利用可以有效地管理和利用企业多年来积累下来的各 种历史数据,统计信息等。 本论文结合数据挖掘研究的理论成果和云南省c i m s 应用示范工程一一昆明 云内动力股份有限公司e r p 项目的调查研究,就数据挖掘技术在制造业的应用做 了初步的探讨。把设计b o m ( e s o m ) 、工艺b o m ( p p b o m ) 、制造b o m ( m b o m ) 、成本 b o m ( c b o m ) 、质量管理b o m ( q u a l i t yb o m q b o m ) 、采购b o m ( b u y in gb o m ,b b o m ) 、 销售b o m ( s a l eb o m ,s b o m ) 和维修b o m 集成起来,建立b o m 库。提出以b o m 库为 基础的数据挖掘系统模型。通过建立基于销售b o m 的数据仓库,实现了数据挖掘 中的数据分析,起到决策支持的作用。关联规则挖掘是数据挖掘的主要技术,基 于维修b o m ,发现故障特征属性之间的关联关系是科学的和可行的,以此思想为 基础,提出一种新颖有效的故障诊断研究方法。针对o r a c l ea p p l i c a t i o n s1 l i 的 e r p 系统上的实际问题,提出解决方案,完成程序开发。 关键词:e r p ,数据挖掘,b o m ,关联规则 昆l 则删丁人学坝l 学位论文 英文摘业 a b s tr a c t t h em e c h a n i c a lm a n u f a c t u r ei s at y p i c a l d i s p e r s e dm a n u f a c t u r e t h ep r o d u c t s t r u c t u r eo ft h ed i s p e r s e dm a n u f a c t u r i n gc o m p a n yc a nb ed e s c r i b e dw i t ht h ec o n c e p t o ft h et r e e ,t h ep r o d u c t sm u s tc o n s i s to fp a r to rp a r to ft h er e g u l a rn u m b e rf i n a l l y , t h e s er e l a t i o n sa r ev e r yc l e a r a n d r e g u l a r e r p r e a l i z e st h et o o lw i t he f f e c t i v e i n f o r m a t i o n i z a t i o no fe n t e r p r i s e b i l lo fm a t e r i a l ( b o m ) i st h et e c h n i c a ld e s c r i p t i o n f i l eo ft h ep r o d u c ts t r u c t u r e ,i st h em a i nc a r r i e ro ft h ei n f o r m a t i o nt r a n s m i s s i o ni n e r ps y s t e m ,t h et e c h n o l o g i c a lf i l et h a ti tm a n a g e si st h ek e yd a t ao ft h ee n t e r p r i s e t h r o u g hd a t am i n i n go fb o m ,c a nm a n a g ea n du t i l i z e v a r i o u sk i n d so fh i s t o r i c a l d a t at h a tt h ee n t e r p r i s eh a sa c c u m u l a t e dd o w nf o rm a n yy e a r se f f e c t i v e l y ,s t a t i s t i c a l i n f o r m a t i o n ,e t c t h i st h e s i sc o m b i n e st h ed a t am i n i n gt h e o r ya c h i e v e m e n ta n dy u n n a np r o v i n c e c i m sd e m o n s t r a t i o np r o j e c ts t u d i e d - - k u n m i n gy u n n e ip o w e rl t d c o e r pt h e i n v e s t i g a t i o n o f p r o j e c t i n c l u d e ,d a t am i n i n gt e c h n o l o g y m a k e p r e l i m i n a r y d i s c u s s i o n b ya p p l i c a t i o n i n m a n u f a c t u r e e n g i n e e r i n gb e m ( e b o m ) ,p r o c e s s p l a n n i n gb o m ( p p - b o m ) ,m a n u f a c t u r i n gb o m ( m b o m ) ,c o s tb o m ( c b o m ) , q u a l i t yb o m ( q b o m ) , b u y i n gb o m ( b b o m ) ,s a l eb o m ( s b o m ) w i t hm a i n t a i n i n g b o m i n t e g r a t e ,s e tu pb o m w a r e h o u s e b a s e do nb o mw a r e h o u s e ,d a t am i n i n g s y s t e m a t i c a lm o d e li ss e t t i n gu p ,t h ed a t aa n a l y s i st h a tr e a l i z e si nd a t aw a r e h o u s e o f s e l l i n gb o m ,p l a yt h e f u n c t i o no fd e c i s i o n s u p p o r t a s s o c i a t i o n r u l ei ti sm a i n t e c h n o l o g i e sa t d a t am i n i n g ,f i n dt h er e l a t e dr e l a t i o n so fa t t r i b u t e ,t h a ti sf e a s i b l e , b a s e do nm a i n t a i n i n gb o m w ep r o p o s et h er e s e a r c ha p p r o a c ht h a ti sn o v e la n d e f f e c t i v ei nm a c h i n e r yf a u l td i a g n o s e sf i e l d t ot h ep r a c t i c a lp r o b l e m so nt h ee r p s y s t e m s o fo r a c l e a p p l i c a t i o n s l1 i ,p u t s f o r w a r dt h e s o l u t i o n ,f i n i s hp r o c e d u r e m a k i n g , k e yw o r d s :e r p ,d a t am i n i n g ,b o m ,a s s o c i a t i o n r u l e l i 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人”) 进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明 确的说明并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名:幺心彦琵,咫- 日期:知垆了月舯 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:候开龙论文作者签名蝴过 日期如0 怍弓月心日 昆叫理工人学硕士学位论文第一章绪论 第一章绪论 1 1 课题的提出 信息技术的飞速发展使我们进入了信息时代,在引起人们的思想观念、生活 方式变化的同时也引发了生产方式和制造哲理的巨大变化,导致制造业世界范围 的激烈市场竞争。以信息技术为主导的高技术为制造技术的发展提供了极大的支 持,基于信息技术的制造业通过采用信息技术,加快不同层次、各具特色的专用 项目建设,进行制造业管理的信息化、智能化、集成化,采用将制造技术和信息 技术、自动化技术、现代管理技术与系统技术有机融合而形成的计算机集成制造 系统,发展先进制造技术,使制造业( 制造商) 能尽快响应市场的变化,制造出质 优价廉的能满足用户需求的产品,最终使企业的经济效益、技术创新能力、市场 竞争能力和抗御风险能力得到显著提高。可以说近十年来提出的新的制造哲理都 离不开信息技术,以信息化制造技术为代表的先进制造技术讵使制造业处于重要 的历史性变革时期。i 7 1 美国加特纳公司( g a r t n e rg r o u pi n c ) 1 9 9 0 年初提出了e n t e r p r i s er e s o u r c e p l a n n i n g ( e r p ) 系统,它是在制造业m r p i i 系统的基础上发展起柬的,是建立 在信息基础上,利用现代企业的先进管理思想,为企业提供决策、计划、控制与 经营业绩评估的全方位、系统化的管理平台,是信息化时代对制造q p 的新发展。 e r p 是企业实现信息化的有效工具,物料清单( b o m ) 是其信息传递的主要载 体,它所管理的技术文件是企业的核心数据,通过对b o m 的挖掘和利用,可以有 效地管理和利用企业多年来积累下来的各种历史数掘,统计信息等,为企业高层 管理者,从规模庞大,数据完整但“事无巨细”的e r p 系统中直接获得对宏观决 策时所需的数据。 与此同h 寸,数据库技术和人工智能技术得到了长足的发展,人们成功的将两 者结合了起来,即通过数据库中的大量数据发现知识,这就是数据挖掘技术。数 据挖掘,就是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣 知识的过程。知以发现是在积累了大量数据后,从中识别出有效的、新颖的、 潜在的、最终可以理解并加以有目的利用的知识,是从宏观角j ! f :利门j 积累数据进 行知识抽象的高级阶段。 e r p 的管理思想和模式基本上都是基于一种“面向事务处理”的、按顺序逻辑 米处理事件的管理,均不能对无法预料的时问和变化快速做出反应。1 6 1 而企、= = 只 昆明理工大学碗:l 学位论文第一章绪论 有尽可能快地为时常提供那些受消费者青睐的产品,才能获利颇丰。因此,企业 必须根据动态多边的时常去做出正确的判断,然后做出决策,这就不得不经常地 快速地根据新的决策去改变产品、计划和生产线。通过引进数据挖掘的一些模式 和方法,可以使管理人员通过对对象的分析,按照设定的目标去寻找一种展佳的 方案。这样就可紧紧跟踪、甚至可达到超前于市场的需求变化,快速做出正确的 决策,并以最快的速度执行这些变化。 在本文提出以b o m ( 物料清单) 为基础数据挖掘技术,通过将分柿在企业网 络中各种类型事务数据进行有效的分析、精练,发现隐含在数据背后的规则和模 式,起到决策支持的作用。 1 2 离散型制造概述 制造业特别是机械制造业是国民经济的支柱产业,现代制造业正在改变着人 们的生产方式、生活方式、经营管理模式乃至社会的组织结构和文化。由于中国 潜在的巨大市场和丰富的劳动力资源世界的制造业正在向中国转移,中国正在 成为世界的制造大国。我国在家电等若干产品的产量已居世界第一位。但是在自 主知识产权的创新设计、先进制造工艺和装备及现代化管理等方面仍然存在很大 差距,所以我们还不是制造强国。机械制造业是典型的离散制造业。 1 2 1 离散型制造的定义f ”l 离散型制造是指,在有限时间内,生产部门利用一定的物料和一定的资源, 通过对原材料物理形状的改变、组装,不同的物料经过非连续的移动,通过不同 路径,成为产品,使其增值。它主要包括机械加工、机床等加工、组装性行业。 离散性材造是。种基 本的生产方式。各个任务是分离的,每个任务有明确的时间, 产品品种,批量及完成的数量。如机械加工,主要应用于小批量中小量生产。 离散制造业包括机床、汽车、柴油机、家具、电子设备、计算机、服装等产 品的制造,它们的加工过程基本上是把原材料分割成离散的毛坯,经各种冷、热 加工制成零件,最后装配成整机产品出厂。 1 2 2 制造业生产类型的划分 根据企业生产方式的不同,制造业可以分为流程型企业和离散型企业。流程 企业主要通过对原材料进行混合、分离、粉碎、加热等物理或化学方法,使原材 料增值。通常,以批量或连续的方式进行生产。而离散企业主要是通过对原材嗣 物理形状的改变、组装,成为产品,使其增值。 昆明理工大学硕士学位论文 第一章绪论 在离散型生产过程中,产品是由离散的零部件装配而成的,物料运动呈离散 状态。零部件是构成产品的不同元件,它可以在不同的地方制造。零部件的不同 组合可以构成不同的产品。 典型的离散制造业企业由于主要从事单件、小批量生产,产品的工艺过程经 常变更,因此,需要进行良好的计划。离散行业适用于按定单组织生产,由于很 难预测订单在什么时候到来,因此。对采购和生产车间的计划就需要很好的生产 计划系统,特别需要计算机来参与计划系统的工作,比如e r p 系统。只要计划得当, 计划的效益在离散制造业相当高。 根据企业的生产类型,生产批量,生产组织方式不同来划分,图1 1 列出制 造业的划分: 制造业 ( m a n u f a a u r i n 曲 离敬制造业 ( d i s c r e t ei d a t a u f ) 单件生产 ( p r o j e c tm m m f ) 多品种小批置生 ( j 0 bs h o p m a n u f ) a - i 生产 ( r e p e t i t i v ei d m u f ) 大规模定制 嚣。丁筹 l ( m 扭l d m u f o f d i s = e r e p r o c e s s ) 图1 1 制造业的划分 这些制造类型的特征如下: 流程工业,物料经过混合、分离、成型或者化学反应,物料大多连续地通过 相同路径,生产出有价值的产品。它又分为连续生产、批量生产和混合制造几种 类型。在管理上要求配方管理、副产品、联产品、多种计量单位,同一物品多个 质量等级、批号跟踪、保质期等特点,一般用专业流程工业软件。 单件生产,产品按订单设计、按客户需求生产,产品很复杂。产品生产周期 一般都很长。有时一个合同按部件多次交货。如三大动力厂( 大电机、汽轮机、 锅炉) 重型机械、造船等。生产组织按工艺划分,设备是通用的。生产管理中除 应用多品种小批量生产的整套方法外,需增加网络计划( 项目管理) ,关键资源排 序。 多品科叫、批量生产,产品是标准的或选配的。需求可以是预测,或按订单生 3 ,、ll、 昆明理工大学硕士学位论文 第一章绪论 产,按订单装配。生产组织按工艺特征分车间、工段、班组,如铸、锻、铆、焊、 车、铣、刨、磨、装配等。生产计划的特征是典型的m r p i i 加配置控制。 大批量生产,产品是标准或少数选配。需求主要靠预测,也考虑订单。生产 设备是以物料( 零件、部件) 为对象组成一条条流水生产线。生产计划的特征是 将传统m r p i i 与j i t 混合制造,中长期计划和批量生产的零件采用物料需求计划 ( m r p ) 。执行计划采用j i t 、看板( 电子看板) 、反冲库存、条码物料跟踪等计划。 大规模定制,将多品种小批量生产以满足不同客户个性需求和大批量生产提 高生产率,降低成本的优势相结合。生产组织仍是流水线,但产品配置是多种多 样。在生产计划控制方面它需要结合m r p 、j i t 、配置控制等综合应用。是前两种 的混合制造模式。 1 2 3 离散型制造的特点l ( 1 ) 产品结构 离散制造企业的产品结构可以用树的概念进行描述,最终产品一定是由固定 个数的零件或部件组成,这些关系非常明确和固定。 ( 2 ) 工艺流程 面向订单的离散制造业的特点是多品种和小批量,因此,生产设备的布置不 是按产品而是按照工艺进行布置的,例如,按车、磨、刨、铣来安排机床的位置。 每个产品的工艺过程都可能不一样,而且,可以进行同一种加工工艺的机床有多 台。因此,需要对所加工的物料进行调度,并且中间品需要进行搬运。面向库存 的大批量生产的离散制造业,例如汽车工业等,按工艺过程稀置生产设备。 ( 3 ) 物料存储 离散工业企业的原材料主要是固体,产品也为固体形状。因此,存储多为室 内仓库或室外露天仓库。 ( 4 ) 自动化水平 离散制造业企业由于是离散加工,产品的质量和生产率很大程度依赖于工人 的技术水平,自动化主要在单元级,例如数控机床、柔性制造系统等,因此,离散 制造业也是一个人员密集型行业,自动化水平相对较低。 ( 5 ) 生产计划管理 典型的离散制造业企业由于主要从事单件、小批量生产,产品的工艺过程经 常变更,因此,需要进行良好的计划。离散行业适用于按订单组织生产,i 妇于很 难预测订单在什么时候到来,因此,对采购和生产车间的计划就需要很好的生产 昆叫理工大学硕士学位论文 第一章绪论 计划系统,特别需要计算机来参与计划系统的工作。只要计划得当,计划的效益 在离散制造业相当高。 1 3 数据挖掘的研究现状 1 3 1 数据挖掘的提出 当前全世界在业务管理、政府管理、科学与工程数据管理和其他应用领域 方面使用的数据库数以百万计。而且。随着数据库技术的发展,数据库的数量和 规模还在迅速增加,特别是出现了数据仓库。现代计算机技术与数据库技术,已 可以支持存储并快速检索这样规模的数据库,但这些技术只是把“数据洪流”转 换为“整齐有序”却“堆积如山”的数据集合,缺乏挖掘数据背后隐藏的知识的 手段,最终导致了“数据爆炸,但知识贫乏”的现象。如今的用户不仅需要一般 的查询、报表工具,更需要的是那些能够帮助他们从浩瀚的数据海洋中提取高质 量信息的工具,这在一些对大量数据分析之后才能做出正确决策的领域( 如经济、 政治与军事等) 中,表现得尤为突出。 传统的数据分析方法( 例如统计) 只能获得数据的表层信息,丽不能获得数 据背后隐藏着的许多重要知识,即数据属性的内在关系和隐含的信息。如此以来, 快速的数据产生与搜索技术和拙劣的数据分析方法之间形成了鲜明的对比,这就 需要有新的技术来“智能地”和“自动地”分析原始数据,使消耗大量财力与物 力所搜集与整理的宝贵的资源得以充分利用。由于计算机技术的另一领域一一人 工智能自1 9 5 6 年诞生之后取得了重大进展( 目前的研究热点是机器学习) 。使得 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背 后的知识成为可能,而这两者的结合促成了数据库中前知识发现( k n o w l e d g e d is c o v e r yi nd a t a b a s e ) 。 1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议上首次出现 k d d 这个术语,随后于1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行了k d d 专题研讨会,汇 集了来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析 算法、知识表示、知识应用等问题。由于这项研究广泛的应用背景和人们对信息 资源应用的普遍关注,专题研讨会发展成为年会。 一般认为,数据库的知识发现( k d d ) 是识别数据中有效的、新颖的、潜在 有用的和最终可被理解的模式的非平凡过程。k d d 过程要对数据库加以必要的选 辑、预处理、抽样和变抉,应用数掘挖掘方法( 算法) 枚举模式,并评价数据挖 掘的结果以确定所枚举的模式中的子集( 这些子集被称为知识) 。其中数据挖掘 昆明理工大学硕士学位论文 第一章绪论 ( d a t am i n i n g ) 是k d d 过程的一个最关键的步骤,它是在现实可接受的计算效率 限制下,应用数据分析和发现算法,在数据的基础上,对模式的特定枚举( 这里 的模式是指从数据中抽取的模式或模型) 。数据挖掘方法的提出为人们认识蕴藏在 数据中的信息和知识提供一条途径。数据挖掘已经引起了人们的广泛关注,许多 研究机构都在这个领域开展了各种各样的研究计划。目前已成为国内外数据库和 信息决策领域的一个研究热点,其主要目的就是发展有关的方法论、理论和工具, 以支持从大量数据中提取有用的和让人感兴趣的知识和模式。1 2 , 3 数据挖掘就是从大量不完全的、有噪声的、模糊的或者随机的数据中挖掘出 隐含的、先前未知的、对决策有潜在价值的知识和规则。这些知识和规则蕴含了 数据库中一组对象之间的特定关系,揭示出一些有用的信息,它们往往表示为概 念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 和模式( p a t t e r n s ) 等形式,为经营决策、市场策划、金融预测等方面提供依据。数据挖掘的对象包 括数据库、文件系统和数据仓库等。数据挖掘是一种有效地从大量数据中发现潜 在数据模式、做出预测性分析的分析工具,是现有的一些人工智能、统计学等成 熟技术在特定的数据库领域中的应用。 1 3 2 数据挖掘的主要技术 数据挖掘技术方面的研究主要包括数据挖掘方法、数据挖掘算法和知识发现 过程。数据挖掘方法包括分类、聚类、预测和评估、相关性分析、搜索和优化等。 数据挖掘算法包括空间数据、文本数据和多媒体数据的数据挖掘算法、并行和分 布式数据挖掘技术等。知识发现过程包括数据预处理技术,如数据去噪、有效样 本选取、数据缩减等,此外还有知识的评估、。统一和解释、数据和知识的可视化。 ( 1 ) 关联规则( a s s o c i a t i o nr u l e ) :所谓关联规则,是指数据对象之间的 相互依赖关系,而发现规则的任务就是从数据库中发现那些置信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 都大于给定值的强规则。从数据库中发现关联规则近几年研 究最多。目前,己经从单一概念层次关联规则的发现发展到多个概念层次的关联 规则的发现。在概念层次上的不断深入,使得发现的关联规则所提供的信息越来 越具体,实际上这是个逐步深化所发现知识的过程。在许多实际应用中,能够得 到的相关规则的数目可能是相当惊人的,而且,用户也并不是对所有的规则感兴 趣,有些规则可能误导人们的决策,所以,在规则发现中常常引入“兴趣度”( 指 一则在定数据域卜为真的知识被用户关注的程度) 概念。 ( 2 ) 分类( c l a s s i f ic a t i o n ) :分类是最基本的种认知形式。数据分类就是 昆明理工大学硕士学位论文第一章绪论 对数据库中的每一类数据,挖掘出关于该类数据的描述或模型,而这些数据库中 的类是事先利用训练数据建立起来的。作为数据挖掘的一个重要主题,数据分类 在统计学、机器学习、人工智能等领域中得到了较早的研究,只是近些年来,人 们才将它与数据库技术结合起来解决实际问题。 ( 3 ) 聚类( c 1 u s t e r i n g ) :在机器学习中,数据分类称为监督学习,而数据 聚类则称为非监督学习,两者所采用的方法相差甚远。数据聚类是将物理的或抽 象的对象分成几个群体。在每个群体内部,对象之间具有较高的相似性,而在不 同群体之问,相似性则比较低。一般地,一个群体也就是一个类,但与数据分类 不同的是,聚类结果主要基于当前所处理的数据,我们事先并不知道类目结构及 每个对象所属的类别。另外,数据聚类计算量巨大,其时间复杂度也要比数据分 类大得多。 1 4 论文的研究意义和研究内容 1 4 1 本文的研究意义 e r p 的管理思想和模式基本上都是基于一种“面向事务处理”的、按顺序逻 辑来处理事件的管理,均不能对无法预料的时间和变化快速做出反应。而企业只 有尽可能快地为时常提供那些受消费者青睐的产品,才能获利颇丰。b o m 是 p d m m r p i i e r p 信息化系统中最重要的基础数据,b o m 不仅是m r p i i 系统中重要的 输入数据,而且是财务部门核算成本,制造部门组织生产等的重要依据,因此, b o m 的影响面最大,通过引进数据挖掘的一些模式和方法,可以使管理人员通过 对b o m 的分析,按照设定的目标去寻找一种最佳的方案。这样就可紧紧跟踪、甚 至可达到超前于市场的需求变化,快速做出正确的决策,并以最快的速度执行这 些变化,使企业时常动态多边的做出正确的判断。然后做出决策,并经常地快速 地根据新的决策去改变产品、计划和生产线。 此外,b o m 还是c i m s m i s m r p l i e r p 与c a d c a p p 等子系统的重要接口,是 系统集成的关键之处,是企业生产各部门生产数据信息的核心来源。 设计部门通过b o m 反映整个产品的设计结构,以此来对整个产品生命周 期的数据进行组织、任务安排、文件管理等。 设计部门和生产部门根据b o m 来生产产品的总的工艺路线。 计划部门根据b o m 计划物料和能力等。 生产部门根据b o m 进行主生产计划的分解,决定零件或最终产品的制造方 法,决定领取的物料清单,进行产品的生产和生产过程的监控。 昆明理工大学硕士学位论文第一章绪论 库房根据b o m 进行计算机配料和发料。 成本核算部门根据b o m 计算最终产品的成本和对产品成本维护,有利于 公司业务的报价与成本分析,发掘出低成本的实现途径。 销售部门通过b o m 确定客户定制产品的构型并模拟报价,通过数据挖掘, 还可以对销售数量和地区销售情况进行预测和分析,指导实际生产,获取最大利 润。 维修部门通过b o m 了解需要何种备品备件,通过数据挖掘发现发生故 障的关联关系。 通过b o m 信息,还可以方便地考核各部门的业绩,利用数据挖掘技术可以方 便地抽取信息进行统计与分析:如果有了新的b o m 资料需求,还可以利用原来的 b o m 资料构造新的b o m 资料,简化近似b o m 资料的编制工作:如果对b o m 信息深 入研究,还可以通过不同的产品b o m 资料来研究其它产品b o m 资料的错误检查, 以免计算机输入或认为修改带来的错误,将错误率降到最低。 b o m 是企业产品管理的基础,它几乎与企业中的所有职能部门都有关系,如 果没有b o m ,企业就无法制造出各类相同的或不同的产品。因此,b o m 信息是 集成环境中企业e r p 中的核心数据。 所以,基于b o m 的数据挖掘的研究,理论上为数据挖掘技术在制造业的应 用做了有意义的探索。 1 4 2 本文的研究内容 本文结合数据挖掘研究的理论成果和云南省c i m s 应用示范工程一一昆明云 内动力股份有限公司e r p 顾目的调查研究。本论文就数据挖掘技术在制造业的应 用做了初步的探讨,主要内容为: 1对数据挖掘的基本概念和基本理论做了全面的评述,讨论了数据挖掘的 在制造业中的应用,介绍了数据仓库、联机分析处理和数掘挖掘的关系。 2提出了基于b o m 的数据挖掘系统模型,并建立了基于销售b o m 的面向数 据挖掘的销售数据仓库,完成数据分析的应用实例。 3 对关联规则挖掘作了较为详尽的评述,并讨论了关联规则在机械故障诊 断的研究方法。详细讨论了关联规则一个有代表性的算法一a p r i lo r i 算法及其提 高算法有效性方法的论述。 4 针对o r a c l e a p p l i c a t i o n sl l i 的e r p 系统上的实际问题,提出解决方案, 完成程序,i :发,实现了基于b o m 的物料组件归属的查询。 r 昆明理工大学醐士学位论文第二章数据挖掘及其o l a p 技术 第二章数据挖掘及其o l a p 技术 2 1 数据挖掘的产生 数据挖掘的出现是信息技术发展的必然结果。一方面需求是技术发展的强大 动力。近年来,人们进行数据采集的能力随着条形码、扫描器、卫星遥感等技术 的发展得到大幅度提高,互联网的发展又起到了推波助澜的作用,大量的数据亟 待更高层次的处理,形成了“数据丰富信息贫穷”的窘境。另一方面,在信息处 理方面也经历了很大的发展。从最初的人工管理阶段、文件系统阶段、数据库系 统阶段一直到数据仓库阶段,人们对于数据的存储、管理和分析越来越合理。以 数据仓库技术为例,它是人们为了能够在异构数据库之间按某种模式进行统一的 数据管理而采用一种新的数据库体系结构数据仓库技术可以对不同类型数据源 的数据进行数据清洗、数据集成,还可以完成诸如数据总结、数据合并和数据聚 合以及不同的信息视图等联机分析处理( o l a p :o n l i n ea n a l y t i e a lp r o c e s s i n g ) 的功能。然而这些仍然远远不能满足数据处理的需要。人们希望能够从数据中发 现更高层次的信息,这些信息将直接用于决策行为的支持。比如,在超市的商品 销售数据记录里蕴含了顾客的一些购买行为模式,这些模式将有助于经营者对超 市商品进行更好的配置。然而这些模式是隐含在数据中的,先前的数据处理技术 不能发现它们。于是在这样的背景下,数据挖掘作为一种新的数据分析技术出现 了。 2 2 数据挖掘定义 1 9 9 5 年在加拿大召开了第一届知识发现( k n o w l e d g ed is c o v e f y i n d a t a b a s e s ,k d d ) 和数据挖掘( d a t am i n i n g ,d m ) 国际学术会议以后,“数据挖 掘”开始流行,它是“知识发现”概念的深化,知识发现与数据挖掘是人工智能、 机器学习与数据库技术相结台的产物。【3 7 】 数据挖掘( d a t am i n i n g ) ,就是从大量的、不完全的、有噪声的、模糊的、 随机的数掘中,提取隐食在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。一个典型的数据挖掘系统如图2 1 所示。 昆l 射理1 :大学碗:i 岸位论文第r 二章数据挖掘发j c o l a p 投术 1 璺i2 1 一个典型的数据挖掘系统 其中,数据库、数据仓库或者是其他一些信息存储媒介为数掘挖掘的工作对 象:服务器主要是响应数据挖掘引擎的请求,提取相应的数据:领域知识库主要 用来指导挖掘的过程,以及用来评价挖掘出来的候选模式;数据挖掘引擎是整个 系统的核心部分,可以由分类模块、关联规则模块、聚类分析模块、时序模块和 异常分析模块等组成;模式评价模块主要是根据一定的度量标准来与数据挖掘模 块交互,以使得数据挖掘向着我们感兴趣随方向进行,往往越是高效的数据挖掘 系统这种交互影响的程度越高:图形用户界面主要是为方便用户与数据挖掘系统 的交互:由用户提出挖掘任务、指定重要的挖掘参数阻及由当前返回的结果指导 进行更进一步的挖掘工作。从上述关于数据挖掘系统的讨论来看,它所有功能的 完全实现决非一件简单的事情,正因为如此,目前市场上出现的很多“数据挖掘” 系统并不是严格意义上的这类系统。一个不能处理大数据量的系统可能划分为其 它类型的系统更为适合如它可能是一个机器学习系统,或者一个统计分析工具, 或一个实验性系统原型等。同样,如果一个系统仅能执行一些数据或信息检索任 务,包括执行一些求和运算,或推导型查询问答,也只能被称为信息检索系统或 者推导型数据库系统。 2 3 数据挖掘与几个学科的关系 2 3 1知识发现与数据挖掘 知i 以发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ,k d d ) 是机器学习、统训学 与数掘库技术相结合发展的产物,是指识别出存在于数据库中有效的、新颖的、 l n 昆明理工大学硕士学位论文第二二章数据挖掘及其o l a p 技术 具有潜在效用的、最终可理解的、模式的、非平凡过程。 k d d 一词是在1 9 8 9 年于美国底特律市召开的第一届k d d 国际学术会议上正 式形成的。国际k d d 学术会议起初两年召开一次,1 9 9 3 年后每年召开一次。在 几次国际k d d 学术会议上讨论的问题主要有以下几个方面: ( 1 ) 定性知识和定量知识的发现 ( 2 ) 数据汇总 ( 3 ) 知识发现方法 ( 4 ) 数据依赖关系的发现和分析 ( 5 ) 发现过程中知识的应用 ( 6 ) 集成的交互式的知识发现系统 ( 7 ) 知识发现的应用 k d d 的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕 数据挖掘进行的预处理和结果表达等一系列的计算步骤。尽管数据挖掘是整个过 程的中心,但它通常只占整个过程15 2 5 的工作量。 k d d 指从数据库中发现有用知识的全过程,是应用特定数据挖掘算法和评价 解释模式的一个循环反复过程,并要对发现的知识不断求精深化,使其易于理解; 而数据挖掘只是这一过程的一个特定步骤,即利用算法从数据中抽取模式,不包 括数据的预处理、领域知识结合及发现结果的评价等步骤。 总之,数据挖掘是k d d 的一个关键步骤,它包括特定的数据挖掘算法,具 有可接受的计算效率,生成特殊的模式:k d d 是利用数据挖掘算法,按指定方式 和阈值抽取有价值的知识,包括数据挖掘前对数据的预处理、抽样及转换和数据 挖掘后对知识的评价解释过程。 2 3 2 机器学习与数据挖掘 机器学习( m a c h i n el e a r n i n g ) 是用计算机模拟人学习的一门科学,丌始于六 十年代末,真正发展是在七十年代来。由于在专家系统开发中存在知识获取的瓶 颈现象,所以采用机器学习来完成知识的自动获取。1 9 8 0 年,在美国召丌了第一 届国际机器学习研讨会;1 9 8 4 年,机器学习杂志问世。我国很快跟上了国际 步伐,于1 9 8 7 年召开了第一届全国机器学习研讨会。 机器学习方法形成了数据挖掘的核心,如:决策树学习、规则归纳等方法已 经成为些数据挖掘系统的重要组件之一。当然,是有些区别的,不是完全的简单 的套用。 昆叫埋工火学硕l 学位论文 笫二章数据挖掘欲二;o l a p 技术 首先,机器学习和数据挖掘的工作重点不一样。数据挖掘过程是强调发现的 规则或模式;机器学习领域中大多数集中在学习或归纳步骤。 其次,一个重要的区别主要在概念和数据的作用。似乎大多数的机器学习研 究都先假设有可以学习的知识,也就是说,存在有趣的概念或产生数据的机制。 数据可能被噪音、差错等破坏了,但是在底层仍然存在有趣的概念。然而,利用 数据挖掘技术对零售商品数据进行分析时,用户感兴趣的不是对数据的全面理解, 而是关心数据中有用部分、整体性,这才是最重要的。 第三个区别与它们的目标有关。在取得知识的复杂性方面,数据挖掘系统有 相当明确的目标。在数据挖掘中大部分工作是在有竞争力的数据中发现知识。从 理论上讲,这些知识对人来说是能发现的,如果他或她有充足时间。然而,机器 学习研究的目标主要是在学习那些对人来说是十分困难的知识。当人们在比较机 器发现和数据挖掘的区别时,这个区别是非常重要的。 最后,在数据挖掘和机器学习之f i f i j 的一个重要区别是处理的数据量不同。传 统的观点认为,机器学习的研究主要集中在包含几百个或几千个样例集合中学习 知识;然而,数据挖掘集中在更大的数据集上,如在成千上力的元组上进行挖掘。 我们不能确定这个区别有多大,因为有时某些机器学习工作也对大数据处理:数 据挖掘也从小数据集中发现知识。 此外,数据挖掘算法复杂的原因主要不与数据库中的对象数有直接关系,而 与数搬库中的属性个数有关:可能产生的模式的数量至少和数据库属性的个数成 指数增长。这个增长是实际数据挖掘困难的源泉,而不完全在于数据库中元组的 数量。 总之,机器学习技术是数据挖掘的核心,但是= 者还是有许多区别的。 2 3 3 统计学与数据挖掘 3 6 1 在统计学中,数据挖掘术语己经使用了很长一段时间了,但常常带有贬义的 意思,这是因为统计学领域中的数据挖掘指的是没有清晰的公式假设的时间分析。 目前在统计学中有一种比较时髦的术语是探索式数掘分析( e x p l o r a t o r y d a l a a n a l y s i s ,e d a ) ,它强调作为制导数据分析过程中数据的重要性。数掘挖掘过程 和探索式数据分析有类似的目标和方祛。 在传统的统计学中,模型是核心,计算、模型选择准则等往往都被认为是次 要的,是建立模型的枝节。但数据挖掘却不同,它的核心是算法,当然也考虑模 ,弘和t q 解释性问题,但算法及可实现性是第一位的。它所姒凋的首先是发现,其 昆明理工大学硕士学位论文第二章数据挖掘及其o l a p 技术 次才是解释。因而,数据挖掘并不过分依赖于严格的逻辑推理,而是大量采用很 多“黑箱”方法和本质上是探索性的方法。 现今统统计学的研究焦点逐步从模型的评估转移到模型的选择,寻找使模型 更好地适合数据的参数值,模型的结构也是搜索过程的一部分。这种趋势更适合 数据挖掘的目标,在数据挖掘过程中不可能预先固定模式结构。据说最近的发展 使我们考虑比以前更大的空间成为可能。除了这些技术,数据挖掘领域从统计学 中学到很多东西,如对不确定性的处理等。 数据挖掘和统计学之间的主要区别是在数据挖掘中广泛应用了机器学习中的 方法和技术、处理大量的数据集等问题。例如:统计学中的建立模型主要困难在 于模型的成百上千的参数值的确定,某种恰当的预处理顺序可能使选择模型任务 变得容易且是所必须的。这些方法的结合是有价值的,这些技术被使用来缩小搜 索空间:统计方法用来详细地探索剩下的部分。 总之,统计学与数据挖掘属于两个不同的领域但统计学的发展对数据挖掘 会有很大的促进作用。 2 3 4 数据库与数据挖掘 数据库在数据挖掘中的作用是不言而喻的,它为数据挖掘提供了大量的结构 化数据源,它是数据挖掘的“矿床”。没有数据库中的数掘,数据挖掘工具就成了 “无米之炊”。数据库管理系统是为存储和方便检索大量的有结构的数据而开发 的,因此从根本上说,它是很适合数据挖掘的。 综上所述,机器学习、统计学、数据库三个领域与数据挖掘是有很大区别的, 并不象某些人所说的数据挖掘就是机器学习、统计学,数据挖掘就是对数据库简 单地处理,这些说法都是片面的,并不能概括数据挖掘的本质。数据挖掘是一个 新兴的研究领域,可以说它是上述三个领域的有机的结合而产生的新领域,它是 顺应信息时代的需要应运而生的,在理论上尚不够成熟,还需要进一步探讨、研 究。 2 4 数据挖掘的特点 ( 1 ) 处理的数据规模十分巨大。 ( 2 ) 查询一般是决策制定者( 用户) 提出的即时随机查询,往往不能形 成精确的查询要求,需要靠数据挖掘技术寻找其可能感兴趣的东西。 ( 3 ) 在一些应用中,由于数据变化迅速可能很快过日j 因此要求数据挖掘能 快速做出反应以提供诀策支持。数据挖掘既要发现潜在规则还要管理和维护捌 1 1 昆皑理工人学坝士学位论文笫二章数捌挖掘及扎o l a p 技术 则。而规则是动态的,当前的规则只能反映当前状态的数据库特征,随着新数据 的不断加入,规则需要随之更新。 ( 4 ) 数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必 适用于所有数据,当达到某一阈值时便可认为有此规律。 2 5 数据挖掘过程 数据挖掘指根据对数据的分析,建立对数据的特性以及数据之间关系描述模 式的过程。在这里数据是一系列事实的集合( 例如数据库中的实例) ,而模式是便 用某种语言对数据集合的一个子集的描述。过程是在数据挖掘中包括的步骤,如 数据的预处理、模式搜索、知识表示以及知识评价等。目前人们对数据挖掘的整 个处理过程并没有给出非常清楚的划分。一种较具代表性的过程模型是 u s a m a m f a y y a a d 等人绘出的多处理阶段模型。如图2 2 所示。 i 一 数据准备卅数据挖掘卅结果解释+ i 数据源 鍪羹龛亲 目标数据 预釜羹后 模型模式知识 数据集市 取搬 幽2 2 数据挖掘过程的步骤 过程中各步骤的大体内容如下:6 3 1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖 掘的最后结果是不可预测的,但要探索的闯题应是有预见的,为了数据挖掘而数 据挖掘则带有盲目性,是不会成功的。 2 数据准备 ( 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数 据挖掘应用的数据; ( 2 ) 数据的预处理 研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的 昆明理工大学硕士学位论文 第二章数据挖掘搜其o l a p 技术 类型: ( 3 ) 数掘的转换 将数据转换成一个分柝模型。这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论