免费预览已结束,剩余72页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学 位 论 文基于关联规则的数控加工过程优化控制方法研究河北工业大学硕士学位论文基于关联规则的数控加工过程优化控制方法研究摘 要随着检测技术、数据库技术以及数据管理技术的不断发展,人们在生产过程中积累的数据越来越多,这些杂乱的、看似毫无规律的数据中隐含了许多以人类自身的能力不能发现的知识,所以人们希望借助计算机的力量发现这些知识,数据挖掘便由此产生。在数据挖掘发现的知识中,关联规则是其重要的一个研究方向,关联规则主要进行数据库中的数据项集之间的关联分析。数控机床作为一种高精度、高效率的加工设备,其生产加工过程中受到许多因素的共同影响,是一种典型的复杂加工过程,因此利用数据挖掘和关联规则分析并发现加工过程中各参数之间的关联关系,从而实现对数控加工过程的优化控制就变得很有必要。论文首先对数据挖掘和关联规则的理论进行了深入的调查研究,在分析了数控加工过程的优化控制原理后,将数据挖掘和关联规则引入到数控加工过程的优化控制中。然后,对数控加工过程中的参数进行关联分析,即进行数控加工过程中关联规则的挖掘,论文在分析了传统经典挖掘算法Apriori 算法和 FP-growth 算法后,总结了传统经典挖掘算法的不足,为了克服这些不足之处,将一些相对成熟的人工智能技术应用于关联规则的挖掘中。在分析比较了多种人工智能技术的特点后,论文最终选择利用 BP 神经网络和模糊理论进行数控加工过程中的关联规则挖掘。最后,论文根据数控加工过程中的检测数据进行了关联规则的挖掘,并提取出了其中的关联规则,验证了 BP 神经网络和模糊理论在关联规则挖掘中的可行性及正确性,实现了数控加工过程的优化控制。通过论文的研究,实现了利用关联规则对数控加工过程的优化控制,可以使数控加工过程的优化目标函数及其各个影响参数在最优值上运行,提高数控机床的效率及精度,从而实现了高效率、高精度、高可靠性数控制造。关键词:数据挖掘,关联规则,数控加工,优化控制,神经网络i基于关联规则的数控加工过程优化控制方法研究RESEARCH ON THE OPTIMAL CONTROLOF NC PROCESSBASED ON ASSOCIATION RULESABSTRACTwith the continuous development of the measurement technology, database technology and data management technology, the data which accumulate in the production process are keeping rise, these data which seem disorderly and irregular, but they implicate lots of knowledge which cant be discoverered easily by human being. So people hope to discovere these knowledge by computer. For this reason, data mining has generated. In the knowledge of data mining discovered, association rules is one of the most important fields. Association rules mainly analyze the relationship among items in database.As a high accuracy and high efficiency fabricate equipment, Numerical Control(NC) machine is a typical complex process in manufacturing procedure with so many factors. Therefore, in order to optimal control the NC process, it is necessary to analyze and discover the associations of the parameters by taking advantage of data mining and association rules.The paper, first of all, has made a deeply investigation and study on the theory of data mining and association rules. After having analyzed the principle of NC process optimial control, we introduce data mining and association rules into optimal control of NC manufacturing procedure, and make some association analysis among the parameters of the NC process, which means association rules mining of NC process. After having analyzed the classic mining algorithm-Apriori algorithm and FP-growth algorithm, we summarize their shortages of classic mining algorithm and apply some relatively perfect artificial intelligence technology into association rules mining to overcome these shortages. After having analyzed comparison of many intelligence technology, BP neural network and fuzzy theory are selected to mining association rules finally. In the end, association rules is mined and extracted based on the data accumulated in NC process, and the feasibility and validity of using BP neural nerwork is verified, and the optimal control of NC process is carried out.By these research of this paper, the optimal control of NC processing is carried out. In NC processing the optimization target and its influenced parameters, are running by the optimum value. The efficiency and precision of NC machine is improved. The NC manufacture achieved high efficiency, high precision and high reliability.KEY WORDS: data mining, assiciation rule, NC process, optimal control, nerual networkii河北工业大学硕士学位论文目录第一章 绪论11-1 论文研究的背景及意义11-2 数据挖掘及关联规则概述21-2-1 数据挖掘技术概述21-2-2 数据挖掘技术发展的历史及现状21-2-3 关联规则的发展现状及趋势31-3 论文的研究内容及结构安排5第二章 关联规则概述72-1 关联规则的基本理论72-2 关联规则的基本分类92-3 关联规则在优化控制中的应用102-3-1 数控加工过程优化控制理论102-3-2 数控加工过程优化及其中的关联规则理论112-3-3 关联规则用于优化控制的基本原理132-4 关联规则的挖掘步骤142-4-1 数据挖掘的一般步骤102-4-2 关联规则挖掘的一般步骤102-5 本章小结14第三章 关联规则的挖掘算法173-1 关联规则挖掘传统经典算法综述173-2 Apriori挖掘算法173-2-1 Apriori算法及其挖掘过程173-2-2 Apriori算法存在的不足223-3 FP-growth挖掘算法223-3-1 FP-growth算法及其挖掘过程223-3-2 FP-growth算法存在的不足273-4 传统经典算法存在的不足283-5 关联规则挖掘的智能算法283-5-1 关联规则挖掘中的人工智能算法283-5-2 神经网络用于关联规则挖掘的特点303-5-3 模糊理论用于关联规则挖掘的特点313-6 本章小结32第四章 神经网络和模糊理论对关联规则挖掘的应用33iii基于关联规则的数控加工过程优化控制方法研究4-1 神经网络的基本理论334-1-1 神经网络的基本结构334-1-2 神经网络的工作原理364-1-3 神经网络实现关联规则挖掘的模型364-2 BP神经网络的结构和算法374-2-1 BP神经网络模型结构384-2-2 BP神经网络学习算法原理384-2-3 BP神经网络算法及学习过程414-3 模糊理论的基本理论434-3-1 模糊理论的提出及在关联规则挖掘中的引入434-3-2 模糊理论中隶属函数及确定方法444-4 本章小结45第五章 数控加工过程中关联规则的挖掘465-1 数控加工过程中关联规则挖掘的总体思路465-2 关联规则挖掘的目标函数及参数选择475-2-1 数控加工过程及优化目标475-2-2 关联规则挖掘的目标函数的确定485-2-3 影响表面粗糙度的参数485-3 关联规则挖掘中支持度的确定525-3-1 关联规则挖掘中参数的选择与确定525-3-2 BP神经网络的建立及其对参数的预测535-3-3 关联规则支持度的计算565-4 关联规则挖掘中可信度的确定575-4-1 关联规则挖掘中可信度的表示575-4-2 关联规则挖掘中可信度的计算595-5 关联规则的提取及应用605-5-1 关联规则的提取605-5-2 关联规则的解释及其在优化控制中的应用615-5-3 关联规则优化结果与其他优化结果的比较625-6 本章小结63第六章 结论与展望646-1 全文总结646-2 发展与展望64参考文献66致谢69攻读学位期间所取得的相关科研成果70iv河北工业大学硕士学位论文第一章 绪论1-1 论文研究的背景及意义上世纪初以来,由于科学技术的高速发展,尤其是微电子技术、计算机技术、人工智能技术的迅猛发展,以及这些技术在制造业中的广泛应用,制造业也发生了根本性变革,由传统的自动单机的单机自动化时代向着现代的自动化、最优化、柔性化、集成化、智能化和精密化方向发展,各工业发达国家和发展中国家都投入巨资,通过不懈的努力对现代制造技术进行研究开发,提出了全新的制造模式。在现代化的制造系统中,数控技术集微电子、计算机、信息处理、自动检测、自动控制等高新技术于一体,具有高精度、高效率、柔性自动化等特点,已经成为制造业中最重要的关键技术之一,对制造业实现柔性自动化、集成化、智能化起着举足轻重的作用。随着数控技术的不断进步与发展,数控技术已经成功应用于各种各样的机床上,形成了数控车床、数控铣床、数控磨床以及复合数控机床等多种数控机床,并发展了工序集中的复数控技术广泛地应用在制造业的各种部门,数控加工技术已成为先进加工技术的基础。数控机床作为一种自动化高效设备,结构和控制系统越来越复杂,其生产加工过程也受到越来越多的因素的影响,这些影响因素之间相互联系、相互制约,存在着一定的量化关系。为了深入研究生产过程的机理,控制加工质量,提高加工效率,往往需要找出描述这些过程变量之间依存关系的数学表达式。但是在许多生产过程中,由于过程变量之间的关系比较复杂,而不容易推出精确的数学表达式;或者由于生产过程中不可避免地存在着各种干扰和随机误差,而使得变量之间的关系具有某种不确定性。因此采用数理统计的方法,分析大量的实际生产中的数据,寻找过程变量之间的潜在规律性就成为必要和可能。利用统计出的规律,确定各个过程变量的最优值,并且人为地加以调整,在生产过程中被人们称为“优化”。根据优化求出的最优参数来实时地改变控制系统的设定值,使系统在最优点上运行,从而提高经济效益,这就是人们常说的“优化控制”1。对于数控机床这类自动化高效设备,在其生产加工过程中进行优化控制是提高机床精度和性能的重要手段之一,人们一直以来都不断地对数控机床的优化控制进行探索研究,已经取得了一些成果,但还远没有达到人们的期望和要求,因此人们不断地引进新方法、新技术,希望克服由于数控设备本身复杂性带来的不利影响。目前,在数控加工过程中常用的优化控制方法,一般是在满足一定的约束条件下,通过一定的方法得出在所要求的优化目标函数达到最大值或是最小值时各个设计变量的值,通过调整数控机床中的各个设计变量值达到对目标函数的优化控制。在这一优化过程中,目标函数以及各个设计变量值都是一一对应的某一个固定值,要想使目标函数取得最优值必须使数控机床在设计变量的精确值上运行,这样很容易增加数控机床的操作难度。同时,数控加工过程中经常会受到随机因素以及一些加工条件的影响,现在的优化方法对这些因素影响的描述往往带有一定的主观性,这就影响了数控机床的加工效率和加工质量。本文采用数据挖掘中的关联规则方法对数控机床的生产加工过程进行优化控制,可以将随机因素和加工条件的影响反映在关联规则中,除此之外,根据关联规则自身的优点,它可以取得目标函数在区间内的优化值,并得到相应目标函数最优时的设计参量数值,当然设计参量值也相应的为区间值,这也就是说将设计参数值设置在区间内时就可以达到目标函数的最优化,因此在保证目标函数最优,达到对数控机床加工过程优化控制的同时,增加了操作人员对数控机床的可操作性。1基于关联规则的数控加工过程优化控制方法研究1-2 数据挖掘及关联规则概述1-2-1 数据挖掘技术概述随着数据库技术和数据管理技术的不断发展,人们在生产过程中积累的数据越来越多,这些激增的数据背后隐藏着大量的不为人知的知识,然而从表面看这些数据都是毫无规律、杂乱无章的,已经远远超出了人类的理解能力,以人类本身的能力已经不能发现这些知识,也就造成了“数据丰富、知识贫乏”的窘境,因而人类迫切希望借助计算机的力量发现这些知识,数据挖掘技术因此产生,并不断得到发展。数据挖掘(Data Mining,简称DM),指从大量的、不完全的、有噪声的、模糊的、甚至是随机的应用数据中,发现并提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持234。从不同的角度看,数据挖掘技术可以有许多不同的分类方法,其中以挖掘知识的抽象层次划分,有原始层次(Primitive Level)的数据挖掘、高层次(High Level)的数据挖掘和多层次(Multiple Level)的数据挖掘。根据数据挖掘所发现知识的种类分类,数据挖掘技术可以分为:总结(Summarization)挖掘、特征(Characterization)挖掘、关联(Association)挖掘、分类(Classification)挖掘、聚类(Clustering)挖掘、趋势(Trend)分析、偏差(Deviation)分析、模式(Pattern Analysis)分析等。数据挖掘发现的知识有许多表示方法,其中应用最为广泛的形式表示有:概念(Concepts)、规则(Ru1es)、规律(Regularities)、模式(Patterns)、约束(Constrains)、可视化(Visualization)等,这些用一定形式表示的知识可以直接提供给决策者,辅助决策过程;或者提供领域专家,修正己有的知识体系,也可以作为新的知识转存到系统知识存储机构中,比如专家系统(Expert System)、规则库(Rules Base)等等5。数据挖掘的任务是从巨量数据中发现知识。知识是人类认识的成果和结晶,包括经验知识和理论知识。从工程角度定义,知识是用于解决问题的有格式可复用的信息。在传统的决策系统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现大量数据中尚未发现的知识,是从系统内部自动获取知识的过程。对于那些决策者了解的信息,可以用查询、联机分析处理(OLAP)或其它工具直接获取,比如“列出各分公司上一个月的销售情况”。而另外一些隐藏在人量数据中的关系、趋势,即使是管理这些数据的专家也是没有能力发现的。这些信息对于决策可能又是至关重要的,数据挖掘可以有效的解决这类问题6。1-2-2 数据挖掘技术发展的历史及现状数据挖掘是从数据库中发现知识,该词首次出现在 1989 年举行的第十一届国际联合人工智能学术会议上,它包括关联规则、聚类分析、分类和预测、神经元网络等内容。到目前为止,由美国人工智能协会主办的从数据库中发现知识的国际研讨会己经召开了 8 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现数据挖掘的方法转向数据挖掘系统实际应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透、结合。亚太地区也已经召开了 8 次亚太知识发现和数据挖掘会议,反响空前热烈。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘列为专题和专刊讨论。最近,Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近 Gartner 的研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点”。2河北工业大学硕士学位论文目前美国在数据挖掘方面的研究走在世界的前列,正在研究基于 XML 的面向 WEB 的数据挖掘、专门用于知识发现的数据挖掘语言、关联规则中阈值的智能化以及人工神经网络在数据挖掘中的应用等领域;同时一些国外公司开发了相关的数据挖掘系统,如 SAS 公司的 Enterprise Miner、IBM 公司的 Intelligent Miner、SGI 公司的 SetMinier、SPSS 公司的 Clementine 等,这些系统已经应用在各个行业领域,并有相关的成功案例,图 1.1 是数据挖掘的应用领域分布图。2520 151050商业领域生物/遗传欺诈检测保险制药投资/股票零售科学分析电子其他图 1.1 数据挖掘的应用领域分布图(单位:%) Fig. 1.1 The application distribution of data mining(unit:%)目前我国对于数据挖掘的研究刚起步不久,还处于各自为战的状况,有一些相应的组织机构,正在从事数据挖掘的基础理论及其应用研究,这些机构包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等机构开展了对关联规则挖掘算法的优化和改造;南京大学、四川联合大学和上海交通大学等机构探讨、研究了非结构化数据的知识发现以及 Web 数据挖掘。现在国内独立的数据挖掘方面的专著较少,翻译国外的著作较多,还没有形成相应完善的知识体系,现阶段还主要处于介绍和跟随国外最新的发展动态。在经费方面,国内数据挖掘研究主要来自国家的科研项目经费,以及学校、科研机构的自筹经费,还没有形成由公司作为主导的发展阶段。国内应用数据挖掘成功的案例很多,主要是借助于国外的数据挖掘系统和咨询专家,比如:美国汇丰银行香港分行用 SPSS 对不断增长的客户数据进行挖掘分析,建立了预测模型来发现金融产品交叉销售机会;中国银行信用风险评级管理项目和中国电信选用了数据挖掘产品 Clementine 的营销项目;湖南大学的张小刚等将数据挖掘技术应用到了回转窑烧结系统的建模中,清华大学的李明将数据挖掘技术应用到循环流化床锅炉模糊控制系统中等等。1-2-3 关联规则的发展现状及趋势关联知识(Association)反映一个事件和其它事件之间的依赖或关联,一直以来都是数据挖掘领域中的最重要的研究方向之一,也是数据挖掘得到的最有用的信息之一。数据库中的数据关联是现实世界中事物联系的表现。数据库作为一种结构化的数据组织形式,利用其依附的数据模型可能刻画了数据间的关联。但是,数据之间的关联是复杂的,不仅是上面所说的依附在数据模型中的关联,大部分是蕴藏3基于关联规则的数控加工过程优化控制方法研究的。关联知识挖掘的目的就是找出数据库中隐藏的关联信息。关联可分为简单关联、时序(Time Series)关联、因果关联、数量关联等。这些关联并不总是事先知道的,而是通过数据库中数据的关联分析获得的,因而对商业决策具有新价值。从广义上讲,关联分析是数据挖掘的本质。既然数据挖掘的目的是发现潜藏在数据背后的知识,那么这种知识一定是反映不同对象之间的关联。这些关联知识被发现后需要用一定的形式表示出来便于人们理解和利用,目前,最普遍的是用规则的形式表示关联知识,这也就是人们常说的关联规则,用关联规则来表示数据挖掘中的关联分析。由于这种表示方法的普遍性,人们常常将数据挖掘中的关联分析称为关联规则挖掘,关联规则挖掘是关联知识发现的最常用方法78。关联规则的一项典型应用就是“购物篮分析”。售货商将每位顾客购买的商品进行记录,记录下顾客所购买的各种商品的品名或是编号,通过对这些记录数据进行分析,从而发现哪些商品经常被顾客同时购买或者被同时购买的可能性的大小。分析后可以得出一些商品关系,这些关系可以用关联规则表示。例如,有如下一条关联规则:面包 牛奶suupport = 20%,confidence = 60%(1.1)其中 sup port 、 confidence 是关联规则的度量标准。这条关联规则表示购买面包的顾客一般会同时购买牛奶。具体表示的是:同时购买面包和牛奶的事务占所分析事务的 20%;买面包的顾客有 60% 会同时购买牛奶。这些关联规则可以提示商店的工作人员调整货架,例如,将可能被同时购买的几种商品放得近一些,以便鼓励和方便顾客同时购买这些商品,从而提高商品的销售额。如今,关联规则的应用领域已经从最初的“购物篮分析”发展到金融、医学、工业等领域,可以应用在金融行业、邮电通信、政府机构、教育机构、医疗卫生、交通运输、市场研究、制造业、电子商务、零售业,可以作为企业的决策支持、客户关系管理、市场分析、营销策略和趋势预测等方面的主要决策工具。如识别欺诈,电子通信行业和信用卡公司在这方面是两个先行者,股票交易所和银行也有这方面的需要;推销商可以用关联规则帮助他们确定客户的主要来源,从而在不减少收入的前提下节约不必要的开支;商场根据关联规则计划进什么货、如何摆放物品;关联规则在医学上的应用也有重大意义,可以预测一次手术、药物检验、药物治疗的效果9。在医学临床诊疗中,关联规则可以对病种的病因、病机进行分析研究,可以对疾病、年龄、症状、过敏史等因素之间的分析,分析这些因素之间存在的一定的相关关系,为日后发现诊疗规律提供新的思路和可操作技术,可以使海量的临床诊疗数据变成知识仓库,为医院管理和辅助诊疗决策提供有力的支持10。在故障诊断领域引入基于关联规则的数据挖掘方法也是切实可行的。可以利用历史数据挖掘出其中潜在的规律,为故障诊断提供决策依据,具有实际参考价值。基于关联规则的数据挖掘本身起源于市场销售领域,对挖掘事件之间的联系有独特的优点,所以它可以用在故障发生事件当中。而经过对故障特征数据表的预处理,也可用于故障模式识别问题。对故障样本表进行预处理时参数的选择,关联规则最小支持度及可信度的确定,对确定故障类别有一定的影响。运用数据挖掘方法需要有大量的数据作为后盾,它直接关系到所发现知识的有效性、实用性。如今,关联规则已经被广泛应用。目前,在我国的工业领域,关联规则主要应用于故障诊断和过程优化控制中,其中,中南大学、华北电力大学和中国海洋大学等高校对关联规则在优化控制中的应用做了大量的研究,并取得了一定的成绩。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。尽管目前对关联规则数据挖掘的研究取得了许多显著的成功,但仍然还有许多问题值得进一步的研究与探讨。关联规则数据挖掘的研究与发展方向主要体现在以下方面1112:(1)设计更高效的可扩展的挖掘算法为了从海量数据库中有效地抽取信息,挖掘算法的效率显得尤为重要。单纯从计算机的角度对算法的研究已趋于饱和,有必要加强结合领域知识的理解,以提取与挖掘任务有关的数据,有效地减少问题的复杂度,提高算法的效率。在这方面,基于受限的关联规则挖掘有广阔的发展前景。4河北工业大学硕士学位论文(2)研制更为合理有效的规则评价标准在许多实际应用中,如果仅凭支持度和可信度这两个评价关联规则的标准,可能会发现大量冗余、虚假或非有趣的规则,因而研制一些新的评价标准很有必要,但这可能要视具体情况而定。(3)并行关联规则数据挖掘数据量的不断增长,维数的越来越高,数据的不对称性,动态负载的平衡,并行的数据库管理系统与文件系统等,所有这些都是目前在并行数据挖掘中尚需要解决的问题。随着大规模并行计算在数据挖掘中的应用,由于挖掘系统本身的原因,并行数据挖掘无法实现任意程度的并行。(4)对更多类型的数据源的挖掘目前大多挖掘算法都是对关系型数据库的挖掘。由于应用领域的不同,所挖掘的数据的类型也不同,如结构化数据、超文本数据、多媒体数据、空间数据、面向对象数据、多维数据、数据仓库、Web 数据等,研究对这些类型数据库的关联规则挖掘也将是很迫切的工作。(5)可视化挖掘由于数据挖掘算法本身的复杂性,所以使得一般用户难以理解和接受。关联规则挖掘的可视化主要是通过可视化技术的直观性来弥补数据挖掘算法复杂性的缺陷,使用户与挖掘系统有效的交互,加强与领域专家的合作。(6)与数据仓库和 OLAP 的结合数据挖掘需要的数据是一些经过净化、集成处理的数据,通常这种预处理过程也是昂贵的,而数据仓库作为OLAP(On-Line Analysis Processing,联机分析处理技术)的数据源,存储的就是这样的数据。它能为OLAP提供数据,当然也可以为数据挖掘提供数据。OLAM(On-Line Analytical Processing Mining,联机分析挖掘处理)将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库应用工具未来发展的方向之一。(7)隐私保护及数据安全当数据能从不同角度及不同抽象层查看时,严重地威胁了保护数据安全及禁止侵犯隐私的目标。知识发现何时可能导致侵犯隐私及为了保护敏感信息而开发何种安全措施,这些研究工作都是非常重要的。关联规则数据挖掘是个非常富有前景、极具吸引力和挑战性的研究领域,其应用正在日益扩展,并且已经在很多领域取得了成果,这些成果使得各类机构和组织能更好的理解它们的组织结构、业务处理过程。随着信息量的增加以及软硬件技术的发展,关联规则数据挖掘将有更广泛的应用前景,会使各种利用关联规则数据的系统具有强大的知识发现功能,更有效地发挥其已有或潜在的价值。1-3 论文的研究内容及结构安排数据挖掘是近一、二十年才刚刚兴起的数据处理工具,它的应用面很广泛,不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观或宏观的统计、分析、综合和推理,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,以指导实际问题的求解。然而,由于数据挖掘技术的研究还很不成熟,其应用还有比较大的局限性,本文尝试性地把发展迅速的数据挖掘技术和关联规则技术应用到数控机床的生产加工过程的优化控制中,实现对数控机床加工生产过程中的优化控制的进行进一步的研究,从而提高数控机床的利用率,提高数控加工产品的质量,避免数控机床发生故障,发挥数控机床高精度、高性能的优势。本文的结构安排如下:第一章:介绍论文研究的背景及意义,并概括介绍了在数据中发现隐含的知识的技术数据挖掘的概念、发展历史及现状,并对其中的关联规则的发展现状及趋势进行了重点介绍,最后说明论文的总5基于关联规则的数控加工过程优化控制方法研究体结构安排。第二章:主要介绍关联规则的相关知识,包括关联规则的基本理论、基本分类,并对数控加工过程中的优化控制理论进行了说明,分析了其中的关联规则理论,说明了关联规则用于数控加工过程优化控制的可行性,分析了关联规则用于优化控制的基本原理,并介绍了关联规则挖掘的一般步骤。第三章:重点介绍传统经典关联规则挖掘算法,分别介绍了 Apriori 挖掘算法和 FP-growth 挖掘算法及其挖掘过程,总结提出了传统经典关联规则挖掘算法存在的不足,分析了可以应用于关联规则挖掘的智能算法,并对其进行分析比较,最终选择出神经网络和模糊理论作为论文中应用的关联规则挖掘的人工智能方法。第四章:分别阐述了神经网络和模糊理论两种人工智能算法。介绍了神经网络的基本结构、工作原理以及神经网络可以实现关联规则挖掘的模型,经过分析比较,最终选择 BP 神经网络进行关联规则挖掘,介绍了 BP 神经网络的结构、算法及学习过程。另外,介绍了模糊理论的提出,并分析了模糊理论在关联规则挖掘中的引入,重点介绍了模糊理论中隶属函数及其确定方法。第五章:论文的重点。首先说明了数控加工过程中关联规则挖掘的总体思路,总结了数控加工过程中的优化目标函数,并根据加工数据选定以工件加工表面粗糙度作为关联规则挖掘的目标函数,并分析影响表面粗糙度的各个参数,利用 BP 神经网络对表面粗糙度进行预测,并对数据进行关联规则中支持度的计算。然后利用模糊理论中的隶属函数对数据进行关联规则中可信度的计算,对满足最小支持度和最小可信度的规则进行提取,并对提取的强关联规则进行解释,并说明其在数控加工过程优化控制中的应用。第六章:对论文进行总结,并对未来的发展进行展望。6河北工业大学硕士学位论文第二章 关联规则概述2-1 关联规则的基本理论数据挖掘是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。关联规则是数据挖掘的众多知识类型中最为典型的一种,是数据挖掘研究的一个重要分支,可以发现存在于数据库中的项目(Items)或属性(Attbributes)间的有趣关系,这些关系是预先未知的和被隐藏的,也就是说不能通过数据库的逻辑操作(如:表的联接)或统计的方法得出。这说明它们不是基于数据自身的固有属性(例如函数依赖关系),而是基于数据项目的同时出现特征,所发现的关联规则可以辅助人们进行市场运作,决策支持及商业管理,网站设计等。关联规则是由R.Agarwal等人首先提出的,它的一个典型应用例子就是“购物篮分析”,即对于规则:“90%的顾客在购买面包的同时也会购买牛奶”,其直观意义是顾客在购买某些商品的时候有多大的可能性会购买另外一些商品,在这个规则中就是顾客在购买面包的同时有90%的人可能性会购买牛奶13。关联规则是数据挖掘研究领域的一个重要分支,由Rakesh、Agrawal等人在1993年提出来,关联规则是数据挖掘中一种简单但却很实用的规则。关联规则是描述数据库中数据项之间某种潜在关系的规则,关联规则的挖掘就是指从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识,它能表示数据之间的相互关系,侧重于寻找给定数据集中不同数据属性之间的联系,通过描述数据库中数据项之间所存在的潜在关系的规则,寻找出满足给定支持度阈值和可信度阈值的多个域之间的依赖关系。其挖掘的对象一般是大型事务数据库。关联规则形式简洁、易于解释和理解并可以有效的捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则的问题已经成为近年来数据挖掘研究领域中的一个热点。随着收集和存储在数据库中的数据规模的不断扩大,人们对从这些数据中挖掘出相应的关联知识越来越感兴趣。对关联规则的定义一般为:设 I = i1 , i2 , L , im是一个以m个不同项目为元素的集合,T是针对I的交易的集合,使得 TI ,每一笔交易包含若干个项目 ii ,i j , ,ikI ,X是I的子集,如果 XT ,我们说T包含X。如果X及Y是两个不相交的集合: X ,YI 并且 X Y = 及 Y ,形如 XY 的蕴涵式称为关联规则,这里“ ”称为“关联”,关联规则 R : X Y ,读作:X关联Y,。X称作规则的前提或前项,Y称作规则的结果或后项。S,C分别代表关联规则的支持度和可信度141516。从数据库中挖掘出的关联规则并不一定都能够成立,都满足人们的要求,因此要通过一定的度量标准来判断挖掘出的关联规则是不是能够成立,是不是人们感兴趣的关联规则。一般情况下,判断关联规则是否成立的最常用的条件标准有两个:支持度(Support)及可信度(Confidence)。其中,关联规则的支持度的定义是指: sup port( XY ) = sup port( XY ) ,如式(2.1)所示,即如果一个交易支持项目集X,则它也一定的可能性支持项目集Y,这一可能性就被人们称之为规则的支持度,记为supp(R)、sup(R)或S(R)17。7基于关联规则的数控加工过程优化控制方法研究sup port ( X Y ) = P( X Y )=TX Y T ,T D(2.1)D规则的可信度定义为: confidence( XY ) = sup port( XY ) / sup port( X ) ,如式(2.2),有时也称为置信度,可信度指支持项目集X的交易T也支持项目集Y的条件概率,记为conf(R)或者C(R)。confidence(XY ) = P(YT= sup p(XY )sup p(X )| X T ) =P(Y T X T )P( X Y )=TX Y T ,T D(2.2)TX T ,T D支持度和可信度是描述关联规则的两个重要概念,关联规则的支持度反映了该规则的频繁度,而规则的可信度则表明了整个规则的正确度。前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。一般说来,只有支持度和可信度均较高的关联规则才可能会是用户感兴趣的、有用的关联规则。对于用户给定的最小可信度min_conf以及最小支持度min_sup,如果对规则conf (R) min_ conf , sup p(R) min_ sup 成立,则称关联规则R关于数据库成立,即一个关联规则必须同时满足最小支持度和最小可信度条件,二者缺一不可。规则的前项及后项必须是频繁的,这是一个关联规则成立的必要条件。规则前项及后项不相交条件并不是必须的,去掉这一约束条件不会产生错误的规则,只是会产生冗余或没有意义的规则6。然而,在有些研究和应用中,支持度和可信度并不能完全表示出用户感兴趣的关联规则,因此对于关联规则 X Y ,研究人员不断地提出其他的度量参数18:(1)期望可信度(Expected confidence)设数据库 D 中有 e%的事务支持物品集 Y,e%称为关联规则 X Y 的期望可信度。期望可信度描述了在没有任何条件影响的情况下,物品集 Y 在所有事务中出现的概率有多大。例如在某商场的交易记录中,如果某天共有 1000 名顾客到商场购买物品,其中有 200 名顾客购买了铁钉,则上述的关联规则的期望可信度就是 20%。(2)作用度(Lift)作用度是可信度与期望可信度的比值,有时也被称作提升度。作用度描述物品集 X 的出现对物品集 Y 的出现有多大影响。因为物品集 Y 在所有事务中出现的概率是期望可信度;而物品集 Y 在有物品集 X 出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“物品集 X 出现”的这个条件以后,物品集 Y 的出现概率发生了多大的变化。例如在某商场的交易记录中,如果某天有 1000 名顾客购买物品,其中 400 名顾客购买了锤子,200 名顾客购买了铁钉,100 名顾客同时购买了锤子和铁钉,则上述关联规则的作用度就是 1.25。(3)兴趣度(Interesting)为了修剪一些无趣的规则,避免生成假的关联规则,引入兴趣度这个度量值。一般一条规则的兴趣度是在基于统计独立性假设下真正的强度与期望的强度之比,然而在许多应用中已发现,只要人们仍把支持度作为最初的频繁项集产生的主要决定因素,那么,要么把支持度设得足够低以使得不丢失任何有趣的规则,或者就可能存在一些重要规则丢失的风险;对前一种情况计算效率是个问题,而后一种则可能丢失信息。除此之外,还有学者提出了其他的度量标准,如相关性、参数加权和的评定准则等等。在实际的应用中,并不需要用所有的度量参数进行关联规则成立的判定,通常情况下,只要根据实际情况,选择合适的度量参数即可。8河北工业大学硕士学位论文2-2 关联规则的基本分类根据不同的分类标准,关联规则有不同的分类方法1920:(1)根据规则中所处理的值类型,关联规则可以分为布尔关联规则(boolean association rule)和量化关联规则(quantitative association rule)。如果规则考虑的关联是项的在与不在,则它是布尔关联规则。布尔关联规则处理的项或属性的值类型为离散型或是枚举型。购物篮分析得到的规则就是布尔关联规则。如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。量化关联规则处理的项或属性的值类型为连续的。一般地,在挖掘量化关联规则时需要将项或属性的连续值进行离散化或者划分为不同的区间,或者直接对原始的数据进行处理,当然量化关联规则中也可以包含种类变量。例如: A点气温超限 B点设备障碍(2.3)这是布尔型关联规则;供电煤耗低时 过量空气系数 = 1.342(2.4)涉及的过量空气系数是数值类型,因此这属于一条量化关联规则。(2)根据规则中涉及的数据的维数,关联规则可分为单维关联规则(single-dimensional association rule)和多维关联规则(multi-dimensional association rule)。如果关联规则中的项或属性每个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿吃饭安全要注意课件
- 安全生产课件评价
- 消防安全课课件
- 北京教育学院教师招聘考试笔试试题及答案
- 2025年安全知识竞赛试题题库【含答案】
- 油品安全培训课件
- 下学期国开电大《心理健康教育》随考1答案
- 大学计算机基础练习试题含答案解析
- 北京安全员B证考试试题王牌题库
- 地震安全课件
- 2024DBJ33T1095-预拌砂浆应用技术规程
- 5、二级供应商品质管理
- 2025年江西省交通投资集团有限责任公司社会招聘43人笔试备考题库及答案详解1套
- 2025年上海高三物理高考重点知识点归纳总结(复习必背)
- 医院医学影像科科室年终总结
- 高一家长会化学教师课件
- 2025年危险化学品安全考试题库(危险化学品安全操作规范修订与培训效果)试题
- 2025年中国电脑CPU散热器市场调查研究报告
- 2025年下半年海南省药品监督管理局直属单位招聘事业单位人员易考易错模拟试题(共500题)试卷后附参考答案
- 《社会体育指导员技术等级培训教材》
- 科研项目经费预算表格-科研项目经费明细
评论
0/150
提交评论