机器学习算法在数据挖掘中的应用.doc_第1页
机器学习算法在数据挖掘中的应用.doc_第2页
机器学习算法在数据挖掘中的应用.doc_第3页
机器学习算法在数据挖掘中的应用.doc_第4页
机器学习算法在数据挖掘中的应用.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习算法在数据挖掘中的应用 陈小燕(江苏农林职业技术学院,江苏句容212400) 摘要:针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来研究改进型算法的数据挖掘技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。 关键词:数据挖掘;bp神经网络;遗传优化算法;空压机故障诊断 :TN957.52+9?34;TP274:A:1004?373X(xx)20?0011?04 Applicationofmachinelearningalgorithmindatamining CHENXiaoyan (JiangsuPolytechnicCollegeofAgriculturalandForestry,Jurong212400,China) Abstract:Themachinelearningalgorithmmonlyusedindataminingalgorithmisstudiedinthispaper.AIT(artificialintelligencetechnology)isadoptedinmachinelearningalgorithm,whichcanautomaticallyfindouttheparametersandmodesrequiredbyoperationafteralargenumberofsamplesettrainingandlearning.Theartificialneuralworkinmachinelearningalgorithmistakenasanexampletoresearchthedataminingtechnology.Sincethetraditionalgeicalgorithmhastheshort?ingsofprematurityandweaklocaloptimizingcapacity,theimprovedgeicoptimizationBPneuralworkmodelispro?posedbyimprovingthechromosomestructureandgeicoperator,andbyintroducingadaptivecrossoverandmutationprobabilitytooptimizeneuralworkstructureparametersandsolvetheproblemsofslowlearningspeed,weakanti?jammingcapability,andeasilyfallingintolocalminimumvalue.Finally,theperformanceoftheimprovedalgorithmisstudiedbyusingthefaultdi?agnosissystemofairpressor.Theresearchresultsshowthattheimproveddiagnosticmodel,paredwiththeconventionalneuralworkdiagnosismodel,hasbetterdiagnosticauracyandhigherdiagnosticefficiency. Keywords:datamining;BPneuralwork;geicoptimizationalgorithm;faultdiagnosisofairpressor 0引言 数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生。随着信息化技术的不断普及,人类社会逐步进入到信息化社会中,信息化管理技术随之不断提升,成本却同时逐步下降,数据管理技术(DataManagementTechnology)在各企事业单位中进一步普及,从而推动企事业单位内部职能部门间的沟通联络。但是,随之而来的弊病是海量数据的累积导致数据分析的困难1?2。 1数据挖掘 数据挖掘算法中常用的有机器学习型算法和统计型算法两类。前者的特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式;后者则常用相关性分析、聚类分析、概率和判别分析等进行运算。不同算法当然有着各自不同的对应领域和目标,它们既能单独使用,也能相互结合。 机器学习型算法中人工神经网络方法被普遍运用,它具有极好的数据处理能力和自组织学习能力,并且能准确进行识别,从而有助于分类问题中的数据处理。人工神经网络通过建构模型而工作,其模型多样,能满足不同需求。总体来看,人工神经网络模型精确度高、鲁棒性好,具有较强描述能力,在应用时可以无需专家支持。当然,它也存在一些缺陷,具体表现在:训练数据所需要的时间较长;对所获取知识的理解上不够智能;开放性和可伸缩性也有一定局限性。 传统的BP神精网络存在学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点,而传统的遗传算法存在算法早熟以及局部寻优能力弱等问题;所以本文提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型3?4。 2改进型GA?BP神经网络 本文为了提高BP神经网络的性能,针对常规遗传算法的染色体结构和遗传算子进行改进。引入自适应交叉、变异概率以平衡优化BP神经网络的结构和初始权重。 (1)染色体结构设计。本文将染色体基因结构分为上下两层结构,分别为控制基因和参数基因两层,从而对常规的遗传算法优化BP神经网络模型进行改进。处于上层的控制基因通过对BP神经网络的隐含层节点数优化从而实现对BP神经网络结构的优化。处于下层的参数基因主要对BP神经网络的连接权值和阈值进行优化。 (5)自适应交叉、变异概率。本文通过对自适应交叉、变异概率进行设计以平衡优化BP神经网络的结构和初始权重,具体设计过程如下,设定自适应交叉概率为: 式中:fm是等待变异的个体适应值;k3,k4通常在0.5上下取值5?7。 本文提出的改进型遗传优化BP神经网络算法的实施步骤如下: Step1:采集并归一化处理数据。将处理好后的数据分为训练样本数据和测试样本数据两大类。 Step2:对遗传优化算法模型的基本参数,如进化最大代数为G,种群的规模N以及隐含层节点数等进行设定。 Step3:对种群上层种群个体使用二进制编码,对种群下层种群个体使用实数编码。 Step4:对种群各个个体解码以确定BP神经网络的结构参数。 Step5:遗传操作种群中适应度优异的个体。 Step6:对种群中遗传个体使用自适应概率进行交叉、变异操作,获得新的子群。 Step7:对上下层的子群个体解码以对BP神经网络隐含层节点数、权值和阈值等结构参数进行更新。 Step8:如果迭代步数达到设定最大值或者最佳个体适应度值满足要求,进入下一步,否则从Step5继续循环。 Step9:对适应值最佳的个体进行解码以确定最佳的BP神经网络隐含层节点数、阈值和连接权值等参数8。 3数据挖掘应用实例 本文以煤矿空压机的故障诊断系统为实例,对提出的基于改进型GA?BP神经网络的数据挖掘模型进行研究。 3.1煤矿空压机故障诊断系统 在建立空压机故障诊断模型之前,首先要通过查阅大量的空压机使用说明、故障说明、专家、操作人员的现场使用经验以及集合现在实时监测数据对空压机故障类型、故障等问题进行归纳总结。 以某煤矿的煤矿空压机故障诊断系统为例进行研究。通过经验及现场数据对煤矿空压机归纳出5种工作状态,用符号Y1Y5表示,即为神经网络故障诊断模型的输出。Y1Y5分别表示:煤矿空压机为无故障工作状态;煤矿空压机冷却水系统出现故障的工作状态;煤矿空压机润滑系统出现故障的工作状态;煤矿空压机轴承出现故障的工作状态;煤矿空压机电路系统出现故障的工作状态。 当煤矿空压机出现上述故障情况时,会有相应的故障征兆,根据经验及文献可以将煤矿空压机的故障征兆或者故障现象归纳为10种,用符号X1X10表示,即为神经网络故障诊断模型的输入。X1X10分别表示:煤矿空压机排气量过低、空压机排气压力不足、空压机排气温度超限、空压机冷却水温度超限、空压机冷却水压力不足、空压机主机转速低限、空压机振动超限、空压机润滑系统油温超限、空压机润滑油压力不足以及轴承温度超限。 煤矿空压机的故障征兆或者故障现象与煤矿空压机出现故障的工作状态有一定的内在联系,但又不是一一对应的,属于非线性关系,在此将归纳的煤矿空压机的故障状态和故障现象之间的内在联系列于表1。 表1空压机故障状态及故障现象关系 建立基于本文提出的基于改进型GA?BP神经网络的故障诊断系统主要分为两大块: 第一块是利用改进GA算法对BP神经网络结构参数进行优化,如阈值j,、隐层节点数m以及连接权值wj1,wij等;第二块就是根据优化后的BP神经网络结构参数进行建模。 故障诊断系统的输入单元数由煤矿空压机故障现象确定,通过上述分析,确定数量为10,即X1X10;输出单元个数由煤矿空压机的工作状态确定,通过上述分析,确定数量为5,即Y1Y5;隐含层为单层,单元数量一般先通过经验试凑法确定为16。初始阈值j,以及初始连接权值wj1,wij在-33范围内取值;神经网络的最大训练次数设定为3000,精度为10-3。 设定遗传算法中种群的规模为N=150,进化最大代数为G=300,及其他参数b=0.1,k1=k2=1.0,k3=k4=0.5。 通过遗传算法优化的平均适应度曲线如图1所示,隐含层节点数优化曲线如图2所示,最终隐含层节点数通过189次的迭代后确定为22。 通过对比可以看出,使用本文提出的改进型GA?BP神经网络算法经过569次迭代就使得误差达到了设定范围内,而使用常规GA优化的BP神经网络算法经过2779次迭代才使得误差满足要求。因此在网络的训练速度、收敛速度和收敛精度方面,本文提出的改进型GA?BP神经网络算法更胜一筹。 图4改进GA优化的BP神经网络训练误差 可以看出,相比于常规GA优化的BP神经网络,本文提出的改进型GA?BP神经网络算法所建立的故障诊断模型的性能更优,检测准确率以及速度更快,误判率极低。 4结论 数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生,在近年来发展十分迅速。本文针对机器学习算法中的人工神经网络算法在数据挖掘技术中的应用进行了研究,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过将提出的基于改进GA?BP神经网络算法的数据挖掘技术应用于无法用数学模型建立、具有复杂非线性、数据庞大的煤矿空压机故障诊断系统中。 参考文献 1胡秀.基于Web的数据挖掘技术研究J.软件导刊,xx(1):149?150. 2李仕琼.数据挖掘中关联规则挖掘算法的分析研J.电子技术与软件工程,xx(4):200?202. 3陈勇.一种目标行为序列模式的数据挖掘方法J.无线电通信技术,xx(2):79?81. 4于书媛,陈靓,王伟.基于空间数据挖掘的合肥市应急避难场所选址J.地理空间信息,xx(1):93?95. 5庄健,杨清宇,杜海峰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论