机器学习算法在数据挖掘中的应用_第1页
机器学习算法在数据挖掘中的应用_第2页
机器学习算法在数据挖掘中的应用_第3页
机器学习算法在数据挖掘中的应用_第4页
机器学习算法在数据挖掘中的应用_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    机器学习算法在数据挖掘中的应用    陈小燕摘 要: 针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对bp神经网络结构参数进行优化的改进型遗传优化bp神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来

2、研究改进型算法的数据挖掘技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。关键词: 数据挖掘; bp神经网络; 遗传优化算法; 空压机故障诊断: tn957.52+9?34; tp274 : a : 1004?373x(2015)20?0011?04application of machine learning algorithm in data miningchen xiaoyan(jiangsu polytechnic college of agricultural and forestry, jurong 212400, chin

3、a)abstract: the machine learning algorithm commonly used in data mining algorithm is studied in this paper. ait (artificial intelligence technology) is adopted in machine learning algorithm, which can automatically find out the parameters and modes required by operation after a large number of sampl

4、e set training and learning. the artificial neural network in machine learning algorithm is taken as an example to research the data mining technology. since the traditional genetic algorithm has the shortcomings of prematurity and weak local optimizing capacity, the improved genetic optimization bp

5、 neural network model is proposed by improving the chromosome structure and genetic operator, and by introducing adaptive crossover and mutation probability to optimize neural network structure parameters and solve the problems of slow learning speed, weak anti?jamming capability, and easily falling

6、 into local minimum value. finally, the performance of the improved algorithm is studied by using the fault diagnosis system of air compressor. the research results show that the improved diagnostic model, compared with the conventional neural network diagnosis model, has better diagnostic accuracy

7、and higher diagnostic efficiency.keywords: data mining; bp neural network; genetic optimization algorithm; fault diagnosis of air compressor0 引 言数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生。随着信息化技术的不断普及,人类社会逐步进入到信息化社会中,信息化管理技术随之不断提升,成本却同时逐步下降,数据管理技术(data management technology)在各企事业单位中进一步普及,从而推动企事业单位内部职能部门间的沟通

8、联络。但是,随之而来的弊病是海量数据的累积导致数据分析的困难1?2。1 数据挖掘数据挖掘算法中常用的有机器学习型算法和统计型算法两类。前者的特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式;后者则常用相关性分析、聚类分析、概率和判别分析等进行运算。不同算法当然有着各自不同的对应领域和目标,它们既能单独使用,也能相互结合。机器学习型算法中人工神经网络方法被普遍运用,它具有极好的数据处理能力和自组织学习能力,并且能准确进行识别,从而有助于分类问题中的数据处理。人工神经网络通过建构模型而工作,其模型多样,能满足不同需求。总体来看,人工神经网络模型精确度高、鲁棒性好,具

9、有较强描述能力,在应用时可以无需专家支持。当然,它也存在一些缺陷,具体表现在:训练数据所需要的时间较长;对所获取知识的理解上不够智能;开放性和可伸缩性也有一定局限性。 传统的bp神精网络存在学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点,而传统的遗传算法存在算法早熟以及局部寻优能力弱等问题;所以本文提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对bp神经网络结构参数进行优化的改进型遗传优化bp神经网络模型3?4。2 改进型ga?bp神经网络本文为了提高bp神经网络的性能,针对常规遗传算法的染色体结构和遗传算子进行改进。引入自适应交叉、变异概率以平衡

10、优化bp神经网络的结构和初始权重。(1) 染色体结构设计。本文将染色体基因结构分为上下两层结构,分别为控制基因和参数基因两层,从而对常规的遗传算法优化bp神经网络模型进行改进。处于上层的控制基因通过对bp神经网络的隐含层节点数优化从而实现对bp神经网络结构的优化。处于下层的参数基因主要对bp神经网络的连接权值和阈值进行优化。(2) 设计适应度函数。本文将适应度函数表示为:f=a?frmse+b?fcom , 0式中:n为训练样本个数;frmse是训练数据的均方根误差,处于01之间;yi和yi分别是实际值和识别值。(3) 算子选择。本文提出的改进型遗传优化bp神经网络算法使用最优个体保留方法实现

11、算子选取以常规的适应值比例算法选取方法引起的局部最小值等问题5。(4) 交叉、变异算子。本文提出的改进型遗传优化bp神经网络算法的上层控制基因采用单点交叉和基本位变异算子,下层的参数基因使用整体算数交叉和非一致变异算子。(5) 自适应交叉、变异概率。本文通过对自适应交叉、变异概率进行设计以平衡优化bp神经网络的结构和初始权重,具体设计过程如下,设定自适应交叉概率为:pc=k1fc-fminfavr-fmin, fcfavrk2, fc>favrc (2)式中:favr,fmin及fc分别是种群的平均适应值、最小适应值以及交叉个体偏小的适应值;k1,k2通常在1.0上下取值。设定自适应变异

12、概率为:pm=k3fm-fminfavr-fmin, fmfavrk4, fm>favrc (3)式中:fm是等待变异的个体适应值;k3,k4通常在0.5上下取值5?7。本文提出的改进型遗传优化bp神经网络算法的实施步骤如下:step1:采集并归一化处理数据。将处理好后的数据分为训练样本数据和测试样本数据两大类。step2:对遗传优化算法模型的基本参数,如进化最大代数为g,种群的规模n以及隐含层节点数等进行设定。step3:对种群上层种群个体使用二进制编码,对种群下层种群个体使用实数编码。step4:对种群各个个体解码以确定bp神经网络的结构参数。step5:遗传操作种群中适应度优异的个

13、体。step6:对种群中遗传个体使用自适应概率进行交叉、变异操作,获得新的子群。step7:对上下层的子群个体解码以对bp神经网络隐含层节点数、权值和阈值等结构参数进行更新。step8:如果迭代步数达到设定最大值或者最佳个体适应度值满足要求,进入下一步,否则从step5继续循环。step9:对适应值最佳的个体进行解码以确定最佳的bp神经网络隐含层节点数、阈值和连接权值等参数8。3 数据挖掘应用实例本文以煤矿空压机的故障诊断系统为实例,对提出的基于改进型ga?bp神经网络的数据挖掘模型进行研究。3.1 煤矿空压机故障诊断系统在建立空压机故障诊断模型之前,首先要通过查阅大量的空压机使用说明、故障说

14、明、专家、操作人员的现场使用经验以及集合现在实时监测数据对空压机故障类型、故障来源等问题进行归纳总结。以某煤矿的煤矿空压机故障诊断系统为例进行研究。通过经验及现场数据对煤矿空压机归纳出5种工作状态,用符号y1y5表示,即为神经网络故障诊断模型的输出。y1y5分别表示:煤矿空压机为无故障工作状态;煤矿空压机冷却水系统出现故障的工作状态;煤矿空压机润滑系统出现故障的工作状态;煤矿空压机轴承出现故障的工作状态;煤矿空压机电路系统出现故障的工作状态。当煤矿空压机出现上述故障情况时,会有相应的故障征兆,根据经验及文献可以将煤矿空压机的故障征兆或者故障现象归纳为10种,用符号x1x10表示,即为神经网络故

15、障诊断模型的输入。x1x10分别表示:煤矿空压机排气量过低、空压机排气压力不足、空压机排气温度超限、空压机冷却水温度超限、空压机冷却水压力不足、空压机主机转速低限、空压机振动超限、空压机润滑系统油温超限、空压机润滑油压力不足以及轴承温度超限。煤矿空压机的故障征兆或者故障现象与煤矿空压机出现故障的工作状态有一定的内在联系,但又不是一一对应的,属于非线性关系,在此将归纳整理的煤矿空压机的故障状态和故障现象之间的内在联系列于表1。通过长期的现场监测得到了大量关于煤矿空压机在正常工作及各种故障状态下的系统数据。通过对数据处理选取100组数据作为基于数据挖掘的故障诊断系统的训练数据样本,选取100组数据

16、用于基于数据挖掘的故障诊断系统的性能测试数据样本。表2列出了10组部分用于网络训练和测试的数据样本。表1 空压机故障状态及故障现象关系本文将所有用于训练和测试的数据样本进行归一化处理以消除不同传感器信号数据不同量纲产生的影响,通过式(4)将所有数据归一到0.050.95之间: </a,bs*=0.9(s-smin)smax-smin+0.05 (4)式中:s为归一化处理之前的值;smax为是归一化处理的最大值;smin为是归一化处理的最小值。建立基于本文提出的基于改进型ga?bp神经网络的故障诊断系统主要分为两大块:第一块是利用改进ga算法对bp神经网络结构参数进行优化,如阈值j,、隐层

17、节点数m以及连接权值wj1,wij等;第二块就是根据优化后的bp神经网络结构参数进行建模。故障诊断系统的输入单元数由煤矿空压机故障现象确定,通过上述分析,确定数量为10,即x1x10;输出单元个数由煤矿空压机的工作状态确定,通过上述分析,确定数量为5,即y1y5;隐含层为单层,单元数量一般先通过经验试凑法确定为16。初始阈值j,以及初始连接权值wj1,wij在-33范围内取值;神经网络的最大训练次数设定为3 000,精度为10-3。设定遗传算法中种群的规模为n=150,进化最大代数为g=300,及其他参数b=0.1,k1=k2=1.0,k3=k4=0.5。通过遗传算法优化的平均适应度曲线如图1

18、所示,隐含层节点数优化曲线如图2所示,最终隐含层节点数通过189次的迭代后确定为22。3.2 基于数据挖掘的空压机故障诊断分析针对上述建立的煤矿空压机故障诊断系统进行仿真研究,为了比较本文提出的改进型ga?bp神经网络算法的优越性能,使用基于常规ga优化的bp神经网络建立同样的煤矿空压机故障针对系统,使用同样的训练数据样本进行网络训练,使用同样的测试数据样本进行性能测试。使用采集并处理后的100组训练样本对模型进行训练,得到两种模型的误差逼近曲线如图3,图4所示。图1 平均适应度变化图2 隐含层节点数更新过程图3 常规ga优化的bp神经网络训练误差通过对比可以看出,使用本文提出的改进型ga?b

19、p神经网络算法经过569次迭代就使得误差达到了设定范围内,而使用常规ga优化的bp神经网络算法经过2 779次迭代才使得误差满足要求。因此在网络的训练速度、收敛速度和收敛精度方面,本文提出的改进型ga?bp神经网络算法更胜一筹。下面使用采集并处理后的100组测试数据样本对故障诊断模型的诊断性能进行测试。测试结果表明,常规ga优化的bp神经网络的诊断正确率为87.5%,诊断时间为564 s,输出值不稳定,而本文提出的改进型ga?bp神经网络的诊断正确率为98.2%,诊断时间为246 s,输出值稳定。图4 改进ga优化的bp神经网络训练误差可以看出,相比于常规ga优化的bp神经网络,本文提出的改进型ga?bp神经网络算法所建立的故障诊断模型的性能更优,检测准确率以及速度更快,误判率极低。4 结 论数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论