基于主元分析和模糊聚类的浮选过程的数据预处理.doc

资源ID：138538 资源大小：541.62KB 全文页数：31页
资源格式： DOC 下载积分：9积分

扫码快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

手机扫码下载

请使用微信或支付宝扫码支付

• 扫码支付后即可登录、下载文档，同时代表您同意《人人文库网用户协议》

• 扫码过程中请勿刷新、关闭本页面，否则会导致文档资源下载失败

• 支付成功后，可再次使用当前微信或支付宝扫码免费下载本资源，无需再次付费

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源（1积分=1元）下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

基于主元分析和模糊聚类的浮选过程的数据预处理.doc

本科生毕业设计(论文)第I页基于主元分析和模糊聚类的浮选过程的数据预处理摘要随着信息时代的来临，人类在各种领域中面临着越来越多的数据信息，与此同时，这些数据的规模还在以惊人的速度不断增长。鉴于主元分析法的降维特性和模糊C-均值聚类算法良好的分类性能，本文针对反浮选过程的被控对象复杂、数学模型不确定以及控制要求高等特点，提出一种基于主元分析和模糊聚类的数据预处理算法。采用模糊C-均值聚类算法得到聚类中心，然后进行线形回归从而对过程变量数据进行了预处理。主元分析法则用来进行辅助变量的选取和输入高维向量降维简化。在保留原有信息的基础上，去除了冗余数据，加快了聚类速度，在实现对模型的输入简化以及输入数据的故障诊断，为过程建模、先进控制和优化控制等打好基础。然后针对主元变量采用径向基函数网络建立了系统经济技术指标的预测模型。根据工业实际生产数据进行的模型校验和误差分析表明，能够满足浮选过程控制的精度要求。关键词：数据预处理；模糊C均值聚类；主元分析；浮选过程本科生毕业设计(论文)第II页DataPretreatmentofFlotationProcessBasedonPrincipalComponentAnalysisandFuzzyC-meansClusteringAbstractWiththecomingofinformationage,humanareconfrontedwithincreasingdataandinformationindifferentfields.Atthesametime,thesedataaredevelopinginsurprisinglyspeed.Adatapretreatmentalgorithmbasedonprincipalcomponentanalysisandfuzzyc-meansclusteringforflotationprocessisproposedinthispaper.Linearregressionofclusteringcentersgainedbyfuzzyc-meansclusteringalgorithmisintroducedtocarrythroughdatapretreatment.Thepaperadoptsprincipalcomponentanalysistoselecttheprimaryvariablesandreducedimensionsofinputvectors.Bydongso,originalinformationiskeptdownandredundantinformationisremoved,whichbuildsupthefoundationforprocessmodeling,advancedcontroltechnologyandoptimizedcontrol,andsoon.Thenthepaperusesradialbasisfunctionnetworktosetupthepredictionmodelofeconomyandtechnologyindexinflotationprocessaimingatprincipalcomponentvariables.Modelverificationpresentedbyusingrealoperatingdatafromindustrialexperimentsindicatesthatthemodelsprecisionisgoodenoughtosatisfytherequestoffloatationprocesscontrol.Keywords:Datapretreatment；FuzzyC-meansclustering(FCM)；Principalcomponentanalysis(PCA)；Flotationprocess本科生毕业设计(论文)第III页目录摘要.IAbstract.II1绪论.11.1研究背景.11.2数据预处理技术的研究.22模糊C-均值聚类算法.42.1模糊C-均值简介及算法分析.42.2模糊C-均值聚类算法的实现原理.52.3FCM聚类算法的一般步骤.62.4数据预处理结果.63基于主元分析的数据预处理.93.1引言.93.2主元分析基本思路.93.3基于主元分析的数据降维.113.4基于PCA-RBF的浮选过程软测量模型.143.4.1RBF神经网络的学习算法.143.4.2RBF神经网络模型的训练和测试.17结论.19致谢.20参考文献.21附录.22本科生毕业设计(论文)第1页1绪论1.1研究背景浮选是依据物质（如离子、分子、胶体、固体颗粒、悬浮微粒）因其表面活性的不同，可被吸附和粘附在从溶液中提升的泡沫的表面上，从而与母液分离，从矿浆中借助汽泡的浮力来选、分矿物的方法。浮选作为一种工业规模选矿技术的出现，在国外大约是在9世纪末叶，当时西方国家工业发展迅速，急需更多的矿物原料。为了能从以前大量堆积的冲选废弃尾矿中回收有用金属矿物，以及能较有效的从细粒浸染的贫矿或从组成较复杂的多金属矿石中选出精矿产品，浮选法才开始在工业上出现，并不断得到发展的完善。特别是近几十年来，由于成功地找到了许多新的浮选剂（首先是表面活性物质）以及近代工业的迅速发展，浮选工业亦随之获得长足的进步。建国50多年来，伴随着共和国成长的脚步，我国的浮选技术从无到有、由弱到强，走过了一条充满艰辛与坎坷的道路，同时也取得了许多令人瞩目的辉煌成就。近些年来，我国浮选技术的发展更是突飞猛进、一路高歌，大量拥有自主知识产权、占领世界浮选技术制高点的重大科技成果不断涌现，对我国乃至世界浮选技术的迅猛发展起到了积极的推动作用。浮选与其他选矿方法一样，要做好选别前的物料准备工作，即矿石要经过磨矿分级，达到适宜于浮选的浓度细度。此外，浮选还有以下几个基本作业：1矿浆的调整与浮选药剂的加入其目的是要造成矿物表面性质的差别，即改变矿物表面的润湿性，调节矿物表面的选择性，使有的矿物粒子能附着于气泡，而有的则不能附着于气泡。2搅拌并造成大量气泡借助于浮选机的充气搅拌作用，导致矿浆中空气弥散而形成大量气泡，或促使溶于矿浆中的空气形成微泡析出。3气泡的矿化矿粒向气泡选择性的附着，这是浮选过程中最基本的行为。4矿化泡沫层的形成与刮出矿化气泡由浮选槽下部上升到矿浆面形成矿化泡沫层，有用矿物富集到泡沫中，将其刮出而成为精矿（中矿）产品。而非目的矿物则留在浮选槽内，从而达到分选的目的。通常浮选作业浮起的矿物是有用矿物，这样的浮选过程称之为正浮选，反之，浮起本科生毕业设计(论文)第2页的矿物为脉石，则称之为反浮选（或称逆浮选），当前在工业控制和许多其它的应用领域，建立系统的模型是非常重要的一个步骤，而目前常用的建模方法主要有三种：机理建模方法、辨识建模方法和智能建模方法。然而由于浮选过程是一个物理化学综合反应过程，具有严重的非线性、分布参数、强耦合和时滞性等特点，都给上述的前两种传统方法建模带来了困难。近年来，神经网络作为智能建模方法的代表，以其强大的非线性拟合能力、并行信息处理能力和自学习能力，而得到越来越多的应用。但神经网络建模所需要的信息全靠从训练样本中得到，这就决定了建模效果的好坏依经赖于样本的数量和质量，因此对样本数据的预处理就显得非常重要。因此本文采用模糊C均值聚类算法对浮选过程变量数据进行预处理，先得到数据的整体趋势，然后基于聚类点用线性回归得到数据的趋势，进行平移变换后，将在区间以外的数据作为错误数据剔除；主元分析法则用来进行浮选过程的经济技术指标(精矿品位和浮选回收率)软测量模型的辅助变量的选取和输入高维向量的降维简化。最后结合选矿厂的生产历史数据，针对主元变量采用径向基函数网络建立了系统济技术指标的预测模型，对精矿品位和浮选回收率的预测进行了研究，仿真结果表明软测量模型的有效性，这对稳定浮选过程，提高铁精矿产品质量，改善炼铁各项技术经济指标，提高钢铁企业整体经济效益具有非常重要的意义。1.2数据预处理技术的研究随着信息时代的来临，人类在各种领域中面临着越来越多的数据信息，与此同时，这些数据的规模还在以惊人的速度不断增长。因此，为了提高工作效率和生活质量，人们必须获取蕴藏在这些数据中的有价值信息。为了达到这个目的，人们开始致力于从数据库中挖掘知识的研究。然而，众所周知，数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况，这些数据成了发现知识的一大障碍。因此，在从数据库中挖掘知识之前必须对数据进行预处理。数据预处理的主要任务1：1数据清洗：如填补缺失数据、消除噪声数据等。数据清洗的原理就是通过分析“脏数据”的产生原因和存在形式，利用现有的技术手段和方法去清洗“脏数据”，将“脏数据”转化为满足数据质量或应用要求的数据，从而提高数据集的数据质量。2数据集成：将所用的数据统一存储在数据库、数据仓库或文件中形成一个完整本科生毕业设计(论文)第3页的数据集，这一过程要消除冗余数据。3数据转换：主要是对数据进行规格化(Normalization)操作，如将数值限定在特定的范围之内。对于某些挖掘模式，需要数据满足一定的格式，数据转换能把原始数据转换为挖掘模式要求的格式，以满足挖掘的需求。4数据归约：把那些不能够刻画系统关键特征的属性剔除掉，从而得到精练的并能充分描述被挖掘对象的属性集合。对于需要处理离散型数据的挖掘系统，应该先将连续型的数据量化，使之能够被处理。数据预处理出于以下几种需要：（1）为减少后续搜索的复杂度进行的数据预处理（2）为把规则搜索集中在感兴趣模式的搜索上，以避免生成太多的难以理解，难以后续处理的模式。（3）为了方便于应用后续数据挖掘算法而做的数据预处理。（4）根据问题的要求和性质，对数据进行某些变换、转化或简化以提高数据挖掘效率，但不影响挖掘到的知识的可靠性或这种影响微不足道。总之，数据挖掘预处理是根据选择的数据挖掘的目标、对应用领域经过充分理解后通过对数据进行适当的处理以便达到高效挖掘感兴趣模式的目的。本科生毕业设计(论文)第4页2模糊C-均值聚类算法2.1模糊C-均值简介及算法分析聚类分析是多元统计分析的一种，也是无监督模式识别的一个重要分支，在模式分类图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集，使相似的样本尽可能归于一类，而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中，具有非此即彼的性质，而模糊聚类建立了样本对类别的不确定描述，更能客观的反应客观世界，从而成为聚类分析的主流。模糊聚类算法是一种基于函数最优方法的聚类算法，使用微积分计算技术求最优代价函数，在基于概率算法的聚类方法中将使用概率密度函数，为此要假定合适的模型，模糊聚类算法的向量可以同时属于多个聚类，从而摆脱上述问题。模糊聚类分析算法大致可分为三类21）分类数不定，根据不同要求对事物进行动态聚类，此类方法是基于模糊等价矩阵聚类的，称为模糊等价矩阵动态聚类分析法。2）分类数给定，寻找出对事物的最佳分析方案，此类方法是基于目标函数聚类的，称为模糊C均值聚类。3）在摄动有意义的情况下，根据模糊相似矩阵聚类，此类方法称为基于摄动的模糊聚类分析法我所学习的是模糊C均值聚类算法，要学习模糊C均值聚类算法要先了解虑属度的含义，隶属度函数是表示一个对象x隶属于集合A的程度的函数，通常记做A(x)，其自变量范围是所有可能属于集合A的对象（即集合A所在空间中的所有点），取值范围是0,1，即0<=A(x)<=1。A(x)=1表示x完全隶属于集合A，相当于传统集合概念上的xA。一个定义在空间X=x上的隶属度函数就定义了一个模糊集合A，或者叫定义在论域X=x上的模糊子集A。对于有限个对象x1，x2，xn模糊集合A可以表示为：|),(XxxxAiiiA（2.1）本科生毕业设计(论文)第5页有了模糊集合的概念，一个元素隶属于模糊集合就不是硬性的了，在聚类的问题中，可以把聚类生成的簇看成模糊集合，因此，每个样本点隶属于簇的隶属度就是0，1区间里面的值。FCM算法需要两个参数一个是聚类数目C，另一个是参数m。一般来讲C要远远小于聚类样本的总个数，同时要保证C>1。对于m，它是一个控制算法的柔性的参数，如果m过大，则聚类效果会很次，而如果m过小则算法会接近HCM聚类算法。算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵，这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征，可以认为是这个类的代表点。从算法的推导过程中我们不难看出，算法对于满足正态分布的数据聚类效果会很好，另外，算法对孤立点是敏感的。聚类算法是一种比较新的技术，基于曾次的聚类算法文献中最早出现的Single-Linkage层次聚类算法是1957年在Lloyd的文章中最早出现的，之后MacQueen独立提出了经典的模糊C均值聚类算法，FCM算法中模糊划分的概念最早起源于Ruspini的文章中，但关于FCM的算法的详细的分析与改进则是由Dunn和Bezdek完成的。模糊c均值聚类算法因算法简单收敛速度快且能处理大数据集，解决问题范围广，易于应用计算机实现等特点受到了越来越多人的关注，并应用于各个领域。2.2模糊C-均值聚类算法的实现原理聚类是将一个数据集划分为若干组，使得组内相似性大于组间相似性，是对数据合理进行组织和分类的有效技术。聚类方法能够去除冗余数据，剔除掉原始数据中的过失误差，降低随机误差对采样值的影响，有助于体现数据的趋势。本文应用模糊C均值（FCM）聚类方法对采集到的浮选过程数据进行预处理，先得到数据的整体趋势，然后基于聚类点用线性回归得到数据的趋势，进行平移变换后，将在区间以外的数据作为错误数据剔除。实际应用表明，与直接进行线性回归法相比，采用聚类预处理后再进行回归法能够更好的找到数据的趋势。模糊C均值聚类(FCM)算法3,4是将特征空间nxxxX,21中的特征点分为c类nc2，第j类的聚类中心用jv表示，其中任意特征点ix属于第j类的隶属度本科生毕业设计(论文)第6页10ijijuu，且iju满足如下条件：niucjij,2,111（2.2）cjnuniij,2,101（2.3）非相似指标的目标函数为：nijicjaijvxuvUJ121,（2.4）其中，1a为模糊化程度常数，该目标函数实际表征了各类特征点到聚类中心的加权距离平方和，其值越小，表明各类中样本点依附于它们的聚类中心就越紧密。聚类问题就是求使(2.4)式最小的隶属度矩阵cnijuU及类别中心),(21cvvvv。2.3FCM聚类算法的一般步骤随机的初始化0V并根据公式(2.4)计算0U；令迭代次数1m，选择聚类中心个数c，并指定指数权重a；111112112cjajiajiijvxvxucjni,2,1,2,1（2.5）给定mU，根据公式(2.5)计算聚类中心mV；niiaijniaijjcjxuuv11,2,11（2.6）给定聚类中心mV，根据公式(2.5)重新计算隶属度矩阵mU；根据公式(2.4)计算目标函数，如果小于给定阈值，则迭代停止，否则令1mm，转向步骤(2.3)。2.4数据预处理结果根据浮选过程工艺的生产经验，分别以给矿品位、给矿流量、给矿粒度、给矿浓度、精矿品位和浮选回收率对药剂流量先进行模糊C均值聚类，聚类中心个数选为2，然后

注意事项

本文（基于主元分析和模糊聚类的浮选过程的数据预处理.doc）为本站会员（2****）主动上传，人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知人人文库网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。