




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁科技大学本科生毕业设计(论文) 第IV页基于主元分析和模糊聚类的浮选过程的数据预处理摘要随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。鉴于主元分析法的降维特性和模糊C-均值聚类算法良好的分类性能,本文针对反浮选过程的被控对象复杂、数学模型不确定以及控制要求高等特点,提出一种基于主元分析和模糊聚类的数据预处理算法。采用模糊C-均值聚类算法得到聚类中心,然后进行线形回归从而对过程变量数据进行了预处理。主元分析法则用来进行辅助变量的选取和输入高维向量降维简化。在保留原有信息的基础上,去除了冗余数据,加快了聚类速度,在实现对模型的输入简化以及输入数据的故障诊断,为过程建模、先进控制和优化控制等打好基础。然后针对主元变量采用径向基函数网络建立了系统经济技术指标的预测模型。根据工业实际生产数据进行的模型校验和误差分析表明,能够满足浮选过程控制的精度要求。关键词:数据预处理;模糊C均值聚类;主元分析;浮选过程Data Pretreatment of Flotation Process Based on Principal Component Analysis and Fuzzy C-means ClusteringAbstractWith the coming of information age, human are confronted with increasing data and information in different fields. At the same time, these data are developing in surprisingly speed. A data pretreatment algorithm based on principal component analysis and fuzzy c-means clustering for flotation process is proposed in this paper. Linear regression of clustering centers gained by fuzzy c-means clustering algorithm is introduced to carry through data pretreatment. The paper adopts principal component analysis to select the primary variables and reduce dimensions of input vectors. By dong so, original information is kept down and redundant information is removed, which builds up the foundation for process modeling, advanced control technology and optimized control, and so on. Then the paper uses radial basis function network to set up the prediction model of economy and technology index in flotation process aiming at principal component variables. Model verification presented by using real operating data from industrial experiments indicates that the models precision is good enough to satisfy the request of floatation process control.Keywords: Data pretreatment; Fuzzy C-means clustering (FCM); Principal component analysis (PCA); Flotation process目 录摘要IAbstractII1 绪论11.1 研究背景11.2 数据预处理技术的研究22 模糊C-均值聚类算法42.1 模糊C-均值简介及算法分析42.2 模糊C-均值聚类算法的实现原理52.3 FCM聚类算法的一般步骤62.4 数据预处理结果63 基于主元分析的数据预处理93.1 引言93.2 主元分析基本思路93.3 基于主元分析的数据降维113.4 基于PCA-RBF的浮选过程软测量模型143.4.1 RBF神经网络的学习算法143.4.2 RBF神经网络模型的训练和测试17结 论19致 谢20参考文献21附录22 辽宁科技大学本科生毕业设计(论文) 第30页1 绪论1.1 研究背景浮选是依据物质(如离子、分子、胶体、固体颗粒、悬浮微粒)因其表面活性的不同,可被吸附和粘附在从溶液中提升的泡沫的表面上,从而与母液分离,从矿浆中借助汽泡的浮力来选、分矿物的方法。浮选作为一种工业规模选矿技术的出现,在国外大约是在9世纪末叶,当时西方国家工业发展迅速,急需更多的矿物原料。为了能从以前大量堆积的冲选废弃尾矿中回收有用金属矿物,以及能较有效的从细粒浸染的贫矿或从组成较复杂的多金属矿石中选出精矿产品,浮选法才开始在工业上出现,并不断得到发展的完善。特别是近几十年来,由于成功地找到了许多新的浮选剂(首先是表面活性物质)以及近代工业的迅速发展,浮选工业亦随之获得长足的进步。建国50多年来,伴随着共和国成长的脚步,我国的浮选技术从无到有、由弱到强,走过了一条充满艰辛与坎坷的道路,同时也取得了许多令人瞩目的辉煌成就。近些年来,我国浮选技术的发展更是突飞猛进、一路高歌,大量拥有自主知识产权、占领世界浮选技术制高点的重大科技成果不断涌现,对我国乃至世界浮选技术的迅猛发展起到了积极的推动作用。浮选与其他选矿方法一样,要做好选别前的物料准备工作,即矿石要经过磨矿分级,达到适宜于浮选的浓度细度。此外,浮选还有以下几个基本作业:1矿浆的调整与浮选药剂的加入其目的是要造成矿物表面性质的差别,即改变矿物表面的润湿性,调节矿物表面的选择性,使有的矿物粒子能附着于气泡,而有的则不能附着于气泡。2搅拌并造成大量气泡借助于浮选机的充气搅拌作用,导致矿浆中空气弥散而形成大量气泡,或促使溶于矿浆中的空气形成微泡析出。3气泡的矿化矿粒向气泡选择性的附着,这是浮选过程中最基本的行为。4矿化泡沫层的形成与刮出矿化气泡由浮选槽下部上升到矿浆面形成矿化泡沫层,有用矿物富集到泡沫中,将其刮出而成为精矿(中矿)产品。而非目的矿物则留在浮选槽内,从而达到分选的目的。通常浮选作业浮起的矿物是有用矿物,这样的浮选过程称之为正浮选,反之,浮起的矿物为脉石,则称之为反浮选(或称逆浮选),当前在工业控制和许多其它的应用领域,建立系统的模型是非常重要的一个步骤,而目前常用的建模方法主要有三种:机理建模方法、辨识建模方法和智能建模方法。然而由于浮选过程是一个物理化学综合反应过程,具有严重的非线性、分布参数、强耦合和时滞性等特点,都给上述的前两种传统方法建模带来了困难。近年来,神经网络作为智能建模方法的代表,以其强大的非线性拟合能力、并行信息处理能力和自学习能力,而得到越来越多的应用。但神经网络建模所需要的信息全靠从训练样本中得到,这就决定了建模效果的好坏依经赖于样本的数量和质量,因此对样本数据的预处理就显得非常重要。因此本文采用模糊C均值聚类算法对浮选过程变量数据进行预处理,先得到数据的整体趋势,然后基于聚类点用线性回归得到数据的趋势,进行平移变换后,将在区间以外的数据作为错误数据剔除;主元分析法则用来进行浮选过程的经济技术指标(精矿品位和浮选回收率)软测量模型的辅助变量的选取和输入高维向量的降维简化。最后结合选矿厂的生产历史数据,针对主元变量采用径向基函数网络建立了系统济技术指标的预测模型,对精矿品位和浮选回收率的预测进行了研究,仿真结果表明软测量模型的有效性,这对稳定浮选过程,提高铁精矿产品质量,改善炼铁各项技术经济指标,提高钢铁企业整体经济效益具有非常重要的意义。1.2 数据预处理技术的研究随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在这些数据中的有价值信息。为了达到这个目的,人们开始致力于从数据库中挖掘知识的研究。然而,众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中挖掘知识之前必须对数据进行预处理。数据预处理的主要任务1:1数据清洗:如填补缺失数据、消除噪声数据等。数据清洗的原理就是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。2数据集成:将所用的数据统一存储在数据库、数据仓库或文件中形成一个完整的数据集,这一过程要消除冗余数据。 3数据转换:主要是对数据进行规格化(Normalization)操作,如将数值限定在特定的范围之内。对于某些挖掘模式,需要数据满足一定的格式,数据转换能把原始数据转换为挖掘模式要求的格式,以满足挖掘的需求。4数据归约:把那些不能够刻画系统关键特征的属性剔除掉,从而得到精练的并能充分描述被挖掘对象的属性集合。对于需要处理离散型数据的挖掘系统,应该先将连续型的数据量化,使之能够被处理。数据预处理出于以下几种需要:(1)为减少后续搜索的复杂度进行的数据预处理(2)为把规则搜索集中在感兴趣模式的搜索上,以避免生成太多的难以理解,难以后续处理的模式。(3)为了方便于应用后续数据挖掘算法而做的数据预处理。(4)根据问题的要求和性质,对数据进行某些变换、转化或简化以提高数据挖掘效率,但不影响挖掘到的知识的可靠性或这种影响微不足道。总之,数据挖掘预处理是根据选择的数据挖掘的目标、对应用领域经过充分理解后通过对数据进行适当的处理以便达到高效挖掘感兴趣模式的目的。2 模糊C-均值聚类算法2.1 模糊C-均值简介及算法分析 聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支,在模式分类 图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集,使相似的样本尽可能归于一类,而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中,具有非此即彼的性质,而模糊聚类建立了样本对类别的不确定描述,更能客观的反应客观世界,从而成为聚类分析的主流。 模糊聚类算法是一种基于函数最优方法的聚类算法,使用微积分计算技术求最优代价函数,在基于概率算法的聚类方法中将使用概率密度函数,为此要假定合适的模型,模糊聚类算法的向量可以同时属于多个聚类,从而摆脱上述问题。 模糊聚类分析算法大致可分为三类21)分类数不定,根据不同要求对事物进行动态聚类,此类方法是基于模糊等价矩阵聚类的,称为模糊等价矩阵动态聚类分析法。 2)分类数给定,寻找出对事物的最佳分析方案,此类方法是基于目标函数聚类的,称为模糊C均值聚类。3)在摄动有意义的情况下,根据模糊相似矩阵聚类,此类方法称为基于摄动的模糊聚类分析法我所学习的是模糊C均值聚类算法,要学习模糊C均值聚类算法要先了解虑属度的含义,隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做A(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是0,1,即0=A(x)1。对于m,它是一个控制算法的柔性的参数,如果m过大,则聚类效果会很次,而如果m过小则算法会接近HCM聚类算法。算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征,可以认为是这个类的代表点。从算法的推导过程中我们不难看出,算法对于满足正态分布的数据聚类效果会很好,另外,算法对孤立点是敏感的。聚类算法是一种比较新的技术,基于曾次的聚类算法文献中最早出现的Single-Linkage层次聚类算法是1957年在Lloyd的文章中最早出现的,之后MacQueen独立提出了经典的模糊C均值聚类算法,FCM算法中模糊划分的概念最早起源于Ruspini的文章中,但关于FCM的算法的详细的分析与改进则是由Dunn和Bezdek完成的。模糊c均值聚类算法因算法简单收敛速度快且能处理大数据集,解决问题范围广,易于应用计算机实现等特点受到了越来越多人的关注,并应用于各个领域。2.2 模糊C-均值聚类算法的实现原理聚类是将一个数据集划分为若干组,使得组内相似性大于组间相似性,是对数据合理进行组织和分类的有效技术。聚类方法能够去除冗余数据,剔除掉原始数据中的过失误差,降低随机误差对采样值的影响,有助于体现数据的趋势。本文应用模糊C均值(FCM)聚类方法对采集到的浮选过程数据进行预处理,先得到数据的整体趋势,然后基于聚类点用线性回归得到数据的趋势,进行平移变换后,将在区间以外的数据作为错误数据剔除。实际应用表明,与直接进行线性回归法相比,采用聚类预处理后再进行回归法能够更好的找到数据的趋势。模糊C均值聚类(FCM)算法3,4是将特征空间中的特征点分为类,第类的聚类中心用表示,其中任意特征点属于第类的隶属度,且满足如下条件: (2.2) (2.3) 非相似指标的目标函数为: (2.4)其中,为模糊化程度常数,该目标函数实际表征了各类特征点到聚类中心的加权距离平方和,其值越小,表明各类中样本点依附于它们的聚类中心就越紧密。聚类问题就是求使(2.4)式最小的隶属度矩阵及类别中心。2.3 FCM聚类算法的一般步骤随机的初始化并根据公式(2.4)计算;令迭代次数,选择聚类中心个数,并指定指数权重; (2.5)给定,根据公式(2.5)计算聚类中心; (2.6)给定聚类中心,根据公式(2.5)重新计算隶属度矩阵;根据公式(2.4)计算目标函数,如果小于给定阈值,则迭代停止,否则令,转向步骤(2.3)。2.4 数据预处理结果根据浮选过程工艺的生产经验,分别以给矿品位、给矿流量、给矿粒度、给矿浓度、精矿品位和浮选回收率对药剂流量先进行模糊C均值聚类,聚类中心个数选为2,然后以这两点进行线性回归,以回归后所得直线进行一定平移后得到了置信区间,区间外的数据作为误差予以剔除。图2.1和图2.2分别为给矿品位和浮选回收率针对药剂流量的处理结果图。(a)(b)图2.1 基于给矿品位-药剂流量的数据预处理(a)(b)图2.2 基于浮选回收率和药剂流量的数据预处理3 基于主元分析的数据预处理3.1 引言精矿品位和浮选回收率等经济技术指标是浮选生产工艺的关键控制指标,然而操作时只能依据离线分析值进行调节,时滞很大,难以实现直接质量闭环控制。推断估计(软测量)技术能够有效解决难于在线测量过程质量指标的估计问题。浮选过程具有非线性、分布参数、强耦合和时滞性等特点,由机理分析或实验法得到过程软测量模型十分困难。基于上述原因,本章针对浮选过程提出主元分析(PCA)法与RBF神经网络相结合的经济技术指标软测量模。首先依据工艺机理和经验知识对过程变量进行初选,然后运用主元分析法在众多相关浮选过程检测变量中对网络高维输入向量进行辅助变量精选和降维简化。再运用基于最近邻聚类算法(Nearest Neighbor ClusteringAlgorithms)的RBF神经网络对提取出的PCA主成分与浮选过程精矿品位和浮选回收率进行非线性建模。结合选矿厂生产历史数据进行仿真的结果表明经济技术指标(精矿品位和浮选回收率)软测量模型的有效性,这对稳定浮选过程,提高铁精矿产品质量,改善炼铁各项技术经济指标,提高钢铁企业整体经济效益具有非常重要的意义。多变量统计过程控制MSPC源于统计过程控制SPC,主要应用领域是连续生产过程。主元分析PCA是MSPC方法的基本数学工具,它的特点是通过多元统计投影用少量隐变量来表示多个相关变量的动态信息,可用来建模。主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解。新的映射空间的变量由原始数据变量的线性组合构成,从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交,则消除了变量间的关联性,简化了原始过程特性分析的复杂程度。3.2 主元分析基本思路主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合。从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关。其内容包括主元的定义和获取,以及通过主元的数据重构。假设 X 是一个nm 的数据矩阵,其中第一列到第 m 列对应为变量到变量。 设存在一列向量,且,那么叫做X的标准化线性组合(Standardized Linear Combination,简记为 SLC)。在实际分析中,一般将每个变量的均值从X中去掉,只考虑其变化部分。矩阵X的主元具有以下特性:特性1:第个得分向量的方差为。特性2:X的任何一个标准化线性组合的方差都不会大于。特性3:如果是X的一个标准化线性组合,并且与X的前k个主元不相关,那么当是X的第(k+1)个主元时,的方差将会最大。特性4:由X的前k个主元组成的子空间(1 k m)与X的均方距离比由任何其他k个向量组成的子空间到X的均方距离要小。矩阵X的协方差矩阵的前k个特征值的和除以它的所有特征值的和,被称为X的前k个主元的累计贡献率,它表示了前k个主元所解释的数据变化占全部数据变化的比例。数据矩阵X的主元随X中变量所用尺度的变化而变化。在生产过程中采集的数据一般都有相应的物理单位。同一变量可以采用不同的单位。当对同一变量采用不同单位进行测量时,将会得到不同的数据。在对同一过程中因单位制不同而得到的不同数据进行主元分析时,所得到的结果将会是不一样的。在实施多变量统计控制时,需要建立一个反映过程正常运行的主元模型。将反映过程正常运行的历史数据收集起来,对这些数据进行主元分析,建立主元模型。 由于主元分析的结果受数据尺度的影响,因此在进行主元分析时,需要先将数据进行标准化,即将每个变量的均值减掉以后除以它的标准差。假设为收集的过程正常运行数据,先将X做如下标准化: (3.1)其中为变量 X 的均值,为变量的标准差。标准化:第一步是每个变量减去样本均值,因为我们的目的是获取每个数据相对于平均值的变化量。第二步是把经均值中心化处理后的数据的每个变量除以它的标准差。这一步把每个变量标定到单位方差,确保变化大的过程变量不会占主导地位。 为了最优地获取数据的变化量,同时最小化随机噪声对PCA表示的影响,与k个最大奇异值相对应的负荷向量被典型地保留。如果可以用前k(kfazhi jkpw_shiji(i)=; jkpw_yuce(i)=; endendfigure(9)hold onplot(jkpw
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急办安全培训文件课件
- 2024年金属非金属矿山安全作业试卷附完整答案详解(易错题)
- 2024年自考专业(计算机网络)模考模拟试题(考点提分)附答案详解
- 拿货欠款合同(标准版)
- 个人淘宝店铺转让合同(标准版)
- 强化训练人教版9年级数学上册《概率初步》专项训练练习题(含答案详解)
- 中考英语总复习资料2
- 2025年绿色金融债券发行市场趋势与投资价值研究报告
- 2025年工业碳捕获与封存(CCS)应用案例:技术、市场、政策三维分析报告
- 养老院防汛应急预案范文(32篇)
- 关于医院“十五五”发展规划(2026-2030)
- 软件测试升职述职报告
- 室内装饰测量放线专项方案
- 基于移动互联网的智慧观光巴士服务平台
- 一文了解华为MTL流程和LTC流程z1222
- 医院护理品管圈:提高新生儿喂养后体位摆放执行率
- 弹簧-锥形弹簧的计算
- 肾主生殖理论及肾性不孕
- 【家庭教育的不足对小学生心理健康的影响问题探讨6500字(论文)】
- 青少年软件编程(Scratch)三级考试题库(变量 克隆 画笔)
- 注浆加固技术课件
评论
0/150
提交评论