版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国地质大学(武汉)自动化学院SchoolofAutomation,ChinaUniversityofGeosciences2026年1月27日流程工业智能制造技术理论及应用工业大数据的定义与特点1工业数据关联性分析技术3第三章工业大数据与智能制造工业数据预处理方法2工业过程建模技术41、工业大数据的定义与特征———定义内涵1工业大数据是指在产品生命周期中产生的各类数据及相关技术和应用的总称按数据类型分类,可分为结构化、半结构化和非结构化数据在智能制造中应用广泛,可以通过数据分析实现价值挖掘,助力生产过程的决策与优化结构化数据非结构化数据半结构化数据环境数据(环境温度、环境湿度、工作电压等)知识数据(工艺机理、工程图纸等)接口数据等(JSON格式、XML格式等)设备数据(设备温度压力、速度等)物料信息(生产原料图、原料信息文档)能耗数据产品数据等(属性数据、指标数据等)生产监控信息等(监控图片、视频、音频等)表3.1工业数据按数据类型分类表
1、工业大数据的定义与特征———数据特征2工业大数据既具有传统大数据的特点,也具有其工业过程背景下的数据特点多源异构,工业过程一般设置了多类传感器,数据量大,包含各部门的不同类型的文本、图像、声音等数据质量参差不齐,受测量仪表、变送器、环境以及异常干扰的影响,工业数据中常常会混杂如噪声等不真实数据时空尺度跨度大,过程数据涉及到多个空间层面和不同时间尺度内部蕴含强机理,工业生产运行过程中,任何生产单元及其子系统发生变化,在不同系统层级间传播并不断演化大数据传统5V特征:容量大、多样性、快速快、价值密度低、真实性工业过程的复杂动态特性赋予工业数据的特征:2、工业数据预处理方法———缺失值填补缺失值是指某些数据项在数据集中没有相应数值或信息的情况由于生产运行、检测装置、网络传输等问题造成整条数据信息或部分维度数据丢失某参数的规律时间采样中出现前一条数据与后一条数据时间间隔增大的情况缺失值会影响数据质量和后续分析的准确性,处理缺失值,以尽可能减少信息损失3根据数据的特点和缺失值的性质选择适当的缺失值处理方法忽略缺失值,当数据量较大或缺失值占比很小时,可以考虑直接删除缺失值填充缺失值,使用统计量(均值、中位数或众数等)、机器学习算法(如决策树、随机森林)预测缺失值、特征工程(引入相关性较高的特征)来填充或预测缺失值图3.1炉温数据缺失示意图42、工业数据预处理方法———离群点判断与数据滤波图3.2某工业炉的数据噪声和离群点由于生产过程的工况波动、局域网信号波动等原因使得数据产生噪声毛刺,或导致数据本身产生随机错误从而产生离群值因工艺机理产生的在局部反复出现的离群值,具有特定的工业意义,需要区别于噪声而作为有效信息最大程度保留传输过程中因信号干扰产生的数据瞬时异常波动等异常数据,没有工业意义,会对后续数据处理产生负面影响,需要剔除在完成离群点判断后,需要对有效离群点保留和对异常离群点的数据滤波,常见的滤波方法包括均值滤波、中值滤波、高斯滤波、滑动平均滤波和卡尔曼滤波等根据生产经验确定出相邻两次采样间允许的最大偏差值e,将采样值与前一次历史采样值进行求差,将所得差值与最大偏差值进行比较适用于慢变化的物理参数的采样,如温度、物理位置等测量系统的采样限幅滤波52、工业数据预处理方法———数据滤波方法图3.3
原始与限幅滤波处理后的数据优点:简单易实现,对于一些特定的噪声类型效果较好,能有效克服因偶然因素引起的脉冲干扰缺点:对于非均匀分布的信号变化较快的情况下可能会引入失真,无法抑制那种周期性的干扰,平滑度差e是允许的最大偏差值,x[n]是原始信号序列,y[n]是去除噪声后的信号序列对采样参数进行连续采样(通常为奇数次),将采样值按数值大小排序排列后,选取采样序列的中间值、最大或最小值作为该参数的有效采样结果中值、最大值和最小值滤波62、工业数据预处理方法———数据滤波方法优点:能有效克服因偶然因素引起的波动干扰,对温度、液位的变化缓慢的被测参数有良好的滤波效果缺点:不适用于快速变化的参数,如流量、速度等ymid、ymax和ymin是分别采用中值、最大值与最小值滤波方法去除噪声后的信号序列,w是窗口大小图3.4滤波后的数据对信号的连续若干个采样值进行平均计算,用平均值来代替这些采样值,以实现信号的平滑处理适用于信号中包含高频噪声或突变噪声的情况,如对压力、流量等周期脉动的采样值进行平滑加工处理滑动算术平均值滤波72、工业数据预处理方法———数据滤波方法优点:
对周期性干扰有良好的抑制作用,平滑度高,适用于高频振荡系统缺点:灵敏度低,对偶然出现的脉冲性干扰的抑制作用较差,不易消除由于脉冲干扰所引起的采样值偏差w是窗口大小,x[n]是原始信号序列y[n]是去除噪声后的信号序列图3.5滤波后的数据当输入信号通过FIR滤波器时,滤波器对输入信号的每个采样点都进行加权求和,得到输出信号FIR滤波82、工业数据预处理方法———离群点判断与数据滤波图3.6滤波后的数据优点:在频域上进行截断,滤波后的信号比较平滑缺点:计算量大,容易丢失高频信息x[n]是原始信号序列,y[n]是去除噪声后的信号序列b0、b1...bM是前向系数,M是滤波器阶数根据对阻带衰减及过渡带的指标要求,选择窗函数类型,并估计窗口长度设计FIR滤波器通常需要确定滤波器的阶数、频率响应特性及系数等参数数据归一化用于消除不同量纲之间数量级的巨大差别造成的奇异解92、工业数据预处理方法———数据归一化在机器学习和深度学习任务中,输入数据往往具有不同的特征和量纲,会对模型的训练和性能产生影响将不同特征之间的数据范围统一或者缩放到相似的范围内,以避免数值的差异对模型训练产生影响,并提高模型的稳定性和收敛速度常见的数据归一化方法包括:零均值化,给定某一原始数据集合,将每一属性的数据都减去该属性的均值,形成新集合,将数据的均值调整为零最小-最大归一化,将数据线性缩放到一个指定的范围内,通常是[0,1]或者[-1,1]Z-score标准化,减去均值,然后除以标准差,将数据转换为均值为0、标准差为1的正态分布10工业数据预处理案例图3.7
水箱参数数据处理前后对比图单容水箱液位控制系统数据预处理控制水箱的液位达到期望的设定值,水箱液位值为被控量,进水管流量值为控制量由于数据采集设备故障、传输干扰等原因,原始数据出现测量值缺失和噪声毛刺对原始数据进行预处理,具体包括利用列前列后的均值对缺失值进行填补、中值滤波去除噪声毛刺、最小-最大规范化将原始数据按比例缩放到区间0到1之内113、工业数据的关联性分析技术———相关性分析相关系数的取值介于-1与1之间,可以通过散点图来定性地了解变量间大致的关系情况当相关系数为正时,变量间存在正相关关系;当相关系数为负时,变量间存在负相关关系随机变量X与Y之间不存在相互关系,则数据点在散点图上表现为随机分布;如果存在某种相关性,那么大部分的数据点在散点图上会相对密集并以某种趋势呈现图3.8数据相关性散点示意图通常使用的相关系数有三类,分别为:Pearson相关系数、Spearman等级相关系数和Kendall相关系数数据相关性分析是工业数据信息挖掘中的重要分支123、工业数据的关联性分析技术———相关性分析rxy为X和Y之间的Pearson相关系数,n为样本数量,X、Y分别表示变量的值在工业数据处理过程中,对计算出的Pearson相关系数按以下取值区间进行相关性强弱判断当两个变量的标准差都不为零时,相关系数才有意义,Pearson相关系数的适用于:|rxy|[0.0,0.2][0.2,0.4][0.4,0.6][0.6,0.8][0.8,1.0]相关性强弱无相关关系弱相关关系中等强度相关关系强相关关系极强相关关系变量之间为连续的线性关系总体服从正态分布,或接近正态的单峰分布变量的观测值成对存在,且每对观测值之间相互独立Pearson相关系数(皮尔逊相关系数)表3.2Pearson系数相关性强弱表
133、工业数据的关联性分析技术———相关性分析ρ为Spearman相关系数,N为变量的元素个数,d
为有序排行的差分集合,其中di=xi-yi,xi、yi分别为Xi在X有序排列中的排行、Yi在Y有序排列中的排行τa为Kendall相关系数,N为变量的元素个数,
C表示X和Y中拥有一致性的元素对数,D表示X和Y中拥有不一致性的元素对数Kendall相关系数用于衡量变量之间的顺序关系,将每个变量的数据进行排列,当元素在各自排行相同时,认为这两个元素为一致对计算两个变量之间的一致对对数,求和得到最终的相关系数Spearman相关系数用单调函数来估计两个变量之间线性相关性对数据要求较低,只要两个变量的观测值是成对有序排行集合,或者可由连续变量观测值转化得到成对有序排行集合143、工业数据的关联性分析技术———因果性分析基于工业机理分析数据之间的因果关系可以更好地指导生产决策和优化控制策略因果分析是确认因果关系方向和强弱的方法,可通过基于知识和基于数据的方法获取常用的因果分析方法主要包括互相关分析(Cross-correlationanalysis,CCA)、格兰杰因果关系(Grangercausality,GC)、传递熵(Transferentropy,TE)方法等方法分类优点缺点互相关分析基本原理简单、过程易于实现无法分析非线性因果关系、不能区分直接与间接因果关系格兰杰因果关系计算复杂度低、具有预测功能无法分析非线性因果关系、易出现虚假冗余因果关系传递熵可分析线性及非线性因果关系联合概率分布函数计算量大、无法区分直接与间接因果关系表3.3因果分析方法分类挖掘工业过程变量之间的关联信息,实现因果关系的确定以及传播路径的识别153、工业数据的关联性分析技术———因果性分析互相关分析要求成对比较检验,无法判断直接及间接因果关系,难以应用于某些高维度、强耦合的工业过程因果溯源与因果关系传播路径识别
Φmax、Φmin为互相关函数最大、最小值kmax、kmin为分别对应的时延常数若λi,j
>0,则表明传播方向为xi→xj;若λi,j
<0,则传播方向为xj→xi若ρi,j>0,则表示两变量呈正相关关系;若ρi,j
<0,则两变量呈负相关关系
假设xi、xj为某工业过程中的两个变量,λi,j为时滞,ρi,j为关联系数互相关分析(Cross-correlationanalysis,CCA)结合显著性检验和因果假设,通过分析工业过程变量时间序列间的时滞和关联信息来推断因果适用于分析平稳时间序列间的相关性,对非平稳时间序列的工业过程数据难以准确地描述时间序列间的非线性相关关系163、工业数据的关联性分析技术———因果性分析Granger因果关系分析局限性在于只能够定性的分析出变量间关联关系的方向,但是无法进行定量分析来确定关联关系的强弱传递熵(TransferEntropy,TE)涉及到概率密度函数的计算,当变量维度较高或样本较多时,其计算的复杂程度会显著增加,并且分析结果的精度也会受到严重影响格兰杰因果分析(GrangerCausality,GC)通过多元线性回归等技术,挖掘工业过程变量时间序列间的领先滞后关系需要足够长的时间序列数据来进行可靠的估计和检验,基于线性向量自回归模型,在实际工业过程中存在大量的非线性关系,因而存在应用限制传递熵是基于信息论的非对称式测量方法,将信号复杂程度变化与信息传递统一量化,用于描述由于信息流动所产生的方向性动态信息能够计算过程变量间的非线性关系,计算自由度高数据拟合可以帮助解析和预测数据之间的关系,指导决策和优化173、工业数据的关联性分析技术———数据拟合数据拟合是指通过对已知数据的分析和处理,建立数学模型,使该模型能够最好地描述数据的规律性工业中常用的数据拟合方法包括线性回归、非线性回归、多项式拟合、曲线拟合等通过拟合优度指标(如R方、均方误差等)对拟合结果进行评估,判断拟合效果的好坏图3.9
数据拟合示意图广泛应用于工业数据拟合的概率拟合模型有卡方分布拟合、泊松分布拟合以及高斯分布拟合等判断数据集的观测经验分布是否符合已知的概率理论分布,典型的检验方法为Kolmogorov-Smirnov检验、Anderson-Darling检验、Chi-Square检验等工业数据一般服从能够用参数化分布模型进行描述的概率分布卡方分布用于计算数据的卡方分布自由度以及概率分布模型参数183、工业数据的关联性分析技术———数据拟合泊松分布拟合泊松分布适合于描述单位时间内随机事件发生的次数是单位时间(或面积)内随机事件平均发生次数
卡方分布拟合x为随机变量的取值,k为自由度图3.10卡方分布概率密度及分布函数示意图图3.11泊松分布概率密度及分布函数示意图因果高斯分布又称正态分布,是统计学中最常见的连续概率分布之一,其特点是具有单峰对称形态高斯分布可以用均值(μ)和标准差(σ)来描述拟合完成后,可以通过观察拟合的曲线与真实数据之间的吻合度、残差等指标来评估拟合效果193、工业数据的关联性分析技术———数据拟合𝑥是随机变量的取值,𝜇是分布的均值(期望值),𝜎是分布的标准差高斯分布拟合图3.12一维高斯分布概率密度及分布函数示意图图3.13二维高斯分布概率密度示意图20工业数据关联性分析案例单容水箱液位控制系统中的参数关联性分析单容水箱液位控制系统中的水箱液位值、进水管流量值、进水管压力值三个变量之间存在着关联性,对三个实验变量分别进行相关系数计算,研究各变量之间的相关关系和紧密程度Spearman相关系数适用范围广泛、不受数据分布的影响且可用于评估非线性相关关系,对参数进行Spearman相关系数计算进水管压力值和进水管流量值之间有高度的正相关,进
水管压力值和水箱液位值、进水管压力值和水箱液位值之
间具有中等程度的负相关水箱液位值进水管流量值进水管压力值水箱液位值1-0.524-0.472进水管流量值-0.52410.759进水管压力值-0.4720.7591表3.4各变量之间Spearman相关系数图3.14相关性热力图213、工业过程建模技术———工业过程建模任务工业过程关键参数软测量利用数学建模和计算机技术,对难以直接测量的参数或变量进行间接估计软测量技术主要包括相关性分析,数据预处理,建立模型,模型输出和输出校正软测量模型可分为机理模型、数据驱动模型和混合模型工业生产过程指标预测从时空数据库中提取隐含的知识、时间和空间关系及其它模式,并由此建立预测模型过程工业时序数据内嵌于连续空间,其样本在时间、空间上存在很强的自相关性,其中隐含的模式往往是局部的,从而使时空数据挖掘具有特殊性和复杂性时空预测建模方法可分为基于参数模型的方法,基于传统机器学习的方法,基于深度学习的方法223、工业过程建模技术———工业过程建模任务工业过程故障诊断对自动化系统或设备状态进行监测,及时准确感知故障发生的时间、位置、类型等信息,并反馈故障信息,从而根据故障信息做出优化决策故障诊断流程包含故障检测、故障溯源、故障识别、故障修复四个环节故障诊断方法分为三类:基于经验知识的方法、基于机理模型的方法以及基于数据驱动的方法图3.15
故障诊断过程示意图图3.16
故障诊断方法分类233、工业过程建模技术———工业过程智能建模方法监督学习:在带有标签的数据集上进行训练,每个输入数据对应一个已知的输出,学习从输入到输出的映射关系无监督学习:在没有标签的数据集上进行训练,发现数据的结构或模式半监督学习:结合少量带标签的数据进行训练,利用未带标签的数据提高学习效果强化学习:通过与环境交互来学习策略,通过试错学习,逐步改进决策机器学习是数据挖掘的支撑,为其提供解决实际问题的方法核心在于通过算法自动发现数据中的模式和规律,并基于这些模式和规律进行预测和决策机器学习通常可以分为监督学习、无监督学习、半监督学习和强化学习四类适用于数据量较小、需要解释性、计算资源有限、需要快速迭代的任务常见的浅层机器学习算法有线性回归、支持向量机、k-最近邻、随机森林、朴素贝叶斯等243、工业过程建模技术———工业过程智能建模方法深度学习以神经网络为框架,对数据进行表征学习对于数据的预测能力和分类效果较好,通过对数据的端到端学习,实现自动化的特征提取适用于数据量大且复杂、需要高性能和精度的任务根据不同结构,分为前馈神经网络和反馈神经网络优点在于解释性强、训练速度快、模型结构简单,易于调试和优化、计算资源需求低,在数据量较小的情况下,表现良好缺点在于特征工程依赖强,需要领域知识和经验,在处理复杂和高维数据时,模型性能有限浅层机器学习(传统机器学习方法)25知识-数据混合驱动的工业过程智能建模案例(1)加热过程是钢铁工业产出高端钢材的关键流程,包含预热、加热、均热等工序,其目的是将带钢加热到目标温度并稳定在目标温度区间内在现场传感器提供了大量生产数据的条件下,支持向量机能通过构造最优分类超平面或超曲面,揭示加热过程中输入及输出参数的复杂关系采用网格搜索方法和十折交叉验证方法对支持向量机模型中的进行参数优化加热过程炉板温预测案例图3.17
加热炉工艺图26知识-数据混合驱动的工业过程智能建模案例(1)图3.18测试集中部分出口板温的预测结果图3.19出口带钢温度预测的相对错误率加热过程炉板温预测相对误差率在要求区间[0,2]内的样本共占97.8%,达到了较高比例,仅有2.2%的样本不满足要求用平均绝对误差(AAE)与平均绝对误差率(AAER)来评估预测效果,得到的平均绝对误差AAE为3.3826,平均绝对误差率AAER为0.54%实验分析表明出口板温的预测效果良好,在实际生产的可接受范围内,可为后续的性能评估基准库验证提供模型支撑高炉生产过程变量相关性分析高炉炼铁是典型的复杂工业过程铁水硅含量是高炉生产状态的重要评价指标铁水硅含量的采样化验过程存在工程滞后性,难以满足实时的状态评估要求27知识-数据混合驱动的工业过程智能建模案例(2)复杂工业过程时序预测案例在高炉冶炼过程中,影响铁水硅含量的因素包括鼓风特性、入炉原料的性质、炉内物理状况等自相关性分析发现,渣铁处理系统的上一时刻硅含量与当前时刻的铁水硅含量具有较强的一阶时滞相关性铁水硅含量互相关因素的分析,筛选出和铁水硅含量波动相关的变量图3.20硅含量自相关性分析结果图高炉铁水硅含量时序预测流程28知识-数据混合驱动的工业过程智能建模案例(2)基于LSTM的铁水硅含量预测模型长短期记忆人工神经网络(LSTM),能够保留
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 精神科培训督导制度
- 旅行社门店培训制度
- 妇联任职培训制度
- 其他从业人员培训制度
- 2025辽宁交投集团所属物产公司招聘3人笔试历年参考题库附带答案详解
- 2025贵州毕节市金沙县城乡建设发展集团有限公司招聘经理层高级管理人员(财务总监)笔试历年参考题库附带答案详解
- 食药监应急管理培训制度
- 物业员工招聘及培训制度
- 2025福建福州天宇电气股份有限公司校园招聘笔试历年参考题库附带答案详解
- 2025石药集团校园招聘笔试历年参考题库附带答案详解
- GB/T 15231-2023玻璃纤维增强水泥性能试验方法
- ESC2023年心脏起搏器和心脏再同步治疗指南解读
- 五年级上册道德与法治期末测试卷推荐
- 重点传染病诊断标准培训诊断标准
- 超额利润激励
- GB/T 2624.1-2006用安装在圆形截面管道中的差压装置测量满管流体流量第1部分:一般原理和要求
- 兰渝铁路指导性施工组织设计
- CJJ82-2019-园林绿化工程施工及验收规范
- 小学三年级阅读练习题《鸭儿饺子铺》原文及答案
- 六宫格数独100题
- 厨房设施设备检查表
评论
0/150
提交评论