版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、异常数据处理方法研究1异常数据处理概述1.1 研究背景 近年来,随着海上风力发电技术的日益成熟和陆上风电可开发资源的不断减 少,海上风电尤其是近海风电的开发开始加速。 风机是海上风电开发的主要形式, 而风机基础结构承担着抵抗海上风机结构的竖向、水平荷载和倾覆力矩的作用, 其质量关系到海上风机结构的运行安全。 作为隐蔽工程, 其健康状况受到了社会 各界的高度重视,如何对风机基础特别是 MW 级风机基础的安全运行状况监测 成为研究领域的热点。 现有的监测技术需要通过设置在风机基础中的数据采集系 统自动获取基础的各状态的大量参数,如应力、应变、振动、变形等,采集到的 海量原始数据通过通信网络传输到监
2、控中心, 经过数据存储, 分析处理得到基础 的安全运行状况和维修决策等结论。风机基础监测系统是集结构监测、 系统识别及结构评估于一体的综合监测系 统,其内容包括几何变形监测、结构响应(应力、应变及振动)监测等。监测系 统的质量主要取决于三方面因素 : (1)传感器的灵敏性和精度以及数据传输和采 集设备的性能; (2)测点的空间分布,即传感器的最优布置问题; (3)异常数据的 分析处理。从目前电子技术的发展来看, 成熟、稳定、高性能的传感器已经被应用与监 测系统中, 而且合理安排传感器位置, 以达到信息采集的最优化, 也已经有很多 研究成果。但由于监测信息格式复杂、信息量大,每天数据量甚至能达到
3、十几 GB,如果不能有效地对这些数据进行处理,很多异常数据将不能有效辨识,缺 失信息将不能有效弥补, 而且监测数据的分析必须建立在准确有效的监测数据之 上,低精度和异常的监测数据常常影响数值分析的结果, 会影响到系统的功能与 特性分析, 给后续数据处理带来很大的误差, 正常信息不能得到有效利用, 故有 必要对原始采集数据进行处理。 因此监测异常数据处理是三方面中至关重要的一 点。监测系统异常数据处理包含两个方面的内容: (1)异常数据检测,即找出异 常信息并确定异常信息所在位置, 根据需要将异常数据保存入专门数据库中或直 接进行剔除; (2)异常数据修正,即通过插值等方法,参考数据异常点前后的
4、数 据,完成该异常数据点的修正, 确保采集信息不缺失, 保持原始采集数据的连续 性。异常是一个复杂的概念,迄今为止还没有一个统一定义。 Hawkins 提出的异 常定义被大多数人所接受, 其定义为: 异常是在数据集中与众不同的数据, 使人 们怀疑这些数据并非随机产生的, 而是产生于完全不同的机制。 异常数据往往代表一种偏差或者新模式的开始, 因此对异常数据的识别有时会比正常数据更有价 值。传感器异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式 的数据。异常数据的产生主要是因为以下几种情况而发生的:(1)数据来源中的异常,这类异常中可能隐藏着重要的知识或规律。 对这类异常分析可以获取
5、常规 数据不能得到的新的信息,如基础结构损坏等; (2) 数据固有变化异常,这类异 常通常是自然发生的,如风速的变化、波浪波动等;(3)数据测量误差,这类异常的产生往往是因为测量仪器故障或者网络传输错误,以及噪音的存在引起的, 这类异常通常作为噪声而被删除。与其他工程相比, 风机基础安全状况监测发展较为滞后, 尚未发现关于风机 基础监测数据处理的相关研究成果, 其监测异常数据的处理缺乏相应的经验。 可 以借鉴类似工程监测数据处理的方法进行研究。 而针对监测数据的种类多、 数据 海量、频幅分布广等特点, 国内学者已经研究了很多处理办法。 其中研究较多的 如小波分析、数据挖掘、数据流理论等。然而,
6、目前的类似工程监测数据处理的 方法主要是在离线数据的基础上,在实时监控上还缺乏相应的准确率和智能化。结合风机基础特点,寻找一种有效的适用于风机基础监测实时数据处理的方 法具有十分重要的研究意义和实用价值。1.2 国内外研究现状综述在国外,研究人员通过对异常挖掘的深入研究, 根据对异常存在形式的不同 假设,提出了许多异常数据检测算法。 早期的异常数据检测方法是基于统计的方 法,这种方法依赖于数据集服从某种标准分布, 所以异常数据是基于概率分布来 定义的,如 Yamanishi 等人将正常行为用一个高斯混合模型来进行描述,通过计 算数据对象与这个模型的偏离程度来发现异常。虽然这种基于标准分布的模型
7、, 能识别异常现象, 但此类方法有很大的局限性, 因为往往无法预知数据集是服从 哪类标准分布。为了克服这种缺陷,James P.R、Daniel B.等在概率论H假设检 验方法的理论基础上, 提出了一种基于某置信度区间标准的异常检测方法, 达到 这个标准的则为正常数据,反之则为异常。Knorr 等人于 1998 年提出了基于距离的异常数据检测算法,他们认为数据 是高维空间中的点, 异常数据被定义为数据集中与大多数点之间的距离大于某个 事先设定的阈值的数据。 F.Abgiulli 和 C.Pizzuti 等学者针对基于距离的异常数据 挖掘算法在高维数据中计算时间较长的缺点, 将图论中的连通性原理
8、引入到数据 之间距离的计算上,极大地降低了计算时间复杂度。Arning 等人提出了基于偏离的方法, 这种方法认为: 某个数据对象在数据集 中的特征明显“偏离”数据集中的其它数据时,这样的数据被认为是异常数据。 Birant D 等提出了一种任意形状的聚类算法并将其应用于异常挖掘中, 该算法可 以依据数据的非空间属性、空间属性和时态属性来发现聚类簇和异常数据对象。Breuning 等学者定义了局部异常因子的概念,提出了一种基于密度的局部 异常点挖掘算法,它是用局部异常因子LOF(Local Outlier Factor)表征数据对象与它的邻居对象的偏离程度, LOF 越大则认为该点是异常数据的可
9、能性越大。 ToWel 等人在分析神经网络的基础上, 根据神经网络的理论提出了基于神经网络 的异常数据挖掘算法。最近提出的比较流行的异常数据挖掘算法是基于核的分类方法, 主要思想是 将输入的数据通过关系函数映射到一个高维特征空间, 通过高维空间的分类超平 面,就可以建立一个简单的分类模型,从而区分正常或异常数据。国内对异常数据挖掘的研究起步较晚, 但是近年来在理论研究方面已经取得 了许多研究成果。 林士敏对基于距离的异常数据挖掘算法作了改进, 提出了基于 抽样的近似检测算法;金义富等在 Knorr 观点的基础上,提出了一种异常约简 算法ORDA,该算法以粗糙集理论的属性约简技术为基础,提出了异
10、常数据划 分和异常约简思想, 以及异常数据关键属性域子空间的分析方法, 这种方法可以 对挖掘出的异常数据进行有效的分析和解释; 重庆大学的邓玉洁, 朱庆生提出了 基于聚类的异常数据挖掘方法, 该方法将离群数据在分类讨论的基础上, 定义了 平凡离群数据、 非平凡离群数据以及噪声数据, 然后引入离群属性和离群聚类簇 的概念,在此基础上, 以现有的异常数据挖掘技术为基础, 实现了离群数据的发 现。田江在一类支持向量机的基础上,设计了一种“孤立点类支持向量机” 算法,该算法是一种无监督的异常数据检测算法, 通过设定不同的权值, 将基于 超平面距离定义的异常数据的异常程度和基于概率大小定义的异常程度相结
11、合, 通过在特征空间划分距离可疑异常数据的最大间隔超平面来发现异常。综上所述, 国内外针对异常数据产生的原因以及应用领域的不同提出了许多 异常数据检测算法。 大量研究发现, 基于密度的局部异常数据挖掘算法能够发现 其它的异常数据挖掘算法不能发现的异常, 即“局部”异常,它更加符合 Hawkins 对异常数据的定义。Breunig等人提出了局部异常因子(Local Outlier Factor, LOF) 的概念,通过它来表征一个数据对象的局部异常程度, LOF 算法出现后,出现 了很多局部异常程度的度量算法。 这些算法适用于静态环境下的数据库, 但在工 程应用领域, 大部分数据库中的数据是随时
12、间动态增加的, 新增加的数据可能会 影响某些对象的局部异常程度, 因此在二次挖掘时, 需重新计算所有数据对象的 局部异常因子, 计算时间复杂度较高, 所以这些算法在动态环境中不易实现。 因 此,如何在动态环境中提高基于密度的异常数据挖掘算法的时间效率避免大量的 重复计算显得尤为重要。1.3 研究目的和意义 本项研究的目的在于结合风机基础特点,在传统异常数据处理方法基础上, 研究一种有效的适用于风机基础监测实时数据处理的方法, 该方法能够在线辨识 异常监测数据并保存,且能够自动修复原数据集,保持器连续性。本研究的意义在于:(1) 实现异常数据在线检测与修正。目前的监测数据处理方法主要是在离线 数
13、据的基础上, 在实时监控上还缺乏相应的准确率和智能化。 本研究实现了异常 数据在线检测与修正, 与传统的异常数据识别方法相比, 具有更快的计算时间和 更高的还原精度,能够满足数据的在线异常检测与修正要求(2) 实时发现异常状况并采取必要处理措施。对于实时检测出的异常数据进 行分析,寻找异常事件原因, 并根据产生原因采取应有的处理方式。 对于传感器 故障或执行错误导致数据异常情况, 应进行剔除处理; 有些异常数据是数据变异 产生的结果, 如对于基础结构监测, 发生异常工况或结构损坏在一段时间往往会 出现前兆,导致数据异常,如果能够及时捕捉到异常状况的发生并采取相应措施, 则能防患于未然,保证结构
14、安全。(3) 提高和完善监测结果准确性,为后续研究奠定基础。监测结果的准确性 建立在高质量的监测数据之上, 如果不能有效地辨识与处理异常数据, 低精度和 异常的监测数据混入正常数据集中, 会对监测系统的功能与特性分析产生重大影 响,给后续数据处理带来很大的误差, 正常数据信息不能有效用于后续的相关研 究,利用数据研究得到的结论与实际可能存在较大误差。1.4 主要研究内容本研究主要包括以下 3 部分内容:(1) 对常用异常数据检测与修正方法简要介绍, 介绍了常用的数据预处理技术及异 常数据检测问题的重要特征,对常用异常数据检测及修正算法进行了描述和讨 论,分析了各种算法的优缺点和适用场景。(2)
15、 几种典型改进算法及其工程应用实例进行分析, 。(3) 风机基础监测异常数据的检测和修正。2 异常数据检测与修正方法异常数据检测问题通常包括四个过程: 第一是数据的预处理, 即通过数字滤 波方法去除一些干扰; 第二是异常数据的定义, 即在数据集中表现出怎样的行为 或者模式的数据称为异常数据;第三是选择合适的能够有效发现异常数据的算 法,异常数据表现行为不同, 异常数据挖掘算法结果也会有所差异; 第四是异常 数据的修正, 即通过异常挖掘将异常数据挖掘出来后, 对这部分数据按照原有模 式规则进行修正, 确保采集信息不缺失, 保持采集数据时间序列上的连续性。 本 章介绍了常用的数据预处理技术及异常数
16、据检测问题的重要特征, 对常用异常数 据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景。 2.1 数据预处理技术数据是通过各种类型的监测传感器获取的, 数据是一种通过间接方法取得事 物状态的技术, 如将结构相应等参数通过一定的转换技术转变为电信号, 然后再 将电信号转换为数字化的数据。 由于传感器安装环境的不稳定和数据转换过程掺 杂少量的噪声数据等各方面因素的影响, 得到的数据会受到一定干扰, 影响了最 终数据的准确性。 为了减小噪声对数据结果的影响, 除了采用更加科学的采样技 术外,还需要采用一些必要的技术手段对原始数据进行整理、 统计,数字滤波技 术是最基本的处理方法,它
17、可以消弱数据中的噪声,提高数据的代表性。均值滤波是最常用的数字滤波方法, 是对采样序列中的数据求和后, 再取其 平均值作为结果。 虽然这种方法可以达到滤波的目的, 但是如果采样数据中的噪 声数据过大或过小, 都会对处理结果产生影响。 中值滤波是对采样序列按大小排 序形成有序列,取有序列的中间值作为结果。排序算法一般采用“冒泡排序法” 或“快速排序法”等。众数是数理统计中常用的一种数据处理办法,它要求对大 量的数据进行处理,众数滤波的原理是在采样序列中找出最大值 Tmax 和最小值 Tmin,再在区间上平均分为 m组(5-10组),确定完分组后,对序列统计各组区 间内数据的个数,形成统计序列,查
18、找其最大的值即众数组序号 k ,根据相应 公式计算众数的近似值。 以前由于计算机的采样速度和计算机速度较慢, 处理周 期较长,所以一直没有采用, 随着计算机运算速度的提高及高速采集模块的采用, 现在处理周期已缩短到 1 秒以内,由于众数滤波的数据代表性较其它处理方法 更强,所以逐步被采用。为了提高滤波的效果, 尽量减少噪声数据对结果的影响, 可将两种或两种以 上的滤波算法结合在一起使用。 如对于采集的数据量比较大的环境参数, 为了达 到更好的滤波效果,可以选用众数滤波和均值滤波结合的复合滤波方法。2.2 异常数据问题的重要特征异常数据问题的重要特征可以概括为四个方面, 即数据特性、 异常类型、
19、 数 据标签和输出类型。(1) 数据特性异常检测算法的输入一般是数据实例的集合。 每个数据实例用一个或若干个 属性及其取值来描述,每个属性的取值可能为二进制、分类或连续变量的形式。 属性的表示方式不同, 适用的异常检测算法也不同。 例如, 如果使用统计学的技 术检测异常, 分类和连续取值的数据需要使用不同的统计模型。 按数据实例之间 的关系,数据可以分为顺序数据和空间数据。 顺序数据的数据实例之间有一定的 先后次序, 其典型实例包括时间序列数据、 基因组序列和蛋白质序列等。 空间数 据的各个数据实例之间有一定的相对位置关系。 数据实例之间的关系对异常检测 算法的设计有重要影响。(2) 异常类型
20、数据异常可以分为三类 :点异常、上下文异常和集合异常。如果某个单个的 数据实例被认为是异常值, 则该数据实例就被标记为点异常。 点异常是最简单的 一类异常, 也是与异常检测相关的文献中讨论最多的一类异常。 如果某个数据实 例只在特定的场合或环境下被认为是异常值, 则该数据实例就被标记为上下文异 常。一个典型的例子就是野外环境的温度监控, 温度报警阂值的设定要根据当前 季节的大气温度变化范围和一天中的时间确定。 集合异常是包含多个相关的数据 实例的异常, 是多个数据实例的集合。 集合中单一数据实例不被认为是异常, 但 这些数据实例同时出现就构成了集合异常。(3)数据标记 对于点异常检测,每个数据
21、实例都可以有一个分类标记,用来标记该数据实 例是否正常或异常。 给数据实例做标记的工作一般由领域专家来完成, 被标记的 数据实例的集合称为训练数据集 (trainingdataset)。根据数据实例被标记的情况, 异常数据检测技术可分 为以下三类:有监督(supervised)异常检测,半监督 (semisupervised异常检测和无监督(unsupervised异常检测。对于有监督异常检测,训练数据集存在,且其中既包括标记为正常的数据实 例,也包括标记为异常的数据实例。 利用训练数据集构造一个分类预测模型, 把 标记未知的数据实例输入该模型, 根据模型输出判断该数据实例是否异常。对于半监督
22、异常检测, 训练数据集存在, 且其中只包括标记为正常的数据实例。利用训练数据集构造一个预测模型, 把标记未知的数据实例输入该模型, 根据模型输 出判断该数据实例是否能属于正常分类, 不属于任何正常分类的数据实例一律标 记为异常。 对于无监督异常检测, 不需要训练数据集, 但需要假设正常的数据实 例在数量上要远远多于异常数据实例。(4)输出类型异常检测算法有两类典型的输出:分值(score)和标记(label)。前一类算法依据 一定的标准,给训练数据集中的每个数据对象 (即数据实例或构成集合异常的数 据实例的集合 )标记一个分值,并且输出一个按分值排序的可能的异常数据对象 列表。领域专家可以在此
23、基础上最终确定异常数据对象。 后一类算法直接把每一 个数据对象标记为正常或异常,不需要领域专家的直接参与。2.3 异常数据检测方法随着对异常挖掘研究的深入, 对应于不同的应用领域出现了许多异常数检测 方法,参考大量研究成果, 本节简要介绍了常用的八种异常检测算法的基本技术 思路及部分方法的优缺点。 前面七类主要是针对点异常检测做的归纳, 但这些检 测算法也经常适用于集合异常的检测,最后一类是讨论上下文异常的检测。(l)基于分类的异常检测 基于分类的异常检测基本都是分为两个阶段,即训练阶段和检测阶段。在训 练阶段,算法利用训练数据集中的数据对象,构造分类器模型。在检测阶段,测 试数据集中的数据对
24、象被输入分类器, 根据分类的结果判断是否是异常数据。 分 类器可以基于规则、神经网络、贝叶斯网络和支持向量机等技术来实现。按照训练样本有标记种类个数的不同, 基于分类的方法分为有监督的方法和 半监督的方法。基于监督学习的分类方法最常用的方法是基于支持向量机的方 法,基于支持向量机的方法不需要事先对数据作任何假设, 也不需要任何的预设 参数,但是支持向量机的计算时间往往较长, 主要是因为核函数的计算往往要消 耗大量的计算时间, 同时基于支持向量机的方法也很难确定合适的参数来衡量特 征空间中正常数据区域边界的大小。 基于半监督的分类方法常用的有基于神经网 络的方法, 神经网络是一种常用的回归预测和
25、分类技术, 基于神经网络的异常检 测是通过对正常数据样本的学习后建立一个正常样本的分类模型, 然后在输出层 重构输入数据, 如果重构的误差很大则将该数据判定为异常数据。 基于神经网络 的异常数据检测方法不需要事先对数据进行任何条件假设, 能够发现异常的关键 属性,从而根据这个关键属性有效地发现数据集中的异常。 神经网络方法虽然能 较好地发现异常, 但是神经网络对模型参数的设定具有很强的依赖性, 且这些参 数会对检测结果产生较大影响。(2)最近邻法异常检测使用最近邻法的基本假设是 :按某种度量方式, 正常数据对象之间比较接近, 而异常数据对象和邻居数据对象之间却相对较远。 数据对象之间的远近可以
26、用距 离或相似性表示。 如果数据对象的属性都是连续的变量, 经常用欧式 (Euclidean) 距离来表示数据对象之间的距离。 常见的基于最近邻法的异常检测算法大体分为 两类 : 一类算法是基于距离的异常数据检测, 另外一类是基于密度的异常数据检 测方法。基于距离的方法克服了基于分布的方法事先要知道数据集分布, 依赖统计检 验的缺点,其实质是将异常数据对象看作是在阈值 d 内其邻居比较稀疏的对象。 基于距离的异常数据检测方法又可以分为三种:即基于索引(index-basec)的方 法、基于单元(cell-based)的方法、基于循环嵌套的方法 (nested-loop。基于距 离的异常数据检测
27、方法的主要缺陷是时间复杂度较高且难以确定合适的参数k与d。针对上述两种问题,出现了许多改进算法。基于距离的异常数据挖掘方法 是基于分布的方法的拓展, 在数据集不满足任何分布模型时仍能够有效地发现异 常数据。但是该方法对参数选择非常的敏感, 不适用于数据形状分布不均匀的数 据集,且该方法需要搜索整个数据集来确定每个数据对象的邻居, 算法时间复杂 度较高,不适用于大规模的数据集。基于密度的异常数据检测方法是通过计算数据之间的距离以及与给定范围 内数据的个数相结合来得到 “密度”的概念, 然后将数据对象的异常程度与它周 围的数据的密度相关联。最常用的为基于局部异常因子( Local Outlier
28、Factor) 的异常数据检测算法,自从 LOF 这个局部异常数据检测方法被提出以后,相继 出现了许多度量异常程度的方法,比较经典的有 COF、MDEF 、SLOM 等。基于 密度的方法能检测出其它方法不能识别的异常即局部异常数据。 该方法定义了数 据对象的异常程度, 在检测率上有较高的精度, 但是该算法每次都要扫描数据库 来查找数据对象的 k 邻居,这样计算时间开销是很大的, 与基于距离的方法一样, 基于密度的方法的时间复杂度也是 0(N2),采用专门的索引结构可以将时间复杂 度降为O (NIogN),但是当数据维数比较大时,索引结构将不再有效,时间复杂 度为 O(N2)。(3) 基于聚簇的
29、异常检测聚簇(clustering)技术用来对数据对象进行分组,相似的数据对象被归入一个 簇。在异常检测领域, 聚簇技术被用于无监督检测和半监督检测。 依据基本假设 的不同,基于聚簇技术的异常检测方法大体分为三类:一类假设正常的数据对象都能被聚簇算法归入某个簇, 而异常数据对象不属于任何一个簇; 一类假设正常 的数据对象与它所在簇的质心比较近,而异常数据对象与它所在簇的质心比较 远;另一类假设正常的数据对象属于较大且较密集的簇, 而异常的数据对象属于 较小且较稀疏的簇。基于聚簇的异常数据检测方法首先是对数据集进行聚类操作, 然后再针对聚 类簇进行异常数据的判断, 是一种有效的异常数据检测方法。
30、 但是聚类的效果往 往会影响异常数据的检测效果, 而异常数据的存在对聚类效果的影响是不容易忽 略的,因此在聚类过程中往往要采用不同的方法来避免异常数据对聚类的影响, 因此该方法的针对性较强, 能否有效地挖掘异常数据依赖于数据集中聚类簇的个 数以及异常数据的存在性, 并且虽然该算法适用于大规模数据集, 但是对高维数 据的异常检测效果并不十分的理想。(4) 统计异常检测使用统计异常检测方法的基本假设是 :正常数据对象分布在某个随机模型的 高概率区间, 而异常数据对象出现在该随机模型的低概率区间。 异常检测的基本 思路是:首先利用训练数据集和领域知识构造随机模型,然后检测测试数据集中 的数据对象是否
31、有比较高的概率由该随机模型生成。 依据是否知道随机模型的具 体参数,统计异常检测分为两类 :参数化检测和非参数化检测。参数化检测主要 包括基于高斯模型和基于回归模型的异常检测, 非参数化检测主要包括基于直方 图和基于核函数的异常检测。基于统计学的异常数据检测算法主要优点是: 算法有概率统计的理论作为其 有利的支撑; 通过对异常数据不一致性检验可以发现背后隐藏的意义; 在概率模 型建立后只需要存储少量的模型信息不需要存储数据对象的信息, 降低了数据的 存储量。基于统计学的异常数据检测算法主要缺点是: 通常只能处理单维的数据 对象;需要很多先验知识,要预先假设数据集的分布,不适合分布未知的情况;
32、通常只适合处理数据型的数据, 限制了其在符号型或者含有大量分类数据对象的 数据集上的应用。(5) 基于信息论的异常检测 嫡在信息论中是一个重要的概念,用来衡量所收集到的信息的不确定性。基 于信息论进行异常检测的基本假设是 : 数据集中的异常数据实例导致了嫡的增 加。如果用 D 表示数据集, C(D) 表示 D 的嫡值,基本的异常检测思路是 :设法找 到 D 的一个最小子集 I ,使得 C(D)-C(D-I) 最大,则子集 I 中的数据就是异常数据 实例。(6) 基于维度减小技术的异常检测 使用维度减小技术的基本假设是 :数据可以被嵌入或投射到一个低维度的子 空间中。 在此子空间中, 正常数据对
33、象和异常数据对象能被显著的区分开。 虽然 有多种降低数据维度的方法,但各种基于主分量分析 (Principal ComPonent Analysis, PCA)的方法在异常检测中应用最多。(7) 基于偏差的异常检测Argrawal 和 Ragaran(KDD 1995)提出一种“序列异常” (sequential exception) 的概念。给定n个对象的集合S,建立一个子集序列Si, S2,Sm,对每个子 集,确定该子集与前序子集的差异度的差。 光滑因子最大的子集就是异常集。 这 个算法复杂度与数据集大小呈线性关系, 有优异的计算性能。 但是序列异常在对 异常存在的假设太过理想化,对现实复
34、杂数据效果不太好。基于偏差的方法中, 序列异常检测算法提出的序列异常的概念并没有得到普遍的认同, 序列异常在概 念上仍然有一定缺陷,遗漏了不少的异常数据。(8) 上下文异常检测检测上下文异常需要在算法中考虑应用的上下文场景, 因此需要把数据实例 的属性细分为两类, 即上下文属性和行为属性。 典型的上下文属性包括空间位置 信息、时间标签和邻居节点之间的连通性信息等描述应用上下文场景的属性, 而 行为属性则包括用来描述被观测对象的主要特征的属性, 例如温度、湿度和降雨 量等。上下文异常检测方法大体分为两类 :一类方法使用前面介绍的点异常检测方 法,但要首先知道数据实例中的上下文属性的取值, 并考虑
35、上下文属性的不同取 值对异常检测算法的影响; 另外一类方法不需要量化的评估数据实例中的上下文 属性的不同取值对算法的影响,而是在一定的上下文场景中对训练数据集建模, 然后利用此模型检测测试数据集中的数据是否异常。2.4 异常数据修正方法简介常用的瞬时异常数据的修正方法是, 参考该点前后的数据, 采用线性插值法或三阶、 多 阶平滑法的方式完成该数据点的修正,但这种方法无法适应进化(evolving) 数据流在不同时刻具有不同波动情况的特点,在出现多个连续异常数据或数据值变化剧烈时修正的精度偏低。已有的文献均未重点研究连续错误数据的修复问题。3 几种典型改进算法及其应用实例由于异常检测问题涉及很多
36、领域, 不同的问题域有不同的问题特征, 所以没有各领域通 用的异常检测技术。 异常检测技术的关键构成包括学科领域、 应用领域、 问题特征和异常检 测算法。不同应用领域的研究者,根据异常检测问题的特征,应用数据挖掘、机器学习、统 计学等不同学科领域的概念和技术,设计了各种异常检测算法。异常数据检测的方法目前主要有统计、特征选择、 神经网络、 数据挖掘、小波奇异性检 测等等, 这些方法都有一个共同的缺点就是需要训练的数据量大,运算代价高, 对实时检测有较大影响。3.1 基于局部最大距离的异常数据检测4 风机基础监测异常数据的检测和修正基于密度的局部异常数据挖掘方法虽然能够有效地发现数据集中的异常数
37、据, 但是这些 算法由于计算量相当大因此仅适合静态环境下的异常数据挖掘。 在实际工程应用领域, 通常 意义上是这样一种数据库, 它里面含有的数据量是随着时间的增长而动态增加的, 如一般的 数据采集系统、 在线数据监测系统等。 通常在这种大型数据库系统中, 数据仓库作为一种有 价值的工具用来存放系统数据, 在绝大多数情况下, 当事物数据库系统有数据增加时, 数据 仓库并不是立即将新增的数据存入内存中, 而是在人为设定的一定时间后例如夜间或者其他 空闲的时间内, 以批量新增的方式将数据存入数据仓库中。 因此, 在这种数据批量增加的数 据库环境下, 新增加的数据可能会影响原数据库中的某些对象的局部异
38、常程度, 在进行二次 异常挖掘时, 需要重新计算所有数据对象的局部异常因子, 这样计算量是很大的, 因此在数 据量成批增加的环境下,如何快速有效发现异常且避免大量的重复计算显得尤为重要。然而, 由于测量设备本身、 数据传输或者人工操作等原因, 可能使测量数据中包含某些 错误的信息。 如果不将这些错误的测量信息检测并剔除掉,将给后续的数据处理带来很大的误差。 目前,针对异常数据检测问题已经提出过很多种方法, 包括基于统计学的方法、 基于 最近邻居的方法、 基于分簇的方法、 基于聚类的方法等。 这些方法在传感器网络的数据检测 中得到了广泛的应用。均值滤波及其改进算法基于邻近去最值均值滤波的原理,
39、其次根据时间的连续等差 变化特性对时间参数进行了检测修正, 采用基于邻近去最值均值滤波方法对监测数据进行修 正,最后利用实测数据进行了验证。均值滤波算法是基于统计理论的一种能有效抑制噪声的非线性信号处理技术。 通常应用 于图像处理中的平滑和去噪。 其基本原理是对图像中的每个合法像素点邻域中的像素按照灰 度级进行排序,然后将该组的均值输出作为该像素点的值。均值滤波定义如下:g(x,y)=meanf(s,t) , s,t Sxy式中:g(x,y)为(x,y)点的输出值;f(s,t)为以(x,y)点为中心的邻域内(s,t)点的输入值;Sxy 为以(x,y)为中心的邻域。邻域类型可以根据研究或者应用需
40、要选择方形、一字形、十字形、X形等,邻域大小一般可以选择3X3, 5 X 5。对本文数据类型进行均值滤波,相当于采用一字形窗口。 均值滤波可以消除图像中的椒盐噪声和突变点, 但是会改变图像中的原始数据。 基于邻近去最值均值滤波是对均值滤波的改进,它对模板S内的数据做了去最值修正处理,即在得到模板S内的数据后,去除了其中的最大最小值(以 f(s,t)表示),再进行均值滤波。该滤波方法极大减小了由于异常点参与运算而导致的滤波结果偏离真值的影响,但是同样会 改变原始数据。基于邻近去最值均值滤波检测滤波和检测的目的不同, 前者主要是对数据进行去噪和平滑, 而后者主要是在不修改原始数据的前提下找出数据中
41、的异常点。因此,本文根据式(1)给出如下判别规则:| f(x,y) 3std(f(s,t)其中: f(x,y)=f(x,y) -mean(f(s,t)式中f(s,t)为去除模板内数据的最大最小值的其他数据。若式(2)成立,则(x,y)点为异常点。数据驱动控制是指控制器不包含受控过程的数学模型信息, 仅利用受控系统的在线和离 线数据以及经过数据处理而得到的知识来设计控制器, 并在一定的假设下, 有收敛性、 稳定 性保障和鲁棒性结论的控制理论和方法, 是一种直接从数据到控制器设计的无模型控制理论 和方法。目前,有关无模型控制国内外已有一些标志性的方法,例如,无模型自适应控制 ( Model Fre
42、e Adaptive Control , MFAC) 、迭代反馈整定 ( Itera-tive Feedback Tuning , IFT ) 、 迭代学习控制 ( Iterative Learning Control , ILC) 等。其中 MFAC 作为一种典型的数据驱动 控制算法已经在多个工业生产过程领域中取得成功应用。理论证明、 仿真研究和实际应用均表明基于数据驱动的无模型自适应控制方法能够处理非线性和时变线性系统的控制问题。传感器是指那些对被测对象的某一确定的信息具有感受 (或响应) 与检出功能, 并使之 按照一定规律转换成与之对应的可输出信号的元器件或装置的总称。传感器一般被认为由
43、敏感元件、转换元件、测量电路三部分组成。针对传感器的工作原理和结构在不同场合均需要的基本要求是:高灵敏度、 抗干扰的稳定性、容易调节、高精度、高可靠性、无迟滞性、工作寿命长、高响应速率等。传感器的主要作用有两个:其一是敏感作用,它感受被测量的变化,完成信号的拾取; 其二是变换作用,完成非电量到电量的转换。 根据传感器应用的对象、 测量的范围、周围的 环境的不同,需要使用的传感器大不相同。传感器的分类方法也较多。异常数据的产生主要有以下几种原因:第一,不完美的数据采集设备、数据输入有误、数据传输错误、测量单位混乱、灵敏度 不够等;第二,外界因素突变造成采集的数据异常;异常数据根据其性质可以分为完
44、全无用的噪声数据,如人为造成的数据缺失和数据错 误,和包含重要系统信息的异常数据,如数据采集设备故障, 外界因素突变等。其中找出包 含数据采集设备故障信息的异常数据可以用于故障诊断, 而找出蕴涵外界因素突变信息的异 常数据可用于保障结构安全, 意义十分重大。 异常数据存在对软计算建模的影响, 软计算建 模方法对于系统数据变化有较强的适应能力,但这都是建立在系统数据比较清洁的基础上 的。当系统数据存在异常数据时,要兼顾异常数据的作用,其建模的精度会大幅度下降,模 型性能并不能令人因此, 异常数据并不是全是对数据分析完全无用的数据。 那么,对于以上两类异常数据 的分析就是我们所说的异常数据检测 (
45、outlier detecting) 。本文基于实例着重从数据采集设备 异常数据检测的角度来探讨各种异常数据检测方法的有效性和实用性。传感器所采集的原始数据是某设定采样频率下采集的与某时间序列相对应的数据, 故原 始采集数据可视为时间序列数据, 其处理流程如图 2-1 所示。对于原始采集数据, 由于环境噪声、 仪器设备 等原因, 在长时间的连续采集中不可避免 的会出现异常数据, 因此监测数据处理流程的第一步就是进行数据可靠性检验, 分析数据异 常原因,将可靠数据与异常数据分开保存。对于经过可靠性检验后的原始采集数据, 根据采集数据类型的不同, 将分别 在时域和频 域内进行处理分析。 时域分析具
46、有直观和准确的优点, 可直接在时间域内对时间序列数据进 行处理分析,能够便利的表达数据变化趋势以及特征值, 比较适合例如应力、应变、位移等 监测数据的处理。频域分析通过图解分析法分析数据在频域内的能量分布来获取特征参数, 比较适合例如风机振动等监测数据的处理。传感器类型为振弦传感器由于传感器系统中的振弦式传感器是通过热敏电阻来测量温度值的, 因此数据采集与传 输系统中通用振弦采集仪采集与输出的原始数据亦为电阻值, 在应力数据处理与分析子系统 中需要对输出的温度值进行二次加工处理,转换为温度值。振弦式传感器是利用被测结构物的应变与振弦频率之间的关系来测量应变的, 数据采集 与传输系统输出的频率值,通过一定的转换可得到结构应变增量,具体公式为卩=C XK(fi2- f02)式中卩为微应变增量;C为振弦式传感器平均修正系数(取值由商家提供);K为振弦式传感器标准系数(取值由商家提供) ;fi为本次测试频率读数(单位: Hz); fo为上次测 试频率读数(单位: Hz)。经过长时间分析应力数据的异常现象,可以把异常数据按照产生原因分为两类。一类: 由于自然界的强干扰产生的,如雷电。这类异常数据的特点是跳跃非常大;另一类:由于传感器采集传输系统中某环节偶尔的工作不稳定产生的,这类异常数据的特点是跳跃较小。把异常数据按照表现形式分类也可以分为两类, 一类: 应力数据单点异常, 即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年过程控制在循环经济中的应用探讨
- 2026年城乡水资源一体化管理模式
- 中国OPC发展调研报告2026
- 2026年自动化生产线技术的国际发展动态
- 2026年城市水资源管理的创新策略
- 2026年船舶驾驶员基础理论资格试题及答案
- 2026年交通承运物联网接入协议
- 2026年广告采购碳核查协议
- 基于情感计算的个性化阅读反馈系统设计课题报告教学研究课题报告
- 第三章第二节生物进化的历程(课件)2025-2026学年人教版生物八年级下册
- 206内蒙古环保投资集团有限公司社会招聘17人考试备考题库及答案解析
- 道法薪火相传的传统美德课件-2025-2026学年统编版道德与法治七年级下册
- 2026年企业安全生产事故上报工作自检自查报告范文
- 2023-2024学年广东深圳南山外国语学校八年级(下)期中语文试题及答案
- 学前教育普惠性家庭参与研究课题申报书
- 2026届江苏省南师附中生物高一下期末质量检测试题含解析
- 差旅费报销制度模版
- 消防维修业务管理制度
- 供应链管理体系规范手册(标准版)
- 加油站新员工三级安全教育培训试题(附答案)
- 建筑施工安全教育培训指南(标准版)
评论
0/150
提交评论