Matlab笔记——数据预处理(1)——剔除异常值及平滑处理012_第1页
Matlab笔记——数据预处理(1)——剔除异常值及平滑处理012_第2页
Matlab笔记——数据预处理(1)——剔除异常值及平滑处理012_第3页
Matlab笔记——数据预处理(1)——剔除异常值及平滑处理012_第4页
Matlab笔记——数据预处理(1)——剔除异常值及平滑处理012_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、测量数据在其采集与传输过程中,由于环境干扰或人为因素有可 能造成个别数据不切合实际或丢失, 这种数据称为异常值。为了恢复 数据的客观真实性以便将来得到更好的分析结果, 有必要先对原始数据(1)剔除异常值;另外,无论是人工观测的数据还是由数据采集系统获取的数据,都不可避免叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)。为了提高数据的质量,必须对数据进行(2)平滑处理(去噪声干扰);(一)剔除异常值。注:若是有空缺值,或导入 Matlab数据显示为“ NaN”(非数), 需要忽略整条空缺值数据,或者填上空缺值。填空缺值的方法,通常有两种:A.使用样本平均值填充;B.使 用判定树或贝叶

2、斯分类等方法推导最可能的值填充(略)。一、基本思想:规定一个置信水平,确定一个置信限度,凡是超过该限度的误差, 就认为它是异常值,从而予以剔除。二、常用方法:拉依达方法、肖维勒方法、一阶差分法。注意:这些方法都是假设数据依正态分布为前提的。1.拉依达方法(非等置信概率)如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。1其中,又=1£ xi为样本均值,Sx = ':£ (xi-X)2,为样本的标准偏n= ix <n-1 i=' i )差。注:适合大样本数据,建议测量次数A 50次代码实例(略)2.肖维勒方法(等置信概率)在n次测量结果中,如果某误

3、差可能出现的次数小于半次时,就予以剔除。这实质上是规定了置信概率为1-1/2n,根据这一置信概率,可计 算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列近似公式计算:Tabi.肖维勒系数表n3456789101112GDn1.381.531.651.731.801.861.921.962.002.03n13141520304050100200500GDn2.072.102.132.242.392.492.582.813.023.20如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系数之积,则该测量值被剔除例1.利用肖维勒方法对下列数据的异常值(2.5000)进行剔除:1.503

4、4 1.5062 1.5034 1.5024 1.49852.50001.50071.5067 1.49931.4969上述数据保存于文件erro.dat代码:x=load('error.dat');n=length(x);subplot(2,1,1);plot(x,'o');title('原始数据')axis(0,n+1,min(x)-1,max(x)+1); w=1+0.4*log(n);yichang = abs(x-mean(x) > w*std(x);%若用拉依达方法,把w改成3即可,但本组数据将不能成功剔除异常值。x(yicha

5、ng尸口;save errornew.dat x -ASCII subplot(2,1,2); plot(x,'rs');title('异常值剔除后数据');axis(0,n+1,min(x)-1,max(x)+1);运行结果:x =1.50341.50621.50341.50241.49852.50001.50071.50671.4993 1.4969y =1.50341.50621.50341.50241.49851.50071.50671.49931.49693. 一阶差分法(预估比较法)用前两个测量值来预估新的测量值,然后用预估值与实际测量值比较,若大于

6、事先给定的允许差限值,则剔除该测量值。预估值比较判别:注:该方法的特点是(1)适合于实时数据采集与处理过程;(2)精度除了与允许误差限的大小有关外,还与前两点测量值的精确度有关;(3)若被测物理量的变化规律不是单调递增或单调递减函数,这一方法将在函数的拐点处产生较大的误差,严重时将无法使用。(二)数据的平滑处理对于一组测量数据(xi, yi) i=1,、n,不要直接就想着求出的拟 合多项式的线性参数,而是要先平滑处理去掉“噪声”。平滑处理在 科学研究中广泛使用,它可以减少测量中统计误差带来的影响,尤其被用于无法利用多次重复测量来得到其平均值的情况和当yi随x i有徒然变化的那些测量段。1. “

7、(2n+1点)单纯移动平均”平滑滤波取出以yi为中心的前后各n个数据(yi-n, - ;yi-1,yi,- yi+n)求平均值代替yi,即优点:方法简单,计算方便。缺点:方法产生误差会造成信号失真;前后各n个数据无法平滑。适用性:适用于变化缓慢的数据。注:n越大平滑效果越好,但失真也越大。例2.“9点单纯移动平均”平滑滤波代码:%建立“ n点单纯移动平均”的滤波函数%注意函数要单独保存为与函数名同名的.m文件 function Y=smooth_data(y,n) m=length(y);j=1;for i=(n-1)/2+1:(m-(n-1)/2)p=i-(n-1)/2;q=i+(n-1)/

8、2;Y(j)=sum(y(p:q)/n;j=j+1; end end%主程序clccleart=-15:0.5:15;n=length(t);Y=5./(1+tA2); %原始测试数据y=Y+(0.5-rand(1,n); %给测试数据加上噪声干扰y1=smooth_data(y,9); %调用函数作9点滤波处理plot(1:n,Y,1:n,y,'-o',5:n-4,y1,'-*');legend(' 无噪声,含噪声,'9点平滑后');运行结果:2. “加权移动平均”平滑滤波加权的基本思想:作平均的区间内中心处数据的权值最大,愈远离中心处

9、的数据权值越小小。这样就减小了对真实信号本身的平滑作 用。权重系数可以采用最小二乘原理,使平滑后的数据以最 小均方差逼近原始数据。即令通常采用“五点二次平滑”(n=5, k=-2,-1,0,1,2)五点二次平滑权重系数表:归一系数y-2y-iyoy1y2y-235319-3-53,y-i35913126-5,yo35-3121712-3yi35-5612139,V2353-5-39313. 用“smooth函数”平滑滤波 调用格式:Z = smooth(Y, span, method)说明:Z:平滑后的数据向量Y:被平滑的数据向量span:平滑点数,缺省为5点method :平滑方法,缺省为移

10、动平滑,其它还有'moving'Moving average (default)W屯移动平均'lowess-Lowess (linear f让渡性力口权平滑'loess'Loess (quadratic fit二次力口权平滑'sgolay'Savitzky-Golay'rlowess'Robust Lowess (linear fit)'rloess'Robust Loess (quadratic fit)例3.用matlab自带的平滑函数作平滑滤波实例代码:t=-10:0.5:10;n=length(t)

11、;y=5./(1+tA2); % 原始测试数据y1=y+0.5*(0.5-rand(1,n); %给测试数据加上噪声干扰% 调用多个滤波函数作滤波处理y2=smooth(y1,3); y3=smooth(y1,9);y4=smooth(y1,3,'lowess'); y5=smooth(y1,9,'lowess');y6=smooth(y1,3,'loess'); y7=smooth(y1,9,'loess');y8=smooth(y1,3,'rloess'); y9=smooth(y1,9,'rloess

12、');figure(1); % 第一张图subplot(3,2,1);plot(t,y); axis(-10 10 -1 6); grid on title(' 无噪声信号');subplot(3,2,2);plot(t,y1,'-*'); axis(-10 10 -1 6); grid on title(' 含噪声信号');subplot(3,2,3);plot(t,y2,'-*'); axis(-10 10 -1 6); grid ontitle('3 点单纯移动平均');subplot(3,2,4);

13、plot(t,y3,'-*'); axis(-10 10 -1 6); grid ontitle('9 点单纯移动平均');subplot(3,2,5);plot(t,y4,'-*'); axis(-10 10 -1 6); grid ontitle('3 点线性加权平滑');subplot(3,2,6);plot(t,y5,'-*'); axis(-10 10 -1 6); grid ontitle('9 点线性加权平滑');figure(2); % 第二张图subplot(3,2,1);plot

14、(t,y); axis(-10 10 -1 6); grid on title(' 无噪声信号');subplot(3,2,2);plot(t,y1,'-*'); axis(-10 10 -1 6); grid on title(' 含噪声信号');subplot(3,2,3);plot(t,y6,'-*'); axis(-10 10 -1 6); grid ontitle('3点二次加权平滑);subplot(3,2,4);plot(t,y7,'-*'); axis(-10 10 -1 6); grid

15、ontitle('9点二次加权平滑');subplot(3,2,5);plot(t,y8,'-*'); axis(-10 10 -1 6); grid ontitle('3 点 rloess 平滑');subplot(3,2,6);plot(t,y9,'-*'); axis(-10 10 -1 6); grid ontitle('9 点 rloess 平滑');运行结果:Figure 1Figure 24.用“smoothts函数”(盒子法、高斯窗法、指数法)平滑滤波调用格式:output = smoothts(i

16、nput)output = smoothts(input,'b' , wsize) % 盒子法output = smoothts(input, 'g',wsize, stdev) %高斯窗方法output = smoothts(input,'e' , n) %指数法例4.读取股市数据,对开盘价的240条数据,调用smoothts函数进 行平滑处理。代码:x=xlsread('D:ProgramFilesMATLABMyWorksgupiaoshuju01.xls'); %读取数据文件p0=x(1:240,1)' %用开盘价

17、所在列的前240条数据%注意若不转置可能导致后面处理结果异常subplot(2,2,1);plot(p0,'k','LineWidth',1.5);% 绘制平滑后曲线图,黑色实线,线宽1.5xlabel(' 观测序号');ylabel(' 股市日开盘价');axis(0 250 1000 1400);p1 = smoothts(p0,'b',30); %用盒子法平滑数据,窗宽为30subplot(2,2,2);plot(p0,'.'); %绘制日开盘价散点图plot(p0,'.',&

18、#39;markersize',3);可以改变点的大小hold onplot(p1,'k','LineWidth',1.5);xlabel(' 观测序号');ylabel(' 盒子法 ');legend(' 原始散点',' 平滑曲线','location','northwest');axis(0 250 1000 1400);p2 = smoothts(p0,'g',30);% 高斯窗方法,窗宽为30 ,标准差为默认值0.65subplot(2

19、,2,3);plot(p0,'.');hold onplot(p2,'k','LineWidth',1.5);xlabel(' 观测序号'); ylabel(' 高斯窗方法');legend(' 原始散点',' 平滑曲线','location','northwest');axis(0 250 1000 1400);p3 = smoothts(p0,'e',30);%用指数法平滑数据,窗宽为30subplot(2,2,4);plot(p0,'.');hold onplot(p3,'k','LineWidth',1.5);xlabel(' 观测序号'); ylabel(' 指数方法');legend('原始散点','平滑曲线','location','northwest');axis(0 250 1000 1400);grid ontitle('9 点 rloess 平滑');运行结果:5.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论