误差与数据处理PPT课件.ppt_第1页
误差与数据处理PPT课件.ppt_第2页
误差与数据处理PPT课件.ppt_第3页
误差与数据处理PPT课件.ppt_第4页
误差与数据处理PPT课件.ppt_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第1部分:数据、误差与统计计算,.,2,Outline,数据信息数据挖掘物理量的正确值是不可能得到的;误差:实验误差随机误差(偶然误差)、系统误差、过失误差计算误差截断误差、舍入误差先讲计算误差(计算机数值计算的基本问题)再讲实验误差样本与总体测量值、误差的统计规律性实验误差的矫正(离群点数据的剔除)参数估计、统计检验(总体的不同分布)引出下一章:常用分布函数,.,3,数据(Data),数据(Data):数值数据、非数值数据信息(Information)数据挖掘(DataMining)模式识别人工智能数理统计(理论)统计计算(应用),.,4,数据与误差,实验误差数据来源:测量(实验)Kolthoff断言:物理量的正确值是不可能得到的。加工误差(计算误差)计算过程带来误差,.,5,误差分类,实验误差随机误差(偶然误差)随机因素引起的不易控制的误差;统计研究的重点(正态分布)系统误差由于某种人为因素引起实验结果有明显的固定偏差只能进行统计检验,一般不能通过增加实验次数消除过失误差明显歪曲实验结果的误差离群值、异常值、Outlier,统计研究的重点!,.,6,误差分类(Cont.),计算误差(加工误差)截断误差近似算法(无穷级数逼近)计算机字长限制舍入误差截断舍入(四舍五入)乘、除运算误差,数值计算研究的重点!,.,7,举例:计算地球的表面积,数学模型:误差:地球被看成是一个球,简单理想模型系统误差、人为误差测量仪器误差如何测得地球的半径长度R计算误差截断误差:公式中的是无理数舍入误差:浮点数的计算,.,8,误差与“统计计算”,“统计计算”要研究两类误差!,.,9,计算误差,利用计算机进行计算带来的误差数在计算机中的表示舍入误差截断误差计算机算法的基本问题计算复杂性稳定性问题的病态性,数值计算的最基本概念!,.,10,数在计算机中的表示-浮点数,计算机中数的表示方式,说明:计算机中的数只有有限多个,同时只能是有限精度,且为实数集的一个子集。称之为浮点数,记为F.,.,11,数在计算机中的表示-浮点数,浮点数集合F由(t,L,U)唯一确定,数值实验-floatgui.m(t=3,L=-4,U=3)f=(0:2t-1)/2t;F=;fore=emin:emaxF=F(1+f)*2e;end,t=3,L=-4,U=3eps=1/8=0.125,则12之间的数的表示:11.1251.2501.3751.5001.6251.7501.8252现在给定实数1.0625,1.1249999.如何表达?误差多少?,.,12,数在计算机中的表示-浮点数,结论:浮点数集合F中的元素分布是不均匀的由于计算机字长有限,浮点数只能是有限的集合:字长增加,浮点数集合变大。不能直接表达的实数只能“舍”或“入”为与之接近的浮点数,课后练习:运行floatgui.m程序,调整(t,U,L)取值,观察可以表示的浮点数集合的变化。求给定(t,U,L)后可表达的浮点数个数(修改floatgui.m程序),.,13,数在计算机中的表示-浮点数,结论:尾数多少决定了eps的大小,决定了计算机的精度L,U决定了可以表示的浮点数的大小范围,.,14,数在计算机中的表示-浮点数,IEEE双精度二进制数使用64位存储一个数,每位取值0或1位的分配为:尾数符号1尾数52阶码11t=52,-1023x,x=2*x,pause(.02),endx=1;whilex+xx,x=x/2,pause(.02),end,.,40,计算误差分析作业,3.TheclassicquadraticformulasaysthatthetworootsofthequadraticequationUsethisformulainMatlabtocomputebothrootsfora=1;b=-100000000;c=1Compareyourcomputedresultswithroots(abc)Whathappensifyoutrytocomputetherootsbyhandorwithahandcalculator?Youshouldfindthattheclassicformulaisgoodforcomputingoneroot,butnottheother.Souseittocomputeonerootaccuratelyandthenusethefactthatx1x2=c/atocomputetheother.,.,41,计算误差分析作业,4.ThepowerseriesforsinxisThisMatlabfunctionusestheseriestocomputesinx.functions=powersin(x)%POWERSIN.Ittriestocomputesin(x)fromapowerseriess=0;t=x;n=1;whiles+t=s;s=s+t;t=-x.2/(n+1)*(n+2).*t;n=n+2;endWhatcausesthewhilelooptoterminate?AnswerthefollowingquestionsforHowaccurateisthecomputedresult?Howmanytermsarerequired?Whatisthelargesttermintheseries?Whatdoyouconcludeabouttheuseoffloating-pointarithmeticandpowerseriestoevaluatefunctions?,.,42,实验误差及处理,实验误差(Outline)随机误差随机变量总体、样本总体的数字特征样本特征量及其计算直方图概率密度函数总体分布的估计与检验正态性检验:QQ检验数据的变换与校正,.,43,随机误差与随机变量,随机误差由于某些无法控制的因素的随机波动而形成的误差,又称为偶然误差;随机现象由于随机误差的存在,在基本条件不变的情况下,重复测量会得到不同的结果随机事件随机现象中的某种结果(如测量中得到某个值)概率随机事件A的概率P(A)表示事件A发生的可能性大小,.,44,随机误差与随机变量,概率的公理体系随机事件A的概率满足必然事件U的概率为1如果随机事件A,B互斥(不相交),则P(A+B)=P(A)+P(B)频率如果在n次试验中,随机事件A出现了a次,则称F(A)=a/n为随机事件A在n次试验中出现的频率频率与概率当n趋向无穷大,即测量次数无限多时,频率的极限为该事件发生的概率,.,45,随机误差与随机变量,随机变量就是随着试验结果的不同而随机地取各种值的变量。(随机现象与随机变量的取值)离散型随机变量有些随机变量,只能在离散点上取值,例如,掷一个骰子掷出的点数,同时扔两个硬币出现正面向上的硬币个数;连续型随机变量有些随机变量,它们的取值范围是实数轴上的连续区间,例如,加工零件时的加工误差,炮弹落点到目标的距离,两次电话来到之间的时间间隔等事件的概率采用随机变量的取值进行刻画,.,46,总体与样本,总体随机变量X的所有可能取值组成研究的对象全体称为总体有穷总体与无穷总体随机变量的取值具有规律性分布函数离散型X是离散型随机变量,将可能取的所有的值以及它取这些值的概率一一列举出来,这样得到的一组概率,称为X的概率分布常见离散型概率分布(参见:常见概率分布.doc),.,47,总体与样本,连续型,常见连续型概率分布及密度函数(参见:常见概率分布.doc),.,48,总体与样本,随机变量的数字特征(总体)用于描述随机变量X取值的基本统计特性数学期望(Expectation,均值)E(X)方差(Variance)D(X)和标准差(StandardDeviation)协方差(Covariance)和相关系数(CorrelationCoefficient)(参见:随机变量的特征.doc),.,49,总体与样本,个体对总体的每一次观测所得到的测量值称为一个个体样本n个个体组织在一起构成对总体观测的一个样本,其中观测次数n称为样本容量一次观测就是总体X取得一个值;样本容量为n的样本可以看成是n个来自同一总体的随机变量的不同取值。所取得的值又称为样本观测值。样本具有二重性:在观测(抽样)前,它是n个随机变量(与来自的总体同分布)在观测(抽样)后,它是n个观测值(随机变量的取值),.,50,总体与样本,为什么要研究样本抽样实验研究样本的目的估计总体的特征怎样产生样本有放回抽样、无放回抽样简单随机样本组成样本的每个个体与总体同分布组成样本的每个个体彼此相互独立,总体,选择个体,样本,观测样本,样本观察值,(数据),数据处理,样本有关结论,推断总体性质,统计量,统计的一般步骤,.,52,总体与样本,统计量为了集中简单随机样本所带来的总体信息,考虑样本的函数,且不含任何未知参数,这样的“不含未知参数的样本的函数”称为统计量抽样分布统计量的分布称为抽样分布,.,53,(2)样本均值,(4)样本方差,(5)样本标准差,(3)样本k阶中心矩,(1)样本k阶原点矩,注:,常用样本统计量,.,54,样本统计量的Matlab计算,均值Mean方差Var标准差Std极值Range中位数Median算例:a=randn(100,1);mean(a);a=randn(100000,1)mean(a);,.,55,随机变量的概率分布,测量值随机变量概率分布?画直方图找出最大值和最小值,求出极差R根据样本容量大小进行分组。大样本分10-20组,小样本(n=0处增加时,f(x)值下降选择了-df(x)/dx=mf(x),x=0,.,60,随机误差的分布(密度函数),高斯的工作(Gauss,1777-1855)饶日天体运动的理论推导出随机误差分布的概率密度函数高斯分布(正态分布),.,61,从样本估计总体:参数估计,正态分布总体,采用来自同分布的样本构造统计量进行估计!参数估计点估计极大似然估计区间估计,.,62,从样本估计总体:参数估计,极大似然估计,.,63,从样本估计总体:参数估计,极大似然估计,.,64,极大似然估计高斯分布,推导随机误差分布的密度函数,.,65,极大似然估计高斯分布,.,66,极大似然估计高斯分布,.,67,极大似然估计高斯分布,.,68,假设检验,假设检验的原理(参见:假设检验.doc)假设检验的应用测量值的正态概率分布等距直方图总体的概率密度函数(前已介绍)等频率直方图拟合优度检验法QQ检验法(直线检验法),.,69,假设检验,等频率直方图拟合优度检验法,.,70,假设检验,.,71,假设检验,QQ检验法,.,72,假设检验,QQ检验法(续),.,73,假设检验,QQ检验法(续),.,74,假设检验,QQ检验法(续),.,75,假设检验,QQ检验法(续),.,76,假设检验,QQ检验法(数值试验),Matlab程序(源程序)经验分布函数:cdfplot正态性假设检验:qqplot,normplot,.,77,假设检验,假设检验QQ检验法例:已知20名学生的各科平均成绩为:56,23,59,74,49,43,39,51,61,99,23,56,49,75,20.请检验其正态性。,Matlab程序:A=562359744943395161992356497520qqplot(A),normplot(A),.,78,假设检验,作业1:根据上述介绍的算法,自行设计实现myqqplot(x),图示数据正态性检验,计算相关系数r并将其值显示在图上适当的位置;使用myqqplot针对上例数据进行正态分布性检验。,.,79,数据集中离散程度的可视化度量,Boxplot(盒图)分位数(quartile)P(XXp)=p,则Xp称为p分位数p=0.5时,Xp又称为中位数四分位数下四分位数:p=0.25;中位数:p=0.5;上四分位数:p=0.75直观解释:将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最小的四分位数称为下四分位数:所有数值中,有四分之一小于下四分位数,四分之三大于下四分位数。中点位置的四分位数就是中位数;最大的四分位数称为上四分位数:所有数值中,有四分之三小于上四分位数,四分之一大于上四分位数,.,80,数据集中离散程度的可视化度量,四分位数间距interquartilerange(IQR)IQR=q0.75-q0.25代表中间50%数据的极差值下界lowerlimit(LL)和上界upperlimit(UL)LL=q0.251.5*IQRUL=q0.75+1.5*IQR超出LL和UL的观测点可视为异常点(Outlier)邻近值Adjacentvalues如果不存在异常点,则邻近值为观测值的最大值和最小值否则,邻近值为LL和UL,.,81,数据集中离散程度的可视化度量,.,82,数据集中离散程度的可视化度量,Boxplot(绘制box图)用水平线画出三个四分位数,连接成盒装;用水平线画出邻近值;从下四分位数出发用竖线与最小的邻近值相连;从上四分位数出发用竖线与最大的邻近值相连;将异常点标用*号标注在图上,.,83,数据集中离散程度的可视化度量,HelpboxplotExamplesInd=(Origin=G);Ger=MPG(ind(:,1);boxplot(Ger);(重点以Germany为例进行说明),.,84,数据集中离散程度的可视化度量,例:data1=normrnd(0,1,100,1);data2=no

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论