《数据分析处理》PPT课件_第1页
《数据分析处理》PPT课件_第2页
《数据分析处理》PPT课件_第3页
《数据分析处理》PPT课件_第4页
《数据分析处理》PPT课件_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理专题,数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。,3协方差及相关系数,对于二维随机变量(X,Y),除了讨论X与Y的数学期望和方差外,还需讨论描述X与Y之间相互关系的数字特征。这就是本节的内容。定义:,数据处理的过程:,1、获得数据(标准化处理)。2、将数据分类(聚类分析)。3、提取主要影响因素(主成分分析)。4、数据分析(相关性分析,回归分析)。,聚类分析,聚类也就是分类,在社会经济领域中存在大量的分类问题,比如三十个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取具有代表性的指标如,百元固定资产实现利税,资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对省市自治区分类,然后根据分类结果对企业经济效益进行综合评价。,聚类分析方法,系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们着重讲述系统聚类法。对样品分类成Q分类,对指标分类称R分类,聚类的三种尺度:1、间隔尺度:变量是用连续量来表示,如长度、重量等2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量表示也没有次序表示。如红黄蓝三色等,我们通过距离来分类。方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。,最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)开始每个样品自成一类,显然这时Dij=dij。其中D表示类G之间的距离,d表示样品之间的距离。【2】找出D(0)的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr。【3】给出计算新类与其他的类的距离公式:距离公式有:欧氏距离,马氏距离,兰氏距离等。我们一般用马氏距离,应为它即排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。两个样本间的距离定义:,其中,Xi为样品的p个指标组成的向量。,协方差阵的逆矩阵,协方差阵定义如下:,样品到总体的距离定义:,总体均值向量,Dkr=minDkp,Dkq将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下:,例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。解:我们距离选用我们所熟悉的绝对值距离。,最终我们分为两类比较合适,x1,x2,x3与x4,x5,Step1寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=1,2,3.5,7,9X2=zscore(X);%标准化数据Y2=pdist(X2);%计算距离Step2定义变量之间的连接Z2=linkage(Y2);Step3评价聚类信息C2=cophenet(Z2,Y2);/0.94698Step4创建聚类,并作出谱系图T=cluster(Z2,2);H=dendrogram(Z2);%画出聚类图,matlab做聚类分析,分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用linkage函数定义变量之间的连接;(3)用cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。,例为了更深入了解我国人口的文化程度状况,1990年全国人口普查数据对全国30个省直辖市、自治区进行聚类分析。分析选用了三个指标:【1】大学以上文化程度的人口占全部人口的比例(DXBZ);【2】初中以上文化程度的人口占全部人口的比例(CZBZ);【3】文盲半文盲的人口占全部人口的比例(WMBZ);分别用来反映较高、中等、较低文化程度人口的状况,原始数据如附件:,clearclcX=load(data1.txt)Y2=pdist(X);%计算距离Z2=linkage(Y2);C2=cophenet(Z2,Y2);T=cluster(Z2,4);H=dendrogram(Z2);%画出聚类图,pdist函数调用格式:Y=pdist(X,metric)说明:用metric指定的方法计算X数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯基距离;cosine:chebychev:Chebychev距离。,linkage函数调用格式:Z=linkage(Y,method)说明:用method参数指定的算法计算系统聚类树。Y:pdist函数返回的距离向量;method:可取值如下:single:最短距离法(默认);complete:最长距离法;average:未加权平均距离法;weighted:加权平均法;centroid:质心距离法;median:加权质心距离法;ward:内平方距离法(最小方差算法),练习题根据信息基础设施的发展状况,对二十个国家的地区进行分类。,主成分分析在实际问题中,研究多指标的问题是经常遇到的,然而在多数情况下,不同指标之间是有一定关系的。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多滴反映原来指标的信息。这种多个指标化为少数互不干扰的综合指标的统计方法叫做主成分分析法,如某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标。但是某服装产生产一批新型服装绝不可能吧尺寸型号分的过多。而是从其中选取几个综合性的指标作为分类型号。1、反映胖瘦。2、反映特体。3反映长度。,计算步骤设有n个样品,每个样品观测p个指标,将原始数据写成矩阵形式,1、将原始数据标准化,2、建立变量的相关系数阵,3、求R的特征根及相应的单位特征向量a1,a2,.ap,4、写出主成分,一般取累计贡献率达8595%的特征值,所对应的第一、第二,第m(mp)个主成分。,特征值大的贡献大。贡献率=特征值/所有特征值和,例中国大陆35个大城市某年的10项社会经济统计指标指标做主成分分析数据见下表。,相关系数矩阵:std=1.0000-0.34440.84250.36030.73900.62150.40390.49670.67610.4689-0.34441.0000-0.47500.3096-0.35390.19710.35710.26000.15700.30900.8425-0.47501.00000.33580.58910.50560.32360.44560.55750.37420.36030.30960.33581.00000.15070.76640.94120.84800.73200.86140.7390-0.35390.58910.15071.00000.42940.19710.31820.38930.25950.62150.19710.50560.76640.42941.00000.83160.89660.93020.90270.40390.35710.32360.94120.19710.83161.00000.92330.83760.95270.49670.26000.44560.84800.31820.89660.92331.00000.92010.97310.67610.15700.55750.73200.38930.93020.83760.92011.00000.93960.46890.30900.37420.86140.25950.90270.95270.97310.93961.0000,pcacov功能:运用协方差矩阵进行主成分分析格式:PC=pcacov(X)PC,latent,explained=pcacov(X)说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。,特征值(val)val=0.003900000000000.024000000000000.030700000000000.099100000000000.123200000000000.256600000000000.320700000000000.530000000000002.351400000000006.2602,特征根排序:6.260222.351380.5300470.3206990.2566390.1232410.09909150.03070880.02403550.00393387,特征向量(vec):,-0.13670.2282-0.26280.19390.6371-0.21630.3176-0.1312-0.41910.2758-0.0329-0.02170.00090.0446-0.1447-0.44370.4058-0.55620.54870.0593-0.0522-0.02800.2040-0.0492-0.5472-0.42250.34400.3188-0.44380.24010.0067-0.4176-0.2856-0.23890.1926-0.4915-0.41890.27260.20650.34030.04040.14080.08960.0380-0.1969-0.0437-0.4888-0.6789-0.44050.1861-0.03430.23600.0640-0.82940.03770.26620.1356-0.12900.02780.37820.29810.47390.56850.23580.1465-0.1502-0.26310.12450.21520.36440.15670.3464-0.64850.2489-0.40430.2058-0.07040.04620.12140.38120.4879-0.57070.12170.17610.09870.35500.3280-0.01390.00710.3832-0.7894-0.16280.19250.2510-0.04220.26940.03960.04560.16680.3799,于是的三个指标为:Y1=-0.1312*x1-0.5562*x2+0.3188*x3+.+0.0456*x10Y2=-0.4191*x1+0.5487*x2+.+0.1668*x10Y3=0.2758*x1+0.0593*x2+.+0.3799*x10,通过观察我们发现Y1当中x2,x5的系数比较大,即影响Y1比较明显因此我们可将Y1看做反映非农业人口比与客运总量的综合指标。,练习、我们给出了各地的企业的经济效益状况,通过相关的方法对各地的经济效益做分析。数据如下表:,进一步还可做因子分析。,相关性分析,在一元统计分析中,研究两入随机变量之间的线性相关关系、可用相关系数(称为简单相关系数);研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数(称为全相关系数)将它推广到研究多个随机变量与多个随机变量之间的相关关系的讨论中,提出了典型相关分析。实际问题中,两组变量之间具有相关关系的问题很多,例如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销售量(作为第二组变量)有相关关系;投资性变量(如劳动各人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)只有相关关系;患某种疾病的病人的各种症状程度(第一组变量)和用物理化学方法检验的结果(第二组变量)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间具有相关关系等等。,典型相关分析就是研究两组变量之间相关关系的一种多元统计方法,设两组变量用x1,x2,xn和y1,y2yn表示,要研究两组变量的相关关系,一种方法是分别研究X和Y之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这样做法不仅烦琐也不易抓住问题的实际;另一种方法采用类似主成分分析的做法在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通道研究两组的综合指标之间的关系来反映两组变量之间关系比如猪肉价格和牛肉价格用x1,X2表示,它们的销售售量用X,xl表示,研究它们之间的相又关系,从经济学观点就是希望构造一个X1、x2的线性函数入y1a11X1十a12x2称为价格指数及x3、x4的线性函数y2a21x3十a22X4称为销售指数,要求它们之间具有最大相关性,这就是一个典型相关分析问题。,1.插值拟合2.线性回归4.灰色分析5.神经网络,在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找到变量之间相对准确的函数关系就成为解决实际问题的关键。例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi,yi),i=0,1,.,n之中找到自变量x与因变量y之间的函数关系,一般可用一个近似函数y=f(x)来表示。函数y=f(x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。,数据拟合主要是考虑到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y=f(x),此时并不要求所得到的近似函数y=f(x)满足yi=f(xi),i=0,1,n。,函数插值则要求近似函数y=f(x)在每一个观测点ix处一定要满足yi=f(xi),i=0,1,n,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。,在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二是对观测数据处理方法的选择,即到底是采用插值方法还是用拟合方法,插值方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。,数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验,如果置信区间太大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。,对于插值方法,本章简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了在本章介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们在专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法,,即介绍回归分析方法及其Matlab实现。数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟合的方法(包括回归分析)通常只能解决实际问题中的部分问题计算问题。一般来说,对实际问题进行数学建模需要用到多方面知识,只有很少的情况下可以单独使用本章所介绍的内容,故我们只在本章最后一节以修改后的美国91年数学建模A题为例说明如何使用数值计算知识建立数学模型,从而解决实际问题的方法。,插值方法,1、拉格朗日插值法,2、分段线性插值法,分段线性插值的Matlab实现用Matlab实现分段线性插值不需要编制函数程序,Matlab中有现成的一维插值函数interp1。y=interp1(x0,y0,x,method)method指定插值的方法,默认为线性插值。其值可为:nearest最近项插值linear线性插值spline立方样条插值cubic立方插值。,3、三次样条插值法,Matlab中三次样条插值也有现成的函数:y=interp1(x0,y0,x,spline);y=spline(x0,y0,x);pp=csape(x0,y0,conds),pp=csape(x0,y0,conds,valconds),y=ppval(pp,x)。其中x0,y0是已知数据点,x是插值点,y是插值点的函数值。,对于三次样条插值,我们提倡使用函数csape,csape的返回值是pp形式,要求插值点的函数值,必须调用函数ppval。,例1机床加工待加工零件的外形根据工艺要求由一组数据(x,y)给出(在平面情况下),用程控铣床加工时每一刀只能沿x方向和y方向走非常小的一步,这就需要从已知数据得到加工所要求的步长很小的(x,y)坐标。表中给出的x,y数据位于机翼断面的下轮廓线上,假设需要得到x坐标每改变0.1时的y坐标。试完成加工所需数据,画出曲线,并求出x=0处的曲线斜率和13x15范围内y的最小值。x035791112131415y01.21.72.02.12.01.81.21.01.6要求用分段线性和三次样条two种插值方法计算。,x0=035791112131415;y0=01.21.72.02.12.01.81.21.01.6;x=0:0.1:15;y2=interp1(x0,y0,x,linear);y3=interp1(x0,y0,x,spline);pp1=csape(x0,y0);y4=ppval(pp1,x);pp2=csape(x0,y0,second);y5=ppval(pp2,x);subplot(2,2,2)plot(x0,y0,+,x,y2)title(Piecewiselinear)subplot(2,2,3)plot(x0,y0,+,x,y3)title(Spline1),subplot(2,2,4)plot(x0,y0,+,x,y4)title(Spline2)dx=diff(x);dy=diff(y3);dy_dx=dy./dx;dy_dx0=dy_dx(1)ytemp=y3(131:151);ymin=min(ytemp);index=find(y3=ymin);xmin=x(index);xmin,ymin,计算结果略。可以看出,分段线性插值的光滑性较差(特别是在x=14附近弯曲处),建议选用三次样条插值的结果。,五一维插值总结插值函数一般是已知函数的线性组合或者称为加权平均。在已知数据点较少时,插值技术在工程实践和科学实验中有着广泛而又十分重要的应用。例如在信息技术中的图像重建、图像放大过程中为避免图像失真、扭曲而增加的插值补点,建筑工程的外观设计,化学工程试验数据与模型分析,天文观测数据、地理信息数据的处理,社会经济现象的统计分析等方面,插值技术的应用是不可或缺的。,插值技术(或方法)远不止这里所介绍的这些,但在解决实际问题时,对于一维插值问题而言,前面介绍的插值方法已经足够了。剩下的问题关键在于什么情况下使用、怎样使用和使用何种插值方法的选择上。拉格朗日插值函数在整个插值区间上有统一的解析表达式,其形式关于节点对称,光滑性好。但缺点同样明显,这主要体现在高次插值收敛性差(龙格现象);增加节点时前期计算作废,导致计算量大;一个节点函数值的微小变化(观测误差存在)将导致整个区间上插值函数都发生改变,因而稳定性差等几个方面。因此拉格朗日插值法多用于理论分析,在采用拉格朗日插值方法进行插值计算时通常选取nFa,则两者有显著的线性关系。反之没有。,Matlab计算公式x=finv(1-,n1,n2),Yi为根据回归公式计算的到值。,关于xi的偏差平方和,关于yi的偏差平方和,关于xi,yi的相关偏差平方和,xi,yi为实际数据,Yi为根据回归公式计算的到值。,(b)t检验法,判别指标,当|t|ta(n-2)时,x,y存在明显的线性关系,当|t|Ra,解:clearclcx=20253035404550556065y=13.215.116.417.117.918.719.621.222.524.3plot(x,y,r*)%y=a*x+by1=ones(10,1),xA=inv(y1*y1)*y1*y%求的系数a,by0=A(2).*x+A(1);%假设检验,假设H0:a=0,H1:a0我们分别采用t检验和F检验来考察x,y的关系是否正确。,clearclcx=20253035404550556065;y=13.215.116.417.117.918.719.621.222.524.3;plot(x,y,r*)y1=ones(10,1),x;A=inv(y1*y1)*y1*y%求的系数a,by0=A(2).*x+A(1);Lyy=sum(y-mean(y).2);Lxx=sum(x-mean(x).2);Lxy=sum(x-mean(x).*(y-mean(y);U=sum(y0-mean(y).2);Q=Lyy-U;%F检验F=U*(10-2)/QFa=finv(1-0.05,1,8)%t检验t=sqrt(10-2)*Lxx)*A(2)/sqrt(Q)ta=-tinv(0.025,8),回归分析的Matlab实现Matlab统计工具箱中提供了一些回归分析的命令,现介绍如下。1多元线性回归多元线性回归的命令是regress,此命令也可用于一元线性回归。其格式为:(1)确定回归系数的点估计,用命令:b=regress(Y,X)。(2)求回归系数的点估计和区间估计,并检验回归模型,用命令:b,bint,r,rint,stats=regress(Y,X,alpha)。(3)画出残差及其置信区间,用命令:rcoplot(r,rint)。,在上述命令中,各符号的含义为:(i)b为回归方程的系数,Y,X的定义同本部分前面所述。对一元线性回归,Y,X中取k=1即可;(ii)alpha为显著性水平(缺省时为0.05);(iii)bint为回归系数的区间估计;(iv)r与rint分别为残差及其置信区间;(v)stats是用于检验回归模型的统计量,有三个数值,第一个是R2,第二个是F值,第三个是与F对应的概率P。其中R2与F定义同前,值越大,说明回归方程越显著,P0,a0。,两边求对数则有lny=lna+blnx,那么我们令y=lny,x=lnx,则会有y=a+bx,3指数函数曲线y=aebx,其中a0。,两边求对数则有lny=lna+bx,那么我们令y=lny,a=lna,则会有y=a+bx,4倒指数函数曲线y=aeb/x,其中a0。,两边求对数则有lny=lna+b/x,那么我们令y=lny,a=lna,x=1/x则会有y=a+bx,5对数函数曲线y=a+blnx,其中x0。,6S型函数曲线y=1/(a+be-x),那么我们令y=1/y,x=e-x则会有y=a+bx,注:对于非线性回归问题的Matlab实现问题,一种方法是化为相应的线性模型实现,另一种方法是直接应用Matlab中相应的命令,其结果是一致的。详见本节第五部分。,三多元线性回归分析一般地,在实际问题中影响应变量y的自变量往往不止一个,不妨设有k个为x1,x2,xk。通过观测得到一组(k+1维)相互独立的试验观测数据(x1j,x2j,xkj,yj)y,i=1,2,n,其中nk+1。假设变量y与变量x1,x2,xk之间有线性关系:y=b0+b1*x1+.+bk*xk+e,将观测数据带入的y=b0+b1*x1j+.+bk*xkj+ej,Y=Xb+e,注:b代表e代表,对线性模型y=b0+b1*x1+.+bk*xk+e所要考虑的主要问题是:(i)用实验观测数据对未知参数b0,bk和做点估计和假设检验,从而建立因变量y和自变量x1,xk之间的线性关系;(ii)在x1=x10,xk=x1k处对y的值作预测和控制,并对y作区间估计。本部分总是假设nk+1。,1未知参数bi估计,XTXb=XTYb=(XTX)-1XTY,2多元线性回归中的假设检验,在实际问题中,往往事先不知道或不能确定随机变量y与自变量x1,xk之间确有线性关系。因而(10.13)往往是一种假设,因此在求出线性回归方程之后,还必须对求出的线性回归方程同实际观测数据拟合效果进行检验。类似于一元线性回归,可提出以下原假设H0:b1=b2=bk=0。,当拒绝H0时表示线性关系成立,否则不成立。,检验指标,知F检验法的检验规则为:如果FFa,则拒绝H0,认为因变量y与自变量1x,kx之间的线性关系显著;否则,认为y与x1,xk之间的线性关系不显著。需要注意的是,y与x1,xk之间的线性关系不显著,可能出现几种情况:如y于其中某些自变量无关系,可以去掉这些自变量;y与1x,kx之间的存在非线性关系;还有其它变量与y有关系等。当然还有其它检验方法。,例8某厂生产的一种电器的销售量y与竞争对手的价格x1和本厂的价格x2有关。下表是该厂商品在10个城市的销售记录。试根据这些数据建立y与x1和x2的关系式,对得到的模型和系数进行检验。若某市本厂产品售价160(元),竞争对手售价170(元),预测商品在该市的销售量。,x1元120140190130155175125145180150 x2元10011090150210150250270300250Y个10210012077469326696585,解分别画出y关于x1和y关于x2的散点图,可以看出y与x2有较明显的线性关系,而y与x1之间的关系则难以确定,我们将作几种尝试,用统计分析决定优劣。,设回归模型为y=b0+b1x1+b2x2。编写如下程序:x1=120140190130155175125145180150;x2=10011090150210150250270300250;y=10210012077469326696585;x=ones(10,1),x1,x2;b,bint,r,rint,stats=regress(y,x);b,bint,stats得到b=66.51760.4139-0.2698bint=-32.5060165.5411-0.20181.0296-0.4611-0.0785stats=0.65276.57860.0247,可以看出结果不是太好,p=0.0247,取a=0.05时所设回归模型可用,但取a=0.01时所设回归模型不能用;R2=0.6527较小;b0,b1的置信区间包含了零点。后面将试图用x1,x2的二次函数改进它。,软件有关结果,RootMSE(残差标准差反映了回归方程的精度,其值越小说明回归效果越好R-Square(决定系数)说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好AdjR-Sq(校正决定系数)说明所有自变量与Y间的线性相关程度,即观察值Y与估计值之间的相关程度。,反映了回归方程的精度,其值越小说明回归效果越好,投资额与国民生产总值和物价指数,问题,建立投资额模型,研究某地区实际投资额与国民生产总值(GNP)及物价指数(PI)的关系,2.0688,3073.0,424.5,20,1.0000,1185.9,195.0,10,1.9514,2954.7,474.9,19,0.9601,1077.6,166.4,9,1.7842,2631.7,401.9,18,0.9145,992.7,144.2,8,1.6342,2417.8,423.0,17,0.8679,944.0,149.3,7,1.5042,2163.9,386.6,16,0.8254,873.4,133.3,6,1.4005,1918.3,324.1,15,0.7906,799.0,122.8,5,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价指数,国民生产总值,投资额,年份序号,物价指数,国民生产总值,投资额,年份序号,根据对未来GNP及PI的估计,预测未来投资额,该地区连续20年的统计数据,四逐步线性回归分析从多元线性回归分析中我们知道,采用的自变量越多,则回归平方和越大,残差平方和越小。然而,采用较多的变量来拟合回归方程,得到的方程稳定性差,每个自变量的区间误差的积累将影响总体误差,用这样建立起来的回归方程作预测的可靠性差、精度低。另一方面,如果采用了对因变量影响小的自变量而遗漏了重要变量,可导致估计量产生偏倚和不一致性。因而希望得到最优的回归方程。逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生的一种算法技巧,详可参阅相应的文献。其基本思路为:从一个自变量开始,视自变量对y作用的显著程度,从大到小依次逐个引入,回归方程。当引入的自变量由于后面自变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步,都要进行y值检验,以确保每次引入新的显著性变量前回归方程中只包含对y作用显著的变量。这个过程反复进行,直至即无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程止。使用逐步线性回归时要注意:要适当选择引入变量的显著性水平和剔除变量的显著性水平;应尽量选择那些相互独立性强的变量。,4逐步回归逐步回归的命令是stepwise,它提供了一个交互式画面,通过此工具可以自由地选择变量,进行统计分析。通常用法是:stepwise(x,y,inmodel,alpha),其中x是自变量数据,y是因变量数据,分别为nm和n1矩阵,inmodel是矩阵的列数指标,给出初始模型中包括的子集(缺省时设定为全部自变量),alpha为显著水平(缺省时为0.05)。,运行stepwise命令时产生三个图形窗口:StepwisePlot,StepwiseTableStepwiseHistory。所有这些图形界面都由热区,即当鼠标移到图形的某个区域时,鼠标的指针会变成一个小圆,点击后会产生交互作用。,在StepwisePlot窗口,显示出各项的回归系数及其置信区间。其中:点表示回归系数的值,点两边的水平(实或虚)直线段表示其置信区间(虚线表示该变量的拟合与0无显著差异,实线表示有显著差异);绿色的线表示当前在模型中的项,红色的线表示当前不在模型中的项。点击一条线会改变其状态,即在模型中的项(绿线)会被移去(变为红线),不在模型中的项(红线)会被加入(变为绿线)。次窗口中的Export下拉式菜单可以向Matlab工作区传送各种数据。次窗口中的ScaleInputs可对输入数据的每列进行正态化处理,使其标准差为1。在StepwiseTable窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(R-square)、F值、与F值对应的概率P。,例11水泥凝固时放出的热量y与水泥中4种化学成分x1,x2,x3,x4有关,今测得一组数据如下,试用逐步回归来确定一个线性模型。,序号x1x2x3x4y172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4,解编程如下:clc,clearx0=172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4;x0=(:,2:5);y=x0(:,6);stepwise(x,y),得到图StepwisePlot和StepwiseTable表。图StepwisePlot中四条直线都是虚线,说明模型的显著性不好,从StepwiseTable表中可以看出变量x3和x4显著最差。移去这两个变量,图StepwisePlot中点击直线3和直线4,这两条直线变为红色,同时直线1和直线2变为实线,说明移去变量x3和x4后模型具有显著性。从新的统计结果可以看出,虽然剩余标准差(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。对变量y和x1、x2作线性回归:stepwise(x,y,1,2)得到结果:y=52.5773+1.4683x1+0.6623x2。,五回归分析的Matlab实现Matlab统计工具箱中提供了一些回归分析的命令,现介绍如下。1多元线性回归多元线性回归的命令是regress,此命令也可用于一元线性回归。其格式为:(1)确定回归系数的点估计,用命令:b=regress(Y,X)。(2)求回归系数的点估计和区间估计,并检验回归模型,用命令:b,bint,r,rint,stats=regress(Y,X,alpha)。(3)画出残差及其置信区间,用命令:rcoplot(r,rint)。,在上述命令中,各符号的含义为:(i)b为回归方程的系数,Y,X的定义同本部分前面所述。对一元线性回归,Y,X中取k=1即可;(ii)alpha为显著性水平(缺省时为0.05);(iii)bint为回归系数的区间估计;(iv)r与rint分别为残差及其置信区间;(v)stats是用于检验回归模型的统计量,有三个数值,第一个是R2,第二个是F值,第三个是与F对应的概率P。其中R2与F定义同前,值越大,说明回归方程越显著,Pa时拒绝H0,回归模型成立。,2多项式回归(1)一元多项式的回归和预测一元多项式的回归和预测可用命令polyfit或polytool和polyval或polyconf来实现。其命令格式如下:令x=(x1,x2.xn)y=(y1,y2.yn),P=(a1,a2.am+1)是多项式y=a1*xm+a2*xm-1-+amx+am+1.的系数,S是一个矩阵,用来估计预测误差。,回归可以用命令P,S=polyfit(x,y,m)或polytool(x,y,m)实现,其P,S=polyfit(x,y,m)是确定多项式系数的命令;命令polytool(x,y,m)命令产生一个交互式的画面,在画面中绿色曲线为拟合曲线,它两侧的红线是y的置信区间。可以用鼠标移动图中的十字线来改变图下方的x值,,也可以在窗口内输入,左边就给出y的预测值与置信区间。通过左下方的Export下拉式菜单,可以输出回归系数等。预测和预测误差估计的命令为polyval或者polyconf,其中Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y;Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间YDELTA;alpha缺省时为0.05。一元多项式回归也可化为多元线性回归来解。,一元多项式回归也可化为多元线性回归来解。,例9观测物体降落的距离y与时间x的关系,得到数据如下表,求y关于x的回归方程y=a+bx+cx2。x1/302/303/304/305/306/307/30y11.8615.6720.6026.6733.7141.9351.13x8/309/3010/3011/3012/3013/3014/30y61.4972.9085.4499.08113.77129.54146.48,解方法(一)用一元多项式回归,编写程序如下:x=1/30:1/30:14/30;y=11.8615.6720.6026.6733.7141.9351.1361.4972.9085.4499.08113.77129.54146.48;p,S=polyfit(x,y,2);得到p=489.294665.88969.1329即a=9.1329b=65.8896c=489.2846,方法(二)化为多元线性回归,其程序为:x=1/30:1/30:14/30;y=11.8615.6720.6026.6733.7141.9351.1361.4972.9085.4499.08113.77129.54146.48;T=ones(14,1),t,t.2b,bint,r,rint,stats=regress(y,T);b,stats得到结果:b=9.132965.8896489.2946stats=1.0e+007*0.00001.03780可以看出,两种方法的出的结果是一样的,(2)多元二项式回归多元二项式回归可用命令:rstool(x,y,model,alpha)。其中,输入数据x、y分别为nm矩阵和n维列向量;alpha为显著性水平(缺省时为0.05);model由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):,linear(线性):y=b0+b1x1+.+bmxm;,purequadratic(纯二次):y=b0+b1x1+.+bmxm+,interaction(交叉):y=b0+b1x1+.+bmxm+,命令rstool产生一个交互式画面,画面中有m个图形,这m个图形分别给出了一个独立变量xi(另m-1个变量取固定值)与y的拟合曲线,以及y的置信区间。可以通过键入不同的xi的值来获得相应的y值。图的左下方有两个下拉式菜单,一个菜单Export用以向Matlab工作区传送数据,包括beta(回归系数)、rmse(剩余标准差)、residuals(残差)。另一个菜单model用以在上述4个模型中选择。可以分别选4个模型,并比较它们的剩余标准差,其中最接近于0的模型是最好的。,我们再作一遍例8商品销售量与价格问题,选择纯二次模型,即y=b0+b1*x1+b2*x2+b3*x12+b4*x22。,编程如下:x1=120140190130155175125145180150;x2=10011090150210150250270300250;y=10210012077469326696585;x=x1x2;rstool(x,y,purequadratic),得到一个交互式画面,给出两幅图形。左边图形是x1固定时的曲线y(x1)及其置信区间,右边图形是x2固定时的曲线y(x2)及其置信区间。用鼠标移动图中的十字线,或在图下方窗口内输入,可改变x1、x2。画面左边给出y的预测值即其置信区间,用这种画面可以回答例8提出的“若谋市本厂产品售价160(元),竞争对手售价170(元),预测商品在该市的销售量”问题。,在画面左下方的下拉式菜单Export中选择“all”,则beta、rmse和residuals都传送到Matlab工作区中。在Matlab工作区中输入命令:beta,rmse得到结果:beta=-312.58717.2701-1.7337-0.02280.0037rmse=16.6436,如果在另一菜单model选择其它多元二项式模型,比较它们的剩余标准差就会发现,本例的所选模型的rmse=16.6436最小。,注:本例中的模型亦可化为多元线性回归来做。请读者自己编程并比较结果。,3非线性回归非线性回归可用命令nlinfit,nlintool,nlparci,nlpredci来实现。命令格式如下:回归:回归可用命令beta,r,J=nlinfit(x,y,model,beta0)或者nlintool(x,y,model,beta0,alpha)来实现。其中命令beta,r,J=nlinfit(x,y,model,beta0)的作用为确定回归系数;而命令nlintool(x,y,model,beta0,alpha)产生一个交互式的画面,画面中有拟合曲线和y的置信区间。通过左下方的Export下拉式菜单,可以输出回归系数等。,某些非线性回归也可化为多元线性回归来解。例10在研究化学动力学反应过程中,建立了一个反应速度和反应物含量的数学模型,形式为,其中b1,b5式未知系数,x1,x2,x3是三种反应物(氢,n戊烷,异构戊烷)的含量,y是反应速度。今测的一组数据如下表,试由此确定参数b1,b5,并给出置信区间。b1,b5的参考值为(0.1,0.05,0.02,1,2)。,序号反应速度y氢x1n戊烷x2异构戊烷x318.554703001023.79285801034.8247030012040.024708012052.754708010614.391001901072.54100806584.3547019065913.0010030054108.50100300120110.05100801201211.3228530010133.12285190120,解首先,以回归系数和自变量为输入变量,并将要拟合的模型写成函数文件huaxue.m:functionyhat=huaxue(beta,x);yhat=(beta(4)*x(2)-x(3)/beta(5)./(1+beta(1)*x(1)+beta(2)*x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论