版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Matlab与数学建模,计算机科学与信息工程系 软件工程教研室 许晓华 ,第9讲 概率统计模型,9.1 参数估计 9.2 回归分析,常见的概率分布,正态分布,正态分布 (应用最广泛的一种连续型分布),如果随机变量 X 的概率密度函数为:,则称 X 服从正态分布。记做:,正态分布也称高斯分布,是概率论中最重要的一个分布。,标准正态分布:N (0, 1),其中 和 都是常数, 任意, 0, 则称X服从参数为 和 的正态分布. :总体均值 :标准差,如果一个变量是大量微小、独立的随机因素的叠加,那么它一定满足正态分布。 如:年降雨量; 身高; 产品的质量指标,如零件的尺寸; 纤维的强度和张力; 农作
2、物的产量 小麦的穗长、株高; 测量误差 射击目标的水平或垂直偏差,等等 都服从或近似服从正态分布.,标准正态分布,的正态分布称为标准正态分布.,其密度函数和分布函数常用 和 表示:,正态分布有些什么性质呢?,由于连续型随机变量唯一地由它的密度函数所描述,我们来看看正态分布的密度函数有什么特点。,正态分布 的图形特点,正态分布的密度曲线是一条关于 对称的钟形曲线.,特点是“两头小,中间大,左右对称”.,决定了图形的中心位置, 决定了图形中峰的陡峭程度.,正态分布 的图形特点,能不能根据密度函数的表达式,得出正态分布的图形特点呢?,容易看到,f(x)0,即整个概率密度曲线都在x轴的上方;,如果已经
3、知道了一组数据来自正态分布总体,但是不知道正态分布总体的参数。 我们可以利用normfit()命令来完成对总体参数的点估计和区间估计,格式为 mu,sig,muci,sigci=normfit(x,alpha),利用MATLAB进行参数估计,mu,sig,muci,sigci=normfit(x,alpha),Muci、sigci分别为分布参数 、 的区间估计。,x为向量或者矩阵,为矩阵时是针对矩阵的每一个列向量进行运算的。,alpha为给出的显著水平 (即置信度 ,缺省时默认 ,置信度为95),mu、sig分别为分布参数 、 的点估计值。,a、b、aci、bci分别是均匀分布中参数a,b的点
4、估计及区间估计值。,其它常用分布参数估计的命令还有:,lam,lamci=poissfit(x,alpha) 泊松分布的估计函数,lam、lamci分别是泊松分布中参数 的点估计及区间估计值。,a,b,aci,bci=unifit(x,alpha) 均匀分布的估计函数,p、pci分别是二项分布中参数 的点估计及区间估计值。,lam,lamci=expfit(x,alpha) 指数分布的估计函数,lam、lamci分别是指数分布中参数 的点估计及区间估计值,p,pci=binofit(x,alpha) 二项分布的估计函数,案例从某超市的货架上随机抽取9包0.5千克装的食糖,实测其重量分别为(单位
5、:千克):0.497,0.506,0.518,0.524,0.488,0.510,0.510,0.515,0.512,从长期的实践中知道,该品牌的食糖重量服从正态分布 。根据数据对总体的均值及标准差进行点估计和区间估计。,解:,在MATLAB命令窗口输入 x=0.497,0.506,0.518,0.524,0.488,0.510,0.510,0.515,0.512; alpha=0.05; mu,sig,muci,sigci=normfit(x,alpha),mu =0.5089,回车键,显示:,sig =0.0109,muci = 0.5005 0.5173,sigci =0.0073 0.
6、0208,结果显示,总体均值的点估计为0.5089,总体方差为0.109。在95%置信水平下,总体均值的区间估计为(0.5005,0.5173),总体方差的区间估计为 (0.0073,0.0208)。,案例某厂用自动包装机包装糖,每包糖的质量 某日开工后,测得9包糖的重量如下:99.3,98.7,100.5,101.2,98.3,99.7,102.1,100.5,99.5(单位:千克)。分别求总体均值 及方差 的置信度为0.95的置信区间。,解:,在MATLAB命令窗口输入 x=99.3,98.7,100.5,101.2,98.3,99.7,102.1,100.5,99.5; alpha=0.
7、05; mu,sig,muci,sigci=normfit(x,alpha),mu = 99.9778,回车键,显示:,sig =1.2122,muci = 99.0460 100.9096,sigci =0.8188 2.3223,所以得,总体均值 的置信度为0.95的置信区间为 (99.05,100.91),总体方差 的置信度为0.95的置信区间为(0.81882,2.32232)=(0.67,5.39),回归分析,回归分析的概念 一元线性回归 多元线性回归 多项式回归 非线性回归 逐步回归,回归分析的概念,在工农业生产和科学研究中,常常需要研究变量之间的关系。 变量之间的关系可以分为两类
8、:确定性关系、非确定性关系。 确定性关系就是指存在某种函数关系。 然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。 回归分析就是研究变量之间相关关系的一种数理统计分析方法。在回归分析中,主要研究以下几个问题:,回归的来历,早在19 世纪后期, 英国生物学家Golton 在研究家族成员的相似性时发现:虽然一般说来高个子的父代会有高个子的子代,但是子代的身高比他们的父代更趋向一致,即若父代身材高大,则他们的子代会趋
9、向矮一些,而若父代身材矮小,他们的子代会趋向高一些。他把子代的身高向平均值靠拢的趋势称为“向平庸的回归”。 Karl Pearson 观察了1078 个家庭中父亲身高x 和儿子身高 y, 建立了一个线性方程y = 33. 8 + 0. 51x,统计上常用一变量对另一变量的回归方程的离散程度来表示相关系数,并用字母 r 来表示,定义如下: 从上式可见,残余方差和 Q 越小,回归方程的离散程度越小,回归系数越接近 1 ,也就越意味着存在着确定的函数关系。,Q: 残余方差和,y的回归估计值,回归分析的概念,(1)拟合:建立变量之间有效的经验函数关系; (2)变量选择:在一批变量中确定哪些变量对因变量
10、有显著影响,哪些没有实质影响; (3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4)预测:给定某个自变量,预测因变量的值或范围。 根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。,一元线性回归,一元线性回归模型 给定一组数据点(x1, y1),(x2 ,y2),.,(xn, yn),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:,其中a,b称为一元线性回归的回归系数;表示回归值与测量值之间的误差。 针对该模型,需要解决以下问题: (1)如何估计参数a,b以及2; (2)模型的假设是否正确? (3)如何应用所求的回归方程对
11、试验指标进行预测。,4.2 一元线性回归,例4.1人口预测 1949年1994年我国人口数据资料如下: 年份xi 49 54 59 64 69 74 79 84 89 94 人数yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报1999、2005年我国人口数。,建模分析步骤: (1) 在坐标系上作观测数据的散点图。 (2) 根据散点分布的几何特征提出模型 (3) 利用数据估计模型的参数 (4) 计算拟合效果 (1)散点图,一元线性回归,(2)人口线性增长模型 假设:人口随时间线性地增加,模型:y = a + b x+
12、(3) 利用数据估计模型的参数 观测值的模型:yi = a + b xi + i ,i = 1,n 拟合的精度: Q = i 2 = (yi - a b xi)2, 误差平方和。 最小二乘法:求参数 a 和 b,使得误差平方和最小。 用MATLAB中的regress()命令 可以算出:a = 2.032, b = 0.148 模型:y = 2.032 + 0.148 x (4)拟合精度 Q = 0.3280 , R2=0.9928 , F=1101.878 ,P=0 由R2和P表明拟合效果很好! (5)预报 当X=99时,Y=12.62亿;当X=105时,Y=13.508亿,MATLAB软件实
13、现,b = regress (Y, X) 或 b, bint, r, rint, stats = regress(Y, X, alpha),1、使用命令regress实现多元线性回归,polyfit与regress,设 x=1;2; y=3;5;欲求y与x的回归模型 y=2x+1 polyfit的结果,先是系数,再是常数项. regress的结果,正好相反.,使用polyfit求解: x=1;2 y=3;5 b=polyfit(x,y,1) 结果: b = 2.0000 1.0000,使用regress求解: x=1 1;1 2 y=3;5 b=regress(y,x) 结果: b = 1.0
14、000 2.0000,案例根据下表的资料,用MATLAB重新计算生产费用与企业产量的回归方程。,某企业产量与生产费用的关系,解:,在MATLAB命令窗口中输入 x=1 1 1 1 1 1 1 1; 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0; y=62,86,80,110,115,132,135,160; b,bint,r,rint,stats=regress(y,x),b = 51.3232 12.8960,回车键,显示:,bint =34.7938 67.8527 9.6507 16.1413,r = -4.7984 8.8848 -11.3008 9.6720 -0.
15、8032 2.0112 -9.1744 5.5088,rint = -21.9497 12.3528 -8.0522 25.8218 -28.1552 5.5536 -8.8871 28.2311 -22.2564 20.6500 -18.6857 22.7082 -25.7282 7.3794 -11.1286 22.1463,stats =0.9403 94.5455 0.0001,结果说明:b为回归模型中的常数项及回归系数. Bint为各系数的95%置信区间. r和rint为对应每个实际值的残差和残差置信区间。Stats向量的值分别为拟合优度、F值和显著性概率p. 所以,生产费用对产量的
16、回归函数为: ,说明模型拟合程度相当高。,一元线性回归,异常数据的剔除,当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。 用rcoplot(r,rint)画出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。,二元线性回归,MATLAB软件实现,y =120 141 124 126 117 125 123 125 132 123 132 155 147; x2=50 20 20 30 30 50 60 50 40 55 40 40 20; x1=152 183 171
17、165 158 161 149 158 170 153 164 190 185; n=13; m=2; X=ones(n,1), x1,x2; %ones:生成由1组成的阵. b,bint=regress(y,X) b = -62.963 1.0683 0.40022 bint = -100.84 -25.086 0.87294 1.2636 0.21481 0.58562,4.3 多元线性回归,多元线性回归模型,其中i称为多元线性回归的回归系数;表示回归值与测量值之间的误差。,4.3 多元线性回归,回归系数的最小二乘估计,已知(xi1, xi2,., xim, yi),i=1,2,.,n,代
18、入回归模型,利用最小二乘法可得到回归系数的最小二乘估计。令:,4.3 多元线性回归,多元线性回归,例 为了研究火柴销量与各因素间的回归关系,收集数据:,4.3 多元线性回归,MATLAB实现: x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,. 14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,. 42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,. 45.73,52.46,27.04,7.39;30.5,50.59,45.3
19、,23.08,3.88;29.63,. 58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;. 29.25,71.25,53.29,33.57,21.22; x=ones(size(x1(:,1),x1(:,2:5);y=x1(:,1); b,bint,r,rint,stats=regress(y,x,0.05) b =17.2597 0.0486 0.2218 0.0705 -0.2469 stats = 0.9980 626.2680 0.0000 0.1011 Q=r*r=0.5057 2=Q/n-2=0.0632,多项式回归,一元多
20、项式回归模型,可以转化为多元线性回归推导公式(略)。可用polyfit()命令实现。辅助命令:polyval()、polyconj()、polytool()等。,多元二项式回归模型,命令: rstool(),非线性回归,非线性回归命令:,nlinfit()、nlparci()、nlpredci()、nlintool()等。,非线性回归转化为线性回归:,如: y=aebx z = ln a + b x = a* + b x . y = a xb z = ln y = lnb ln x = a*+ b u y = 1/(abx) z = 1/y = a + bx . y = x/(b+ax) z
21、= 1/y = a + b/x = a + b u y = (1+ax)/(1+bx) ?,y=cxe-dx ?, y=L/(1+ceax) ?,非线性回归,例 赛跑的成绩与赛跑距离 表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. 距离 x(m) 100 200 400 800 1000 1500 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1 试用这些数据建模分析赛跑的成绩与赛跑距离的关系,(1)散点图 用线性模型误差比较大,非线性回归,(2) 模型 假设:t = a xb, 令 z = ln t, u = ln x , 则有: z
22、 = ln t = ln ab ln x = a* + bu (3) 利用数据估计模型的参数 可以算出:a* = 3.0341, b = 1.1453,a=ea*=0.0481 R2= 0.9987 ,P= 0 模型:y = 0.0481 * x1.1453 (4)拟合精度 拟合值:9.395 20.782 45.968 101.679 131.288 208.88 原值: 9.95 19.72 43.86 102.4 133.9 212.1 Q = 23.5746,如何分析四个因素x1,x2,x3,x4 对试验指标Y的作用大小?,使用逐步回归方法。在MATLAB软件中使用以下命令: step
23、wise(X, y, inmodel,alfha),如上例,输入: X=x1,x2,x3,x4; stepwise(X,y,1,2,3),逐步回归,实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。 原理:若候选的自变量集合为S=x1,x2,.,xm,从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1), n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越
24、小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。,逐步回归,步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。 注意事项:一要适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变量时应尽量选择相互独立性强的那些变量。 MATLAB实现:命令stepwise(x,y,inmodel,alpha) x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 177红色矢量卡通风格的期末复习避坑与对策模板下载 2
- 工业气瓶安全管理规定培训
- 急性脊髓炎护理教学查房
- 电气临时线作业安全规范培训
- 1-6年级860句英语万能句型
- 2026年教育素材使用合同协议
- 烹调加工操作间管理制度培训
- 检修班维修电工安全生产责任制培训课件
- 电站安全生产责任管理实施细则培训
- 门禁管理和机房人员登记制度培训
- 机动车维修竣工出厂合格证
- 2023年计算机科学导论题库期末考试汇总
- GB/T 18998.3-2003工业用氯化聚氯乙烯(PVC-C)管道系统第3部分:管件
- GB/T 17711-1999钇钡铜氧(123相)超导薄膜临界温度Tc的直流电阻试验方法
- 2023年一级建造师机电实务真题及答案解析
- 北京建筑大学2016年高职升本科专业课考试试卷《城市轨道交通车辆构造》试卷
- 事业单位人事管理条例完整版x课件
- 中国地理概况-课件
- 高处作业安全技术交底-
- 《导体和绝缘体》说课课件
- 小学劳动教育 二年级下册 活动《一起来种太阳花》(第二课时) 课件
评论
0/150
提交评论