Mathematica基础数学实验14.ppt_第1页
Mathematica基础数学实验14.ppt_第2页
Mathematica基础数学实验14.ppt_第3页
Mathematica基础数学实验14.ppt_第4页
Mathematica基础数学实验14.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验十四 回归分析简介,由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系, 建立合乎机理规律的数学模型.,数学建模的基本方法: 机理分析和测试分析.,通过对数据的统计分析, 找出与数据拟合最好的模型. 回归模型是用统计分析方法建立的最常用的一类模型.,简单介绍回归分析的数学原理和方法; 通过实例讨论如何选择不同类型的模型; 对软件得到的结果进行分析, 对模型进行改进.,一、线性回归分析基本概念,例1:F.Galton断言:儿子的身高会受父亲身高的影响, 但身高偏离父代平均水平的父亲, 其儿子身高有回归子代平均水平的趋势. K.Pearson给出了如下样本(单位: 英吋):,父亲身高 60 62 64 65 66 67 68 70 72 74 儿子身高 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0,设父亲身高为x, 儿子身高为y. 显然, y与x有关系, 但这种关系并不是确定的, 即父亲身高x相同时其儿子身高 y并不是确定的, 也就是说, y 除受 x这一主要因,素的影响外, 还受到诸多随机因素的影响. 这种关系被称为相关关系.,在一般情况下, y为随机变量, 而 x为可控制或可精确观察的变量, 如年龄, 身高, 温度, 压力, 时间等, 因此不把x看作随机变量. 由于y为随机变量, 则对于x的每一个确定的值, 有它的分布. 若 y 的数学期望 Ey 存在, 则 Ey 取值随 x 的取值而定, 因此Ey是 x 的函数, 记作(x), 称(x)为 y 关于 x 的回归. 由于(x)的大小在一定程度上反映在 x 处随机变量 y 的观测值的大小, 因此, 如果能通过一组样本来估计(x), 则在一定条件下我们就能解决如下问题: (1)在给定的置信度下, 估计出当 x 取某一确定值时, 随机变量 y 的取值范围, 即所谓预测问题; (2)在给定的置信度下, 控制自变量 x 的取值范围, 使 y在给定范围内取值, 即所谓控制问题.,对于 x 的取定的一组不完全相同的值x1, x2, , xn,作独立的试验, 得到 n 对(一组)观察结果: (x1, y1), (x2, y2), , (xn, yn), 其中 yi 是 x=xi 处对随机变量 y 的观测结果. 这 n 对观察结果就是一个容量为 n 的样本. 由样本估计(x), 首先需要推测(x)的形式. 方法一, 根据所述问题的实际意义, 可以知道(x)的形式; 方法二, 当自变量仅有一个时, 描绘出样本的散点图; 方法三, 试探性回归. 对于父子身高问题, 我们根本就不知道其关系的形式, 但我们通过散点图, 发现儿子身高与父亲身高呈线性关系, 因此可设: y = a + bx + 其中N(0, 2), 即yN(a + bx, 2), a, b, 与x无关.,利用mathematica5.0软件包作线性回归:,StatisticsLinearRegression(*调入线性回归软件包*) d=60,63.6,62,65.2,64,66,65,65.5,66,66.9,67,67.1, 68,67.4,70,68.3,72,70.1,74, 70;(*输入数据*) Regressd,1,x,x(*线性回归*),父子身高的线性回归分析表:,模型可靠性非常好.,回归方程: y = 35.9768+0.46457x. 方差估计值为: s2 = 0.186697,二、线性回归分析计算,输出结果的说明:,ParameterTable:参数表,Estimate: 系数估计,SE: 标准差,TStat:T 统计量,PValue: 检验统计量的概率值,RSquared:相关系数R2,AdjustedRSquared:修正的相关系数,EstimatedVariance:方差2的估计值s2.,ANOVATable:方差分析表,Model:模型,Error:误差,Total:总和,DF: 自由度,SumOfSq: 平方和,MeanSq: 均方偏差,FRatio: F比,三、一元线性回归的预测区间:,由于,则 y0的置信度为1的预测区间为:,其中s为均方差的估计值; 为y在x0处的估计值; Sxx为自变量x的偏差平方和, 可以用回归(或模型)的平方和除以b的估计值 计算.,称为预测半径.,在父子身高问题中,则预测半径为:,由此公式, 当输入父亲的身高值, 即可推算出儿子身高的估计值和预测区间.,当父亲身高为65.5英吋, 其子身高的估计值为66.41英吋, 95%的预测半径为1.05, 置信区间为: (66.411.05, 66.41+1.05) (65.36, 67.46),四、一元线性回归的控制问题:,由于预测问题的预测半径的表达式过于复杂, 经常使用如下的近似表达式:,95%的预测区间:,99%的预测区间:,这是由于常假设回归模型的误差 N(0, 2).,用近似预测区间来解决控制问题变得简单.,控制问题的描述: 当随机变量 y 以概率1-落在区间(A, B)内即AyB时, 自变量x应控制在什么范围内?,回归方程: y = 35.9768+0.46457x. 方差估计值为: s2 = 0.186697,由于,反解不等式组:,即可求得x1, x2.,当x(x1, x2)时, 可满足AyB.,True(False): 当取默认值True时, 即使基函数表中没有1, 回归方程中也会有常数项, 取False时, 基函数表中没有1, 则没有常数项; Weights-w1,w2,(Automatic): 给出y1,y2,权重, 默认值时权重均为1; BasisNames- g1,g2,(Automatic): 分析报告显示基函数名为g1,g2,; 取默认值时显示基函数表的函数名; ConfidenceLevel-0.95: 回归分析报告中所考虑置信区间的置信水平;,Mathematica5.0线性回归分析命令:,RegressionReport-SummaryReport: 默认值时输出标准报告, 包括: ParameterTable(参数分析表), RSquared(相关系数R2), AdjustedRSquared(调整后的相关系数=1-(1-R2)(n-1)/(n-p-1), EstimatedVariance (方差2的无偏估计s2), ANOVATable(方差分析表). 常用的还有ParameterCITable (参数置信区间表), BestFit (最佳拟合(回归)方程), SinglePredictionCITable(因变量的预测区间表), PredictedResponse(因变量的预测值)等. 其它参数用命令RegressionReportValuesRegress查询.其参数总数共31项.,牙膏的销售量,问题: 建立牙膏销售量与价格、广告投入之间的模型; 预测在不同价格和广告费用下的牙膏销售量. 收集了30个销售周期本公司牙膏销售量、价格、广告费用, 及同期其它厂家同类牙膏的平均售价.,五、多元回归问题的例子:,1 3.85 3.80 5.50 -0.05 7.38 2 3.75 4.00 6.75 0.25 8.51 3 3.70 4.30 7.25 0.60 9.52 4 3.70 3.70 5.50 0.00 7.50 5 3.60 3.85 7.00 0.25 9.33 6 3.60 3.80 6.50 0.20 8.28 7 3.60 3.75 6.75 0.15 8.75 8 3.80 3.85 5.25 0.05 7.87 9 3.80 3.65 5.25 -0.15 7.10 10 3.85 4.00 6.00 0.15 8.00 11 3.90 4.10 6.50 0.20 7.89 12 3.90 4.00 6.25 0.10 8.15 13 3.70 4.10 7.00 0.40 9.10 14 3.75 4.20 6.90 0.45 8.86 15 3.75 4.10 6.80 0.35 8.90,16 3.80 4.10 6.80 0.30 8.87 17 3.70 4.20 7.10 0.50 9.26 18 3.80 4.30 7.00 0.50 9.00 19 3.70 4.10 6.80 0.40 8.75 20 3.80 3.75 6.50 -0.05 7.95 21 3.80 3.75 6.25 -0.05 7.65 22 3.75 3.65 6.00 -0.10 7.27 23 3.70 3.90 6.50 0.20 8.00 24 3.55 3.65 7.00 0.10 8.50 25 3.60 4.10 6.80 0.50 8.75 26 3.65 4.25 6.80 0.60 9.21 27 3.70 3.65 6.50 -0.05 8.27 28 3.75 3.75 5.75 0.00 7.67 29 3.80 3.85 5.80 0.05 7.93 30 3.70 4.25 6.80 0.55 9.26,基本模型,y 公司的牙膏销售量, x1 与其它厂家的价格差, x2 广告费用.,y = 0 +1 x2 +2 x22 + 2.,y = 0 + 1x1 + 1.,y = 0 + 1x1 + 2 x2 +3 x22 + .,推断回归模型为:,RegressA,1,x1,x2,x22,x4,x3,x2,x1,从输出表中可以得出如下结论:,1) 回归方程为:,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,2) 相关系数R2=0.9054, 指销售量 y 的90.45%可由此模型确定; 3) F值产生的概率值p远小于0.05或0.01, 即此模型高度显著, 整体可用.,但2 的估计值产生的概率值 p =0.05635490.5, 故广告费 x2 一项在此模型中不是非常显著, 模型有待修改.,当维持价格差为x1=0.2(元), 投入广告费用为x2= 6.5(百万元)时, 则预计销售量 y可由回归方程计算得,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,=8.2933(百万支),故其95%的近似预测区间为:,由于方差的估计值 s2 = 0.0489719, s = 0.2213.,(8.29332s, 8.2933+2s)(8.29330.4426, 8.2933+0.4426) =(7.8507, 8.7359),较精确的预测区间为:(7.8230, 8.7636).,RegressA,1,x1,x2,x22,x1*x2,x4,x3,x2,x1,如果增加x1, x2的交叉项, 模型的可信度也是非常高的, 且相关系数R2=0.9209有所增加. s2有所减少.,当维持价格差为x1=0.2(元), 投入广告费用为x2= 6.5(百万元)时, 则预计销售量 y可由回归方程计算得,其95%的近似预测区间为:(7.9145, 8.7399).,(百万支),较精确的预测区间为:(7.8867, 8.7678).,结果分析,上述两模型, 后者要优于前者.,前者销售量的估计值为8.2933(百万支), 其95%的近似预测区间为(7.8507, 8.7359). 后者销售量的估计值为8.3272(百万支), 其95%的近似预测区间为(7.9145, 8.7399).,六、多元回归问题的预测半径:,其中, n为样本数据个数, m为回归项的项数,特例, 当m=1时,可以导出一元线性回归的预测半径公式.,关于牙膏销售问题的预测半径公式可以利用计算机进行计算:,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,对于模型1:,取x0=(1, x01, x02, x022)T =(1, 0.2, 6.5, 6.52)T.,= 29.1133+11.1342x17.6080x2+0.6712x221.4777x1x2,取x0=(1, x01, x02, x022, x01x02)T =(1, 0.2, 6.5, 6.52, 0.26.5)T.,对于模型2:,输入计算机计算得:,模型1较精确的预测区间为:(7.8230, 8.7636), =0.4703.,模型2较精确的预测区间为:(7.8867, 8.7678). =0.4405.,关于多元回归的控制问题, 即使是使用简化的估计公式, 反解多个自变量的值也存在较多的问题. 因此,只有对每一个变量逐一进行分析计算. 不再介绍.,程序,练习: 小麦赤霉病通常发病期在三月下旬至四月上旬的开花灌浆期, 根据经验知: 发病率y(%)与该期间的总降雨天数x1(d)和降雨量x2(mm)密切相关. 收集到24个观测数据列于下表, 试建立y与x1, x2之间的线性相关关系.,k d mm % 1 11 224 40 2 9 47 10 3 12 144 20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论