第二讲多元回归与建模_第1页
第二讲多元回归与建模_第2页
第二讲多元回归与建模_第3页
第二讲多元回归与建模_第4页
第二讲多元回归与建模_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第二讲 2n研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值。n例:n超市中商品的价格、摆放位置、促销手段如何影响销售量;n如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;n连锁旅店的利润主要受哪些因素影响;n如何预测每个客户的流失概率;n如何在达到环保标准的前提下找到最佳生产条件;n如何给二手车定价;n如何预测故障维修时间;n如何定新员工的薪水及解聘员工的补偿金。3ppippppxbxbxbbypixxxNyNxxxy22110222110222110 ., 1 , 0,) , ( ), , 0( 估计的回归方程是使用最

2、小二乘方法估计那么假定误差项多元回归模型4X2X1Y i5认识认识R R2 2n总变差的分解:总变差的分解:SST=SSR+SSE;n判定系数:判定系数: R2=SSR/SST;n多重相关系数多重相关系数R;n调整(修正)的判定系数:调整(修正)的判定系数: 1122)1 (1 pnnRRAdj6对回归方程的检验对回归方程的检验n问题:因变量和所有自变量的集合之间问题:因变量和所有自变量的集合之间是否存在显著的关系?是否存在显著的关系?n检验假设检验假设n拒绝域拒绝域 0 :210pH) 1 ,()1/(/pnpFFpnSSEpSSRMSEMSR7对回归系数的检验对回归系数的检验n检验假设检验

3、假设n检验统计量检验统计量n拒绝域拒绝域 0 : 0 :10iiHH的标准误差是其中ibsbibstiibi ,) 1() 1(2/2/pnttpnttii或者8例:巴特勒运输公司例:巴特勒运输公司 巴特勒运输公司的主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。9MilesTraveledNumberof DeliveriesTravel Time(hours)10049.35034.810048.910026.55024.28026.27537.46546.09037.69026.1100.02.04.06.08.010.00204060801001

4、20Miles traveledTravel time回归统计M ul ti pl e R0.814906R Square0.664071Adj usted R Square0.62208标准误差1.001792观测值10方差分析dfSSM SFSi gni f i cance F回归分析115.871315.8713 15.81458 0.004080177残差8 8.028696 1.003587总计923.9Coef f i ci ents标准误差t StatP-val ueLower 95%Upper 95%下限 95.0%上限 95.0%I ntercept1.273913 1.40

5、0745 0.909454 0.389687-1.95621171 4.504038-1.95621 4.504038M i l esTravel ed0.067826 0.017056 3.9767550.00408 0.028495691 0.107156 0.028496 0.107156回归统计M ul ti pl e R0.950678R Square0.903789Adj usted R Square0.8763标准误差0.573142观测值10方差分析dfSSM SFSi gni f i cance F回归分析221.6005610.8002832.878370.00027624

6、残差72.2994430.328492总计923.9Coef f i ci ents标准误差t StatP-val ueLower 95%Upper 95%I ntercept-0.86870.951548-0.912940.391634-3.1187526831.38135M i l esTravel ed0.0611350.0098886.1823970.0004530.0377520410.084517Num berofDel i veri es0.9234250.2211134.1762510.0041570.4005754891.44627513回归系数的解释nb1=0.0611 当

7、送货次数不变时,行驶里程每增加1英里,行驶时间期望的估计值增加0.0611小时。nb2=0.9234 当行驶里程不变时,送货次数每增加1次,行驶时间期望的估计值增加0.9234小时。DelivMilesy9234. 00611. 08687. 014例:房屋售价n一个房地产经纪人认为房屋的售价可由房屋的面积、卧室的个数和批量的大小来预测。他随机选取了100座房屋并收集数据如下:PriceBedroomsH SizeLot Size124100312903900218300420806600117800312503750.15Regression StatisticsMultiple R0.74

8、833R Square0.559998Adjusted R Square0.546248Standard Error25022.71Observations100ANOVAdfSSMSFSignificance FRegression3 7.65E+10 2.55E+1040.72694.57E-17Residual96 6.01E+10 6.26E+08Total99 1.37E+11CoefficientsStandard Error t StatP-valueLower 95%Upper 95%Intercept37717.5914176.742.6605260.0091459576.9

9、6365858.23Bedrooms2306.0816994.1920.3297140.742335-11577.316189.45H Size74.2968152.978581.4023930.164023-30.8649179.4585Lot Size-4.3637817.024-0.256330.798244-38.156229.4286216多重共线性问题多重共线性问题n在多元线性回归模型中,多重共线性性多重共线性性( (Multicollinearity) )是指自变量之间存在线性相关的关系。n多重共线性存在时会使得系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。我们将

10、无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符。17识别多重共线性性识别多重共线性性n自变量的相关矩阵:自变量的相关矩阵:样本相关系数的绝对值大于0.7。n方差膨胀因子方差膨胀因子(Variance Inflation Factors, 简记作VIF): 刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。n经验法则:VIF 10n自变量矩阵自变量矩阵 X, XX有很小接近于有很小接近于0的特征根的特征根称为容限。平方。回归模型的性对模型中其余自变量线是自变量其中jjjjjjTOLRxRTOLRVIF2211118PriceBedr

11、oomsH SizeLot SizePrice1Bedrooms0.6454111H Size0.7477620.8464541Lot Size0.7408740.837430.993615119例:例:JohnsonJohnson过滤水股份公司过滤水股份公司 Johnson公司对遍步南弗罗里达州公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。的每一次维修请求预测必要的维修时间。他们收集的数据中包含最近一次维修至他们收集的数据中包含最近一次维修至今的

12、时间(月数)、故障的类型(电子今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。和机械)以及相应的维修时间(小时)。 你能够建立起一个预测方程吗?你能够建立起一个预测方程吗?20定性的自变量定性的自变量n引入虚拟变量(引入虚拟变量(Dummy Variable)n如何定义虚拟变量?如何定义虚拟变量? 例:例:x=0 (女性),女性),x=1(男性)(男性) x=0 (机械类),机械类),x=1(电子类)(电子类)n如何解释回归模型?如何解释回归模型? xyE10)(21建立维修时间的回归方程建立维修时间的回归方程n二元回归方程二元回归方程n解释你得到的回归方程!解释你得到的

13、回归方程! 112213876. 09305. 0:3876. 01932. 2:859. 0 2627. 13876. 09305. 0 xyxyRxxy机械类电子类n蓝色为电子类,红色为机械类23诊断你的模型:残差分析诊断你的模型:残差分析n残差分析不仅被用于判断你对模型中误残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以差项所设的假定是否符合,而且还可以检测出异常值和有影响的点。检测出异常值和有影响的点。n残差图残差图:由横轴为自变量或者因变量的预由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组成测值、纵轴为残差或者学生化残差组成的散点图。的散点图。24识

14、别影响点、异常值识别影响点、异常值n识别影响点的方法:杠杆率比较大识别影响点的方法:杠杆率比较大(大于大于 3(p+1)/n),或者,或者Cook距离距离D比较大比较大(1).n检测异常值的方法: 散点图; 利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。 n识别之后:建议应该同时报告包含影响点和除识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。去影响点的两种回归结果。25其它的内容其它的内容n使用残差检验误差项的正态性;使用残差检验误差项的正态性;n使用残差来分析误差项的独立性:使用残差来分析误差项的独立性:Durbin-Watson统计量统计量d 残差

15、对时间的散点图残差对时间的散点图26Durbin-Watson 检验则存在自相关性。或如果的取值区间为,4.4 , 0)(0:), 0( 12221021tLLnttnttttttdddddeeedHNiidzz27nHow does the weather affect the sales of lift tickets in a ski resort?nData of the past 20 years sales of tickets, along with the total snowfall and the average temperature during Christmas w

16、eek in each year, was collected.nThe model hypothesized wasTICKETS=0+1SNOWFALL+2TEMPERATURE+ nRegression analysis yielded the following results: ExampleSUMMARY OUTPUTRegression StatisticsMultiple R0.3464529R Square0.1200296Adjusted R Square 0.0165037Standard Error1711.6764Observations20ANOVAdfSSMSFS

17、ignif. FRegression2 6793798.2 3396899.11.1594 0.3372706Residual1749807214 2929836.1Total1956601012Coefficients Standard Error t StatP-value Lower 95% Upper 95%Intercept8308.0114903.7285 9.19303915E-08 6401.3083 10214.715Snowfall74.593249 51.574829 1.44631110.1663-34.22028 183.40678Tempture-8.753738

18、19.704359-0.4442540.6625-50.32636 32.818884The model seems to be very poor: The fit is very low (R-square=0.12), It is not valid (Signif. F =0.33) No variable is significant2901234567-2.5-1.5-0.50.51.52.5MoreThe errors may benormally distributed-4000-3000-2000-100001000200030007500850095001050011500

19、12500-4000-3000-2000-100001000200030000510152025Residual over timeResidual vs. predicted yThe errors are not independentThe error variance is constantThe modified regression modelTICKETS=0+ 1SNOWFALL+ 2TEMPERATURE+ 3YEARS+ All the required conditions are met for this model. The fit of this model is

20、high R2 = 0.74. The model is useful. Significance F = 5.93 E-5. SNOWFALL and YEARS are significant. TEMPERATURE is not significant. 32 “没有哪一个模型是对没有哪一个模型是对的,但是的确有一些模型是的,但是的确有一些模型是好的。好的。”回归模型的建立回归模型的建立33一般线性模型一般线性模型 的函数。是 , ), 2 , 1(2122110kjppxxxpjzzzzy模拟曲线关系交互作用包含因变量的变换内蕴线性的非线性模型34模拟曲线关系n例:雷诺兹公司管理人员

21、希望对公司销售人员工作年限的长短和电子实验室天平的销售数量之间的关系进行调研。SalesMonths27541296106317763761041622215012367853081111894023551839112126763255618919050100150200250300350400020406080100120MonthsSalesMonths Residual Plot-100-50050100020406080100120Months残差Months Line Fit Plot0100200300400020406080100120MonthsSales52.49781. 0

22、38. 21112sRmonthsSales估计的回归方程:Monthsq Residual Plot-100-50050050001000015000Monthsq残差Monthsq Line Fit Plot0100200300400050001000015000MonthsqSales45.34886. 0 0345. 0 34. 63 .452sRadjMonthsqMonthsSales38交互作用n例:泰勒为他的一种新的洗发产品进行的回归研究。21522421322110 xxxxxxyPriceAdvertisingExpenditure($1000s)Sales(1000s)2

23、504782.5503733503352504732.5503583503292504562.5503603503222504372.55036535034221008102.5100653310034521008322.5100641310037221008002.5100620310039021007902.5100670310039340平均值项:Sales (1000s)Advertising Expenditure ($1000s)Price50100 总计2461808634.52.53646465053332375353.5总计385.6666667609.6666667497.666666741010020030040050060070080090022.5350100请将页字段拖至此处平均值项:Sales (1000s)PriceAdvertising Expenditure ($1000s)42考虑交互作用的模型考虑交互作用的模型n建立下面的模型建立下面的模型n怎样检验交互作用是否存在?怎样检验交互作用是否存在?nH0: =021322110 xxxxy43包含因变量的变换n经常用来修正非常数方差。nBox-Cox变换n常用变换:对数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论