数学建模:spss统计分析课件_第1页
数学建模:spss统计分析课件_第2页
数学建模:spss统计分析课件_第3页
数学建模:spss统计分析课件_第4页
数学建模:spss统计分析课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSSSPSSSPSS统计软件统计软件SPSSSPSS是软件英文名称的首字母缩写,原意为是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即即“社会科学统计软件包社会科学统计软件包”。但是随着。但是随着SPSS产品服务产品服务领域的扩大和服务深度的增加,领域的扩大和服务深度的增加,SPSS公司已于公司已于2000年正式将英文全称更改为年正式将英文全称更改为Statistical Product and Service Solutions,意为,意为,标志着,标志着SPSS的战略方向正在做出重大调整。的战略方向正在做出重大

2、调整。 SPSS非专业统计人员的首选统计软件非专业统计人员的首选统计软件SPSS采用类似采用类似EXCEL表格的方式输入与管表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数理数据,数据接口较为通用,能方便的从其他数据库中读入数据。据库中读入数据。其统计过程包括了常用的、较为成熟的统计其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。过程,完全可以满足非统计专业人士的工作需要。SPSSSPSS的的功能功能v 样本数据的描述和预处理;样本数据的描述和预处理;v 假设检验假设检验( (包括参数检验、非参数检验及其他包括参数检验、非参数检验及其他检验检验);

3、);v 方差分析方差分析v 相关分析相关分析v 回归分析回归分析v 聚类分析聚类分析v 判别分析判别分析v 因子分析因子分析v 时间序列分析时间序列分析v 可靠性分析可靠性分析SPSS应用应用广泛的应用于统计、应用数学、经济、市场营销、广泛的应用于统计、应用数学、经济、市场营销、心理、卫生统计、生物、企业管理、气象、社会学等心理、卫生统计、生物、企业管理、气象、社会学等领域。领域。 其分析过程包括:调查设计、数据收集、数据存其分析过程包括:调查设计、数据收集、数据存取和管理、数据分析、数据检验、数据挖掘、数据展取和管理、数据分析、数据检验、数据挖掘、数据展示等。还有一系列附加模块和独立模块产品

4、以加强它示等。还有一系列附加模块和独立模块产品以加强它的分析功能。它的图形窗口界面使其非常简单易用但的分析功能。它的图形窗口界面使其非常简单易用但却具有满足各种分析要求的数据管理、统计分析功能却具有满足各种分析要求的数据管理、统计分析功能及各种报表方法。及各种报表方法。SPSSSPSS的窗口类型的窗口类型v数据编辑窗口数据编辑窗口v程序编辑窗口程序编辑窗口v输出窗口输出窗口v简式输出窗口简式输出窗口SPSS1、数据编辑窗口、数据编辑窗口:(:(1)启动)启动SPSS直接进入直接进入 (2)文件)文件新建新建数据文件数据文件 File/New/DataSPSS 2、程序编辑窗口:、程序编辑窗口:

5、 文件文件新建新建语句文件语句文件 File/New/SyntaxSPSS3、输出窗口:、输出窗口: 现实统计方法运行输出的结果,对输出结果可以进行模块现实统计方法运行输出的结果,对输出结果可以进行模块裁剪、编辑、存档等裁剪、编辑、存档等SPSS第第1节节 描述统计描述统计v 设变量设变量X X有一组观测数据有一组观测数据x x1,1,x,x2 2 , ,,x xn n , ,常常用的描述统计量有:用的描述统计量有:(1 1)中心趋势:平均值、中位数、众数、和)中心趋势:平均值、中位数、众数、和(2 2)离中趋势:方差、标准差、最大最小值、)离中趋势:方差、标准差、最大最小值、 极差极差(3

6、3)百分位数:四分位数、)百分位数:四分位数、 给定间距的等间距分位数给定间距的等间距分位数(4 4)分布度统计量:偏态度、峰态度)分布度统计量:偏态度、峰态度SPSSv 利用频数分析可以方便地对数据按组进行利用频数分析可以方便地对数据按组进行归纳整理归纳整理,对变量的数据,对变量的数据有一个整体上的认识。有一个整体上的认识。(1)建立数据文件:例)建立数据文件:例1.sav(2)选择统计方法:)选择统计方法:AnalyzeDescriptive StatisticsFrequencies,送入变量,点击确定,送入变量,点击确定(3)输出结果:)输出结果:例例1:对某大学:对某大学10名学生测

7、量他们的血压名学生测量他们的血压x,得到如下数据,得到如下数据:120 120 120 134 128 102 130 132 126 126第第2节节 频数分析频数分析SPSS其他:描述统计分析其他:描述统计分析Descriptive等等 ,图表,图表SPSSSPSS统计图统计图SPSSSPSSSPSS统计图统计图1 1单个变量的频数统计图单个变量的频数统计图例例2 2:测量:测量3030株小麦的株高株小麦的株高x x得到如下数据(单位:得到如下数据(单位:cmcm):例):例2.sav2.sav(1)(1)频数直方图频数直方图( (加上一条正态曲线,直观比较频数图与正态分布加上一条正态曲线

8、,直观比较频数图与正态分布的差异程度。)的差异程度。)(2)(2)频数连线图:简单频数连线图:简单2 2两个变量的统计图两个变量的统计图对两个变量(对两个变量(x,y)x,y)的样本,作图观察两个变量的关系的样本,作图观察两个变量的关系例例3 3 某研究所对某研究所对200200只北京鸭进行实验,得到的周龄(只北京鸭进行实验,得到的周龄(x x)与平均)与平均日增重(日增重(y y)的数据,对()的数据,对(x,yx,y)作出散点图,拟合线)作出散点图,拟合线SmootherSmootherSPSS条图条图散点图散点图线图线图直方图直方图饼图饼图面积图面积图箱式图箱式图正态正态Q-QQ-Q图图

9、正态正态P-PP-P图图质量控制图质量控制图ParetoPareto图图自回归曲线图自回归曲线图高低图高低图 交互相关图交互相关图序列图序列图频谱图频谱图误差线图误差线图 统计图汇总统计图汇总SPSS第第3 3节节 参数检验与置信区间参数检验与置信区间5.00提出原假设:提出原假设:选择统计方法:选择统计方法:AnalyzeMeansOne-simple T test,在底部,在底部Test value框输入检验值框输入检验值100具体判断:具体判断:根据t分布计算出显著性概率(在许多书中称为P值),SPSS中为sig. 对于给定的显著性水平 ,若sig.0.05,接受,接受H0;平均差平均差

10、95%的置信区间为(的置信区间为(-0.954,0.910),则均值的),则均值的95%置信区间为(置信区间为(100-0.954,100+0.910)SPSS均数间的比较均数间的比较Compare MeansCompare Means菜单详解菜单详解v 1 1MeansMeans过程过程 求分类变量的综合描述统计量,目的在于比较v 2 2One-Samples T TestOne-Samples T Test过程过程 检验单个变量的均值是否与给定的常数之间存在差异。v 3 3Independent-Samples T TestIndependent-Samples T Test过程过程 检验

11、两个不相关的样本来自具有相同均值的总体,例如想知道购买某产品的顾客与不购买该产品的顾客的平均收入是否相同。v 4 4Paired-Samples T TestPaired-Samples T Test过程过程 检验两个相关的样本是否来自具有相同均值的总体。常用与被观测对象在实验前后是否有差异。v 5 5One-Way ANOVAOne-Way ANOVA过程过程 单因素方差分析,在下节介绍。SPSS第第4节节 方差分析方差分析SPSS方差分析概述方差分析概述 一个事物的变化总是某些因素影响的结果。例如,某种农一个事物的变化总是某些因素影响的结果。例如,某种农作物的收获量受到种子品种、土质、施肥

12、量以及气候等因素的作物的收获量受到种子品种、土质、施肥量以及气候等因素的影响。在众多因素中,有些因素影响大些,有些则小些。在现影响。在众多因素中,有些因素影响大些,有些则小些。在现实生活中常常要找到有显著影响的那些因素,以便更有效地组实生活中常常要找到有显著影响的那些因素,以便更有效地组织生产。织生产。 方差分析从分析数据的差异入手,分析哪些因素是影响数方差分析从分析数据的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素据差异的众多因素中的主要因素. SPSS方差分析概述方差分析概述 方差分析正是要分析观测变量的变动主要是由控制因素造成的还是由随机因素造成的,以及控制变量的各个水平是

13、如何对观测变量造成影响的.相关概念相关概念: (1)观测变量观测变量:作为观测的对象作为观测的对象(如:亩产量、推销量等如:亩产量、推销量等). (2)控制因素:人为可以控制的因素控制因素:人为可以控制的因素(如如:施肥量、品种、推销策略、施肥量、品种、推销策略、价格、包装方式等价格、包装方式等),在方差分析中称为控制因素,在方差分析中称为控制因素.将控制变量的不同将控制变量的不同情况称为控制变量的不同水平情况称为控制变量的不同水平. (3)随机因素:人为很难控制的因素随机因素:人为很难控制的因素(如如:气候、推销人员的形象、气候、推销人员的形象、抽样误差等抽样误差等),方差分析中主要指抽样误

14、差。,方差分析中主要指抽样误差。SPSS核心问题核心问题v 从数据差异角度看从数据差异角度看: 观测变量的数据差异观测变量的数据差异(ST)=控制因素不同水平造控制因素不同水平造成(组间差异成(组间差异SB)+随机因素造成随机因素造成(组内差异组内差异SW) 当控制因素对实验结果有显著影响时当控制因素对实验结果有显著影响时,和随机因和随机因素共同作用必然使观测变量产生显著变动素共同作用必然使观测变量产生显著变动;反之反之,观测变量的变动较小观测变量的变动较小,将归结为随机性造成的将归结为随机性造成的(这里指抽样误差造成的这里指抽样误差造成的).SPSS方差分析的类型方差分析的类型v 单因素方差

15、分析单因素方差分析: 只考虑一个控制因素的影响v 多因素方差分析多因素方差分析: 考虑两个以上的控制因素和它们的交互作用对观测变量的影响v 协方差分析:协方差分析: 在尽量排除其他因素的影响下,分析单个或多个控制因素对观测变量的影响.(引入协变量)SPSS例例5 用四种饲料喂猪,共用四种饲料喂猪,共19头猪分为头猪分为4组,每组用一种饲料。一组,每组用一种饲料。一段时间后沉重,猪体重增加数据(见下表)比较四种饲料对猪段时间后沉重,猪体重增加数据(见下表)比较四种饲料对猪体重增加的作用有无不同。体重增加的作用有无不同。 观测变量:观测变量:猪体重增加量;猪体重增加量;控制因素:控制因素:饲料饲料

16、 该问题是考察饲料这一个控制因素的变化对猪体重增加是否有显著性该问题是考察饲料这一个控制因素的变化对猪体重增加是否有显著性影响。通常把饲料因素影响。通常把饲料因素A 的四个不同的变化,分别记为的四个不同的变化,分别记为A1、A2、A3、A4,成为,成为A的的4个不同水平。把观测变量记为个不同水平。把观测变量记为X,而第,而第i种饲料在第种饲料在第j次次试验下增加的体重记为试验下增加的体重记为xij,即因素的第,即因素的第i个水平的第个水平的第j次观测(试验)次观测(试验)值为值为xij,问因素问因素A的变化对观测变量的变化对观测变量X的变化的变化是否有显著性影响?是否有显著性影响?SPSSn

17、ni ix3kx33x32x313x2kx32x22x212x1kx31x21观测值观测值x11j=1AkA3A2水平水平A1SPSS1、基本原理、基本原理v 设 表示在水平 下观测值的真实平均值,则在 下每次观测结果应该是在真实平均值 的左右随机波动,这个随机波动量记为 ,因此,方差分析的数学模型为v , ;v 其中 相互独立且, 是在每个水平 下重复进行试验的次数, 为未知。研究因素A的影响是否显著,归结不同水平下的总体是否具有相同的均值,也即要检验统计假设:统计假设:v 拒绝 则认为不同水平有显著性差异。v 具体判断:根据具体判断:根据F分布计算出显著性概率分布计算出显著性概率sig.

18、若若sig. F, 拒绝原假设H0P值法: P, 拒绝原假设H0P值法更灵活值法更灵活SPSS一维方差分析步骤一维方差分析步骤1 1、编辑数据文件:定义两个数值型变量,一个为、编辑数据文件:定义两个数值型变量,一个为因素变量(也成为分组变量)因素变量(也成为分组变量)fodderfodder(饲料),(饲料),要求是数值型变量,有四个不同水平要求是数值型变量,有四个不同水平1 1,2 2,3 3,4 4;一个为观测变量;一个为观测变量weightweight(体重),输入数(体重),输入数据。保存为:例据。保存为:例5.sav5.savA AN NO OV VA A增重20538.698368

19、46.233157.467.000652.1601543.47721190.85818Between GroupsWithin GroupsTotalSum ofSquaresdfMean SquareFSig.2、选择统计方法:、选择统计方法:AnalyzeCompare MeansOne-Way ANOVA 将将weight送入因变量列框,将送入因变量列框,将fodder送入因子(因素)框,点击送入因子(因素)框,点击“确定确定”3、输出结果:、输出结果:sig.=0.0000.05,认为满足方差分析模型。,认为满足方差分析模型。SPSSMultiple ComparisonsMultip

20、le ComparisonsDependent Variable: weightLSD-18.68000*4.17024.000-27.5687-9.7913-56.36000*4.17024.000-65.2487-47.4713-87.41500*4.42321.000-96.8428-77.987218.68000*4.17024.0009.791327.5687-37.68000*4.17024.000-46.5687-28.7913-68.73500*4.42321.000-78.1628-59.307256.36000*4.17024.00047.471365.248737.680

21、00*4.17024.00028.791346.5687-31.05500*4.42321.000-40.4828-21.627287.41500*4.42321.00077.987296.842868.73500*4.42321.00059.307278.162831.05500*4.42321.00021.627240.4828(J) fodderBCDACDABDABC(I) fodderABCDMeanDifference(I-J)Std. ErrorSig.Lower BoundUpper Bound95% Confidence IntervalThe mean difference

22、 is significant at the .05 level.*. v 多重比较检验:两两不同水平进行比较,看是否有显著多重比较检验:两两不同水平进行比较,看是否有显著差异。检验假设为无显著差异。差异。检验假设为无显著差异。v 选择选择Post Hot按钮按钮v 当方差齐性检验显著时,选当方差齐性检验显著时,选LSD;v 当方差齐性检验不显著时,选当方差齐性检验不显著时,选Tamhanes T2,用,用t检验进行配对比较检验进行配对比较表中用表中用*标标示的组均值示的组均值在在0.05水平水平上有显著性上有显著性差异差异SPSSv 例例6 同种三叶草被接种上不同的菌种测量三叶草植物中同种三

23、叶草被接种上不同的菌种测量三叶草植物中的含氮量。每组数据中的前面一个是菌种代码,变量名是的含氮量。每组数据中的前面一个是菌种代码,变量名是strain,数值型变量。后一个是含氮量,数值型变量。后一个是含氮量nitrogen。分析。分析不同细菌对三叶草含氮量的影响。(数据例不同细菌对三叶草含氮量的影响。(数据例6.sav)Test of Homogeneity of VariancesTest of Homogeneity of Variancesnitrogen3.145524.025LeveneStatisticdf1df2Sig.ANOVAANOVAnitrogen847.0475169.

24、40914.371.000282.9282411.7891129.97529Between GroupsWithin GroupsTotalSum ofSquaresdfMean SquareFSig.SPSSM Mu ul lt ti ip pl le e C Co om mp pa ar ri is so on ns sDependent Variable: nitrogenTamhane14.1800*3.1807.040.56927.7914.84003.0954.930-8.69018.3708.90002.6427.317-6.52224.32215.5600*2.6713.044

25、.47130.64910.12002.6910.206-4.76825.008-14.1800*3.1807.040-27.791-.569-9.34002.4984.083-19.625.945-5.28001.9089.485-15.8535.2931.38001.94841.000-8.86011.620-4.06001.9752.769-14.1256.005-4.84003.0954.930-18.3708.6909.34002.4984.083-.94519.6254.06001.7632.678-5.53513.65510.7200*1.8058.0261.44419.9965.

26、28001.8348.384-3.83914.399-8.90002.6427.317-24.3226.5225.28001.9089.485-5.29315.853-4.06001.7632.678-13.6555.5356.6600*.8142.0013.25010.0701.2200.8766.968-2.5364.976-15.5600*2.6713.044-30.649-.471-1.38001.94841.000-11.6208.860-10.7200*1.8058.026-19.996-1.444-6.6600*.8142.001-10.070-3.250-5.4400*.959

27、5.007-9.398-1.482-10.12002.6910.206-25.0084.7684.06001.9752.769-6.00514.125-5.28001.8348.384-14.3993.839-1.2200.8766.968-4.9762.5365.4400*.9595.0071.4829.398(J) strain4571330157133014713301451330145730145713(I) strain14571330MeanDifference(I-J)Std. ErrorSig.Lower BoundUpper Bound95% Confidence Inter

28、valThe mean difference is significant at the .05 level.*. SPSS练习练习1v 对对6种不同的农药在相同的条件下分别进行杀虫试验,试验结果(杀种不同的农药在相同的条件下分别进行杀虫试验,试验结果(杀虫率)如下表:虫率)如下表: 农药试验号A1A2A3A4A5A61879056559275285886248997238087958149491v 问杀虫率是否因农药的不同而有显著性的差异(显著性水平为问杀虫率是否因农药的不同而有显著性的差异(显著性水平为0.01)?)?SPSSv数据文件:练习数据文件:练习1.savv选择方法:一维方差分析

29、,方差齐性检验,多重选择方法:一维方差分析,方差齐性检验,多重比较检验比较检验LSDv结果分析:方差是齐性的,不同农药的杀虫率有结果分析:方差是齐性的,不同农药的杀虫率有显著性差异显著性差异SPSS单因变量多因素方差分析单因变量多因素方差分析温度B浓度AB1B2B3B4A121,2322,2325,2327, 25A223,2526,2428,2726,24A326,2329,2724,2524,23v 对一个独立变量是否受到多个因素或变量影响而进行的方差分析,对一个独立变量是否受到多个因素或变量影响而进行的方差分析,在这个过程中,可以分析每一个因素的作用,也可以分析因素之间在这个过程中,可以

30、分析每一个因素的作用,也可以分析因素之间的交互作用。的交互作用。v 例例7 7 在某化工厂产品的生产过程中,对三种浓度、四种温度的每一在某化工厂产品的生产过程中,对三种浓度、四种温度的每一种搭配重复试验种搭配重复试验2 2次,测得产量如下表。试检验不同的浓度,不同的次,测得产量如下表。试检验不同的浓度,不同的温度以及它们之间的的交互作用对产量有无显著性影响温度以及它们之间的的交互作用对产量有无显著性影响.(.(完全随机完全随机化设计)化设计)SPSSv 编辑数据文件:例编辑数据文件:例7.savv 选择方法:选择方法: AnalyzeGeneral Linear ModelUnivariate

31、,送入变量,送入变量v 结果分析:浓度结果分析:浓度A因素的因素的sig.=0.0420.05,认为温度对产量无显著性影响;,认为温度对产量无显著性影响;A与与B的交互作用的交互作用a*b的的sig.=0.0160.05, age的的sig.=0.0000.001.因此得出结论,肺活量的差异是由于被因此得出结论,肺活量的差异是由于被试者的年龄差异所致,与被试者接触镉粉尘的时间是否大试者的年龄差异所致,与被试者接触镉粉尘的时间是否大于于10年无关。年无关。v 参数估计值输出结果:参数估计值输出结果:age作为自变量,作为自变量,vitaclp作为因变作为因变量的线性回归方程的斜率为量的线性回归方

32、程的斜率为-0.087.也符合生理常识,即成也符合生理常识,即成年人随着年龄的增长,肺活量有所下降。年人随着年龄的增长,肺活量有所下降。v 按时间分组的肺活量均值表:按时间分组的肺活量均值表:10年以下的均值为年以下的均值为3.919 ,10年以上的均值为年以上的均值为4.291.协方差分析结果表明,这两组肺协方差分析结果表明,这两组肺活量均值无显著差异。活量均值无显著差异。 SPSS方差分析应用小结:方差分析应用小结:v 单因素方差分析单因素方差分析: 只考虑一个控制因素的影响v多因素方差分析多因素方差分析: 考虑两个以上的控制因素和它们的交互作用对观测变量的影响v协方差分析:协方差分析:

33、在尽量排除其他因素的影响下,分析单个或多个控制因素对观测变量的影响.(引入协变量)SPSS练习练习v数据:练习数据:练习3.sav是是474个职工的数据。试分析银个职工的数据。试分析银行职员(行职员(jobcat)起始工资是否与职工的性别、)起始工资是否与职工的性别、民族有关?分析时考虑其他因素的影响。民族有关?分析时考虑其他因素的影响。SPSS第第5 5节节 回归分析回归分析SPSS变量之间的联系变量之间的联系v 确定型的关系:指某一个或某几个现象的变动必然会引确定型的关系:指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数起另一个现象确定的变动,他们之间的关

34、系可以使用数学函数式确切地表达出来,即学函数式确切地表达出来,即y=f(x)。当知道。当知道x的数值的数值时,就可以计算出确切的时,就可以计算出确切的y值来。如圆的周长与半径的值来。如圆的周长与半径的关系:周长关系:周长=2r。v 非确定关系:例如,在发育阶段,随年龄的增长,人的非确定关系:例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能身高会增加。但不能根据年龄找到确定的身高,即不能得出得出11岁儿童身高一定就是岁儿童身高一定就是1.40米公分。年龄与身高米公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既的关系不能用一般的函数关系来表达。研

35、究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关存在又不确定的相互关系及其密切程度的分析称为相关分析。分析。SPSS回归分析回归分析v如果把其中的一些因素作为自变量,而另一些随如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为们之间的非确定因果关系,这种分析就称为回归回归分析。分析。v回归分析是研究一个自变量或多个自变量与一个回归分析是研究一个自变量或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。的

36、一种统计学方法。SPSS回归分析回归分析v 线性回归分析;线性回归分析;v 曲线回归分析;曲线回归分析;v 二维二维Logistic回归分析;回归分析;v 多维多维Logistic回归分析;回归分析;v 概率单位回归分析;概率单位回归分析;v 非线性回归分析;非线性回归分析;v 权重估计分析;权重估计分析;v 二阶段最小二乘分析;二阶段最小二乘分析;v 最优尺度回归。最优尺度回归。SPSS5.15.1一元线性回归一元线性回归v 基本问题基本问题 例例9 9 某公司近年来科研支出x与利润y的统计资料如下表(单位:10万元)。将x与y的数据绘制出散点图,观察x与y具有线性关系。计算出y关于x的线性

37、回归模型y=ax+b,并检验该模型是否显著以及给出模型的标准误差。科研支出x5114532利润y314030342520246810科研支出科研支出2025303540利润利润SPSS问题分析问题分析v 一般地,设变量x与y适合线性回归模型v 对x和y进行观察试验,得到n组数据(x1,y1)、(x2,y2)、(xn,yn).v 我们的任务是:(1)计算y关于x的线性回归模型y=a+bx(2)提出假设:H0:a=b=0(不是线性回归模型)(3)计算模型的标准误差。v 基本原理:根据最小二乘法原理,选择a,b,使 Q(a,b)=(yi-a-bxi)2 达到最小值,由此解出a,b2, 0NbxayS

38、PSSv 选择方法:选择方法:AnalyzeRegressionLinear将将y送入送入Dependent框,将框,将x送入送入Independent(s)框框okVariables Entered/RemovedVariables Entered/Removedb b科研支出a.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. Dependent Variable: 利润b. Model SummaryModel Summary.909a.826.7833.240Model

39、1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 科研支出a. A AN NO OV VA Ab b200.0001200.00019.048.012a42.000410.500242.0005RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 科研支出a. Dependent Variable: 利润b. CoefficientsCoefficientsa a20.0002.64

40、67.559.0022.000.458.9094.364.012(Constant)科研支出Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 利润a. SPSS结果分析结果分析v 判定系数判定系数R=0.909R=0.909,R R2 2=0.826=0.826,说明,说明y有有82.6%82.6%是是由变量由变量x引起的引起的v 方差分析表:对回归模型进行显著性检验,回方差分析表:对回归模型进行显著性检验,回归显著性概率归显著性概率sig.=0.012

41、0.05sig.=0.0120.05,所以回归显著。,所以回归显著。Model SummaryModel Summary.909a.826.7833.240Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 科研支出a. A AN NO OV VA Ab b200.0001200.00019.048.012a42.000410.500242.0005RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors

42、: (Constant), 科研支出a. Dependent Variable: 利润b. SPSSv回归模型为:回归模型为:y=20+220+2x Std.Error Std.Error列为相应回归系数的标准误差。列为相应回归系数的标准误差。CoefficientsCoefficientsa a20.0002.6467.559.0022.000.458.9094.364.012(Constant)科研支出Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:

43、 利润a. 鉴于模型的各项检验均有显著性,可以认为该模型鉴于模型的各项检验均有显著性,可以认为该模型是一个较好的模型是一个较好的模型SPSS用用“Statistics”按钮按钮 设置相关参数:设置相关参数:SPSS增加结果分析增加结果分析C Co oe ef ff fi ic ci ie en nt ts sa a20.0002.6467.559.00212.65427.3462.000.458.9094.364.012.7283.272(Constant)科研支出Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoeffi

44、cientstSig.Lower BoundUpper Bound95% Confidence Interval for BDependent Variable: 利润a. SPSS5.2 多元线性回归模型多元线性回归模型v 一个因变量,多个自变量的回归模型一个因变量,多个自变量的回归模型 y=b0+b1x1+bnxn 其中y为根据所有自变量x计算出的估计值, b0为常数项, b1、b2bn称为y对应于x1、x2 xn的偏回归系数。 提出假设为: b0= b1=b2=bn=0 偏回归系数表示假设在其他所有自变量不变的情况下,某一个自偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变

45、化引起因变量变化的比率。变量变化引起因变量变化的比率。SPSSv 筛选变量:当模型中包含变量较多且有不重要变量时,要筛选变量:当模型中包含变量较多且有不重要变量时,要对变量进行筛选。变量选择是否恰当,是选择最佳模型的对变量进行筛选。变量选择是否恰当,是选择最佳模型的关键。关键。(1)全模型法,即强行进入法,将指定的变量全部放入回归方程中,不管变量在模型中的作用是否显著。(2)消去法,根据设定的条件剔除部分变量(3)向前引进变量法,按显著性大的优选的原则选入变量(4)向后剔除变量法,与(3)相反(5)逐步回归法,每选入一个变量,立即对前一个引进的变量进行显著性检验,及时剔除不显著的变量,再考虑引

46、进新的变量。是一种较理想的选模方法。SPSSv 例例10 某水泥厂在凝固时放出的热量某水泥厂在凝固时放出的热量y与水泥中下列四种化学成与水泥中下列四种化学成分有关。分有关。x1:3CaOAl2O3的成分(的成分(%) x2:3CaOSiO2的成分(的成分(%) x3:4CaOAl2O3Fe2O3的成分(的成分(%)x4:2CaOSiO2的成分(的成分(%) 观测得数据:例观测得数据:例10.sav,试求,试求y对对x1,x2,x3,x4的最佳线性模型。的最佳线性模型。选择统计方法:选择统计方法: AnalyzeRegressionLinear选入因变量和自变量选入因变量和自变量(1)系统默认强

47、行进入法系统默认强行进入法Enter 结果分析:回归模型的显著性概率结果分析:回归模型的显著性概率sig.=0.0000.05,所以没有一个变量在模型中是重要变量。因此需要对变量进行筛选。,所以没有一个变量在模型中是重要变量。因此需要对变量进行筛选。(2)改用逐步回归法改用逐步回归法Stepwise 结果分析:第一次引进结果分析:第一次引进x4,第二次引进,第二次引进x1,引进的变量没有被剔除引进的变量没有被剔除 第一模型为第一模型为y=492.233-3.091x4, 第二模型为第二模型为y=431.648-2.571x4+6.029x1 相关系数有明显提高,标准误差有明显减少。两个模型的回

48、归检验均具相关系数有明显提高,标准误差有明显减少。两个模型的回归检验均具有非常高的显著性,回归系数均具有非常高的显著性,即为重要变量。没有有非常高的显著性,回归系数均具有非常高的显著性,即为重要变量。没有引进的变量均不显著。可以认为第二模型为最好模型。引进的变量均不显著。可以认为第二模型为最好模型。SPSS练习练习3v使用数据:练习使用数据:练习3.sav,建立一个以初,建立一个以初始工资、工作经验、受教育年数等为自始工资、工作经验、受教育年数等为自变量,当前工资为因变量的回归模型。变量,当前工资为因变量的回归模型。SPSS5.3 曲线回归模型曲线回归模型v 在实际中,变量与变量之间的相关关系

49、并非一定是线性相关,非线性在实际中,变量与变量之间的相关关系并非一定是线性相关,非线性相关关系的情形也会常常遇到。相关关系的情形也会常常遇到。v 例例1111 某研究所对某研究所对200200只鸭子进行试验,得到鸭子的周龄只鸭子进行试验,得到鸭子的周龄x x与平均日与平均日增重增重y y的数据(前例的数据(前例3 3),从散点图看到),从散点图看到x x与与y y呈现出曲线的相关关系。呈现出曲线的相关关系。我们希望计算出我们希望计算出x x与与y y的曲线模型的曲线模型y=f(x)y=f(x),并检验该模型的显著性以及,并检验该模型的显著性以及计算它的标准误差。计算它的标准误差。SPSS基本原

50、理:基本原理:v 解决曲线回归模型的基本方法是将曲线回归模型转化为线性回归模型解决曲线回归模型的基本方法是将曲线回归模型转化为线性回归模型进行计算,过程如下:进行计算,过程如下:(1)确定模型的形式。这是根据所研究问题相关专业知识或散点图的)确定模型的形式。这是根据所研究问题相关专业知识或散点图的形状,选择形状,选择f(x)的具体表达形式,如上例,可以选择的具体表达形式,如上例,可以选择f(x)为二次曲线模为二次曲线模型,即型,即 y=f(x)=b0+b1x+b2x2(2)将确定的模型作线性转换,如令)将确定的模型作线性转换,如令u=x2,则有,则有 y=f(x)=b0+b1x+b2u 从而从

51、而y关于关于x,u是线性回归模型。是线性回归模型。 又如对指数模型又如对指数模型y=aebx,先两边去对数有,先两边去对数有lny=lna+bx,然后令,然后令y=lny,a=lna,则,则y=a+bx,于是,于是y关于关于x是线性回归模型。是线性回归模型。 (3)对转换后的线性模型利用线性回归模型方法进行计算、检验,最)对转换后的线性模型利用线性回归模型方法进行计算、检验,最后回代还原为曲线模型。后回代还原为曲线模型。 SPSS计算过程:计算过程:( (1)1)建立数据文件:原始数据建立数据文件:原始数据: :例例1.sav1.sav(2)(2)变量变换变量变换 需作变换需作变换u=xu=x

52、2 2. .选择:选择:TransformCompute在目标变量在目标变量框输入变量框输入变量u,在右边框输入计算表达式在右边框输入计算表达式x*x确定确定(3)选择统计方法:线性回归方法)选择统计方法:线性回归方法SPSS结果分析结果分析v 模型:模型:y=-8.360+34.827x-3.762uv 回代为:回代为:y=-8.360+34.827x-3.762x2v 模型非常显著,复相关系数为模型非常显著,复相关系数为R=0.997,标准误差,标准误差S=2.251,回归检验的显著性概率,回归检验的显著性概率sig.=0.0000.01注:也可以直接使用曲线回归的方法,选择模型:平方注:

53、也可以直接使用曲线回归的方法,选择模型:平方SPSS练习练习 牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价其它厂家同类牙膏的平均售价 (数据:牙膏销售量(数据:牙膏销售量.sav)9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.75

54、27.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家价其它厂家价格格(元元)本公司价格本公司价格(元元)销售销售周期周期SPSS基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变量自变量) y被解释变量(

55、因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的正态分布随均值为零的正态分布随机变量)机变量)SPSS牙膏的销售量模型牙膏的销售量模型v 选择方法:选择方法:AnalyzeRgressionLinear 将销售量送入因变量框,将将销售量送入因变量框,将x1、x2和和x22送入自变量框送入自变量框“Statistics”按钮选择按钮选择v 结果分析:结果分析:总:总:y的的90.5%可由模型确定可由模型确定 Sig.远小于远小于 =0.05 模型从整体上看显著模型从整体上看显著分:分:x2对因变量对因变量y 的影响不太显著的影响不太显著但由

56、于但由于x22项显著项显著 可将可将x2保留在模型中保留在模型中 参数参数参数估计值参数估计值置信区间置信区间17.3245.728 28.9211.3070.683 1.931 -3.696-7.499 0.108 0.3490.038 0.659 R2=0.905 F=82.941 p=0.0000 0 1 2 3SPSS回归预测的方法回归预测的方法如果我们要用SPSS来预测x1=0.2,x2=6.5时y的值,需要在数据表的续后空格输入x1,x2的值,对应y的值为空值(缺失值)。在建立模型时SPSS会进行自动调整,只使用前面30个数据建立模型,但可以预测第31个观测的y值。 选择Analy

57、ze RegressionLinear,将相应变量送入变量框,单击对话框中的“save”按钮,在弹出的对话框中,在Predicted Values栏中选中“Unstandardized”复选框(这样可以得到预测值),在“Prediction Intervals”栏中选中“Means”(均值预测置信区间)和“Individual”(个值预测置信区间),单击“Continue”返回主对话框,其它选项采用默认值,“确定”后就可以得到回归方程和预测结果了。SPSSSPSSSPSS22322110 xxxy销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计

58、估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.82298,8.76362(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握知道销售额在知道销售额在 7.82298 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1, x2预测预测y2933.822322110 xxxy(百万支百万支)SPSS模型改进模型改进不考虑不考虑x1和和x2的的

59、交互作用交互作用22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.905 F=82.9409 p=0.000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.11313.701 44.52511.1341.978 20.291 -7.608-12.693 -2.523 0.6710.254 1.089 -1.478-2.852 -0.104 R2=0

60、.921 F=72.777 p=0.000 3 0 1 2 4考虑考虑x1和和x2的交互的交互作用作用所有参所有参数都是数都是显著的显著的SPSS两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy22322110 xxxy2933. 8 y(百万支百万支)区间区间 7.82298,8.76362区间区间 7.88673,8.76777 3272. 8 y(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短(精度提高)(精度提高) 略有增加略有增加 y SPSS交互作用影响的讨论交互作用影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论