回归分析方法及其应用中的例子_第1页
回归分析方法及其应用中的例子_第2页
回归分析方法及其应用中的例子_第3页
回归分析方法及其应用中的例子_第4页
回归分析方法及其应用中的例子_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1.2 虚拟变量的应用例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为:其中:Q3120个样本家庭的年住房面积(平方英尺) 横截面数据P家庭所在地的住房单位价格Y家庭收入经计算: (0.11)(0.017) (0.026)上式中=的价格弹性系数,=的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D: 模型为:例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元)年份农资购买力农民货币收入197519761977197819791980198119821983198419851.31.31.41.51.82.12.32.62.73.03.24.75.45.56.99.010.011.313.415.219.327.800001111111根据上述数据建立一元线性回归方程: 带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 建立回归方程为:(9.2409)(6.3997) (3.2853) 虽然上述两个模型都可通过显著性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差()更小,说明模型的拟合程度更高,代表性更好。3.5.4 岭回归的举例说明企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下:假设某电信运营商的服务界面包括了A1Am共M个界面,那么各界面对总体服务满意度A的影响可以通过以A为因变量,以A1Am为自变量的回归分析,得出不同界面服务对总体A的影响系数,从而确定各服务界面对A的影响大小。同样,A1服务界面可能会有A11A1n共N个因素的影响,那么利用上述方法也可以计算出A11A1n对A1的不同影响系数,由此确定A1界面中的重要因素。通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。例3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。a. 直接进入法显然,这种方法计算的结果中,C界面不能通过显著性检验,直接利用分析结果是错误的,见表3.5.4.1:表3.5.4.1 强制回归的Coefficients Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta(Constant)1.6210.14211.3830.000A0.1830.0240.1787.5410.000B0.1120.0270.1004.2130.000C0.0340.0270.0311.2760.602D0.1080.0200.1315.4610.000E0.0690.0240.0682.8450.004F0.0560.0220.0592.5250.012a Dependent Variable:Hb. 逐步回归法这种方法剔除了一个不能通过统计检验的大的服务界面(C界面),虽然通过了显著性检验,但却遗漏了C界面的信息。表3.5.4.2 逐步回归的Coefficients Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta(Constant)1.6720.13712.2210.000A0.1870.0240.1817.7370.000B0.1120.0190.1365.7450.000D0.1190.0260.1064.5450.000E0.0730.0240.0733.0640.002F0.0590.0220.0622.6720.008a Dependent Variable:H同样,使用强制删除法,C服务界面不能通过显著性检验,向前法和向后法亦剔除了C界面进入分析。可以看出,通过以上回归分析我们得到了不同的分析结果,显然这种分析方法存在着较大的偏差,随意选取一种是不负责任的,必须深入研究。一般来说,满意度分析中涉及到许多因素,而诸多因素间存在着一定的关联,因而在进行回归分析时,各自变量之间的共线性问题导致了直接使用线性回归分析模型时一些因子不能参与分析的现象。一些市场研究咨询公司常采用舍弃一些变量,遗漏部分信息来求得统计检验通过的方法;有的不顾显著性检验结果而强行使用不合理的分析结果来保证变量不被舍弃,从而虚假地保障了信息不被遗漏。我们认为这是满意度分析错误的两个极端。处理的正确方法是,利用SPSS软件中的岭回归分析来解决,既保障信息不被遗漏,同时保障分析具有统计意义。SPSS软件界面没有直接进行岭回归的命令,我们可以通过SPSS提供的程序编辑命令,自行编辑程序加以实现。在SAS软件中可直接进行岭回归分析。对例3.5.4.1进行岭回归,分析结果和表3.5.4.1的结果对比如下。可见两者之间有较大差异(下表数据将已将回归系数之和标准化为100%),F界面对总体满意度的作用被缩小了5%左右,而B界面、D界面的作用各被夸大近5%。表3.5.4.3 强制回归与岭回归结果的比较表4.1的错误分析岭回归结果两者之间的差异A31.39 %29.60 % 1.79 % B17.64 %12.75 % 4.89 % C5.47 % 8.33 % -2.87 % D23.10 % 18.49 % 4.61 % E11.99 % 15.32 % -3.32 % F10.41 % 15.51 % -5.10 % 5 回归分析方法应用的举例说明怎样作回归分析How本章以一个例子详细说明回归分析方法在实际研究中是如何应用的。5.1 回归分析变量的数据转换本章举例说明的例子选用39家企业样本数据(见表5.1),带动作用是因变量,其余各变量均为自变量,其中所属产业和员工人数是对该样本企业而言,而接触程度则指该样本企业与本地的龙头企业之间在业务上的接触紧密程度。接触程度、各自变量和因变量均以Likert五分量表进行度量。表5.1 例子5.1的样本数据样本编号所属产业员工人数接触程度企业合作公共事务营销努力技术改进资源共享风险分担带动作用1皮革23011.402.603.003.331.502.331.402皮革15933.404.004.753.673.503.333.203皮革20823.003.203.753.673.333.503.404皮革11214.204.204.504.002.831.172.405皮革10012.202.802.752.672.002.172.006皮革49512.403.605.003.672.502.673.007皮革3333.603.603.753.333.003.333.008皮革8011.801.604.502.671.002.002.209皮革10033.003.003.504.004.173.003.2010皮革15032.402.004.504.002.833.172.2011皮革13611.602.203.004.003.674.003.4012皮革6133.804.203.503.674.004.173.8013皮革1733.203.802.503.674.003.503.8014皮革23031.001.402.502.001.171.171.4015家电30052.604.005.004.002.504.834.6016家电25033.002.003.003.673.002.673.4017家电8051.804.204.755.001.832.003.6018家电13432.804.605.004.674.333.834.8019家电42832.402.802.004.332.332.002.8020家电8033.003.603.754.673.503.173.6021家电40023.203.804.003.673.332.673.2022家电2032.602.604.504.003.003.003.8023家电22543.002.404.003.332.672.833.0024家电18031.803.203.253.333.333.173.0025家电9034.603.604.753.673.332.172.8026家电16012.202.803.253.003.002.672.6027家电10022.802.804.003.333.332.673.2028家电35032.803.003.253.673.333.503.4029家电34532.604.003.503.674.003.333.2030家电30512.002.004.753.333.503.334.2031家电40021.002.803.752.672.172.332.0032家电10031.401.003.752.673.502.333.4033家电41421.202.803.003.332.672.502.4034家电32423.403.205.003.004.333.834.2035家电30043.202.803.753.673.502.833.4036家电20033.604.205.004.335.003.834.2037家电8534.004.004.504.003.333.833.2038家电18013.404.005.004.332.001.672.4039家电41532.203.203.504.332.832.502.005.1.1 企业所属产业虚拟变量的引入从表5.1中看到,自变量所属产业为名义变量,在进行多元回归分析之前需要将其转化为虚拟变量进行处理。而员工人数在一定程度上能够反映企业的规模,因此也将其处理为虚拟变量。将皮革产业变量定义为变量D1,则 5.1.2 企业规模虚拟变量的引入首先按照企业员工人数将企业划分为微型、小型、一般型、中型和大型共5种类型企业,具体划分标准见表5.2:表5.2 企业规模的划分和变量说明企业规模小型中型大型员工数100100且300300变量名D2D3D4由此,有: ; 当以上D2、D3均为0时,则表示该企业属于大型企业。5.1.3 引入虚拟变量后的变量数据将上述各变量进行转换处理之后,得到本例进行回归分析的各个变量数据,见表5.3:表5.3 回归分析的变量数据编号皮革行业小型中型接触程度企业合作公共事务营销努力技术改进资源共享风险分担带动D1D2D3TachCoopPublMarkTechRecoRiskEffe110111.402.603.003.331.502.331.40210133.404.004.753.673.503.333.20310123.003.203.753.673.333.503.40410114.204.204.504.002.831.172.40511012.202.802.752.672.002.172.00610012.403.605.003.672.502.673.00711033.603.603.753.333.003.333.00811011.801.604.502.671.002.002.20911033.003.003.504.004.173.003.201010132.402.004.504.002.833.172.201110111.602.203.004.003.674.003.401211033.804.203.503.674.004.173.801311033.203.802.503.674.003.503.801410131.001.402.502.001.171.171.401500152.604.005.004.002.504.834.601600133.002.003.003.673.002.673.401701051.804.204.755.001.832.003.601800132.804.605.004.674.333.834.801900032.402.802.004.332.332.002.802001033.003.603.754.673.503.173.602100023.203.804.003.673.332.673.202201032.602.604.504.003.003.003.802300143.002.404.003.332.672.833.002400131.803.203.253.333.333.173.002501034.603.604.753.673.332.172.802600112.202.803.253.003.002.672.602701022.802.804.003.333.332.673.202800032.803.003.253.673.333.503.402900032.604.003.503.674.003.333.203000012.002.004.753.333.503.334.203100021.002.803.752.672.172.332.003201031.401.003.752.673.502.333.403300021.202.803.003.332.672.502.403400023.403.205.003.004.333.834.203500143.202.803.753.673.502.833.403600133.604.205.004.335.003.834.203701034.004.004.504.003.333.833.203800113.404.005.004.332.001.672.403900032.203.203.504.332.832.502.005.2 变量间的相关分析5.2.1 相关分析在Spss软件中的操作SPSS的相关分析是借助于Statistics菜单的Correlate选项完成的。调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。调用该过程命令时允许同时输入两变量或以上变量,但系统输出的是变量间两两相关的相关系数。激活Statistics菜单选Correlate中的Bivariate.命令项,弹出Bivariate Correlation对话框。在对话框左侧的变量列表中选中本例的所有变量,点击钮使之进入Variables框;再在Correlation Coefficients框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数(r),Kendells tau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在Test of Significance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。点击Options.钮弹出Bivariate Correlation:Options对话框,可选有关统计项目。本例要求输出个变量的均值与标准差,故选Means and standard deviations项,而后点击Continue钮返回Bivariate Correlation对话框,再点击OK钮即可。5.2.2 相关分析结果及其解释首先看表5.4中,各变量的均值及其标准差:表5.4 变量的描述性数据变量均值标准差样本数effe3.0974.7998339coop2.6564.8825239publ3.1179.8702339mark3.8846.8288539tech3.6410.6230739reco3.0556.8763739risk2.8974.8062439D1.3590.4859739D2.3333.4775739D3.4103.4983139tach2.53851.0722939由于举本例的目的是为了详细解释在SPSS中如何进行回归分析,所以在本文中不详细论述与本主体关系不大的各项分析及其结论。在表5.5中,详细列出了所有变量之间的两两相关系数:表5.5 变量的相关系数及其显著性effecooppublmarktechrecoriskD1D2D3tacheffe1coop.377(*)1publ.385(*).607(*)1mark.410(*).387(*).382(*)1tech.438(*).398(*).617(*).3131reco.709(*).502(*).376(*).174.324(*)1risk.731(*).257.322(*).210.265.659(*)1D1-.336(*)-.012-.090-.188-.230-.203-.0711D2.092.204.017.000.000.017-.023.1511D3-.050.006-.017.070.063-.044.042.137-.590(*)1tach.397(*).162.212.064.349(*).187.304-.330(*).126-.0511* 相关系数在0.05水平下显著(双尾)* 相关系数在0.01水平下显著(双尾)从表中看到,因变量effe分别与自变量coop、publ、mark、tech、reco、risk、D1和tach之间的相关系数在0.05水平下是显著的,而与自变量D2和D3之间的相关系数在0.05水平下不显著。5.2.3 各自变量与因变量之间的散点图(结果略)激活Graphs菜单选Scatter/Dot中的Simple Scatter项,弹出Simple Scatterplot话框。从对话框左侧的变量列表中选effe,点击钮使之进入Y Axis框,分别选其余各个变量(包括coop、publ、mark、tech、reco、risk、D1、D2、D3和tach),点击钮使之进入X Axis框,点击OK钮即输出各自变量与因变量之间的散点图。5.3 强制(Enter)的多元线性回归分析5.3.1 强制(Enter)多元线性回归分析在Spss软件中的操作激活Statistics菜单选Regression中的Linear.项,弹出Linear Regression对话框。从对话框左侧的变量列表中选effe,点击钮使之进入Dependent框,选其余各个变量(包括coop、publ、mark、tech、reco、risk、D1、D2、D3和tach),点击钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(强制法)、Stepwise(逐步法)、Remove(剔除法)、Backward(向后法)、Forward(向前法)。首先选用Enter法。点击Statistics.钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析,在本例中选择Regression confidence下的Estimate、Residuals下的Durbin- Watson,以及Model fit和Collinearity Diagnostics这几个选项,分别进行回归系数的估计、模型的拟合评价和回归三大问题的诊断;点击Plots.钮选择是否作变量分布图,在本例中选择DEPENDENT即因变量作为X轴,ZRESID即标准化残差作为Y轴,观察Y随X变化的情况,以判断是否存在异方差和自相关问题;点击Save.钮选择对回归分析的有关结果是否作保存,在本例中不做选择;点击Options.钮选择变量入选与剔除的、值和缺失值的处理方法,在本例中选择系统默认值。点击OK钮即完成分析。5.3.2 强制(Enter)多元线性回归分析三大问题的诊断首先要判断本强制回归中是否存在回归的三大问题。因此,对照第3章的相关内容有:1、多重共线性诊断见表5.6和表5.7中,回归方程的R2较高但t值显著的不多,表明自变量之间有存在严重多重共线性的可能。但方差膨胀因子VIF值基本在2左右,而容忍度(Tolerance)也在可接受范围内。在表5.8中也看到,除去第11个层面(Dimension),其余各层面的条件指标(Condition index; CI)在30以内,各个自变量在每个层面上的方差比例基本没有出现都较大的现象。说明自变量之间没有严重的多重共线性问题。表5.6 模型的拟合(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin- Watson1.872(a).761.675.455761.420a Predictors: (Constant), tach, D3, mark, reco, D1, tech, coop, D2, risk, publb Dependent Variable: effe表5.7 回归系数(a)ModelUnstandardized CoefficientsStandardized CoefficientstSig.Collinearity Statistics1BStd. ErrorBetaToleranceVIF(Constant)-.397.568-.700.490coop-.058.128-.064-.448.657.4252.351publ-.037.131-.040-.284.779.4222.369mark.219.105.2272.089.046.7231.383tech.157.162.122.973.339.5401.852reco.327.135.3582.412.023.3882.576risk.403.135.4062.985.006.4612.170D1-.262.191-.159-1.370.182.6331.580D2.218.227.130.963.344.4662.145D3.034.208.021.165.870.5081.967tach.071.086.096.829.414.6441.553a Dependent Variable: effe表5.8 变量的多重共线性诊断(a)ModelDimensionEigenvalueCondition IndexVariance Proportions常数cooppublmarktechrecoriskD1D2D3tach118.7821.000.00.00.00.00.00.00.00.00.00.00.0021.0032.960.00.00.00.00.00.00.00.00.17.14.003.6943.557.00.00.00.00.00.00.00.50.01.01.014.2116.449.00.00.01.00.00.01.00.09.49.59.035.1059.140.00.07.01.01.00.00.01.14.11.11.556.06911.291.00.01.06.02.01.14.16.01.05.04.067.05812.277.05.26.02.12.01.01.01.04.03.00.138.03017.176.01.25.47.18.03.01.04.03.13.09.109.02518.666.11.00.04.26.10.18.33.00.00.00.0010.01325.620.11.40.15.32.08.64.45.10.01.01.1111.00930.551.71.00.26.08.77.00.00.09.01.02.00a Dependent Variable: effe2、自相关诊断从表5.6中看到,D.W值为1.420,而查DW统计量临界值表(张晓蒂,1991)有:样本量为39且变量个数为5时dL为1.22而dU为1.79,则在本例中其范围较之更广,还不能完全判断是否存在自相关,本例中暂且认为不存在自相关问题。3、异方差诊断见图5.1,该残差图中的点基本呈随机分布,初步判断该组数据不存在异方差问题。图5.1 标准化残差与因变量之间的散点图因此,从上述的诊断结果来看,本例的回归分析过程中不存在回归问题的三大问题。接着检验回归的残差是否服从正态分布,见图5.2。从图中看到,残差基本是如从正态分布的。图5.2 未标准化残差的正态性检验5.3.3 强制(Enter)多元线性回归分析的结果表5.9 方差分析(b)ModelSum of SquaresdfMean SquareFSig.1Regression18.494101.8498.903.000(a)Residual5.81628.208Total24.31038a Predictors: (Constant), tach, D3, mark, reco, D1, tech, coop, D2, risk, publb Dependent Variable: effe此时,将回归分析的结果总结如下:表5.10 回归分析结果(a)ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-.397.568-.700.490coop-.058.128-.064-.448.657publ-.037.131-.040-.284.779mark.219.105.2272.089.046tech.157.162.122.973.339reco.327.135.3582.412.023risk.403.135.4062.985.006D1-.262.191-.159-1.370.182D2.218.227.130.963.344D3.034.208.021.165.870tach.071.086.096.829.414R:.872;Adjusted R Squ:.675;F:8.903;Sig.:.000a Dependent Variable: effeb Weighted Least Squares Regression - Weighted by reciprocal of e squared其中需要说明的是,没有设定虚拟变量的类别变量(本例中的家电产业和大型企业)被称为参照类,各个虚拟变量回归系数则表示该类别与参照类上均值的差异。为了比较回归系数显著的各自变量对因变量的影响程度的大小,本例选用标准化后的系数,则从表5.10中看到:本例数据分析得出,自变量mark、reco和risk对因变量effe有显著影响,且均为正向影响。其余各变量对因变量的影响不显著。对因变量effe有显著影响的各个自变量中,risk的影响程度最大,其次是reco,最后是mark。对于回归分析结果的现实解释,由于不是本例关注的重点,这里不详述。5.4 逐步(Stepwise)多元线性回归分析5.4.1 逐步(Stepwise)多元线性回归分析在Spss软件中的操作该过程基本与强制多元线性回归的操作步骤一致。只是在在Method处下拉菜单中选择的是Stepwise(逐步法)而不是Enter(强制法),在Statistics.钮中再加上R squared change选项。其余各项均与强制多元线性回归的操作相同。点击OK钮即完成分析。5.4.2 逐步(Stepwise)多元线性回归分析三大问题的诊断对例子中的数据采取逐步(Stepwise)的方法进行多元线性回归,分析的具体结果见表5.11到表5.17。本次逐步回归中,共4个自变量进入回归方程:risk、reco、mark和tach。因此,回归的结果看模型4。表5.11 自变量的选择 (a)ModelVariables EnteredVariables RemovedMethod1risk.Stepwise (Criteria: Probability-of-F-to-enter = .100).2reco.3mark.4tach.a Dependent Variable: effe表5.12 模型的拟合(e)ModelR R Square Adjusted R Square Std. Error of the Estimate Change StatisticsDurbin-WatsonR Squ ChangeF ChangeSig. F Change1.731(a).535.522.55275.53542.565.000 2.791(b).626.605.50243.0918.781.005 3.829(c).688.661.46557.0626.927.013 4.851(d).724.691.44444.0364.407.0431.590a Predictors: (Constant), riskb Predictors: (Constant), risk, recoc Predictors: (Constant), risk, reco, markd Predictors: (Constant), risk, reco, mark, tache Dependent Variable: effe表5.13 方差分析(e)Model Sum of SquaresdfMean SquareFSig.1Regression13.005113.00542.565.000(a) Residual11.30537.306 Total24.31038 2Regression15.22227.61130.149.000(b) Residual9.08836.252 Total24.31038 3Regression16.72335.57425.718.000(c) Residual7.58635.217 Total24.31038 4Regression17.59444.39822.268.000(d) Residual6.71634.198 Total24.31038 a Predictors: (Constant), riskb Predictors: (Constant), risk, recoc Predictors: (Constant), risk, reco, markd Predictors: (Constant), risk, reco, mark, tache Dependent Variable: effe表5.14 回归系数(a)ModelUnstandardized CoeffiStandardized CoeffitSig.Collinearity StatisticsBStd. ErrorBetaToleranceVIF1(Constant).995.3342.978.005risk.726.111.7316.524.0001.0001.0002(Constant).636.3271.945.060risk.463.134.4673.446.001.5661.768reco.366.124.4012.963.005.5661.7683(Constant)-.150.426-.353.726risk.420.126.4243.348.002.5561.798reco.352.115.3863.068.004.5641.772mark.246.093.2542.632.013.9541.0494(Constant)-.356.418-.852.400risk.357.124.3602.892.007.5231.910reco.356.110.3903.254.003.5641.772mark.245.089.2542.754.009.9541.049tach.148.071.1992.099.043.9071.102a Dependent Variable: effe表5.14 未包含变量(e)ModelBeta IntSig.Partial CorrelationColline

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论