《应用统计分析》课件-第8章 回归分析_第1页
《应用统计分析》课件-第8章 回归分析_第2页
《应用统计分析》课件-第8章 回归分析_第3页
《应用统计分析》课件-第8章 回归分析_第4页
《应用统计分析》课件-第8章 回归分析_第5页
已阅读5页,还剩152页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章回归分析1、回归分析概述2、线性回归3、非线性回归分析4、含定性自变量的回归5、含定性因变量的回归12某地区电影票房分析票房受到疫情影响的当下,人们还愿意看电影吗?看电影应考虑哪些因素呢?当打开电影票购买界面,面对一部一无所知的电影,我们一眼看到的经常是票价、评分、是否有差评,这些成为快速判断电影是否值得看的因素。究竟这些因素和电影票房有没有直接关系?评分高是否票房更高?都是中评的电影是否会比好坏参半的电影票房高?便宜的电影票价是否更具有吸引力?某地区20个电影的票房数据如表8-1所示,试图通过它们在当地某观影软件上的评分、评分标准差、平均票价等3个元素分别与票房的关系,得到上面问题的答案像本例一样,研究一个或多个变化的量对某一个量带来的影响,就是回归分析的基本思想。本例的问题将在后述正文中逐步解决。引入案例35699.12.14245038.22.02354557.81.93364217.81.64364067.51.68403807.61.61323567.41.56393307.21.53383167.11.52363117.11.53382626.71.51382446.61.46342036.31.44331886.51.42371716.41.41381576.11.50361326.01.35351186.01.3137985.51.2838675.21.2838234.41.2638表8-1某地区20个电影的票房数据第1节回归分析概述1、基本思想2、数据的适用范围48.1.1基本思想Galton发现∶身材高的父母,他们的孩子身材也高,但这些孩子平均身高并不像他们的父母那样高;对于比较矮的父母情形也类似,他们的孩子比较矮,但这些孩子的平均身高会高于他们的父母的平均身高。Galton把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。回归分析指的是确定两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中最基础的研究对象就是因变量与自变量。5回归的提出8.1.1基本思想定义8.1因变量∶在回归分析中被预测或被解释的变量,也称为响应变量。定义8.2自变量∶在回归分析中,用来预测或用来解释的一个或多个变量。在描述变量之间的关系时,常通过数学模型描述,也将这个数学模型称为回归模型。从模型本身的构成角度进行定义。68.1.1基本思想

78.1.2数据的适用范围根据自变量与因变量的数据类型不同:分为自变量与因变量均为定量数据、自变量是定性数据、因变量是定性数据、自变量与因变量均为定性数据等四种类型。从时间角度上看,回归分析可以用于分析横截面数据、时间序列数据、面板数据。88.1.2数据的适用范围横截面数据:同—时间截面上不同统计单位相同统计指标组成的数据列。横截面数据不要求统计对象及其范围相同、但要求统计的时间相同。时间序列数据:不同时间点上收集到的数据,这类数据反映了某—事物,现象等随时间的变化状态或程度。面板数据:截面数据与时间序列数据综合起来的一种数据类型,它有时间序列和截面两个维度。面板数据是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同。9第2节线性回归1、线性回归模型2、参数的最小二乘估计3、拟合优度4、显著性检验5、残差分析6、回归方程的预测与估计7、线性回归与正则化8、常见的违背经典假设的情况9、SPSS回归分析实例10第2节线性回归

118.2.1线性回归模型

128.2.1线性回归模型

138.2.1线性回归模型

148.2.1线性回归模型当k=1时,是一元线性回归方程,图像是一条直线,称为直线回归方程。当k≥2时,是多元线性回归方程,以含有两个自变量的线性回归方程为例,它的图像是三维空间中的一个平面。158.2.2参数的最小二乘估计

168.2.2参数的最小二乘估计

178.2.2参数的最小二乘估计

188.2.2参数的最小二乘估计

19年份201120122013201420152016201720182019x/亿元789.51827.61950.68994.901331.031594.441769.491733.762087.07y/(元/平方米)10925.8412000.8813954.014739.014083.016346.017685.0021581.7824015.00

8.2.2参数的最小二乘估计208.2.3拟合优度21最小二乘法得到了估计的回归方程,它可以描述自变量x与因变量y之间的关系,即可以根据x的取值估计出y的取值。而估计出的精度取决于对数据的拟合程度,这种回归图像与观测点的接近程度称为回归图像对数据的拟合优度。8.2.3拟合优度22

离差平方和的分解8.2.3拟合优度23

离差平方和的分解由于可以证明因此8.2.3拟合优度24定义8.8总平方和(totalsumofsquares,SST)

cE(y-y)称为总平方和或离差平方和。定义8.9残差平方和(sumofsquaresoferror,SSE)∶二(y-)2称为残差平方和或误差平方和。定义8.10回归平方和(sumofsquaresofregression,SSR)∶之(3-元)2称为回归平方和。SST=SSR+SSE。离差平方和的分解8.2.3拟合优度25

估计标准误差8.2.3拟合优度26

估计标准误差8.2.4显著性检验27

8.2.4显著性检验28

8.2.4显著性检验29线性关系检验是对整体的模型进行显著性检验,只能检验出因变量与所有的自变量之间的线性关系是否显著。定义8.12均方回归(meansquareduetoregression,MSR)∶将SSR除以相应的自由度(自变量的个数k)后的结果称为均方回归。定义8.13均方残差(meansquarederror,MSE)∶将SSE

除以相应的自由度(n-k-1)后的结果称为均方残差。线性关系的检验(F检验)8.2.4显著性检验30

线性关系的检验(F检验)8.2.4显著性检验31在对回归系数进行检验时,需要对回归系数检验的个数进行限制,以避免犯过多第I类错误。在检验时,对每一个自变量都要单独进行检验。计算检验统计量t∶回归系数的检验(t检验)其中8.2.4显著性检验32

回归系数的检验(t检验)8.2.5残差分析33

误差项假定分析8.2.5残差分析34

误差项假定分析8.2.5残差分析351、误差的均值为0图8-5a:随机模型结果,残差看起来比较随机地分布在0水平线附近,是一个比较理想的残差图。图8-5b所示为非随机模型结果,残差呈二次曲线的形状,随机误差的均值在x取值范围内可能不为0。因此可说明该回归模型所对应的误差的均值为0的假设不成立,需要重新检查回归模型。误差项假定分析8.2.5残差分析36

误差项假定分析8.2.5残差分析37

误差项假定分析8.2.5残差分析38

误差项假定分析8.2.5残差分析393、误差的方差齐性方差不相等的情况下分为很多种情况,如图残差范围呈梭子状,残差取值范围先随着x的增大而增大,方差也增大;然后又随着x的增大而减小,方差也减小很显然残差也不是恒定的值。误差项假定分析8.2.5残差分析404、误差的独立性误差的独立性假设就是随机误差项之间彼此不相关。为了验证在该类数据中的误差独立性假设是否满足,可以绘制残差与x的关系图来实现。误差与x没有遵循某种规律,则误差之间具有独立性。误差项假定分析8.2.5残差分析414、误差的独立性如果残差-x图呈现了某种规律,说明各个残差之间可能存在某种相关性,可能不满足独立性要求。图8-8a中,误差正负交替出现且周期峰值大致相同,不满足独立性要求;图8-8b中,误差值出现了随着x递减的规律,不满足独立性要求。误差项假定分析8.2.5残差分析42

检测异常值和有影响的观测值8.2.5残差分析431、检测异常值第一种方法是通过散点图观察,如图所示,散点图中与其他点的趋势不吻合的点,有可能是异常点,或者称它为离群点。检测异常值和有影响的观测值8.2.5残差分析441、检测异常值第二种方法是通过标准化残差来识别。根据标准化残差的性质,如果标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点。如果异常值是一个错误的数据,则应当修正数据改善回归的效果;如果标准化残差偏大,则需要考虑使用更加合适的模型;如果有些异常值是由在可接受范围内的随机因素造成的,则应当视情况保留。检测异常值和有影响的观测值8.2.5残差分析452、检测有影响的观测值有影响的观测值,就是指在有这个点和没有这个点的前后,回归的结果有很大的不同。这个有影响的观测值很可能是异常值,即它偏离了其他观测值形成的趋势;也可能它的值在趋势上,但是它对应的自变量x值远离了其他的观测值所对应的x。检测异常值和有影响的观测值8.2.5残差分析462、检测有影响的观测值第一种方法是通过散点图观察,即可以判断出是异常值的那部分观测值。由于存在左下角的观测值,导致回归直线斜率大于0;而删去这个观测点后,回归直线的斜率就小于0了,像这个观测点这种能产生巨大影响的值检测异常值和有影响的观测值8.2.5残差分析47

检测异常值和有影响的观测值8.2.5残差分析48

检测异常值和有影响的观测值8.2.5残差分析49

检测异常值和有影响的观测值8.2.6回归方程的预测与估计50

8.2.6回归方程的预测与估计51

8.2.6回归方程的预测与估计52

8.2.6回归方程的预测与估计53

8.2.6回归方程的预测与估计54置信区间、预测区间与回归方程之间一般满足某些关系,例如,一元线性方程,存在置信区间的宽度<预测区间的宽度,且回归直线在它们之中的关系8.2.7线性回归与正则化55

8.2.7线性回归与正则化56解决方法第一种方法,可尽量减少选取的变量数量,即舍弃一些变量,保留更为重要的特征变量,但这个方法的缺陷是很明显的,当舍弃掉一些变量时,同时也会丢失部分有用信息第二种方法,可通过正则化调整,即保留所有的特征,但同时降低参数的值。8.2.7线性回归与正则化57

8.2.7线性回归与正则化58

8.2.7线性回归与正则化59

8.2.8常见的违背经典假设的情况60在经典假设下,采用最小二乘法可以得到无偏、有效的参数估计量。实际情况中,设定的模型容易违背经典假设,导致无法得到无偏、有效的参数估计量,因此要对这些模型进行修正变换。常见的违背经典假设的情况有多重共线性、异方差、自相关三种。8.2.8常见的违背经典假设的情况61

多重共线性8.2.8常见的违背经典假设的情况62多元线性回归模型中的两个以上自变量彼此相关的现象。2、多重共线性的负面影响(1)无法判断单个自变量与因变量之间是否存在显著的线性相关性,使回归结果混乱。多重共线性不会影响总体的线性关系检验(即F检验),但会导致参数的估计值不稳定,对样本的变化敏感,很难通过t检验来判断单个自变量与因变量之间是否线性相关。(2)使得样本回归系数远离实际的总体参数,导致违背常理的结果。由于自变量之间的关系产生的"多余信息",多重共线性可能会对参数估计值的正负号产生影响。当存在多重共线性时,对回归系数的解释是危险的。。多重共线性8.2.8常见的违背经典假设的情况63

多重共线性8.2.8常见的违背经典假设的情况64

异方差8.2.8常见的违背经典假设的情况651、异方差产生的原因(1)模型设定误差。在求解问题时选择了错误的解释变量或是错误的数学模型,例如,将对数模型误选为线性模型将带来较大误差。(2)存在测量误差。测量误差往往难以避免,而且随着时间积累、测量范围变大以及测量技术的更改,都会导致测量误差产生变化。(3)模型中缺少某些解释变量。若是忽略了模型中本该含有的解释变量,则这个被忽略的变量的影响就会在误差项中体现,从而易产生异方差性。(4)各种因素导致的异常值出现。人类、社会的行为会导致异常值的产生,比如宏观政策的变动、经济形势变化等等。异方差8.2.8常见的违背经典假设的情况66

异方差8.2.8常见的违背经典假设的情况673、异方差的检验及补救方法检验方法有图示法、Park检验、Glejser检验、Goldfeld-Quandt检验和White检验,可以参阅计量经济学方面书籍补救方法(1)加权最小二乘法。加权最小二乘法具体而言就是对原最小二乘法模型进行加权,使其不再具有异方差性,之后再进行参数估计。其基本思路是∶对较小的残差平方和赋以较高的权重,而对较大的残差平方和赋以较小的权重,以此来对残差平方和表现出的偏离中心程度的信息加以修正。异方差8.2.8常见的违背经典假设的情况68

异方差8.2.8常见的违背经典假设的情况69

自相关8.2.8常见的违背经典假设的情况70

自相关8.2.8常见的违背经典假设的情况712、自相关产生的主要原因(1)惯性。经济时间序列往往存在明显的惯性,或者可以理解为一种冲击的滞后效应,具体表现是经济时间序列变化能持续一段时间地保持原有的发展势头。(2)模型设定误差。模型设定误差往往表现为错误选择函数模型和忽略了带有自相关的解释弯量。与异方美性的产生相似,选择错误的数学模型以及忽略了该含而未含的变量,都可能产生自相关性。(3)数据处理过程带来的自相关。在数据使用中人们会对数据进行一定的处理,数据内插、外推、平均等操作都可能会引入自相关。自相关8.2.8常见的违背经典假设的情况72

自相关8.2.8常见的违背经典假设的情况73

自相关8.2.9SPSS回归分析实例74在引入案例中,选取20个总票房最高的电影的数据),使用SPSS求数据中的豆瓣评分、评分标准差、平均票价,三个元素分别与总票房的关系。第一步在【数据区】输入需要进行分析的数据,并在【变量视图】修改变量名字、确定计算精度,最终结果如图8-14所示,图中仅显示部分数据。8.2.9SPSS回归分析实例75第二步选择【图形】→【旧对话框】→【散点图/点图】。8.2.9SPSS回归分析实例76第三步通过票房与评分、票房与评分标准差、票房与平均票价的散点图,判断它们是线性关系还是非线性关系,并得到线性回归方程,如图8-16、图8-17、图8-18所示。由图可知,平均票价对电影的票房影响较小,且不呈线性关系,因此接下来主要考虑评分与评分标准差。8.2.9SPSS回归分析实例778.2.9SPSS回归分析实例788.2.9SPSS回归分析实例798.2.9SPSS回归分析实例80第四步选择【分析】→【回归】→【线性】,如图8-19所示。8.2.9SPSS回归分析实例81第五步将自变量与因变量移动至相应框内,选择【统计】、在功能框中可以根据要求勾选多种功能,如图8-20所示;同时,在【图】、【选项】中还有其他一些参数设置。选择功能后点击【继续】→【确定】则可得到最终结果。8.2.9SPSS回归分析实例82第六步我们可以通过判定系数初步判定拟合效果较好;如表8-5所示,方差分析的显著性值=0.000<0.01<0.05,表明由自变量和因变量建立的线性关系回归模型具有极显著的统计学意义。表8-4模型摘要模型RR方调整后

R方标准估算

的错误更改统计德宾-沃森R方

变化量F变化量自由度1自由度2显著性

F变化量10.9850.9710.96827.055530.971301.4512180.0000.573注:预测变量为(常量),评分标准差,评分;因变量为票房。表8-5显著性情况模型平方和自由度均方F显著性1回归441325.7762220662.888301.4510.000残差13176.03318732.002总计454501.81020注:因变量为票房;预测变量为(常量),评分标准差,评分。第3节非线性回归分析831、双曲线回归2、幂函数曲线回归3、对数曲线回归4、SPSS操作实例第3节非线性回归分析84

8.3.1双曲线回归85

8.3.2幂函数曲线回归86

8.3.3对数曲线回归87

8.3.4SPSS操作实例88流通费用率,又称为流通费用水平,是商品流通费用总额对商品销售额的百分比。一定时期内,在实现的销售额一定的情况下,支出的费用越少,表明费用节约程度越高,体现为经济效益越好。即流通费用率越低,劳动耗费越节约。现随机调查了9个商店的销售额与流通费率,其关系如下∶x销售额/万元:1.54.57.510.513.516.519.522.525.5y流通费率/%:7.04.83.63.12.72.52.42.32.2试分析流通费率与销售额之间的关系。使用SPSS软件解决此问题有两个思路,分别是"曲线估算"与"非线性回归"功能。本书介绍比较简单的"曲线估算"思路。8.3.4SPSS操作实例89第一步在【数据区】输入需要进行分析的数据,并在【变量视图】修改变量名字、确定计算精度,最终结果如图8-24所示(图中仅显示部分数据)。8.3.4SPSS操作实例90第二步选择【分析】→【回归】→【曲线估算】,如图8-25。8.3.4SPSS操作实例91第三步将因变量、自变量移动至右侧位置,并选择打算用来估算的曲线类型。在模型选项中,可以选择二次、对数等模型。8.3.4SPSS操作实例92第四步得到各曲线估算的数据,如表8-6所示,可以看出,对数曲线的拟合效果最好。表8

-

6模型摘要和参数估算值方程模型摘要参数估算值R方F自由度1自由度2显著性常量对数0.973255.177170.0007.398-1.713二次0.95461.831260.0007.246-0.5220.013三次0.995354.952350.0008.165-0.9170.049

-0.001幂0.993963.557170.0008.517-0.426S0.84337.605170.0000.8741.781指数0.85039.731170.0005.685-0.044注:因变量为流通费率;自变量为销售额。8.3.4SPSS操作实例93

8.3.4SPSS操作实例94第五步采用对数曲线,得到结果∶由图8-27可得回归方程8.3.4SPSS操作实例95补充方法∶非线性回归分析除了上述的【分析】→【回归】→【曲线估算】方法,还可以使用【分析】→【回归】→【非线性】的方法,但是此方法较为复杂。简单来说,就是通过写出确定参数初始值和参数范围,输入模型表达式并调整参数,经过多次迭代后得到计算结果,如图8-28所示。第4节含定性自变量的回归

968.4.1定性自变量的引入97定性自变量的取值本身是用文字来描述的。在回归分析中、对于一些自变量是定性变量的情形先给予数量化处理,要想把定性自变量引入模型,必须将其文字描述转换为数字代码。在对定性变量进行回归分析时,需要将定性变量转换为虚拟变量(dummyvariables)引入回归方程,所得的回归结果才有明确意义。8.4.1定性自变量的引入98

8.4.1定性自变量的引入99

8.4.1定性自变量的引入100

8.4.1定性自变量的引入101虚拟自变量的引入使得定性数据的回归系数具有物理意义。例如,如果是单—虚拟变量,如性别(1=男,0=女),以此对y回归,这一虚拟变量的系数含义为“在其他条件不变的情况下,男性相对于女性的y值高出/低出多少”。高出或低出取决于系数正负号。如果是多类别变量生成的虚拟变量,比如所在方位(东=1,西=2,南=3,北=4),以东为基准生成3个虚拟变量,变量2的系数表示,在其他条件不变的情况下,西方相对于东方的y值高出/低出多少;其他两个系数也是相对于东方而言的。8.4.1定性自变量的引入102理论上,虚拟变量取“0”值通常代表比较基础的类型;而虚拟变量取“1”值通常代表被比较的类型。即“0”代表基期,为比较的基础;“1”代表报告期,为被比较的效应,类似于假设检验中的原假设和备择假设的意思。例如,比较改革开放前后的国民经济水平时,研究的是改革开放后的经济水平是否高于改革开放之前,是将改革开放前的经济水平作为比较的基础,故将该虚拟变量设置为“0”和“1”选取原则8.4.1定性自变量的引入103虚拟变量是非此即彼的问题,一般情形下,虚拟变量的取值为0和1。当虚拟变量取值为0时,表示某种属性或状态的类型或水平不出现或不存在;当虚拟变量取值为1时,表示某种属性或状态的类型或水平出现或存在。0、1代表是否,1、2、3、4表示等级,本书涉及的定性变量的回归问题大部分都是关于是否的问题,很少涉及等级问题。“0”和“1”选取原则8.4.1定性自变量的引入104

属性因素与虚拟变量数量的关系8.4.1定性自变量的引入105

属性因素与虚拟变量数量的关系8.4.2含定性自变量的回归模型106

8.4.3含一个定量自变量和一个二值定性自变量的回归107

无交互作用的模型108无交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归109解由题意可以构建模型因此,对于非股份制公司,对于股份制公司,如图8-29所示,对于不同类型的公司,因变量之差体现在截距上。无交互作用的模型图8-29不同类型公司的回归线8.4.3含一个定量自变量和一个二值定性自变量的回归110

无交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归111

具有交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归112

具有交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归113

具有交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归114

具有交互作用的模型图8-30含交互作用的不同类型公司的回归图像8.4.3含一个定量自变量和一个二值定性自变量的回归115

具有交互作用的模型8.4.3含一个定量自变量和一个二值定性自变量的回归116含定性数据的回归分析中的定性自变量也可能有多个取值,此时其回归模型和交互项的设定均与二值定性自变量不同。例如,研究员工年薪与年龄和学历水平的关系,可将学历分为三个互相排斥的水平∶高中以下、高中、大学或以上。当我们认为年龄与学历水平之间无交互作用时,引入的虚拟变量为∶无交互作用的模型8.4.4含一个定量自变量和一个多值定性自变量的回归117

无交互作用的模型8.4.4含一个定量自变量和一个多值定性自变量的回归118

具有交互作用的模型8.4.4含一个定量自变量和一个多值定性自变量的回归119

8.4.4一个定量自变量和两个定性自变量的回归120

8.4.4一个定量自变量和两个定性自变量的回归121

8.4.4一个定量自变量和两个定性自变量的回归122

8.4.4一个定量自变量和两个定性自变量的回归第5节含定性因变量的回归

1238.5.1逻辑回归124

逻辑回归模型8.5.1逻辑回归125

逻辑回归模型8.5.1逻辑回归126

逻辑回归模型8.5.1逻辑回归127

估计的逻辑回归模型8.5.1逻辑回归128似然函数的函数值反映了在所确定的拟合模型为真时,该模型能够较好地拟合样本数据的可能性,似然函数值实际上也是一种概率值,取值在0~1之间。在回归分析中,通常对似然函数值取对数,得到对数似然的数,对数似然函数值越大意味着模型拟合样本数据的可能性越大,拟合优度越高。对数似然函数为∶估计的逻辑回归模型

8.5.1逻辑回归129

逻辑回归系数的意义8.5.1逻辑回归130

逻辑回归系数的意义8.5.1逻辑回归131定义8.23平均偏效应(averagemarginaleffect,APE)表示将样本中所有个体的偏效应取平均而得到的常数比例因子,对一个连续解释变量,平均偏效应表示为∶由于平均个人偏效应(PEA)中使用了变量平均值的非线性函数,而平均偏效应(APE)中使用的是非线性函数的平均,因此两种方法计算得到的偏效应值往往不同。逻辑回归系数的意义8.5.1逻辑回归132【例8.11】某商场在推广某一产品时发现顾客的购买倾向受顾客年龄的影响。为了验证这一现象,该商场通过调查取得数据,构造了逻辑回归模型。其中,顾客是否愿意购买该产品为因变量,顾客年龄为自变量。根据回归模型的参数估计值和样本的数据可以计算得出平均个人偏效应(PEA)和平均偏效应(APE)。逻辑回归系数的意义8.5.1逻辑回归133

逻辑回归系数的意义8.5.1逻辑回归134从结果中可以看出,由于逻辑回归模型中,自变量与购买概率之间的关系是非线性的,年龄对购买概率影响的平均个人偏效应和平均偏效应存在差异。年龄对顾客购买倾向的影响的平均个人偏效应可以理解为当年龄变量在样本均值附近时,顾客购买该产品的概率增加了PEA年龄对顾客购买的影响的平均偏效应可以理解为在自变量值域范围内,年龄每增长1个单位,顾客购买该产品的概率平均增加APE。逻辑回归系数的意义8.5.1逻辑回归135

逻辑回归系数的意义8.5.1逻辑回归136

逻辑回归系数的意义8.5.1逻辑回归137

逻辑回归系数的意义8.5.1逻辑回归138

显著性检验与评价8.5.1逻辑回归139

显著性检验与评价8.5.1逻辑回归1402、整体模型的评价为了了解Logistic回归模型的拟合情况和解释能力,统计学家也提出了许多伪判定系数(Pseudo-R2)指标作为近似量度。SPSS软件默认输出两种以创建者命名的Pseudo-R2(Cox&SnellR2和NagelkerkeR2),它们都是参照线性回归中的判定系数R2人为定义得到的。然而,Cox&SnellR2伪判定系数的上限不确定,即当模型能够完美地预测解释变量时,该指标的值无法取到1,Nagelkerke对该公式进行了修正:显著性检验与评价8.5.1逻辑回归141

显著性检验与评价8.5.2对数线性回归142对数线性回归的基本思想:是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型,然后运用类似方差分析的基本思想,以及逻辑变换来检验各变量及其交互效应的作用大小。利用对数线性模型的好处:不仅可以直接进行预测,而且可以增加定量变量作为模型的一部分。8.5.2对数线性回归143根据表中的交叉单元格以及单元格内的频数数据,联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系,但不适用于多个分类变量对数线性模型与混合线性模型有类似之处,两者都是围绕分类变量展开的,多项分布对数线性模型8.5.2对数线性回归144

多项分布对数线性模型8.5.2对数线性回归145

多项分布对数线性模型8.5.2对数线性回归146

多项分布对数线性模型8.5.2对数线性回归147

多项分布对数线性模型8.5.2对数线性回归148

Poisson对数线性模型8.5.2对数线性回归149Poisson对数线性模型表8

-

16不同年龄、性别和购买能力与商品预购件数数据#SPAC#SPAC#SPAC11112.27211311.69412212.5821118.63221317.23422218.3931125.38231324.510432226.0741133.611241331.07442230.9751138.67251337.96452239.91161143.85261345.210462246.31171152.89271352.56472252.21081160.16281358.29482258.5591164.76291365.38492266.510101172.76301371.49502273.61211128.912312113.5351239.67121219.65322117.64522317.511131225.913332124.88

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论