回归分析线性回归Logistic回归对数线性模型.ppt_第1页
回归分析线性回归Logistic回归对数线性模型.ppt_第2页
回归分析线性回归Logistic回归对数线性模型.ppt_第3页
回归分析线性回归Logistic回归对数线性模型.ppt_第4页
回归分析线性回归Logistic回归对数线性模型.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、退货分析线性退货逻辑回归对数线性模型,吴喜志,2,退货分析,顾客对商品和服务的反映对企业来说非常重要,但仅仅满足顾客的比例是不够的,企业想知道哪些因素影响顾客的看法,这些因素是如何工作的。一般来说,统计可以根据人们目前所拥有的信息(数据)来建立人们关心的变量与其他相关变量(称为模型)之间的关系。如果y用于表示感兴趣的变量,x用于表示可能相关的其他变量(可能是由几个变量组成的向量)。需要的是建立一个函数关系Y=f(X)。这里y被称为因变量或响应变量,而x被称为自变量或解释变量或协变量。建立这种关系的过程叫做返回。3,收益分析,一旦建立了收益模型,我们就可以对各变量之间的关系有进一步的定量了解,我

2、们也可以用这个模型(函数)通过自变量来预测因变量。这里所说的预测是通过模型利用已知的独立变量值来估计未知的因变量值;它不一定涉及时间序列的概念。有50名学生从初中升到了高中。为了比较三年级和高中的成绩是否相关,获得了三年级和一年级学生的平均成绩(数据:highschool.sav)。从这幅画中能看到什么?5,有定性变量,在这个数据中,除了三年级和一年级,还有一个定性变量,即一年级学生的家庭收入;它有三个级别:低、中、高,在数据中分别用1、2、3表示。6,还有定性变量,下面是一年级和一年级与三年级三个收入差异的方框图,7,案例1:相关系数,8,SPSS相关分析,相关分析(hischool.sav

3、)利用SPSS选项:AnalizeCorrelateBivariate变量,然后选择两个相关变量(这里是j3和s1),选择皮尔森,斯皮曼和肯德尔。9,定量变量的线性回归分析,示例1中两个变量的数据的线性回归是为了找到一条直线来最好地表示散点图中的那些点。10、测试问题等。对于系数b1=0的测试,对于拟合f检验R2(确定系数)SSR/SST,它可能由于独立变量的增加而增加(有一个根据自由度修改的确定系数:调整后的R2),并且R等于简单回归中的相关系数,11,回到示例1: R2等。12,SPSS的回归分析,线性回归分析(hischool.sav),当独立变量和因变量都是定量变量时,使用SPSS选项

4、:AnalizeRegressionLinear,然后选择相关的独立变量作为自变量,因变量作为因变量,然后确定。如果有多个独立变量(多元回归模型),它们都可以选择。,多元自变量的回归,如何解释拟合线?什么是逐步返回方法?14,示例:RISKFAC.sav,不包括序列号和(192)个国家,有21个变量,包括地区、清洁水的使用(在城镇和乡村)、生活污水处理、酒精消耗(升/年人)、医生人数(每10,000人)、护士和助产士人数、卫生工作者人数、医院床位数、护士和助产士与医生的比例、卫生支出占总支出的比例、成人识字率、人均收入美元、每1,000名新生儿中5岁前死亡人数, 人口增长率,预期寿命(年),每

5、100,000名新生儿中母亲的死亡人数,15,16,例如:RISKFAC.sav,这一数据中有许多相关变量和许多缺失值。 假设应该使用各种变量来描述五岁前的死亡人数(因变量)。你可以做定量变量的成对相关或成对散点图等。或者使用逐步返回来消除变量,以便找出关系的细节。17,示例:RISTFAC . sav :相关性,18,示例:RISTFAC . sav :逐步回归,选择妇女预期寿命和农村清洁水作为独立变量(第二个独立变量相对不太重要,p值=0.019),模型:妇女预期寿命模型:农村清洁水,19,RISTFAC . sav:散点图和独立变量相关性皮尔逊相关性,20,RISTFAC . sav:散

6、点图和独立变量相关性非参数测量,KendallSpearman,21,介绍Levarage值。它描述了到数据总体的距离。高杠杆点对收益率参数有很大影响,但其残差通常很小。库克统计。它结合了剩余误差和杠杆价值,因此它反映了剩余误差和杠杆的影响(更全面)。整个模型(两个独立变量:女性预期寿命和农村清洁水),23,风险因素分析系统:整个模型中异常点的诊断:残差,96(莱索托),23(博茨瓦纳),153(塞拉利昂),11模型:女性预期寿命模型:农村清洁水,24,风险因素分析系统:整个模型中异常点诊断的高杠杆点,23(博茨瓦纳),140(罗马尼亚),192(津巴布韦),模型:女性预期寿命模型:农村清洁水

7、,25,风险因素分析系统140(罗马尼亚),模型:女性预期寿命模型:农村清洁水,26,模型1因变量和独立变量散点图X:女性预期寿命(年数)Y:每千名出生人口中5岁前死亡人数,27,RISCFAC . sav:仅女性预期寿命用作独立变量,模型:全模型:农村清洁水,28,RISCFAC . sav模型1异常点诊断残差,23(博茨瓦纳),96(莱索托),192(津巴布韦),模型:全模型:农村清洁水,29,RISCFAC . sav 异常点诊断的高杠杆点并不突出,模型:全模型:农村清洁水,30,RISCFAC . sav:异常点诊断的库克距离,192(津巴布韦),96(莱索托),23(博茨瓦纳),模型

8、:全模型:农村清洁水模型2的因变量和自变量的散点图x:农村清洁水使用y:每千名出生人口中5岁前的死亡人数,32,RISCFAC . sav:仅农村清洁水使用,模型:全模型模型:女性预期寿命,33,140(罗马尼亚),RISCFAC . sav:农村清洁水使用模型2:异常点诊断的高杠杆点不突出,模型:全模型:女性预期寿命,35,模型2:异常点诊断的库克距离,140(罗马尼亚),模型3:全模型:女性预期寿命,36。解释这个例子的结果,它们可能不适合这个模型。模型2(对应模型)的“异常点”是罗马尼亚;它可能不适合此型号。从散点图来看,第一个模型更加线性。两个独立变量模型的“异常值”是单个模型的“异常

9、值”的混合。事实上,一个独立变量就足够了。这两个独立变量是相关的。当然是第一个。也许最好去掉异常点,然后重新建模。,37,自变量中有定性变量,在例1的数据中,也有一个定性变量“收入”,它以虚拟变量或虚拟变量的形式出现;这里,“低”、“中”和“高”的收入用1、2和3表示。因此,使用该假人进行之前的返回是不合理的。以例1的数据为例,下面的模型可以用来描述:和38,以及自变量中带有定性变量的收益率。现在,只需估计b0、b1、A1、A2和A3。假人本身的每个参数a1、a2、a3只有相对重要性,因此不可能估计所有三个参数,只能在约束条件下进行。约束条件有多种选择。默认条件之一是将参数设置为0,例如a3=

10、0,这样就可以估计出a1和a2,这两个参数具有相对的含义。对于示例1,B0、B1、A1、A2和A3的估计值分别为28.708、0.688、-11.066、-4.679和0。此时,有三条拟合线,三个家庭收入各有一条为33,360,39,例如:RISKFAC.sav:因变量:成人识字率,自变量:地区(属性变量),人口增长率,人均收入,40,41,SPSS实现(hischool.sav),分析一般线性模型单变量,在选项中选择参数估计,然后在主对话框中选择因变量(s1),协变量(j3)和因素(收入)。然后单击“模型”,在“指定模型”中选择“自定义”,在右侧选择两个相关的独立变量,并在以下“建筑术语”中

11、选择“主要效果”。继续-好,你得到结果(系数和测试等)。)。SPSS语法:单因素方差分析S1按收入与JBOY3乐队/方法=SS类型(3)/截距=包含/标准=(05)/设计=收入JBOY3乐队。43岁。注意这里的线性回归只是回归,然而,任何模型都是近似的;线性回归当然没有什么不同。长期以来,人们对它进行了广泛而深入的研究,主要是因为它在数学上比较简单。它已经成为其他回归的基础。这些模型应该总是被批判性地看待。44,示例2这是200个不同年龄和性别的人对服务产品的认知数据。年龄是一个连续变量,性别是一个定性变量,有男性和女性两个级别(分别用1和0表示),而(定性)变量“观点”是一个定性变量,有两个

12、级别的认可(用1表示)和不认可(用0表示)。从这两幅图中你能看到什么?45,逻辑回归,示例2是关于200个不同年龄和性别的人对服务产品的看法的数据(二元定性变量)。这里,视图是只有两个值的因变量;然而,与简单的伯努利检验不同,这里的概率p是年龄和性别的函数。可以假设下面的(逻辑回归)模型,46,逻辑回归,被拟合到一个没有性别作为独立变量(只有年龄x)的模型,以便逐渐接近,47,并且逻辑回归模型的拟合结果很容易得到b0和b1分别估计为2。合适的型号是,48。Logistic模型的拟合结果,结合性别变量,显示b0,b1和a0,a1分别估计为1.722,-0.072,1.778和0。可以看出,当男女

13、混合时,年龄的影响与男女相似(0.069),而女性比男性更有可能被认可(A0,49,拟合的年龄概率图,50,hos mer-lemeshow-fit-善良,其中p=0.602(不显著)。请注意,在这里是“重要的”,这意味着配件不好!51,SPSS逻辑回归(logi.sav),当自变量是一个数量变量时:使用SPSS选项:分析回归二元逻辑回归,然后选择因变量(意见)和自变量(年龄)成协变量,就可以得到结果。当独立变量是数量变量和数量变量时:使用SPSS意见:分析回归二元逻辑,然后选择因变量,选择独立变量(年龄和性别)为协变量,然后单击分类。选择定性变量性别进入定性协变,并返回主对话框。您可以在选项

14、中选择Hosmer-Leme显示拟合优度测试,然后单击确定获得结果。对数线性模型,多元对数线性模型,泊松对数线性模型,53,高维列联表和多元对数线性模型。上例中的原始数据是一个三维列联表,三维列联表的测试是相似的。然而,在计算机软件中,高维列联表的选项可以不同,并且可以构建所谓的(多项分布)对数线性模型用于分析。使用对数线性模型的优点是,它不仅可以直接预测,而且还可以添加定量变量作为模型的一部分。54,多项式分布的对数线性模型。现在,我们通过二维表格简单直观地介绍对数线性模型,假设不同的行代表第一个变量的不同级别,不同的列代表第二个变量的不同级别。用mij表示二维列联表第I行和第j列的频率。人

15、们经常假设这个频率可以由下面的公式来确定:这就是所谓的多项式分布的对数线性模型。这里ai是行变量的第I级对ln(mij)的影响,而bj是列变量的第jth级对ln(mij)的影响。这两种影响被称为主要影响。Eij代表随机误差。55,一个多项式分布的对数线性模型,它看起来非常类似于回归模型,但由于对分布的不同假设,它不能简单地应用于线性回归方法(类似于逻辑回归);计算过程也非常不同。当然,我们把这个留给电脑去担心。只要用数据来拟合这个模型,就可以得到参数m(无意义)的估计以及ai和bj的“估计”。利用估计的参数,我们可以预测I和j的任何水平组合的频率mij(通过其对数)。注意,这里引用估计的原因是因为变量的每个级别的影响都是相对的,所以仅通过预先固定参数值(例如a1=0)或设置类似Sai=0的约束就可以估计每个值。没有约束,这些参数就无法估计。56,多项式分布的对数线性模型,以及更完整的二维列联表的对数线性模型,其中(ab)ij表示第一变量的ith水平和第二变量的jth水平对ln(mij)的联合影响(交叉效应)。也就是说,当单独行动时,每个变量的一个级别对ln(mi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论