样本一元线性回归方程课件_第1页
样本一元线性回归方程课件_第2页
样本一元线性回归方程课件_第3页
样本一元线性回归方程课件_第4页
样本一元线性回归方程课件_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 调查资料的统计分析第一节 统计分析概述第二节 单变量统计分析 一、频数分布与频率分布 二、集中趋势分析 三、离散趋势分析第三节 双变量统计分析 一、交互分类 二、相关分析 三、回归分析第四节 推论统计 第一节 统计分析概述一、统计分析的含义与作用运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。1为社会调查研究提供一套精确的形式化语言2使抽样调查成为可能3有助于揭示社会现象的规律4有助于较精确地预测社会现象的发展趋势含义作用二、统计分析的特点统计分析要以定性分析为基础根据研究目的制定具体的统计分析计划统计分析的内容集中趋势

2、分析离散趋势分析相关分析回归分析区间估计假设检验描述统计推论统计用最简单的概括形式反映出大量数据资料所容纳的基本信息从样本调查中所得的数据资料来推断总体的情况基本方法基本内容第二节 单变量统计分析一、频数分布与频率分布 所谓频数分布,就是指一组数据中取不同值的个案的次数分布情况,它一般以频数表的形式表达。某班有25名学生,其年龄情况如下:20, 19,18, 19,18,20, 21, 17, 18, 18, 19,19, 20,19,19, 17, 18, 20, 19, 19,21,21,19,20, 19。年龄 ( 岁 ) 学生人数171819202125105325合计该班学生的年龄分

3、布表例如 频数分布表的作用 一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来; 二是从频数分布表中,可以更清楚地了解调查数据的众多信息。所谓频率分布,则是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,频率分布情况以频率表的形式出现。频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。例如年龄 ( 岁 ) 百分比1718192021820402012100合计某班学生的年龄分布SPSS操作例二、集中趋势分析所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数据的

4、一般水平,或向这个典型值集中的情况。最常见的集中趋势统计量平均数众数中位数 平均数 (算术平均数)用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。计算公式及应用举例由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1, 2, , n),则计算公式为:由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以单位总数,得出平均数。其计算公式为:由组距分组资料求平均数。先计算出各组的组中值Xm ,然后再按照单值分组资料计算平均数的公式计算。注:组中值是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计

5、算,即:组中值=(上限+下限)2若为开口组,其组中值按下列公式计算:缺下限的最小组组中值=上限-邻组组距2缺上限的最大组组中值=下限+邻组组距2例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33) 年龄(岁) 人数(f) 合计 15017181920212210255040205例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)收入(元)职工数(人)100140140180180220 220260 2

6、60-3001010402020合计100例:某单位职工月工资资料如下表,试求该单位职工月平均工资。(833.3元/人)按月工资额 分组 组/元组中值 X/元职工人数 f/人各组职工工 资额 X f/元600以下600- 800800-10001000-12001200以上 500 700 90011001300120250360 80 60 60 000175 000324 000 88 000 78 000合 计 870725 000中位数把一组数据按值的大小顺序排列起来,处于中央位置的那个数值叫中位数。中位数通常用Me表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比

7、它小。当数据为偶数个时,取中间两数的平均数。中位数的作用:不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。中位数的位次为:即第3个单位的标志值就是中位数例:某售货小组5个人,某天的销售额按从小到大的顺序排列为440元、480元、520元、600元、750元,则中位数的确定(未分组资料)中位数的位次为中位数应为第3和第4个单位标志值的算术平均数,即【例】若上述售货小组为6个人,某天的销售额按从小到大的顺序排列为440元、480元、520元、600元、750元、760元,则(未分组资料)【例】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)向上累计次数(人)10111213

8、147010038015010070170550700800合计800计算该企业该日全部工人日产量的中位数。中位数的位次:(单项数列) 为中位数所在组的组距。式中,假定中位数所在组的频数在该组内是均匀分布的。组距数列计算中位数:采用公式计算中位数的近似值:为数据的个数(总次数);L为中位数所在组的下限值;为中位数所在组以前各组的累积频数;为中位数所在组的频数; ACiXB个次数或频数,式中的C点AB区域即整个中位数所在的组内,次数分布是均匀的,依次分布着个次数或频数。 再假定AC区域内,次数分布也是均匀的,且依次分布着是中位数所在的位置,为中位数所在组以前各组的累积频数。 例、设某车间50名工

9、人日加工零件数分组表如下:按零件数分组(个)频数(人)频率(%)105110361101155101151208161201251428125130102013013561213514048合计50100计算该车间50名工人日加工零件数的中位数。众数 众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M表示。众数的求法由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故只需采用直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数即为 Xm。由组距分组资料求众数。由组距分组资料

10、求众数的常用的方法是组中值法。 用组中值法求众数分为三步:首先通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。 求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋势时才能计算众数。调查某年级150名学生的年龄,得到下列结果。首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。例如 年龄(岁) 人数(f)17181920212210255040205 合计 150某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:180220;最

11、后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计100 众数、中位数和均值都是对数据集中趋势的测度, 1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差;受极端值的影响较大。 2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。 3、众数是一组数据分布的峰值,是一种位置的代表,与数据出现的次数有关,当数据的分布具有明显的集中趋势时

12、,尤其对于偏态分布,众数的代表性比均值好。但具有不唯一性。 4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。 5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。 众数、中位数和均值的应用场合数据分布形状 Shape表明数据是如何分布的偏态Skew 与 对称Symmetry左偏: 均值中位数对称(零偏度) :均值 = 中位数右偏的左偏的对称的均值 = 中位数 = 众数均值 中位数 众数众数 中位数 均值三、离散趋势分析 离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组

13、数据相互之间的离散程度。作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系: 78 79 80 81 82 X80 数学系: 65 72 80 88 95 X80 政治系: 35 78 89 98 100 X80如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近

14、;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。 离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。结论集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。离散趋势统计量全距标准差异众比率四分位差离散系数对应众数平均数中位数对应对应 1全距也叫极距,它是一组数据中最大值与最小值之差。全距是离散趋势统计量中最简单的一种。在原始数据资料条件下,只需将全部数据按大小顺序排列,然后用最大值减去最小值即

15、可。全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。2、四分位差 四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。四分位差的符号通常用Q表示。Q=Q3Q1 而Q1 、Q3分别表示第一个四分位点和第三个四分位点。例:位分组

16、资料计算四分位差某班7位同学的成绩依次为:55,61,72,80,83,88,92。计算其四分位差。Q1=(N+1)/4 =2;Q2=2(N+1)/4 =4;Q3=3(N+1)/4 =6Q=(Q3-Q1)/2 =(88-61)/2 =13.5四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离散量数。 四分位差能够避免次数分配数列中两端极端数值的影响,中间部分数列分配愈集中,标志值的差异愈小,四分位差也愈小。 3标准差 标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号 来表示,其

17、计算公式根据资料的形式不同而稍有差别。 公式由原始数据计算标准差由单值分组资料计算标准差(f为X所对应的频数)由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:【例】某销售小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该销售小组销售额的标准差。解:即该售货小组销售额的标准差为109.62元。标准差计算例单项数列 :某村社会救助款额发放资料如表所示,求加权标准差。115.67元组距数列 :以下表资料为例,计算加权标准差。676.68万元社会救助款额 (元)人数 fXf(X-X)(X-

18、X)2(X-X)2f640750890940980 3 3 5 6 319202250445056402940-220-110 30 80 1204840012100900640014400 145200 36300 4500 38400 43200 合 计 2017200 267600保险基金 收缴额(万元)县市数(个)组中值(万元)Xf(X-X)(X-X)2(X-X)2f1000以下1000-15001500-20002000-25002500-30003000以上 6 14 17 32 21 1075012501750225027503250 4500175002975072000577

19、5032500 1390 890 390 110 610 11101932100 792100 152100 12100 372100123210011592600110894002585700387200781410012321000合 计 100 214000 457900004离散系数 离散系数是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。标准差与平均数的比值,用百分比表示。定义:标准差系数在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋

20、势统计量的代表性就越大。应用举例一项调查得到下列结果,某市人均月养老保险金为92元,标准差为17元;人均住房面积7.5平米,标准差为1.8平米。试比较该市人均养老保险和住房情况哪一个差异程度比较大。计算结果:人均养老保险的离散系数为18.5%,人均住房面积的离散系数为24%可见人均住房面积的差异情况比人均养老的差异情况要大。某校学生的平均年龄为20岁,标准差为2岁;该校教师的平均年龄为28岁,标准差为4.5岁。试比校学生年龄与教师年龄哪一个差异程度更大。计算结果:学生年龄的离散系数为10%,教师年龄的离散系数为11.8%可见教师年龄间的差异程度更大一些。以上是同一总体不同指标间的比较,下列则是

21、同一指标不同总体间的比较【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。解:一班成绩的标准差系数为:二班成绩的标准差系数为:因为 ,所以一班平均成绩的代表性比二班大。【例】 :如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢? 5异众比率异

22、众比率:一组数据中非众数的次数与总体全部单位数的比率。公式:(这里fmo为众数的次数)异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代表性也就越小。第三节 双变量统计分析一、交互分类1交互分类的定义与作用所谓交互分类,就是将一组数据按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类表的形式反映出来。老年 中年 青年合计小学以下初中高中中专以上 45 20 32 44 18 26 1 5 10 133 96 55 16合计100 100 100 3

23、00 上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。作用通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。结论即被调查者的文化程度与他们的年龄有关,并呈现出年龄越低,总体文化程度越高的状况。交互分类方法的适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用。二、相关分析交互分类主要处理的是定类(或定序)变量间的关系问题,对于定距及定比变量来

24、说,则有另一些方法来探讨。这里主要简单介绍相关系数的计算方法及一元线性回归模型。相关分析的意义社会、经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。 如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系则不能用简单的一些二元关系描述。 在分析变量的依存关系时,把变量分为两种:自变量因变量引起其他变量发生变化的量。受自变

25、量的影响发生对应变化的量如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。 函数关系可以用一个确定的公式,即函数式 或:Y=F(X)来表示。 现象之间的相互关系,可以概括为两种不同的类型:(一)函数关系(二)相关关系相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。 例、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有的相关关系;工资收入与工龄之

26、间的关系;工作业绩与文化程度的关系等等。相关关系分析 1.广义上的相关分析包括以下五个方面: (1)确定现象之间是否存在相关关系 (2)确定相关关系的表现形式 (3)判定相关关系的方向和密切程度 (4)对达到一定密切程度的相关关系建立适当的数学模型,以确定自变量与因变量之间数量变化的规律性。 (5)测定数学模型的代表性大小并根据自变量数值对因变量的数量变化做出具有一定概率保证程度的推算和预测。 2.前三个方面内容称为狭义的相关分析,后两方面内容的研究称为回归分析。单相关 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关 也称多元相关,是指三个或三

27、个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。相关关系的种类:1、按相关关系涉及变量的多少可分为:例 只研究家庭收入对消费支出的影响为单相关;如果研究家庭收入、家庭人员构成、家庭生活方式等因素对于家庭消费支出的影响则为复相关。正相关 当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。 负相关 当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。相关关系的种类:2、按相关的方向可分为:例国民生产总值与社会福利设施建设投资额,存在着同向增加的关系,为正相关

28、;教育程度与工资水平呈一定程度的反向关系;为负相关线性正相关价格700600500400300200消费量100806040200线性负相关非线性相关无(不)相关相关关系的种类:3、按相关关系的密切程度分为:完全相关 因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关 变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。完全不相关 自变量与因变量彼此独立,互不影响,其数量变化毫无联系。相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判

29、断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度定性和定量变量间的混和关系 假想关于高等学校的数据的一些指标包括:在校生人数(S),研究生比例(G), 教师人数(F), 职工人数(ST),SCI和SSCI文章数目(P), SCI和SSCI文章引用数目(Q), 科研项目数(PR),科研经费(B),总经费及招生范围(N)等 从该数据很难马上看到任何关系。但是从数据可以得到许多有用的关系和结论。如,可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系(因而可以建立模型,进行预测和各种推断);也可以利用其

30、中一些变量把各个高等学校分类;还可以把众多的变量用少数几个变量代替以利于分析和理解;数据可以作为高校排名的根据之一相关表相关关系的测定将两个变量伴随变动结果编成一张统计表,即相关表。简单相关表两个变量均不分组而形成的相关表。分组相关表对变量进行分组而形成的相关表。依两个变量是否同时分组,又分为:单变量分组相关表多变量分组相关表只对其中一个变量分组。对两个变量同时分组。简单相关表适用于所观察的样本单位数较少,不需要分组的情况分组相关表适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况两种相关表的适用范围企业编号月产量(千吨)X生产费用(万元)Y123456781.22.03.13.8

31、5.06.17.28.0628680110115132135160八个同类工业企业的月产量与生产费用简单相关表 例 简单相关表某市居民月消费支出和可支配收入相关表(单位:百元)平均每昼夜产量 固定资产原值35404045455050555560606565706006501 15506001235005502134505001517400450224350400030035022223543120(百万元)(吨)20个同类工业企业固定资产原值与平均每昼夜产量分组相关表相关图相关关系的测定将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。简单相关图根据未分组资料的原始数据直接绘制的相关

32、图。分组相关图根据分组资料绘制的相关图。正 相 关负 相 关曲线相关不 相 关xyxyxyxy用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关关系的测定相关图的绘制相关系数工具的选择:1 定类变量:可以使用卡方或者LAMBDA系数;2 定序变量,或者至少有一个定序:行与列相等时用GAMMA系数,其他用SOMERS D相关系数。3 定距和定比变量,或者定序取值达到或超过5:用皮尔逊相关系数。注意:在统计软件中一般把前两类的计算归于描述性统计类别里,而后者才在相关分析类别里。定类变量间的相关测定: 系数(Lambda

33、 )定类变量之间的相关系数,只能以变量值的次数来计算,常用Lambda系数法。例:性别与对吸烟的态度资料见下表性别与对吸烟态度 态度y 性别x 男 女 合计(Fy) 容忍 反对 37 15 8 42 45 57 合计(Fx) 52 50 102 AnalyzeDescriptive Statistics CrosstabsSpss操作自行练习,参见SPSS.11_0统计分析教程.(基础篇)第14章定序变量间的相关测定:G系数(Gamma)例:管理人员的管理能力与声望的交互分类表声望y 管理能力x 高低合计(Fy) 高 低37 15 8 42 45 57 合计(Fx) 52 50 102 SPS

34、S中列联表分析的常用方法1、适用于两定类变量的方法2、适用于两定序变量的方法3、适用于一定类变量、一定序变量的方法定类与定序变量间的相关测定在SPSS中的分析工具主要位于描述性统计类别Crosstabs之中。具体分类如下文所述:1、适用于两定类变量的方法Phi系数:适用于22的列联表,是对Pearson卡方统计量的修正。卡方值容易受样本量的影响。Phi系数是一种排除样本量影响的卡方检验修正方法。Gramers V系数:V系数也是对Pearson卡方统计量的修正。V系数在考虑了样本数影响的同时,还考虑了列联表的单元格数。V系数的取值在01之间,越接近1表明变量的相关系数越强。2、适用于两定序变量

35、的方法这些方法都是围绕“同序对数”与“异序对数”展开的,它们是变量相关性检验的给参数方法中的两个重要指标。如果同序对占多数,则认为两个变量为正相关;如果异序对较多,则认为两变量为负相关;如果同序对和异序对数大致相同,则认为两个变量无线性关系。2、适用于两定序变量的方法Kendalls tau-b 系数:取值范围在-1+1之间,正负符号代表相关方向。绝对值越接近1,变量的相关性越强。通常用于方形列联表。Kendalls tau-c系数:取值范围在-1+1之间,绝对值越接近1,变量的相关性越强。通常用于任意格数的列联表。Gamma系数:取值范围在-1+1之间,绝对值越接近1,变量的相关性越强。通常

36、用于22列联表。3、适用于一定类变量、一定距变量的方法Eta系数:该方法的核心思想类似于单因素方差分析。它通常是将定类变量当作控制变量,将定距变量当作观测变量,然后分析观测变量的变差中,有多少比例是可由控制变量解释的,是因控制变量取值的变化而引起的。 Eta系数的平方和取值在01之间。 Eta系数的取值范围也在01之间,越接近1,表示两变量的相关系数越强。4、定距变量与定距变量直接用Correlation不宜用列联表频数分析。定类与定序变量间的相关测定例:Eg:德育调查数据分析定距、定比变量间的相关测定例:Eg:国民生产总值与第三产业产值相关分析 表 我国人均国民收入与人均消费金额数据 单位:

37、元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi ,yi),i =1,2,,13,数据见表,计算相关系数。解:根据样本相关系

38、数的计算公式有 人均国民收入与人均消费金额之间的相关系数为 0.9989相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;警惕虚假相关使用相关系数时应注意的问题:三、回归分析 相关分析的目的在于了解两个变量之间的关系强度,即用相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X和Y哪个是原因,哪个是结果回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以使依据回归方程对未知的情况进行估计。即回归分析增加了因果性,并具有了预测的功能,因此,它比相关分析作用更大。回归分析通过一

39、个变量x或一些变量(x1,x2,x3)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。简单线性回归模型 自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。XYXY回归分析的分类根据变量的多少分为:简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根

40、据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合例:研究广告费对特定商品销售量的影响时,这种回归分析就称为简单回归研究广告费、产品质量、商品价格、消费者收入及行为偏好等多种因素对商品销售量的影响时,这种回归分析称为多元回归。上例中,自变量和因变量分别是什么? 回归分析与相关分析的关系1. 区别 (1)相关分析所研究的两个变量是对等关系 回归分析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。 (2)相关分析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的

41、数值; 回归分析可以根据研究目的分别建立两个不同的回归方程。 (3)相关分析中两个变量都必须是随机变量; 回归分析中自变量是给定的变量,因变量是随机变量。 (4)相关分析测定相关程度和方向, 回归分析用回归模型进行预测和控制。回归分析与相关分析的联系 (1)相关分析是回归分析的基础和前提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。 (2)回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。指根据成对的两个变量的数值,配合直线方程式

42、,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;i是一个随机变量,其平均数为0,方差为2. 总体回归模型简单线性回归模型总体一元线性回归方程1、正态性假定 3、线性假定 2、同方差假定 4、独立性假定 当确定某一个Xi时,相应的Y就有许多Yi值与之对应。Yi是一个随机变量,这些Yi构成一个在X取值为Xi条件下的条件分布、并假设其服从正态分布。假定所有Yi这一条件分布的方差是相等的。 假定所有Yi这一条件分布的平均数位于一条直线上,这条直线为Yi=A+BX, 假

43、定Yi之间是独立的,也就是说抽样时,Y的值在每取一个X值的条件分布相互独立。 简单线性回归模型的假设在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:其中:a,b和ei分别为A、B及i的估计量。 由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。样本回归模型简单线性回归模型截距斜率一元线性

44、回归方程的可能形态为正为负为0一元线性回归方程的几何意义总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。一元线性回归方程中参数a、b的确定:最小平方法基本数学要求整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有: 例 一个10户居民的可支配收入 (百元)与消费支

45、出(百元)的统计资料按升序排列入下表(相关表):消费支出 15 20 30 40 42 53 60 65 70 78可支配收入 18 25 45 60 62 75 88 92 99 98消费与可支配收入的相关图计算回归系数y= -0.208 + 0.718x从回归模型可知:居民每增加1元的可支配收入,将增加0.718元用于消费支出。 因此,如果估计其中一位居民可支配收入提高到100元,则可预测其消费支出将上升到71.556元。线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。一般线

46、性回归的基本步骤: 确定回归方程中的自变量和因变量。 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。 建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。 对回归方程进行各种统计检验。(R2,F检验,t检验) 利用回归方程进行预测。回归分析的内容和步骤 对线性回归方程,需要测定方程的拟合程度、检验回归方程和回归系数的显著性。 (1)拟合优度检验(R2) 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为回归分析的统计检验 (2)回归方程的显著性检验(F检验)多元线性回归方程的显著性检验一般采用F检验,

47、利用方差分析的方法进行。方差分析中的F检验用于检验回归模型与数据的拟合程度,如果F值很大并且显著性水平(Sig)小于临界值如0.05或者0.01,则表明预测变量与指标变量之间存在很强的线性关系,也可以说回归方程显著。 (3)回归系数的显著性检验(t检验)回归系数的显著性检验是检验各自变量x1,x2,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。t 检验是用于检验回归方程各个参数是否显著为0 的单一检验。如果t值对应的显著性水平(Sig)小于临界值如0.05或者0.01,则表明该自变量对y的影响是显著的。 例:以employee data.sav为例,以Curr

48、ent Salary为因变量,自行选择自变量,分别尝试进行一元线性回归和多元线性回归分析,并给出相应的模型解释。第四节 推论统计推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:一是参数估计,一是假设检验。其中参数估计包括:点估计(直接用样本指标作为总体指标的估计值)区间估计参数估计的方法有点估计和区间估计二种.区间估计给出总体未知参数所在的可能区间即置信区间,它会随样本的不同而不同,可以解决参数估计的精确度与可靠性问题,它能够以一定的置信度保证估计的正确性.置信度与精确度关系:一般情况下,置信度越高, 允许误差越大,精确度越低.在样本容量一定时,通常是

49、在确保一定置信度的前提下提高精确度.掌握的样本不同所用区间估计的公式不同.简单随机抽样待估计参数已知条件置信区间正态总体,2已知正态总体,2未知n30非正态总体,n30 未知时,用S有限总体,n30(不重复)总体均值 ()未知时,用S区间估计公式(1)(一)一个总体均值的区间估计已知原始数据资料的参数估计 -Analyze Compare means 单个总体均值的区间估计步骤:1、选择Analyze Compare means one-sample T Test 对话框检验值栏选择置信度和控制缺失值处理检验变量栏Options子对话框- 选择置信度和控制缺失值处理删除所有带缺失值的观测量只删

50、除与分析有关的带有缺失值的观测量(二)两个总体均值之差的区间估计待估计参数已知条件置信区间两个正态总体已知两个正态总体未知但相等两个非正态总体n1,n230两个总体均值之差1-2 区间估计公式(2)两个总体均值之差的区间估计步骤1、若是两个独立样本(n1 n2 )则运行两个独立样本之差的T检验Independent-Samples T Test过程;2、若是两个独立样本(n1=n2 ),则运行两个配对样本均值之差的T检验Paired Samples T Test过程.意义:运行检验过程可得两个总体均值之差在一定把握程度下的区间估计.二者比较:利用配对样本可使两个样本中许多其它因素保持完全相同.

51、因此估计误差会比独立样本小.1、Independent-Sample T Test过程选择Analyze Compare Means Independent-Samples T Test, 打开Independent-Samples T Test对话框,打开Independent-Samples T Test对话框,检验变量栏分组变量栏,只能有一个分组变量定义分组按钮例1、学生对教学改革态度的分析(one sample ) 某校在对实行挂牌上课教学改革措施的效果评价中,随机抽选了60位学生进行态度调查,他们的10项态度量表的态度反映资料如下:挂牌上课态度反映得分(X)人数(f )1020203

52、030404050506060702610122010合计60 (1分表示“很不同意”,7分表示“很同意”,将10项态度分累加后得一总态度分,这种量叫7级李克累加量表):试计算:(1)学生态度得分的平均值和标准差;(2)构造学生态度得分平均值的98%置信区间。操作步骤:(1)定义变量X和f ,X 为组中值,输入数据资料;(2)选择Data Weight Cases ,对f 进行加权。(3)选择Analyze Compare means one-sample T Test(4)将变量X放入Test栏中(5)激活 options子对话框,置信度为98%,返回one-sample T Test主对话

53、框;(6)单击 确定 按钮执行。T - Test结论:表1:学生态度得分的平均值为47分,标准差为13.6295分.表2:以98%的置信区间估计学生总体态度得分平均值的置信区间为(42.7925,51.2075)从中可以反映出学生对挂牌上课这一教改措施普遍赞成,但并不十分拥护,可见还需进一步改进和完善.例2_电视广告平均受益量的估计2、某电视台广告部想要估计一下各企业在该电台的黄金时间播放电视广告后的一个月内的平均受益量.为此他们抽取了33家播放广告的同类企业的随机样本,资料如下: 该电视台想以95%的置信度宣布平均受益量(平均利润增长量),试构造适当的置信区间.数据:企业序号12345678

54、91011利润增量(万元)7.38.67.76.59.48.37.110.25.49.28.8企业序号1213131415161718192021利润增量(万元)9.76.94.311.28.28.77.69.16.68.58.9企业序号2324252627282930313233利润增量(万元)10.412.814.67.511.76.013.213.69.05.99.6该电视台宣布的平均受益量应该是最小受益量,故构造置信下限.设X为企业利润增量.操作步骤: (1)定义变量X输入数据资料;(2)选择Analyze Compare means one-sample T Test(3)将变量X放

55、入Test栏中(4)激活Options子对话框,置信度改为90%,返回one-sample T Test主对话框;(5)单击OK 按钮执行T - Test结论:表1:33家平均受益量为 8.8636万元,标准差为2.4027万元.表2:该项电视台可以95%的置信度宣布在该电台黄金时间做广告给企业带来的平均受益量至少在8.1552万元以上.例3_新旧电池使用寿命比较(Independent ) 某一个新的制造过程可以增加电池的使用寿命,假设电池使用寿命服从正态分布.在新电池中随机抽取15个,而在旧电中随机抽取12个同时测试其使用寿命,资料如下:新旧两种电池平均使用寿命之差95%的置信区间.新电池

56、(日):18.210.412.618.011.715.024.017.623.624.819.320.519.817.116.3旧电池(日):12.117.58.613.97.815.117.910.613.814.215.311.6已知的原始数据是总体服从正态分布的两个独立样本。设X代表电池使用寿命,g代表分组号操作步骤:(1)定义变量X和g,输入数据资料,新旧电池寿命数据全部输入X同一列中, g分别取1和2,新电池组号为1,旧电池组号为2(2)选择Analyze Compare Means Independent-Samples T Test, 打开Independent-Samples

57、T Test对话框,(3)将变量X放入Test栏中(4)激活Define Groups 按钮,打开该对话框Groups1中输入1 Groups2中输入2,单击Continue返回主对话框;(5)单击OK 按钮执行T - Test结论:表1:得出两个独立样本各自的均值,标准差以及平均标准误差.新电池的平均使用寿命明显长于旧电池。表2:可以看出新旧电池平均使用寿命之差的95%的置信区间为:若两个样本方差相等则为(2.4454,8.6746);若两个样本方差不等则为(2.5437,8.5763)2、Paired-Samples T Test过程选择Analyze Compare Means Pair

58、ed-Sample T Test, 打开Paired-Sample T Test主对话框2、Paired-Samples T Test过程配对变量栏当前选择栏选择项按钮例4 _吸烟有害广告作用的分析(Paired ) 形形色色的广告已深入到社会各个方面,与人民生活密不可分.成功的广告将留给人们较深的印象,并带给企业丰厚的回报,如何鉴定广告的效果,如何选择最佳的广告制作,对此西方国家更多地采用统计方法来判断,举例如下: 为了研究吸烟有害广告对吸烟者减少吸烟量甚至戒烟是否有作用,从某吸烟者中随机抽取33位吸烟者,调查他们在观看广告前后的每天吸烟量(支)数据如下表.试问影片对他们的吸烟量有无产生作用

59、?为了支持你的答案,请构造一个99%的置信区间.吸烟者编号1234567891011看前X1(支)看后X2(支)20181515141011101213161219152620221716799吸烟者编号1213141516171819202122看前X1(支)看后X2(支)1710333425208441401910263016163120271862吸烟者编号2324252627282930313233看前X1(支)看后X2(支)13112422222548504134669133827251129102821解:配对样本的试验,比较观看前后平均数的大小可解决第一个问题,求出两平均数之差的

60、99%的双侧置信区间可解答第二个问题.操作步骤:1)定义变量X1和X2,输入数据;(2)选择Analyze Compare means Paired-samples T Test(3)将变量X1和X2放入Test栏中(4)激活 Options 子对话框,置信度改为99%,单击Continue 按钮,返回Paired-samples T Test主对话框;(5)单击OK 按钮执行T - Test结论:表1:显示观看影片前的平均每日吸烟量约为21.5758支.观看影片后的平均每日吸烟量约为17.5758支,说明该影片发生了作用.表2:反映了影片观看前与后存在着显著相关关系,相关系数为0.878.表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论