第十相关与回归分析_第1页
第十相关与回归分析_第2页
第十相关与回归分析_第3页
第十相关与回归分析_第4页
第十相关与回归分析_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十相关与回归分析(优选)第十相关与回归分析相关关系是指变量之间确实存在的但关系值不固定的相互依存关系。在这种关系中,当一个(或几个)变量的值确定以后,另一个变量的值虽与它(或它们)有关,但却不能完全确定。这是一种非确定性的关系。例如,电视机的拥有率与人均收入水平有关,但对于人均收入水平相同的地区,其电视机的拥有率可能不尽相同。在客观事物中,尤其是在社会现象中,相关关系普遍存在。统计分析很有必要对这种关系进行研究。(2)相关关系的特性对相关关系的分析,主要是把握相关关系三个方面的特性:其一,相关的强度。即两个变量相关关系的确定程度。其二,相关的方向。其三,线性相关与非线性相关。(3)相关关系的种类A、正相关与负相关从相关的方向看,相关关系可以分为正相关和负相关。正相关是指相关变量之间的变化趋势相同,即当自变量的值增加,因变量的值也随之增加;当自变量的值减少,因变量的值也随之减少。例如,汽车的使用年限与汽车的修理费用之间的关系。负相关是指相关变量之间的变化趋势相反,即当自变量的值增加,因变量的值随之减少;当自变量的值减少,因变量的值随之增加。例如,产品产量与单位产品成本之间的关系。B、线性相关与非线性相关从相关的形式上来看,相关关系可分为线性相关和非线性相关。线性相关也称直线相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线形式。非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是均等的,从图形上看,其观察点的分布表现为各种曲线形式。C、单相关和复相关从相关变量的个数来看,相关关系可分为单相关和复相关。单相关是指两个变量之间的相关关系。复相关是三个或三个以上变量之间的相关关系。例如,仅仅考虑施肥量对产量的影响,这就是一种单相关;如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。2、因果关系:是指某一变量的变化可以确定为另一变量变化原因的关系。在相关关系中,通常,在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自变量。由于受到自变量变动的影响而发生变动的变量称为因变量。相关关系确定为因果关系必须满足三个条件:其一,两变量之间必须存在相关关系;其二,必须确定自变量变化在前,因变量变化在后;其三,必须确定变量X与变量Y之间的关系,不是由于第三个变量的存在而呈现出来的一种虚假关系。例如,在粮食亩产量与施肥量之间,施肥量这一变量是自变量,亩产量这一变量是因变量。当研究的是两个变量之间的关系时,通常以符号X表示自变量,以符号Y表示因变量。在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。确定哪一个是自变量,哪一个是因变量,主要决定于研究的目的。对不同层次的统计变量进行相关关系分析的方法是不同的,下面我们分不同的变量类型来讲。二、定距或定比变量的回归与相关分析(一)回归分析与相关分析的含义及联系在对定距或定比变量之间存在的相关关系进行分析研究时,最常用的方法就是回归分析和相关分析。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。回归分析是用来研究变量之间关系的可能形式的统计方法。它把两个或两个以上变量之间的变动关系加以模型化,用数学函数表达变量之间的关系。运用这种方法时,最终的目的通常在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值。相关分析是研究如何计量变量之间关系方向和强度的统计方法。它能确定变量之间相关的方向及程度,即变量之间某种关系的确切程度有多大。回归分析和相关分析既有联系,又有区别。就其研究对象来说,两者都是研究变量之间的相关关系。但就彼此研究变量之间关系的性质来看,两者存在明显的区别。回归分析中,必须将相关变量区分为自变量和因变量,以确定其关系的可能形式,所研究变量属于非对等关系。相关分析中,计量变量之间关系的强度,不必区分自变量与因变量,所研究变量属于对等的关系。(二)相关图表对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进行回归和相关分析的前提。对于定距或定比变量通过编制相关表和相关图,可以直观地、大致地判断现象变量之间是否存在相关关系以及关系的类型。(1)相关表相关表是表现现象变量之间相关关系的表格。例如,为研究商店人均月销售额和利润率的关系,调查10家商店取得10对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表如下表。人均销售额与和利润率相关表编号人均月销售额(千元)利润率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5(2)相关图所谓相关图,是把相关的两个变量之间的关系在平面直角坐标中反映出来。通常将自变量(x)置于横轴上,因变量(y)置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。例如,前述人均月销售额与利润率的关系,可用相关图表示如下:利润率(%)人均销售额(千元)1

20人均销售额与利润率相关图51015

2

3

84

567

从图中,我们可以清楚地看出,这两个变量之间相关的方向(即正相关或负相关)以及相关的具体形式(线性相关或非线性相关)(a)正直线关系(b)反直线关系(c)正曲线关系表中的其他次数叫条件次数,表示在自变量的每一个值下因变量各个值出现的次数,其次数分布叫条件分布。3、斯皮尔曼等级相关系数rs第三步:根据公式df=(r-1)(c-1)计算出来的自由度和选定的显著性水平,查出X2的临界值。理论证明,实际观察次数(fo)与理论次数(fe)(又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,当fe越大(fe≥5),近似得越好。例1随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。参加体育活动的理论人数:55×27/97=15.显然它也是以PRE为基础的,即不知x值时根据总体均值去估计y,产生的误差为E1,当知道x时,可用各类x取值下y的均值去估计y,产生的误差为E2。特别当|r|=1时,称它们是完全相关的,上图(1)、(6)所示。当我们认为年龄对收视倾向可能有影响时,并作了变量X与Y的交互分类后,我们发现27个老人中,喜欢戏曲的最多,其众数为20;在我们不知道全部124人中哪些是老年人、青年人、中年人时(即不知道X变量),124人中总共有60人喜欢看电视剧,即电视剧是众数,应用这个众数来概括所有124人都喜欢电视剧,其估计误差是:64,64即为E1。根据前例中炼钢厂钢液含碳量与精炼时间资料,可计算相关系数。feij=fxi×fyj/N参加阅读活动的理论人数:55×52/97=29.则PRE=(64-49)/64=0.公式中所需的理论次数则按照这里假设的分布进行计算。(e)较分散的

反直线关系(d)反曲线关系(f)没有关系x与y的一些可能关系的散点图上图说明了相关图中的一些可能关系。图(a)和(b)表示的是正的和反的直线关系,即正线性相关和负线性相关。图(c)和(d)分别表示的是正的和反的曲线关系,即正非线性相关和负非线性相关。图(e)中是散布域很宽的反直线关系。散布域越宽,则表明变量之间的联系程度越差。图(f)中的图象表明两个变量之间没有什么关系。(三)简单线性回归(1)回归直线的确定如果变量x和y相关并可区分自变量与因变量,如果从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。由于这些点所代表的若干对数据——观察值,只是相互有一定关系的变量x、y的总体中的一个样本,故这样求出的直线是总体回归直线的估计线。在估计线上的点的纵坐标是相应于x的y的估计值。y=a+bx

如果这个y的估计值用y表示,则估计线的方程可写为

这叫做样本回归直线。它是y对x的回归线,表明y对x的平均关系。式中x为受控制的自变量,通常由研究者事先选定数值。a为样本回归直线y的截距,它是样本回归直线通过纵轴的点的y坐标;b为样本回归直线的斜率,它表示当x增加一个单位时y的平均增加数量,b又称回归系数。如何确定回归直线方程呢?也就是说怎样确定方程中的参数a、b呢?若用(xi,yi)(i=1,2,…n)表示n组观察值,则对任意给定的xi

,可得y的估计值为这些数值同实际值yi之间存在着误差;yi=a+bxi

i=yi

yi=

yi

a

bxi

Q(a,b)=

2=(y

a

bx)2为最小。这样便把寻找适当直线问题转化为使Q(a,b)达到最小条件下求出a、b的问题。在回归分析中,人们普遍采用的是最小二乘法原则。根据最小二乘法的原则,欲使所求回归直线y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之和为最小,即必须使

因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:满足上述条件的a、b即为所求的未知参数。由化简得

(y

a

bx)=0

(y

a

bx)x=0即:

y=na+b

x

xy=a

x+b

x2上述方程组称为标准方程组。解之,得:a=y

bx因此即可确定回归方程式为:y=a+bx

这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。显然,回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所以在实用上,也将它叫做经验公式。为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:Lxy=(x

x)(y

y)Lxx=(x

x)2于是,回归系数可简化为为了相关性检验的需要,顺便引入关于y的离差平方和:Lyy=(y

y)2求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢精炼时间对含碳量的回归方程,说明回归方程的确定。10.9100炉次含碳量(%)

(x)精炼时间(分)

(y)某钢铁厂十个炉次钢液含碳量和精炼时间10234567892.01.01.21.41.51.61.71.81.9105235130145170175190190220三、定类变量间的相关关系判定及检验这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。根据前例中炼钢厂钢液含碳量与精炼时间资料,可计算相关系数。feij=fxi×fyj/N如果这个y的估计值用y表示,则估计线的方程可写为应当注意,相关系数r只表明x与y之间的线性关系的密切程度和方向。所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的,比如在血型与性格关系中,如果A型性格人群中各血型的比例关系,与B型性格人群中各血型的比例关系相同,就可能说血型与性格相互独立,当然这里的“两例比例相同”在统计的意义下,应表述为“两比例差异不超过误差范围”,因为就算总体之间相互独立,收集到两个比例完全相同的样本的可能是很小很小的,甚至是不可能的。7以上为高度相关,0.(yabx)x=0公式中所需的理论次数则按照这里假设的分布进行计算。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。1、Gamma级序相关分析(P217)如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。第一步:建立两变量不存在相关关系的虚无假设和与之对立的备择假设。公式中所需的理论次数则按照这里假设的分布进行计算。可以看出,x与y之间的关系近似为直线关系。我们可以对其配合一条回归直线。为计算回归方程的系数a、b,我们先对原始数据进行加工。yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642炉次x12345678910

0.91.01.21.41.51.61.71.81.92.015.0原始数据加工表于是:所以:故精炼时间关于含碳量的回归方程为:y=

14.9525+120.635x

计算结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,则精炼时间平均来说大约要延长12.06分。根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。y=

14.9525+120.6352.2=150.4445(分)

例如,求含碳量2.2%所需的精炼时间:(四)相关系数相关分析是用以说明变量之间相关程度的统计工具。相关分析常常与回归分析联合使用,以衡量回归方程所表示的因变量变化的精确度如何。相关分析也可单独用于衡量变量之间的联系程度。本节我们讨论两个变量之间线性相关程度问题。两个变量之间线性相关程度的描述通常采用相关系数。(1)相关系数的意义我们回过头来考察一下线性回归中指标y的值yi与回归估计值yi的离差平方和。

记于是有:Q=Lyy(1

r2)r称为相关系数。它是在线性相关条件下用来说明两个变量之间相关关系密切程度的指标。从交互分类表中可以清楚地看到在各个年龄层下收视倾向的不同的次数分布状况,因此这种表又叫条件次数表。根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。解:按国际色觉障碍讨论会的统计结果,132人应该有132/12=11人是色盲,剩下的121人非色盲,代入公式有:通过交互分类表我们可以初步的观察两个变量间是否相关。从相关的方向看,相关关系可以分为正相关和负相关。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且达到显著水平,那么就可以说血型与性格之间相关,不相互独立。在这种关系中,当一个(或几个)变量的值确定以后,另一个变量的值虽与它(或它们)有关,但却不能完全确定。即两个变量相关关系的确定程度。第二节中我们介绍了离差乘积的和式:参加体育活动的理论人数:42×27/97=11.它是在线性相关条件下用来说明两个变量之间相关关系密切程度的指标。Q(a,b)=2=(yabx)2有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。第三步:根据公式df=(r-1)(c-1)计算出来的自由度和选定的显著性水平,查出X2的临界值。因为Q≥0,Lyy≥0,故相关系数有一个重要性质:|r|≤1r=

1(1)

1<r=0(2)r=0(3)r=0(4)0<r<1(5)r=1(6)相关图与相关系数经验关系由于Lyy对于一组实测数据来讲是定值,故由Q=Lyy(1

r2)可知,当|r|较大接近于1时,离差平方和Q就较小而接近于0,此时,y与x高度相关。特别当|r|=1时,称它们是完全相关的,上图(1)、(6)所示。当|r|较小而接近于0时,Q就大,y与x的相关关系很弱,特别当r=0时,称它们线性无关。如上图(3)、(4)所示由于Lxy可正可负,所以相关系数r也可正可负。若r>0则称y与x正相关,如上图(5)、(6)所示。此时,随着x的增大(或减小),y将呈现增大(或减小)的趋势。特别对于上图(6)的情形,由于r=1,故称完全正相关。若r<0,则称y与x负相关,如上图(1)、(2)所示。此时,随着x的增大(或减小),y将呈现减小(或增大)的趋势。特别对于图(1)的情形。由于r=

1,故称为完全负相关。一般认为相关系数的绝对值在0.7以上为高度相关,0.3-0.7之间为中度相关,0-0.3为低相关。应当注意,相关系数r只表明x与y之间的线性关系的密切程度和方向。当r很小甚至为0时,只表明x与y之间的线性关系不密切,或不存在线性关系,并不表示x与y之间就没有关系,可能二者之间有非线性关系。如上图(4)所示,x与y之间就存在着曲线关系。(2)相关系数的计算我们已经知道,相关系数的公式为:第二节中我们介绍了离差乘积的和式:于是有:如果将分子分母同乘以n,又可得:根据前例中炼钢厂钢液含碳量与精炼时间资料,可计算相关系数。那里,我们已经求得:于是其相关系数为:计算得出r=0.9892,表明精炼时间和含碳量之间为正相关关系。而且r值接近于1,表示两者关系很密切。三、定类变量间的相关关系判定及检验在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。要判别这些分类间是否有相关关系就得用到相应的方法。(一)交互分类表交互分类表又叫列联表和条件次数表。它是按两个变量的值将所研究的个案进行分类,亦即将两个变量的次数交互分配在一张统计表中成为一个矩阵,这种表就叫交互分类表。例如:某单位对职工的闲暇时间进行了调查,根据不同年龄档和喜爱的电视节目进行了如下的统计分类:收视倾向年龄层老年中年青年戏曲20102电视剧52035体育比赛21020合计274057从交互分类表中可以清楚地看到在各个年龄层下收视倾向的不同的次数分布状况,因此这种表又叫条件次数表。表的最下端是每个年龄层的总次数,称为边缘次数,它们的分布叫边缘分布。表中的其他次数叫条件次数,表示在自变量的每一个值下因变量各个值出现的次数,其次数分布叫条件分布。交互分类表有大小之分,我们一般用横行数目(r)乘上纵列数目(c)即rΧc表示表的大小。交互分类表还可做成相对频次分布表,如前表就可转化为下表:(这样的表更便于比较)通过交互分类表我们可以初步的观察两个变量间是否相关。当然这种观察是粗略的,如果要较准确地检验就需进行卡方检验并计算相关系数。年龄层与收视倾向(%)收视倾向年龄层老年中年青年戏曲74254电视剧185061体育比赛82535合计(27)(40)(57)(二)X2

(卡方)检验X2是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。它与前面所讲的抽样数据的假设检验的不同在于:第一,前者数据属于定距或定比变量(如果是定类变量它也是是非标志);第二,测量数据所来自的总体要求呈正态分布,而X2检验的数据来自的分布是未知的;第三,测量数据的假设检验是对总体参数的假设检验,X2检验是对总体分布的假设检验。因此,它是属于自由分布的非参数检验。X2的基本公式是:

X2=∑(f0-fe)/fe(表示f0实际频数,fe表示理论频数)对两变量进行X2检验的步骤是:第一步:建立两变量不存在相关关系的虚无假设和与之对立的备择假设。第二步:按照X2公式计算X2

。第三步:根据公式df=(r-1)(c-1)计算出来的自由度和选定的显著性水平,查出X2的临界值。第四步:作出统计决策。卡方检验是由统计学家皮尔逊推导的。理论证明,实际观察次数(fo)与理论次数(fe)(又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,当fe越大(fe≥5),近似得越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。下面举例说明几种常用的卡方检验:

检验无差假设所谓无差假设,是指各项分类的实际数之间没有差异,也就是说各项分类之间的概率相等,因此理论次数完全按概率相等的条件来计算。即任一项的理论次数都等于总数/分类项数。因此自由度也就等于分类项数减1。例1随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。结果1-6点向上的次数依次是,43,49,56,45,66,41。解:每个类的理论次数是300/6=50,代入公式:X2=(43-50)2/50+(49-50)2/50+……=8.96在0.05的显著性水平下自由度为5情况下X2的临界值是11.1。因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。检验假设分布的概率这里的假设分布可以是经验性的,也可以是某理论分布。公式中所需的理论次数则按照这里假设的分布进行计算。例2国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。从某校抽取的132名男生中有4人是色盲,问该校男子色盲比率与上述比例是否有显著差异?解:按国际色觉障碍讨论会的统计结果,132人应该有132/12=11人是色盲,剩下的121人非色盲,代入公式有:X2=(4-11)2/11+(128-121)2/121=4.86此时X2的临界值为3.84。因此,在0.05和显著性水平下,该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异,显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。例3在英语四级考试中,某学生做对了80个四择一选择题中的28题,现在要判断该生是否是完全凭猜测做题。解:假如该生完全凭猜测做题,那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题,代入公式有:X2=(28-20)2/20+(52-60)2/60=4.27大于X2临界值3.84因此,该生可能会做一些题。独立性检验卡方独立性检验用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题。所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的,比如在血型与性格关系中,如果A型性格人群中各血型的比例关系,与B型性格人群中各血型的比例关系相同,就可能说血型与性格相互独立,当然这里的“两例比例相同”在统计的意义下,应表述为“两比例差异不超过误差范围”,因为就算总体之间相互独立,收集到两个比例完全相同的样本的可能是很小很小的,甚至是不可能的。相反,若一个因素各个分类之间的比例关系,在另一个因素的各项分类下是不同的,则它们之间相关。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且达到显著水平,那么就可以说血型与性格之间相关,不相互独立。卡方独立性检验的虚无假设是各因素之间相互独立。因此理论次数的计算也是基于这一假设,具体计算时,采用列联表的方式,后面将举例说明。

例:某校对学生课外活动内容进行调查,结果整理成下表,表中彩色格子里的数是原始数据的汇总数,括号内的数是理论次数(是按下面将要介绍的原理计算得来的),此外的是原始数据。

性别(因素2)课外活动内容(因素1)小计和(fx)体育文娱阅读男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小计和(fy)27185297由于所有学生参加三项活动的比例是27:18:52,因此如果课外活动的选择与性别没有关系的话,男女生参加这三项活动的比例也应是这同一比例,而男女各自的人数可以计算,所以每格内的理论次数的计算方法如下:男生中参加体育活动的理论人数:55×27/97=15.3参加文娱活动的理论人数:55×18/97=10.2参加阅读活动的理论人数:55×52/97=29.5女生中参加体育活动的理论人数:42×27/97=11.7参加文娱活动的理论人数:42×18/97=7.8参加阅读活动的理论人数:42×52/97=22.5我们将行列的小计和分别用fx和fy来表示,总人数用N来表示时,上述计算理论次数的方法可以表示为:feij=fxi×fyj/Ndf=(3-1)(2-1)=2,而χ20.05(2)=5.99,所以在0.05的显著性水平下,拒绝虚无假设,即可以认为性别与课外活动内容有关联,或者说男女生在选择课外活动上存在显著的差异。

X2=(21-15.3)2/15.3+(11-10.2)2/10.2+……=8.3552(三)削减误差比例(PRE)卡方检验只能检验两变量间是否有相关关系,要测量相关关系的强度还需要计算相关系数。但具体介绍相关测量法之前,我们先要了解PRE。何谓PRE?社会调查研究的主要目标是解释或预测社会现象的变化。如,一社会现象Y,我们要解释或预测它的变化。预测或解释时,难免会有一些误差。假定另一社会现象X是与Y有关系的,如果我们根据X值来预测Y值时,理应可以减少一些误差。而且X与Y的关系越强,所能减少的误差就越多,反过来说,所削减的误差的多少,可以反映X与Y相关程度的强弱。我们假定我们在不知道X变量而预测Y变量时所产生的误差为全部误差(E1);当知道X变量去预测Y时所产生的误差叫相关误差(E2);E1-E2我们称为剩余误差。剩余误差占全部误差的比例就是PRE,即PRE=(E1-E2)/E1。我们以前面年龄层与收视倾向这个例子来理解PRE。在我们不知道全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论