第9章 相关分析_第1页
第9章 相关分析_第2页
第9章 相关分析_第3页
第9章 相关分析_第4页
第9章 相关分析_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、设想自己负责某公司的销售部门。假设本公司生产某种产品(比方说某种食品),这种产品已经销售到了全国十个地区。但是从半年的销售数据观察到,该产品在这十个地区的销售情况存在明显的差距。从统计学的角度,如何评价这样的销售情况,如何改变销售不平均的状况。不同地区:人均收入人口结构人均GDP不同的通过相关分析我们可以了解变量之间是否具有线性相关关系,而这种相关关系可以用相关系数来测度。定义:X,Y是随机变量,已知二维 (X, Y)分布,总体相关系数为22)()()()()()(),cov(YEYEXEXEYEYXEXEYDXDYXXY对总体相关系数有如下一些结果:相关系数是区间-1, 1之间的一个量。XY

2、 = 0, 则称X与Y不相关。若X与Y相互独立则必不相关,即XY = 0。X与Y相互独立是指:对事件而言,PXY = PX PY; 对随机变量而言,PX x , Y y = PX xPY y。所以上述结论就是相互独立的随机变量之间相关系数必然为0。相关系数为0的两个随机变量,不一定相互独立。相关系数为0的两个服从正态分布的随机变量,一定相互独立。Y% Total01 TotalX60025025150012.512.525300016.6733.3350Total54.1745.83100调查了某城市某行业的全体员工, 用X表示其薪金档次分为600元、1500元与3000元三档;而受教育水平用

3、Y表示,Y=0表示未受过高等教育,Y=1表示受过高等教育。则,PX=600=0.25, PY=0=0.5417, 但PX=600, Y=0=0.25。故X与Y不相互独立。定义:设(X1, Y1), (Xn, Yn)是(X, Y)的一组样本(这种表示方法意味着样本X、Y是配对的、不可交换次序的),则样本相关系数(或简单相关系数)为iiiiiiiiiiiiiiXYYYXXYYXXyxyxr)()()(22在本式中小写的字母x, y表示中心化处理的结果,即YYyXXxiiii,也称它们是样本数据的离差。通过这样定义的相关系数刻画的相关关系称为Pearson积矩相关。样本相关系数也是区间-1,1之间的

4、一个量。在计算中,简单相关系数也常使用如下的公式:2222 iiiiiiiiYYnXXnYXYXnr根据第5章的讨论可知,样本相关系数是总体相关系数的估计量。分别将 视为n维欧氏空间中的向量。则上面定义的样本相关系数就是TnTnyyyxxx),.,(,),.,(2121yxcos,yxyxXYr其中记号表示向量的数量积,其几何意义是其中一个向量的长度乘以另一向量在该向量上的投影;| |表示向量的模(长度)。设有配对样本x1, x2, , xn与y1, y2, , yn ,则在直角坐标平面上用小圆点标示出坐标为(xi, yi)的点,这样得到的图形称为直观散点图。xyxy正相关负相关简单相关系数刻

5、画了两个变量(两组数据)之间的相关关系。这种相关关系是两个变量之间确实存在的一种关系,但这种关系又不象函数关系那样,变量的值之间存在一种确切的对应关系。对两个变量,它们的相关系数的绝对值越大,相关程度就越高,它们之间共同变化的趋势越明显。因此相关系数测度了它们相关的程度。l r 的取值范围是的取值范围是 -1,1l|r|=1,为完全相关为完全相关r =1,为完全正相关为完全正相关r =-1,为完全负正相关为完全负正相关l r = 0,不存在不存在线性相关线性相关关系关系l-1 r0,为负相关为负相关l0c时,拒绝H0。) 1(2kc直观地,当各个比例值确实等于假设值pi时,各ni/n与pi的差

6、,从而ni与E(ni)的差别比较小,于是2统计量也较小。因此当 较大时,拒绝H0。对于例子,k=3, n=150, n1=61, n2=53, n3=36而当原假设H0成立时,5015031)(npnEii于是31222252. 650)5036(50)5053(50)5061()()(iiiinEnEn若显著性水平=0.05,则临界值991. 5)2() 1(205. 02k故拒绝H0,认为顾客对三种品牌的矿泉水的喜好存在显著差异。如果上述例子中各品牌矿泉水购买人数分别是60,53,37,检验将会出现何种结果? (5.56)范例:某教师出了50题有5个选项的单选题,答案与题数分别如下,请问这

7、位老师是否有特殊的出题偏好?即倾向于出某些答案的题目? A B C D E 12 14 9 5 10 具体SPSS数据见下面的附件各类期望值相等个数1210.02.01410.04.0910.0-1.0510.0-5.01010.0.050ABCDETotalObserved NExpected NResidualT Te es st t S St ta at ti is st ti ic cs s4.6004.331Chi-SquareadfAsymp. Sig.个数0 cells (.0%) have expected frequencies less than5. The minimum

8、 expected cell frequency is 10.0.a. 2统计量的渐近显著性概率为0.331, 因此在5%的显著性水平应不拒绝原假设, 即数据并不支持教师出题的答案具有特殊偏好的结论.下面考虑二向分类问题。也就是要根据两个分类(品质)变量对对象进行分类。这时人们关注的问题往往表现为按照两个特征进行分类的方法之间是否相互关联。这样的问题称为品质相关问题。如房地产商关心顾客选择房子的类型房子的类型是否与其职业职业有关;电视广告商关心的可能是观众对各类电视广告的各类电视广告的关注关注是否与其来自城市还是身处农村来自城市还是身处农村有关等等。这样的问题可以用如下的表格(交叉表或列联表,

9、所以相应的统计分析也称为列联表分析)来描述。品质相关模式概括:Y1Ys合计X1n11n1s n1. Xknk1nks nk. 合计n.1 n.kn特征变量X特征变量Y特征变量一般是名义级或顺序级的变量,nij表示特征变量X取第i个值并且特征变量Y取第j个值的个体出现的频次;kiijjsjijinnnn11.,.分别为特征变量X取第i个值的个体的总数和特征变量Y取第j个值的个体的总数。品质相关问题本质上就是通过两个随机变量X, Y的频次样本数据来检验两变量是否相互独立的问题。设随机变量X, Y的分布函数和相应的边缘分布分别为F(x, y), F(x), F(y)。现在的问题就是:根据上表给出的频

10、次样本数据,检验F(x, y)=F(x)F(y),对X, Y的所有可能取值x, y成立。设得到了二维总体(X, Y)的一组容量为n的样本(X1, Y1; X2, Y2; ; Xn, Yn)。进而设变量X, Y分别取k个和s个离散值,而X取第i个值的概率为pi .;Y取第j个值的概率为p.j;又X取其第i个值并且Y取其第j个值的概率为pij。于是随机变量X、Y之间是否相互独立的问题,就转化为检验:jiijpppH.:0是否成立的问题。注:若变量X的取值是连续的,则在品质相关问题中,通常的做法是,将X的取值集合分为k个区间,然后考虑X的取值落在第i个区间的概率pi.。对变量Y的处理类似。对于品质相

11、关检验问题,具体做法是将交叉表“拉直”成一个ks的一向分类问题,然后利用前面介绍的统计量进行检验。n11n1s nk1nks n11n1s nk1nks 这时在H0成立时,有kisjjijiijkisjijijijkisjijijijpnppnpnnpnpneen1121121122.).()()(期望频次因为pi.与p.j实际观察不到,而采用如下的极大似然估计量来估计nnpnnpjjii. ,.因此采用的检验统计量实际上是kisjjijiijnnnnnnn1122.但是,由于 ,因此“抵消”了两个自由度,这里 统计量的自由度为:单元格个数-1-待估计参数个数=ks-(k+s-2)-1 =(k

12、-1)(s-1)。1.jipp对给定的显著性水平,)1)(1(22sk接受H0,因素与状态相互独立。)1)(1(22sk拒绝H0,因素与状态显著相关。在统计学中这里计算的统计量2通常称为Pearson 2统计量. 在利用软件进行分析时, 往往通过p值来判别, 但需要注意的是品质变量通常是离散变量, 而2分布是连续分布, 因此实际上得不到精确的p值. 在SPSS中是用渐近的显著性概率来代替p值进行检验. 如果总体(X, Y)服从二维正态分布),(222121N其中参数均未知,那么X与Y独立,等价于=0。于是相互独立的检验问题是:0:; 0:10HH如果r是的极大似然估计量,则Fisher证明了如

13、下结果:) 1(112ntrrnT于是可以通过t检验来完成X与Y的独立性检验。使用该方法进行品质相关检验时,要求X、Y的至少有一组取值的频次足够小。(在SPSS中要求至少有个单元格的期望频次5。) 由于 分布是连续的,而这里处理的是离散问题,在自由度为1时,按照公式kisjjijiijnnnnnnn112.计算的统计量的值就会与 的值产生较大的偏差,特别是当n50时,偏差较大,需要矫正。Yates给出了一个矫正公式:kisjjijiijnnnnnnn1122.5 . 0.因此在自由度为1并且n 0.05. 因此在5%的显著性水平下,数据不支持工作表现与上学地区有关的结论。例 对健康状况的关注是

14、否与家庭收入有关。数据文件见薛薇“保险市场调查.sav”家庭人均月收入(元)家庭人均月收入(元) * * 对健康问题的担忧对健康问题的担忧 CrosstabulationCrosstabulationCount对健康问题的担忧Total经常有时偶尔不担忧家庭人均月收入(元)399以下44231935121400-69989644676275700-999596135682231000-1499905446772671500-199919241526842000-299918251425823000以上141082658Total3332611833331110Chi-Square TestsC

15、hi-Square TestsValuedfAsymp. Sig. (2-sided)Pearson Chi-Square21.097a18.275Likelihood Ratio20.76918.291Linear-by-Linear Association5.0171.025N of Valid Cases1110a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 9.56.如果列联分析中拒绝了行和列对应的两如果列联分析中拒绝了行和列对应的两个分类变量相互独立的假设,则意味着个分类变量相互独立的假设,则意味着两个变量具有某种关系,这时可以采用两个变量具有某种关系,这时可以采用相关测量的统计量相关测量的统计量列联表相关测量的统计量主要有列联表相关测量的统计量主要有 相关系数相关系数列联相关系数列联相关系数V 相关系数相关系数何晓群,现代统计分析与应用,中国人民大学出版

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论