第十一章两变量关联性分析实习指导(定)(共15页)_第1页
第十一章两变量关联性分析实习指导(定)(共15页)_第2页
第十一章两变量关联性分析实习指导(定)(共15页)_第3页
第十一章两变量关联性分析实习指导(定)(共15页)_第4页
第十一章两变量关联性分析实习指导(定)(共15页)_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE 年10月2日星期四 FILENAME * Lowerp c:documents and settingsfangjqlocal settingstemporary internet filescontent.ie52qva0gae第十一章相关实习指导(定).doc第十章 两变量(binling)关联性分析教学要求了解(lioji):利用散点图分析(fnx)样本相关系数可能出现的各种假象,并作出合理解释。熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson积差相关、Spearman等级相关的应用条件并能

2、计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。重点难点线性相关 对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson积差相关系数;对积差相关系数r的假设检验可用查表法或t检验。这里要注意的是不可用相关系数检验所得P值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。第二节 秩相关对不满足正态分布的两变量随机样本,可采用Spearman秩相关来分析。这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中

3、的一个,也可以是两个。教材中的例10-5是研究岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足Pearson积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用表示,对其检验也是用查表法或t检验。若以表示Xi秩次;表示Yi的秩次,di=-表示成对秩次的差值

4、,则Spearman秩相关系数的计算也可采用下式: 显然(xinrn)Pearson积差相关与Spearman秩相关(xinggun)之间有联系也有区别。主要(zhyo)联系是:1.两者都可用于刻划两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同。2.两者都要求个体间满足独立性。3.Spearman秩相关系数的计算可采用对秩次的Pearson积差相关系数的计算来实现。4.样本量大时,两者的假设检验方法近似。主要区别是:1.Pearson积差相关要求数据服从正态分布,属于参数统计量;而Spearman秩相关系不要求正态分布,属于非参数统计量。2.两者总体参数的假设检验

5、方法不完全相同(主要是的分布不同)。第三节 分类变量的关联性分析首先要明了这里分析的资料是按两种属性分类的频数表资料,含配对分类频数资料。包括双向无序和单向有序两种类型。这些资料都可用的独立性检验和列联系数来考察和刻划两变量间的关联性。这里要注意的是本章所介绍的关联性分析的检验所用的公式与前面第7章两个或多个频数分布比较的检验所用的公式完全相同;但它们的设计和意义有着根本区别,作关联性分析的资料是一份随机样本,同时按两种属性分类,而第7章中两个或多个频数分布是两份或多份样本,谈不上关联性的问题。所以,和分析两个定量变量的相关性一样,分析两个分类变量的关联性也只能基于一份双变量的样本。当两变量都

6、是无序分类变量或一个是无序分类变量、另一个是有序分类变量时,可利用Pearson列联系数作两变量间关联性分析。计算公式为 关于Pearson列联系数是否为零的检验(jinyn)等价于Pearson检验(jinyn)。案例(n l)讨论参考答案案例11-1 Pearson 积差相关在对两定量变量间的相关性分析的实际问题中有广泛的应用,但在许多情况下,应用者忽视了Pearson 积差相关的应用条件,把不是正态分布的变量间的关系也作Pearson相关分析,例如这里的水质的碘含量是定量资料,是否正态分布权且不论,但甲状腺肿的患病率是属二项分布的分类资料,这显然不符合Pearson积差相关的条件,这份资

7、料实际上该作Spearman等级相关。当然,若作者采集数据时有临床的检测指标,如有关判断是否为甲状腺肿的血相指标、I131的吸收率等,那么可采用Pearson 积差相关的办法来确定水质的碘含量与检测居民的血相指标或I131的吸收率间有无线性关系是可以的,但现在的数据是水质的碘含量与甲状腺肿的患病率,对这两个变量就不能用Pearson 积差相关,应该采用Spearman等级相关分析。案例11-2 这里是三组独立样本的比较,据此不能考察关联性和计算关联系数。案例11-3 这里年龄和疗效都是有序变量,应当采用Spearman等级相关系数,而不应采用Pearson列联系数。电脑实验及结果解释实验11-

8、1 线性相关系数的计算 程序(chngx)11-1 线性相关系数(xsh)的计算行号 程 序解 释01DATA ex1;建立数据集ex1;02INPUT x y;定义变量x和y并连续读入数据;03CARDS;数据步说明语句;041.114 05060.71707;数据步结束;08PROC GPLOT;调用GPLOT过程绘制散点图;09 PLOT y*x; 指定以y为纵坐标,x为横坐标;10PROC CORR ;调用CORR过程进行相关分析,默认Pearson相关;11 VAR x y;指定分析变量;12RUN;运行程序;运行(ynxng)结果:Output窗口:相关分析过程的基本统计量描述:T

9、he CORR Procedure2 Variables: x ySimple Statistics (基本统计量) Variable N Mean Std Dev Sum Minimum Maximumx 15 0.98000 0.16987 14.70000 0.60000 1.20000 y 15 14.93333 1.27988 224.00000 13.00000 17.00000Pearson相关系数及其假设检验:Pearson Correlation Coefficients, N = 15 (Pearson相关系数) Prob |r| under H0: Rho=0 x y x

10、 1.00000 -0.92646 (Pearson相关系数值) .0001 (相关系数的P值) y -0.92646 1.00000 |r| under H0: Rho=0 x y x 1.00000 -0.42225(Spearman相关系数) 0.1715 (相关系数的P值) y -0.42225 1.000000.1715实验(shyn)11-3 从与的总体(zngt)作r的抽样实验程序(chngx)11-3 相关系数的抽样与检验行号 程 序解 释01data b;建立数据集b;02array y(*) y1-y100;说明数组变量y,其元素包括y1y100;03do i=1 to 2

11、0;设立20次的循环;04x1=rannor(0); 产生服从标准正态分布的随机数x1;05x2=rannor(0);产生服从标准正态分布的随机数x2;06do j=1 to 100; 设立100次的循环;07y(j)=rannor(0)+x1; 产生服从的随机数y;08end; 结束本次循环;09output; 将数据写入数据集;10end;结束循环;11ods listing close;关闭常规输出方式;12ods output pearsoncorr=corr;将相关分析的结果输出到数据集corr中;13proc corr ;调用CORR过程进行相关分析;14var x1 x2; wi

12、th y1-y100;指定分析变量是x1与y1-y100、x2与y1-y100;15ods listing;开启常规输出方式;16data pp;建立数据集pp;17set corr;读入数据集corr中的数据;18err2=px10.05;px1为x1与相应y的相关系数假设检验的P值,px10.05则err2=1(犯第类错误);19err1=px20.05;px2为x2与相应y的相关系数假设检验的P值,px2 |r| under H0: Rho=0 x1 x2 y1 0.79902 -0.14686 .0001 0.5367 y2 0.66185 -0.15221 0.0015 0.5218

13、 y99 0.76729 -0.01753 .0001 0.9415 y100 0.44088 0.14805 0.0517 0.5334100次相关分析(fnx)的相关系数、对应P值及犯错次数: Obs Variable x1 x2 Px1 Px2 err2 err1 1 y1 0.79902 -0.14686 .0001 0.5367 0 02 y2 0.66185 -0.15221 0.0015 0.5218 0 03 y3 0.68732 -0.25514 0.0008 0.2776 0 0 98 y98 0.30776 -0.41347 0.1868 0.0700 1 0 99 y9

14、9 0.76729 -0.01753 .0001 0.9415 0 0100 y100 0.44088 0.14805 0.0517 0.5334 1 0 = =6实验(shyn)11-4 两变量独立性检验程序10-4 两变量独立性检验的摸拟实验行号 程 序解 释01DATA a;建立数据集a;02DO i=1 TO 1000;设立1000次的循环;03x=RANBIN(0,1,0.2);产生服从二项分布的随机数x,模拟从第1个口袋摸球;04y=RANBIN(0,1,0.2); 产生服从二项分布的随机数y,模拟从第2个口袋摸球;05z=RANBIN(0,1,0.8);产生服从二项分布的随机数z

15、,模拟从第3个口袋摸球;06IF x=1 THEN z=RANBIN(0,1,0.2); 如果x=1(黑球)则从第2个口袋摸球;07OUTPUT; 将数据写入数据集;08END;结束循环;09PROC FREQ;调用FREQ过程进行独立性分析;10tables x*y x*z/chisq nocol 以x为行、分别以y和z为列建立四格nopercent nocum;表,要求进行检验;11run;运行程序;运行(ynxng)结果:Output窗口(chungku):变量(binling)x与y取值的配对四格表:The FREQ Procedure Table of x by y x y Freq

16、uency| Row Pct | 0| 1| Total + 0 | 630 | 143 | 773 | 81.50 | 18.50 | + 1 | 181 | 46 | 227 | 79.74 | 20.26 | + Total 811 189 1000 Statistics for Table of x by y Statistic DF Value Prob Chi-Square 1 0.3566 0.5504 Likelihood Ratio Chi-Square 1 0.3522 0.5529 Continuity Adj. Chi-Square 1 0.2508 0.6165 Ma

17、ntel-Haenszel Chi-Square 1 0.3563 0.5506 Phi Coefficient 0.0189 Contingency Coefficient 0.0189 Cramers V 0.0189 Fishers Exact Test Cell (1,1) Frequency (F) 630 Left-sided Pr = F 0.3054 Table Probability (P) 0.0632 Two-sided Pr = P 0.5634 Sample Size = 1000(上述结果表明两次摸球结果是独立的,关联系数为0.0189) 变量(binling)x与

18、z取值的配对(pi du)四格表: The FREQ Procedure Table of x by z x z Frequency| Row Pct | 0| 1| Total + 0 | 179 | 633 | 812 | 22.04 | 77.96 | + 1 | 151 | 37 | 188 | 80.32 | 19.68 | + Total 330 670 1000独立性检验(jinyn)及关联系数: Statistics for Table of x by z Statistic DF Value Prob Chi-Square 1 234.4698 .0001 Likelihoo

19、d Ratio Chi-Square 1 225.2727 .0001 Continuity Adj. Chi-Square 1 231.8415 .0001 Mantel-Haenszel Chi-Square 1 234.2353 .0001 Phi Coefficient -0.4842 Contingency Coefficient 0.4358 Cramers V -0.4842 Fishers Exact Test Cell (1,1) Frequency (F) 179 Left-sided Pr = F 1.0000 Table Probability (P) 1.111E-5

20、0 Two-sided Pr = P 1.193E-50 Sample Size = 1000(上述结果表明两次摸球结果是不独立的,关联系数为0.4358) 思考与练习的参考答案1 采用Spearman等级相关计算秩相关系数rs=0.667,P=0.071,秩相关系数有统计学意义。2 采用Pearson积差相关计算简单相关系数r=0.72,P=0.019,相关系数有统计学意义。3. 采用(ciyng)Spearman等级相关(xinggun)计算秩相关系数rs=0.416,P=0.0008,秩相关系数有统计学意义(yy)。4. 采用Spearman等级相关计算秩相关系数rs=0.980,P0.

21、05,结论认为两变量间相关关系无统计学意义。这个结论存在的问题是_。A.样本例数不够多 B.没有绘散点图 C.有可能存在非线性相关 D.应作秩相关分析E.可能计算有误2调查某地经济收入与某病发病率间的关系,发现收入低的人群,某病的发病率高;收入高的人群,某病的发病率低,两者呈负相关关系,经搜集10个乡的资料并计算出积差相关系数r为负值,作假设检验后p0.05,结论认为两变量间确有负相关关系,这个结论存在的问题是_A.样本例数不够多 B.没有绘散点图 C.可能存在非线性相关 D.收入与发病率间不能计算相关系数E.数据不满足双变量正态的要求,应作秩相关分析3某医生调查了497例饮酒量不同的前列腺炎

22、发生率,数据如下不同饮酒量与前列腺炎患病率间的关系食用酒量(kg/年)患病人数未患病人数合计患病率(%)315637819.23.55316822124.04.54410414829.75.524265048.0合4该题可用检验作两变量的关联性分析,若问题(wnt)改成不同饮酒量间的患病率是否不同,同样是用检验(jinyn),这两类问题_。 A.是一回事(hu sh) B.此设计不能改成不同饮酒量间患病率的比较C.只是结论不同的两个问题 D.虽然都是检验,但公式不同E.都是用相同的数据来计算,应该是相同的结论(三)A3/A4型:以下提供若干案例,每个案例下设若干道题目

23、。请根据题目所提供的信息,在每一道题下面的A、B、C、D、E五个备选答案中选择一个最佳答案。(第12题共用题干)随机抽取435例用依沙酰胺治疗皮肤真菌病变的患者,按照病程与疗效两方面情况分类,得如下资料: 依沙酰胺治疗的病人病程与疗效的统计数据病 程痊 愈好 转无 效合 计不满月792481111至月3013144月至年1028330215年以上29261065合计240145494351计算Pearson值:=24.639,=(4-1)(3-1)=6,查 界值表,P0.005。对此计算,你的意见是_。A可认为不同病程的病人其疗效差异有统计学意义B由于是双向有序分类变量,应采用Spearman等级相关系数C由于是双向有序分类变量,因而结论应是有线性相关关系D若要分析相关关系,应该计算Pearson关联系数E是否有线性关系,要作回归分析。(四)B1型:以下提供若干组题目,每组题目共用(n yn)题目前列出的A、B、C、D、E五个备选答案。请从中选择一个(y )与问题关系最密切的答案。某个备选答案可能被选择一次、多次或不被选择。(12题共用备选(bi xun)答案)A两变量相关性越好B结论可信度越大C认为总体具有线性相关的理由越充分D抽样误差越小E抽样误差越大1在相关性研究中,P值越小,则_。2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论