杨鹏伟stata统计分析与应用 第六章 列联分析_第1页
杨鹏伟stata统计分析与应用 第六章 列联分析_第2页
杨鹏伟stata统计分析与应用 第六章 列联分析_第3页
杨鹏伟stata统计分析与应用 第六章 列联分析_第4页
杨鹏伟stata统计分析与应用 第六章 列联分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、STATA 从入门到精通第六章第六章 列联表分析列联表分析Page 2STATA从入门到精通从入门到精通6.1列联表分析列联表分析n列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量本统计方法。设两个变量A和和B分别有分别有r和和c个类型,则他们可以构成一个个类型,则他们可以构成一个的列联表。的列联表。n独立性检验统计量独立性检验统计量在对两变量进行列联表分析时,首先要检验它们的独立性,这就涉及到在对两变量进行列联表分析时,首先要检验它们的独立性,这就涉及到独立性检验统计量,常用的统计量有皮尔逊卡方统计

2、量(独立性检验统计量,常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量()和似然比统计量(Likelihood Ratio)。)。Fisher精确检验仍采用卡方统计量作为检验统计量,只是在计算统计量精确检验仍采用卡方统计量作为检验统计量,只是在计算统计量的分布时,利用概率论中的超几何分布来计算每一种情况发生的概率,的分布时,利用概率论中的超几何分布来计算每一种情况发生的概率,然后才能得到然后才能得到P值。当样本量较大,或者列联表的行数及列数较大时,值。当样本量较大,或者列联表的行数及列数较大时,Fisher检验的计算量会变得很大,以至于无法承受。检验的计算量

3、会变得很大,以至于无法承受。Page 3STATA从入门到精通从入门到精通n 列联表中的相关测量统计量列联表中的相关测量统计量n 对于名义变量,通常采用基于卡方统计量的各种统计量来进行关联性对于名义变量,通常采用基于卡方统计量的各种统计量来进行关联性度量,最常的是度量,最常的是Cramers V系数系数n 对于有序变量,关联性度量的统计量通常是基于观测中的一致对和不对于有序变量,关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联性的大小:性的大小: 统计量:统计量:gamma统计

4、量和统计量和 Kendall统计量统计量nPage 4STATA从入门到精通从入门到精通6.2 Stata的列联表分析的列联表分析table和和tabulate命令命令6.2.1使用使用table命令生成列联表命令生成列联表table命令可以用于生成一维到多维的列联表,表中不仅可以包含常见的命令可以用于生成一维到多维的列联表,表中不仅可以包含常见的频数,还可以包含任意其他变量的描述性统计量。频数,还可以包含任意其他变量的描述性统计量。table命令的格式如下:命令的格式如下: table rowvar colvar supercolvar if in weight , options其中其中r

5、owvar代表行变量,代表行变量,colvar代表列变量,代表列变量,supercolvar代表更高阶代表更高阶的列变量,同之前一样,的列变量,同之前一样,in和和if用于选择样本或者选择范围,用于选择样本或者选择范围,weight用用于添加权重。于添加权重。Page 5STATA从入门到精通从入门到精通 表表6-2 table命令可以报告的统计量命令可以报告的统计量n freq 频数频数n mean 平均数平均数n sd 标准差标准差n semean 标准误标准误 (sd/sqrt(n)n sum 总和总和n count、n 观测值个数观测值个数n max 最大值最大值n min 最小值最小

6、值n median 中位数中位数n p# 各种百分位数各种百分位数n iqr IQR四分位距四分位距Page 6STATA从入门到精通从入门到精通n 【例【例6.1】 数据集数据集auto.dta是是Stata系统自带的关于系统自带的关于1978年汽车市场年汽车市场的一个调查数据,该数据集共有的一个调查数据,该数据集共有74个观测值,个观测值,12个变量。变量的具个变量。变量的具体情况是:体情况是:make是字符型变量,表明生产厂商。其他均为数值型变是字符型变量,表明生产厂商。其他均为数值型变量,量,price是汽车的价格(万元),是汽车的价格(万元),mpg是行驶里程(英里),是行驶里程(英

7、里),rep78是在该年度修理次数,是在该年度修理次数,foreign是虚拟变量,赋值是虚拟变量,赋值1代表国外产,代表国外产,0代代表国产。数据用几个变量揭示了汽车的重要特征:表国产。数据用几个变量揭示了汽车的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽车内部依次代表汽车内部空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。n 本例演示如何利用本例演示如何利用table命令完成如下两个任务:命令完成如下两个任务:n (1)使用)使用table命令创建关于命

8、令创建关于rep78的频数表,并在表中显示的频数表,并在表中显示mpg的的观测值个数、平均数、标准差和中位数。观测值个数、平均数、标准差和中位数。n (2)使用)使用table命令创建关于命令创建关于foreign和和rep78的二维表格,并在表中的二维表格,并在表中显示显示mpg的平均数。的平均数。Page 7STATA从入门到精通从入门到精通n 【例【例6.2】本例使用一个关于肺炎的调查数据集】本例使用一个关于肺炎的调查数据集byssin1.dta来说明来说明table命令创建多维表格命令创建多维表格。数据集中每个观测值代表了一类人,变量数据集中每个观测值代表了一类人,变量prob是该类人

9、罹患肺炎的概率,是该类人罹患肺炎的概率,smokes是代表是否吸烟的虚拟变量,是代表是否吸烟的虚拟变量,race是关于是否是白人的虚拟变量,是关于是否是白人的虚拟变量,workplace按照工作场所的烟尘按照工作场所的烟尘等级划分为三类,等级划分为三类,1为最少,为最少,3为最多,为最多,sex是性别,是性别,1代表男性。最代表男性。最关键的变量是关键的变量是pop,表示具有该观测值的个体的数量,比如,表示具有该观测值的个体的数量,比如,pop=3,则意味着样本中有则意味着样本中有3个人具有该观测值所揭示的性质。在这个数据集个人具有该观测值所揭示的性质。在这个数据集中,中,pop的取值从的取值

10、从0到到507不等,其中不等,其中0说明没有任何个体具有该观测说明没有任何个体具有该观测值所揭示的性质,值所揭示的性质,507则说明有则说明有507个个体具有同样的性质。我们鼓个个体具有同样的性质。我们鼓励读者使用励读者使用codebook命令对这些变量的具体赋值更深入地考察。命令对这些变量的具体赋值更深入地考察。n 下面我们演示如何完成如下两个创建多维表格的任务。下面我们演示如何完成如下两个创建多维表格的任务。n (1)创建一个关于)创建一个关于workplace、smokes和和race的三维列联表。的三维列联表。n (2)创建一个关于)创建一个关于workplace、smokes、rac

11、e和和sex的四维列联表。的四维列联表。Page 8STATA从入门到精通从入门到精通Page 9STATA从入门到精通从入门到精通6.2.2使用使用tabulate命令进行列联表分析命令进行列联表分析1 一维一维tabulate命令命令n tabulate的一维命令主要用于生成含有频数的一维表格,使用比较简的一维命令主要用于生成含有频数的一维表格,使用比较简单,当我们想查看某个变量的赋值情况时,也可以使用单,当我们想查看某个变量的赋值情况时,也可以使用tabulate来得来得到大体的印象。下面是这个命令的标准结构:到大体的印象。下面是这个命令的标准结构:n tabulate varname

12、if in weight , tabulate1_optionsn 同之前一样,同之前一样,in和和if用于选择样本或者选择范围,用于选择样本或者选择范围,weight用于添加权用于添加权重。重。n tabulate一维命令还有一个配套的方便工具一维命令还有一个配套的方便工具tab1,在其后可以添,在其后可以添加多个变量,然后加多个变量,然后stata会对每个变量创建以为表格,也就是相当于会对每个变量创建以为表格,也就是相当于多次执行多次执行tabulate命令。命令。tab1的结构如下:的结构如下:n tab1 varlist if in weight , tab1_optionsPage

13、10STATA从入门到精通从入门到精通n 【例【例6.3】使用】使用auto.dta数据创建数据创建rep78和和foreign的一维频数表。的一维频数表。Page 11STATA从入门到精通从入门到精通2 二维二维tabulate命令命令n 二维二维tabulate命令在生成二维表格的同时,可以计算多种独立性检验命令在生成二维表格的同时,可以计算多种独立性检验统计量和相关测量统计量,包括常用的统计量和相关测量统计量,包括常用的Pearsons chi-squared、likelihood-ratio chi-squared、Cram s V、Fishers exact test、Goodma

14、n and Kruskals gamma、Kendalls tau-b,这些统计量,这些统计量在前面均介绍过。下面是该命令的标准格式:在前面均介绍过。下面是该命令的标准格式:n tabulate varname1 varname2 if in weight , optionsn 同之前一样,同之前一样,in和和if用于选择样本或者选择范围,用于选择样本或者选择范围,weight用于添加权用于添加权重。重。n 同同tabulate的一维表格一样,二维的一维表格一样,二维tabulate命令也有命令也有tab2,可用于快,可用于快速生成速生成varlist中所罗列的变量所有可能的二维表格,中所罗列

15、的变量所有可能的二维表格,tab2的标准格式的标准格式如下:如下:n tab2 varlist if in weight , optionsPage 12STATA从入门到精通从入门到精通n 【例【例6.4】利用关于肺炎的调查数据】利用关于肺炎的调查数据byssin1.dta来检验得肺炎概率与来检验得肺炎概率与是否抽烟、工作场所空气质量这两个变量之间的独立性(当然,凭借是否抽烟、工作场所空气质量这两个变量之间的独立性(当然,凭借常识,它们应该是有关系的),即分别对常识,它们应该是有关系的),即分别对probcat和和smokes以及以及probcat和和workplace做标准的列联分析。做标

16、准的列联分析。Page 13STATA从入门到精通从入门到精通6.3利用利用Stata生成包含描述性统计量的列表生成包含描述性统计量的列表6.3.1 tabstat命令命令n tabstat可以在一个表格中显示多个变量的多种描述性统计量,这些可以在一个表格中显示多个变量的多种描述性统计量,这些统计量包括平均数、最大最小值、极差、方差、标准差、偏度、峰度统计量包括平均数、最大最小值、极差、方差、标准差、偏度、峰度以及各种百分位数。以及各种百分位数。tabstat是是summarize命令的替代选择,前者比命令的替代选择,前者比后者更加灵活,可以自由选择表格中包含的统计量种类。通过添加后者更加灵活

17、,可以自由选择表格中包含的统计量种类。通过添加by(),tabstat对每类观测值报告各自的统计量。对每类观测值报告各自的统计量。n tabstat的标准格式如下:的标准格式如下:n tabstat varlist if in weight , optionsn 同之前一样,同之前一样,in和和if用于选择样本或者选择范围,用于选择样本或者选择范围,weight用于添加权用于添加权重。重。Page 14STATA从入门到精通从入门到精通n rangerange = max - minn mean平均数平均数n sd 标准差标准差n variance方差方差n semean 标准误标准误 (sd

18、/sqrt(n)n sum 总和总和n count 观测值个数观测值个数n max min 最大值最大值 最小值最小值n median 中位数中位数n p# 各种百分位数各种百分位数n p 相当于相当于p25 p50 p75n iqr IQR四分位距四分位距Page 15STATA从入门到精通从入门到精通n 【例【例6-6】利用利用auto.dta数据集完成如下两个任务:数据集完成如下两个任务:n (1)生成包含)生成包含price、weight、mpg、rep78的均值的表格。的均值的表格。n (2)对上述四个变量按照)对上述四个变量按照foreign分类报告平均数、标准差和最小值、分类报告平均数、标准差和最小值、最大值。最大值。Page 16STATA从入门到精通从入门到精通6.3.2 tab

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论