列联分析PPT学习课件_第1页
列联分析PPT学习课件_第2页
列联分析PPT学习课件_第3页
列联分析PPT学习课件_第4页
列联分析PPT学习课件_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第六章列联表分析,6.1列联表分析,列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量A和B分别有r和c个类型,则他们可以构成一个的列联表。独立性检验统计量在对两变量进行列联表分析时,首先要检验它们的独立性,这就涉及到独立性检验统计量,常用的统计量有皮尔逊卡方统计量(PearsonChi-Square)和似然比统计量(LikelihoodRatio)。Fisher精确检验仍采用卡方统计量作为检验统计量,只是在计算统计量的分布时,利用概率论中的超几何分布来计算每一种情况发生的概率,然后才能得到P值。当样本量较大,或者列联表的行数及列数较大时,Fisher检验的计算量会变得很大,以至于无法承受。,列联表中的相关测量统计量对于名义变量,通常采用基于卡方统计量的各种统计量来进行关联性度量,最常的是CramersV系数对于有序变量,关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联性的大小:统计量:gamma统计量和Kendall统计量,6.2Stata的列联表分析table和tabulate命令6.2.1使用table命令生成列联表,table命令可以用于生成一维到多维的列联表,表中不仅可以包含常见的频数,还可以包含任意其他变量的描述性统计量。table命令的格式如下:tablerowvarcolvarsupercolvarifinweight,options其中rowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。,表6-2table命令可以报告的统计量freq频数mean平均数sd标准差semean标准误(sd/sqrt(n)sum总和count、n观测值个数max最大值min最小值median中位数p#各种百分位数iqrIQR四分位距,【例6.1】数据集auto.dta是Stata系统自带的关于1978年汽车市场的一个调查数据,该数据集共有74个观测值,12个变量。变量的具体情况是:make是字符型变量,表明生产厂商。其他均为数值型变量,price是汽车的价格(万元),mpg是行驶里程(英里),rep78是在该年度修理次数,foreign是虚拟变量,赋值1代表国外产,0代表国产。数据用几个变量揭示了汽车的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽车内部空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。本例演示如何利用table命令完成如下两个任务:(1)使用table命令创建关于rep78的频数表,并在表中显示mpg的观测值个数、平均数、标准差和中位数。(2)使用table命令创建关于foreign和rep78的二维表格,并在表中显示mpg的平均数。,【例6.2】本例使用一个关于肺炎的调查数据集byssin1.dta来说明table命令创建多维表格。数据集中每个观测值代表了一类人,变量prob是该类人罹患肺炎的概率,smokes是代表是否吸烟的虚拟变量,race是关于是否是白人的虚拟变量,workplace按照工作场所的烟尘等级划分为三类,1为最少,3为最多,sex是性别,1代表男性。最关键的变量是pop,表示具有该观测值的个体的数量,比如,pop=3,则意味着样本中有3个人具有该观测值所揭示的性质。在这个数据集中,pop的取值从0到507不等,其中0说明没有任何个体具有该观测值所揭示的性质,507则说明有507个个体具有同样的性质。我们鼓励读者使用codebook命令对这些变量的具体赋值更深入地考察。下面我们演示如何完成如下两个创建多维表格的任务。(1)创建一个关于workplace、smokes和race的三维列联表。(2)创建一个关于workplace、smokes、race和sex的四维列联表。,6.2.2使用tabulate命令进行列联表分析1一维tabulate命令,tabulate的一维命令主要用于生成含有频数的一维表格,使用比较简单,当我们想查看某个变量的赋值情况时,也可以使用tabulate来得到大体的印象。下面是这个命令的标准结构:tabulatevarnameifinweight,tabulate1_options同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。tabulate一维命令还有一个配套的方便工具tab1,在其后可以添加多个变量,然后stata会对每个变量创建以为表格,也就是相当于多次执行tabulate命令。tab1的结构如下:tab1varlistifinweight,tab1_options,【例6.3】使用auto.dta数据创建rep78和foreign的一维频数表。,2二维tabulate命令,二维tabulate命令在生成二维表格的同时,可以计算多种独立性检验统计量和相关测量统计量,包括常用的Pearsonschi-squared、likelihood-ratiochi-squared、CramsV、Fishersexacttest、GoodmanandKruskalsgamma、Kendallstau-b,这些统计量在前面均介绍过。下面是该命令的标准格式:tabulatevarname1varname2ifinweight,options同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。同tabulate的一维表格一样,二维tabulate命令也有tab2,可用于快速生成varlist中所罗列的变量所有可能的二维表格,tab2的标准格式如下:tab2varlistifinweight,options,【例6.4】利用关于肺炎的调查数据byssin1.dta来检验得肺炎概率与是否抽烟、工作场所空气质量这两个变量之间的独立性(当然,凭借常识,它们应该是有关系的),即分别对probcat和smokes以及probcat和workplace做标准的列联分析。,6.3利用Stata生成包含描述性统计量的列表6.3.1tabstat命令,tabstat可以在一个表格中显示多个变量的多种描述性统计量,这些统计量包括平均数、最大最小值、极差、方差、标准差、偏度、峰度以及各种百分位数。tabstat是summarize命令的替代选择,前者比后者更加灵活,可以自由选择表格中包含的统计量种类。通过添加by(),tabstat对每类观测值报告各自的统计量。tabstat的标准格式如下:tabstatvarlistifinweight,options同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。,rangerange=max-minmean平均数sd标准差variance方差semean标准误(sd/sqrt(n)sum总和count观测值个数maxmin最大值最小值median中位数p#各种百分位数p相当于p25p50p75iqrIQR四分位距,【例6-6】利用auto.dta数据集完成如下两个任务:(1)生成包含price、weight、mpg、rep78的均值的表格。(2)对上述四个变量按照foreign分类报告平均数、标准差和最小值、最大值。,6.3.2tabulate,summarize(),tabulate,summarize()用于生成一维或者二维的包含均值和标准差的表格,事实上,table比tabulate,summarize()更加灵活,它可以生成一维到多维的包含更多统计量的表格,因此table命令更好,而tabulate,summarize()的特点在于运行更快。tabulate,summarize()命令的标准格式如下:tabulatevarname1varname2ifinweight,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论