




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言论文范文 统计计算 分类数据的列联表分析 信计1002班王秋燕201020310216 分类数据的列联表分析 第一部分: 统计学中根据变量取值类型的不同,把变量分为两大类:离散型变量和连续型变量。离散型变量又称为定量变量,可分为区间变量和比率变量。 称变量为名义变量,如果变量的可能取值是没有次序之分的几个水平或状态。称变量为有序变量,如果变量的可能去只是有次序之分的几个水平或状态。 称变量为连续型变量,如果变量的可能取值是某个连续区间。对离散型变量进行抽样取得的数据称为分类数据,也称为属性数据。统计运用于我们日常生活的方方面面,尤其是在社会科学中,常常采用列联表来记录我们所获得资料,列联表的资料看起来只是一个一个的资料,但这些由两个或两个以上的类别交叉组合得出的格子,行变量的类别用r表示,ri表示第 i个类别,列变量的类别用c 表示,cj表示第j个类别,每种组合的观察频次用fij 表示,表中列出了行变量和列变量的所有可能的组合,所以称为列联表,一个r行 c列的列联表称为r?c列联表。通过运用统计检验方法,能够帮助我们更清晰地 分析社会现象。 列联表独立性检验是卡方拟合优度检验的一个特例,人们将两个或多个特征分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或多种分类之间是否有某种联系。 第二部分: 我们用统计理论来解决这个问题。方法一:我们采用独立性的?2检验。 ?2检验(Chi-squaretest)是现代统计学的创始人之一,K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率(或者构成比)之间的比较,计数资料的关联度分析,拟合优度检验等。?2检验用途: 比较称名变量的次数,具体来讲,就是比较实际次数与期望次数(或理论次数)之间是否有相助差异,或研究检验观察值与理论值之间的紧密程度。?2拟合检验就是用来确定事件出现的频数分布与某一理论分布之间的差别是否是随 机性的。 ?2分布基本思想:第一,属连续型分布,第二,可加性是其基本性质,第三,唯一参数,即自由度。 (1)自由度为1的?2分布,若ZN(0,1),则Z2的分布称为自由度为1的?2 2(Chi-squaredistribution),记为?(1)或?2(1)。 (2)Z1,Z2.Zv互相独立,均服从N(0,1),则Z12?Z22?.?Zv2的分布称自由度为V的? 2?(2v)近 的正态分布。 图一 2 ?2检验(chi-squaredistribution)基本公式:?T, (A?T) 2 ?(R?1)(C?1) 上述基本公式由K.Pearson提出,因此许多统计软件上常称这种检验为PearsonsChi-squaretest,其他卡方检验都是在此基础上发展起来的。?2检验主要有三个:适应性检验,正态性检验以及独立性检验。 (1)适合性检验为单样本卡方检验,它只是记一个变量,但数据要分成若干相互排斥的组和范畴。其目的是检验时间次数与期望次数是否吻合。 ?np(实统计量:2(ni),实质是:测频数?理论频数)2 ?i?npi理论频数i?1i?1 k 2 k 2 适合性检验是用样本提供的信息去推断总体分布是否适合某种已知的规律。(2)正态性检验,用卡方检验进行正态性检验其实也是一种适合性检验,即检验实际次数分布与期望次数分布是否有显著性差异。 (3)独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式,即一个分类标准把 数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个的方格。每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有边际和加起来就是全部数据的个数或样本容量(N)。独立性检验的分析步骤:第一步:建立假设与备择假设: H0:pijpi?pj(行变量与列变量独立);H1:pij=pi?pj(行变量与列变量不独立)。第二步:确定适当的检验统计量为chi-square; 第三步:规定显著性水平?,查表得出拒绝域和临界值;第四步:运用R语言命令运行;? 第五步:作出判断将检验统计量的值与?水平的临界值进行比较,得出接受或拒绝原假设的结论:若样本统计量的值落入拒绝域,则拒绝原假设,接受备择假设 H1;否则,接受H0。 ?2统计量用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。当n很大,每格eij都不太小时,服从自由度k?(r?1)(c?1)的 ?分布,计算公式为:,其自由度为(r?1)(c?1),nij一列联 2 eij一列联表只第表中第i行第j列类别的实际频数,i行第j列类别的实际频数。2rc 方法二:Fisher精准检验 ? 2 ? i?1 j?1 (nij?eij) eij Fisher精准检验是列联表行变量和列变量独立性的另一种检验方法,Fisher精准检验是在行与列边际总数固定的假设下,利用超几何分布,用枚举法计算列联表可能出现情况的概率,此时要检验的问题仍是 HO:行变量和列变量相互独立。(1)首先介绍多元几何的多元推广,它是超几何分布的多元推广。定义:设随机向量X=(x1,x2,?xr)满足条件: (1)0?Xi?Ni(i=1,2,.,r),且N1?N2?.?Nr?N, r (2)m1,m2,.,mr为r个非负整数,o?mi?Ni且?mi?m(0?m?N),事件概率 i?1 由下式给出: ( P(X1,X2,.XR)?(m1,m2,.mr)? N1m1 )( N2m2(N ).() Nrmr r )? m!(N?m)!?Ni! i?1 r ,则称X m N!?mi!(Ni?mi)! i?1 服从多元超几何分布,记为XMH(N1,N2,.Nr;m). 多元超几何分布的背景如下,共有N个个体分为r类,其中第i(i?1,2,.,r)类有Ni个,现从总体中等可能无放回的抽取m个个体,用Xi表示m个个体中属于第i类的个数,则X?(X1,X2,.,Xr)服从多元超几何分布。特别当r?2时,多元超几何分布就是超几何分布。 2?2表Fisher精准检验:观测表(Table)概率,双侧(Twosided)p值,左侧(Leftsided)p值,右侧(Rightsided)p值。 观测表概率是按超几何分布计算的所观测到表格的概率。较小的双侧p值有利于行变量和列变量有关联的备择假设。对于2?2表,当行列边际总数固定时,如表1,n11的数值完全决定了整个表格,n11记为(1,1)单元格可能出现的频数,则Fisher精准检验的左侧p值是事件n11?F的概率,右侧值是事件n11?F的概率。 表1 n11?FLeftsidedp= p(n11)?p(n11?F) P(n11)? n11?F p(n11),Rightsidedp= ? n11?F p(n11)。 如表1,在行边际总数固定条件下,可以把row1和row2两行看成两个独立的二项分布总体,则检验问题(1)中的H0相当于row1和row2有相同的二项分布,所以检验问题(1)写成 H0:p(Y?coll)?p(Y?collX?row1)?p(Y?collX?row2),结合表1,则 HO:p?1? p1p1? 1 ? p 21 p2? 。(2) 由此不难理解,在Fisher精准检验中,与检验水平?相比较,小的左侧p值有利于备择假设:对于row1总体,观测属于coll的概率,小于其期望概率;小的右侧p值有利于备择假设:对于row1总体,观测属于coll的概率,大于其期望概率。即左侧p值和右侧p值分别对应检验问题(2)的如下备择假设; ?H1:p11p1?p?1,Leftside? ?H2:P11P1?P?1,Rightside p,p, , 综上所述,对2?2表,Fisher精准检验的左侧p值小于检验水平,说明row1的coll风险小于row2的coll风险,即p?p12,又等价于OR(OddsRatio,优比比率)大于1。右侧p值小于检验水平,说明row1的coll风险大于row2的coll风险,即p?p12。 第三部分: 用R语言解决 xdim(x)rclrcl(输出结果)V1v22436 dimnames(rcl)1dimnames(rcl)2rcl(输出结果)b1b2a126a257 Chisq.test(rcl)(用皮尔松卡方检验) PearsonsChi-squaredtestwithYatescontinuitycorrectiondata:rcl X-squared=0.0824,df=1,p-value=0.774(输出结果) 最后看p-value值,p-value0.05,接受原假设,两者是独立的,没有关系。从结论看,p-value=0.774,接受原假设,两者是独立没有关系的。 第四部分 例子:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)。 dim(s)=c(2,2)s ,1,21,7775422,209949rclrclV1V217775422209949 dimnames(rcl)1 dimnames(rcl)2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025建筑垃圾清运工程施工合同
- 2025二手住宅小区管理合同(合同版本)
- 活动一 南北方民居大不同说课稿小学综合实践活动沪科黔科版六年级下册-沪科黔科版
- Progress Check 1说课稿初中英语九年级下册上海新世纪版
- 核心素养视角下单元教学案例解析
- 贵州企业招聘2025贵州科技馆劳务派遣制员工招聘笔试参考题库附带答案详解
- 第19课《枣儿》说课稿 2025-2026学年统编版语文九年级下册
- 铁路货物运输合同(GF-91-0402)2025年合同范本
- 山东海洋文化旅游发展集团有限公司2025年度公开招聘拟聘用人员考试历年参考题附答案详解
- 2025年第一季度死因监测培训考试题附答案
- 桌面消防演练
- 癫痫的小讲课
- 2025年江西省高考物理真题
- 第七讲社会主义现代化建设的教育科技人才战略习概论2024优化版教学课件
- CJ/T 316-2009城镇供水服务
- (高清版)DB62∕T 3268-2024 人民防空工程平战功能转换技术标准
- 全新模具转让协议书
- 2025年法院书记员考试试题及答案
- 电子生物反馈治疗
- 车队车辆保养维护方案
- 《婴幼儿健康管理》课件-项目一 婴幼儿健康管理基础
评论
0/150
提交评论