




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析(方法和案例),*,我们是无知的,所以让我们学习!卡尔皮尔逊,统计学名言,第7章分类变量的推断,7.1一个分类变量的拟合优度检验,7.2两个分类变量的独立性检验,7.3两个分类变量的相关测量,c2,检验,*学习目标,一个分类变量的拟合优度检验,两个分类变量的独立性检验,两个检验的应用,需要注意的问题,两个分类变量的相关测量,用SPSS *进行的两个检验,性别和逃学之间有没有关系?恐怕这样的学生不多。2004年5月,中国人民大学金融学院的三名学生对逃课现象进行了调查。调查的对象是财经学院的一年级、二年级和三年级学生。抽样方法是分层抽样和简单随机抽样的结合。首先,对等级进行划分,然后对每个
2、班级进行简单的随机抽样。共选取150名学生作为样本,对每个学生进行问卷调查。问卷的内容包括每周逃学的频率、逃学课程的类型(选修课、专业课等)。)和逃学的原因。从调查中获得的男女学生逃学情况汇总表如下:*、性别是否与逃学有关?这里涉及两个分类变量,一个是逃学,另一个是性别。根据以上数据,你认为性别和逃学有关系吗?如何检验两个分类变量之间是否存在关系?学习本章后,很容易解决这样的问题:7.1分类变量的拟合优度检验7.1.1等期望频率7.1.2不等期望频率7 . 1 . 2第7章分类变量的推断,*通过皮尔逊-2统计判断分类变量的观察频率分布是否与理论分布或期望分布一致的检验方法,例如,产品每个月的销
3、售量是否符合均匀分布,不同地区的离婚率是否有显著差异也称为同质性检验。这个检验也可以用来判断各种类别的观测频率分布是符合泊松分布还是正态分布,什么是拟合优度检验?(拟合优度检验),7.1.1预期频率相等,7.1分类变量的拟合优度检验,*例7-1为了研究消费者对不同品牌的牛奶是否有明显的偏好,一家调查公司抽样调查了500名消费者对四个品牌的偏好,结果如下表所示。检验消费者对牛奶品牌的偏好是否存在显著差异(=0.05),拟合优度检验(等期望频率),*,拟合优度检验(等期望频率),步骤1:提出假设H0:观察频率和期望频率之间没有显著差异(无明显偏好)H1:观察频率和期望频率之间有显著差异(有明显偏好
4、)步骤2:拟合优度检验(等期望频率),2统计计算表,*拟合优度检验(等期望频率),步骤3:做出决定。因为自由度=4-1=3,所以用Excel的CHIDIST函数计算的统计量的p值(右尾概率)是6.22366E-12,并且因为p值接近0。拒绝最初的假设表明消费者对牛奶品牌的偏好有显著差异。*,拟合优度测试(使用SPSS预期相等的频率),步骤1:指定“频率”变量,单击数据权重案例,选择权重案例依据,并将“频率”(在本例中,人数)选择为频率变量。点击【确定】步骤2:选择菜单:分析非参数检验卡方,进入主对话框步骤3:选择频率变量进入(本例中为人数)检验变量列表。点击确定,用SPSS,SPSS,*,拟合
5、优度检验(使用SPSS),近似显著性水平(无症状)为p值。p的值接近于0。拒绝原始假设表明消费者对牛奶品牌的偏好存在显著差异,7.1.2期望频率存在差异,7.1分类变量的拟合优度检验,*例7-2全国房地产价格调查显示,15%的城市居民对房价非常不满意,45%不满意,25%一般,9%满意。为了研究一线城市居民对房地产价格的满意度,一家研究机构抽样调查了一个城市的300人。其中一个问题是:“你对目前的房价满意吗?”调查中有五个选项:非常不满意、不满意、公平、满意和非常满意。调查结果的频率分布如下表所示。检查城市居民对住房价格满意度评价的频率是否与全国调查频率一致,拟合优度检验(期望频率变化),*,
6、拟合优度检验(期望频率变化),第一步:提出假设H0:城市居民对住房价格的评价频率与全国评价频率没有显著差异H1:城市居民对住房价格的评价频率与全国评价频率有显著差异。步骤2:计算预期频率和2个统计量,自由度df=类别数-1,*,拟合优度检验(预期频率变化),预期频率计算表,*,拟合优度2统计量计算表,*,拟合优度检验(预期频率不相等),步骤3:做出决定。因为自由度=5-1=4,所以用电子表格的CHIDIST函数计算的统计量的P值(右尾概率)为0.102662,因为P0.05。在不否定原假设的情况下,没有证据表明城市居民对房价满意度的评价与全国有显著差异。*,拟合优度检验(使用SPSS预期不同的
7、频率),第1步:先指定“频率”变量第2步:选择菜单:分析非参数检验卡方,进入主对话框的第3步:在检验变量列表中选择频率变量第4步:在期望值下选择值,依次在框中输入相应的期望比率(本例中为全国调查比率),点击添加(一次只能输入一个),然后点击添加。点击确定,用SPSS,SPSS,*,拟合优度检验(使用SPSS),近似显著性水平(无症状)为p值。由于P0.05,在不否定原假设的情况下,没有证据表明城市居民对住房价格满意度的评价与全国有显著差异。7.2两个分类变量的独立性检验7.2.1列联表和2独立性检验7.2.2应用中需要注意的问题2检验,第7章分类变量的推断,7.2.1列联表和2独立性检验,7.
8、2两个分类变量的独立性检验,*当研究两个分类变量时,每个变量有多个类别。通常,两个变量的多个类别的频率以交叉表的形式表示。一个变量放在行的位置,称为行变量,其类别号(行号)用R表示,另一个变量放在列的位置,称为列变量。类别数(列数)用c表示。这个有两个或更多分类变量的频率分布表称为列联表。由R行和C列组成的列联表也称为rc列联表。例如,在本章开头的案例中,有两类行变量“逃学”和两类列变量“性别”。这是一个22列的应急表。什么(独立性检验),*,分析列联表中的两个分类变量,通常是判断这两个变量是否独立。这个测试最初的假设是:两个变量是独立的。如果原始假设被否定,就意味着两个变量不是独立的,或者两
9、个变量的独立性检验的统计量是独立的,什么是独立性检验?(独立性测试),自由度df=(r-1)(c-1),*,例7-3使用本章开头的学生逃学调查数据,如下表所示。测试性别和逃学是否独立,2独立性测试(示例分析),*,2独立性测试(示例分析),步骤1:提出假设H0:性别和逃学是否独立H1:性别和逃学是否独立步骤2:计算预期频率和2统计,RT是给定单元格的总频率;CT是给定单元格所在列的总频率;n是样本大小,* 2独立性检验(示例分析),步骤2:计算预期频率和2统计,* 2独立性检验(示例分析),步骤3:作出决定在不否定原始假设的情况下,我们可以认为性别与旷课无关,* 2独立性测试(使用SPSS),
10、将列联表中的数据转换为原始数据表单步骤1:选择分析描述性统计-交叉表,进入主对话框步骤2:选择行变量(在本例中为“旷课”)为行(在本例中为“性别”)选择列变量(在本例中为列)(行和列可以互换)。第三步:点击【统计】,选择【卡方】;单击继续返回主对话框,单击单元格,在计数下选择预期,然后单击继续返回主对话框。点击确定,用SPSS,SPSS,*,2独立性检验(使用SPSS),近似显著性水平(无症状)为p值。因为P0.05在不否定原假设的情况下,我们可以认为性别与逃学无关,7.2.2应用2检验时应注意的问题,7.2两个分类变量的独立性检验,*在应用2检验时,要求样本量要足够大,特别是每个细胞的预期频
11、率不能太小,否则,应用2检验可能会导致错误的结论。从公式2的统计,可以看出,预期的频率是在公式的分母。如果一个细胞的预期频率太小,统计的值就会变大,这就导致原始假设的拒绝。当应用2测试时,电池的预期频率有以下要求。如果只有两个小区,小区的最小期望频率不应小于5。否则,当2-测试中有两个以上的单元时,期望频率小于5的单元不能超过总网格数的20%;否则,不能进行2-测试。如果期望频率小于5的小区数量超过20%,可以采用合并类别的方法来解决这个问题,并且应该应用2-测试中应该注意的问题。7.3两个分类变量的相关测量7.3.1系数和克莱默斯五系数7.3.2列联系数,第7章分类变量的推断,7.3.1系数
12、和克莱默斯五系数,7.3两个分类变量的相关测量,*,主要用于22个表格的相关测量。计算公式是例73的计算结果,得到了性别和逃学两个变量之间的系数,由于很小,说明性别和逃学之间没有相关性。这与独立性测试的结论一致。系数,*,是由克莱默提出的。计算公式是克莱姆。V系数的取值范围始终在01之间。当两个变量独立时,V=0;当两个变量完全相关时,V=1。如果列联表中的行数或列数之一为2,则CRMERS V系数等于该系数。例如,根据例73的计算结果,性别和逃学两个变量之间的CRMERS V系数与系数(克莱姆斯V系数)7.3.2列联系数一致。7.3两个分类变量(,*,)的相关性度量主要用于大于22的列联表的相关性度量,用C表示的计算公式是联系数不能大于1。当两个变量独立时,C=0,但即使两
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业保险产品创新与农村保险服务风险控制优化报告
- 教育行业2025年质量评估与认证体系在学生心理健康教育中的应用报告
- 2025年人工智能自然语言处理技术在智能医疗诊断系统中的药物副作用预测报告
- 2023年系统集成项目经理继续教育D组考试真题
- 2023青海安全生产月知识模拟测试附答案
- 2023监测危重病人的大循环和微循环
- 2023年考研数学之线性代数讲义考点知识点概念定理总结
- 2023车位租赁合同(15篇)
- 《新编应用文写作》高校应用文写作课程全套教学课件
- 中职高考英语一轮练习(主谓一致)含答案
- 树根桩施工方案40867
- 2025年轻型民用无人驾驶航空器安全操控(多旋翼)理论备考试题库(含答案)
- 年产3万吨生物基PTT聚合项目环评资料环境影响
- 辽宁教学课题申报书
- 超市项目可行性报告
- 新目标英语七年级上册语法总结课件资料讲解
- 火灾报警控制器、消防联动控制器、火灾报警控制器(联动型)调试检测检验批质量验收记录
- 中建高支模施工方案
- 新冠病毒的治疗方案
- 全国各省市火车站名称
- 2015-2024年十年高考化学真题分类汇编专题44 化学反应速率(原卷版)
评论
0/150
提交评论