属性数据分析第五章课后答案_第1页
属性数据分析第五章课后答案_第2页
属性数据分析第五章课后答案_第3页
属性数据分析第五章课后答案_第4页
属性数据分析第五章课后答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、属性数据分析第五章课后答案属性数据分析第五章课后作业6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下:偏好饮料A偏好饮料B年青人男性3726女性1123老年人男性:30:43女性3111试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问 题,你有什么看法?为什么?解:(1)数据压缩分析首先将上表中不同年龄段的数据合并在一起压缩成二维22列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?表1.1 “性别偏好饮料”列联表偏好饮料A偏好饮料B合计偏好A比例偏好B比例男性676913649.26%:50.74%女

2、性42347655.26%44.74%二维2 2列联表独立检验的似然比检验统计量2ln的值为0.7032,P值为P P( 2(1) 0.7032) 0.4017 0.05 ,不应拒绝原假设,即认为“偏好类型”与“性别”无关。(2) 数据分层分析其次,按年龄段分层,得到如下三维 222列联表1.2 ,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异?表1.2 三维2 2 2列联表偏好饮料A偏好饮料B合计偏好A比 例偏好B比 例年青人男性37266358. 73%41.27%女性112334 32. 35%67.65%老年人男性30437341. 10%58.90%P女性311142P 73

3、. 81%26.19%在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A占58. 73%偏好饮料B占41.27%;女性中偏好饮料A占58. 73%偏好饮料B占41.27%,我们可以得出在这个年 龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年 人”年龄段,也有一定的差异。(3) 条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。即由题意,可令C表示年龄段,C1表示年青人,C2表示老年人;D表示性别,D1表示男性,D2表示女性;E表示偏好饮料的类型,E1表示偏好饮料A, E2表 示偏好饮料B。

4、欲检验的原假设为:C给定后D和E条件独立。2ln 的值按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量如下:E1E2合计D1372663D2112334合计484997CI层2ln2lnE1E2合计D1304373D2311142合 计6154115C2层11.8226.248条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为2ln 6.248 11.82218.072分布的自由于r c t 2,所以条件独立性检验的似然比检验统计量的渐近由度为r(c 1)(t 1)2 ,也就是上面这2个四格表的渐近2分布的自由度的和。由于P值P( 2(2)18.07)0.000

5、119165很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。(4) 产生偏差的原因a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性 在对两种类型的饮料的偏好上是没有差异的。但将数据以不同的年龄段分层后 并分别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的。合 起来看和分开来看的结果不同。b、由此看来,年龄段在此次调查中属于混杂因素。由于不同年龄段的人对饮料 的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样 的碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查 中,“老年人”

6、年龄段共有115人,所占比例大,从而使整个结果就倾向于老年 人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调 查结果产生了偏差。8.某工厂有三个车间。车间主任分别为王、张和李。过去的一年里,该工厂产品的质量情况总结如下:车间主任产品类别产品质量情况产品总数合格产品数不合格产品数王内销23681312499外销12381204张内销2933296外销12472551502李内销30712319外销35975434王主任将内销和外销产品合并在一起, 然后计算各个车间的不合格率。计算结 果如下:主任产品质量情况不合格率合格产品数不合格产品数王24912127.84%张154025

7、814.35%李6668711.55%王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是张主任负责的车间。这样的比较是不是有偏比较?为什么?解:不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果 不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较, 因此这样 的比较不是有偏比较。具体分析如下:由题知,分析车间主任与产品的质量情况之间的关系, 则本题是以产品类别为 层,以车间主任为行,产品的质量情况为列进行相关分析。(1) 数据压缩分析首先将上表中不同产品类别的数据合并在一起压缩成二维32列联表2.1,合起来看,分析车间主任与产品的质量情况两者之间的关系?

8、表2.1 “车间主任产品质量”列联表主任产品质量情况不合格率合格产品数不合格产品数王24912127.84%张1540258:14.35%李6668711.55%可计算出该表独立性检验的似然比检验统计量2ln的值为48.612,P值为P P( 2(2)48.612)0。应该拒绝原假设,即认为车间主任与产品的质量情况两者是有一定相关性的。(2) 数据分层分析其次,按产品类别分层,得到如下三维 2 3 2列联表2.2 ,分开来看,分析车间主任与产品的质量情况两者之间的关系?表1.2 三维2 2 2列联表产品类别车间主任产品的质量情况不合格率合格产品数不合格产品数内销王23681315. 24%张2

9、9331. 01%李307123. 76%外销王1238139. 71%张124725516. 98%李3597517. 28%在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓 主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主 任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产 情况差不多。(3)条件独立性检验为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。即由题意,可令A表示产品类别,A1表示内销,A2表示外销;B表示车间主任,Bi表示王姓主任,B2表示张姓

10、主任,B3表示李姓主任;C表示产品的质量情况,Ci表示合格产品数,C2表示不合格产品数。欲检验的原假设为:A给定后B和C条件独立。按产品类别分层后得到的两张表格,以及它们的似然比检验统计量2ln的值如下:Ai层A?层CIC2合计B123681312499B22933296B330712319合29614311计864CIC2合计B112381204B212425150275Ba35975434合17241214计9102ln 15.2892ln 51.684条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为2ln15.289 51.684 66.973由于C t 2,r 3 ,所以条件独立性检验的似然比检验统计量的渐近2分布的自由度为r(c 1)(t 1)3 ,也就是上面这2个表格的渐近2分布的自由度的和。由于P值P( 2(3)66.973)0很小,所以认为条件独立性不成立,即在产品类别给定的条件下,车间主任与产品的质量情况两者是有一定相关性 的。(4) 结论在(1)中,将不同产品类别的数据压缩在一起合起来后分析发现车间主任与产品的质量情况两者是有一定相关性的;在(2)中,将数据以不同的产品类 别分层后分析发现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论