32独立性检验的基本思想及其初步应用_第1页
32独立性检验的基本思想及其初步应用_第2页
32独立性检验的基本思想及其初步应用_第3页
32独立性检验的基本思想及其初步应用_第4页
32独立性检验的基本思想及其初步应用_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

建立回归模型的基本步骤 1 确定研究对象 明确哪个变量是解释变量 哪个变量是预报变量 2 画出确定好的解释变量和预报变量的散点图 观察它们之间的关系 是否存在线性关系 3 由经验确定回归方程的类型 如观察到数据呈线性关系 则选用线性回归方程y bx a 4 按一定规则估计回归方程中的参数 如最小二乘法 5 得出结果后分析残差图是否异常 个别数据对应残差过大 或残差呈现不随机的规律性等 若存在异常 则检查数据是否有误 或模型是否合适等 最新研究发现 花太多时间玩电脑游戏的儿童 患多动症的风险会加倍 青少年的大脑会很快习惯闪烁的屏幕 变幻莫测的电脑游戏 一旦如此 他们在教室等视觉刺激较少的地方 就很难集中注意力 研究人员对1323名年龄在7岁到10岁的儿童进行调查 并在孩子父母的帮助下记录了他们在13个月里玩电脑游戏的习惯 同时 教师记下这些孩子出现的注意力不集中问题 统计获得下列数据 玩电脑游戏与注意力集中有关系 3 2独立性检验的基本思想及其初步应用 这种变量的不同取 值 表示个体所属的不同类别 这类变量称为分类变量 分类变量 对于性别变量 取值为 男 女 分类变量在现实生活中是大量存在的 如是否吸烟 是否患肺癌 宗教信仰 国别 年龄 出生月份等等 一般地 假设有两个分类变量X和Y 它们的可能取值分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2x2列联表 为 问题 为了调查吸烟是否对肺癌有影响 某肿瘤研究所随机地调查了9965人 得到如下结果 单位 人 列联表 说明 吸烟者和不吸烟者患肺癌的可能性存在差异 吸烟者患肺癌的可能性大 0 54 2 28 与表格相比 三维柱形图和二维条形图能更直观地反映出相关数据的总体状况 1 通过图形直观判断两个分类变量是否相关 三维柱状图 2 通过图形直观判断两个分类变量是否相关 二维条形图 3 通过图形直观判断两个分类变量是否相关 患肺癌比例 不患肺癌比例 等高条形图 上面我们通过分析数据和图形 得到的直观印象是吸烟和患肺癌有关 那么事实是否真的如此呢 这需要用统计观点来考察这个问题 1 列联表 2 三维柱形图 3 二维条形图 从三维柱形图能清晰看出各个频数的相对大小 从二维条形图能看出 吸烟者中患肺癌的比例高于不患肺癌的比例 4 等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例 上面我们通过分析数据和图形 得到的直观印象是吸烟和患肺癌有关 那么事实是否真的如此呢 这需要用统计观点来考察这个问题 现在想要知道能够以多大的把握认为 吸烟与患肺癌有关 为此先假设 H0 吸烟与患肺癌没有关系 把表中的数字用字母代替 得到如下用字母表示的2 2列联表 ad bc 越小 说明吸烟与患肺癌之间关系越弱 ad bc 越大 说明吸烟与患肺癌之间关系越强 为了使不同样本容量的数据有统一的评判标准 基于上述分析 我们构造一个随机变量 卡方统计量 1 若H0成立 即 吸烟与患肺癌没有关系 则K2应很小 根据表中的数据 利用公式 1 计算得到K2的观测值为 那么这个值到底能告诉我们什么呢 2 独立性检验 引入一个随机变量 卡方统计量 查对临界值表 作出判断 在H0成立的情况下 统计学家估算出如下的概率即在H0成立的情况下 K2的值大于6 635的概率非常小 近似于0 01 也就是说 在H0成立的情况下 对随机变量K2进行多次观测 观测值超过6 635的频率约为0 01 判断是否成立的规则 如果 就判断不成立 即认为吸烟与患肺癌有关系 否则 就判断成立 即认为吸烟与患肺癌有关系 独立性检验的定义 上面这种利用随机变量K2来确定在多大程度上可以认为 两个分类变量有关系 的方法 称为两个分类变量的独立性检验 独立性检验的基本思想 类似于数学上的反证法 对 两个分类变量有关系 这一结论成立的可信程度的判断 1 假设该结论不成立 即假设结论 两个分类变量没有关系 成立 2 在假设条件下 计算构造的随机变量K2 如果有观测数据计算得到的K2很大 则在一定程度上说明假设不合理 3 根据随机变量K2的含义 可以通过 2 式评价假设不合理的程度 由实际计算出的k 6 635 说明假设不合理的程度约为99 即 两个分类有关系 这一结论成立的可信程度约为99 已知在成立的情况下 故有99 9 的把握认为H0不成立 即有99 9 的把握认为 患病与吸烟有关系 即在成立的情况下 大于10 828概率非常小 近似为0 001 现在的 56 632的观测值远大于10 828 出现这样的观测值的概率不超过0 001 要推断 X和Y有关系 可按下面的步骤进行 1 提出假设H0 X和Y没有关系 3 查对临界值 作出判断 2 根据2 2列联表与公式计算的值 1 如果k 10 828 就有99 9 的把握认为 X与Y有关系 2 如果k 7 879 就有99 5 的把握认为 X与Y有关系 4 如果k 5 024 就有97 5 的把握认为 X与Y有关系 5 如果k 3 841 就有95 的把握认为 X与Y有关系 6 如果k 2 706 就有90 的把握认为 X与Y有关系 7 如果k 2 706 就认为没有充分的证据显示 X与Y有关系 3 如果k 6 635 就有99 的把握认为 X与Y有关系 反证法原理与假设检验原理 反证法原理 在一个已知假设下 如果推出一个矛盾 就证明了这个假设不成立 假设检验原理 在一个已知假设下 如果一个与该假设矛盾的小概率事件发生 就推断这个假设不成立 在实际应用中 要在获取样本数据之前通过下表确定临界值 具体作法是 1 根据实际问题需要的可信程度确定临界值 2 利用公式 1 由观测数据计算得到随机变量观测值k 3 如果 就以的把握认为 X与Y有关系 否则就说样本观测数据没有提供 X与Y有关系 的充分证据 根据列联表中的数据 得到 因此 在犯错误的概率不超过0 010的前提下 认为 秃顶患心脏病有关 在某医院 因为患心脏病而住院的665名男性病人中 有214人秃顶 而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶 能否在犯错误的概率不超过0 010的前提下认为秃顶与患心脏病有关系 解 根据题目所给数据得到如下列联表 为考察高中生的性别与是否喜欢数学课程之间的关系 在某城市的某校高中生中随机抽取300名学生 得到如下联表 联表性别与喜欢数学课程列联表 解 在假设 性别与是否喜欢数学课程之间有关系 的前提下K2应该很小 并且 由表中数据计算K2的观测值k4 513 在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系 为什么 而我们所得到的K2的观测值k4 513超过3 841 这就意味着 性别与是否喜欢数学课程之间有关系 这一结论错误的可能性约为0 05 即有95 的把握认为 性别与是否喜欢数学课程之间有关系 例1 在500人身上试验某种血清预防感冒作用 把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较 结果如表所示 问 该种血清能否起到预防感冒的作用 解 设H0 感冒与是否使用该血清没有关系 因当H0成立时 K2 6 635的概率约为0 01 故有99 的把握认为该血清能起到预防感冒的作用 解 设H0 药的效果与给药方式没有关系 因当H0成立时 K2 1 3896的概率大于10 故不能否定假设H0 即不能作出药的效果与给药方式有关的结论 2 706 例2 为研究不同的给药方式 口服与注射 和药的效果 有效与无效 是否有关 进行了相应的抽样调查 调查的结果列在表中 根据所选择的193个病人的数据 能否作出药的效果和给药方式有关的结论 例3 气管炎是一种常见的呼吸道疾病 医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比 所得数据如表所示 问 它们的疗效有无差异 解 设H0 两种中草药的治疗效果没有差异 因当H0成立时 K2 10 828的概率为0 001 故有99 9 的把握认为 两种药物的疗效有差异 某高校 统计初步 课程的教师随机调查了选该课的一些学生情况 具体数据如下表 根据表中的数据 判定主修统计专业与性别有关系 则这种判断出错的可能性为多少 解 根据表中的数据 得到 因为k 3 841 所以判定主修统计专业与性别有关系 则这种判断出错的可能性为5 打鼾不仅影响别人休息 而且还可能与患某种疾病有关 在某一次调查中 其中每一晚都打鼾的254人中 患心脏病的有30人 未患心脏病的有224人 在不打鼾的1379人中 患心脏病的有24人 未患心脏病的有1355人 利用图形判断打鼾与患心脏病有关吗 解 根据题目所给的数据得到如下2 2列联表 相应的等高条形图如图 图中两个深色的高分别表示每一晚都打鼾和不打鼾的人中患心脏病的频率 从图中可以看出 每一晚都打鼾样本中患心脏病的频率明显高于不打鼾样本中患心脏病的频率 因此可以认为打鼾与患心脏病有关系 题后点评 在等高条形图中展示列联表数据的频率特征 比较图中两个深色条的高可以发现两者频率不一样而得出结论 这种直观判断的不足之处在于不能给出推断 两个分类变量有关系 犯错误的概率 在一次天气恶劣的飞行航程中 调查了男女乘客在飞机上晕机的情况 男乘客晕机的有24人 不晕机的有31人 女乘客晕机的有8人 不晕机的有26人 请你根据所给数据判定 在天气恶劣的飞行航程中 男乘客是否比女乘客更容易晕机 某单位餐厅的固定餐椅经常有损坏 于是该单位领导决定在餐厅墙壁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论