版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、环境数据处理与数学模型环境数据分析方法,董 欣 环境系统分析教研所 2015年3月4日,01,02,03,04,基本概念,数据处理与展示,描述性统计,二总体的假设检验,05,06,07,08,回归分析,主成分分析,聚类分析,时间序列分析,数据挖掘/大数据介绍(邀请讲座,待定,04,二总体的假设检验,基本概念 两总体均值一致性检验 两总体方差一致性检验,大样本与小样本 判断依据 大样本:n30(社会学研究中往往要求大于50) 小样本:n30 本质区别,原假设与备择假设 原假设(Null hypothesis) 研究者想收集证据予以反对的假设,H0 备择假设/研究假设(Alternative hy
2、pothesis) 研究者想收集证据予以支持的假设,H1,一个标准零件直径为10cm,质量控制人员要定期对一台加工机床检查,确定机床生产的零件是否符合要求。如果所生产零件的平均尺寸大于或小于10cm,说明机床生产不正常,反之,H0:=10cm(机床生产正常) H1:10cm(机床生产不正常,收集证据想证明的假设是“机床生产不正常” 否则没有必要检验,单尾检验与双尾检验 单尾检验(One-tailed test) 备择假设具有特定的方向性,即含有或的假设检验 双尾检验( Two-tailed test ) 备择假设不具有特定的方向性,即含有的假设检验,两类错误与显著性水平 假设检验的目的是要根据
3、样本信息作出决策,但决策是建立在样本信息基础上的,而样本又是随机的,很有可能犯错,拒绝H0才会犯第I类错误,不拒绝H0才会犯第II类错误 当增大时,减小,反之 ,同时减小增大样本容量,两类错误与显著性水平 增大样本会受限制,所以只能将和控制在可接受的范围内 哪一类错误的后果更为严重,首要控制哪类错误发生的概率 犯第I类错误的概率可以控制,往往先控制第I类错误发生的概率 假设检验中犯第I类错误的概率,称为显著性水平(Level of significance),记为,两类错误与显著性水平 显著性水平使人们事先指定的犯第I类错误概率的最大允许值 =0.01, 0.05, 0.1 确定后,第II类错
4、误发生的概率没法确定 在样本观测没有充分理由拒绝原假设时,我们通常称“不拒绝H0”,而不称“接受H0”,因为“接受H0”的可靠性将由概率来控制,相对复杂,检验统计量与拒绝域 样本能够提供的信息十分丰富,往往需要对这些信息进行压缩和提炼 检验统计量(Test statistic):根据样本观测结果计算得到的,能够对原假设与备择假设作出决策的某个统计量 检验统计量是一个随机变量,随着样本的不同,它的具体数值也不同 根据检验统计量建立一个准则,依据这个准则和计算得到的检验统计量,决定是否拒绝原假设,检验统计量与拒绝域 拒绝域(Rejection region):能够拒绝原假设的检验统计量的所有可能取
5、值集合 由显著性水平所谓围成的区域 越小,拒绝域越小 如果样本计算得到的检验统计量落在了拒绝域里,就拒绝原假设 临界值(Critical value):根据给定的显著性水平确定的拒绝域的边界值,临界值,置信水平 1,拒绝域,0,0,0,双尾检验,左侧检验,右侧检验,假设检验的步骤 陈述原假设H0和备择假设H1 从所研究的总体中抽出一个随机样本 确定一个适当的检验统计量,并利用样本数据计算出其具体数值 确定一个适当的显著性水平,并计算出临界值,制定拒绝域 将统计量的值与临界值比较,作出决策:若统计量的值落在拒绝域里,拒绝原假设(也可以用P值作出决策,两总体均值一致性检验 例如: 两个班平均成绩是
6、否有显著性差异? 两个端面TN浓度是否有显著性差异,双尾检验,左侧检验,右侧检验,大样本两总体均值一致性检验 两个样本的均值抽样分布为正态分布,两个样本均值之差也为正态分布 计算参数 总体A,总体均值、总体方差: 总体B,总体均值、总体方差: 来自总体A的样本,样本均值、样本方差和样本容量: 来自总体B的样本,样本均值、样本方差和样本容量,样本足够大,n30(社会学问题n50),且为独立样本 A,B两个样本中个体个数可以不一样 当总体方差未知时,可用样本方差代替,例2:某公司对男女职员的平均小时工资进行了调查,独立抽取了具有同类工作经验的男女职员的两个随机样本,并记录了两个样本的均值、方差等,
7、如下表,在显著性水平0.05的条件下,能否认为男性职员和女性职员的平均小时工资存在显著差异,大样本,设A=男性职员的平均小时工资,B=女性职员的平均小时工资。 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(由于不知道总体方差,用样本方差代替,查表得到显著性水平0.05对应的临界值分别为1.96和-1.96 计算统计量落在拒绝域里,所以拒绝原假设。 该公司男女职员的平均小时工资之间存在显著差异,小样本两总体均值一致性检验 两个样本的总体均要服从正态分布 总体服从正态分布,且两个总体方差已知 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,
8、样本均值和样本容量: 来自总体 B 的样本,样本均值和样本容量: 总体方差已知,与大样本两总体均值一致性检验相同,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知,但相等 需要用两个样本的方差对总体方差估计 将两个样本合在一起,给出总体方差的合并估计量 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知,样本为独立样本 A,B两个样本中个体个数可以不一样,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知,且不相等,但两个样本的容量相等 两个样本均值之差经标
9、准化后服从t分布 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知且不等 两个样本容量相等,样本为独立样本 A,B两个样本中个体个数一样,小样本两总体均值一致性检验 总体服从正态分布,两个总体的方差未知且不相等,且两个样本的容量也不相等 两个样本均值之差经标准化后近似服从t分布 计算参数 总体A,满足正态分布 总体B,满足正态分布 来自总体 A 的样本,样本均值、方差、容量: 来自总体 B 的样本,样本均值、方差、容量: 总体方差未知且不等,四舍五入后查表,独立样本,例3:为了研究环境
10、噪声对居民睡眠的影响,分别对生活在50dB(A)和55dB(A)噪声环境的居民分别抽查10人次,如下表。已知居民睡眠时间为正态分布,不同噪声等级下方差相等,在显著性水平0.05的条件下,能否认为两个分贝下居民睡眠时间存在显著差异,小样本,设A=50dB下居民平均睡眠时间,B=55dB下居民平均睡眠时间。 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(两总体为正态分布,且方差相等,计算统计量没有落在拒绝域里,所以不拒绝原假设。 50dB(A)和55dB(A)噪声对居民睡眠时间的影响 无显著性差异,配对样本(Paired sample) 所有个体先测量的值看做是来自第
11、一个总体的样本值;所有个体后测量的值,看做是来自另一个总体的样本值,独立样本,配对样本,配对样本(Paired sample) 每对数据都惟一对应样本中的某个个体,不能随意改变某一样本中观测值的次序 目的:对配对对象给予两种不同处理效果的比较,或者处理前后的效果比较 配对的本质:除了研究者希望考察的影响因素外,其他影响因素大体一致 在某些情况下,无法做到一个样本在两种情况下的观察,此时只能采用两个样本,但必须做到其他影响因素大体一致,以便实现配对目的,配对样本两总体均值一致性检验 适用条件 两个样本的总体满足正态分布 不要求两总体方差相等 检验思路 对配对样本测量值之差进行均值是否为0的检验
12、t检验(t分布) 大样本,例4:某同学研发了一种测试COD的新方法,为了比较新方法与国标方法的差别,该同学对8个水样进行了COD浓度的测量,结果如下表,取显著性水平=0.05,使用该新方法与国标法测量COD浓度是否有显著性差异,设A=国标法测得的COD浓度均值,B=新方法测得的COD浓度均值 原假设与备择假设分别为: H0:A-B=0;H1: A-B0 计算统计量:(两总体为正态分布,计算统计量没有落在拒绝域里,所以不拒绝原假设。 新旧方法无显著性差异,两总体方差一致性检验 通常对两总体方差的比值进行推断 两总体是正态分布,则方差之比的估计量的抽样分是F分布 容量为nA和nB的两个样本分别独立
13、取自两个正态总体时,统计量F服从F(nA -1, nB -1,例5:学校准备购进一批灯泡,打算在两个供货商之间选择一家,两供货商生产的灯泡平均使用寿命差别不大,价格相近,考虑的主要因素就是灯泡使用寿命的方差大小。如果方差没有明显差异,就选择距离近的一家供货商。学校对两家供货商提供的样品进行了监测,数据如下表。以=0.05的显著性水平检验两家供货商提供的灯泡使用寿命的方差是否有显著差异,设A2=供货商1的灯泡寿命方差, B2=供货商1的灯泡寿命方差 原假设与备择假设分别为: H0: A2/ B2= 1;H1 A2/ B2 1 计算统计量:(两总体为正态分布,计算统计量没有落在拒绝域里,所以不拒绝
14、原假设。 两个供应商的灯泡寿命方差无显著性差异,小样本两总体均值一致性检验 已知:两总体是正态分布 未知:两总体方差,两总体方差是否相等 先进行方差一致性检验 如果一致小样本,总体正态,方差未知但相等 如果不一致小样本,总体正态,方差未知且不相等 先F检验,再t检验,例6:为了研究环境噪声对居民睡眠的影响,分别对生活在50dB(A)和55dB(A)噪声环境的居民分别抽查10人次,如下表。已知居民睡眠时间为正态分布,在显著性水平0.05的条件下,能否认为两个分贝下居民睡眠时间存在显著差异,先做F检验, 统计量 临界值 后续同例3,进行t检验(小样本,总体正态,方差未知但相等,方差一致,例7-1:
15、工厂进行了改革,改革前后工厂内8个车间每天的次品产量如下表,以0.05为显著性水平,改革是否效果明显,配对检验,改革效果明显,例7-2:如果车间数据不是来自配对样本,而是独立样本,以0.05为显著性水平,改革是否效果明显,不能否认二总体的方差相等,不能认为改革前后有显著差异,相同的数值,如果是来自配对样本的,就必须使用配对数据的检验方法。 因为配对数据表示,除了所研究的因素外,其余影响因素已经得到了控制,因此在样本容量一定时,比独立抽样的检验灵敏度要高,总体是否满足正态分布? 样本是否满足正态分布,两个总体分布是否一致? 两个样本分布是否一致,非参数检验,例8:监测到某河流上下游两个断面COD浓度如下表所示,在显著性水平为0.05的条件下,两个断面COD浓度是否分别服从正态分布?这两个断面COD浓度的分布是否一致,作业1:某污染区采取了一项土壤修复措施,修复前后土壤含镉量见下表。分别按照以下假设,选择合适方法,在显著水平0.05的要求下进行检验。 (1)修复前后样本的总体满足正态分布,检验该修复措施是否有效; (2)修复前后样本的总体分布形式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 团队激励与领导力发展训练
- 中国工业互联网平台发展现状与趋势分析
- 商务合同中的关键信息与条款解析
- 中国体育产业发展现状与未来机遇分析报告
- 中国特色农产品海外销售策划报告
- 2025年浙教版七年级上册期末数学竞赛卷1(附答案)
- 现代物流配送中心建设规划方案
- 劳动法视角下的工伤赔偿谈判
- 传统文化与现代生活:融合与创新
- 商业空间设计与装修工程管理指导手册
- 毒麻精神药品培训
- 兴国县国有资产服务中心2026年公开招聘劳务派遣人员考试备考题库及答案解析
- 2025年四川省专升本语文考试真题及参考答案
- 防校园欺凌为成长护航-防校园欺凌主题班会课件
- 《必背60题》 劳动经济学26届考研复试高频面试题包含详细解答
- 2026年浙江建设职业技术学院单招综合素质考试题库带答案详解
- 2026年安徽城市管理职业学院单招职业适应性测试题库附参考答案详解(能力提升)
- 未来五年新形势下击剑器材及零件行业顺势崛起战略制定与实施分析研究报告
- 碳青霉烯耐药铜绿假单胞菌感染诊治指南(2026版)
- 2026河南农业大学招聘辅导员(硕士)10人笔试备考题库及答案解析
- DB42T 1955-2023 电动自行车停放充(换)电场所消防安全管理规范
评论
0/150
提交评论