day3-gb-a-04 假设检验

上传人：h*** IP属地：贵州上传时间：2018-01-21 格式：PPT 页数：48 大小：784.50KB 积分：30 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

假设检验 (Hypothesis Testing),Define,Measure,Analyze,Improve,Control,Step 8- Data 分析,Step 9- Vital Few X的选定,多变量研究中心极限定理假设检验置信区间方差分析，均值检验卡方检验相关/回归分析,Step 7- Data 收集,路径位置,目录,假设检验概要假设检验的核心用语假设检验的定义假设检验的阶段假设检验的应用,?,亲爱的 Abby:你在你的专栏里说妇女怀孕期是266天。这是谁说的？我怀我的孩子用了10个月零5天，这是确信无疑的，因为我精确地知道孩子怀上的那一天。我的丈夫在海军服役，这个孩子不可能在其他任何时间怀上，因为我见到他只一次，只有一个小时，而且在孩子出生之前我再也没有和他见面。我不饮酒，也不东奔西跑，而且这个孩子不可能不是他的。所以请在报纸上声明收回关于 266 天怀孕的时间。因为否则我将面临许多的麻烦！ - 圣地亚哥读者,你将对她说些什么？对他的丈夫说些什么？,假设检验概要,一则有趣的故事,250,260,240,230,270,280,290,300,220,平均,圣地亚哥的读者,平均怀孕时间是266天如果她说怀孕260天，你对她怀疑吗？如果她说怀孕400天，你对她怀疑吗？从哪点起你开始怀疑呢？作一个记号,假设检验概要,医生很早就知道孩子自然出生有以下特征正态分布平均怀孕时间 = 天标准偏差 = 天,假设检验概要,产科医生早就知道：正态分布平均 = 266 天标准偏差 = 16 天,假设检验概要,平均 = _266_标准偏差 = _16_,临产期间分布,圣地亚哥的读者,究竟如何呢?,假设检验概要,在工业生产中，我们经常希望能够确定某个分布的参数是否就是某个具体数值或是否与其有什么关系。也就是说，我们可能希望要检验这样一个假设，即：某个分布的均值或标准差是否是某些数值，或者两个均值之差是否是零。这些检验就需要使用假设检验方法。实际工作中的例子有： 1、制造商希望引进一种新产品。为了能够实现利润，它们需要在今后5周的200小时内生产1200件产品。如果生产一件产品的平均时间不超过6小时，那么目标就会实现。生产者可以通过检验平均生产时间等于6小时这一假设来评估其是否具备所需要的生产能力。 2、这个制造商还打算修改工艺流程以减少另一种产品所需要的平均时间。它通过检验在工艺流程改变前后的平均生产时间是否相同这一假设来评估流程的修改是否有效。这两种情况都涉及到对总体均值的检验。假设也可以检验标准差或其他参数。,工业案例的启示,假设检验概要,假设检验是抽样推断的一个重要内容。所谓假设检验，就是事先对总体参数或总体分布形式的作出一个假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定应接受或否定原假设。所以，假设检验也称为显著性检验。假设检验可分为两类：一是参数假设检验，简称参数检验；二是非参数检验或自由分布检验,妥善处理不确定使主观最小化问题假设预防重要信息的遗漏控制判断错误的风险,假设检验概要：目的,是处理实际问题的方法,把实际问题变成统计问题因为我们用(相对小的)样本来估计总体的参数,因而总有可能为我们的实验选择一个“怪异” 的样本,它可能不能代表一子群“典型”的观测.因此,推论统计学可利用一些假设, 允许我们估计纯粹由于偶然原因导致的得到一个“怪异”结果的概率.比如,如果我们要知道一个硬币是否“公平”, 我们可以抛它数次,记录我们看到它出现正面的次数. 根据随机我们期望大约看到50%正面.如果我们抛了10次硬币,得到10次正面, 我们将清楚的确信这个硬币不“公平”. 用一个公平的硬币1000次只有一次机会获得10个正面.因此我们可以说我们对于“不公平”的硬币的判断将有0.1%的错误机会.即只有1000分之1 (概率性的) 很难得发生的事件却在一次实验中发生了，则我们这时判断为硬币是非正常的。）,假设检验概要,在不好的一天我们可以得到一个好的工程而在一个好天里我们可以得到一个坏工程无论哪一种情况,我们都可能作出错误的结论,我们声明我们在工程中取得了改善,而这个改善结果可能只是抽样的函数,假设检验概要,假设是关于某事是对的描述.如果我们抛10次硬币得到了8次正面,我们将说这个硬币是不公平的.在此我们有错误的概率(约5%),但我们愿意承担这个风险.在工厂里我们用同样的方法验证假设我们将把原因归结于非常的事件,而不是纯粹偶然.问题:我们如何鉴别非常事件?我们如何利用统计学来帮助我们作出判断?我们知道样本数据服从自然散布。当某事“真的发生”时我们怎样知道是真实发生还是偶然发生？让我们开始研究这个程序。,假设检验概要,为何使用假设检验？,当无法确定是否存在真实差异时使用假设检验。例如，分层点图显示子群平均值之间没有明显差异：您想知道平均值的微小差异是由于随机变化还是反映了真实差异。假设检验比分层点图提供更明确的结果（如果假设满足的话）。,Reactor 1 Reactor 289 8481 8684 8384 9187 8679 7985 8281 8983 8384 88,Reactor.mtw,让我们看一个制造示例。假设我们改造了两台反应器中的一台反应器。在我们改造所有反应器之前我们想知道这些改善是否“显著地”提高了工程良品率。让我们看一下结果数据。在这个示例中，反应器B是新改造的反应器。,假设检验概要,实际问题: 与代表现有工艺的反应器1相比，对反应器2的改造能提高良品率吗？,统计问题:反应器2的平均值（85.54）和反应器1的平均值(84.24)的差异是否足以被认为是显著的? 或者说这两个平均值是否足够接近,可被认为是由于偶然因素或日与日之间的散布呢?,差异 = 1.3%,假设检验概要,Variable N Mean StDev MedianReactor1 10 84.24 2.902 84.500Reactor2 10 85.54 3.65 85.40,B B B B B BB B B B,80.0 82.5 85.0 87.5 90.0 92.5,A AA AAAA A A,反应器 2,反应器 1,这两个反应器代表两个不同的工艺吗?,这两个反应器代表一个基本的工艺吗?,假设检验概要,假设检验的前提假设,如果数据是连续的，我们假设基本分布是正态。您可能需要转换非正态数据（如周期）。当比较不同总体的子群时，我们假设：独立样本。通过随机抽样实现。样本是总体的代表（没有偏差）。当比较不同过程的子群时，我们假设：每个过程都是稳定的。没有特殊原因或随时间的变化（没有与时间相关的差异）。样本是过程的代表（没有偏差）。,主要核心术语,1、实际推断原理：概率小的事件几乎不会发生2、零假设（Null Hypothesis- Ho）又名原假设它是关于“没有差异”或者“根本没有效果”或“是相同的”陈述的假设，它直到有充分的证据说明其是错误时为止总被认为是真实的。3、备择假设（Alternative Hypothesis- Ha）又名替代假设它是关于“有差异”或“有效果”，或“不同的”陈述的假设它在零假设被推翻时生效的另一个假设，根据具体事件有不同的假设；4、类错误：又名“弃真错误”，是指零假设是真的时候而拒绝它5、值：又称显著性水平，是指犯一类错误的概率，值越大，则越有可能拒绝真实的零假设，该值一般没有统一的基准，通常设定为0.05，如果犯一类错误将会造成严重性的后果，则要求它设定小些。6、P值：显示了犯一类错误的可能性，用来判断是拒绝或接受零假设的。 P值越小，犯拒绝零假设错误的可能性越小。一般情况下，如果P0.05，则零假设成立，如果P0.05，则推翻零假设。,7、类错误: 又名”取伪错误”,是指零假设是假的时候而接受它.8、值:是指犯二类错误的概率，越大，则越有可能接受不真实的零假设显著差异 (Significant Difference) - 用于描述统计性假设检验的结果的术语，在此差异大的不能合理的随机发生。那里很可能在发生什么特殊事9、检验功效（Power） - 统计检验的能力，探测出某事很重要时，实际上某事确实很重要。常被用来决定在处置中样本的大小是否足以探测到存在差异。零假设不真实时推翻错误零假设的概率, 即能够检出假的零假设的概率。(1-)11.检验统计量（Test Statistic） -一个标准化的数值(z、t、F等)，代表错误确认的可能性，分布于一个已知的方式，以便可以决定这个观察到的数值的概率通常错误确认越可行，检验统计量的绝对值就越小, 而且在其分布内观察到这个数值的概率就越大。,主要核心术语,实际的假设是:新改造的机器将减少不良. 这个假设叫做备择假设 (Ha),统计假设: 旧机器和改善的机器之间没有差异. 这个假设叫做零假设 (Ho),我们必须证明我们观察到的数值极不可能出自相同的工艺,所以 Ho 肯定错了.,假设检验定义,陈述一个 “零假设” (Ho),收集证据 (一个实际样本),判定:这个证据支持什么? 推翻 Ho? 或者不推翻 Ho?,假设检验程序,关于零假设.,零假设(Ho) 被假定是对的这就象被告被假定“无罪”一样。记住: 美国的司法系统不是“被证明清白之前有罪” 我们不在我们的实验 “无影响”的概率小到不能相信之前假设实验有影响。你就是被告的辩护律师。你必须提供证据来消除“合理的怀疑”,“没有罪”,“无罪”,记住:,假设检验定义,一般假设检验与Y=f(x1,x2.xn)有相同的样式。这式中X对Y有显著影响假设是真实还是假，实施检验。,假设检验的基本,假设和意识决定的风险,我们调查之前对意识决定的风险度(作错误判定的程度, , 失误)与敏感度(效果的大小和标准偏差的比)具体的制定, 异常的样本规格作决定。然后考虑为合理性的抽样计划所具备的费用、时间、可利用的资源等实质性的界限。,假设检验定义,假设检验中的两种错误,我们基于假设检验所做的任何决定都有四种可能结果：我们可决定这些子群是相同还是不同，以及我们可能是对或错。,在决定推翻与否时，我们可能会犯两类判断错误中的一个：,你的判定,接受 Ho,真理,Ho 对,Ho 错,I类错误（-风险）,II类错误（-风险）,正确,正确,推翻 Ho,假设检验定义,陪审团的判决,他无罪,真实,实际清白,实际有罪,I类错误（-风险）,II 类错误（-风险）,正确,正确,他有罪,后果: 罪犯获得自由,后果:清白的人进监狱,假设检验定义,示例: 机场安检,假设检验定义,报警机的判断,包里没问题,真实,包里没问题,包里有危险品,I类错误（-风险),II 类错误（-风险),正确,正确,包里有危险品,后果: _,后果: _,类错误和类错误的实际含义,两种类型的错误都重要。过于防范一个错误将增大另一个错误发生的风险。增大样本大小：降低类错误的风险。允许您检测到更小的差异。,重要差异与显著差异,显著但不重要的差异有时，您检测到一个统计上显著的差异但它小到对您的企业没有实际的重要性。示例：安装机器的两种方法新方法明显要比标准方法快大约 10 分钟。要证明实施新方法的成本是适当的，有必要减少 30 分钟。,重要差异与显著差异（续）,重要但不显著的差异有时，一个差异在统计上不能说是显著的，但该观测差异对于您的企业而言却很重要。示例：密封容器的两种方法在实验时观测到每班增加 1000 个容器。增加 1000 个对企业很重要。新技术有更高的平均值，但在统计上却不能宣称有显著的差异（因为 P .05）。观测差异由于随机变化而产生且不存在真正的差异，或者变化太大（或样本大小太小）不能检测到差异。企业领导者需要决定是否值得冒险实施新方法。如果存在真正的差异，您最好实施新方法。但是如果新方法产生相同的结果，则只会徒劳无功。,假设检验 : 怎样进行?,收集数据后，我们计算以下两种参数：检验统计量 (形如信噪比SNR，如Z- 或 T-值), 和 “P-值”.“P-值” 是 “Ho 正确” 发生的概率。 P-值基于假设的或实际参考的分布(正态分布, T-分布, Chi-平方分布, F-分布, 等.),小的 “P-值”大的 “Z” 或 “T”, 等Ho 被推翻,大的 “P-值”小的 “Z” 或 “T”, 等Ho 不被推翻,P 值定义,假设检验比较观测到的各子群之间的差异。假设真实差异为 0（= 零假设），P 值等于获得观测差异的概率。P 值范围从 0.0 到 1.0（0% 可能性到 100% 可能性）。按照惯例，通常将 P .05 视作是差异明显的象征。如果 P .05，则可推断真实差异为 0 的概率很小。,讨论：解释 P 值,有多种方法来陈述根据 P 值得到的结论。您认为下面哪些最容易理解？P 值用于判断观测到的各子群之间差异是否明显大于普通原因（随机）变化（如果 P .05，结论是肯定的）。如果 P .05，则拒绝 H0 而决定使用 Ha。P .05 意味着子群来自相同分布的概率小于 5%。P 值确定观测到的差异是否在统计上看较显著（如果 P .05，结论是肯定的）。假设真实差异为 0，P 值等于获得观测差异的概率。如果 P 值很小 ( .05)，我们说观测差异必须显著，因为如果没有真实差异，我们从样本中观测到这类差异的概率就较小。P 值用于判断抛弃零假设是否有足够的统计证据（如果 P .05，结论是肯定的）。,e,s,t,F,a,c,t,o,r,L,e,v,e,l,s,2,1,P值到处都存在！,N,o,r,m,a,l,P,r,o,b,a,b,i,l,i,t,y,P,l,o,t,One-Way Analysis of VarianceAnalysis of VarianceSource DF SS MS F PFactor 1 0.12 0.12 0.11 0.740Error 48 53.71 1.12Total 49 53.83 Individual 95% CIs For Mean Based on Pooled StDevLevel N Mean StDev -+-+-+-+-Mach 1 25 10.080 0.943 (-*-) Mach 2 25 9.980 1.161 (-*-) -+-+-+-+-Pooled StDev = 1.058 9.60 9.90 10.20 10.50,P-value要多小根据状况有所不同., 通常我们使用 0.05。,我们希望这些观察结果随机发生的机会小于10% (= 0.10).5% 会更好一些 (= 0.05).1% 感觉非常好 ( = 0.01).的水平取决于我们的假设“没有差别”和所参考的散布类型。但显著水平根据我们的关心与结果的置信度有所不同. (飞机部品的1%和木筷1%能一样吗.),假设检验的类型,假设检验,目的,t 检验,成对 t 检验,ANOVA（F 检验）（变异数的分析）, 检验,比较两子群平均值,当数据匹配时比较两子群平均值,比较两子群或多子群平均值比较两子群或多子群变异数,比较两子群或多子群比例,Y（输出）,X（输入）,连续,离散（比例）,离散（“子群”）,连续,检验,t 检验成对 t 检验ANOVA,逻辑回归,回归,不同数据类型的适当分析方法,当输入 (X) 变量是离散变量时，使用假设检验。将离散 X 当作“分子群”或由分层变量来看 X。示例：如果您希望按产品比较周期，那么不同产品类型就是离散 X。如果 X 数据是连续的，则使用回归分析判断它们是否与输出 (Y) 变量相关。,假设检验,回归分析,我使用哪种分析方法？,否，X 是连续的,回归主题,检验,ANOVA,t,检验,否，Y 是离散的（比例）,否，比较更多的子群（平均值或变异数）,是,是,是,是,成对 t 检验,否，比较两个独立的子群平均值,将两子群平均值与匹配的数据相比较,X 是否是离散的？（子群）,Y 是否是连续的？,仅比较 2子群吗？,Y1是否与Y2 匹配,在假设检验中处理非正态连续数据,方法找到一种使数据近似为正态的转换方法。对转换的数据进行“假设检验”。,1. 定义实际问题 2. 陈述目标（产生统计问题） 3. 建立假设- 陈述零假设 (Ho) - 陈述备择假设 (Ha).4. 决定合适的统计检验(假设概率分布, z, t, 或 F).5. 规定的水平 (一

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

day3-gb-a-04 假设检验

文档简介

温馨提示

最新文档

评论

day3-gb-a-04 假设检验

文档简介

温馨提示

最新文档

评论

相关文档