基本统计技术及应用.ppt_第1页
基本统计技术及应用.ppt_第2页
基本统计技术及应用.ppt_第3页
基本统计技术及应用.ppt_第4页
基本统计技术及应用.ppt_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基本统计技术及应用,1什么是统计, 我们为什么需要统计 (What & Why),2几种重要的概率分布,对统计技术的理解或应用上的常见误区,3抽样分布,4置信区间估计,5假设检验,6抽样检查与C曲线,目录,1什么是统计, 我们为什么需要统计 (What & Why),统计是数学的一个分支, 它涉及到以下两方面的内容: * 收集, 整理以及用合适的方式展示数据 (描述型统计) 对样本进行分析并在此基础上对包含样本的总体的 一项或多项特征做出推测 (推测型统计),1什么是统计, 我们为什么需要统计 (What & Why),关键词,总体 - 我们所研究对象所包含的全部个体(Member),样本 - 从总体中选取的一部分用于分析的个体,统计量-用以描述样本的某方面特性的一个数学量,参数 - 用以描述总体的某方面特性的一个数学量,Examples: Marital Status Political Party Eye Color (Defined categories),Examples: Number of Children Defects per hour (Counted items),Examples: Weight Voltage (Measured characteristics),1什么是统计, 我们为什么需要统计 (What & Why),数据类型,1什么是统计, 我们为什么需要统计 (What & Why),在实际工作中, 对某一对象进行全体考察往往十分费时费 力甚至是不可能的, 因此, 需要采用适当的抽样计划并应用 适当的统计技术对抽样所得的数据进行分析处理, 在此基础 上对研究对象总体的一个或多个特性做出科学合理的推测, 以辅助我们的判断与决策.,Continuous Probability Distributions,Binomial,Poisson,Probability Distributions,Discrete Probability Distributions,Normal,2几种重要的概率分布,P(X),n,X !,n,X,p,(1-p),X,n,X,!,(,),!,=,-,-,2几种重要的概率分布,2.1二项分布,概率分布函数,P(X) = probability of X successes in n trials, with probability of success p on each trial X = number of successes in sample, (X = 0, 1, 2, ., n) n = sample size (number of trials or observations) p = probability of “success”,n = 5 p = 0.1,n = 5 p = 0.5,Mean,0,.2,.4,.6,0,1,2,3,5,X,P(X),.2,.4,.6,0,1,2,3,4,5,X,P(X),0,* 二项分布的形状取决于样本大小 n 以及独立个体的概率 p,Here, n = 5 and p = 0.1,Here, n = 5 and p = 0.5,2几种重要的概率分布,二项分布的适用条件(或前提假设):,每一个体的考察结果只能是两种互斥的可能性的其中一种, 而且任 一个体取得该两种可能性的其中一种的概率相等 * 任一个体的考察结果均不影响其它个体,应用 抽样计划的确定及其风险评估 (见第部分 ),2几种重要的概率分布,2几种重要的概率分布,2.2泊松分布,概率分布函数,X = number of events in an area of opportunity = expected number of events e = base of the natural logarithm system (2.71828.),2几种重要的概率分布,* 泊松分布的形状取决于参数 , = 0.50, = 3.00,2几种重要的概率分布,泊松分布的适用条件(或前提假设):,* 在一片(或一段)连续区域(时间, 面积, 长度等)上某一点发生 某事件的机会(概率)等于在其它任何一点上发生该某事件的 机会(概率),在一片(或一段)连续区域(时间, 面积, 长度等)上发生某事件 的次数(或个数)对该事件在其它连续区域上发生的次数(或个 数)没有影响,当该连续区域(时间, 面积, 长度等)的大小趋近于零时, 该事 件在其上发生两次或两次以上的机会(概率)趋近于零,2.1正态分布,2几种重要的概率分布,概率密度函数,e = the mathematical constant approximated by 2.71828 = the mathematical constant approximated by 3.14159 = the population mean = the population standard deviation X = any value of the continuous variable,2几种重要的概率分布,* 正态分布的形状与位置取决于总体参数和 ,2几种重要的概率分布,任何正态分布均可通过以下公式 转化为标准正态分布(“Z” Distribution) 即=0, =1 的正态分布,2几种重要的概率分布,正态分布的概率计算(例),设 X 服从=8, =5的正态分布, 求X落在7.4之间的概率 P(7.4 X 8),X,7.4,8.0,P(7.4 X 8) = P(-0.12 Z 0) = P(Z 0) P(Z -0.12) = 0.5000 - 0.4522 = 0.0478,0.0478,0.4522,Z,-0.12,0,The Normal distribution is symmetric, so this probability is the same as P(0 Z 0.12),2几种重要的概率分布,一组数据的正态性检验,按以下步骤做出正态分布概率图,* 将数据按从小到大的顺序排列,算出(或查表得出)每一个数据 点在该组数据中所处位置所对应 分布概率的标准正态分布值,以值为横坐标,实际数据为纵 坐标做出散点图,若散点图上的点子大致处在一条 直线上,则认为该组数据分布 为正态或接近正态,Normal,3抽样分布,什么是抽样分布?,抽样分布是当我们对某一总体以某一固定的样本容量 反复抽样, 直到对应于该样本容量的所有可能的组合 全部被取到的情况下, 样本的某一统计量所呈现出的 分布规律.,Sampling Distributions,Sampling Distribution of the Mean,Sampling Distribution of the Proportion,3抽样分布,通常, 我们所研究的抽样分布有以下两种,3抽样分布,Assume there is a population Population size N=4 Random variable, X, is age of individuals Values of X: 18, 20, 22, 24 (years),A,B,C,D,以下例子是关于均值(或数学期望)的抽样分布,Uniform Distribution,x,Summary Measures for the Population Distribution:,3抽样分布,.3,.2,.1,0,18 19 20 21 22 23 24 A B C D,P(x),x,Summary Measures for the Population Distribution:,3抽样分布,16 possible samples (sampling with replacement),Now consider all possible samples of size n=2,16 Sample Means,3抽样分布,Sampling Distribution of All Sample Means,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,Sample Means Distribution,16 Sample Means,_,(no longer uniform),_,3抽样分布,Summary Measures of this Sampling Distribution:,3抽样分布,18 19 20 21 22 23 24,0,.1,.2,.3,P(X),X,18 19 20 21 22 23 24 A B C D,0,.1,.2,.3,Population N = 4,P(X),X,_,Sample Means Distribution n = 2,_,3抽样分布,3抽样分布,1从同一总体中以同样的样本容量抽取的样本, 其均值并不一样, 而 是有一定的波动.,2样本均值的波动程度可以用标准误差来衡量.,(注意: 抽样过程应该是对无限总体的不放回抽样, 或有限总体的放回抽样),3可以看出, 当样本容量增大时, 该标准误差随之减小.,样本均值抽样分布的规律:,3抽样分布,样本均值抽样分布的规律:,1当总体为均值为, 标准差为的正态分布时, 样本均值 同样呈正态分布, 其均值与标准差为:,3抽样分布,样本均值抽样分布的规律:,2(Central Limit Theorem)当总体偏离甚至明显偏离正态分布时, 只要 样本容量足够大, 样本均值 同样呈正态分布, 其均值与标准差为:,3抽样分布,* 对绝大多数总体而言, 当样本容量大于 30 时, 可以认为其均值的抽样 分布接近正态. 对一个大致呈对称分布的总体而言, 当样本容量大于 15 时, 可以认为 其均值的抽样分布接近正态. 对一个呈正态分布的总体而言, 无论样本容量大小, 其均值的抽样分布 呈正态,3抽样分布, = 总体的某一特性(或特征)在该总体中所占的比例. 样本比例 ( p ) 可以用来对进行估计(推测): 0 p 1 p 呈二项分布 假设抽样过程是对无限总体的不放回抽样, 或有限总体的放回抽样,样本比例的抽样分布:,Approximated by a normal distribution if: where and,(where = population proportion),Sampling Distribution,P( p),.3 .2 .1 0,0 . 2 .4 .6 8 1,p,3抽样分布,样本比例的抽样分布:,4置信区间估计,A point estimate is a single number, a confidence interval provides additional information about variability,Point Estimate,Lower Confidence Limit,Upper Confidence Limit,Width of confidence interval,点估计(Point Estimate)与区间估计(Interval Estimate),4置信区间估计,We can estimate a Population Parameter ,with a Sample Statistic (a Point Estimate),Mean,Proportion,p,X,点估计(point estimate),区间估计(Interval Estimate),4置信区间估计,当以点估计方式用样本统计量估计总体参数时, 存在多大不确定度?,相对于点估计而言, 区间估计可以提供有关总体参数更多的信息.,这样的区间在统计上称为”置信区间”, 即以预先设定要求的信心水 平估计出总体的某个参数可能的分布范围.,4置信区间估计,常用的置信区间估计类型,1当总体方差已知时, 用样本均值估计总体均值.,2当总体方差未知时, 用样本均值估计总体均值.,3用样本中某特性所占的比例估计该特性在总体中所占比例,Point Estimate (Critical Value) (Standard Error),统计上一般使用以下公式进行计算,4置信区间估计,(mean, , is unknown),Population,Random Sample,Mean X = 50,Sample,4置信区间估计,当总体方差已知时, 用样本均值估计总体均值.,假设: 总体呈正态分布 * 总体的方差已知 *当对总体呈正态分布这一假设没有足够信心时, 样本容量应足够大,where is the point estimate Z is the normal distribution critical value for a probability of /2 in each tail is the standard error,置信区间估计公式,4置信区间估计,Consider a 95% confidence interval:,Z= -1.96,Z= 1.96,Point Estimate,Lower Confidence Limit,Upper Confidence Limit,Z units:,X units:,Point Estimate,0,当总体方差已知时, 用样本均值估计总体均值.,4置信区间估计,当总体方差未知时, 用样本均值估计总体均值.,当总体方差未知时, 可以用样本方差估计总体方差. 由于在同一 总体中取出的不同样本的方差存在一定的波动, 这一估计会给 总体均值的估计结果引入一定的不确定度,所以我们应使用 t 分布替代 Z 分布来进行置信区间估计,4置信区间估计,置信区间估计公式,假设: 总体呈正态分布 * 总体的方差未知 *当对总体呈正态分布这一假设没有足够信心时, 样本容量应足够大,当总体方差已知时, 用样本均值估计总体均值.,where t is the critical value of the t distribution with n -1 degrees of freedom and an area of /2 in each tail,4置信区间估计,t,0,t (df = 5),t (df = 13),t-distributions are bell-shaped and symmetric, but have fatter tails than the normal,Standard Normal (t with df = ),T 分布曲线与 Z 分布曲线的对比,随着样本容量的增大, t 分布曲线越来越接近 Z 分布曲线,4置信区间估计,用样本中某特性所占的比例估计该特性在总体中所占比例,当样本容量足够大时, 样本中某特性所占比例将近似服从正态分布(参见第三部分),where Z is the standard normal value for the level of confidence desired p is the sample proportion n is the sample size,我们可以用以下公式进行比例问题的区间估计,5假设检验,什么是假设检验,预先对单个或多个总体的某一参数作出某一假设, 并从总体中抽取样本以计算出一个或多个统计量, 然后在假定该假设成立的前提下计算出样本统计量取得实际计算值的概率. 当该概率低于某一预设的要求水平时, 对预先假设(统计上称为”原假设”)予以拒绝, 否则即接受原假设.,假设检验是一种利用抽样分布理论辅助决策判断的方法, 它通常是通过以下 方式实现的:,假设检验,单样本假设检验,双样本假设检验,5假设检验,Two-Sample Tests,Population Means, Independent Samples,Means, Related Samples,Population Variances,Mean 1 vs. independent Mean 2,Same population before vs. after treatment,Variance 1 vs. Variance 2,Examples:,Population Proportions,Proportion 1 vs. Proportion 2,双样本假设检验的种类,Population means, independent samples,1 and 2 known,*,Use a Z test statistic,Use Sp to estimate unknown , use a t test statistic and pooled standard deviation,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,Use S1 and S2 to estimate unknown 1 and 2, use a separate-variance t test,5假设检验,互相独立的双样本的均值检验问题,5假设检验,Population means, independent samples,1 and 2 known,Assumptions: Samples are randomly and independently drawn Population distributions are normal or both sample sizes are 30 Population standard deviations are known,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,1和2已知时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,and the standard error of X1 X2 is,When 1 and 2 are known and both populations are normal or both sample sizes are at least 30, the test statistic is a Z-value,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2已知时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,The test statistic for 1 2 is:,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2已知时, 互相独立的双样本的均值检验问题,Two Population Means, Independent Samples,Lower-tail test: H0: 1 2 0 H1: 1 2 0,Upper-tail test: H0: 1 2 0 H1: 1 2 0,Two-tail test: H0: 1 2 = 0 H1: 1 2 0,a,a/2,a/2,a,-za,-za/2,za,za/2,Reject H0 if Z -Za,Reject H0 if Z Za,Reject H0 if Z Za/2,5假设检验,1和2已知时, 互相独立的双样本的均值检验问题,第一类风险: 当两总体之间实际上不存在显著差异, 但由于抽样的偶然性造成 误判为存在显著差异 (即错误地拒绝原假设的情况),第二类风险: 当两总体之间实际上存在显著差异, 但由于抽样的偶然性造成误 判为不存在显著差异 (即错误地接受原假设的情况),Population means, independent samples,1 and 2 known,The confidence interval for 1 2 is:,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2已知时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,Assumptions: Samples are randomly and independently drawn Populations are normally distributed or both sample sizes are at least 30 Population variances are unknown but assumed equal,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2未知但假设其相等时, 互相独立的双样本的均值检验问题,5假设检验,Population means, independent samples,1 and 2 known,*,Forming interval estimates: The population variances are assumed equal, so use the two sample variances and pool them to estimate the common 2 the test statistic is a t value with (n1 + n2 2) degrees of freedom,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,1和2未知但假设其相等时, 互相独立的双样本的均值检验问题,5假设检验,1和2未知但假设其相等时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,The pooled variance is,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,Population means, independent samples,1 and 2 known,Where t has (n1 + n2 2) d.f., and,The test statistic for 1 2 is:,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2未知但假设其相等时, 互相独立的双样本的均值检验问题,链接至 t 分布曲线,Population means, independent samples,1 and 2 known,The confidence interval for 1 2 is:,Where,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2未知但假设其相等时, 互相独立的双样本的均值检验问题,5假设检验,1和2未知且无法假设其相等时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,Assumptions: Samples are randomly and independently drawn Populations are normally distributed or both sample sizes are at least 30 Population variances are unknown but cannot be assumed to be equal,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,5假设检验,1和2未知且无法假设其相等时, 互相独立的双样本的均值检验问题,Population means, independent samples,1 and 2 known,The test statistic for 1 2 is:,*,1 and 2 unknown, assumed equal,1 and 2 unknown, not assumed equal,链接至 t 分布曲线,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,( 例如: 一组样品在专用夹具上测量与其从夹具上拆下来测量结果的均值 对比, 一组工件在热处理前后的对比, 等等),Di = X1i - X2i,Assumptions: Both Populations Are Normally Distributed Or, if not Normal, use large samples,计算每一对个体之间的差,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,对两总体的均值差异量的点估计公式为:,假设两个总体中各成对个体之间差值的标准差已知为 D, 则可用Z统计量与 Z分布来进行假设检验,两总体的均值差异量的置信区间估计为:,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,如果D未知, 则可以计算样本的标准差SD以对D作出估计,相应地, 假设检验的统计量由 Z 改为 t,置信区间估计的公式相应地变为,5假设检验,样本中个体互相一 一对应的双样本的均值检验问题,Lower-tail test: H0: D 0 H1: D 0,Upper-tail test: H0: D 0 H1: D 0,Two-tail test: H0: D = 0 H1: D 0,a,a/2,a/2,a,-ta,-ta/2,ta,ta/2,Reject H0 if t -ta,Reject H0 if t ta,Reject H0 if t ta/2,Where t has n - 1 d.f.,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,目的: 通过假设检验来判断两个总体中某一特性所占比例是否存在足够显著 的差异, 以及建立两者之间差异 1 2 的置信区间,1 2 的点估计为,Assumptions: n1 1 5 , n1(1- 1) 5 n2 2 5 , n2(1- 2) 5,既然我们的原假设为 1 = 2, 即两总体中的比例相等, 那么我们可以计算 两个总体在一起总的比例为,where X1 and X2 are the numbers from samples 1 and 2 with the characteristic of interest,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,使用以下 Z 统计量与 Z 分布进行假设检验,置信区间估计公式为,5假设检验,总体中某一特性所占比例问题的双样本的均值检验问题,Lower-tail test: H0: 1 2 0 H1: 1 2 0,Upper-tail test: H0: 1 2 0 H1: 1 2 0,Two-tail test: H0: 1 2 = 0 H1: 1 2 0,a,a/2,a/2,a,-za,-za/2,za,za/2,Reject H0 if Z -Za,Reject H0 if Z Za,Reject H0 if Z Za/2,5假设检验,双样本方差的假设检验问题,如果两个总体各自都服从正态分布, 则从这两个总体中随机抽取的样本的 方差之比值服从 F 分布, 检验统计量为,F 分布曲线的形状由两个自由度决定, 即分子样本的自由度 n1-1 和分母样本的 自由度 n2-1,F,0,F,0,rejection region for a two-tail test is:,FL,Reject H0,Do not reject H0,F,0,FU,Reject H0,Do not reject H0,F,0,/2,Reject H0,Do not reject H0,FU,H0: 12 = 22 H1: 12 22,H0: 12 22 H1: 12 22,H0: 12 22 H1: 12 22,FL,/2,Reject H0,Reject H0 if F FL,Reject H0 if F FU,5假设检验,双样本方差的假设检验问题,注意:F 检验对两个总体是否服从 正态分布十分敏感, 当总体的分布 有所偏离正态时, 会明显影响 F 检验 结果的统计正确性,6抽样检查与OC曲线,质量检查,抽样检查,全检,全件: 可以获得待检查总体的完整准确的信息 不用承担因信息不完整带来的决策风险 通常成本高昂,有些情况下不可能实现,抽样检查: 只能通过样本信息对总体作出推测 需要承担一定的因信息不完整带来的决策风险 可以有效地节约成本, 有些情况下是唯一选择,6抽样检查与OC曲线,对应每一个具体的抽样检查计划, 我们可以通过其OC 曲线来评估它的决策风险,当从无限总体中以不放回方式抽取样品或从有限总体中以放回方式抽取样品时, 可以用二项分布函数来建立OC曲线 当从有限总体中以不放回方式抽取样品时, 应该以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论