统计基础知识ppt课件.ppt_第1页
统计基础知识ppt课件.ppt_第2页
统计基础知识ppt课件.ppt_第3页
统计基础知识ppt课件.ppt_第4页
统计基础知识ppt课件.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学习目标理解统计的必要性通过掌握统计术语,判断数据的特性理解概率分布的基本概念利用Minitab,掌握计算基础统计和概率的方法,基础统计(BasicStatistics),基础统计分析离散型概率分布连续型概率分布,所谓统计通过对某组数据资料进行分析整理,算出其内容中的特征数值。诸如次数、频率、比率等计算过程,即为统计。统计的意义在六西格玛在测定阶段(Measure),对收集的数据进行分析的方法。利用工程上特性化数据,表示Xs和Ys之间的关系。利用已经发生的数据或流程,推测未来发展趋势。作为解决高级的统计性问题的基础依据。,基础统计?,统计学的分类叙述统计(DescriptiveStatistics)叙述统计包括所有有关资料收集与陈述,以得到有用情报之各种方法。叙述统计就是资料本身特性的描述,并推广其意义。对其结果的解释,不超过所观察的资料范围。推论统计(InferenceStatistics)根据部分数据,去推断总体数量特征的方法。,统计的必要性统计不具有直观性,而是符合事实的逻辑语言。通过数据的收集、分析、整理等活动,在不确实的情况下作出决定时,提供帮助。,基础统计概要,基础统计,统计是指通过样本推定总体(母集团)的特性。总体和个体总体(Population)也叫母集团研究对象全体元素组成的集合。(全国人民的平均寿命或出生地)样本(Sample)从总体中抽取的部分个体。例)今年参加总统选举的选民为大约2,500万名。某舆论调查机构按各地区不同年龄段抽出500名选民,对选举结果进行民意调查。在此例中,总体与样本各为什么?总体:所有参加选举总统的选民约2,500万名样本:被选出的500名,根据数据类型的不同,分析方法也不同,所以我们先了解一下数据的性质。数据的概念-是对客观事物的符号表示,是用于表示客观事物的未经加工的原始素材-是通过物理观察得来的事实和概念数据的类型,DataType,计量(连续型),计数(离散型),长度、厚度、时间等连续性的、能测定的特性值,不良品数量、缺点数量等可以按个数数的特性值。,不良(Defective),缺点(Defect),统计术语总体参数(Parameter)代表母集团的特性值(平均、分散、比率等)统计参数(Statistic)利用样本计算出的特性值,对母集团进行推论的数据。(样本平均、样本偏差等),对母集团的特性推论,母平均:母分散:2母标准偏差:,样本平均:样本方差:s2样本标准差:s,抽样(Sampling),母集团参数,统计参数,中心和分散倾向指标中心倾向指标:表示位置的指标(最具有代表性)-平均(Mean)n个观测值的平均值为观测值总合与观测值数的之比。对极端数据(outlier)较为敏感。例)一份报告书需要AG共7个阶段的审批过程。下列收集的数据是AG各个阶段审批时需要的时间。试求出各个流程所需要的平均审批时间。,平均:,22132930,ABCDEFG,(单位:分钟),测值总合,测值数,=,题解),极端值30分钟,对平均造成很大的影响啊!,中心倾向指标中位数(Median)数据按大小(n)排列时,中间位置的数。来自于极端值的影响较小。-众数(Mode)数据出现的频率(Frequency)最高的。来自于极端值的影响较小。例)上例中的众数为多少?2,2,1,3,2,9,30中,2出现的频率为3次,出现最多。因此众数为2。,n为单数时:,n为双数时:,12223930,1222391030,2和3的平均,2.5,极端值对中位数,众数影响较小。,比较平均、中位数、众数的位置,平均受极端值的影响最大!,中心和分散倾向的指标分散性倾向指标:表示分散形态的指标目前有A、B2家公司给西部电机供货。以下为A、B厂家供货时间的分布图。如果您是西部电机的采购负责人,你会购买哪一家材料?在统计分析中,仅仅考虑平均值来判断问题,会容易出现问题。应该对数据的分散等情况综合考虑才可以。,虽然B公司的平均供货时间比A公司快,但是B公司的散布较大。所以不能说选择B公司一定是最好的选择!,A公司,B公司,80,100,A公司:平均供货时间为100分钟供货时间散布:60120分钟B公司:平均供货时间为80分钟供货时间散布:20160分钟,分散性倾向的指标-分散(Variance)和标准偏差(StandardDeviation)分散和标准偏差显示以平均值为基准的样本的差值情况,也就是显示数据的分散情况。如果,从点开始到点为止的均值为的话,分散以平均平方值(统计上要求,分母并非n,而用n-1来定义),例)抽样数据:4875263平均5偏差之和:(-1)+3+2+0+(-3)+1+(-2)=0,平方的理由,30,40,50,60,70,样本标准差是分散的平方根。,样本方差:,样本标准差:,分散性倾向的指标范围(Range)数据中,最大值与最小值之差,用R表示R=最大值最小值四分位差(IQR:Inter-QuartileRange):Q3-Q1Q1:第1四分位数(FirstQuartile)=25%对应值,中位数左边所有数字的中位数Q2:第2四分位数(SecondQuartile:中位数)=50%对应数Q3:第3四分位数(ThirdQuartile)=75%对应数,中位数右边所有数字的中位数,例)求出下列数据中的第四分位数和IQR。,2,8,20,4,9,5,4,3,题解)按大小顺序排列:,Q1=3.25,Q2(中位数)=4.5,Q3=8.75,34458920,利用MINITAB计算基础统计量利用MINITAB,计算中心倾向及分散性倾向的指标(文件名称:Statistics_Normal.MTW),StatBasicStatisticsGraphicalSummary,1,2,3,有1个以上变量时,要计算各自变量的统计性指标时使用,ConfidenceLevel(置信区间)一般设定为95%,正态性检验结果P-Value0.05,数据是遵从正态分布。平均标准差方差最小值第1四分位数:25%对应值中位数:50%对应值第3四分位数:75%对应值最大值,通过柱状图所看到的结果,1,2,3,概率的理解,概率(Probability)-概率是随机事件出现的可能性的量度。-在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附近,则数值p称为事件A在该条件下发生的概率,记做P(A)=p。这个定义成为概率的统计定义。,P(A)=,事件样本空间,在调查统计中,人们观测一部分数据后,引出对全体的结论。这种逻辑性依据叫做概率。,第一个骰子出现“1”的概率?,例)让我们想一下掷2个骰子的实验。,样本空间S=(1,1),(1,2),(6,6):36种实验的所有集合事件(Event):样本空间的部分集合E1=第一个骰子出现“1”的情况=(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)掷出2个骰子时,其中有一个骰子为“1”的概率P(E1)P(E1)=P(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)=6/36=1/6,随机变量(RandomVariable)随机变量是定义在样本空间的取值为实数的函数。若定义X为掷一颗骰子时出现的点数,则X为随机变量,出现1、2、3、4、5、6点时,X分别取值1、2、3、4、6。,随机变量,1,2,3,4,5,6,例)随机投掷2次一枚硬币,出现正面的随机变量是?,正面用H,反面用T标示时,标本空间为=HH,HT,TH,TT,随机变量是?=0,1,2,概率分布(ProbabilityDistribution)可取到的随机变量及取到其值的可能性概率,利用图表、函数等形式表现出来。,学习概率分布的必要性:为了提前掌握随机概率在某一区间段出现的可能性。,分布种类,概率分布的分类,二项分布,泊松分布,正态分布,Weibull分布,t分布,分布,F分布,信赖性数据随Weibull分布较多。,计数型(离散概率分布),计量型(连续概率分布),计数型概率分布为了将采集到的离散型(计数)数值模型化而使用。离散型概率分布函数用概率质量函数(pmf)进行表示。(例如:良品/不良、0/1性质或者不良数为1、2、3的个数模型化)二项分布代表不良型数据的分布泊松分布代表缺陷性数据的分布计量型概率分布为了将采集到地连续型(计量)数值模型化而使用。连续性概率分布函数以概率密度函数(pdf)进行表示。正态分布一般计量型数据所具有的分布。,在一般情况下,信赖性数据随指数分布或者Weibull分布的较多。还有规定一则规格或流程异常时,一般而言,数据也不随正态分布。,计数型概率分布,二项分布(BinomialDistribution)在每次试验中,只有两种可能的结果,良品/不良品或者成功/失败等结果。反复进行实验N次(伯努力试验)时,成功次数X有如下的分布时,即为二项分布。平均与方差,n:总试验次数p:试验过程中,成功的概率为0和1之间的值x:n次试验中,成功的次数,平均:,方差:,标准差:,利用计算公式算出概率,实在是太复杂啦!,利用MINITAB计算概率例)某一物流公司的货物配送不良率为1%时,此次配送的产品中,取样n=10样品,其中不良品为1个或者以下的概率为多少?均值和方差各为多少?,计算不良品为1个以下的情况指的是1个和0个(没有)的两种情况。,2,4,3,5,CalcProbabilityDistributionBinomial,累计概率计算方法,结果:不良品出现1个或者1个以下的概率为0.904382(0个的概率)+0.091352(1个的概率)=0.995734,6,能不能利用简单的方法,一下子算出不良品为1个以下的概率呢?,7,8,9,10,11,结果:不良品出现1个或者1个以下的概率为,利用MINITANB计算概率相应值的方法,ProbabilityCumulativeprobabilityInversecumulativeprobability,计算个别(单个)概率值计算累计概率值计算相应累计概率面积的X值,已知累计概率面积,要计算不良品数量时,计算累计概率值时,计算个别概率值时,012345678910,概率,0.90.80.70.60.50.40.30.20.10.0,0个的概率=0.904,1个的概率=0.091,何谓泊松分布(PoissonDistribution)?适用于连续的时间或者空间发生频率低的稀奇事件,每单位发生的数等的分布。铁板的单位面积斑痕数一定时间段,打来(接听)的电话一定时间段,银行窗口的顾客人数,平均:方差:标准差:,DPU(DefectperUnit):单位产品缺陷数平均=np方差=但,0.,利用计算公式计算概率很复杂。,一般n较大,p较小时使用。,利用MINITAB计算概率例)为了对信用卡公司的申请书部门错误处理件数进行管理,若每一份申请书上发生的错误平均为1%,且随着泊松分布。随机选取错误为一个以下的概率是多少?,1,2,4,3,5,CalcProbabilityDistributionPoisson,1,计算不良品为1个以下的情况指的是1个和0个(没有)的两种情况。,结果:不良品1个以下的概率是?0.990050(0个的概率)+0.009900(1个的概率)=0.999950,6,能不能利用简单的方法,一下子算出不良品为1个以下的概率呢?,参考离散数据的概率分布近似(Approximately)正态分布,二项分布,正态分布,泊松分布,P50,平均5,np5n(1-p)5,如果能满足一定的条件,二项分布和泊松分布可以转换为近似于正态的分布。,二项分布近似正态分布泊松分布近似正态分布,计量型概率分布,正态分布(NormalDistribution)指的是“标准的”“自然的”“正常的”(Normal)等理想状态。正态分布为非常正常的数据分布形态。数据脱离正态分布的话,此流程可判断为需要改善的对象。正态分布是具有两个参数,2(或者标准差)的连续型随机变量的分布。若X为具有平均和分散2的正态随机变量的话,概率密度函数如下。,利用计算公式计算概率很复杂。,正态分布特点:1)左右对称2)图形是钟形曲线3)也叫高斯曲线,m,68.26%,99.73%,m-1s,m-2s,m-3s,m+1s,m+2s,m+3s,95.45%,标准正态分布(StandardNormalDistribution)平均为0,标准差为1的正态分布,称为标准正态分布。标准化Z(标准正态分布随机变量),X1,平均,标准偏差,Z,0,1,?Z,-正态分布(平均,分散2)随机变量X:XN(,2),-标准正态分布(平均0,标准偏差1)随机变量Z:ZN(0,1),Z转换,例)朴赞浩和罗纳尔多谁更优秀?朴赞浩15胜(正面投球平均:9胜,标准差:3胜)罗纳尔多10个球(西班牙联盟主攻手平均:6个球,标准差:3个球)朴赞浩比罗纳尔多更优秀!,如果统一标准,是不是可以比较互相不同的数据?(标准统一),Z,15,9,3,=,-,朴赞浩,=,2,Z,10,6,3,=,-,罗纳尔多,=,1.33,标准正态分布(StandardNormalDistribution),如果利用标准正态分布图比较,即使是不同性质的数据,也可以客观地进行比较。,这个例子没有说明白,利用MINITAB进行概率计算例)平均为20,标准差为5的正态分布下,求下列情况时的各个概率。(a)X15时的概率,看图太容易理解了。,PX15=PZ,2,4,3,5,1,CalcProbabilityDistributionNormal,MINITAB始终计算左边的概率,结果:0.158655=15.8655%,6,ProbabilityDensity(概率密度函数)输入x计算概率密度函数f(x),CumulativeProbability,InverseCumulativeProbability,利用MINITAB进行概率计算,输入x计算累计概率F(x),输入累计概率F(x)计算相应的x值,f(x),计量型概率分布,利用MINITAB计算概率例)平均为20,标准差为5的正态分布下,求下列情况时的各概率。(b)X30时的概率,PX30=1-PX30,2,4,3,5,1,看图太容易理解了。,CalcProbabilityDistributionNormal,刚才求出的概率面积是?注意:MINITAB是计算左边的概率面积。,结果:=1-0.977250=0.022750即,概率为2.2750%,6,利用MINITAB计算概率例)平均为20,标准差为5的正态分布下,求下列情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论