统计学基础培训_第1页
统计学基础培训_第2页
统计学基础培训_第3页
统计学基础培训_第4页
统计学基础培训_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学基础精选课件在测定阶段中收集材料以分析的方法使用。把工程的Xs与

Ys特性化资料用数值显示。用以前的工程和执行DATA推定未来时使用。高级统计性问题解决方法的基础而使用。基本统计概念不是根据直观而是创出根据事实的语言。基础统计的必要性

精选课件名词解释1.总体与样本Populationandsample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体精选课件总体与样本1.CVTE&TV事业部

2.TV事业部&技术支持部

3.技术支持部&BT1战队

4.平台支持部&订单软件管理组精选课件名词解释从总体中得到样本的方法:抽样。

(抽样方法与样本量)从样本推论总体的方法:统计推断(区间估计,假设检验等)请问:计算CVTE的男生的平均身高推算CVTE的女生的平均体重推算从14楼到食堂的平均时间精选课件名词解释变量——可以测量的任何特征或属性Anycharacteristicorattributethatcanbemeasured。例如:热量值、蛋白质含量、碳水化合物含量。随机变量——在概率论中称变量为随机变量变量与随机变量

Variableandrandomvariable精选课件变量变量(随机变量)的分类离散型变量(discretevariable):计数资料(15,17,24,…)

可能取到的值是有限个的随机变量

记数变量,只能通过记数的方法来获取,只能以整数为单位连续性变量(continuousvariable):计量资料(1.65,1.73,1.77,…)

可能取到的值是无限个的随机变量

计量变量,能用量测手段直接测定有序变量(ordinalvariable):等级资料(优、良、中、差)精选课件变量胖子的体重PQ组的出差天数苹果5S手机的待机时间刘畅每月发放订单软件软件个数丽仪跑100米的时间3553软件的编译时间订单软件的重测次数订单软件的重测率精选课件名词解释1.算术均数(arithmeticmean),简称均值(mean)

2.几何均数(geometricmean)

3.中位数(median)

4.众数(mode)

5.调和均数(harmonicmean)

6.截尾平均值(5%trimmedmean)平均指标

总称为平均数(average)反映了资料的集中趋势(centraltendency)精选课件1.均值(mean)适用条件:变量呈正态或近似正态分布的情况精选课件1.均值(mean)小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?精选课件1.均值(mean)胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?精选课件2.中位数(median)

中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。

适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②参数有不确定数值;③参数分布不明等。

精选课件2.中位数(median)先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据精选课件小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?2.中位数(median)精选课件胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?2.中位数(median)精选课件3.众数(mode)出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。精选课件小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?3.众数(mode)精选课件胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?3.众数(mode)精选课件均值、中位数、众数三者关系正态分布时:均值=中位数=众数正偏态分布时:均值>中位数>众数负偏态分布时:均值<中位数<众数精选课件名词解释波动(variation)指标反映数据的离散度(Dispersion)。即个体观察值的波动程度。常用的指标有:

1.极差(Range)

(全距)

2.百分位数与四分位数间距

PercentileandQuartilerange

3.方差Variance

4.标准差StandardDeviation

5.变异系数CoefficientofVariation精选课件1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定精选课件1.极差(Range)(全距)胖子、勇琼、高婕、丽仪、晓冉、蝶婷、许云的体重分别是:210,78,83,92,86,83,90请问TA们体重的极差是多少?TA们体重的波动大吗?小麦跑一百米10次的速度分别是:13.63 13.45 13.87 14.21 14.0013.78 13.99 18.77 14.22 14.12请问小麦的10次100米时间的极差是多少?精选课件2.方差(variance)方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。精选课件2.方差(variance)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的波动情况精选课件2.标准差(SD)

标准差(Standarddeviation,Std,SD)即方差的正平方根;其单位与原变量X的单位相同。总体标准差精选课件3.标准差(SD)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的波动情况精选课件样本方差为什么要除以(n-1)与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足这一限制条件。精选课件名词解释正态分布(Normaldistribution)

正态分布也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布。1、正态分布的数学形式2、正态曲线3、标准正态分布4、曲线下面积精选课件1.正态分布(Normaldistribution)精选课件1.正态曲线(normalcurve)图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m精选课件1.正态曲线(normalcurve)正态分布曲线由两个参数决定,即总体均值μ和总体标准差σ。在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若变小时,曲线位置向左移,故称μ为位置参数。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”,故称σ为形态参数或变异度参数。精选课件1.正态曲线(normalcurve)Xf(X)m已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2假设胖子抽烟的次数的概率统计符合正态分布,请画出胖子抽烟次数的概率统计正态分布图精选课件1.正态曲线(normalcurve)标准正态离差标准正态分布:N(0,1)正态分布:精选课件

u-∞累计概率分布函数:1.正态曲线-曲线下面积精选课件曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%精选课件μσ2σS2S对母集团特性的推论母平均

:母分散

:母标准偏差

:标本平均

:标本分散

:标本标准偏差

:母数(Parameter):表示母集团的特性值

(母平均,母分散等

)

统计量(Statistic):根据从标本中计算的标本特性值,可以推定母集团的特性。(标本平均,标本分散等)抽出(Sampling)AAAAAAABBBBBBCCCCCCDDDDDDDAABDDDCCCCB母集团标本母数统计量资料的测度精选课件

对资料中心的测度,包括平均,中央值,最频值等。.

例)

制品完成所需A~F的7个工程。下面测定了每工程所需要的时间。

求每工程所需要的平均时间。极端值

30分对平均的影响大!

平均(Mean)

n个观测值的平均是,观测值的总合除于观测值个数对于极端值很敏感(outlier)。

平均

:

22132930ABCDEFG(单位

:分)观测值总合观测值数=计算)

中心位置资料的测度精选课件

最频值(Mode)

DATA频度数(Frequency)大的少受极端值(Outlier)的影响。例

)前面问题中最频值是多少?

在2,2,1,3,2,9,30中频度数2值为

3,拥有最多的频度,

因此最频值是

2。

中央值,最频值少受检端值的影响。n为单数时

:n为双数时

:1222393012223910302和

3的平均2.5资料的测度精选课件显示资料离中心位置分散多少的测度,代表性的有分散、标准偏差、4分位数等。B汽车每L平均行驶距离比

A汽车高,但分布的散布图大,所以不能说

一定是B汽车好!!A汽车B汽车下面是

测定A,B汽车每L行驶距离的DATA分析。各位喜欢什么样的汽车?AB例

)统计分析中只考虑平均判断会得到错误的结果,应考虑资料分散程度的散布图。

散布图资料的测度精选课件分散和标准偏差是资料离平均值的距离,表示资料分散的程度。可以使用各资料值和平均的差异,即把偏差都合起来的方法,但如下例经常成为0,所以使用距离的

乘方,

即,偏差的乘方。●3040506070●●●●●●●●●●●●●●●●●●●假如,从

点到

的乘方距离是

,分散被定义为平均乘方距离

(按统计理由

分母不是

n,而是使用

n-1)标准偏差取乘方根分散的形态。

分散(Variance)与标准偏差(Standarddeviation)例

)

资料

:4875263

平均

5

偏差的合

:(-1)+3+2+0+(-3)+1+(-2)=0

标本分散

:标准偏差

:●●资料的测度精选课件4分位数(Quartile):资料按顺序排列时,被

4等分的数。

•4分位范围(IQR:InterquartileRange):Q3-Q1Q1:第

1/4分位数(Firstquartile)=相当于25%的值Q2:第

2/4分位数(SecondQuartile:中央值)=相当于

50%的值Q3:第

3/4分位数(ThirdQuartile)=相当于75%的值例)有如下DATA时,求4分位数和

IQR.2,8,20,4,9,5,4,3,计算

)

按顺序排列

:Q1=3.25Q2(中央值)=4.5Q3=8.75234458920

范围(Range):在一组DATA中,把最大值和最小值的间隔用数值表示。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论