




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
传播统计学基础复习特取吉祥如意的图案背景,并166页,祝同学们考试顺!顺!顺!天气寒冷,注意保暖。以饱满的精神迎接大学的第一场考试!春节愉快!刘老师传播统计学导论
1统计数据的描述2初等概率论3抽样估计4Contents假设检验5fig什么是统计学?1.数据搜集:取得数据2.数据分析:分析数据3.数据表述:图表展示数据4.数据解释:结果的说明
收集、整理、显示和分析数据的科学统计学是一门以社会现象总体数量方面为对象的方法论科学,是研究如何有效地收集、整理和分析受随机影响的数据,并对所考察的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。统计学的研究方法大量观察法:指对研究的事物的全部或足够数量进行观察的方法。综合指标法:运用各种综合指标对现象的数量关系进行对比分析的方法。统计推断法:在一定置信程度下,根据样本资料的特征,对总体的特征作出估计和预测的方法称为统计推断法。统计模型法:如多元分析、时间序列、方差分析统计分组法:将统计总体按照一定的标志区分为若干部分的一种统计方法。掌握三个要点:统计分组的对象是总体;统计分组的关键是选择分组标志和划分各组界限;统计分组的结果必须形成组间异质,组内同质。大数定律:瑞士科学家伯努力提出的,是随机现象的基本规律。本质是:结果大量观察把个别的、偶尔的差异性好像抵消,是集体的、必然的规律呈现处理。描述统计
(descriptivestatistics)研究数据收集、整理和描述的统计学分支内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105推断统计
(inferentialstatistics)研究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断1.5统计学的基本概念
1.5.1
总体与总体单位(个体)什么是总体单位?个体总体单位(简称单位)是组成总体的各个个体。什么是总体?它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。分为两种:有限总体、无限总体。
什么是样本容量?样本所包含的个体数。什么是样本?由总体的部分个体组成的集合1.5.3标志(特征)和标志表现(特征值)1.什么是标志?总体各单位普遍具有的属性或特征2.什么是标志表现?即标志特征在各单位的具体表现3.分类:
标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。1.5.4参数和统计量参数描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值(
)、标准差(
)、总体比例()等总体参数通常用希腊字母表示统计量用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(
x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示传播统计学导论
1统计数据的描述2初等概率论3抽样估计4Contents假设检验5fig各种计量尺度的比较定类尺度:最粗略、计量层次最低的计量尺度,按照客观现象的某种属性对其进行分类。主要数学特征是“=”或“≠”。如性别、种族定序尺度:对客观现象各类之的等级差或顺序差的一种测度。主要数学特征是“<”或“>”。如,成绩可分为优、良、中等五类。定距尺度:对现象类别或次序之间间距的测度。不但可以用数字表示现象各类别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差异。定比尺度:在定距尺度的基础上,确定相应的比较基数.然后将两种相关的数加以对比而形成的相对数(或平均数)。主要数学特征是“x”或“÷”
。变量连续型变量离散型变量在统计中,说明现象的某一数量特征的概念被称为变量根据变量值连续出现与否变量的具体取值叫变量值根据变量的取值确定与否确定性变量随机变量变量抽样误差由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素样本量的大小总体的变异性数据预处理数据的审核完整性审核准确性审核适应性审核数据的筛选数据的排序品质型数据的排序数值型数据的排序统计分组的关键问题1·选择分组标志2·选择分组体系按一个分组标志分组按多个分组标志分组分组的种类1·区分事物的性质:类型分组2·反映总体内部结构:结构分组3·研究现象之间的依存关系:分析分组组距式分组中的一些概念组限上限下限区间数值的最大值区间数值的最小值组距每一组的区间长度组距=上限-下限组中值每一组中点位置的数值组中值=(上限+下限)÷2开口组缺少上限数值或下限数值的组注意开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。组距数列的编制原始数据计算组中值排序确定组限计算变异全距确定组数、组距汇总各组单位数制作组距数列统计表编制步骤或内容编制等距数列(1)计算组数(组数不宜过多,也不宜太少)
n=1+3.3logN(斯特杰斯经验公式)式中:n为组数,N为总体单位数(2)计算组距
d=R/n=R/(1+3.3logN)
式中:d为组距,R为全距(3)确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法编制等距数列销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向上累计5以下5~1010~1515~2020~2525以上41016134382032268641430434750828608694100合计50100——2.4.1统计表和统计图2.4.1.1统计表统计表的定义和结构统计表的分类统计表的设计2.4.1.2统计图直方图折线图曲线图累计曲线图2.4.1.3频(次)数分布图的类型钟形分布U形分布J形分布我国2002年国内生产总值按三次产业分国内生产总值(亿元)比上年增长率(%)
第一产业
148832.9
第二产业529829.9
第三产业34522
7.3
合计
1023988.0纵标题数字资料
主词
宾词横标题总表题指标数值统计表的结构折线图
(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示
(折线图的绘制)折线图与直方图下的面积相等!某车间工人周加工零件折线图
2.4.2
分布集中趋势的测度众数中位数四分位数均值几何均值众数
(不惟一性)无众数原始数据:
10591268一个众数
原始数据:
659855多于一个众数
原始数据:
252828364242中位数
(位置的确定)原始数据:顺序数据:数值型数据的中位数
(9个数据的算例)例
9个家庭的人均月收入数据原始数据:
1500
750
780
1080850960200012501630排序:
7507808509601080
1250150016302000位置:1234
56789中位数
1080
四分位数
(位置的确定)原始数据:分组数据:数值型数据的四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排
序:750780
85096010801250150016302000位置:123456789
简单均值设一组数据为:x1,x2,…,xn总体均值样本均值加权均值设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fk总体均值样本均值众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值分布离散程度的测度极差内距方差和标准差离散系数极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910
R
=max(xi)-min(xi)
m计算公式为内距
(Inter-QuartileRange,IQR)
也称四分位差上四分位数与下四分位数之差
内距=Q3
–Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性方差和标准差
(VarianceandStandarddeviation)离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差例:日产量(件)209221230241269合计20样本方差和标准差未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!传播统计学导论
1统计数据的描述2初等概率论3抽样估计4Contents假设检验5fig初等概率论随机事件及其概率随机变量及其分布大数定律和中心极限定律3.1随机事件及其概率随机试验与随机事件随机事件的概率概率的运算法则随机试验严格意义上的随机试验满足三个条件:可重复性:试验可以在系统条件下重复进行;定向性:试验的所有可能结果是明确可知的;随机性:每次试验前不能肯定哪一个结果会出现。随机事件(续)复合事件由某些基本事件组合而成的事件样本空间中的子集随机事件的两种特例必然事件在一定条件下,每次试验都必然发生的事件只有样本空间
才是必然事件
不可能事件在一定条件下,每次试验都必然不会发生的事件不可能事件是一个空集(Φ)
事件之间的关系p41.包含关系:“A发生必导致B发生”记为A
B;A=B
;A
B且B
A.
即事件A和B的样本点相同。2.和事件3.积事件3.差事件4.互斥事件5.互逆事件事件的运算1、交换律:3、分配律:2、结合律:例:甲、乙、丙三人各向目标射击一发子弹,以A、B、C分别表示甲、乙、丙命中目标,试用A、B、C的运算关系表示下列事件:事件的运算频率的性质(1)0
fn(A)
1;(2)
fn(S)=1;fn(
)=0(3)
可加性:若AB=,则实践证明:当试验次数n增大时,fn(A)逐渐趋向一个稳定值。
可将此稳定值记作P(A),作为事件A的概率。频率随机事件的概率概率用来度量随机事件发生的可能性大小的数值必然事件的概率为1,表示为P(
)=1不可能事件发生的可能性是零,P(
)=0随机事件A的概率介于0和1之间,0<P(A)<1概率的古典定义古典概型(等可能概型)——具有以下两特点每次试验的可能结果有限(即样本空间中基本事件总数有限)每个试验结果出现的可能性相同——它是概率论的发展过程中人们最早研究的对象概率的古典定义概率的古典定义前提:古典概型定义(公式)计算古典概率常用到排列组合知识古典概率的性质(1)0
P(A)
1;(2)P(
)=1;P(
)=0(3)AB=,则例3-5:有三个子女的家庭,设每个孩子是男是女的概率相等,则至少有一个男孩的概率是多少?N(S)={HHH,HHT,HTH,THH,HTT,TTH,THT,TTT}N(A)={HHH,HHT,HTH,THH,HTT,TTH,THT}解:设A--至少有一个男孩,以H表示某个孩子是男孩古典概率古典概型计算古典概型的判断方法求出试验结果的总数n求出有利于事件A的结果数m求出m和n的比值,即为事件A的概率公式:p10概率的基本性质非负性:对任意事件A,有0
P(A)
1。规范性:必然事件的概率为1,即:
P(
)=1不可能事件的概率为0
,即:P(
)=0。可加性:若A与B互斥,则:P(A∪B)=P(A)+P(B)对于多个两两互斥事件A1,A2,…,An,则有:
P(A1∪A2
∪…∪An)=P(A1
)+P(A2
)+…+P(An
)上述三条基本性质,也称为概率的三条公理。概率的重要性质(1)P(φ)=0,P(Ω)=1,逆不一定成立.(2)若AB=φ,则P(A+B)=P(A)+P(B),可推广到有限个互斥事件的情形.即:若A1,A2,…,An两两互斥,则
P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)(3)P(A-B)=P(A)-P(AB),P(Ω-A)=1-P(A).
若A是B的子事件,则P(B-A)=P(B)-P(A);P(A)≤P(B);(4)P(A+B)=P(A)+P(B)-P(AB),
P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)
可推广到有限个事件的情形.3.1随机事件及其概率随机试验与随机事件随机事件的概率概率的运算法则3.1.3概率的运算法则1.加法公式2.乘法公式3.全概率公式和贝叶斯公式Ref.教科书事件的独立性两个事件独立一个事件的发生与否并不影响另一个事件发生的概率P(A|B)=P(A),或P(B|A)=P(B)独立事件的乘法公式:P(AB)=P(A)·P(B)推广到n个独立事件,有:P(A1…An)=P(A1)P(A2)…P(An)
例3-15
市场上有甲、乙、丙三家工厂生产的同一品牌产品,已知三家工厂的市场占有率分别为1/4、1/4、1/2,且三家工厂的次品率分别为2%、1%、3%,试求市场上该品牌产品的次品率。解:B全概率公式完备事件组事件A1、A2、…、An互不相容,A∪A2∪…∪An=Ω且P(Ai)>0(i=1、2、...、n)对任一事件B,它总是与完备事件组A1、A2、…、An之一同时发生,则有求P(B)的全概率公式:例3-19
有甲乙两个袋子,甲袋中有两个白球,1个红球,乙袋中有两个红球,一个白球.这六个球手感上不可区别.今从甲袋中任取一球放入乙袋,搅匀后再从乙袋中任取一球,问此球是红球的概率?解:设A1——从甲袋放入乙袋的是白球;
A2——从甲袋放入乙袋的是红球;
B——从乙袋中任取一球是红球;
甲乙贝叶斯公式若A1、A2、…、An为完备事件组,则对于任意随机事件B,有:计算事件Ai在给定B条件下的条件概率公式。公式中,P(Ai)称为事件Ai的先验概率P(Ai|B)称为事件Ai的后验概率
例3-20
商店论箱出售玻璃杯,每箱20只,其中每箱含0,1,2只次品的概率分别为0.8,0.1,0.1,某顾客选中一箱,从中任选4只检查,结果都是好的,便买下了这一箱.问这一箱含有一个次品的概率是多少?解:设A:从一箱中任取4只检查,结果都是好的.
B0
,B1,B2分别表示事件每箱含0,1,2只次品已知:P(B0)=0.8,P(B1)=0.1,P(B2)=0.1由Bayes公式:3.2随机变量及其概率分布随机变量的概念随机变量的概率分布随机变量的数字特征常见的离散型概率分布随机变量的概念随机变量——表示随机试验结果的变量取值是随机的,事先不能确定取哪一个值一个取值对应随机试验的一个可能结果用大写字母如X、Y、Z...来表示,具体取值则用相应的小写字母如x、y、z…来表示根据取值特点的不同,可分为:离散型随机变量——取值可以一一列举连续型随机变量——取值不能一一列举3.2.2随机变量的概率分布离散型随机变量的概率分布分布函数连续型随机变量的概率密度例3-23
设随机变量X具分布律如右表解:
X012P0.10.60.3试求出X的分布函数。
(1)F(x)=
(3)对任意a<b有
P(a<X≤b)=P(X≤b)-P(X≤a)=F(b)-F(a);P(a≤X<b)=P(X<b)-P(X<a)=F(b-0)-F(a-0);P(X<a)=F(a-0);P(X≥a)=1-P(X<a)=1-F(a-0).对于离散型随机变量X的分布函数有随机变量的数学期望又称均值描述一个随机变量的概率分布的中心位置离散型随机变量X的数学期望:相当于所有可能取值以概率为权数的平均值数学期望的主要数学性质若k是一常数,则
E(kX)=kE(X)对于任意两个随机变量X、Y,有
E(X+Y)=E(X)+E(Y)若两个随机变量X、Y相互独立,则
E(XY)=E(X)E(Y)
随机变量的方差方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或σ2公式:离散型随机变量的方差:方差和标准差(续)标准差=方差的平方根方差和标准差都反映随机变量取值的分散程度。它们的值越大,说明离散程度越大,其概率分布曲线越扁平。方差的主要数学性质:若k是一常数,则D(k)=0;D(kX)=k2D(X)若两个随机变量X、Y相互独立,则
D(X+Y)=D(X)+D(Y)
例3-25试求优质品件数的数学期望、方差和标准差。解:σ=0.6xi012pi0.10.60.3例3-26
某试验出现“成功”的概率为p(0<p<1),出现“失败”的概率为1-p,现进行一次试验,求成功次数的概率分布。解设随机变量X表示成功次数,则X=0表示试验出现“失败”,X=1表示试验出现“成功”
P(X=1)=p,P(X=0)=1-p,
所以,X的概率分布为:X01P1-pp两点分布
注:两点分布用于描述只有两种对立结果的随机试验.两点分布(0-1分布)二项分布(背景)(背景)——n重贝努里试验:一次试验只有两种可能结果用“成功”代表所关心的结果,相反的结果为“失败”每次试验中“成功”的概率都是pn次试验相互独立。二项分布(p24)在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为X~B(n,p)二项分布的概率函数:二项分布的数学期望和方差:n=1时,二项分布就成了二点分布(0-1分布)其中
为实数,
>0,则称X服从参数为
,
2的正态分布,记为N(
,
2),可表为X
~N(
,
2).若随机变量正态分布
正态分布X~N(μ、σ2
),其概率密度为:正态分布的均值和标准差均值E(X)=μ
方差D(X)=σ2
-∞<x<∞
正态曲线σ相同而μ不同的正态曲线
2
xf(x)μ相同而σ不同的正态曲线f(x)σ较小σ较大
x正态曲线的主要特性关于x=μ对称的钟形曲线参数μ决定正态曲线的中心位置参数σ决定正态曲线的陡峭或扁平程度以X轴为渐近线,即当x→±∞时,f(x)→0标准正态分布μ=0、σ=1的正态分布,记为N(0,1)(p58)其概率密度φ(x),分布函数Ф(x)X~N(μ、σ2),则:Z~N(0,1
)若Z~N(0,1
),则有:
P(|Z|≤a)=2Ф(a)-1Ф(-a)=1-Ф(a)标准化标准正态曲线
-a
0aφ(z)zΦ(a)一般的概率统计教科书均附有标准正态分布表供读者查阅
(x)的值。(P258附表2)如,若Z~N(0,1),
(0.5)=0.6915,P{1.32<Z<2.43}=(2.43)-(1.32)=0.9925-0.9066注:(1)(x)=1-(-x);
(2)若X~N(
,
2),则【例3-14】某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:(a)使用寿命在500小时以下的灯管占多大比例?(b)使用寿命在850~1450小时的灯管占多大比例?(c)以均值为中心,95%的灯管的使用寿命在什么范围内?解
X=使用寿命,X~N(1050,2002
)=Ф(2)-Ф(-1)=0.97725-0.15865=0.818695%的灯管寿命在均值左右392(即658~1442)小时=1-Ф(2.75)=1-0.99702=0.00298正态分布最常用、最重要大千世界中许多常见的随机现象服从或近似服从正态分布例如,测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,农作物的产量…特点是“中间多两头少”由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位正态分布是许多概率分布的极限分布统计推断中许多重要的分布(如χ2分布、t分布、F分布)都是在正态分布的基础上推导出来的。为什么很多随机现象呈正态分布自然界和社会经济现象中,这类现象很普遍,许许多多的随机变量都可以视为众多独立随机变量之总和。例如:一个城市的居民生活用电总量是大量相互独立居民户用电量的总和;炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。正态分布也称为常态分布常用概率分布及其均值、方差σ2μN(μ,σ2)NORMDIST正态分布(a+b)/2均匀分布np(p=M/N)H(n,N,M)HYPGEOM-DIST超几何分布λλP(λ)POISSON泊松分布p(1-p)pB(1,p)二点分布np(1-p)npB(n,p)BINOMDIST二项分布方差均值记号名称正态分布曲线下的特殊位置的面积标准正态分布N(0,1)对任意一个正态分布可以进行标准化变换,U变换变换后的随机变量U服从标准正态分布,即:U~N(0,1)大数定律和中心极限定律要解决的问题
为何能以某事件发生的频率作为该事件的概率的估计?为何能以样本均值作为总体期望的估计?为何正态分布在概率论中占有极其重要的地位?大样本统计推断的理论基础是什么?ANSWER大数定律中心极限定理大数定律和中心极限定理是概率论的重要基本理论,它们揭示了随机现象的重要统计规律,在概率论与数理统计的理论研究和实际应用中都具有重要的意义。迄今为止,人们已发现很多大数定律(lawsoflargenumbers),本章仅介绍几个最基本的大数定律。所谓大数定律,简单地说,就是大量数目的随机变量所呈现出的规律,这种规律一般用随机变量序列的某种收敛性来刻画。独立同分布大数定律大数定律是阐述大量同类随机现象的平均结果的稳定性的一系列定理的总称。独立同分布大数定律——设X1,X2,…是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)=μ和方差D(Xi
)=σ2(i=1,2,…),则对任意小的正数ε,有:
本结果由俄国数学家切比雪夫于1866年证明,是关于大数定律的普遍结果,许多大数定律的古典结果都是它的特例。大数定律(续)该大数定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望μ的偏差任意小的概率接近于1。
该定理给出了平均值具有稳定性的科学描述,从而为使用样本均值去估计总体均值(数学期望)提供了理论依据.当
n
足够大时,算术平均值几乎就是一个常数,可以用算术平均值近似地代替数学期望。
人们已经知道,在自然界和生产实践中遇到的大量随机变量都服从或近似服从正态分布,正因如此,正态分布占有特别重要的地位。那么,如何判断一个随机变量服从正态分布显得尤为重要。如经过长期的观测,人们已经知道,很多工程测量中产生的误差X都是服从正态分布的随机变量。分析起来,造成误差的原因有仪器偏差X1、大气折射偏差X2,温度变化偏差X3、估读误差造成的偏差X4等等,这些偏差Xi
对总误差的影响都很微小,没有一个起到特别突出的影响,虽然每个Xi的分布并不知道,但却服从正态分布。类似的例子不胜枚举。
为什么很多随机现象呈正态分布自然界和社会经济现象中,这类现象很普遍,许许多多的随机变量都可以视为众多独立随机变量之总和。例如:一个城市的居民生活用电总量是大量相互独立居民户用电量的总和;炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。正态分布也称为常态分布传播统计学导论
1统计数据的描述2初等概率论3抽样估计4Contents假设检验5fig4.3参数估计参数估计的一般问题一个总体参数的区间估计估计量:用于估计总体参数的随机变量如样本均值,样本比率、样本方差等例如:样本均值就是总体均值
的一个估计量估计值:估计参数时计算出来的统计量的具体值如果样本均值
x
=80,则80就是
的估计值参数估计:点估计、区间估计估计量与估计值
(estimator&estimatedvalue)被估计的总体参数总体参数符号表示用于估计的样本统计量一个总体均值比例方差两个总体均值之差比例之差方差比点估计
(概念要点)从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如:用样本均值作为总体未知均值的估计值就是一个点估计2. 点估计没有给出估计值接近总体未知参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等区间估计
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%
样本统计量
(点估计)置信区间置信下限置信上限总体未知参数落在区间内的概率表示为(1-
为显著性水平,是总体参数未在区间内的概率常用的显著性水平值有
99%,95%,90%相应的
为0.01,0.05,0.10常用置信水平的对应系数(见下图)置信水平置信区间与置信水平样本均值的抽样分布(1-
)%区间包含了
%的区间未包含
1–aa/2a/2置信区间和置信水平的关系:区间估计的图示
(正态分布)
x95%的样本
-1.96
x
+1.96
x99%的样本
-2.58
x
+2.58
x90%的样本
-1.65
x
+1.65
x临界值一个总体参数的区间估计总体参数符号表示样本统计量均值比率方差总体均值的区间估计
(大样本)1. 假定条件总体服从正态分布,且方差(
2)
未知如果不是正态分布,可由正态分布来近似(n
30)使用正态分布统计量z总体均值
在1-
置信水平下的置信区间为总体均值的区间估计
(例题分析)【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.5
95.0108.8115.6100.0123.5102.0101.6102.2116.6
95.4
97.8108.6105.0136.8102.8101.5
98.4
93.3总体均值的区间估计
(例题分析)解:已知X~N(
,102),n=25,1-
=95%,z
/2=1.96。根据样本数据计算得:
总体均值
在1-
置信水平下的置信区间为该食品平均重量的置信区间为101.44g~109.28g总体均值的区间估计
(小样本)1. 假定条件总体服从正态分布,且方差(
2)
未知小样本
(n<30)使用t
分布统计量ref.142总体均值
在1-
置信水平下的置信区间为t分布
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt
分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z总体均值的区间估计
(例题分析)【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据1510152014801500145014801510152014801490153015101460146014701470总体均值的区间估计解:已知X~N(
,2),n=16,1-
=95%,t
/2=2.131
根据样本数据计算得:,
总体均值
在1-
置信水平下的置信区间为该种灯泡平均使用寿命的置信区间为1476.8小时~1503.2小时总体比率的区间估计一个总体参数的区间估计总体参数符号表示样本统计量均值比率方差总体比率的区间估计1. 假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量z总体比率
在1-
置信水平下的置信区间为总体比率的区间估计
(例题分析)【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间解:已知n=100,p=65%,1-=95%,z/2=1.96该城市下岗职工中女性比率的置信区间为55.65%~74.35%
总体方差的区间估计1. 估计一个总体的方差或标准差2. 假设总体服从正态分布总体方差
2
的点估计量为s2,且p.1463.
总体方差在1-
置信水平下的置信区间为总体方差的区间估计
2
21-
2
总体方差1-
的置信区间自由度为n-1的
2分布总体方差的区间估计
(例题分析)【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间25袋食品的重量112.5101.0103.0102.0100.5102.6107.5
95.0108.8115.6100.0123.5102.0101.6102.2116.695.4
97.8108.6105.0136.8102.8101.5
98.4
93.3总体方差的区间估计解:已知n=25,1-
=95%,根据样本数据计算得
s2=93.21
2置信度为95%的置信区间为
该企业生产的食品总体重量标准差的的置信区间为7.54g~13.43g传播统计学导论
1统计数据的描述2初等概率论3抽样估计4Contents假设检验5fig
假设检验的基本问题
一个总体参数的检验两个总体参数的检验☆假设的陈述☆两类错误与显著性水平☆统计量与拒绝域☆利用P值进行决策☆☆☆☆
两个总体均值之差的检验☆两个总体比率之差的检验☆两个总体方差比的检验☆总体均值的检验☆总体比率的检验
☆总体方差的检验
☆☆☆☆☆☆☆6假设检验假设的陈述什么是假设?
(hypothesis)
对总体参数的具体数值所作的陈述p167总体参数包括总体均值、比率、方差等分析之前必须陈述什么是假设检验?
(hypothesistest)先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理小概率事件在一次观察中不可能出现,如果在一次观察中出现小概率事件,那么,合理的想法是原有事件具有小概率的假设就不成立原假设
(nullhypothesis)研究者想收集证据予以反对的假设又称“0假设”总是有符号
,
或
表示为H0H0:
=某一数值
指定为符号=,
或
例如,H0:
10cm研究者想收集证据予以支持的假设也称“研究假设”总是有符号
,
或
表示为
H1H1:
<某一数值,或
某一数值例如,H1:
<10cm,或
10cm备择假设(alternativehypothesis)【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设提出假设(例题分析)解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为
H0:μ=10cm
H1:μ≠10cm
原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立先确定备择假设,再确定原假设等号“=”总是放在原假设上因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)提出假设双侧检验与单侧检验备择假设没有特定的方向性,并含有符号“
”的假设检验,称为双侧检验或双尾检验(two-tailedtest)备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)备择假设的方向为“<”,称为左侧检验
备择假设的方向为“>”,称为右侧检验
双侧检验与单侧检验双侧检验与单侧检验
(假设的形式)假设双侧检验单侧检验左侧检验右侧检验原假设H0:m
=m0H0:m
m0H0:m
m0备择假设H1:m
≠m0H1:m
<m0H1:m
>m0显著性水平
1. 是一个概率值2. 原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3. 表示为
(alpha)常用的
值有0.01,0.05,0.104. 由研究者事先确定检验统计量与拒绝域样本均值的抽样分布(1-
)%区间包含了
%的区间未包含
1–aa/2a/2假设检验通过样本统计量进行。统计量是样本的函数。根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布检验统计量标准化的检验统计量显著性水平和拒绝域
(双侧检验)0临界值临界值a/2
a/2
样本统计量拒绝H0拒绝H0抽样分布1-
置信水平显著性水平和拒绝域
(左侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平显著性水平和拒绝域
(右侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平观察到的样本统计量决策规则给定显著性水平
,查表得出相应的临界值z
或z
/2,t
或t
/2将检验统计量的值与
水平的临界值进行比较作出决策双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0假设检验步骤的总结陈述原假设和备择假设从所研究的总体中抽出一个随机样本确定一个适当的检验统计量,并利用样本数据算出其具体数值确定一个适当的显著性水平,并计算出其临界值,指定拒绝域将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策一个总体参数的检验z检验(单尾和双尾)
t检验(单尾和双尾)z
检验(单尾和双尾)
2检验(单尾和双尾)均值一个总体比率方差一个总体的参数总体参数符号表示样本统计量均值比率方差总体均值的检验
(作出判断)
是否已知小样本容量n大
是否已知否
t检验否z检验是z检验
是z检验总体均值的检验
(大样本)1. 假定条件正态总体或非正态总体大样本(n
30)使用z检验统计量
2
已知:
2
未知:总体均值的检验(
2
已知)
(例题分析)【例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为255.8ml。取显著性水平
=0.05,检验该天生产的饮料容量是否符合标准要求?双侧检验绿色健康饮品绿色健康饮品255255总体均值的检验(
2
已知)H0
:
=255H1
:
255
=0.05n
=40临界值(c):检验统计量:z01.96-1.960.025拒绝H0拒绝H00.025决策:结论:
Z的绝对值<临界值,不拒绝H0样本提供的证据表明:该天生产的饮料符合标准要求
总体均值的检验
(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0:m=m0H1:
m
m0H0:m
m0H1:m<m0H0:
m
m0
H1:
m>m0统计量
已知:
未知:拒绝域P值决策拒绝H0总体均值的检验
(小样本)1.假定条件总体服从正态分布小样本(n<
30)检验统计量
2
已知:
2
未知:总体均值的检验
(小样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0:m=m0H1:
m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆小画室创业计划书
- 安徽省合肥市38中2025年九下中考三模历史试卷(含答案)
- 保安年度总结(32篇)
- 2025年中国消费电子产品行业市场现状及未来发展前景预测分析报告
- 2025年中考历史总复习中国现代史知识必考重点梳理
- 传统节日端午节模板101
- 安全常规知识试题及答案
- 2025年钻铣床配件项目市场调查研究报告
- 2025年钢质防火侧向卷帘项目市场调查研究报告
- 2025年钢带组合环项目市场调查研究报告
- 2025锌产品购销合同范本
- 山东济南先行投资集团有限责任公司招聘笔试真题2024
- 应用文写作-介绍智能校园图书馆的英文发言稿+讲义-2025届吉林省长春市高三下学期质量监测(三)英语试题
- 2025年济南版中考生物知识点考点复习提纲
- 2025年全国保密教育线上培训考试试题库附答案(完整版)含答案详解
- 企业交通安全宣传教学课件
- 一例COPD急性加重期护理个案课件
- 《双碳管理基础与实务》课件-第三章 碳排放的核算
- 幼儿园课程论知到课后答案智慧树章节测试答案2025年春运城幼儿师范高等专科学校
- 2024年吉林省高职高专单招考试英语卷试题真题(含答案)
- 通信工程施工企业安全生产管理人员知识考核题库500题-含答案
评论
0/150
提交评论