第3章概率与抽样分布_第1页
第3章概率与抽样分布_第2页
第3章概率与抽样分布_第3页
第3章概率与抽样分布_第4页
第3章概率与抽样分布_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 概率与抽样分布 probability and sampling distributions section 3.1 random variables 随机变量 事件事件的实际发生率的实际发生率称为称为频率频率。设在相同。设在相同 条件下,独立重复进行条件下,独立重复进行n n次试验,事件次试验,事件a a出现出现 f f 次,则事件次,则事件a a出现的频率为出现的频率为f f/ /n n。 概率概率:随机事件发生的可能性大小随机事件发生的可能性大小,用,用 大写的大写的p p 表示;取值表示;取值00,11。 一、频率与概率frequency and probability 1.

2、样本频率总是围绕概率上下波动 2. 样本含量n越大,波动幅度越小,频率越接近概率。 频率与概率的关系: 调查株数调查株数(n)52550100200500100015002000 受害株数受害株数(a) 21215 33 72177 351 525 704 棉株受害频棉株受害频 率率(a/n) 0.400.480.300.330.360.3540.3510.3500.352 表表 在相同条件下盲蝽象在某棉田危害程度的调查结果在相同条件下盲蝽象在某棉田危害程度的调查结果 一、频率与概率frequency and probability 一、频率与概率frequency and probabili

3、ty 小概率原理小概率原理 若事件若事件a发生的概率较小,如小于发生的概率较小,如小于0.05或或0.01,则认为,则认为 事件事件a在一次试验中不太可能发生,这称为小概率事件实际在一次试验中不太可能发生,这称为小概率事件实际 不可能性原理,简称小概率原理。这里的不可能性原理,简称小概率原理。这里的0.05或或0.01称为小称为小 概率标准,农业试验研究中通常使用这两个小概率标准。概率标准,农业试验研究中通常使用这两个小概率标准。 二、随机变量 用以记录随机试验结果(outcome)的变量,称 为随机变量(random variable),用大写英文 字母x, y 等代表。 随机变量x的概率分

4、布,表达 x 的可能取值 和取这些值的概率规则。 离散型和连续型随机变量 随机变量的可能取值是离散的数字,如计数型或分类 型等,称为离散型随机变量(discrete random variable)。 0, 1, 9 。 20次实验中成功的次数, 二项式分布。 随机变量的可能取值是某一实数的区间,如“大于0” 或“-22之间”等,称为连续型随机变量 (continuous random variable)。 正态随机变量 二、随机变量 三、离散型随机变量的概率分布 x = xix1 ,x2 , ,xn p(x =xi)=pip1 ,p2 , ,pn 1 0 1 i n i i p p 列出离散

5、型随机变量x的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示 p(x =xi)=pi称为离散型随机变量的概率函数 四、连续型随机变量的概率密度 若观察资料数量够大,则直方图(组数适当增 加)的整体形态可用一近似的平滑曲线显示。 直方图中纵轴改为次数比例,则该平滑曲线 称为密度曲线(density curve)。 概率密度曲线 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 2345678910 11 密度曲线的性质 曲线都在水平线上 (密度函数=0)。 曲线下所涵盖的全部面积正好为1(所有可 能性为1)。 曲线下任何范围所涵盖的面积,为观察值 落在该范

6、围的比例(概率)。 密度曲线可视为是观察变量的理论分布图 形。 四、连续型随机变量的概率密度 随机变量x的一切可能取值的完备组中,各可 能取值xi与其相对应的概率pi乘积之和 描述随机变量取值的集中程度 计算公式为 五、随机变量的数学期望 随机变量x的每一个取值与期望值的离差平方 和的数学期望,记为d(x) 描述离散型随机变量取值的分散程度 计算公式为 六、随机变量的方差 section 3.2 the binomial distributions 二项分布 一、二项分布设定 the binomial setting 固定的观察次数 n。 n 次的观察都独立,每次的观察都不会对其 他观察提供任

7、何信息。 每次的观察都只有两种可能的结果,多假设 为“成功”或“失败”两种。 每次的观察“成功”的概率都一样,设定为 p。 二、二项分布 binomial distribution 满足二项分布设定的试验,以 x 记录 n次 观察中“成功”的次数,则称 x 的分布为 参数为 n 与 p 的二项分布(binomial),记 为b(n, p)。 x 的所有可能取值为0, 1, , n。 对应的概率函数为 p(x = x) = p(x)。 ()(1) for x = 0, 1, &, n xxn x n p xxc pp 例例1 某种昆虫在某地区的死亡率为某种昆虫在某地区的死亡率为40%,即,即p=

8、0.4, 现对这种害虫用一种新药进行治疗试验,每次抽样现对这种害虫用一种新药进行治疗试验,每次抽样10头作头作 为一组治疗。试问如新药无疗效,则在为一组治疗。试问如新药无疗效,则在10头中死头中死3头、头、2头、头、 1头,以及全部愈好的概率为多少?头,以及全部愈好的概率为多少? 按上述二项分布概率函数式计算按上述二项分布概率函数式计算 7头愈好,头愈好,3头死去概率:头死去概率: 8头愈好,头愈好,2头死去概率:头死去概率: 9头愈好,头愈好,1头死去概率:头死去概率: 10头全部愈好的概率:头全部愈好的概率: 21499. 0)60. 0()40. 0()3( 733 10 cp 1209

9、3. 0)60. 0()40. 0()2( 822 10 cp 04031. 0)60. 0()40. 0() 1 ( 911 10 cp 00605. 0)60. 0()40. 0()0( 1000 10 cp 三、示例 若问若问10头中不超过头中不超过2头死去的概率为多少?则应该头死去的概率为多少?则应该 应用累积函数,即应用累积函数,即 16729. 0 12093. 004031. 000605. 0 )2() 1 ()0( )()2( 2 0 ppp ypf 三、示例 四、二项分布的期望值与标准差 期望值: e(x) = np 方差: var(x) = np(1-p) 标准差: )1

10、 (pnp section 3.3 normal distributions 正态分布 一、特点 正态曲线 所有正态曲线都有相同的外型 具有对称、单峰及钟形的特性。 正态曲线所代表的分布即为正态分布(normal distribution) 每一正态分布都有其平均值 与标准差 m s 一、特点 正态曲线较大 m s 一、特点 正态曲线的拐点 拐点落在 一个处 拐点落在 -处 一、特点 二、为什么这么重要 good descriptions for some distributions of real data 身高, 体重, 考试成绩 good approximations to the re

11、sults of many kinds of chance outcomes tossing a coin many times many statistical inference procedures are based on normal distributions 三、68-95-99.7规则 正态分布有其特定的数据分布规则: 平均值为 , 标准差为 的正态分布 68%的观察资料落在m 的 1 之内 95%的观察资料落在m 的 2 之内 99.7%的观察资料落在m 的 3 之内 0 1 2 3 -1-2 -3 m msm2sm3smsm2sm3s 68% 的资料 95% 的资料 99.

12、7% 的资料 三、68-95-99.7规则 四、变量标准化 (standardization) 令观察值 x 服从平均值为 ,标准差为 的分布,则 x 的标准化值(standardized value)定义为 标准化值又称为 z-值(z-score)。 s m x z 标准化变量 可以证明 z的平均值为0 z的标准差为1 四、变量标准化 (standardization) s m x z 五、标准正态分布 变量 x 服从平均值为 ,标准差为 的正 态分布,简记为 x n(, 2)。 x 经过标准化后为 z(=(x-)/ s ),则 z 也服从正态分布,并且平均值为 0 ,标准差 为 1,即z

13、n(0, 1)。我们称 z 服从标准正 态(standard normal)。 六、标准正态表 z 表列数字是z左边的面积 z = 0.44 z左边的面积为0.33 0.44 0.33 z 表列数字是z左边的面积 z = 0.44 z左边的面积为0.67 六、标准正态表 七、双侧临界值 在标准正态曲线图下, 右方与 左方 的面积和为 a ,则称 为标准正态分布概 率为 a 的双侧临界值。可查表。 m = 0 面积为a/2 /2 za z 面积为a/2 /2 za /2 za /2 za /2 za 八、单侧临界值 在标准正态曲线图下, 右方的面积为 a , 则称 为标准正态分布概率为 a 的单

14、侧临 界值。可查表。 m = 0 面积为a za z za za 例例2 假定假定y是一随机变数具有正态分布,平均数是一随机变数具有正态分布,平均数 =30,标准差,标准差 =5,试计算小于,试计算小于26,小于,小于40的概率,的概率, 介乎介乎26和和40区间的概率以及大于区间的概率以及大于40的概率。的概率。 ms 首先计算:首先计算:(26)(26) n p xf 先将先将x转换为转换为u值值 2630 0 8 5 x u. 九、计算 同理可得:同理可得: fn(40)=0.9773 所以:所以:p(26x40)=fn(40)fn(26)=0.97730.2119 = 0.7654 p

15、(x40)=1p(x40)=10.9773 =0.0227 查附表,当查附表,当u=0.8时,时,fn(26)=0.2119,说明这,说明这 一分布从一分布从到到26范围内的变量数占全部变量数的范围内的变量数占全部变量数的 21.19%,或者说,或者说,x26概率为概率为0.2119. 九、计算 例例3 在应用正态分布时,经常要讨论随机变数在应用正态分布时,经常要讨论随机变数x离离 其平均数的差数大于或小于若干个值的概率。例如计算其平均数的差数大于或小于若干个值的概率。例如计算 离均差绝对值等于小于和等于大于离均差绝对值等于小于和等于大于1 的概率为:的概率为:s ()0.841340.158

16、660.68268pxmsms 也可以简写为也可以简写为 ()0.6827p xms ()10.68270.3173p xms 九、计算 相应地,离均差绝对值等于小于相应地,离均差绝对值等于小于2 、等于大于、等于大于2 、等、等 于小于于小于3 和等于大于和等于大于3 的概率值为:的概率值为: ss ss (2 )(22 )( 22)0.9545p xpxpumsmsms (2 )10.95450.0455p xms (3 )(33 )( 33)0.9973p xpxpumsmsms (3 )10.99730.0027p xms 九、计算 例例4 计算正态分布曲线的中间概率为计算正态分布曲线

17、的中间概率为0.99时,其时,其y 或或u值应等于多少?值应等于多少? 因为正态分布是对称的,故在曲线左边从因为正态分布是对称的,故在曲线左边从到到 u的概率和在曲线右边从的概率和在曲线右边从u到到的概率都应等于的概率都应等于 1/2(10.99)=0.005。 查表,查表,u=2.58时,时, fn(x) =0.004940.005。 于是知,当于是知,当 2.58时,在其范围内包括时,在其范围内包括99% 的变量,仅有的变量,仅有1%变量在此范围之外。上述结果写作:变量在此范围之外。上述结果写作: xm 九、计算 同理可求得:同理可求得: (1.96 )(1.96)0.05p xp ums

18、 (1.96 )(1.96)0.95p xp ums (2.58 )(2.58)0.01p xp ums (2.58 )(2.58)0.99p xp ums 九、计算 同理,同理, 亦可写成:亦可写成:(1.96 )p xms (1.96 )(1.96 )(1.96 )p xp xp xmsmsms 以上以上 乃正态曲线下左边一尾乃正态曲线下左边一尾x从从 到到 上的面积和右边一尾上的面积和右边一尾y从从 到到上的面积之和,亦可写成:上的面积之和,亦可写成: (2.58 )p xms 1 2.58xms 2 2.58xms (2.58 )(2.58 )(2.58 )p xp xp xmsmsm

19、s 九、计算 section 3.4 sampling distributions 抽样分布 一、总体与样本 population and sample 总体总体:根据研究目的:根据研究目的 确定的确定的同质同质研究对象研究对象 的的全体全体(集合)。分(集合)。分 有限总体与无限总体有限总体与无限总体 样本样本:从总体中随机:从总体中随机 抽取的部分研究对象抽取的部分研究对象 二、总体容量与样本容量 population size and sample size 总体容量(总体容量(n):总体:总体 中所包含的个体数目。中所包含的个体数目。 根据根据n大小,总体分大小,总体分 有限总体有限总

20、体和和无限总体无限总体 样本样本(n):从总体中随:从总体中随 机抽取的部分研究对机抽取的部分研究对 象象 三、随机抽样 random sampling 为了保证样本的为了保证样本的可靠可靠 性性和和代表性代表性,需要采,需要采 用随机的方法抽取样用随机的方法抽取样 本(在总体中每个个本(在总体中每个个 体具有体具有相同的机会相同的机会被被 抽到)。抽到)。 四、参数与统计量 parameter and statistic 参数参数:总体总体的统计指标,的统计指标, 如总体均数、标准差,采如总体均数、标准差,采 用希腊字母分别记为用希腊字母分别记为、 。固定的常数固定的常数 样样本本 抽取部分

21、观察单位抽取部分观察单位 推断推断inference 统计量统计量:样本样本的统计指标,如样本均数、标准差,采用英的统计指标,如样本均数、标准差,采用英 文字母分别记为文字母分别记为 。 参数附近波动的随机变量参数附近波动的随机变量 。 x、s 五、总体均值、方差与标准差 总体均值 总体方差 总体标准差 六、样本均值、方差与标准差 总体均值 总体方差 总体标准差 七、样本的概率分布 统计量(为样本的函数),亦为随机变量,其 概率分布称为抽样分布(sampling distribution)。 一般统计量的抽样分布,则多根据重复抽样 (实验)结果来了解其概率分布。 的抽样分布 大数法则,中心极限

22、定理 x 八、大数法则 由具有有限(finite)平均数 m 的总体随机抽 样,随着样本容量的增加,样本平均数 越接近总体的均数 m 。 样本平均数的这种行为称为大数法则(law of large numbers)。 x 以 代表样本容量为 n 的资料平均数,逐 渐增加样本容量,将 n 及对应的 图示如 后。 n x n x 八、大数法则 number of observations, n 前 n个样本的均数 22 23 24 25 26 27 28 29 30 31 32 33 15 1050100500 1000500010000 八、大数法则 九、样本平均数的均数与标准差 令 为样本容量为 n 的一组srs的平均数, 其总体平均数为 m 与标准差为 s。则 的 分布平均数为 m 与标准差为 。 因为 的分布平均数也是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论