




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、概率分布和参数估计概率分布和参数估计 连续性变量的概率分布连续性变量的概率分布根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断(Statistical Inference),它可以被分为参数估计和假设检验两大类。正态分布正态分布一、正态分布的定义若连续性随机变量X的概率分布密度函数为则称随机变量X服从正态分布(Normal Distribution) 22221Xexf二、正态分布的特征(1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。(2)曲线是单峰,在均值出达到最高点。(3)正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。(
2、4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。(5)约68%的个体的取值与平均数在距离一个标准差之内。(6)约95%的个体取值与平均数的距离在1.96个标准差之内。(7)99%个体的取值与平均数的距离在2.58个标准差。三、标准正态分布(Standard Normal Distribution)将原来的正态分布转换为标准正态分布。X在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分,只需要选中主对话框左下角的Save standardized values as variables 复选框即可。四、偏度和峰度(1)偏度(Skewnes
3、s):偏度是用来描述变量取值分布形态的统计量,指分布不对称的方向和程度。样本偏度系数:331/1sxxnnii分布为对称分布。偏右;即长尾巴在左边,峰尖分布,为负偏或左偏,偏左;即长尾巴在右边,峰尖分布,为正偏或右偏,000偏态的方向指的应当是长尾的方向,而不是高峰的位置。(2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰度系数:3/1441SXXnnii分布为正态峰。峰平坦。即形状要比正态分布的分布为低峰度的,峰的形状也比较尖。即比正态分布峰要陡峭分布为高峰度的,000 参数的点估计参数的点估计就是选定一个适当的样本统计量作
4、为参数的估计量,并计算出估计值。对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。一致性是指样本容量越大,估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值。在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计,此时就可以直接取相应的样本统计量作为总体参数的点估计。一、矩法一、矩法二、极大似然估计法该方法的原理是在已知总体的分布,但未知其参数值时,在待估参数的可能取值范围内进行搜索,使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计
5、值的是该统计量具有稳健性,当数据存在异常值时受影响较小,而且对大部分的分布而言都很好。M-EstimatorsM-Estimators174.66174.74174.70174.75162.80162.81162.82162.81性别男女身高HubersM-EstimatoraTukeysBiweightbHampelsM-EstimatorcAndrewsWavedThe weighting constant is 1.339.a. The weighting constant is 4.685.b. The weighting constants are 1.700, 3.400, and
6、 8.500c. The weighting constant is 1.340*pi.d. 稳健估计有M估计、R估计等不同方法。SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远,则数据中可能存在异常值。此时,应该用M估计量替代平均数以反映集中趋势。 参数的区间估计一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大
7、的可信度包含总体参数的区间,该区间称为总体参数的1-a可信区间或置信区间(Confidence Interval)。对于任意可信度的区间情况,总体均值在100(1-a)%可信区间为:nSuXnSuX2/2/ 分类变量的概率分布分类变量的概率分布二项分布的参数估计一、二项分布二项分布又称为贝努里(Bernoulli)分布,是一种具有广泛应用的离散型随机变量的概率分布。二项分布研究的是试验仅有两种结果的分布(这种试验称为贝努里试验),如某产品质量合格与不合格等。其定义为:设有n 次试验,各次试验是相互独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是1-p,记为q,则对于某事件出现k(
8、k=0,1,2, ,n)次的概率分布为: 二、二项分布检验(Binomial Test)当研究对象属于二项总体时,可以用二项分布来检验假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下: 1、提出假设2、计算统计量值和p 值3、根据p 值作出统计判断。例掷一枚球类比赛用的挑边器40 次,出现A 面和B 面在上的次数。如表所示,试问这枚挑边器是否均匀?解:(1)在SPSS 中输入表中的数据(变量名为Y)。选择主菜单的Analyze= Nonparametric Tests= Binomial Test。(2)显示如图所示的Binomial Test(二项检验)主对话框,把Y选入Tes
9、t Variable,其它选项采用默认值。(3)单击主对话框中的OK按钮,输出结果如下:Binomial TestBinomial Test1.0028.70.50.017a.0012.30401.00Group 1Group 2TotalYCategoryNObservedProp.Test Prop.Asymp. Sig.(2-tailed)Based on Z Approximation.a. 从结果可以看出,p=0.017=0.05,认为该挑边器不是均匀的。二、总体比例的区间估计二、总体比例的区间估计 准正态分布,即后的随机变量服从标。而样本比例经标准化的方差为;,即比例的数学期望等于总体的分布可用正态分布近似的抽样,样本比例和一般要求当样本容量很大时nPPEPPpnnpP1.5)1 (5,2101,NnPZ5)1 (5pnnpnPPP,p1N101,NnpZ2pz2pz22nPPp1PnppZpnppZp1,122
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年变电站保护测控装置项目发展计划
- 紫菜制饼机企业县域市场拓展与下沉战略研究报告
- 2025年数控超精密磨床合作协议书
- 拉挤树脂产业分析报告
- 2024年梓潼县招聘教师考试真题
- 浙江建德富春江国家森林公园旅游有限公司招聘笔试真题2024
- 2024年山东烩道食品有限公司招聘考试真题
- 2024年黑水县招聘社区工作者考试真题
- 2025年新人教版八年级地理下册课外拓展计划
- 阿坝州若尔盖县人民医院专业技术人员招聘笔试真题2024
- 2024-2025学年八年级下学期道德与法治期中模拟试卷(一)(统编版含答案解析)
- GB/T 26354-2025旅游信息咨询服务
- SL631水利水电工程单元工程施工质量验收标准第1部分:土石方工程
- 2025年国家国防科技工业局军工项目审核中心招聘笔试参考题库附带答案详解
- 缓和医疗精品课件
- 2022国家自然科学基金委员会公开招聘应届毕业生9人模拟卷含答案
- 儿童功能性独立评定量表(WeeFIM)
- 工程(产品)交付后顾客满意度调查表
- 体育市场营销(第三版)整套课件完整版电子教案课件汇总(最新)
- 新形势下的处方审核工作-处方审核培训
- T∕CHAS 10-4-9-2019 中国医院质量安全管理 第4-9部分:医疗管理危急值管理
评论
0/150
提交评论