统计学必知知识点合集_第1页
统计学必知知识点合集_第2页
统计学必知知识点合集_第3页
统计学必知知识点合集_第4页
统计学必知知识点合集_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.统计学知识点集1 .实验与事件:对某事物或现象的观察或实验称为实验,结果称为事件。2 .基本事件(elementary event ) :如果一个事件不能分解为多个事件,则称为基本事件。 一次只能观察一个基本事件。3 .样本空间:一个实验中所有基本事件的整体称为样本空间。4 .古典概念性:如果某些随机实验的结果是有限的并且很可能出现每个结果,则发生事件a的概率是事件中包括的基本事件的数目m与样本空间中包括的基本事件的数目n的比率。5 .统计概况:在相同条件下随机测试n次,若某事件a出现m次(mn ),则m/n称为事件a发生的频率。 随着n增大,该频率以某常数p为中心上下变动,变动幅度逐渐变小,倾向于稳定,该频率的稳定值是事件的概率。6 .概率相加: (1)两个排他事件: P(A B)=P(A) P(B )任意两个随机事件: P(A B)=P(A) P(B)-P(AB )。7 .事件独立(independent ) :事件是否发生不影响另一事件发生的概率。 P(AB)=P(A)P(B )。 互斥(依赖)不独立,不独立,不互斥(依赖)。8 .全概率公式:根据某事件发生的各种原因的概率,计算该事件的概率。 计算公式如下:9 .贝叶斯公式:根据条件概率寻找事件发生的原因。 计算公式如下分母是全概率公式。 也称为逆概率式。 该公式是在观测到事件b已发生的条件下,搜索原因a已发生的Ai的概率。 P(Ai )称为先验概率,P(Ai |B )为后验概率。10. 0-1分布。 0-1分布也称为两点分布,即不是a的b。 有无概率均为0-1分布。 性别。11 .两种分布:在现实生活中,许多事件只是具有两个排他结果的离散变量。 男性和女性,某检查结果阴性阳性,这是两个分布。 的双曲馀弦值。 参数为n,p,记为XB(n,p )。 E(X)=np,D(X)=npq。 成功概率小,实验次数多时,二元分布接近泊松分布,此时=np。 即,P0.25,n20,np5。 两个定理大致遵循正态分布。 二元分布是0-1分布的n重实验,在含量为n的样品中,显示了有x个必要结果的概率。12 .两个分布的正态逼近:在此,a=,b=,q=1-p。13 .超几何分布。 也就是说,在二元分布中,是没有返回的情况。14 .泊松分布(poisson distribution ) :描述在指定时间范围内或在指定面积内发生事件的次数的分布。 某企业每月发生的事故次数,到达某服务柜台前需要服务的顾客人数,寿险公司每天收到的死亡声明数,某机器每月发生故障的次数等。 表达式为:E(X)=,D(X)=。 是指定时间间隔内事件的平均值。15 .期望:对应于每个可能值xi与概率pi之和是随机变量x的期望。16 .概率密度满足条件: (1)f(x)0; (2)。 连续型随机变量的概率密度是其分布函数的倒数。 的双曲馀弦值。 灬的双曲馀弦值。17 .正态分布:正态分布的概率密度为:xR。 记为X()。18 .正态分布图案的特征: (1)f(x)0,即整个概率密度曲线在x轴上的(2)f(x )关于x=对称,以x=取最大值,最大值由(3)曲线的陡峭度由决定,越大越平缓,越小越陡峭的(4)x成为无穷大,则曲线为19 .正态分布的例子:某地区同龄组儿童的发育特征,某公司的销售量,在同一条件下产品质量以平均质量为中心上下波动,特别差,特别好的是少数,多为中间状态,如人群中高人和低人较少,中高人较多。20 .在标准正态分布中,即,在正态分布中,=0,=1,即,x到n (0,1,1 )。 用表示分布的函数表示概率密度。 (-x)=1-(x )。21 .方差:对每个随机变量取值和期待值的方差平方的期待值。 随机变量的方差计算如下。22 .标准偏差:随机变量的方差的平方根用标准偏差表示。 标准偏差是与随机变量x相同的测量单位。23 .期望值、标准偏差、离散系数的使用:如果期望值相同,则比较标准偏差,如果期望值不同,则比较离散系数。24. 3基准:根据标准正态分布: xn (0,1,1 )时,P(|X|1)=2(1)-1=0.6826; p (|x |2 )=2(2)-1=0. 9545; p (|x |3 )=2(3)-1=0. 9973 .这表示x的取值大部分集中在-3,3 之间,超出该范围的不足0.3%。 将结论定义为一般正态,即x到n (,2222222222222222652 p (|x-|2)=0. 9545; p (|x-|3)=0. 9973。 x的值必须在(-3,3)内。25 .矩: (1)是样本的k阶矩,当k=1时,它反映了总的k阶矩的信息;也就是说,当k=2时,它反映了总的k阶中心矩的信息(4)为样本峰度,它反映了整体峰度的信息,峰度反映了密度函数曲线的最频近的峰度。26 .充分的统计量:统计量加工中一点信息也不丢失的统计量称为充分的统计量。27 .因子分解定理:一种充分的统计量判定方法。 当X=(X1,X2,Xn )是来自正态分布n (,2 )的样本时,2的足够的统计量或2的已知统计量足够。28 .精密采样分布与渐近分布:在总体x的分布类型是已知的情况下,可以对任意自然数n推导出统计量T=(X1,X2,Xn )的分布数学式,这是精密采样分布29 .卡方分布:如果随机变量X1,X2,Xn彼此独立,并且Xi符合正态分布n (0,1 ),则它们的平方和遵循自由度n的分布。 E()=n; D()=2n; 有附加性的自由度变得足够大时,分布的概率密度曲线变得对称,n变为无限时,极限分布变为正态分布。30. t分布:又称为学生氏分布。 如果将随机变量设为xn (0,1,1 )、Y(n )并且x和y独立,则其分布称为t分布,t(n )、n为自由度。 t分布的密度函数是偶函数。 n2时,E(t)=0; 当n3时,D(t)=n/(n-2 )。 t(n )的方差比n (0,1 )大一些。 自由度为1的分布称为柯西分布,随着n的增加,t分布的密度函数接近标准正态分布的密度函数。 在实际应用中,当n30时,t分布接近标准正态分布。 另一个t分布的采样分布称为遵循自由度为(n-1 )的t分布。31. F分布:如果随机变量y独立于z,并且y和z分别遵循自由度m和n的分布,则随机变量x如下: x遵循第一自由度为m、第二自由度为nf分布,记为XF(m,n ) . E(X)=n/(n-2 )、n2; D(X)=,n4。32. t分布与f分布之间的关系:当随机变量x遵循t(n )分布时,X2遵循F(1,n )的f分布。 这对回归系数的显着性检验是有用的。33 .的采样分布(sampling distribution ) :当整体分布为正态分布时,下一采样分布保持正态分布,此时e ()=d ()=2/n的情况。 这是随着n增大而减小,即,当使用采样平均值来估计总体平均值时,指示平均无偏差(无偏差),散布的程度也变得精确。34 .中心极限定理(central limit theorem ) :无论总体的分布如何,样本平均值的分布总是接近正态分布,即,n (,2/n ),只要总体的方差2是有限的且n30即可。35 .样本比例样本分布:如果样本大小为n,具有特征的个体数为x,则样本比例如下: 是整个比例,即p=X/n=。36 .两个样本平均值之差的分布:对于两个总体:灬2个样本时:灬的双曲馀弦值。37 .采样方差的分布: X1、X2、以及Xn为来自正态分布的采样,当总体分布为n (,2 )时,采样方差S2的分布如下:38 .两个样本的方差比分布: X1、X2、Xn为来自正态分布的样本,y1、y2、yn也为来自正态分布的样本,Xi和yi是独立的的双曲馀弦值。39 .参数估计器:利用样本统计来估计总体参数。40 .点估计量:具有样本统计量的值被直接用作整体参数的估计量。41 .区间估计:在基于焦点估计给出总体参数估计的区间范围内,该区间一般是从样本统计量的加减估计误差中获得的。42 .置信区间(confidence interval ) :在区间估计中,基于样本统计量的整体参数的估计区间称为置信区间。43 .可靠度(confidence level ) :如果重复多次构成可靠度区间的步骤,则在可靠度区间内包含整体参数的真实值的次数所占的比例为可靠度,也称为可靠度或可靠系数。 如果采样了100次,那么所发现的大约95个区间包含真值,95%的区间不可能进入该区间,这意味着统计量与概率问题无关。44 .无偏差:指估计量的采样分布期望等于所估计的总参数。 设整体参数为,估计量为,E()=时,称为的无偏差的估计量。45 .有效性:对于相同总参数的两个无偏差的估计,具有较小标准偏差的估计更加有效。46 .一致性(consistency ) :这意味着随着样本量增加,点估计量值将更接近于所估计的总参数,换句话说,给定大样本的估计量比给定小样本的估计量更接近总的参数。47 .样本量与置信水平、总体方差和估计误差之间的关系:样本量与置信水平成比例,并且如果其他条件不变,则置信水平越大,所需样本量越大的样本量与总体方差成比例48 .四舍五入定律:将采样量变为大整数,即将小数点以下的数值一律向上舍入为整数。49 .两种错误:一种是假设H0为真而拒绝,这种错误用表示,称为舍弃真的另一种是假设为假而接受的错误用表示,也称为存在假。50 .两种错误的控制原则:减少错误,错误的机会增大,错误的机会减少,错误的机会也增大。 规则之所以首先控制错误,是因为原来的假设是什么总是很明确的,而预备选择假设是什么总是很模糊。51. P值: p值是当假定本质为真时获得的样本观察结果或出现更极端结果的概率。 p的值越小,拒绝原来的假设的理由就越充分。 p值的优点是反映实际数据与原始假设之间存在不匹配的概率值。52 .双侧检查和单侧检查:双侧检查主要是检查90年婴儿体重与89年婴儿体重是否相等的另一项是单侧检查,关心的假设问题有方向性,如灯泡寿命、汽车行驶距离等,另一项则不良率、生产成本等数值越小越好。53 .统计量的选择:在一个整体参数的检查中,主要统计量为三个,z,t。 z和t用于平均和比例的检验,用于方差的检验。 统计量的选择顺序如下: (1)是否为大样本,如果整体为正态分布,则如果样本统计量也为正态分布的整体不表示正态分布,则样本统计量遵循正态分布时,如果z统计量(2)小,则观察, 当是已知的时,样本统计量遵循正态分布。然而,当z统计量(3)是未知的时,只能使用样本标准偏差。 t统计量的精度不超过z统计量是整体信息未知所需的代价。54 .总体比例检验公式。 p是采样比率,0是整体比率的假设值。55 .整体(population ) :包含所有研究的个体的集合,将构成整体的各要素称为个体。 总体范围难以确定时,可根据研究目的定义总体。56 .样本:样本是从整体提取的一部分要素的集合,构成样本的要素数称为样本量。57 .参数:参数是表示整体特征的综合数值测量。58 .统计量(statistic ) :统计量是描述样本特征的综合数值测量。 采样的目的是基于采样统计量来推定整体参数。 统计量不能包含未知的参数。59 .变量:是说明现象特征的概念,特征是从一次观察到下一次观察结果出现差异和变化。 变量分为分类变量、顺序变量、数值型变量,数值型变量分为离散型变量和连续型变量。60 .概率取样(probability sampling ),也被称为随机取样,其指是根据随机原则进行的取样,从而允许选择总体上的每个单元作为样本。 概率取样分为简单随机取样、分层取样、全群取样、系统取样、多阶段取样。61 .简单随机取样:从包含整体的n个单位的取样框中将随机抽出的一个n个单位作为取样,各单位的取样概率相等。62 .非概率采样:在提取样本时,基于对研究目标数据而非随机原则的要求,以某种方式从总体上提取一些单位来进行调查。 包括方便样本、判断样本、自主样本、雪人样本、配额样本。63 .采样误差:由于采样随机性,采样结果与总体真实值之间的误差。64 .频率(frequency ) :属于特定类别或组的数据的数目。 列出各个类别和其中落入的相应度数,以表形式表现,称为度数分布。65 .连接表(contingency t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论