数据分析与数据挖掘课件 【ch02】数据抽样与推断检验_第1页
数据分析与数据挖掘课件 【ch02】数据抽样与推断检验_第2页
数据分析与数据挖掘课件 【ch02】数据抽样与推断检验_第3页
数据分析与数据挖掘课件 【ch02】数据抽样与推断检验_第4页
数据分析与数据挖掘课件 【ch02】数据抽样与推断检验_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数据抽样与推断检验数据分析与数据挖掘01随机变量概率分布概率分布分布函数来自概率论的知识,是随机变量关于取值和概率关系的一种描述性函数。随机现象为实验中发生的不确定性现象,随机变量可用于表示其中的某些不确定性取值,进而描述随机现象中的不确定性。随机变量分为离散型随机变量和连续型随机变量。

连续型随机变量取值连续并且有无穷种状态,不能直接列出如表2.1所示的概率分布。只要保证分布函数满足:①取值从0或无限接近0开始,单调非减函数;②最大值可以取1或无限接近1。概率分布若连续型随机变量X的概率密度为式(2.10),则称X服从参数为μ、σ的正态分布(Normaldistribution),又称高斯分布(Gaussiandistribution),记作X~N(μ,o²),X也称正态变量。正态分布

令随机变量X表示实验结果,则其取值为1或0,令X取值为1的概率为P,即P(X=1)=P;X取值为0的概率是P(X=0)=1-P,该分布为二值分布,又称伯努利分布,记作X~Bem(P),有时也记作X~B(1,P),其均值E(X)=P,方差D(X)=P(1-P)。二项分布与泊松分布

20%30%40%50%

若随机变量X的概率分布列为式(2.23),则称X服从参数为P的几何分布,记作X~G(P)。

超几何分布(Hyper-geometricdistribution)是一项应用较多的分布。几何分布与超几何分布

02抽样统计分析大量性是指总体中的对象数量通常都比较大。同质性是指总体中的对象具有相同的属性,同一属性对于各个对象来说含义相同。变异性是指针对某一属性,各个对象所表现的具体取值可能会有所不同,如受到随机要素的影响。抽样的相关概念

系统抽样

系统抽样(Systematicsampling)又称等距抽样或机械抽样。方式一,随机起点抽样,方式二,循环等距抽样;其他方式还包括中点等距抽样、对称等距抽样法等。简单随机抽样

简单随机抽样(Simplerandomsampling)完全按随机原则抽取每个样本个案,总体中的每个个体都按照等概率被抽中。概率抽样的典型方法20%30%40%50%

分层抽样(Stratifiedsampling)也叫类型抽样法,是将总体划分为多个(或许多)互不相交的子集(称为层),再按规定的比例从不同层中随机抽取个案的方法。

整群抽样(Groupsampling)又称聚类抽样(Clustersampling),是将总体中各单位归并成若干个互不相交的集合,称为群,然后以群为抽样单位进行简单随机抽样来抽取样本的方式。几何分布与超几何分布

20%30%40%50%

任意抽样(Haphazardsampling)又称便利抽样,是指本着随意性原则去选择样本的抽样方法。

判断抽样(Judgementsampling)又称立意抽样,是指根据主观经验从总体样本中选择那些被判断为最能代表总体的一些个体作样本的抽样方法。

配额抽样(Quotasampling)也称定额抽样,是指将总体按一定标志分层(分类),确定各层(类)中的样本数额,在配额内任意抽选样本的抽样方式。非随机抽样的典型方法03基本抽样分布经验分布是统计样本频数计算相对频数,对从小到大排序的样本点计算出累积频率,从而得到经验分布。理论分布(Theoreticaldistribution)是那些直接按某种数学模型计算出的概率分布,典型的包括伯努利分布、二项分布、泊松分布、均匀分布、正态分布、指数分布等。抽样分布(Samplingdistribution)是各个样本统计量的概率分布。由于从总体上多次抽样所获得的各个样本值可能不同,因而基于相应样本所做的统计量可能不同。经验分布、理论分布与抽样分布

设X,X₂,…,X,…,X,为n(n≥1)个相互独立的随机变量,X₁~N(0,1),令,则随机变量Y服从自由度为n的x²分布,记为Y~x²(n)。三大抽样分布t分布(t-distribution)也是一种常用的抽样分布。设随机变量X和Y相互独立,且X~N(0,1),Y~x²(n),则称式(2.37)表示的随机变量T服从自由度为n的t分布,即T~t(n)。满足t分布的随机变量称作t变量。三大抽样分布

F分布(F-distribution)是一种常用的抽样分布。设随机变量X和Y相互独立,且X~x²(m),Y~x²(n₂),则称随机变量式(2.39)表示的随机变量F服从第一自由度为n、第二自由度为n₂的F分布,即F~F(n,n₂)。满足F分布的随机变量称作F变量。三大抽样分布小概率事件概率的取值在[0,1]区间,既能用作事件发生的可能性度量,又能用作人们对事件发生的相信程度(置信度)度量。常用5%、10%、1%或0.1%作为小概率的标准。其中5%最常用。小概率阈值(如5%)可作为判别事件是否显著(Significance)发生的分界线,称该阈值为显著性水平(Significancelevel)。04常用的抽样分布与区间估计常用的统计量抽样分布

常用的统计量抽样分布

由2.1.3节的二项分布和大数定律中的渐进原理可知,当n较大时,样本比例r的抽样分布逼近正态分布。当nr≥5且n(1-r)≥5时视为样本量足够,此时可按正态分布近似,由式(2.20)可得式(2.49)。r的抽样均值为E(r)=R。常用的统计量抽样分布

对未知参数0,如果两个统计量Q=G(x,x₂,·…,x,),B=O₂(x₁,x₂,…,x,),对给定的a(0<α<1)有式(2.52),则称(G,B)为0的置信区间(Confidenceinterval),1-a为置信度(Confidencelevel,又称置信水平),α为显著性水平(Significancelevel),日为置信下限,为置信上限。置信区间与区间估计05常用的参数检验假设检验一般过程假设检验(Hypothesistest)是指事先对总体的某些未知参数或分布形式做出某种假设,然后利用样本进行验证,判断假设的真假。假设检验的基本思想是“大概率接受,小概率拒绝”。有两组相反的假设,原假设又叫零假设(Nullhypothesis),是待检验的一个假设,记为Ho;与Ho相反的另一个假设叫备选假设,记为H。先假定Ho正确,在此假设上,构造一个概率不超过a(0<α<1)的小概率事件。依据2.4.1节中介绍的抽样分布,可得到常用的几个参数检验,如表2.3所示。常用的参数检验统计量06常用的单样本非参数检验

x²检验(Pearson'schi-squaredtest,卡方检验)属于单样本非参数检验。总体的卡方检验主要用于离散属性数据的拟合优度检验,即根据样本数据的实际频数来推断总体分布与期望分布(或某一特定理论分布)是否有显著性差异。卡方检验二项分布检验(Binomialtest)就是根据收集到的样本数据,推断总体分布是否服从某个指定的二项分布。二项分布检验又称比例检验(Ratiotest)已在2.1.3节中阐述,其原假设Ho:样本来自的总体分布形态和期望的二项分布之间没有显著性差异。二项分布检验

固定参数的超几何分布检验固定参数的超几何分布检验(Parameterfixedhyper-geometricdistributiontest)是在超几何参数已知(超几何分布已知)的情况下,针对频数统计量进行的检验。它是超几何分布检验(Hyper-geometricdistributiontest)中的一种,属于参数检验。单样本的随机性检验(Randomnesstest)又称游程检验(Runtest)或连贯检验,是对某个变量判别是否存在随机性。两分总体是指总体中的对象只有两种类别,可用1和0做标记。游程检验在单样本K-S检验中,K-S统计量量化样本的经验分布函数与参考分布的累积分布函数之间的距离;在两独立样本K-S检验中,量化两个样本的经验分布函数之间的距离。原假设:样本取自参考分布(单样本K-S检验)或样本取自相同分布(两独立样本K-S检验)。单样本K-S检验K-S检验是一种常用的非参数方法之一。在检验分布正态性的特殊情况下,还可对样本进行标准化处理,并与标准正态分布进行比较。在两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论