抽样估计基础-人大经济论坛_第1页
抽样估计基础-人大经济论坛_第2页
抽样估计基础-人大经济论坛_第3页
抽样估计基础-人大经济论坛_第4页
抽样估计基础-人大经济论坛_第5页
免费预览已结束,剩余56页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CDA数据分析师-数据分析理论基础抽样估计基础经济论oJoin

Learn抽样估计基础随机事件随机事件的规律性--概率随机事件的独立性随随量的数据特征量的概率分布特殊的概率分布--正态分布Join

Learn1.确定性现象在一定条件下必然发生的现象称为确定性现象.实例“不会从西边升起”“水从高处流向低处”自然界所观察到的现象有两种:随机现象条件完全决定结果特征

条件不能完全决定结概果率论就是研究随机现象规律性的一门数学学科.2.随机现象在一定条件下可能出现也可能不出现的现象称为随机现象.实例掷一枚均匀的硬币,结果有可能出现正面也可能出现抛掷一枚

,观察出现的点数.Join

Learn说明1.随机现象揭示了条件和结果之间的非确定性联系,其数量关系无法用函数加以描述.2.随机现象在一次观察中出现什么结果具有偶然性,但在大量试验或观察中,这种结果的出现具有一定的统计规律性,概率论就是研究随机现象这种本质规律的一门数学学科.如何来研究随机现象?随机现象是通过随机试验来研究的.问题

随机试验?Join

Learn定义在概率论中,把具有以下三个特征的试验称为随机试验.可以在相同的条件下重复地进行;每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;进行一次试验之前不能确定哪一个结果会出现.随机试验Join

Learn”说明随机试验简称为试验,是一个广泛的术语.它包括各种各样的科学实验,也包括对客观事物进行的

”、“观察”或

“测量”

等.随机试验通常用E

来表示.实例“抛掷一枚硬币,观察字面,花面出现的情况分析(1)试验可以在相同的条件下重复地进行;Join

Learn同理可知下列试验都为随机试验.抛掷一枚

,观察出现的点数.从一批产品中,依次任选三件,记录出现正品与次品的件数.(2)

试验的所有可能结果:字面、花面;(3)

进行一次试验之前不能确定哪一个结果会出现.故为随机试验.Join

Learn3.记录某公共汽车站某日上午某时刻的等车人数.4.

某地区12

月份的平均气温.5.从一批灯泡中任取一只,测试其.Join

LearnS1

{H

,T

}.问题

随机试验的结果?定义

随机试验

E

的所有可能结果组成的集合称为

E

的基本空间,

记为

S

.基本空间的元素,即试验E

的每一个结果,称为基本点.实例1

抛掷一枚硬币,观察字面,花面出现的情况.H

字面朝上基本空间

基本点T

花面朝上Join

Learn实例2

抛掷一枚,观察出现的点数.S2

{1,

2,

3,

4,

5,

6}.实例3

记录公共汽车站某日上午8点的等车人数S

3

{

0

,

1,

2,

}.Join

Learn实例4某地区12月份的平均气温.S4

{t

T1

t

T2}.其中t

为平均温度.实例5

从一批灯泡中任取一只,

测试其S5

{t t

0}.其中t

为灯泡的

..Join

Learn随机事件随机试验E的基本空间S的子集称为E

的随机事件,简称事件.实例

抛掷一枚

,

观察出现的点数.试验中,

“出现1点”,

“出现2点”,

,“出现6点”,“点数不大于4”,

“点数为偶数”

等都为随机事件.1.基本概念随机事件的概念Join

Learn2.几点说明例如

抛掷一枚

,

观察出现的点数.可设

A

=

“点数不大于4”,B

=“点数为奇数”等等.(1)随机事件可简称为事件,并以大写英文字母A,

B,

C,

来表示事件Join

Learn(2)随机试验、基本空间与随机事件的关系每一个随机试验相应地有一个基本空间,基本空间的子集就是随机事件.随机试验基本空间随机事件全部试验结果组成的集合全部或部分试验结果的子集相同的条件下重复进行结果不确定的试验Join

Learn1.定义在相同的条件下,进行了n

次试验,在这n次试验中,事件A

发生的次数nA

称为事件A

发n生的频数.比值

nA

称为事件

A

发生的频率,并记成fn

(A).频率的定义与性质Join

Learnf试验

n

5

n

50序号n

5002225251249212562524724251.40.60.21.00.20.40.8nH

f0.440.500.420.500.480.360.540.5020.4980.5120.4940.5020.5240.516实例

将一枚硬币抛掷5次、50

次、500

次,各做

7

遍,观察正面出现的次数及频率.随n的增大,频率f

呈现出稳定性1234567nH

f

nH2315124Join

Learn在历史上也有许多数学家做过硬币抛掷这个经典的试验,下面是他们的试验数据。试验者抛掷次数(n)“正面向上”次数(m)“正面向上”频率(m/n)棣莫弗204810610.518布丰404020480.50691000049790.49791200060190.501624000120120.5005随着抛掷次数的增加,“正面向上”的频率逐渐稳定在常数0.5。Join

Learn重要结论频率当n

较小时波动幅度比较大,当n

逐渐增大时,频率趋于稳定值,这个稳定值从本质上反映了事件在试验中出现可能性的大小.它就是事件的概率.Join

Learn随机事件A的概率一般地,在大量重复试验中,如果事件A发生的频率m/n会稳定在某个常数p附近,那么这个常数p

就叫做事件A的概率,记做P(A)=p.P(正面向上)=0.5Join

LearnP(必然事件)=1P(不可能事件)=0概率的性质事件A的概率是p

,p

的取值范围是:0≤P(A)≤1Join

Learn抽样估计基础随机事件随机事件的规律性--概率随机事件的独立性随随量的数据特征量的概率分布特殊的概率分布--正态分布Join

Learn随机事件的独立性--各种数据分析模型的基本假设Join

Learn实际应用在实际应用中,往往根据问题的实际意义去判断两事件是否独立。例如:甲、乙两人向同一目标射击,记A={甲命中},B={乙命中},A与B是否独立?由于“甲命中”并不影响“乙命中”的概率,故认为A、B独立。(即一事件发生与否并不影响另一事件发生的概率)Join

Learn又如一批灯泡产品共有n件,从中抽取2件,设Ai={第i件是合格品}i=1,2若抽取是有放回的,则A1与A2独立。因为第二次抽取的结果不受第一次抽取的影响。若抽取是无放回的,则A1与A2不独立。因为第二次抽取的结果受到第一次抽取的影响。Join

Learn抽样估计基础随机事件随机事件的规律性--概率随机事件的独立性随随量的数据特征量的概率分布特殊的概率分布--正态分布中心极限定理Join

Learn随

量表示一个随机试验的各种试验结果的变量其数值是由一次试验的结果所决定的,但在试验之前是不确定的一个随

量对应多个数值量随机投掷一枚硬币

,可能的结果有正面朝上

朝上两种若定义X为投掷一枚硬币时正面朝上的次数,则X为一随当正面朝上时,X取值1;当

朝上时,X取值0。掷一颗

所有可能结果是出现1点、2点、3点、4点、5点和6点若定义X为掷一颗

时出现的点数,则X为一随

量X分别取值1,2,3,4,5,6。Join

Learn引入随

量的目的引入随量的主要目的是,把随机试验的结果数量化,这样就可以利用数学工具来感的随机现象.通俗地说,随量就是用数来表示试验结果,即每一个试验结果都用一个数字表示.例如,在掷硬币的试验中,可以用“1”表示“正面向上”,“0”表示“向上”.从随量的定义来看,用什么数字来表示试验结果是随意的.也就是说完全可以用其他的数字分别表示,比如“1”和“-1”,“1”和“2”等.有很多情形,随机试验的结果本身就是用数量来刻画的,这时最自然的做法就是把刻画试验结果的数值直接定义成随机变量的取值.例如,灯泡的,小麦的产量等.Join

Learn数学定义从数学上讲,随量就是一个从试验结果的集合到实数集的.这个和函数概念相同之处在于值域是某一实数集,不同之处在于定义域不一定是实数集,而是试验结果.试验结果i试验结果2试验结果1随量的值xi随量的值x2随量的值x1Join

Learn随 量取值的平均水平---

数学期望一般地,如果随量ξ可以取x1

,x2

,,xn中的任意一个值,取这些值对应的概率分别为p1

,

p2

,,

pn,

那么随

量ξ的数学期望为记为E

ξ

,即En

kx

pk.k1数学期望是随 量取值的 平均数,用于度量随 量取值的平均水平,也叫做随

量的均值。Join

Learn一般地,如果随量ξ可以取x1

,x2

,,xn中的任意一个值,取这些值对应的概率分别为p1

,

p2

,,

pn那么,随 量的数学期望为nD

(x

E)2

p

(x

E)2

p

(x

E)2

p1

1

2

2

n叫做随 量的方差,记为Dξ

(或Vξ

)。方差的算术平方根叫做随 量ξ的标准差随 量取值的离散程度---

方差Join

Learn随量的数字特征nEX

x

pi

ii1i

E(

X

)]2

pinV

(

X

)

[xi1in当p

1

时,数学期望EX

x一般变量的特征平均值X方差

2随量的特征数学期望E(X)方差V(X)Join

Learn队员:例:以下是两名队员射击环数的概率分布律x

8

9

10辽宁队员:P(

x)

0.2

0.6

0.2x8910P(

x)0.40.20.4根据两名队员射击环数的分布律,确定谁参加下届奥运会?E

8

0.2

9

0.6

10

0.2

9E

8

0.4

9

0.2

10

0.4

9V

(8

9)2

0.2

(9

9)2

0.6

(10

9)2

0.2

0.4V

(8

9)20.4

(9

9)20.2

(10

9)20.4

0.8∴队员成绩比较稳定。,Join

Learn抽样估计基础随机事件随机事件的规律性--概率随机事件的独立性随随量的数据特征量的概率分布特殊的概率分布--正态分布Join

Learn概率分布--数据分析的依据要全面了解一个随

量(随机试验),不但要知道它取哪些值,而且要知道它取这些值的规律即要掌握它的概率分布。概率分布:描述随

量值xi及这些值对应概率P(X=xi)的表格、公式或图形。样本点i样本点2样本点1随量的值xi随量的值x2随量的值x1P(X=xi)P(X=x2)P(X=x1)Join

Learn(X)0(男)1(女)概率(P)0.5170.483X离散型随x1量概率分布的表格形式x2

xk„„p(X=xi

)p(x1)p(x2)„

„p(xk)„„婴儿的

情况表离散型随 量的概率分布离散型随

量分布的特点:(1) 0

p(xi

)

1(i

1,

2,...)(2)

所有xip(xi

)

1Join

Learn连续型随

量的概率分布变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连续型随

量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。Join

Learn组段划记频数(

f

)频率(P

)%(

1

)(

2

)(

3

)(

4

)2

.

7

~正-64.003

.

1

~正正T128.003

.

5

~正正正正正251

6

.

6

73

.

9

~正正正正正T281

8

.

6

74

.

3

~正正正正正正-312

0

.

6

74

.

7

~正正正止191

2

.

6

75

.

1

~正正正151

0

.

0

05

.

5

~正上85.335

.

9

~

6

.

3正-64.001

5

0

名成年男子胆固醇的频数与频率Join

Learn如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数(probability

density

function)概率密度函数Join

Learn分布函数分布函数F(x)=P(X<x)表示随

量X的值小于x的概率,给定一个x0,则有一个F(x0)和其对应。{X<x0

}即为随机事件X为随x0为随量量的值Join

Learn概率密度概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。它对应直方图中的密度尺度如果在某一x附近取非常小的一个邻域Δx,那么,随

量X落在(x,

x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx。换句话说,概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。Join

Learn分布函数与直方图连续性随 量的随机事件对应一个区间[a,b],只有区间才有意义,就如画直方图时,需要先分区一样。随机事件的概率,就是阴影部分的面积,在数学上为积分,对应直方图中的面积Join

Learn分布函数的作用若知道一个随量的分布函数,则它取任何值和它落入某个数值区间内的概率都可以求出。即任何一个(或多个)随机试验的结果的可能性都是确定的Join

Learn抽样估计基础随机事件随机事件的规律性--概率随机事件的独立性随随量的数据特征量的概率分布特殊的概率分布--正态分布Join

Learn统计学中最重要的分布—正态分布正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种 的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。很多统计方法均以此分布为基础,比如T检验、方差分析、回归分析等Join

Learn正态分布—数据分析时一般假设数据服从此分布X

~

N(,

2

)12(

x

)22e2f

(x)

,

(

0)为常数则称X服从参数为,

2正态分布,记为若连续型随量X的概率密度为Join

Learn正态分布的密度函数的性质与图形关于

x

=

对称(-

,)升,(,+

)降单调性对称性中间高两边低y-+12xμ,σ对密度曲Joi线n

Le的arn

影响相同,不同图形相似,位置平移

1

211221

0.752

1.25不同,相同

越小,图形越陡;

越大,图形越平缓Join

Learn标准正态分布x2e

2

dx12x(

x)

定义X

~

N(0,1)分布称为标准正态分布密度函数

x2212(x)

e分布函数

0

1y

(x)Join

Learn一般正态分布的标准化2如果

X

~

N

(,

),则F

(x)

~

N

(0,

1),x

定理一般正态分布的概率计算若

X

~

N(,

2

)P(a

X

b)

(b

)

(

a

)

查标准正态分布表Join

Learn3

3

0.99743准则X的取值几乎都落入以为中心,以3为半径的区间内。这是因为:X

~

N

(,

2)P

3

X

3

0.9974X

3F(x)是小概率事件Join

Learn来自正态总体的分布卡方分布t分布F分布Join

Learn

2

~

2

(n)记为卡方分布量定义:

设随服从正态分布N(0,1),则称随相互独立,都量:所服从的分布为度为

n的

分布.X1

,

X2

,,

Xn212n2

X

2

X2

X其中,n为样本个数Join

Learn度有两种解释统计推断上的

度是指当以样本的统计量来估计总体的参数时,

样本中独立或能变化的

的个数,称为该统计量的度。数据挖掘模型中的

度等于可

取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的

度为p-1。Join

Learn统计学上的

度包括两方面的内容:首先,在估计总体的平均数时,由于样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其度为n。在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论