版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《统计学基本概念与方法》孙平东北大学数学系plsun@第1页2.参数预计1.预备知识3.假设检验4.方差分析5.回归分析第2页统计学(Statistics)是一门搜集与分析数据,而且依据数据进行推断艺术与科学。
————《大英百科全书》(数理)统计学中数据都是随机数据。统计学任务就是在随机性中去寻找规律。统计学理论主要包含三个部分:1.数据搜集,2.数据分析,3.由数据做出决议。第3页(一).统计学基本概念统计学中把所研究对象全体称为总体,总体中每一个元素称为一个个体。总体与个体都用数量指标来表示1.总体与个体(population)即使面临是一个定性实际问题,也必须把相关资料定量化。一.预备知识第4页但同时在直观上又认为、或者希望做到:抽取出每个个体(样本)都充分蕴涵总体信息。从总体中取出一个个体,称为从总体中得到一个样本。2.样本(sample)统计学目标就是从样本去得出总体信息。因为各种原因与实际条件限制,不可能得到一个总体中全部个体数据。即样本总是总体一小部分。第5页被研究对象全体含有代表性部分个体总体样本……..第6页独立同分布样本称为简单随机样本。总体被认为是一个服从某种概率分布F
随机变量。样本是和总体随机变量有相同分布F
随机变量,样本个数称为样本容量,n。总体分布F能够是未知,非参数统计学总体分布F类型已知,不过含有一些未知参数。参数预计第7页(二).数理统计学主要内容1.抽样理论:介绍怎样搜集数据。主要抽样方法,样本容量确实定,抽样误差,敏感问题等2.参数预计:怎样依据数据得到总体参数信息。点预计、区间预计,Bayes预计等3.假设检验:怎样对关于总体一些假设做出决议。正态总体参数检验,分布拟合检验,秩检验,列联表,统计决议等理论第8页4.方差分析与回归分析:变量之间效应关系。方差分析—分类变量与数值变量效应关系回归分析—研究数值变量之间效应关系5.多元分析:研究若干个变量之间关系聚类分析、判别分析、主成份分析、因子分析、经典相关分析等等第9页例1.1希望了解某所高校学生月消费情况。处理方法:从这所大学里随机地调查有代表性一些学生,依据搜集到数据去得出这所大学学生每个月支出费用相关信息。1.怎样得到样本?不一样家庭背景学生百分比应该各占多少?样本容量应该取多少才适当?被调查者拒绝调查怎么办?抽样调查第10页2.怎样确定总体分布?这里总体是这所大学学生月支出费用,我们不妨认为学生月支出费用是一个服从正态分布随机变量。依据经验或者是所讨论问题实际背景,总体分布类型普通能够事先确定下来。(不一样学校对应这两个参数也就不相同)即,总体随机变量X~N(
,
2),而这个学校对应两个参数
与
2是未知。第11页Remark当不知道或者难以确定总体分布类型时,在统计学中经常采取下面两种方法来近似得到总体分布相关信息。(1).直方图方法只适用连续总体,得到是总体密度函数近似。把搜集到n
个数据x1,x2,…,xn
从小到大排列:x(1)≤
x(2)
≤
…≤
x(n);其次取区间(a,b),包含全部数据a
<
x(1),x(n)<
b;第12页把(a,b)等分成若干小区间,计算每个小区间中包含数据频率。x(1)
x(n)依据这些频率做出对应小区间上矩形,则当n
充分大时,这些小区间上矩形面积快要似于总体概率密度函数下曲边梯形面积。第13页(2).经验分布函数方法结构一个分布函数,得到是总体分布函数F(x)近似。
Fn(x)=0,x
≤
x(1)
—,x(k)<
x
≤
x(k+1)1,x
>
x(n)这个函数实际上是观察值x1,…,xn中小于x
频率,即
Fn(x)={x1,…,xn中小于x
个数}/n
k
n第14页Oxy○○x(1)x(2)x(3)1/n2/n能够证实,经验分布函数Fn(x)将依概率、甚至是几乎处处收敛到F(x)。…第15页3.怎样从样本得出总体信息?样本是一组与总体独立、同分布随机变量,我们得到数据是样本观察值,而不是样本。调查一个学生得到了一个数据,相当于对总体分布做了一次随机试验而观察到了这个随机变量详细取值。一共有n个数据,相当于对总体分布做了n次独立重复试验,而得到了这个总体随机变量在这些试验中详细取值。第16页利用样本观察值去预计出总体未知参数直观上能够利用调查到n个学生月支出
x1
,x2
,…,xn
算术平均:去预计这所学校学生平均月支出费用
。它合理性在哪?还有没有其它方法?这些不一样方法各有什么样优缺点?数理统计学最主要内容之一参数预计第17页事先提出一个假设,利用样本观察值去检验这个假设是否能够被接收假设检验假定学校要制订相关一些政策,如奖学金、贷款、勤工俭学等;或者后勤服务、商业经营价格等等。共同关心一些问题,比如说:
>
0?这里
0是一个已知常数。数理统计学最主要内容之一第18页应该怎样去做这个检验?一个想法是:既然已经经过参数预计得到了这个学校学生月平均支出(即总体参数
)预计值,自然就能够用它代替假设里
去做检验:
当预计值比
0大就接收这个假设,不然就拒绝不过这么风险很大:样本总是随机得到,所以预计值与真实值之间不可防止地存在着随机误差。传统方法是:给出一个区域(拒绝域),假如预计值落在这个区域内,就拒绝原来假设,不然就接收。第19页除了对总体参数检验外,还有一些主要假设检验问题,比如:关于总体分布检验检验得到样本数据是不是来自于某个事先给出总体独立性检验检验一些分类变量之间是否是独立,比如:抽烟与肺癌,睡觉打鼾与心脏病…分布拟合检验第20页关于数据差异检验主要希望了解两组或多组数据间差异终究是来自于随机性,还是总体间确实存在差异?比如:小儿麻痹症、SARS疫苗研制,越战期间美国征兵计划,…以及我们在科学研究、工程实践、社会调查等等得到数据第21页讨论数值变量之间效应关系问题比如说,想了解儿子身高与父亲身高之间关系。在每个被调查家庭中同时取得这两个变量观察值,分析它们是否有某种(函数)关系,…一元线性回归多元线性回归比如,钢去碳量与不一样矿石、融化时间、炼钢炉体积等等是否相关?关系怎样?…数理统计学主要应用之一回归与相关分析第22页讨论分类变量与数值变量之间关系比如说产品质量与不一样操作人员之间关系。是否一些人生产出产品质量偏高?假如偏高,这种差异是否是纯属偶然原因,…单原因方差分析数理统计学主要应用之一方差分析双原因方差分析希望了解操作人员和设备这两个原因联合对质量关系。各自单独是否有影响?交互效应怎样?…第23页简单说,从概率论角度出发,能够把上述数理统计学过程了解成:有一个含有未知信息概率分布F针对F做了n次独立重复试验与观察,得到n个独立同分布于F随机变量取值依据样本详细观察值,去推断出总体F所包含未知信息,或作出深入决议等第24页例1.2.怎样分析与处理变量关系?分类变量:如性别、信仰、职业等等,次序变量:如名次(第一、第二,…),数值变量:如收入、百分比、产量等等简单复杂Remark
能够把复杂变量简化为简单变量,反之不行数值变量次序变量分类变量第25页变量组合与对应统计分析方法因变量y自变量x分类变量次序变量数值变量分类变量卡方分析
回归与相关次序变量
秩方法
数值变量方差分析
回归与相关第26页把两个变量分别作为横轴和纵轴描出散点散点图(Scatterplot)散点图在简化数据同时,能够保留原始数据信息。(三).变量统计图表示第27页例1.3.下面是24对夫妻数据,有两个变量:结婚时间和一年内吵架次数。结婚年数524136583739争吵次数10201615968510786
结婚年数101513201625221415191720争吵次数534241334332第28页结婚时间与吵架次数散点图第29页(2).时间序列图特殊散点图,以时间作为横轴变量时间序列图能够反应出一个变量伴随时间而改变趋势。第30页苏格兰羊第31页总体X分布函数F含有未知参数
,
全部可能取值范围称为“参数空间”,记为
。从这个总体中抽取了一组样本X1,…,Xn,对应样本观察值是
x1,…,xn。应该怎样预计出
详细数值?点预计就是利用样本结构一个合理统计量:
g(X1,…,Xn);用它观察值g(x1,…,xn)
去作为作为
预计值。
二.参数预计第32页你能够用这组数据中任何一个,或者样本均值,或者是样本中位数等,作为
预计值。例2.1甲同学在一个体重仪上称她体重,假定这个体重仪没有系统误差,每次称量结果是真实重量
加上一个随机误差
k。普通认为
k~N(0,
2),所以n
次称量结果
Xk
=
+
k~N(
,
2)第33页矩预计:用样本相关矩去作为总体相关矩预计。即样本均值作为总体期望预计;样本方差作为总体方差预计;样本中位数
(或众数)作为总体中位数(或众数)预计等。极大似然预计:全部情况中“看起来最象”那个预计惯用点预计方法第34页例2.2.假定盒子里黑、白球共5个,不过不知道黑球详细数目。现在随机有放回抽取
3个小球,发觉是两个黑球和一个白球。问盒子里最可能有几个黑球?解:盒子里黑白球全部可能有六种:
5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑以p记盒子里黑球所占百分比,则p全部可能值是:
{0,—,—,—,—,1}
1234
5
555第35页定义三个统计量X1,X2,X3表示抽样结果:取到黑球记为1,不然记为0。所以X1,X2,X3独立同分布于参数p
两点分布。例题中三个样本观察值x1,x2,x3有两个取值是1,一个取值为0。而样本联合分布律显然是L(x,
p)=px1+x2+x3(1-p)3-x1-x2-x3=p2(1-p)第36页它含义是:当盒中黑球百分比为p
时,随机事件“有放回取出三个小球中有两个黑球、一个白球”概率。对应于参数空间中不一样p
,样本分布L(x,
p)=p2(1-p)所对应这些概率是:第37页□
p
0,—,—,—,—,1L(x,p)0,—,—,—,—,0
1234
5
555
4121816
125
125125125既然“三个小球中包含两个黑球”是已经发生了随机事件,所以使得这个事件发生概率取最大那个值就是未知参数p
最有可能取值。即p
极大似然预计就是3/5。第38页三.假设检验(一).假设检验思想它是以下一个统计推断:对于一个统计模型,我们提出一个假设,依据抽取到样本,来作出是接收还是拒绝这个假设。小概率事件在一次试验中不应该发生。第39页有一个饮料由Tea和Milk混合而成,按照次序不一样,分为TM、MT两种,有位女士声称她有能力品尝出是TM还是MT。为了检验她说法是否可信,准备8杯饮料,TM和MT各二分之一,而且把这一点告诉她。现在随机让这位女士品尝,指出哪些是TM,最终结果是她全部说对了。女士品茶第40页R.A.Fisher推理过程以下:引进一个假设,
H0:这位女士没有判别能力假如H0
是正确,她只能随机从8杯饮料中猜测4杯说是TM。全部猜正确概率为:
—=—≈0.014现在她正确说出了全部TM,要解释这种现象,只能有下面两种可能:
11
C8470第41页H0
不成立,即:她确实有判别能力;(2)H0
成立,意味着一件概率为0.014随机事件在一次试验中发生了。
Fisher认为,随机试验结果(或样本)组成不利于假设H0
显著性证据,所以应该否定H0。这种推理过程就称为:显著性检验显著性是统计意义上显著,意思是一个小概率事件是否发生。一个概率不到2%随机事件在一次试验中发生了,这是比较稀奇或者说不太可能。第42页思索假如这位女士只说对了3杯?一个人纯粹靠随机猜测,能够说对最少3杯概率(即H0
成立情况下,出现这种试验结果可能性):
————=—≈0.243显然我们不会对一个概率靠近25%随机事件在一次试验中发生而感到诧异。试验结果并没有提供不利于H0
显著性证据,所以不能否定零假设,而应该接收H0
,即应该认为这位女士没有判别能力。
1+C43C4117
C8470第43页(二).假设检验基本过程例3.2.当包装机器正常工作时,每袋葡萄糖重量应该是一个服从均值0.5kg,标准差0.015kg随机变量。有一天随机地抽取了9袋包装好产品,测量出它们平均重量是0.511kg,问这台包装机器是否正常工作?(假定即使工作异常标准差也不会改变)第44页1.提出一个统计假设依据题意每袋产品重量X~N(
,0.0152),假如机器正常工作,应该是
=0.5,反之应该是
≠0.5。所以首先提出统计假设:假设检验任务就是要依据抽取出样本,来决定是接收零假设,还是拒绝零假设(接收对立假设)。
H0:
=
0
(=0.5
)
H1:
≠
0
(≠
0.5
)第45页2.选取一个适当检验统计量它分布当零假设成立时应该是已知,而且普通是从待检验总体参数良好点预计中去寻找。在例题中需要检验是总体期望
,所以考虑样本均值,零假设成立时(
=
0.5
)则有:第46页3.利用零假设成立时检验统计量分布结构出一个小概率事件这个小概率就是给定显著性水平(也称检验水平),而这个小概率事件就是零假设拒绝域,而且拒绝域必须和对立假设相关:零假设拒绝域相当于对立假设接收域。在例题中因为样本均值是总体期望
一个良好点预计,所以零假设成立(
=0.5)时,偏差应该比较小,不能够太大。第47页而假如比较大时,自然我们会认为零假设不成立,所以应该接收对立假设。所以零假设(
=0.5)拒绝域形式就是:依据检验统计量分布,有:这个常数z0
就能够取为u
/2
统计量|
z|=>
某个常数z0第48页4.代入样本观察值,假如使得这个小概率事件发生,就否定零假设而去接收对立假设。不然说明样本没有提供否定零假设显著性证据,所以应该接收零假设。在这个例题里,检验统计量|z|=————=2.2,H0:
=
0
(=0.5
)
H1:
≠
0
(≠
0.5
)显著水平
拒绝域就是{2.2>u
/2}。
3×0.0110.015假设检验默认显著水平是
=0.05第49页(1)假如取
=0.05,则2.2>常数z0=1.96,说明一个概率为0.05随机事件发生了,样本提供了机器异常显著证据,应该否定零假设;(2)假如取
=0.01,则2.2<常数z0=2.575,说明一个概率0.01随机事件没有发生,样本没有提供机器异常显著证据,应该接收零假设。在不一样显著水平下,能够造成最终得出检验结论完全不一样。这个现象说明了显著水平
对于H0保护:
越小越不轻易否定零假设。□第50页(三).卡方
检验假如一组样本X1,…,Xn
来自分布F,需要检验是以下问题:
H0:F=F0
H1:F≠F0从理论上来说不论F
是离散还是连续分布,卡方检验都能够处理;不过它更适合用于离散总体,对于连续总体F,采取Kolmogrov检验更加好。第51页K.Pearson拟合优度检验思想在实数轴上取m
个点把R1
分成m+1个部分,以vi
表示落在第i个区间里样本个数,pi是总体随机变量X
在这个区间中概率:
x
t1
t2
t3…tm
x(1)……x(n)
第52页当零假设H0:F=F0成立时pi
能够计算出:
pi=F0(ti
)-F0(ti-1
),1≤
i
≤
m+1;
这里F0(t0
)=0,F0(tm+1
)=1
n
充分大时,频率vi/n
与概率pi
应该相当靠近,所以假如零假设成立则统计量:应该偏小,反之则能够否定零假设H0:F=F0。19K.Pearson证实了极限分布
K2
2(m),
所以H0
一个水平
拒绝域近似为K2
>
2(m)。第53页总体X
只可能取有限个值ai,1≤
i
≤
k。对应地,样本X1,…,Xn中取值为ai个数为vi
,1≤
i
≤
k。需要检验:
H0:P{X=ai}=pi,1≤
i
≤
k
取检验统计量:则H0
一个水平
检验拒绝域为K2
>
2(k-
1)第54页例3.3.Mendel遗传学例子
Mendel研究豌豆时发觉豌豆有两种特征:圆与皱、黄与绿,他观察了556颗豌豆:圆黄皱黄圆绿皱绿(总数)31510110832(556)而依据他遗传学理论,Mendel认为这些组合关系应该有理论上概率:圆黄皱黄圆绿皱绿(概率)9/163/163/161/16(1)第55页解.总体分布k=4,对应K2
统计量为:□
0.052(3)=7.815,
0.902(3)=0.584,
0.952(3)=0.352甚至在水平0.90下都能够接收零假设,即认为Mendel遗传学理论是正确。从p-值角度拟合优度p=P{
2(3)
>0.47}这个值是0.9254,理论分布与实际数据相当吻合。第56页四.方差分析方差分析针对方差相同多个正态总体,检验它们均值是否相同。即,
同时判断多组数据均值之间差异是否显著方差分析(AnalysisofVariance,ANOVA):研究一个(或多个)分类自变量怎样影响一个数值因变量统计分析方法。第57页方差分析特点①方差分析与普通假设检验不一样要比较均值是否相同,能够使用第三章假设检验方法,不过只能处理两个均值。方差分析处理是多个均值情况。方差分析目标①.判断一些原因对于我们感兴趣因变量是否含有“显著”影响,②.假如原因间有交互效应,寻找最正确搭配方案。第58页常见方差分析主要有:单原因方差分析,双原因方差分析,多原因方差分析。②方差分析与回归、相关分析不一样回归与相关处理是两个数值变量问题,对应散点在x
轴上含有次序(从小到大),而方差分析数据在x
轴上能够任意交换位置。第59页考查小麦产量(y)对于品种和施肥量关系。Fisher农业试验选择了:两个不一样小麦品种,三个不一样施肥等级;一共2×3=6种搭配做试验,建立模型。第60页
y11=
0+
1+
1+
11
y12=
0+
1+
2+
12y13=
0+
1+
3+
13
y21=
0+
2+
1+
21
y22=
0+
2+
2+
22
y23=
0+
2+
3+
23
yij
是小麦产量,
1、
2
是品种效应,
1、
2、
3
是施肥等级效应,
0
是其它原因平均效应。
ij
是随机误差,i.i.d~N(0,
2)品种是否对产量有影响
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿大班班级学期工作计划三篇资料
- 2024年中秋节广播稿7篇-1
- 特殊药品使用注意事项课件
- 有关教师爱岗敬业演讲稿集锦10篇
- 市场需求调查报告
- 《三字经》读后感600字作文10篇
- 节约粮食号召倡议书范文7篇
- 外研版英语九年级上册 Module 6 Problems Unit 1同步默写练习(无答案)
- 描写形形色色的人作文600字10篇
- 红与黑读书心得五篇范文
- 2024-2030中国履带运输车市场现状研究分析与发展前景预测报告
- 长荣海运集团发展综合物流的策略研究的开题报告
- 物联网技术在智能医疗系统中的应用研究
- MOOC 地下铁道-中南大学 中国大学慕课答案
- MOOC 大学生小微企业创成实务-江苏电子信息职业学院 中国大学慕课答案
- 少年的你如此美丽小说分享
- 2024保密知识培训课件
- 八年级英语下学期期中考试(深圳专用)-2023-2024学年八年级英语下学期期中复习查缺补漏冲刺满分(牛津深圳版)
- 神经源膀胱护理
- 浅述火力发电厂火灾扑救
- 物资装卸搬运合同
评论
0/150
提交评论