版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五、六、七章:抽样推断
1.总体分布、样本分布、抽样分布
总体分布:总体中各个数据的分布
样本分布:样本中各个数据的分布
抽样分布:样本记录量的概率分布
总体的分布通过直方图观测,但一般不也许得到所有的数据,也就不能直接观测到总体分布。只要懂
得总体的分布类型和反应总体分布特性的参数就可以满足需要。
样本分布也称为经验分布,样本来源于总体,会包括总体的信息和特性,尤其当样本容量较大时,样
本的分布会很靠近总体分布,但样本是随机抽取的,一般与总体分布有一定差异。
抽样分布是阐明样本分布特性的记录量的分布,对它的理解是建立在反复抽样的基础上,样本是随机
抽取的,不一样的样本会有不一样的记录量值,一种总体可以有诸多种不一样的样本,这样一种记录量就
会有诸多不一样的取值,这些不一样值的分布就是抽样分布。由于在实践中对于同一总体我们不会反复抽
取诸多样本,因此,抽样分布一般不能直接观测到,仅是一种理论分布。
抽样分布揭示了样本记录量与总体参数的内在联络,为记录推断提供了理论基础。
2.总体单位与抽样单位、样本容量与样本也许数目
3.记录量、总体参数及记录量的原则化
记录量是样本数据的函数,在实际抽样之前,由于是样本随机的,记录量也是随机的,但在抽取样本
之后,样本已经确定,记录量也就是确定的,不包括任何未知变量。
总体参数是阐明记录总体的数据特性值,一般是确定但未知的,是待估计的。
记录量的原则化是记录推断的必要过程,是将详细的记录量转化为已知分布的记录量,转化后来就可
以确定一定区间的概率。
4.记录误差、抽样误差、抽样原则误差与抽样边际误差
记录误差是记录调查得到的值与客观实际值之间的差异。包括抽样误差和非抽样误差。
非抽样误差又称工作误差或调查误差,是指调查登记过程中由于登记、过录、计算等原因引起的误差。
在全面调查和非全面调查中均有也许存在。
抽样误差也称为随机误差,曷旨在坚持了随机抽样的状况下,由于样本的随机性导致样本记录量与总
体参数的差异。
样本是随机的,样本的记录量也是随机的,而总体参数是唯一的,因而抽样误差也是随机的。
在总体参数未知的状况下,一种详细样本的记录量与总体参数的实际抽样误差是不能直接观测到的,
但在平均意义上,抽样误差是可以计算求得并可以控制的。
抽样误差一般用抽样原则误差来表达。抽样原则误差是样本记录量的原则差,在抽样措施(反复或不
反复)抽样方式(抽样组织形式)和样本容量一定的条件下,对一种总体来讲,抽样原则误差是一定的,
不是随机变量。在现实生活中,一般仅取一种样本,不也许将所有也许样本都抽到,因此抽样原则误差仅
是一种理论上的误差,不也许直接观测到。影响原因有总体数据离散程度、样本容量大小、抽样组织形式、
抽样措施。
抽样边际误差是抽样推断中所容许的误差,又称抽样极限误差,是指在一次抽样估计中,配合一定置
信水平所确定的误差范围,一般由调查需求者——客户提出,即是人为规定的。最初规定期体现为有量纲
的绝对数,在记录推断中一般将其原则化,以抽样原则误差作为其计量单位,即以抽样极限误差对抽样平
均误差的倍数来表达。
抽样边际误差与抽样原则误差不存在确定的大小关系。抽样原则误差是客观的,抽样边际误差是人为
规定的,可以比抽样原则误差大,也可以比抽样原则误差小。
抽样极限误差不是最大也许误差,最大也许误差是指所有也许样本的记录量与总体参数的离差中的最
大值。
5.正态分布、原则正态分布、t分布
6.无偏性、有效性与一致性
7.点估计:直接以样本记录量的值作为参数的估计值,不能阐明估计的误差和可靠概率。
8.区间估计:以一种区间的形式阐明总体参数也许的范围。可以给出估计成果的误差大小和可靠概
率。
9.置信区间与置信水平、估计精确性与可靠性
置信区间是由样本记录量与抽样边际误差确定的一种随机区间,它的区间宽度是由抽样边际误差确定
的,详细位置是由样本记录量决定。区间的宽度表明估计误差的大小,阐明估计的精确性。
置信水平是一种概率值,是所有也许的随机置信区间中覆盖总体参数真值的比例。阐明估计成果的可
靠性。一般来讲置信水平是由记录需求者对记录工作提出的规定。
在其他条件如抽样措施、方式、样本容量等不变时,置信区间与置信水平是一对矛盾,即要提高精确
性(缩小置信区间),就得减少可靠性(置信水平减少),若要提高可靠性(加大置信水平),就得容忍较
大的误差。
要想同步提高精确性和可靠性,就得增长样本容量,或改善抽样方式、措施。
10.最小样本容量确实定
影响最小样本容量的原因有总体数据的差异程度(总体方差X置信水平、边际误差以及抽样方式和
措施。
总体差异程度越大、所规定的置信水平越高、边际误差越小,所需的样本容量就越多。
11.假设检查的基本思想
通过样本记录量与假设的总体参数匕徽来判断假设与否对的。两者一般不一致,产生差异的原因有:
1.条件差异;2.随机差异。不一样的差异原因产生的差异程度不一样,一般状况下,随机差异常常存在,
但差异程度不大,假如差异程度较大,阐明除随机差异外尚有其他条件差异。
假设检查的原理是小概率事件在一次试验中不应当发生,或者说发生的概率很小。在正常条件下,样
本记录量与总体参数之间的差异比较小,即该差异较小的概率较大,而该差异较大的概率很小,也就是说
在一次试验中,样本记录量与总体参数的差异假如较大,则阐明产生差异的原因不只是随机原因,应当尚
有其他原因。
12.假设检查根据的是小概率原理:反证法
若我们的假设是对的的,出现嫁样本这样的状况的概率是很小的,而这样小概率的事件在一次抽样或
试验中是不应当出现的,而现实却出现了,阐明我们的前提假设很也许是不成立的。
13.小概率原则即明显性水平在抽样前依需要确定;
多小的概率为小,即小概率"小〃的程度由我们事先规定,当样本这种状况出现的概率不不小于我们
想象的概率时就拒绝原假设。即"V。时,就可以拒绝原假设。
14.假设检查的成果的对的表述。
假设检查的成果只能是拒绝或不拒绝原假设,而不能证明原假设成立;
大概率事件不能证明原假设成立,由于出现这种状况的总体不是唯一的,但出现小概率事件在很大程
度上阐明原假设不成立。不能否认原假设时,只是目前的证据局限性以否认原假设,但不能说原假设就是
对的。
15.记录假设检查的成果不是绝对对的。
记录成果不能教条地理解,不是以绝对的把握否认什么或肯定什么,只是在概率的意义上成立。根据
样本的信息对有关总体的假设作出判断,无论是拒绝还是不拒绝,均有也许出错。
16.原假设与备择假设
原假设的建立
(1)将可以带来严重后果的错误置于原假设位置
(2)谨慎性原则:不能轻易地认为总体发生变化,坚持不变的原则
(3)但愿原则:将但愿获得强有力支持的命题放在备择假设位置
(4)根据对总体的理解状况确定
此外注意:
•等号总在原假设上;
•两类错误地位不对等,也就是原假设和备择假设地位不等。假设检查是在原假设成立的前提下定义
"小概率”的,不可以轻易否认原假设,拒绝原假设的也许性不大,除非有强有力的证据,也就是说原假
设和备择假设被拒绝的也许性不等。
原假设与备择假设:原假设与备择假设是互斥的,但体现形式不一定是对立的。
17.两类错误——弃真与取伪
假设检查的成果也许是错误的,有也许犯两类错误弃真和取伪
弃真:原假设为真而被拒绝,也称为第一类错误。犯这种错误的概率一般用"表达。”事先确定。
取伪:原假设为假而我们没有拒绝,也称为第二类错误。犯这种错误的概率一般用£表达,只有在懂
得总体真实分布时才能求得夕的值,但在假设检查中不懂得总体的真实分布,因此无法求得夕的详细值。
〃与力是一对矛盾,我们要减小犯第一类错误的概率。,就得容忍较大的犯第二类错误的概率,,在其
他条件不变时,无法同步减小〃与夕。要同步减小。与夕,就得增长样本容量〃或变化抽样方式、措施。
18.双侧检查与单侧检查
当我们只关怀差异大小,而不关怀差异的方向时,应进行双侧检食;当我们只关怀杲一方向的差异大
小时,应进行单侧检查。
19.检查记录量
总体均值检查:
总体服从正态分布,总体方差已知或大样本时端验
总体服从正态分布,总体方差未知,小样本时临验
总体比例检查:大样本时z检验
20.P值
是一种概率值,是指当原假设为真是得到样本观测成果或比样本更极端成果的概率。
第八章方差分析
分析对象:定性变量对定量变量影响分析,是通过比较均值与否相等来判断的。
基本原理:将数据间的差异分为随机误差和系统误差。
基本环节:计算均值一计算留差平方和一计算均方一构造卜记录量一检直
种类:单原因、双原因(无交互作用、有交互作用)
第九章:有关与回归
L函数关系与有关关系
2.有关系数:亲密程度和方向
3.有关系数的检查:样本有关系数是根据样本计算的,样本是随机的,样本有关系数也是随机的,样
本数据是有关的,并不能阐明总体数据间也是有关的,需记录检查。
4有关分析与回归分析Y对X回归方程
♦有关分析中不辨别自变量、因变量,两变量地位平等,回归分析中要辨别自变量与因变量。
♦有关分析中两变量都为随机变量,回归分析中,因变量是随机变量,自变量一般是非随机变量。
♦有关分析的目的是分析两个变量有关的程度,回归分析要得到自变量对因变量的影响方式,并用数
学方程式体现出来,可以进行预测和控制。
5.高斯假定
有关回归模型误差项的假定:
数学期望为0方差相等正态分布独立
6.最小平措施
依2>7尸最小的原理拟合回归方程的措施。估计值上实际上是当自变量时,对应因变量V所
有也许取值的平均值,既E()')=〃x),最小二乘具有如下特性:
£。7)=0
Ed》最小
7回归系数
阐明自变量每变动一种单位,因变量平均变动的程度。一元线性回归中回归系数的正负号与有关系数
一致。
8.回归变差与剩余变差
9.估计原则误差
10.鉴定系数
第十章:时间数列
1.时间数列
平稳序列、非平稳序列
时间序列模型:
四种原因(趋势、季节、周期、随机)互相独立时用加法模型,存在互相影响时用乘法模型。
2.环比增长速度与定基增长速度
3.年度化增长率
4.增长百分之一绝对值
5移动平均:
关键是合理确定移动步长人;〃越大,对序列数据变化反应越缓慢,对随机变动原因剔除得越多;攵越
小对序列数据变化反应越快,对随机变动剔除得越少。
有简朴移动平均和加权移动平均。
6.指数平滑
是一种特殊的加权平均法,是以上期的实际值与预测值作为本期预测值的一种措施,本质上是历史各
期的加权平均,并且从近期到远期各数据的权数以指数速度下降。
以第一期的实际值作为第一期的预测值
关键是确定合理的平滑系数1,时间数列随机波动较大时,选择较大的”,否则选择较小的心
7.季节比率及取值范围
季节比率阐明现象发展季节波动程度的相对数,不小于1,阐明为旺季,不不小于1为淡季,假如季
节比率均靠近1,阐明没有季节波动。
以季度数据计算的季节指数之和应为4,以月份数据计算的季节指数之和应为12。各季节指数的平均
数应为1或100%。
8.趋势模型及合用条件
逐期增长量(一次差)大体相等:直线方程
逐期增长量的逐期增长量(二次差)大体相等:二次曲线
环比发展速度或环比增长速度大体相等:指数曲线
第十一章主成分、因子分析
作用:降维,压缩数据
基本原理:方差最大、互相独立
基本概念:主成分、特性值、方差奉献率、因子载荷、变量共同度
第十二章聚类分析
作用:分类
种类:措施一分层聚类、迅速聚类(K—均值聚类)
对象一R型聚类、Q型聚类
一、基本公式
却"
1==^7—1
1.加权算术平均数占1
2.算术平均数的数学性质:
£(毛一幻=()£(DJ=O
1=11=1
£区_4=Ea.-^)2z=
m取小或却取小
3.简朴几何平均数:
4加权几何平均数:
5原则差
5上碎p
比率的均值p
比率的方差P(「P),取值范围在0~0.25之间
比率的原则差历,取值范围在0~。5之间
V<7=--x100%
6.离散系数:
7.抽样原则误差,即抽样记录量的原则差,一般表达为
7.1反复抽样
定义式:
或"小〃)
计算式:一”〃
7.2不反复抽样
计算式:匕.后飞
8抽样分布一样本平均数T的分布
E(x)=X
…嗫
在总体服从正态分布、总体方差/已知时,不管大样本还是小样本,样本平均数总是服从正态分布。
既有:
T~N(〃,具)1)
JNa14n
*-卜f
在总体服从正态分布、总体方差/未知时,要用样本方差屋替代,则有"0即原则化后的
记录量不再服从正态分布,而服从自由度为(n-1)的t分布。
不过大样本(〃230)时工分布靠近原则正态分布,也可以按原则正态分布分析。
若是小样本(〃v30)时,不能近似为正态分布,必须用t分布分析。
总体分布未知,大样本时,不管总体方差已知还是未知,样本平均数近似服从正态分布。既有:
~N(0,1)~N(0,1)
a/y/n或s/yjII
9抽样分布——样本匕碎P的分布
E(p)=X,,=P
因比率自身为二项分布,当是大样本时,近似服从正态分布,原则化后有:
-i〜N(0,1)
大样本原则:〃/注5,〃(1-〃)25
10.抽样分布——样本方差/的分布
(〃-1)$2”2
CT
11.区间估计
1L1总体平均数〃或灭的区间估计
怎=z.午
抽样边际误差:G
置信下限
置信上限a=a怎
11.2总体比率n的区间估计
,,△„=Z-
抽样边际误差:〃
置信下限人
置信上限3=〃十金
1L3总体方差人的置信区间
Xa/2Xn-\)X\-a/2Xn-l)
12.假设检查
12.1总体平均数〃或G的检查
总体为正态分布,总体方差已知时,用正态分布即Z记录量检查;
总体为正态分布,总体方差未知,且为小样本时,用t分布检查;
总体分布未知,大样本时,用正态分布即Z记录量检查。
检查记录量为z或/
Z=-z="4
Z记录量:b/G或sl4n
1=2
,记录量:s/y]n
检查临界值:
双侧检查时的临界值ZaM或
单侧检查时的临界值乙、Zj或/,,5、心…
判断原则:
双侧检查囱"Na』时不拒绝乩;图>凡以时拒绝%
MKI勒2,(〃1)I时不拒绝以;M>以…|时拒绝/
单侧检查一左侧:
z>z0时不拒绝/;z<z0时拒绝/
或"T,"J时不拒绝以;Y-忆<““I时拒绝H。
单侧检查一右侧:
Z<Z〜时不拒绝儿;Z2Z〜时拒绝儿
或,<%"J时不拒绝”。;此%加川时拒绝H。
12.2总体比率P的检查(略,基本措施同上述平均数的检查)
12.3总体方差的检查
(DI/
双侧检查:笳
2/2/2
X\-a/2An-\y-X—力白门仙-"时^,彳H。
X"Zl-a/2.(”-l)或,?Za/2.5-l)时拒绝Ho
d)L,
单侧检查:就
左侧检直:"时,不拒绝〃。,/"方乙皿)时拒绝〃。
右侧检查:/</.("』时,不拒绝”。,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物标志物在药物临床试验中的医学研究意义
- 生物制剂临床试验中生物样本库管理规范
- 深度解析(2026)《GBT 20529.2-2010企业信息分类编码导则 第2部分:分类编码体系》
- 餐饮业门店经理面试问题集
- 生活质量干预方案
- 深度解析(2026)《GBT 19475.2-2004缩微摄影技术 开窗卡扫描仪制作影像质量的测量方法 第2部分质量要求和控制 》
- 工程项目经理中级职位的答案解析
- 瓣膜性房颤患者卒中预防
- 深度解析(2026)《GBT 19352.4-2003热喷涂 热喷涂结构的质量要求 第4部分基本的质量要求》
- 年产xxx复式水表项目可行性分析报告
- 医学生口腔种植术后疼痛管理课件
- 职业病防治案例警示与源头管控
- 统编版三年级上册道德与法治知识点及2025秋期末测试卷及答案
- 广西柳州铁路第一中学2026届化学高三上期末质量跟踪监视模拟试题含解析
- 露天采石场安全监管
- 福建省福州市钱塘小学2025-2026学年三年级上学期期中素养测评数学试卷(含答案)
- 2025-2026学年人教版(新教材)小学信息科技三年级全一册(上册)期末综合测试卷及答案
- 2025年广西普法考试题库及答案
- 海外项目质量管理体系的实施要求与案例分析
- 中国马克思主义与当代思考题(附答案)
- ESD静电防护检测及管控标准
评论
0/150
提交评论