统计学第六版-人大版-复习笔记_第1页
统计学第六版-人大版-复习笔记_第2页
统计学第六版-人大版-复习笔记_第3页
统计学第六版-人大版-复习笔记_第4页
统计学第六版-人大版-复习笔记_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、统计学原理期末考试试题类型及结构1、单项选择题:30分。考核对基本概念的理解和计算方法的应用。2、判断题:10分。考核对基本理论、基本概念的记忆和理解。3、简答题:30分。考核对基本概念、基本理论、基本方法的理解和掌握情况。4、计算题:30分。考核对基本计算方法的理解、掌握程度及综合应用能力。二、期末考试形式及答题时限期末考试形式为闭卷笔试;答题时限为90分钟;可以携带计算器。三、各章复习内容期末复习资料:教材、学习指导书习题、作业第一章统计总论理解统计学的含义答:收集、处理、分析、解释数据并从数据中得出结论的科学(收集数据:取得数据;处理数据:整理与图表展示;分析数据:利用统计方法分析数据;数据解释:结果的说明;得到结论:从数据分析中得出客观结论)第二章数据的搜集数据的来源答:(1)数据的间接来源:系统外部的数据(统计部门和政府部门公布的有关资料,如各类统计年鉴、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据、各类专业期刊、报纸、书籍所提供的资料、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料、从互联网或图书馆查阅到的相关资料)系统内部的数据(业务资料,如与业务经营活动有关的各种单据,记录、经营活动过程中的各种统计报表、各种财务,会计核算和分析资料等)(2)数据的直接来源(原始数据)调查数据实验数据收集数据的基本方法:调查的数据(自填式、面访式、电话式);实验的数据抽样误差:由于抽样的随机性所带来的误差;所有样本可能的结果与总体真值之间的平均性差异;影响抽样误差的大小的因素(样本量的大小、总体的变异性)重点:数据来源、数据搜集方法、抽样误差数据的图表展示重点:熟悉条形图、直方图、饼图、环形图、箱线图、线图等1.对分类数据和顺序数据主要是作分类整理;对数值型数据则主要是作分组整理2.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据3.分类数据的图示—条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图4.分类数据的图示—帕累托图:按各类别数据出现的频数多少排序后绘制的柱形图;主要用于展示分类数据的分布5.分类数据的图示—饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以360度确定。离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度;计算公式为离散型随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X);描述离散型随机变量取值的分散程度;计算公式为正态分布函数的性质:概率密度函数在x的上方,即f(x)>0;正态曲线的最高点在均值,它也是分布的中位数和众数;正态分布是一个分布族,每一特定正态分布通过均值和标准差来区分。决定了图形的中心位置,决定曲线的平缓程度,即宽度;曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;正态曲线下的总面积等于1;随机变量的概率由曲线下的面积给出(描述连续型随机变量的最重要的分布)第六章统计量及其抽样分布重点: 统计量,c2分布,t分布,F分布统计量:设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量(样本均值、样本比例、样本方差等都是统计量)统计量是样本的一个函数;统计量是统计推断的基础2分布:由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来;分布的变量值始终为正;分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;期望为:E(2)=n,方差为:D(2)=2n(n为自由度)t分布:高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出;t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散;一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。F分布:由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名。中心极限定理:从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

第七章参数估计重点:置信区间置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平;表示为(1-a)%(a为是总体参数未在区间内的比例)常用的置信水平值有99%,95%,90%(相应的a为0.01,0.05,0.10)置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间;统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间;用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个;总体参数以一定的概率落在这一区间的表述是错误的常用置信水平Za/2值置信水平Aa/2Za/290%0.10.051.64595%0.050.0251.9699%0.010.0052.58第八章假设检验重点:原假设、备择假设、假设检验的流程、均值检验等原假设:待检验的假设,又称“0假设”;研究者想收集证据予以反对的假设;总是有等号=,£或³表示为H0(H0:m=某一数值;指定为=号,即£或³;例如,H0:m=3190(克))备择假设:与原假设对立的假设,也称“研究假设”;研究者想收集证据予以支持的假设总是有不等号:¹,<或>表示为H1H1:m<某一数值,或m>某一数值例如,H1:m<3910(克),或m>3910(克)。假设检验中的两类错误:1. 第一类错误(弃真错误)原假设为真时拒绝原假设;会产生一系列后果;第一类错误的概率为a;被称为显著性水平2. 第二类错误(取伪错误);原假设为假时接受原假设;第二类错误的概率为b(Beta)假设检验的流程:提出假设、确定适当的检验统计量、规定显著性水平、计算检验统计量的值、做出统计决策。显著性水平a:1.是一个概率值;原假设为真时,拒绝原假设的概率;被称为抽样分布的拒绝域;表示为a(alpha);常用的a值有0.01,0.05,0.10;由研究者事先确定总体均值的检验:(选择题:已知-Z统计量;未知-T统计量)第九章分类数据分析重点:列联表、相关系数列联表:由两个以上的变量交叉分类的频数分布表;行变量的类别用r表示,ri表示第i个类别;列变量的类别用c表示,cj表示第j个类别;每种组合的观察频数用fij表示;表中列出了行变量和列变量的所有可能的组合,所以称为列联表;一个r行c列的列联表称为rc列联表列联表中的相关测量:品质相关-对品质数据(分类和顺序数据)之间相关程度的测度;列联表相关测量的统计量主要有(相关系数、列联相关系数、V相关系数)相关系数:测度22列联表中数据相关程度;对于22列联表,系数的值在0~1之间列联相关系数:C的取值范围是0C<1;C=0表明列联表中的两个变量独立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较V相关系数:V的取值范围是0V1;V=0表明列联表中的两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=关于小单元频数有两条准则:如果只有两个单元,每个单元的期望频数必须大于或等于5;倘若有两个以上的单元,如果百分之二十的单元期望频数小于5,则不能用2检验。第10章方差分析重点:单因素方差分析表(基本结构)(说出每一步骤的意思)单因素方差分析分析步骤提出假设:一般提法(H0:m1=m2=…=mk自变量对因变量没有显著影响;H1:m1,m2,…,mk不全相等自变量对因变量有显著影响注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等)构造检验的统计量:计算各样本的均值、计算全部观察值的总均值、计算各误差平方和(总平方和SST、组间平方和SSA、组内平方和SSESST=SSA+SSE)、计算统计量(MSA=SSA/k-1MSE=SSE/n-kF=MSA/MSE~F)统计决策:如果原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值差异就不会太大。若F>Fa则拒绝原假设HO结论:表明有显著差异第11章一元线性回归重点:相关系数、回归方程相关系数:度量变量之间关系强度的一个统计量;对两个变量之间线性相关强度的度量称为简单相关系数;若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r相关系数的性质:r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系-1r<0,为负相关0<r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱回归方程:描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下E(y)=0+1x方程的图示是一条直线,也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值第12章多元线性回归重点:多重共线性、回归方程多重共线性:回归模型中两个或两个以上的自变量彼此相关;多重共线性带来的问题有:可能会使回归的结果造成混乱,甚至会把分析引入歧途;可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反多重共线性情况:模型中各对自变量之间显著相关;当模型的线性关系(F检验)显著时,几乎所有回归系数的t检验却不显著;回归系数的正负号与预期的相反第13章时间序列分析和预测重点:时间序列类别、成分、预测方法时间序列分类2.时间序列的成分3.预测方法的选择第14章指数重点:指数概念、常见指数指数的含义:指数最早起源于测量物价的变动;指数是测定多项内容数量综合变动的相对数;指数的实质是测定多项内容,例如,零售价格指数反映的是零售市场几百万种商品价格变化的整体状况;指数的表现形式为动态相对数,既然是动态相对数,就涉及到指标的基期对比,不同要素基期的选择就成为指数方法需要讨论的问题。编制指数的方法就是围绕上述两个问题展开的指数的分类(1)个体指数与综合指数个体指数:反映单一项目的变量变动;如一种商品的价格或销售量的变动总指数:反映多个项目变量的综合变动;如多种商品的价格或销售量的综合变动(2)简单指数与加权指数简单指数(simpleindexnumber):计入指数的各个项目的重要性视为相同加权指数(weightedindexnumber):计入指数的项目依据重要程度赋予不同的权数(3)数量指数与质量指数数量指数:反映物量变动水平;如产品产量指数、商品销售量指数等质量指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论