




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 统计一、统计与统计数据(一)统计学分支:描述统计和推断统计。1.描述统计:取得所需数据,用图表或数学方法对数据整理和展示,描述数据的一般性特征。2.推断统计:用样本数据来推断总体特征的统计学方法。包括参数估计和假设检验。(1)参数估计是利用样本信息推断总体特征(2)假设检验是利用样本判断对总体的假设是否成立。(二)变量和数据1.变量:研究对象的属性或特征。分类:(1)定量变量或数量变量:变量取值是数量(2)定性变量或品质变量:包括:分类变量:变量取值是类别顺序变量:变量取值是类别且有一定的顺序2.数据:对变量进行测量、观测的结果。可以将统计数据分为:(1)分类数据:不能用数值表示,通常用文字表述,也可用数值代码表示,但不区分顺序。(2)顺序数据:不能用数值表示,通常用文字表述,也可用数值代码表示,但有顺序。(3)数值型数据:说明的是现象的数量特征。3.数据的来源(1)观测数据(2)实验数据(3)一手数据(2)二手数据(三)统计调查1.统计调查的种类 (1)按调查对象的范围不同,分为:全面调查:包括全面统计报表和普查。非全面调查:包括非全面统计报表、抽样调查、重点调查、典型调查等。(2)按调查登记的时间是否连续,分为:连续调查:说明现象的发展过程。不连续调查:一般是为了对总体现象在一定时点的状态进行研究。2.统计调查的方式:包括统计报表、普查、抽样调查、重点调查、典型调查(典型调查主要是一种定性调查研究,必须同其他调查结合起来使用,才能避免出现片面性。典型调查的作用:弥补全面调查的不足;在一定条件下可以验证全面调查数据的真实性。典型调查不在于反映现象的总量数据特征,在于了解与统计数字有关的生动的具体情况,做到定性分析和定量分析相结合。)二、描述统计(一)对数据分布特征的测度:分布的集中趋势;分布的离散程度(反应各数据的差异程度,和中心数据的代表程度);分布的偏态(反应数据分布的不对称性)。1.集中趋势的测度。测度集中趋势也就是寻找数据一般水平的代表值或中心值。(1)平均数。易受极端值影响。适用于定量变量,数值型数据,不适用与分类和顺序数据。(2)中位数。不受极值个影响。适用于顺序数据和数值型数据,尤其适用分布不对称的数值型数据。不适用于分类数据。(3)众数。不受极值个影响;可能不唯一。适用于分类和顺序变量,不适用于定量变量。2. 离散程度的测度:离散程度,是指数据之间的差异程度或频数分布的分散程度。离散程度的测度,主要包括极差、方差和标准差、离散系数等。适用于数值型数据。 极差。是总体或分布中最大的标志值与最小的标志值之差,又称全距。它反映的是变量分布的变异范围或离散幅度,不能反映其间的变量分布情况,同时易受极端值的影响。方差:数据组中各数值与其均值离差平方的平均数。越小则均值代表性越好。按自由度不同,分为总体方差和样本方差。标准差,总体所有单位标志值与其平均数离差之平方的平均数的平方根。标准差与方差是应用最广泛的统计离散程度的测度方法,只适用于数值型数据,对极端值也很敏感。离散系数。也称变异系数或标准差系数,它是一组数据的标准差与其相应的算术平均数之比,是测度数据离散程度的相对指标。离散系数主要是用于比较不同组别数据的离散程度。目的是为消除变量值水平高低和计量单位不同对离散程度测定值的影响。3.布形态的测度偏态系数:测度数据分布偏度的统计量。SK=0,分布对称;0SK0.5,轻度右偏;0.5SK1,中度右偏;SK1,严重右偏。 SK为负值,与正值相对应,不过是左偏。标准分数:也称为Z分数。数值减去均值所得的差除以标准差。平均数为0,标准差为1。当数据成钟型分布的时候,68%的数据与平均数距离在1个标准差内;95%的数据与平均数距离在2个标准差内;99%的数据与平均数距离在3个标准差内。4.变量间的相关分析 变量间相关关系的分类: 按相关程度分:完全相关,不完全相关,不相关。 按相关方向分:正相关,负相关。 按相关形式分:线性相关(不一定是直线,曲线也可以),非线性相关。 相关关系并不等同于因果关系,即有相关关系的变量之间,并不一定一方由另一方引起。 散点图:可以表示两个变量之间的关系。5.相关系数。相关系数是度量两个变量间相关关系的统计量。最常用的相关系数是Pearson相关系数,度量的两个变量间的线性相关关系。r的区间范围:-1r1。r0表示正线性相关,r0表示负线性相关;r=1表示完全正线性相关,r=-1表示完全负线性相关;r=0表示不存在线性相关关系,但并不表示没有任何关系。三、抽样调查(一)基本概念1.总体与样本总体参数。是抽样调查中想要了解的,是未知常数;样本统计量又称估计量。是一个随机变量,与样本选取及设计有关,是对总体参数的估计。抽样框。是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。抽样中的单位必须有序,高质量的抽样框应当提供被调查单位更多的信息,并且没有重复和遗漏。2、概率抽样和非概率抽样概率抽样:又称随机抽样。特点:按一定的概率以随机原则抽取样本;抽中概率可计算;考虑每个样本单元被抽中的概率。非概率抽样:调查者根据自己的方便或主管判断抽取样本的方法,不依随机原则。如判断抽样(主观判断),方便抽样(如拦截式),自愿样本(如网上调查),配额抽样。3、抽样调查的一般步骤确定调查问题调查方案设计实施调查过程数据处理分析撰写调查报告4、抽样调查中的误差抽样误差:由于抽样的随机性造成的,样本不同,对总体的估计也会不同;非抽样误差:抽样框误差,无回答误差,计量误差抽样框误差:抽样框不完整造成数据的遗漏,抽样框更新不及时产生无效数据等等;无回答误差:随机因素如恰好不在,造成方差增大;非随机因素如不愿意回答,造成方差增大、估计偏差。计量误差:数据与真值不一致造成的误差。5、抽样的种类:简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样(1)简单随机抽样分类:不放回简单随机抽样;放回简单随机抽样。问题:效率不高,分布分散。适用条件:抽样框中没有更多的可利用辅助信息;调查对象的分布范围不广;个体间的差异不是很大。(2)分层抽样:先把总体分为不同的层,再在不同层内独立、随机地抽取样本。要有足够的辅助信息,使得同一层差异小,不同层差异大。特点:不仅可以估计总体参数,也可估计各层参数;便于抽样工作的组织;降低抽样误差。样本量在各层的分配方法:等比例分配,不等比例分配。(3)系统抽样。按序排列,确定初始单元,等间隔抽取数据。分为按无关标识排列和按有关标识排列,后者精度更高。方差估计比较复杂,给抽样误差带来一定困难。(4)整群抽样。步骤:划分为互不重叠的群体,抽样时直接抽取群,抽中的群调查全部,未抽中的群不调查。如果群内差异小,群间差异大,抽样误差会比较大;如果群内差异大,群间差异小,误差低于简单随机抽样,适合此类群体的抽样调查。 (5)多阶段抽样。是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,在大规模调查中常用。 分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样;而整群抽样实际上是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称单级整群抽样。6.估计量(样本统计量)的性质:(1)无偏性:(对不放回简单随机抽样,所有可能样本均值取值的平均值等于总体均值),(2)有效性:(方差越小越有效),(3)一致性(随着样本量的增大,估计量稳定于总体参数的真值,则有一致性)。7.抽样误差的估计 不放回简单随机抽样的估计量方差公式的意义:样本差异越大,s越大,则误差越大;样本量n越大,则误差越小。8.样本量的影响因素调查的精度:精度越大,样本量越大;总体的离散程度:离散程度越大,样本量越大;总体的规模:对小规模总体而言,总体规模越大,样本量越大,大规模不受影响;无回答的情况:无回答率越高,样本量越大;经费的制约:样本量是调查经费与调查精度之间的折中和平衡。四、回归分析(一)回归分析的概念:所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的依赖关系。1.回归分析和相关分析,联系密切,有共同研究对象,在具体应用时,也常常需要互相补充。(1)相关分析研究变量之间相关的方向和相关的程度;(2)回归分析研究变量之间相互关系的具体形式。2.相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。3.只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。(二)一元线性回归模型:一元线性回归方程: (三)最小二乘法:使得因变量的观测值iy与估计值iy之间的离差(又称残差)平方和最小来估计参数的方法。(四)模型的检验和预测模型的检验:决定系数,可以测度回归直线对样本数据的拟合程度,决定系数的取值在0到1之间。越接近1,拟合效果越好,越接近0,拟合效果越差。模型的预测:回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值五、时间序列分析(一)时间序列及其分类时间序列,也称动态数列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。时间序列由两个基本因素构成:(1)被研究现象所属时间;(2)反映该现象一定时间条件下数量特征的指标值。同一时间序列中,各指标值的时间单位一般要求相等。2.时间序列按照其构成要素中统计指标值的表现形式,分为三类:(1)绝对数时间序列. 依据指标值的时间特点,绝对数时间序列又分为时期序列、时点序列。时期序列,即“过程总量”如国内生产总值。时点序列,每一指标值反映现象在一定时点上的瞬间水平,如年底总人口数。(二)时间序列的水平分析分为:(1)发展水平,时间序列中对应于具体时间的指标数值。时间序列中第一项的指标值称为最初水平,最末项的指标值称为最末水平,处于二者之间的各期指标值称为中间水平。根据各期指标值在计算动态分析指标时的作用来划分,又可以分为基期水平、报告期水平。(2)平均发展水平,也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。时间序列类型不同,计算方法也不同。绝对数时间序列:序时平均数的计算:1)由时期序列计算序时平均数公式为:算术平均。2)连续时点序列计算序时平均数公式为:算术平均或加权平均3)间断时点序列计算序时平均数计算思想是“两次平均”:先求各个时间间隔内的平均数,再对这些平均数进行简单算术平均。 第一,间隔时间相等。(y1+y2)/2+(y2+y3)/2./(n-1)第二,间隔时间不等。第二次平均时,由于各间隔不相等,所以应当用间隔长度作为权数,计算加权算术平均数。相对数或平均数时间序列(派生序列):序时平均数的计算必须分别求出分子指标和分母指标时间序列的序时平均数,然后再进行对比。(3)增长量与平均增长量 增长量。报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。根据基期的不同确定方法,增长量可分为逐期增长量、累计增长量。同一时间序列中,累计增长量等于相应时期逐期增长量之和。平均增长量。时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。同时,=累计增长量/(N-1)(三)时间序列的速度分析1.发展速度与增长速度。发展速度。是以相对数形式表示的两个不同时期发展水平的比值。计算公式为:发展速度=报告期水平/基期水平。由于基期选择的不同,发展速度有定基(在一定时期内总的发展速度)与环比之分。 定基发展速度与环比发展速度的数量依存关系:(掌握)1)定基发展速度等于相应时期内各环比发展速度的连乘积。2)两个相邻时期定基发展速度的比率等于相应时期的环比发展速度。增长速度。报告期增长量与基期水平的比值。计算公式为:增长速度=报告期增长量/基期水平,由于基期选择的不同,增长速度也有定基与环比之分。1)定基增长速度=累计增长量/某一固定时期水平=定基发展速度-12)环比增长速度=逐期增长量/前一期水平=环比发展速度-1【注意】:定基增长速度与环比增长速度不能像定基发展速度与环比发展速度那样互相推算。定基增长速度与环比增长速度之间的推算,必须通过定基发展速度和环比发展速度才能进行。2.平均发展速度与平均增长速度平均增长速度与平均发展速度之间的数量关系:平均增长速度=平均发展速度-l。 目前计算平均发展速度通常采用几何平均法(也称水平法)。平均发展速度的计算公式3.速度的分析与应用 当时间序列中的指标值出现0或负数时,不宜计算速度。在这种情况下,适宜直接用绝对数进行分析。 速度指标的数值与基数的大小有密切关系,“增长1%的绝对值”,是进行这一分析的指标。它反映同样的增长速
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能电网工程设计考核试卷
- 涂料行业新技术展望考核试卷
- 办公室财务报表编制与分析考核试卷
- 笔的笔身材料创新考核试卷
- 珠海市高一上学期期末考试数学试题
- 四川华新现代职业学院《建筑构造与制图》2023-2024学年第二学期期末试卷
- 西安汽车职业大学《临床技能综合训练(Ⅲ)》2023-2024学年第一学期期末试卷
- 潞安职业技术学院《剑桥商务英语(1)》2023-2024学年第一学期期末试卷
- 江西省赣州市南康区唐西片区达标名校2025年初三模拟物理试题含解析
- 石家庄理工职业学院《健美操主项实践教学》2023-2024学年第二学期期末试卷
- 铲车维护保养管理制度
- 反兴奋剂知识试题及答案
- 公共卫生工作人员绩效考核评价细则
- 五一劳动节主题班会:树立正确劳动观念弘扬劳动精神-高中专题班会模范课件展示
- 家庭教育指导师模拟题07附有答案
- GB/T 20878-2024不锈钢牌号及化学成分
- 2024年福建省漳州市中考数学二模试卷(含解析)
- 川教版《生命生态安全》九年级下册第十课树立生态文明意识 课件
- Whose-dog-is-itPartB-省公开课一等奖新名师课比赛一等奖课件
- 2023年福建省考评员考试题
- 肿瘤预后评估的新标准和方法
评论
0/150
提交评论