数据统计分析方法.docx_第1页
数据统计分析方法.docx_第2页
数据统计分析方法.docx_第3页
数据统计分析方法.docx_第4页
数据统计分析方法.docx_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据统计分析常用方法目录1统计学基础知识31.1统计的含义31.2统计的分类31.3样本32数据的概括性度量42.1总规模度量42.1.1总量指标42.2比较度量52.2.1相对指标52.3平均度量62.3.1概念62.3.2平均数的种类和计算方法62.4离散变量82.4.1变异指标82.5数据的标准化112.5.1Min-max标准化112.5.2Z-score标准化113相关分析113.1概念113.2分类123.3相关分析的作用123.4相关系数的计算123.5相关系数的性质123.5.1相关性类型123.5.2相关性强弱124数据分析134.1数据分析的含义134.2数据分析的作用134.3数据分析方法134.3.1对比分析法134.3.2分组分析法144.3.3结构分析法154.3.4平均分析法154.3.5交叉分析法154.3.6综合评价分析法164.3.7漏斗图分析法174.3.8抽样分析法174.3.9相关分析184.3.10时间序列预测201 统计学基础知识1.1 统计的含义“统计”一词在各种实践活动和科学研究领域中都经常出现。然而,不同的人或在不同的场合,对其理解是有差异的。比较公认的看法认为统计有三种含义,即统计活动、统计数据和统计学。l 统计活动统计活动又称统计工作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。l 统计资料统计资料又称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。表现为各种反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和文字资料。l 统计学统计学是指阐述统计工作基本理论和基本方法的科学,是对统计工作实践的理论概括和经验总结。它以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与方法,是一门方法论科学。1.2 统计的分类从统计方法的功能来看,统计学可以分为描述统计学与推断统计学。从方法研究的重点来看,统计学可分为理论统计学和应用统计学。本文中主要按统计方法的功能进行讨论,不涉及理论统计学。l 描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。描述统计学的内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。l 推断统计学研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。描述统计是整个统计学的基础 ,推断统计则是现代统计学的主要内容。1.3 样本样本是统计学中非常重要的概念,理解这个概念需要注意三大问题:l构成某一样本的每一单位都必须取自某一特定的统计总体,不允许该总体之外的单位介入该总体的样本。l样本单位的抽取应是按一定的概率进行的,而具体样本的产生应是随机的,因此必须排除人的主观因素对样本单位抽取和样本生成的干扰。l样本是母体的代表,带有母体的信息,因而能够推断母体;然而,样本只是母体的一个子集,且具有随机性,故由样本去推断总体会产生代表性误差。2 数据的概括性度量2.1 总规模度量2.1.1 总量指标2.1.1.1 概念总量指标是反映社会经济现象总体在一定时间、地点和条件下总规模或总水平的统计指标。其表现形式通常是绝对数,所以也称为绝对指标或绝对数。2.1.1.2 作用l 总量指标反映的是总体情况l 总量指标是计算相对指标和平均指标的基础2.1.1.3 总量指标的计算方法总量指标的计算方法,抽掉其具体内容,都可以归结到加法上,分简单加法和加权加法。l 简单算法l 加权算法其中,式中:M表示总量指标;x表示变量值;f表示权数2.2 比较度量2.2.1 相对指标2.2.1.1 概念相对指标又称相对数,是两个有联系的统计指标的比值,用以说明社会经济现象之间的数量对比关系。2.2.1.2 作用l 反映现象的内部结构、比例关系、普遍程度与速度。l 使某些不能直接进行对比的统计指标,取得可以比较的基础2.2.1.3 相对数的种类和计算方法2.2.1.3.1 结构相对数结构相对数是表明总体内部各个组成部分在总体中所占比重的相对指标。2.2.1.3.2 比例相对数反映一个统计总体内部各个组成部分之间数量对比关系的相对指标,常用系数和倍数表示。2.2.1.3.3 比较相对数反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标。2.2.1.3.4 动态相对数同类现象在不同时间上数量对比关系的相对指标称为动态相对数,说明现象发展变化的方向和程度。常见的例如同比、环比等。2.2.1.3.5 强度相对数强度相对数反映两个性质不同但有联系的统计指标之间数量对比关系的相对指标。2.2.1.3.6 计划完成相对数计划完成相对数也称计划完成百分比,它是现象在某一时期的实际完成数与其计划任务数的比值,用来检查、监督计划的执行情况,一般用百分数表示。2.2.1.4 运用相对指标的原则l 可比性原则l 多种相对指标综合运用的原则l 同总量指标、平均指标综合运用的原则2.3 平均度量2.3.1 概念计算平均数是统计分析中最常用的一种方法。在统计分析中,除了用平均数表现数据资料的集中趋势外,还常运用平均数进行静态和动态的对比分析,运用平均数分析现象之间的依存关系。2.3.2 平均数的种类和计算方法2.3.2.1 数值平均数算数平均数:算术平均数也称为均值,是全部数据算术平均的结果。2.3.2.1.1 简单算数平均数未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。2.3.2.1.2 加权算数平均数根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。2.3.2.1.3 调和平均数有时会遇到已知各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。调和平均数是各个变量值倒数的算术平均数的倒数。l 简单调和平均数l 加权调和平均数2.3.2.1.4 几何平均数几何平均数是n个变量值乘积的n次方根,可分为简单几何平均数和加权几何平均数。l 简单几何平均数、l 加权几何平均数几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度,如过去历年的平均增长率。2.3.2.1.5 平方平均数平方平均数是n个数据的平方的算术平均数的算术平方根。2.3.2.1.6 中位数中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表示。根据未分组数据计算中位数时,要先对数据排序,然后确定中位数的位置,其公式为其中n为数据的个数,最后确定中位数的具体数值。当n为奇数时,处在中间位置上只有一个变量,;当n为偶数时,处在中间位置上有两个变量值。2.3.2.1.7 众数众数是指一组数据中出现次数最多的变量值,用Mo表示。众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。2.3.2.1.8 分位数中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、十分位数和百分位数等。2.4 离散变量2.4.1 变异指标数据的差异程度就是各变量值远离其中心值的程度。2.4.1.1 概念在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。标志变异指标则说明总体分布的离中趋势。2.4.1.2 变异指标的作用l 反映总体各单位变量值分布的均衡性。一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低;l 判断平均指标对总体各单位变量值代表性的高低;l 标志变异指标是衡量风险大小的重要指标。2.4.1.3 变异指标的类型根据所依据数据类型的不同,变异指标有异众比率、四分位差、全距、平均差、方差和标准差、离散系数等。2.4.1.4 异众比率非众数组的频数占总频数的比率(Variation Ratio),称为异众比率,用Vr表示。式中:fi为变量值的总频数;fm为众数组的频数。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。2.4.1.5 全距或极差全距又称极差,是一组数据的最大值与最小值之差,用R表示式中:max(Xi)、min(Xi)分别表示为一组数据的最大值与最小值。R越大,表明数值变动的范围越大,即数列中各变量值差异大;反之,R越小,表明数值变动的范围越小,即数列中各变量值差异小。2.4.1.6 平均差平均差是各变量值与其算术平均数离差绝对值的平均数,用表示。2.4.1.6.1 简单平均法对于未分组资料,采用简单平均法。2.4.1.6.2 加权平均法在资料分组的情况下,应采用加权平均式2.4.1.7 方差和标准差方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。方差、标准差是实际中应用最广泛的离中程度度量值。方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;标准差用来反映反映组内个体间的离散程度。2.4.1.7.1 总体的方差与标准差设总体的方差为,标准差为,对于未分组整理的原始资料2.4.1.7.2 样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减去除总离差平方和。2.4.1.8 标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数(Standard Score),以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或z值。2.4.1.9 相对离散程度:离散系数离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数。2.5 数据的标准化2.5.1 Min-max标准化Min-Max标准化方法是对原始数据进行线性变换。设MinA和MaxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-Max标准化映射成在区间0,1中的值x,其公式为:新数据=(原数据-极小值)/(极大值-极小值)2.5.2 Z-score标准化基于原始数据的均值(Mean)和标准差(Standard deviation)进行数据的标准化,以距离平均数的远近程度及数据的“离散程度”为基础,将数据的价值转换为易于探讨的数值。Z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据=(原数据-均值)/标准差3 相关分析3.1 概念相关关系是指现象之间存在着的一种非确定性的数量依存关系,即一个现象发生数量变化时,另一现象也相应地发生数量变化,但其关系值是不固定的,往往同时出现几个不同的数值,在一定的范围内变动着,这些数值分布在它们的平均数周围的一种数量依存关系。3.2 分类l 按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关。单相关也称一元相关,是两个变量之间的相互关系。复相关是指多个变量之间的相互关系,所以复相关又称多元相关;l 按相关关系的表现形式来分,有线性相关和非线性相关;l 按相关的方向,线性相关可分为正相关和负相关。如果两个变量同时趋向在同一方向上变,即它们是同时增加或同时减少,则称正相关;否则,如果两个变量趋于反向变化,则称为负相关;l 按变量之间的相关程度来分,可分为完全相关、不完全相关和不相关三类。所谓完全相关,就是变量之间的一种确定性的函数关系。反之,若变量之间不存在相关关系,彼此独立,相互之间没有联系,则称不相关。3.3 相关分析的作用相关分析是研究两个或两个以上的变量之间相关程度的大小的一种统计方法,其主要作用包括:l 确定现象之间有无关系存在,以及相关关系呈现的形态。l 确定相关关系的密切程度。判断相关关系密切程度的主要方法是绘制散点图和计算相关系数。3.4 相关系数的计算,其中、表示样本变量,、表示样本平均值。3.5 相关系数的性质3.5.1 相关性类型l 正相关:如果x,y变化的方向一致,如身高与体重的关系,r0;l 负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r0.95存在显著性相关;l |r|0.8高度相关;l 0.5|r|0.8中度相关;l 0.3|r|0.5低度相关;l |r|0时表示线性正相关,当r0时表示线性负相关;r的大小可以反映相关的程度, r=0表示两个变量之间不存在线性关系。通常相关系数的取值与相关程度相关系数|r|的取值范围相关程度低度相关中度相关高度相关相关系数计算公式4.3.9.2 回归分析回归函数关系是指现象之间存在的依存关系中,对于某变量的每个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来,例如,在一定的条件下,身高与体重存在的依存关系。回归是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与影响它的自变量X,(i=1,2,3,)之间的回归模型,来预测因变量Y的发展趋势。4.3.9.2.1 回归分析举例回归分析模型主要包括线性回归及非线性回归两种。线性回归又分为简单线性回归与多重线性回归,而对于非线性回归,通常通过对数转化等方式,将其转化为线性。此处以线性回归为例进行介绍。线性回归分析的五个步骤l 根据预测目标,确定自变量和因变量;l 绘制散点图,确定回归模型类型;l 绘制模型参数,建立回归模型l 对回归模型进行检验l 利用回归模型进行预测简单线性回归也称为一元线性回归,也就是回归模型中只含一个自变量,否则称为多重线性回归。简单线性回归模型为:Y=a+bX+其中Y-因变量;X-自变量;a-常数项,是回归直线在纵坐标轴上的截距;b-回归系数,是回归直线的斜率;-随机误差,即随机因素对因变量所产生的影响。散点图是种比较直观地描述变量之间相互关系的图形。一般在做线性回归之前,需要先用散点图查看数据之间是否具有线性分布特征,只有当数据具有线性分布特征时,才能采用线性回归分析方法。4.3.9.2.2 检验回归分析建立回归分析模型后,还需要进一步使用多个指标进行检验。如回归模型的拟合优度检验(R2)、回归模型的显著性检验(F检验)、回归系数的显著性检验(t检验)来综合评估回归模型的优劣4.3.9.3 相关分析与回归分析4.3.9.3.1 相关分析与回归分析的联系相关分析与回归分析的联系是均为研究及测量两个或两个以上变量之间关系的方法。在实际工作中一般先进行相关分析,计算相关系数,然后拟合回归模型,进行显著性检验,最后用回归模型推算或预测。4.3.9.3.2 相关分析与回归分析的区别l 相关分析研究的都是随机变量,并且不分自变量与因变量,回归分析研究的变量有自变量与因变量之分,并且自变量是确定的普通变量,因变量是随机变量。l 相关分析主要描述两个变量之间线性关系的密切程度,回归分析不仅可以揭示变量X对变量Y的影响大小,还可以自回归模型进行预测。4.3.10 时间序列预测时间序列预测是指通过时间序列来分析预测目标变量未来的发展趋势。时间序列预测主要包括移动平均法、指数平滑法、趋势外推法、季节变动法等预测方法,其中移动平均法、指数平滑法是最常使用的方法。此处以移动平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论