中级经济师经济基础(四统计).docx_第1页
中级经济师经济基础(四统计).docx_第2页
中级经济师经济基础(四统计).docx_第3页
中级经济师经济基础(四统计).docx_第4页
中级经济师经济基础(四统计).docx_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二十三章 统计与统计数据1、统计学是关于收集、整理、分析数据和从数据中得出结论的科学。 统计学有两个分支:描述统计和推断统计。 描述统计是研究数据收集、整理和描述的统计学方法。内容包括如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。 推断统计是研究如何利用样本数据来推断总体的统计学方法,内容包括参数估计和假设检验两大类。参数估计是利用样本信息推断总体特征;假设检验是利用样本信息判断对总体的假设是否成立。 统计学是帮助我们认识周围世界的工具,描述统计和推断统计可以一起发挥作用,具体使用哪种方法取决于要解决的问题。2、变量:是研究对象的属性或特征,它是相对于常数而言的。 常数只有一个固定取值,而变量可以有两个或更多个可能的取值。 当变量的取值是数量是,该变量被称为定量变量或数量变量。例如企业销售额、注册员工数量等。 当变量的取值表现为类别时则被称为分类变量,比如企业所属行业。(定性变量) 当变量的取值表现为类别且具有一定顺序时被称为顺序变量,比如员工受教育水平。(定性变量)3、数据是对变量进行测量、观测的结果。数据根据需要可以是数值、文字或者图像等形式。分类变量的观测结果称为分类数据,表现为类别,一般用文字来表述,也可以用数值代码表示;数值型数据是对定量变量的观测结果,其取值表现为具体的表示大小或多少数值。4、统计数据,按其收集方法,可以分为观测数据(通过直接调查或测量而收集到的数据,是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据,如GDP、CPI、房价等)和实验数据(通过在实验中控制实验对象以及其所处的实验环境收集到的数据)。5、统计数据的来源(2种):直接的调查和科学实验,称为直接数据或一手数据;一手数据的来源调查或观察、实验,在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。别人的调查或实验的数据,称为间接数据或二手数据。6、统计调查是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程。特征(2个):调查是一种有计划、有方法、有程序的活动;调查的结果表现为搜集到的数据。统计调查的分类(2个):按调查对象的范围不同,分为全面调查和非全面调查。全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。非全面调查是对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查等。按调查登记的时间是否连续,分为连续调查和不连续调查。连续调查是为了观察总体现象在一定时期内(通常是一年内)的数量变化,它要求随着调查对象的发展变化,连续地进行调查登记。不连续调查是间隔一个相当长的时间(通常是一年以上)所做的调查,一般是为了对总体现象在一定时点上的状态进行研究。7、统计调查的方式(5个):统计报表:是我国目前搜集统计数据的一种重要方式。是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。种类(2种):全面统计报表要求调查对象中的每一个单位都填报;非全面统计报表只要求调查对象中的一部分单位填报。普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、经济普查、农业普查等。特点(4个):普查通常是一次性的或周期性的,经济普查每10年2次,在尾数3、8的年份实施;人口普查逢“0”的年份进行;农业普查逢“6”的年份进行。普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。第五和第六次人口普查的标准时间为11月1日0时,农业普查的标准时间为1月1日0时。普查的数据一般比较准确,规范化程度也较高,因此他可以为抽样调查或其他调查提供基本依据;普查的使用范围比较窄,职能调查一些最基本及特定的现象。抽样调查:是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。特点(4个):经济性;时效性强,适应面广;准确性高。重点调查:是一种非全面调查,它是在所要调查的总体中选择一部分重点单位进行的调查。典型调查:是一种非全面调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。作用(2个):弥补全面调查的不足;在一定条件下可以验证全面调查数据的真实性。优点:灵活机动、通过少数典型单位即可深入翔实的统计资料。缺点:受主观认识的影响。第二十四章 描述统计1、对于数据分布特征的测度主要分(3个方面):分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度;分布的偏态,反映数据分布的不对称性。 对于两个定量变量之间的相关分析,经常采用的描述方法是散点图和相关系数统计数量。2、集中趋势:是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。均值:也叫作平均数,就是数据组中所有数值的总和除以该组数字的个数。均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。它主要适用于数据型诗句,但不适用分类和顺序数据。中位数:是把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值,如果为偶数的话,是居中两位数值的平均值。中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。众数:是指一组数据中出现次数(频数)最多的变量值。众数适用于描述分类数据和顺序数据的集中趋势。而在定量数据中,可能出现多众数和无众数的情况,因此众数不适于描述定量数据的集中位置。均值、中位数和众数的比较及适用范围。均值适于定量变量。优点:能够充分利用数据的全部信息,均值大小受到每个观测值的营销,比较稳定;缺点:易受极端值的影响,如果观测值种有明显的极端值,则均值的代表性比较差。中位数不适于分类变量,适于顺序变量和定量变量,特别是分布不对称的数据。优点:不受极端值的影响;缺点:没有充分利用数据的全部信息,稳定性差于均值,优于众数。众数不适用于定量变量,主要适用于分类和顺序变量。优点:不受极端值影响,尤其是分布明显呈偏态时,众数的代表性更好。缺点:没有充分利用数据的全部信息,确定稳定性,而且可能不唯一。3、离散程度:反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性越好。 方差:是数据组中各数值与其均值离差平方的平均数,它能较好的反应出数据的离散程度,是实际中应用最广泛的离散程度测度值。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。标准差,用来测度数据的离散程度,标准差即方差的平方根,对于样本数据。标准差不仅能度量数值与均值的平均距离,还与原始数据具有相同的计量单位。标准差与方差计算比较简单,又具有比较好的数学性质,是应用最广泛的统计离散程度的测度方法。方差与标准差只适用于数值型数据。离散系数:也称为变异系数或标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较,记为CV。CVsX 标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。离散系数消除了测度单位和观测值水平不同的影响,因为可以直接用来比较变量的离散程度。4、偏度:是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。偏态系数:是测度数据分布偏度的统计量。SKnn-1(n-2)i=1n(Xi-Xs)3 偏态系数取决于离差三次方的平均数与标准差三次方的比值。如果偏态系数0,则说明数据的分布是对称的;如果偏态系数为正值,说明分布为右偏,取值0-0.5之间轻度右偏,取值0.5-1之间中度右偏,1严重右偏;如果偏态系数为负值,说明分布左偏,(-0.5)-0之间轻度左偏,(-0.5)-(-1)之间中中度左偏,(-1)严重左偏。偏态系数的绝对值越大,说明数据分布的偏斜程度越大。5、标准分数:在统计上,均值和标准差不同时,不同变量的数值是不能比较的。标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值所得的差除以标准差,计算公式:ZiXi-Xs 标准分数也称为Z分数,是统计上常用的一种标准化方法。6、变量间的相关关系(3种):按相关的程度可分为完全相关、不完全相关和不相关。完全相关:当一个变量的取值变化完全由另一个变量的取值变化所确定时;不相关:当两个变量的取值变化彼此互不影响;不完全相关:当两个变量之间的关系介于完全相关和不相关之间。按相关的方向可分为正相关和负相关。正相关:当一个变量的取值由小变大,另一个变量的取值也相应由小变大;负相关:当一个变量的取值由小变大,而另一个变量的取值相反的由大变小。按相关的形式可分为线性相关和非线性相关。线性相关:是指两个相关变量之间的关系大致呈现为线性关系;非线性相关:是指两个相关变量之间,并不表现为直线的关系,而是近似于某种曲线方程的关系。7、散点图:两个变量间的关系可以用散点图来展示。在散点图种,每个点代表一个观测值,横纵坐标值分别代表两个变量相应的观测值。8、相关系数:是度量两个变量间相关关系的统计量。Pearson相关系数(最常用):度量的是两个变量间的线性相关关系。Pearson相关系数的取值范围在+1和-1之间,即-1r1。若0r1,正线性相关关系;若-1r0,则负线性相关关系;若r1,完全正线性相关;若r-1,完全负线性相关;若r0,不存在线性相关关系,并不是没有任何关系。若r1,变量Y的取值完全依赖于X。第二十五章 抽样调查1、抽样调查(使用频率最高):是指按照某种原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查得到的信息,以达到对总体情况的了解,或者对总体的有关参数进行估计。 (3个概念):总体与样本:总体即调查对象的主体,样本是总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成;总体参数与样本统计量:总体参数是我们所关心变量的数字特征,它是根据总体中所有的单位的数值计算的,也可以说是总体指标值,它是未知的常数,常用的有总体总量、总体均值、总体比例、总体方差等;样本统计量是根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为估计量,是一个随机变量,它取决于样本设计和正好被选入样本的单元特定组合,常用的有样本均值、样本比例、样本方差等。抽样框:是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现,常用的有名录框(企业名录、电话簿、人员名册)、一张地图或其他适当形式。2、抽样的类别(2种):概率抽样:也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。特点:按一定的概率以随机原则抽取样本;总体中每个单元被抽中的概率是已知的或者是可以计算出来的;当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率;非概率抽样:又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其主要特征是抽取样本时并不是依据随机原则。方法:判断抽样;方便抽样;自愿样本;配额抽样。3、抽样调查的步骤(5个):确定调查问题;调查方案设计;实施调查过程;数据处理分析;撰写调查报告。4、抽样调查中的误差:样本估计值和总体参数真值之间的差异称为误差。误差种类(2种):抽样误差:是由于抽样的随机性造成的,用样本统计量估计总体参数时出现的误差;非抽样误差:是指除抽样误差以外,由其他原因引起的样本统计量与总体真值之间的差异。产生原因(3种):抽样框误差:由于抽样框不完善造成的;无回答误差:现场调查中由于各种原因,调查人员没有能够从被调查者那里得到所需要的数据,如被调查者不在家、因病无法接受调查、拒绝接受调查等;计量误差:是指由于调查所获得的数据与其真值之间不一致造成的误差,如对问题理解偏误、记忆不清、提供虚假数字等。5、基本概率抽样的方法(5种):简单随机抽样:最基本的随机抽样方法。(2种):有放回简单随机抽样:是指从总体中随机抽出一个样本单位,记录观测结果后,将其放回到总体中去,再抽取第二个,如此类推,一直到抽满为止;不放回简单抽样:从总体中逐个随机地抽取单元并不放回,每次都在所有尚未被抽入样本的单元中等概率抽取下一个单元,直到抽满为止。适用条件:抽样框汇总没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大。分层抽样:指先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本。如果每层种的抽样都是简单随机抽样,则成为分成随机抽样。优点(3个):不仅可以估计总体参数,同事也可以估计各层的参数;便于抽样工作的组织;每次都要抽取不定的样本单位,这样样本在总体中分布比较均匀,可以降低抽样误差。应用条件:抽样框种有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现同一层内,各单位之间的差异尽可能地小,不同层之间各单位的差异尽可能地大。系统抽样:指现将总体中的所有单元按照一定顺序排列,在规定范围内随机抽取一个初始单元,然后按实现规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。优点:操作简便;对抽样框的要求也比较简单。缺点:方差估计比较复杂,这就给计算抽样误差带来一定困难。系统抽样的估计效果与总体单位排列顺序有关。如果排列顺序与调查内容没有联系,称为按无关标识排列,这时系统抽样估计与简单随机抽样估计效率相仿;如果排列顺序与调查内容有关,称为按有关标识排列,精度一般比简单随机抽样的精度高。整群抽样:是将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的则不进行调查。优点:实施调查方便,可以节省费用和时间;抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框。缺点:由于抽取的样本单位比较集中,群内各单位之间存在相似性,差异比较小,而群与群之间的差别往往比较大,使得误差比较大。多阶段抽样:在大规模抽样调查中,一次抽取到最终样本单位很难实现,需要经过二个或二个以上阶段才能抽到最终样本单位。必要性:首先,在大范围抽样调查中,往往没有包括所有总体单位的抽样框,或者编制这样的抽样框十分款男;其次,因为多阶段抽样是在中选单位中在抽选,这样就使样本的分布相对集中,从而可以节省调查中的人力和财力。多阶段抽样设计比较复杂,所以抽样误差计算也比较复杂。6、估计量的性质:在不同的抽样方法下,统一估计量也会有不同的估计效果。估计量的常用选择标准(3个):估计量的无偏性:对于不放回简单随机抽样,所有可能的样本均值取值的平均值总是等于总体均值;估计量的有效性;由于方差是度量分布密集或离散情况的重要指标,估计量方差常用于描述抽样误差,估计量方差越大,效率越低,抽样误差越大;估计量的一致性:也称为一致估计量,指随着样本量的增大,估计量的值稳定于与总体参数的真值。7、抽样误差的估计:抽样误差与总体分布有关,总体单位值之间的差异越大,即总体方差S2越大,抽样误差就越大;抽样误差与样本量n有关,在其他条件相同的情况下,样本量越大,7、样本量的影响因素(5个):调查的精度:精度越高,误差越小,需要的样本量越大;总体的离散程度:离散程度越大,样本量越大;总体的规模:对大规模没有影响,对小规模来说:总体规模越大,样本量越大;无回答情况:无回答减少了有效样本量;经费的制约:样本量是调查经费与调查精度之间的某种折中和平衡。第二十六章 回归分析1、回归分析:就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达便变量间的依赖关系。 相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。相关分析研究变量之间相关的方向和相关的程度,不能指出变量间的相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要的方法。进行回归分析时,先确定自变量和因变量。2、根据自变量的多少可以分为一元回归模型和多元回归模型;根据回归模型是否线性分为线性回归模型和非线性回归模型。一元线性回归模型:是描述两个变量之间相关关系的最简单的回归模型。Y0+1Y+一元线性回归方程:E(Y)0+1Y3、最小二乘法:就是使得因变量的观测值yi与估计值yi之间的离差(又称残差)平方和最小来估计参数0和1的方法.4、回归模型的拟合效果分析:一般情况下,在使用估计的回归方程之前,需要对模型进行检验:结合经济理论和经验分析回归系数的经济含义是否合理;分析估计的模型对数据的拟合效果如何;对模型进行假设检验。 决定系数(一元线性回归模型拟合效果的测度方法):也称为R2,可以测度回归直线对样本数据的拟合程度,取值在0到1之间。决定系数越高,模型的拟合效果就越好。R21,说明回归直线可以解释因变量的所有变化;R20,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。5、模型预测:回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。第二十七章 时间序列分析1、时间序列:也称动态序列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。 时间序列的构成(2个因素):一个是被研究现象所属时间;一个是反映该现象一定时间条件下数量特征的指标值。 时间序列按照其构成要素中统计指标值的表现形式(3种类型):绝对数时间序列;相对数时间序列;平均数时间序列。绝对数时间序列是有绝对数指标值按时间先后顺序排列后形成序列。(2种)时期序列:每一指标值反映现象在一段时期内发展的结果,即“过程总量”;时点序列:每一指标值反映现象在一定时点上的瞬间水平。相对数时间序列和平均数时间序列是由绝对数时间序列派生出来的。2、发展水平:是时间序列中对应于具体时间的指标数值。也就是说,在绝对数时间序列中,发展水平就是绝对数;在相对数和平均数时间序列中,发展水平表现为相对数或平均数。 根据各期指标值在计算动态分析指标时的作用来划分,又可以分为基期水平和报告期水平。基期水平是作为对比的基础时期的水平;报告期水平则是所要反映与研究的那一时期的水平。3、平均发展水平:也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所得到的一般水平。时间序列类型不同,计算方法也不同。 绝对数时间序列序时平均数的计算:由时期序列计算序时平均数:yy1+y2+ynni=1nyin 由时点序列计算序时平均数:连续时点,逐日登记:yy1+y2+ynni=1nyin 连续时点,变动登记:yy1f1+y2f2+ynfnf1+f2+fni=1nyifii=1nfi 间断时点,等时间间隔:yy1+y22+y2+y32+yn-1+n2n-1 间断时点,不等时间间隔:yy1+y22f1+y2+y32f2+yn-1+n2fni=1n-1fi 相对数或平均数时间序列序时平均数的计算。相对数或平均数通常是由两个绝对数对比形成的。必须分别求出分子指标和分母指标时间序列的序时平均数,然后在进行对比。yab4、增长量:是报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。增长量报告期水平 - 基期水平 逐期增长量:是报告期水平与前一期水平之差,iyi-yi-1 累计增长量:是报告期水平与某一固定一期水平之差,iyi-y0i=1n(yi-yi-1)5、平均增长量:是时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。i=1n(yi-yi-1)nyn-y0N-16、发展速度:事宜相对数形式表示的两个不同时期发展水平的比值,表明报告期水平已发展到基期水平的几分之几或若干倍。发展速度报告期水平基期水平定基发展速度是报告期水平与某一固定时期水平的比值。aiyiy0 环比发展速度是报告期水平与前一期水平的比值。biyiyi-1定基发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论