




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、此为整本书的复习资料,假设应对期末测试, 那么不再测试范围内的请自动忽略第一章:总论统计含义:统计数据、统计活动、统计学统计学:关于如何搜集、整理和分析统计数据的科学.古典统计学时期国势学派一一德国_政治算术学派一一英国1一统计学开展历程近代统计学时期社会统计学派一一德国数理统计学派一一比利时现代统计学时期:推断统计统计学研究对象:现象的数量方面一统计数据定性数据定类数据计量尺度定序数据-定量数据定距数据L-M统计数据定比数据表现形式:绝对数、相对数、平均数来源:观测数据、实验数据加工程度:原始数据、次级数据时空状态:时序数据、截面数据总体:统计研究的客观对象全体,也称母体.特征:大量性、同质
2、性、差异性个体数量:有限/无限总体存在形态:具体/形象总体总体分类:个体计数:可计数/不可计数总体 人为判定个体:自然/人为总体 个体:组成总体的个别事物,也称总体单位.总体与个体关系:1.总体随个体数量可变大变小;2 .研究目的不同,总体中个体可改变;3 .研究范围不同,总体和个体角色可变换.样本:从总体中抽取一局部个体所组成的集合,也称字样.其不具唯一性,除非其实总体本身.样本数:总体中最多可抽取的不同样本数量.样本与总体关系:1.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;2 .样本用来推断总体:观测样本的目的是对总体数量特征作出判断.3 .总体和样本角色可改变标志:描述或表
3、达个体特征的名称,标志在每个不同个体的结果为标志变形 表示方式品质标志:说明个体属性特征 数量标志:说明个体数量特征 表现结果是否相同不变标志:每个个体上表现完全相同分类可变标志:每个个体上表现不同表现个体直接程度直接标志第一标志:直接说明个体属性或数量特征间接标志第二标志:两个或两个以上标志计算后通常比照 变量:狭义:可变的数量标志;变量是可变数量标志的抽象化;变量的具体数值一变量值标志值 广义:可变标志可变数量/品质标志定性变量定类变量定序变量一定量变量定距变量eT变量分类定比变量所受影响因素确定性变量随机性变量一是否连续离散型变量只能取整连续性变量随意取.统计指标:简称指标,是反映现象总
4、体数量特征的概念及其数值.组成:统计指标由指标名称和指标数值两个根本局部组成. 指标名称反映所研究现象的实际内容,是对现象本质特征的一种概括;指标数值时所研究现象实际内容的数量表现,是对总体本质特征的量的规定性,是对个体特征综合和计算的结果.统计指标和标志的联系和区别:区别:1.说明对象不同:指标说明总体的特征; 标志说明个体的特征;2.表现形式不同:指标用数值表达;标志既有文字又有数值.联系:1.标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合而来的;2.由于总体和个体确实定是相对的,可以换位,因而指标和标志确实 定也是相对的.计算范围总体指标样本指标一反响现象不同总体标志总
5、量数量指标总体容量Is_.指标反映现象内容不同反响时间状况时期指标 JY时点指标质量指标相对指标平均指标 反映现象时间状态静态指标动态指标第二章:统计数据的收集、整理与显示统计数据收集:根据统计研究目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程,是整个统计活动的根底阶段,通常也称统计调查阶段.根本要求:准确性核心、及时性信息价值表达、完整性分析需要统计数据收集方式:普查、抽样调查、重点调查及间接的统计调查一统计推算普查:根据特定的统计目的而专门组织的一次性的全面调查, 用以手机所研究现象总体的全面资料总体中所有个体都是观测单位分类:1.专门建立普查机构,
6、配备人员,如我国人口普查; 2.利用观测的原始记录是记录和核算资料,发表,由观测单位填报.如物资库存普查.特点:一般全国范围,涉及面广、工作量大、 需要大量物力人力 和财力.抽样调查:一种非全面调查,从总体中抽取样本,以样本推断总体. 根据抽取样本方式的不同,分为概率抽样和非概率抽样.特点:经济节省、时效性高、准确度高、灵活方便概率抽样从抽样方法上看分为重复抽样和不重复抽样;从抽样组织形 式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶 段抽样非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样几 种.数据收集误差:观测性误差和代表性误差.观测性误差:也叫登记性误差或调查性误
7、差, 事调查工作的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等各种人为因素干扰的误差. 在全面调查和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差可 能性越大.是一种非一致性误差.代表性误差:是在抽样调查中,由于样本不能完全代表总体而产生的估计结果与总体真实数量特征不符的误差.分为系统代表性误差和偶 然性代表性误差.系统代表性误差:由于抽样框用于抽取样本的名录不完善、抽样时违反随机原那么、被调查者误会等因素引起的误差, 等距抽样也会有 这种误差.是难以计算和限制的.偶然性代表性
8、误差:也叫抽样误差或偶然性误差,是由于抽样的随机 性引起的样本机构与总体结构不完全相符,从而产生的估计结果与总 体真值不一致的误差,这种误差在随机抽样不可防止, 但可以计算和 限制.统计分组:根据据统计研究的目的和事物本身的特点. 选择一定的标 志一个或多个,将研究现象总体划分为假设干性质不同的组或类的 一种攻击研究方法.性质:1.兼有分与合的双重功能,是分与合的对立统一; 2必须遵循 “穷尽原那么和“互斥原那么,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出选的情况;3具目的是在同质性的根底上研究总体的内在差异性,即尽量表达出分组标志的组间差异而缩小其组内差异;
9、4具在表达分组标志的组间差异的 同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一 定的限定性.分类:分组标志多少:简单分组:只按一个标志分组复合分组:按两个或两个以上标志进行层叠式分组, 先按第一个标志 分组,再按第二个两个标志进行复合分组时,还可以用交叉式,形成交叉分组表.分组标志性质:品质分组,即属性分组,总体按一个或多个品质标志分组,分组标志一经确定,各组名称、界限和组 数也就随之确定.数量分组,即变量分组,总体按一个或多个数量标志分组.是反映总 体内部数量差异的重要方法;难点是合理确定组 间数量界限和分组数,其结果形成变量数列.分布数列:在统计分组的根底上,将总体中的所有个
10、体按组归类排列, 并计算出各组的个体数,就形成频数分布.分配在各组的个体数,称 为频数或次数,各组频数或次数之和称为总频数或总次数, 各组频数 于总频数之比称为频率.将各组的频数或频率按分组的一定顺序加以 排列,就形成分布数列.分布数列有两个构成要素:统计分组所形成 的各个组和各组的聘书或频率.分类:按分组标志的性质不同,分为品质标志的品质分布数列和按数 量标志分组的变量分布数列.变量数列又分为单项式数列一个变量 值表示一个组和组距式数列一个变量区间表示一个组的变量数列 频数密度是频数与组距之比,频率密度是频率与组距之比,各组的频 数密度或频率密度可以进行比拟.注意:1.最小组的下限应略低于总
11、体的最小变量值, 最大组的上限应 略大于总体的最大变量值;2,连续型变量的各组组限必须重叠,采用“上限不在内原那么;3.开口组:最小组只有上限,最大组只 有下限;开口组一般按相邻组的组距加以确定,进而确定上下限. 4. 组中值,代表各组变量值的一般水平的数值, 是各组上限与下限的简 单算术平均数.第三章:变量分布特征的描述变量分布特征的描述:1.变量分布的集中趋势,反映变量分布中各变 量值向中央值靠拢或聚集的程度;2.变量分布的离中趋势,反映变量 分布中变量值远离中央值的程度;3.变量分布的形状,反映变量分布 的偏斜程度和尖陡程度.平均指标:将变量的各变量值差异抽象化,以反映变量值一般水平或
12、平均水平的指标,即反映变量分布中央值或代表值的指标. 平均指标 的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置 平均数.作用:1.反映变量分布的一般水平,帮助人们对研究现象的一般数量 特征有一个可观的熟悉;2 .利用平均指标可以对不同空间的开展水平进行比拟, 消除因总体规 模不同而不能直接比拟的因素,以反映他们之间总体水平上能够存在 的差距,进而分析产生差距的原因.3 .利用平均指标可以对某一现象总体在不同时间上的开展水平进行 比拟,以说明这种现象开展变化的趋势或规律性.4 .利用平均指标可以分析现象之间的依存关系或进行数量上的推算5 .平均指标可以作为研究和评价事物的一种数量标
13、准或参考.算术平均数:也称均值,是变量的所有取值的总和除以变量值个数的 结果.简单算术平均数:根据未分组数据计算的,直接将变量的每一个变量 值相加,除以变量值的个数.?= ?+?T?二 3?_1? ?可简记为?=可 ?一|?加权算术平均数:根据变量数列,即以各组变量值或组中值乘以 相应的频数求出各组标志总量,加总各组标志总量得出总体标志总量,再用总体标志总量除以总频数O?=?+?+? ?%?+? ? 一可简记为??=汇? ?汇?算术平均数的数学性质:1.各变量值与算术平均数的离差之和等于零,即汇??7 ?= ?对于简单算术平均数或 EXi - ?fi = 0 对于加 权算术平均数;2 .各变量
14、值与算术平均数的离差平方和为最小值,即万??7 ?=最小值或?Xi - ?2 <EXi - X0A2,只有当?= X0时, 等号成立.算术平均数优缺点:优:1.可以利用算术平均数来推算总体标志总量, 算术平均数与变量值之乘积等于总体标志总量变量值总和;3 .由算术平均数的数学性质知,算术平均数在数理上具有无偏性与有效性方差最小性;4 .其具有良好的代数运算功能局限性:1.算术平均数易受特殊值特大或特小值影响;2.根据组距数列计算算术平均数时,由于组中值具有假定性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时,算术平均 数的准确性会更差.调和平均数:是平均数的一种,是变量值的倒
15、数的算术平均数.分为简单调和平均数和加权调和平均数.简单调和平均数:当各组的标志总量相等时,所计算的调和平均数称?|_| H=?河+?刘?为简单调和平均数;设总体分为 k组,每个组的标志总量都为ks3?可简记为H? ?"%f加权调和平均数:当各组标志总量不相等时,所计算的调和平均数要 以各组的标志总量为权数,其结果为加权调和平均数.口?叶?+? ?E?=? /5的二口 斗L_lW?H"妨一"? =o? ?可间I己为H=-?+? ?2?=?'?简单和加权调和平均数的联系和区别: 区别在于计算过程中应用的数 据条件的不同前者以各组频数为权数,后者以各组标志总量
16、为权数,但它们都符合总体标志总量与总体总频数的比照关系,事实上,两者是可以相互变通的.对于同一现象,无论用加权或是简单调和平均数,计算结果是相等的,无非是因数据条件不同采用了不同的计算形式.由相对数或平均数计算平均数 不管是用加权算术平均数公式还是加权调和平均数,都要从相对数或平均数指标本身的经济含义出发来计算,这是一个很重要的原那么.几何平均数:是计算平均比率或平均速度常用的一种方法. 分为简单几何平均数和加权几何平均数.简单几何平均数: 就是变量的n个变量值连乘积的 n次方根.G=3? ??=?=?,??(可简记为G=?v/ff?加权调和平均数:当计算几何平均数的各种变量值出现的次数不等,
17、 即数据经过了统计分组时,那么应采用加权几何平均数.记为G=?vH ?戒?算术、调和、几何平均数的数学关系:单从数学意义上说三者大小关 系为:H<=G<=?位置平均数中位数:变量的所有变量值按定徐尺度排序后, 处于中间位置的变量 值,由于处于中间位置,可以用来代表变量值的一般水平,可以预测 定量变量的集中趋势,也可测定定序变量的集中趋势,但不适用于定 类变量.中位数确定:1.根据未经分组的原始数据来确定?( ?+? ,n 为奇数< ?=?<? + ?(?+耳,n 为偶数一2.根据变量分布数列来确定按组距数列来计算中位数,首先要计算各组的累计频数,然后找出中位数所在的位置
18、,即累计次数大于或等于万??2的组,严格上讲是91,简化起见取 金.下限公式:.? ?2? ?= ?+ 一 ?- X ?-?L为中位数所在组的下限,?力中位数所在组的频数,??/为向 上累计至中位数所在组下一组止的累计频数, d为中位数所在组的组 距.上限公式:*?QQ.?+?= ?- “X ?U位中位数所在组的上限,?991为向下累计之中位数所在组上一组的 ?+1累计频数.中位数优缺点:优:1.作为一种位置平均数,概念比拟清楚;2 .不受变量数列中特殊值的影响;3 .组距数出现开口组时,对中位数无影响4 .当某些变量不能表现为数值但可以定序时,不能计算数值平均数而 可以确定中位数.局限性:1
19、.不能像算术平均数那样进行代数运算;2.除了变量数列的中间局部数值外,其他数值的变化都不对中位数产生影响,因此中位数的灵敏度较低.分位数:以四分位数为例,分为第一、第二和第三四分位数,分别为?2?3?,?% 位置分别为:琮t?,?.具体计算方法可参考中位数的计 算方法.众数:是变量数列中出现次数最多、频率最高的变量值.众数确实定:1.根据单项式数列确定众数直接找出频数最多或出现频率最高的变量值即可.2.根据组距式数列来确定众数,先要找出频数最多的一组作为众数组,然后运用以下公式来确定众数:下限公式:?= ?仔?汁? X ?式中?1为众数组频数与上一组从左往右频数之差,?2为众数 组频数与下一组
20、频数之差,Ld含义与中位数公式中一样.上限公式:?2.市,?U位众数组的上限 众数特点:1 .不受数列中特殊值的影响,表示某些现象的一般水平会具有较好的代表性;2 .具有较广的应用面,可用于测定任何变量的集中趋势;3 .众数只有在总频数充分多且某一组的频数明显高于其他组时才有意义,假设各组的频数相差不多,那么不能确定频数;4 .有时一个数列会有两个组的频数明显最多,这就会有两个众数, 该数列属于双众数数列.中位数、众数和算术平均数的关系:1 .在变量分布完全对称正态分布时,中位数、众数和算术平均数 三者完全相同,即?= me = ?%2 .在变量分布不对称偏态分布时,中位数、众数和算术平均数三
21、 者之间存在着差异.当算术平均数受极大值一端影响较大 时,变量分布向右偏右边更 低,三者关系为???< ?< ?当算术平均数受极小值一端影响较大 时,变量分布向左偏左边更 低,三者关系为?< ?< ?离散指标:反响变量值变动范围和差异程度的指标, 即反映变量分 布中各变量值远离中央值或代表值程度的指标反映变量分布的离中趋势.作用:1 .可以用来衡量和比拟平均数的代表性;2 .可以用来反映各种线下活动过程的均衡性、节奏性或稳 定性;3 .为统计推断提供依据.离散指标的测度: 全距:变量的最大值?义?与最小值?多?力之差,也叫极差,表 明变量的最大变动范围或绝对幅度.通常用
22、 R表示,即R=? ?四分位差:是四分位数中第三个四分位数与第一个四分位数之差, 也称内聚或四分位间距,通常用??患示,即?>?= ?3?- ?3?S四分位差通常与中位数结合,用以说明变量分布中间50%值的离散程度,其值越大小,说明变量中间数值的分布越集中离散,中位数的代表性越好越差.异众比率:是分布数列中非众数组的频数与总频数的比值,通常用卫卫?二?2金E?-E?来表示,即?二?/众数组的频数.平均差:是变量的各变量值与算术平均数离差绝对值的算术平均数,说明各变量值与算术平均数的平均差距.通常用A.D来表示,即A. D旦等?1 根据为分局数据,可简记为A.D汽詈或A.上应*也?根据变量
23、数列,可简记 E?=1?为 A.dR*?平均差由于利用全部数据信息,因而比全距、四分位差等更能比拟客观反映变量分布的离散程度.平均差越大,离散程度越 大;平均差越小,离散程度越小.但每一个离差都取了绝对 值,数学处理不方便,数学性质不是最优,也有局限性.方差和标准差: 方差:各变量值与均值的离差平方的算术平均数,标准差那么是方差 的平方根.计算公式:T?="?根据未分组数据,可简 ?.?一??记为?空二遍?-?或?= 一?,、?E?=? ?(?)? ?一?二?解?可简记为?= ?汇?初???E?方差和标准差利用了全部数据信息,因而能准确反映变量分布的离 散程度.方差或标准差越大,表示
24、变量分布离散程度越大;反之,越小.标准差和平均差相比,不仅具有平均差的优点,而且弥补了 平均差的缺乏,意义比平均差明确.方差和标准差的性质:1. 常数的方差为零.假设常数为a,常数的方差?石,那么?部02. 假设y=a+bx, a、b为常数,那么y的方差?与x的方差?之间的关系为 ?= ?承3. 标准差s是计算标准化值的依据.假设变量的标准化统计量用Z表示,标准化值用??表示,那么?= -?-? . Z服从均值为?零,标标准差为1的标准正态分布,是无量纲.通过计算标准化值可以使处于不用均值水平、不同计量单位的变量值之间的比拟成为可能,使比拟的对象找到统一标准的相对位置.离散系数:也叫离散系数变
25、异系数或标准差系数,是变量的标准差与均值之比,通常用??来表示,即??= -?离散系数越大,说明变量 ?分布的离散程度越强,平均数的代表性越差;离散系数越小,说明变量分布的离散程度越弱,平均数的代表性越好.偏度系数:可以告诉我们变量分布是左偏还是右偏,受低端变量值影响大还是受高端变量值影响大.?2 ?99 ?1.利用算术平均数与众数或中位数求离差偏度系数?变动范围为-3,3 ,当为正值时,变量分布正偏,当为负值时,变量分布负偏.等于零时,变量分布属于无偏正态分布.其值的绝对值月接近3,说明变量分布的偏斜程度越严重,越接近零,说明变量分布的偏斜程度越稍微.2,利用四分位数求?2)=?+ ?- 2
26、?- ?取值范围为-1,1,其值的绝对值越接近1,说明变量分布的偏斜程度越严重,值的绝对值越接近零,说明变量分布的偏斜程度 越稍微.3,利用动差法求最常用令常数a为变量分布的中央,那么所有的变量值与 a值之差的t次方的算术平均数就称为变量x关于a的t阶动差,即1V?T阶动差二基且等?根据未分组数?据,可简记为t阶动差=,? ?或T阶动差?Z ?根据变量数列,可简记为t阶动差=汇?"? 汇??当a=0时,t阶动差称为t阶原点动差,假设以??表示,那么T?Zj?一阶原点动差为:?*马%?Q=,即算术干?E?均数.二阶原点动差以此类推当a=?时,t阶动差称为t阶中央动差,假设以?3表示,那
27、么 ii一阶中央动差为:? =或?i = W?2-J?二阶中央动差以此类推很显然,一阶中央动差??, = 0,偶数阶中央动差恒为正其中二 阶中央动差就是方差,即? = ?而三阶以上的奇数阶中央动 差可正可负.当?2 = 0时,表示变量分布无偏;当?>0时,表示变量分布是正偏,当??3 <0时,表示变量分布是负偏.将?Z与标准差的立方??比照,便得到动差法的偏度系数,即?当?/? >0时,表示变量分布正偏;假设??? <0,表示变量分布负偏;当??? =0,表示变量分布两边对称,无偏.?的绝对值越接近零,表示变量分布的偏度越轻微;反之,偏度越严重.峰度系数:可以告诉我们根
28、不是尖陡还是扁平,即频数频率分 布绝大局部集中于众数附近还是各变量值的频数频率相差不大如果各变量值的频数或频率相等,那么分布呈一条直线,无峰顶可计算:主要通过动差法,是四阶中央动差与标准差四次方 ?密目比的 结果,即?K=?峰度系数的标准值为3.当K=3时,变量分布的峰度为标准正态峰 度;当K<3时,变量分布的峰度为平顶峰度;当 K>3时,变量分布的峰度为尖顶峰度.更进一步,当 K值接近于1.8时,变量分布曲线就趋向于一条水平线,表示各组分配的频数接近于相同.当K小 于1.8时,那么变量分布曲线为“ U'形曲线,表示变量分布的频数分配是“中间少,两头多.第七章相关回归分析现
29、象之间的数量关系,大致可以分为两种不同的类型:函数关系和统计相关关系.函数关系指现象之间确实定性的数量依存关系.两 个变量x与y之间的函数关系一般可以表示为 y=fx.相关关系:也称统计相关,是指现象之间存在的非确定性的数量依存关系.数学一般形式:y=f x +a,其中a为随机误差.值得注意的是,相关关系不能通过个别现象表达出其关系的规律性,必须在大量现象中才能得到表达.相关关系分类:1 .根据相关关系涉及的因素变量的多少,可分为单相关和复相关;2 .根据相关关系的表现形式不同,可分为线性相关于非线性相 关.对于一元相关,即为直线相关和曲线相关;3 .对于单相关,根据现象数量变化的方向不同,可
30、分为正相关和 负相关4 .根据相关程度不同,可以分为完全相关、不完全相关和无相 关.相关分析:广义上讲,对两个或两个以上现象之间数量上的不确定 性依存关系进行的统计分析,即为相关分析.内容:1 .判断确定现象之间有无关系以及相关关系的具体表现形式;2 .确定相关关系的密切程度;3 .检验现象统计相关的显着性,包括检验相关关系的存在性、 检验相关关系强度是否到达一定水平,检验两对现象相关程 度的差异性,估计相关系数的取值.相关关系的测度:一:相关关系的一般判断1 .定性分析:根据一定的经济理论和实践经验的总结,对社会 经济现象进行科学的定性分析,以判断它们之间是否具有相 关关系以及相关关系的类型
31、.2 .相关表和相关图:简单相关表:利用未分组的原始资料,将两个现象的变量值 一一对应地填列在同一张表格上,这就叫简单相关表,适用于资料的项数较少的情况.分组相关表:1 .单变量分组表:只对自变量进行分组,因变量不分组,只 是计算出其次数和平均数,这种表成为单变量分组表.可 以使原始资料大大简化,在原始资料较多的情况下,使用 单变量分组表能更清楚地反映现象间的相互依存关系,找 出变量间数据变动的规律性.2 .双分组变量表:将自变量和因变量都进行分组制成的表称为双变量分组表.适用于大量复杂数据的处理和分析.相关系数的测定:直线相关系数的计算:对于定距尺度的连续变量x和y,测定它们之间的线性相关关
32、系最常用的方法是采用皮尔逊相关系数.根据资料情况不同,有不同的计算形式.其中的积差法是最根本表达式1.积差法:?=?其中r为直线相关系数,?裾变量数列x的标准差,??是变量数列y的标准差,??是变量数列x和y的协方差.?=k (x- ?) (y- y)?0 12 .积差法在计算过程中要使用两个数列的平均数,当平均数的小数位很多或除不尽时,计算会比拟繁杂且影响最终结果的精确性.因此常常采用其简捷公式:?=?E?三?乏? /?(?)v?1?-(汇?3 .利用分组资料计算相关系数(1) 根据单变量分组表计算相关系数,可以在简单相关的根本公式上,以每组的次数作为权数进行加权计算, 公式如下:k(?Q
33、?R?Q ?=一: 心(? ? 2加£ (?2 ? ?(2) 根据双变量分组表,也能计算相关系数,但一般很少采用.计算公式为:E (?Q ? (? ? ?=. /?/?Vf (?Q ? ?>VE (? ? ?星x与y交叉组的次数.直线相关系数的统计检验: 检验的内容包括两个局部,一是总体线 性相关的存在性检验,即检验总体线性相关系数是否为零;二是总 体线性相关差异性检验,检验某一总体线性相关程度是否等于(或 者单侧检验大于或小于)某一特定值,以及检验两个相关系数是否 来自同一相关总体.设随机变量(X,Y)服从正态分布.总体相关系数记为P,那么对于由 样本资料(??? ???(i
34、=1,2,n)计算的皮尔逊相关系数r,需要 检验一下原假设和备择假设:?: p=o?: p?0在?成立情况下,有以下t统计量:?= ?-?t(n 2)?在给定显着性水平下,当t>?;2(n-2),即表示总体线性相关系数显 着不等于零,即线性相关关系(在一定程度上)是存在的.皮尔逊直线相关系数r的取值含义:(1) r的取值有一定范围,在-1和+1之间,即-1<=r<=1;(2) r的正负号只表示相关的方向,不表示相关程度的大小,即r>0表示正相关;r<0表示负相关.(3) 相关程度的大小要看相关系数绝对值的大小.即|r|越接近1,表示密切程度越强;|r|越接近于0,
35、表示相关密 切程度越弱;(4) 为了使判断有一定的标准,一般将相关程度设为以下几个不同的等级:r<0.3为无相关,0,3<=r<=0.8为低度相 关,0.5<=r<=0.8为中度相关,r>0.8是高度相关.(只 有样本量较大时,这一判断才成立).(5) 皮尔逊直线相关系数是一种线性(直线)相关程度的度量.两个变量的皮尔逊相关系数低,只能表示他们之间 线性相关程度很低,不表示它们之间其他形式的相关密切程度很低.等级相关系数的测定方法:就是把有关联的定序变量按等级次序排列,形成x和y两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标叫做等
36、级相关系数.斯皮尔曼相关系数(1) 定等级.将变量x和y的观测值按从小到大(或从大 至力、)顺序排出等级,形成两个序数数列.(2) 计算x和y两个序数数列的每对观测值的等级之差,记作 D, D=X-Y.?E ? (?- ?(3) 按下述公式计算挈?= ?0在一般情况下,斯皮尔曼相关系数 ??勺取值范围亦为【-1,1完全 正相关时,两数列等级一致,?= 1;完全负相关时,两数列等级相 反,?=-1.肯德尔等级相关系数:交错级数.?乏?= ?Q? (?2 ??换位总次数.肯德尔相关系数的取值范围也为【-1,1当等级数列x和y的等级完全一致并按同一方向变化时,那么 ?/1,表示x和y的等级之间完全正
37、相关.回归分析:特点:(1) 在两个或两个以上变量中,必须根据研究目确实定其 中一个为因变量,其余为自变量;(2) 在相关分析中,两个变量都是随机的,而在回归分析 中,要求因变量是随机的,而自变量是给定的;(3) 假设变量之间互为因果,或是没有明显因果关系,那么可 以求出两个回归方程,对于相关分析来说,两个变量 之间只能求出一个相关系数;(4) 回归方程有较强的应用性.直线回归方程: 理论模型:y=?在??? 估计模型:y=a+bxa、b确实定:?= ? T?之?k?-( k?)E?- ?E?= ? ?2 ?回归系数b是回归直线的斜率,其含义为:自变量 x每增加(或减 少)一个单位,因变量y将
38、平均增加(或减少)b个单位 回归估计标准误:离差平方和的平均数称为剩余方差,记为 ??,?加E (?Q ?2 ? n-2为自由度,这是由于按最小二乘法求解两个参数a和b,受到两 个正规方程的约束,失去两个自由度.对剩余方差开方就得到回归估计标准误,又称估计标准误差,它是衡量回归估计精确度上下或回归方程代表性大小的统计分析指标.其计算公式为?=“A (?Q *?- ? ?筋的下标yx表示以y为因变量的回归故居标准误 回归方程判定系数可决系数: 在直线回归方程中,实际观察值 y的大小是围绕其平均值,上下波动 的,y的这种波动现象称为变差.产生原因有二:(1) 受自变量x的影响,x取值不同会影响y取
39、值不同;(2) 受其他因素影响包括随机因素和观测误差的影响.把工y- ? 2称为总变差通常记为SSD,其中万yc- ? 2是由x变动造成的变差,E y- yc 2称为回归变差通常记为SSR,是随机因素引起的变差,称为随机变差或剩余变差 SSE .总变差=剩余变差+回归变差,SST=SSR+SS E回归变差占总变差的比值,可以作为衡量两个变量之间相关程度大 小的统计指标,记作?二?£(?E (?Q在大样本下,可化简为:?E (?Q ?T (? ?= ?2?嘲?犷? 一?%对上式稍作转换,可得:?= ?? ?R,称为判定系数,又称可决系数,它是相关系数 r的平方.它表 明自变量x的方差对
40、因变量y的方差的解释程度,换句话说,它表 明y的方差中有多大程度是由x原因引起的,判定系数一般用来反 映回归方程的拟合程度.R值越大,说明相关程度越密切,这时?乐值越小,也就是观测点离 回归直线越近.当r值大到r=±l时,?= 0,此时,所有的观测 点都在回归直线上,也就是完全相关.反之, r值越小,那么?筋越 大.因变量的置信区间估计:步骤:1 .由样本数据x求出估计值yC及其标准差??)?2 .利用标准化正态分布曲线下的面积查对表,就可以在一定的 概率保证下对总体估计值做出置信区间估计.其公式为;?分??0?齐??£ ?+ ?粉? 第八章时间数列分析时间数列:是某一指标
41、数列按时间先后顺序加以排列而形成的统计 序列.由于时间数列从动态上反映社会经济现象的数量开展变化, 所以又称动态数列综合分析法水平分析法速度分析法时间数列分析法薄不波动长期波动数学模型法季节波动时间数列构成要素L(1) 现象所属时间;(2) 现象在响应时间所到达的水平(指标数值).时间数列的分析意义:(1) 通过观察时间数列,可以了解社会经济现象总体的动态变化全过程;便于人们全面地熟悉事务的开展反方向和 速度;(2) 通过分析,可以研究哪些因素对时间数列数值的大小起作用,进一步掌握事物开展变化的趋势和规律性;(3) 根据时间原有的开展规律,进行短期预测或长期预测,是生产、治理、决策过程中不可缺
42、少的有力工具.时间数列的分类;一.总量指标时间数列定义:也称绝对数时间数列,是由总量指标按时间先后顺序排列 而形成的统计数列,反映现象在不同时间上所到达的规模、水平 或工作总量.分类:1 .时期数列:指同类的时期指标按时间先后顺序形成的数列, 是数列中的各期指标值反映社会经济现象在 一定时期累计达 到的总量.特点:(1) 数列中不同时间的指标数值可以累计;(2) 指标值的大小和时期长短有直接关系,一般来说,时期越长,数值越大;(3) 指标值一般是通过连续登记获取的.举例:社会商品零售额、居民总收入、进出口贸易总额等.2 .时点数列:是时点指标按时间先后顺序排列形成的统计数列 其指标反映经济现象
43、在 某一时点或某一瞬间 所到达的水平.特点;(1) 数列中不同时点上数值不可累计(或相加没有意义);(2) 指标数值的大小和时间长达没有直接关系;(3) 时点指标的数值一般是通过不连续登记取得的.举例:商品库存数、企业数、存款余额等.2 .相对数时间数列定义:相对指标按时间先后顺排列形成的数列,反映社会经济现象 之间数量比照关系的开展变化过程.相对指标很多,大多数是由两 个总量指标比照派生出来的.由于相对指标计算时抽象了基数或绝对数的差异,因此相对指 标不仅在空间上不具有直接相加性,而且在时间上也不具有直接可 加性.也就是说相对时间数列是不可直接相加的.3 .平均数时间数列定义:平均指标按时间
44、先后顺序排列形成的数列,反映现象的一般水平在不同时间上的开展变化情况. 是由两个总量指标时间数列对 比形成的派生数列在时间上不具有可加性.时间数列的影响因素:1 .长期趋势定义:是指时间数列中指标数值在 较长一段时间内,由于受普遍 的、持续的、决定性的根本因素的作用,是开展水平沿着一个方向 持续向上或向下开展或持续不变的根本态势.作用:通过长期趋势分析,可以了解经济现象在一段相当长的时间 内开展的方向、趋势和规律,便于进行预测和决策.2 .季节变动定义:数列中各期指标值随 着季节交替而出现周期性的有规那么的 重复变动,这里的时间通常指一年.扩展:只要呈现重复变动,不 仅是年中的季节,每月,每周
45、,每天而且每小时的周期性变动,均可称为季节变动3 .循环变动定义:与季节变动相类似,但循环变动所需的时间更长,重复变动的规律性、变动周期和时间也不像季节变动来的稳定、可以预料.产生原因:自然灾害,战争,人口剧增或剧减,开发新的基建工程,经济的萧条和复苏等.4 .不规那么变动定义:是由未能得到解释的一些 短期波动所组成的,常指时间数列 由于受偶然因素或意外条件影响,在一段时间内通常指短期呈 现不规那么或自然不可预测 的变动.因素分析模型:加法模型:Y=T+S+C+I乘法模型:Y=tsci时间数列的编制原那么:1 .时间的一致性:对于时期数列,每个时期指标所含 时间长短应该 相等;对于时点数列,每
46、一数值所处时点应该统一;2 .总体范围的一致性:基于区域的统计指标,区域范围应一致;时 间数列中各期指标值的总 体单位标准应该相同;3 .经济内容一致性:经济内容是指一个理论形态统计指标的内涵及与之相适应的外延.对于价值量指标,计算内容的一致性还包括计算价格的可比性;4 .计算方法的一致性.时间数列的水平分析:编制时间数列的目的是从中寻找现象数量开展变化的统计特征与统计规律.1 .开展水平指标:是反映现象实际已经到达的规模和水平,是时间数 列的最根本指标,时间数列中的 各项指标数值,就是开展水平.2 .平均开展水平:一个现象在不同时间上有上下不同的水平值, 因此 反映这个现象在这一段时间之内的
47、总体水平或代表性水平需要通 过平均数来刻画,即计算“平均开展水平.平均开展水平又称“序时平均数或“动态平均数.序时平均数与一般平均数的联系与区别:联系:都是反映现象的一般水平或代表性水平,都是平均数;区别:一般平均数是根据变量数列计算的,把数量标志在某一时间 上的水平抽象化,从静态上反映现象的一般水平或代表性水平; 而 序时平均数是根据时间数列计算的,把同一现象在不同时间上的 差异抽象化,从动态山反映现象的一般性水平或代表性水平.2.1 时期数列序时平均数的计算:对于时期数列而言,由于各期指标值可以累计,它的序时平均数可直接用简单算术平均数法计算,即?+ ? + ? U?=?= -?.? 2.
48、2 时点数列序时平均数的计算:根据时点指标登记的连续性及时间间隔的不同,有四种情况:连续且等间隔,连续但不等间隔,不连续但等间隔,不连续且不等间隔.所 谓连续,通常是指“每天都登记但如果时间数列的时间单位以小 时或分钟或秒来表示时,那么连续便分别指“每小时都登记,“每分 钟都登记",“每秒钟都登记.其序时平均数就是时点登记值的简单算术平均数,即?+ ? + ?E?=?= - =? 登记的时点数列: 两次登记之间的时间间隔可能不完全相等,间隔的时间长度通常是天数代表了相应开展水平“稳定不变的天数,因此序时平均数 的计算从形式上看就是一个以间隔天数为权数的加权平均数,即?= 工?=?
49、163;?=?+ ? + ?+ ? + ?2.2.3 不连续登记间隔相等的时点数歹U: 由于相邻两点时点的开展水平是在变化的,但又缺乏实际数值,通 常假设两点之间的变化时均匀的,或者是“中点对称的.故其序时平均数采用“首尾折半法.即期内一般水平_期初开展水平+期末开展水平?+ ? + ?= '-?+ ? + ? + ?-1 + ?2+ . +2?苛 + ? + ? + ?.1 + -2?其中最后一个式子中的n容易出错,要谨慎.2.2.4 不连续登记且间隔不等的时点数列: 使用间隔的时间长度作权数,作加权的序时平均数,即空7?+ ? + ?II ?=?+ ? + ?2i?产?+ ? +%
50、=??+ ? + ?2.3 .相对数和平均数序时平均数的计算:相对指标或平均指标c的时间数列,其序时平均数计算时,应该先分别计算分子指标和分母指标时间数列的序时平均值?和 ?,然后再把两个序时平均值作比照,即为指标 c的序时平均 值?,即相对数或平均数时间数列的序时平均数计算,其关键是搞清楚这一相对数或平均数的分子、分母指标内容与性质,再选 择相应的公式即可.3 .增长量指标定义:是反映现象数量变动的常用指标,它是指现象在一定时期内开展水平增加或减少的绝对数量,即增长量=报告期开展水平一基期开展水平种类:由于比照的基期不同,增长量有逐期增长量(也称“环比增长量)和累计增长量(也称“定基增长量)
51、,即逐期增长量=报告期开展水平一上一期开展水平累计增长量=报告期开展水平一上一期开展水平逐期增长量和累计增长量的关系:(1) .逐期增长量之和等于相应的累计增长量,即(?- ?+ ? (?- ?£?» = ?. ? (2) .两相邻累计增长量之差等于相应的逐期增长量,即(1) 7 ? - (?-? ? = ? ?-?基于增长量的相关指标:(2) 年距增长量:以月份、季度为时间单位的时间数列,其增长量通常是与“上年同月或“上年同季开展水平相减,以计算所谓的“年距增长量,即年距增长量=报告期某月(季)开展水平一上年同月(季开展水平)这一指标可以消除季节性变化对时间数列开展水平的影响,因此特别 适宜于有季节性波动的现象增长量的分析. 政府统计工作者通常称为“同比增长量.(3) 边际倾向指标:?- ?m =一?- ?这一指标的含义:指标b每增加以单位引起指标a增 加的绝对量.因此它常常用来测度指标 b增长对指标 a增长的奉献大小.4,平均增长量指标:定义:说明现象在一定时期内平均每期增加的数量,等于各期逐期增长量相加除以其个数,即平均增长量=逐期增长量之和/逐期增长量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中国移动上海产业研究院博士后专项招聘笔试题库历年考点版附带答案详解
- 2025中国电信安全公司春季校园招聘笔试题库历年考点版附带答案详解版
- 2025年工业0行业智能制造与自动化生产研究报告
- 2025年建筑行业智能建筑技术与建筑设计研究报告
- 2025年数字货币行业区块链技术应用与未来发展研究报告
- 2025年文化传媒行业数字内容价值创新报告
- 土地分配的协议书
- 2025年区块链行业区块链技术应用案例与未来发展前景报告
- 2025年家居装饰行业个性化定制与绿色环保发展研究报告
- 2025年石油化工行业低碳生产技术研究报告
- DB51T 3149-2023 四川省电力用户受电设施及配电设施运维检修服务管理规范
- 临床前药代动力学指导原则
- 生物大分子的分离纯化和鉴定
- 轮胎拆装机的安全操作规程
- 社保退休的调档函格式
- prs7910数据网关机技术使用说明书
- GB/T 3810.4-2016陶瓷砖试验方法第4部分:断裂模数和破坏强度的测定
- 手术室进修护士结业理论考试题附答案
- 2004三菱格蓝迪grandis维修手册
- 组织行为学MBA全套课件
- 光伏施工方案
评论
0/150
提交评论