LECTURE 6-1经济计量的基本问题与描述性分析_第1页
LECTURE 6-1经济计量的基本问题与描述性分析_第2页
LECTURE 6-1经济计量的基本问题与描述性分析_第3页
LECTURE 6-1经济计量的基本问题与描述性分析_第4页
LECTURE 6-1经济计量的基本问题与描述性分析_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LECTURE 6-1 计量经济建模计量经济建模中的若干基本问题中的若干基本问题阚京华计量经济建模中的若干问题计量经济建模中的若干问题 一、思想问题一、思想问题 二、本性问题二、本性问题 三、技术问题三、技术问题 四、模型问题四、模型问题 五、数据问题五、数据问题 六、数据分析与检验六、数据分析与检验一、思想问题 (一)一个好的想法(一)一个好的想法 研究的三个层次研究的三个层次战略研究战略研究建模研究建模研究实证研究实证研究天气的变化与股票价格的关系?天气的变化与股票价格的关系?星期一、星期五与股票价格的关系?星期一、星期五与股票价格的关系?(二)是否可以证明?(二)是否可以证明? 描述性统

2、计:均值、方差、最大值、最小值、偏描述性统计:均值、方差、最大值、最小值、偏态态 计量模型:涉及到结构性问题计量模型:涉及到结构性问题 模型的功能:模型的功能:1.结构性分析:应用经济计量模型对经济变量之间结构性分析:应用经济计量模型对经济变量之间的关系做出定量的度量的关系做出定量的度量2.预测功能:应用经济计量模型进行定量分析,提预测功能:应用经济计量模型进行定量分析,提供现有数据意外的某些变量的预测值,给出经济供现有数据意外的某些变量的预测值,给出经济变量值的预测结果。变量值的预测结果。3.政策评价:通过经济计量模型仿真各种政策措施政策评价:通过经济计量模型仿真各种政策措施的效果,对不同的

3、政策方案进行比较和选择。的效果,对不同的政策方案进行比较和选择。 (三)数据的获取(三)数据的获取 人大经济论坛(人大经济论坛(检索)检索)二、本性问题 1.回归方程相当是对总体的一次抽样,所以在研究区间内,实务的本性不能发生改变。(总体必须具备一致性,抽样必须是随机的) 2.模型设计一定要完整,所有的解释变量都包含在模型中,随机误差项必须“”均值,无序列相关或自相关,同方差。 3.模型不能是有偏的。模型参数的估计式的均值或期望值等于参数真值。三、技术问题 =0 1 1 + 2 2 + 3 3 +.+ i i t 1. 1 ,2 ,3 ,.i 是相互独立地,不存在多重共线性; 2. 1 ,2

4、,3 ,.i 是确定性的变量,不存在内生性; 3. t是“0”均值,同方差,无序列相关性(自相关) 4. i 与t不相关 (一)内生性:不是确定性变量,是一(一)内生性:不是确定性变量,是一个随机变量,受另外变量的影响,当期的个随机变量,受另外变量的影响,当期的内生变量一般都具有内生性问题。解决的内生变量一般都具有内生性问题。解决的方法是方法是使用工具变量或联立方程使用工具变量或联立方程。如:。如: 利率利率=0 1 投资投资 + 2 2 + 3 3 +.+ i i t 而投资解释变量是不确定的随机变量,是而投资解释变量是不确定的随机变量,是另一个模型的被解释变量。另一个模型的被解释变量。 =

5、0+ + t 若具有内生性,则可以另=0+-1 +.;或者设立联立方程y= 0+x+x= 0+z+联立方程解决内生性问题,使用二阶段最小二乘法。 文献:企业社会责任与企业价值的相关性研究文献:企业社会责任与企业价值的相关性研究来自沪市上来自沪市上市公司的经验证据市公司的经验证据 李正李正 中国工业经济中国工业经济 20062006年年2 2月月H1: 企业社会责任与企业价值之间的关系是负相关的。企业社会责任与企业价值之间的关系是负相关的。 TobinQi, t=0+1idcsri, t+2guoki, t+3lnasseti, t+4( ld/asset) i, t+5industryi+6t

6、op1i, t+7top2to5i, t+8top6to10i, t+ 但是, 根据国外以往的研究文献, 企业从事CSR 活动受到企业规模、资产负债比率、前一年度的盈利能力、是否为重污染行业、公司治理因素等多个因素的影响,这就产生了内生变量的问题,不能直接使用最小二乘法, 而应当使用两阶段最小二乘法, 并据此构建了模型( 2) 。 idcsri, t=0+1sti, t+2roei, t- 1+3guoki, t+4lnasseti, t+5levi, t+6zhongwui, t+ ( 2) 对模型( 2) 进行回归, 得出idcsri, t 的估计值, 带入模型( 1) , 作为idcsr

7、i, t的工具变量, 这样就剥离了资产规模、公司治理因素( 是否国有股控股) 和资本结构的影响, 得出idcsri, t 与TobinQi, t 的关系。 (二)多重共线性:模型中的一个解释变量包含了或部(二)多重共线性:模型中的一个解释变量包含了或部分包含了另一个解释变量,即分包含了另一个解释变量,即1 1 , 2 2 , 3 3 ,i i 之间有关系。之间有关系。 方差膨胀因子方差膨胀因子(VIF) (VIF) 值值, ,当当0 0VIFVIF1010,不存在多重共线,不存在多重共线性性, ,表明解释变量之间不存在多重共线性问题。表明解释变量之间不存在多重共线性问题。 通过通过Pearso

8、nPearson相关分析及相关分析及SpearmanSpearman相关分析来检验变量之相关分析来检验变量之间的相关关系。解释变量之间的系数不超过间的相关关系。解释变量之间的系数不超过0.80.8,不存在,不存在多重共线性问题,不会对多元线性回归分析产生影响。多重共线性问题,不会对多元线性回归分析产生影响。 解决的方法是:差分,使用变化率作为变量。解决的方法是:差分,使用变化率作为变量。(四(四)序列相关(自相关)序列相关(自相关) 序列相关性,在计量经济学中指对于不同的样本值,随机序列相关性,在计量经济学中指对于不同的样本值,随机干扰之间不再是完全相互独立的,而是存在某种相关性。又干扰之间不

9、再是完全相互独立的,而是存在某种相关性。又称自相关(称自相关(auto correlationauto correlation),是指总体回归模型的随机),是指总体回归模型的随机误差项之间存在相关关系。误差项之间存在相关关系。 在回归模型的古典假定中是假设随机误差项是无自相关的,在回归模型的古典假定中是假设随机误差项是无自相关的,即在不同观测点之间是不相关的。如果该假定不能满足,就即在不同观测点之间是不相关的。如果该假定不能满足,就称与存在自相关,即不同观测点上的误差项彼此相关。称与存在自相关,即不同观测点上的误差项彼此相关。 自相关的程度可用自相关系数去表示,根据自相关系数的自相关的程度可用

10、自相关系数去表示,根据自相关系数的符号可以判断自相关的状态,如果符号可以判断自相关的状态,如果000,则,则utut与与utut-1-1为正关;如果为正关;如果= 0= 0,则,则utut与与utut-1-1不相关。不相关。 Durbin-WatsonDurbin-Watson检验,检验,D-WD-W值越接近值越接近2 2,越不存在自相关。,越不存在自相关。 (五(五)异方差性异方差性 异方差性(异方差性(heteroscedasticityheteroscedasticity )是为了保证回归参数估)是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要计量具有良好的统计性质

11、,经典线性回归模型的一个重要假定是:总体回归函数中的随机误差项满足同方差性,即假定是:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。归模型存在异方差性。若线性回归模型存在异方差性,则用传统的最小二乘法估若线性回归模型存在异方差性,则用传统的最小二乘法估计模型,得到的参数估计量不是有效估计量,甚至也不是计模型,得到的参数估计量不是有效估计量,甚至也不是渐近有效的估计量;此时也无法对模型参数的进行有关显渐近有效的估计量;此时也无法对模型参数的进行有关显著性检验。著性检验。对存在异方差

12、性的模型可以采用加权最小二乘法进行估计。对存在异方差性的模型可以采用加权最小二乘法进行估计。关于异方差性检验的方法大致如下:图示检验法、关于异方差性检验的方法大致如下:图示检验法、WhiteWhite检检验法、验法、ParkPark检验法和检验法和GleiserGleiser检验法。检验法。 (六(六)伪回归伪回归 主要出现在时间序列数据上,当被解释变量和主要出现在时间序列数据上,当被解释变量和解释变量都呈现出相同的变化趋势时,则模型解释变量都呈现出相同的变化趋势时,则模型的的R很高,事实上,与之间无关系。如很高,事实上,与之间无关系。如 中国中国GDP0 1 印度人口印度人口 + 2 2 +

13、 3 3 +.+ i i t 如果检验中国如果检验中国GDP和印度人口之间的关系,做出和印度人口之间的关系,做出的的R很高,且很高,且1 是显著正相关,但事实上是伪是显著正相关,但事实上是伪回归。回归。四、模型问题四、模型问题 经济计量模型就是研究分析某个系统中经济变量之间的数经济计量模型就是研究分析某个系统中经济变量之间的数量关系所采用的随机的代数模型,是客观经济现象在数学量关系所采用的随机的代数模型,是客观经济现象在数学上的描述和概括。任何经济计量模型都是由四个要素构成:上的描述和概括。任何经济计量模型都是由四个要素构成: 1.1.变量:因变量和自变量;内生变量和外生变量;本期变变量:因变

14、量和自变量;内生变量和外生变量;本期变量和量和滞后变量(前期变量)滞后变量(前期变量) 滞后内生变量和外生变量是在求解本期内生变量之前就已滞后内生变量和外生变量是在求解本期内生变量之前就已确定了的变量,合称为前定变量(或先决变量),作为解确定了的变量,合称为前定变量(或先决变量),作为解释变量。释变量。 2.2.结构参数。说明解释变量对被解释变量的影响程度。结构参数。说明解释变量对被解释变量的影响程度。 3.3.随机扰动项或误差项。经济计量模型是概率性模型。列随机扰动项或误差项。经济计量模型是概率性模型。列入方程的原因(入方程的原因(1 1)观测误差;()观测误差;(2 2)忽略许多次要因素所

15、)忽略许多次要因素所引起的误差;(引起的误差;(3 3)即使相同条件进行试验而无观测误差,)即使相同条件进行试验而无观测误差,也不可能得出完全相同结果,因而出现随机误差。也不可能得出完全相同结果,因而出现随机误差。 4.4.方程式。单一方程和联立方程根据经济理论的判断和分方程式。单一方程和联立方程根据经济理论的判断和分析,参照实际需要和可能,把变量、参数和随机扰动项组析,参照实际需要和可能,把变量、参数和随机扰动项组成数学表达式,借以反应各个经济变量之间以及同外部条成数学表达式,借以反应各个经济变量之间以及同外部条件之间的函数关系。件之间的函数关系。多元线性回归模型与多元线性多元线性回归模型与

16、多元线性回归方程回归方程多元线性回归模型多元线性回归模型-概念要点概念要点(1 1)一个因变量与两个及两个以上自变量之间的回归)一个因变量与两个及两个以上自变量之间的回归(2 2) 描述因变量描述因变量 y y 如何依赖于自变量如何依赖于自变量 x x1 1 , x x2 2 , x xp p 和误差项和误差项 的方程称为的方程称为多元线性回归模型多元线性回归模型(3 3)涉及)涉及 p p 个自变量的多元线性回归模型可表示为个自变量的多元线性回归模型可表示为多元线性回归模型多元线性回归模型基本假定基本假定(1 1)自变量)自变量 x x1 1,x x2 2,x xp p是确定性变量,不是随机

17、是确定性变量,不是随机变量变量(2 2)随机误差项)随机误差项的期望值为的期望值为0 0,且方差,且方差2 2 都相同都相同(3 3)误差项)误差项是一个服从正态分布的随机变量,即是一个服从正态分布的随机变量,即 N N(0,(0,2 2) ),且相互独立且相互独立多元线性回归方程多元线性回归方程概念要点概念要点(1 1)描述描述 y y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x x1 1, x x1 1 ,x xp p的方程称为的方程称为多元线性回归方程多元线性回归方程(2 2)多元线性回归方程的形式为)多元线性回归方程的形式为 E E( ( y y ) = ) = 0 0+

18、 + 1 1 x x1 1 + + 2 2 x x2 2 + + + p p x xp p多元线性回归的估计多元线性回归的估计( (经验经验) )方程方程(1)总体回归参数)总体回归参数 是未知的,利用是未知的,利用样本数据去估计样本数据去估计参数的最小二乘法参数的最小二乘法(要点(要点)相关系数及显著性检验相关系数及显著性检验相关系数反映两个变量之间相关系数反映两个变量之间线性线性相关关系的相关关系的密密切程度切程度和相关关系的和相关关系的方向。方向。样本相关系数用样本相关系数用 r r 表示,总体相关系数用表示,总体相关系数用 表示。表示。(1 1) r r 的取值范围是的取值范围是 -1

19、,1-1,1(2 2)| |r r|=1|=1,为完全相关为完全相关r r =1=1,为,为完全正相关完全正相关 r r =-1=-1,为完全负相关为完全负相关(3 3) r r = 0= 0,不存在线性相关关系不存在线性相关关系(4 4)-1-1 r r00,为为负相关负相关(5 5)0 0 r r 1 1,为为正相关正相关(6 6)| |r r| |越趋于越趋于1 1表示线性相关关系越密切;表示线性相关关系越密切;| |r r| |越趋于越趋于0 0表示线性相关关系越不密切表示线性相关关系越不密切相关系数的显著性检验相关系数的显著性检验(概念要点)(概念要点) (1)检验两个变量之间是否存

20、在线性相关关系)检验两个变量之间是否存在线性相关关系(2)等价于对回归系数)等价于对回归系数 1的的检验检验(3)采用)采用 t 检验检验(4)检验的步骤为)检验的步骤为提出假设提出假设:H0: ;H1: 0回归方程的拟合优度检验回归方程的拟合优度检验 调整的调整的R SquareR Square,就是检验样本数据聚集在样本回,就是检验样本数据聚集在样本回归线周围的密集程度,从而判断回归方程对样本数归线周围的密集程度,从而判断回归方程对样本数据的代表程度。使用调整后的据的代表程度。使用调整后的R SquareR Square是因为增加是因为增加自变量的数量会增加自变量的数量会增加R Squar

21、eR Square值。值。 标准误反映实际观察值在回归直线周围的分散状况。标准误反映实际观察值在回归直线周围的分散状况。从另一个角度说明了回归直线的拟合程度。反映实从另一个角度说明了回归直线的拟合程度。反映实际观察值在回归直线周围的分散状况,从另一个角际观察值在回归直线周围的分散状况,从另一个角度说明了回归直线的拟合程度。度说明了回归直线的拟合程度。 回归方程的显著性检验回归方程的显著性检验(线性关系的(线性关系的检验检验 )检验因变量与检验因变量与所有的自变量所有的自变量之间是否存在显著的之间是否存在显著的线性关系,检验方法是线性关系,检验方法是应用应用 F F 检验检验如果是显著的,因变量

22、与自变量之间存在线如果是显著的,因变量与自变量之间存在线性关系性关系如果不显著,因变量与自变量之间不存在线如果不显著,因变量与自变量之间不存在线性关系性关系回归方程的显著性检验回归方程的显著性检验(步骤)(步骤)(1)提出假设)提出假设H0: 1 2 p=0 线性关系不显著线性关系不显著H1: 1, 2, p至少有一个不等于至少有一个不等于0回归系数的显著性检验回归系数的显著性检验(要点)(要点)(1)如果)如果F检验已经表明了回归模型总体上是显检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一著的,那么回归系数的检验就是用来确定每一个单个的自变量个单个的自变量 xi 对

23、因变量对因变量 y 的影响是否显著的影响是否显著(2)对每一个自变量都要单独进行检验)对每一个自变量都要单独进行检验(3)应用)应用 t 检验检验(4)在多元线性回归中,回归方程的显著性检验)在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验回归系数的显著性检验(步骤)(步骤)(1)提出假设)提出假设H0: i = 0 (自变量自变量 xi 与与 因变量因变量 y 没有线性关系没有线性关系) H1: i 0 (自变量自变量 xi 与与 因变量因变量 y有线性关系有线性关系) (2)计算检验的统计量)计算检验的统计量 t五、数据

24、问题五、数据问题 截面数据:同一年度,不同的个体;容易产截面数据:同一年度,不同的个体;容易产生生异方差异方差问题。问题。 时间序列数据:同一个体,不同年度;容易时间序列数据:同一个体,不同年度;容易产生产生序列相关或自相关序列相关或自相关问题。问题。 面板数据:不同的个体,不同的年份。(适面板数据:不同的个体,不同的年份。(适用数据量比较小时用)用数据量比较小时用) 离散型数据:数据只能取整数。如一家公司离散型数据:数据只能取整数。如一家公司的职工人数。的职工人数。 连续型数据:可以取介于两个数值之间的任连续型数据:可以取介于两个数值之间的任意数值。如销售额、经济增长率等。意数值。如销售额、

25、经济增长率等。 定类数据,这种数据只对事物的某种属性和定类数据,这种数据只对事物的某种属性和类别进行具体的定性描述。如对人口按性别类别进行具体的定性描述。如对人口按性别划分为男性和女性两类。划分为男性和女性两类。 定序数据,也称序列数据,是对事物所具有定序数据,也称序列数据,是对事物所具有的属性顺序进行描述。例如,对企业按经营的属性顺序进行描述。例如,对企业按经营管理的水平和取得的效益划分为一级企业、管理的水平和取得的效益划分为一级企业、二级企业等。二级企业等。六、数据分析与检验六、数据分析与检验 描述统计:描述统计:关于搜集、展示一批数据,并关于搜集、展示一批数据,并反映这批数据特征的各种方

26、法,其目的是反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。为了正确地反映总体的数量特点。 推断统计:推断统计:根据样本统计量估计和推断总根据样本统计量估计和推断总体参数的技术和方法。体参数的技术和方法。 描述统计:描述统计: 单变量截面数据的描述性分析单变量截面数据的描述性分析 样本均值比较及检验样本均值比较及检验 (一)单变量截面数据的描述性分析(一)单变量截面数据的描述性分析 集中趋势分析集中趋势分析:众数(:众数(mode)、均值()、均值(mean)、)、中位数(中位数(median)、总和()、总和(sum) 离散趋势分析离散趋势分析:极差(:极差(range)、

27、四分位间距)、四分位间距(quartile)、方差()、方差(variance)、标准差)、标准差(standard deviation) 分布特征分析分布特征分析: 偏态(偏态(skewness),各观察值),各观察值是否只对称地分布在中心的两侧,偏态系数额绝是否只对称地分布在中心的两侧,偏态系数额绝对值大于对值大于2,偏倚程度很大;峰度(,偏倚程度很大;峰度(kurtosis)各观察值是较为均匀地分布,还是侧重出现在中各观察值是较为均匀地分布,还是侧重出现在中心附近,峰度系数为心附近,峰度系数为3一般称为常态峰,大于一般称为常态峰,大于3高高狭峰,小于狭峰,小于3低阔峰。低阔峰。1.集中趋

28、势的描述集中趋势的描述 集中趋势集中趋势(central tendency)(central tendency)反映的是一组数据向反映的是一组数据向某一中心值靠拢的倾向。某一中心值靠拢的倾向。 数据的集中趋势通常用数据的集中趋势通常用来反映。来反映。 集中趋势指标(平均指标)按计算方法不同分为:集中趋势指标(平均指标)按计算方法不同分为: 算术平均算术平均 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数位置平均数与算术平均数的关系位置平均数与算术平均数的关系1.众数众数(Mo)适用于所有的定性数据和定量数据适用于所有的定性数据和定量数据 中位数中位数(Me)适用于定性数据中

29、的定序数据和定量数适用于定性数据中的定序数据和定量数据据 算术平均数算术平均数只适用于定量数据只适用于定量数据2.定量数据定量数据:若是若是钟形分布钟形分布,三种集中趋势指标一般,三种集中趋势指标一般 都可适用。而对都可适用。而对J形分布,反形分布,反J形分布和形分布和U形形分布,中位分布,中位数和算术平均数没有任何意义。数和算术平均数没有任何意义。3.3.在确定集中趋势指标的过程中,算术平均数比中位在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息数和众数使用了更多的数据信息 。4.对于对于钟形分布钟形分布且数据量很大时,三种集中趋势指标有且数据量很大时,三种集中趋势指

30、标有如下三种数量关系:如下三种数量关系: XfXfXfMoMex(对称分布对称分布)MoMex正偏态分布正偏态分布(右)(右)MoMex负偏态分布负偏态分布(左)左)121 2xxMeMeMoMoxMeMo离散程度指标又称标志变异指标,离中趋势指标等,它反映变量分布离散趋势;常与平均指标匹配使用。 (1)评价平均数的代表性; (2)是对事物发展均衡性的量度:如供货计划完成的均衡性,协调性;产品质量的稳定性作用:2.2.离散程度的描述离散程度的描述种类离散程度的绝对指标离散程度的相对指标极差、四分位差、平均差极差、四分位差、平均差1.极差(Range)也叫全距,是一组数据的最大值与最小值之离差,

31、即:2.四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用Qr表示。 Qr =(M3- M1)/2 3.平均差(Mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用AD、MD表示。 )min()max(iixxRnXXADi方差(方差(2 s2) 和和 标准差标准差( s)标准差是所有观察值与平均数离差平方平均数的平方根,亦称标准差是所有观察值与平均数离差平方平均数的平方根,亦称均方差。标准差的平方即为方差。均方差。标准差的平方即为方差。 nXXi221)(22nxxS22ss简单来说,标准差是一

32、组数据平均值分散程度的一种度量。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。一个较小的标准差,代表这些数值较接近平均值。方差(方差(2)和标准差(和标准差()是应用最广的标志变异指标是应用最广的标志变异指标3.分布的偏态峰度分布的偏态峰度偏态(偏态(Skewness)是对分布偏斜方向和程度的测度。)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称

33、,而呈现出偏斜的分布状况,统计上布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。将其称为偏态分布。偏态系数的数值一般在偏态系数的数值一般在0与与3之间,越接近之间,越接近0,分布,分布的偏斜度越小;越接近的偏斜度越小;越接近3,分布的偏斜度越大,分布的偏斜度越大33m偏度系数0正偏态正偏态峰度(峰度(Kurtosis)是分布集中趋势高峰的形状。在)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度测度。峰度测度。如

34、果分布的形状比正态分布更高更瘦,则称为尖峰如果分布的形状比正态分布更高更瘦,则称为尖峰分布,见图(分布,见图(a);如果分布的形状比正态分布更矮);如果分布的形状比正态分布更矮更胖,则称为平峰分布,见图(更胖,则称为平峰分布,见图(b)。)。44m峰度系数3尖顶曲线尖顶曲线五数概括五数概括 :即最小值即最小值x xminmin 、最大值最大值x xmaxmax 、第一第一四分位数四分位数M M1 1、中位数中位数MeMe和第三四分位数和第三四分位数M M3 3 五个数之间的关系,确定数据分布形态的方法:五个数之间的关系,确定数据分布形态的方法: 数据是完全对称数据是完全对称 :数据是不对称数据

35、是不对称 :最小值最小值x xminmin到中位数的距离等于中位数到最大值到中位数的距离等于中位数到最大值x xmaxmax的距离的距离 。从从xmin到到M1的距离等于的距离等于M3到到xmax的距离。的距离。从从xmax到中位数的距离大于中位数到到中位数的距离大于中位数到xmin的距离。的距离。 从从M M3 3到到xmax的距离大于从从的距离大于从从xmin到到M M1 1的距离。的距离。 右偏分布右偏分布从从xmin到中位数的距离大于中位数到到中位数的距离大于中位数到xmax的距离。的距离。 从从xmin到到M M1 1的距离大于的距离大于M M3 3到到xmax的距离。的距离。 左偏

36、分布左偏分布箱线图箱线图: :是基于五数概括的图示方式,使得集中趋是基于五数概括的图示方式,使得集中趋势、离散趋势和偏态更为直观。势、离散趋势和偏态更为直观。 (二)样本均值比较及检验(二)样本均值比较及检验 单样本单样本T检验(检验(One-sample T Test) 独立样本独立样本T检验(检验(Independent -samples T Test) 配对样本配对样本T检验(检验(Paired-sample T Test) 单变量方差分析(单变量方差分析(One-Way ANOVA)1.单样本单样本T检验(检验(One-sample T Test) 检验单个变量的检验单个变量的均值均值

37、是否与给定的常数之间存在是否与给定的常数之间存在差异。差异。 例:每罐食品的标准重量例:每罐食品的标准重量500 g. 495 502 501 497 506 498 503 492 504 501 原假设(待检验假设):原假设(待检验假设): 备择假设(替换假设):备择假设(替换假设): 显著性水平显著性水平5% 双尾检验;双尾检验; T检验分布图单尾临界值检验分布图单尾临界值2.262500:0H500:1HNMeanStd.DeviationStd.Error MeanWEIGHT10500.805.3911.705罐头重量单样本罐头重量单样本T检验计算所得统计量值检验计算所得统计量值T

38、est Value=500tdfSig.(2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpperWEIGHT.4699.650.80-3.064.66 罐头重量单样本罐头重量单样本T检验结果检验结果检验统计量检验统计量t的绝对值小于临界值,或者的绝对值小于临界值,或者Sig(P值)大于值)大于0.05,接受原假设,故机器的性能合格。,接受原假设,故机器的性能合格。2.独立样本独立样本T检验(检验(Independent -samples T Test) 一类牧草:一类牧草:31 34 26 32 3

39、5 38 34 30 29 32 31 二类牧草:二类牧草:26 24 28 29 30 29 32 26 31 29 32 28两类牧草地独立样本两类牧草地独立样本T检验计算所得统计量值检验计算所得统计量值GROUPNMeanStd.DeviationStd.Error MeanMILK一类牧草1132.003.225.972二类牧草1228.672.462.711H0:1-2=0; H1:1-2 0显著性水平5% 双尾检验两类牧草地独立样本两类牧草地独立样本T检验结果检验结果1.2043.33.01218.72.768Equal variances not assumed1.1903.33

40、.011212.802.529.409Equal variances assumedMILKStd.Error DifferenceMean DifferenceSig.(2-tailed)dftSigFT-test for Equality of MeanLevenes Test for Equality of Variances Levene 方差齐次检验方差齐次检验F=0.409,P=0.5290.05,接受接受原假设,可以认为两样本方差相等原假设,可以认为两样本方差相等.t=2. 802 p=0.0110.05,拒绝原假设拒绝原假设,认为两类牧草认为两类牧草对产奶量的影响不一样对产奶量的影响不一样,均值大的效果好均值大的效果好.3.配对样本配对样本T检验(检验(Paired-sample T Test) 医学研究人员认为体育疗法可以治疗高血压,选出10名高血压患者,实施体育疗法,测定他们治疗前后的舒张压.假定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论