第一章统计概述_第1页
第一章统计概述_第2页
第一章统计概述_第3页
第一章统计概述_第4页
第一章统计概述_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 概述一 统计统计 (statistics) 一词具有多种含义,它可能指:? 用于统计处理的数据,? 对数据的统计处理,? 使用统计手段收集、分析、解读数据的技术,? 关于统计技术的学问,即统计学。1.1总体与样本统计数据分为总体数据和样本数据:? 总体 (population) :一组研究对象或者一组观察数据。? 样本 (sample) :从特定总体中选择的一组研究对象或观察数据。总体数据和样本数据对应的统计量数分别称为参量和统计量:? 参量 (parameter) :对总体的统计学描述。? 统计量 (statistic) :对样本的统计学描述。比如,一个变量的总体平均数就是一个参量,

2、而该变量的样本平均数就是一个统计量。1.2统计分析的分类描述统计和推断统计统计分析首先根据是否进行统计推断分为描述统计和推断统计两大类。? 描述统计 (descriptive statistics):对已知数据的特征进行描述的统计方法。? 推断统计 (inferential statistics):根据样本特征去推断总体特征的统计方法。比如,总体平均数和样本平均数都属于描述统计,根据样本平均数去推断总体平均数就是推断统 计。一般来说,在使用样本的时候总体平均数或其它参量是未知的,这时就需要进行推断统计来 获得关于总体的信息了。单变量分析和多变量分析 统计分析又根据所分析的变量的个数分为单变量分

3、析和多变量分析? 单变量分析 (univariate analysis) :同时只分析一个变量的统计方法。 ? 多变量分析 (multivariate analysis) :同时只分析多个变量的统计方法。比如,根据一个变量的样本平均数去推断总体平均数,这只涉及一个变量,是单变量分析。计算一个变量和另一个变量的相关性,涉及到两个变量,这就是最简单的多变量分析。以上所述其实并不准确。严格来说,多个因变量才称为多变量分析,一个因变量多个自变量仍然 称为单变量分析。参数统计和非参数统计 统计分析又根据其所依赖的基本假设分为参数统计和非参数统计? 参数统计 (parametric statistics)

4、:已知总体的分布或者对总体的分布有确定假设(一般是正态分布)条件下的统计方法。初等的统计方法一般都是参数统计。? 非参数统计 (non-parametric statistics) :不知晓总体的分布或者对总体的分布不作假 设或仅作非常一般性假设条件下的统计方法。二 模型2.1 科学模型 广义来说一切科学研究的对象都视作变量,而科学研究的目的就是要尽可能解释这些变量的变异性(variation),或者说就是确定这些变异性的来源。追根究底,一个变量的变异性的来源其实就 是其它变量。因此,可以说科学研究就是要弄清变量之间的关系,而模型(model)就是对变量关系 的概括。在自然科学,特别是物理学中

5、,大量的模型是确定性模型 (deterministic model),也就是说能够 建立变量之间的确定关系。比如牛顿第二定律 a=F/m,通过自变量F和m就确定了因变量a, 这一模型在经典力学中是没有任何意外情形的。确定性模型一般都有一定的前提条件。比如经典力学模型只在低速和宏观的情形下成立,在高速 (接近光速)和微观的情形下就无法成立。2.2统计模型对数据进行统计分析的目的就是要建立统计模型(statistical model)。比如平均数(Mean)和标准差(Sta ndard Deviatio n)就是最常见最简单的统计模型,它们用来描述单个变量的集中和变异的特征。统计模型把变量的变化分

6、为两部分:确定分量(deterministiccomponent)和不确定分量。不确定分量一般称为随机分量 (random component) 。实际上,随机分量并不见得真的是随机的,只不过 是当前的统计模型无法解释它而已(注:一种观念认为世界上根本就不存在真正的随机事件,所 谓随机就是指当前的知识无法解释。)。统计模型和确定性模型的差别在于,确定性模型只包含了确定的部分,而统计模型不只包含了确 定的部分, 还包含了不能确定的部分。 确定性模型之所以能够抛弃不确定分量, 只留下确定分量, 是因为在一定的条件下它对其中的自变量与因变量的关系提供了机理性的解释。比如自由落体运动模型中,设定下落初

7、速度为零,除重力以外的其它外力为零。在这个模型中,重力是落体运动的决定性因素。这个模型提供了特定条件下落体运动的完备解释。统计模型却无法抛弃不确定分量只留下确定分量,这是因为统计模型所给出的变量关系并非一定 条件下的完整的机理性解释。比如我们会发现中小学生的年级和身高之间存在一定的相关性,因 而可以建立一个用性别和年级来预测学生身高的统计模型。但是这个统计模型本身只是对两个变 量之间的数量关系的一个统计描述,并不包含关于学生身高的机理解释。如果我们改成用学生的 年龄作为自变量去预测身高,此时具有一定意义上的机理性解释了。但是这个模型仍然是统计模 型而非确定性模型,因为我们没有限定一个基础条件去

8、剔除所有的随机分量。由于统计模型中的 变量关系不具有完整的机理解释的意义,我们就无法设定一个条件来只考虑其中的自变量,而忽 略其它变量。比如我们不能假定学生的其它因素都忽略不计,只考虑年龄对身高的影响,这样的 假定显然是荒谬的。尽管统计模型不能提供即便是一定条件下的完整的机理性解释,它在实践中仍然可以有用。统计 模型所揭示的变量关系,在一定程度上可以丰富我们对现实世界的理解,在一定程度上可以用于 预测变量的变化。根据变量的关系不同,统计模型可分为线性模型(linear models) 和非线性模型(non-linearmodels)。2.3理想模型和经验模型确定性模型一般都是理想模型,也就是说

9、是建立在非常特殊的前提条件上。比如说自由落体运动 模型的一个限定条件就是真空,或者说没有空气阻力。理想模型和现实世界显然有所不同,因而 把它用于现实世界就无法得到准确的结果。尽管如此,在某些时候理想模型用于现实世界的准确 性仍然是可以接受的。比如当空气阻力相对较小时,将其忽略不计,当作理想的自由落体运动仍 然可以得到比较令人满意的结果。如果在应用中对准确度的要求较高或者现实条件对理想前提条件偏离较远,不能直接使用理想模 型,那么就需要对理想模型进行修正,加入更多的变量,这就形成了经验模型。比如根据流体力 学把空气阻力的影响加入到落体运动模型中去。必须要注意到的是,无论如何,没有一个模型是 绝对

10、完美的,任何模型都只是在一定程度上对现实世界的近似(“Essentially,all models arewrong, but some are useful. ” - Box, George E. P.; Norman R. Draper (1987). EmpiricalModel-Building and Response Surfaces. Wiley. pp. p. 424.ISBN 0471810339.)。模型之所以无法与现实世界完全符合,是因为现实世界中存在了太多的变异性,而能够包含现实世界全部 变异性的只能是现实世界本身。2.4模型的科学意义表面看来,模型所涵盖的现实世界的变

11、异性越多越好,然而并非如此。模型不但应当是具有广泛 的预测力的,也应当是具有科学意义的(scientifically meaningful)。这两个目的之间存在着内在的冲突,一个模型的普适性越强,即对现实世界的变异性的覆盖面越广,那么它使用的变量就越多,它就越复杂、越难理解,它的科学意义也就越不明显。而科学所追求的解释力是建立在对现实世 界的理解上的,因而我们总是先建立尽可能简洁的模型,通过暂时的普适性上的损失换来科学理 解上的深刻性。比如自由落体运动虽然和现实中的很多落体运动不符,但是通过自由落体运动模 型我们获得了对落体运动的一般规律的理解。进而我们可以把自由落体运动作为理解更复杂的落3.

12、1变量变量的定义体运动的起点,只要对简单模型进行修改就可以建立更复杂的模型用于解释更复杂的现象。对于 不同的实际情况我们可以对简单模型进行不同的修改来于之适应,显然简单模型的另一个优势是 更具灵活性。总之,通过对简单模型逐步细致化的方法,我们才能够建立既有科学意义又有普适 性的系统知识。2.5 拟合与残差研究者在建立模型时只能基于自己所掌握的数据,而研究者所掌握的数据其实是对现实世界的抽 样,它显然不可能包含现实世界中全部的变异性。而我们所要建立的统计模型可以说是对我们所 掌握的数据的再次抽样。我们尝试建立模型并不是为了让它和原始数据完全符合,而是希望通过 这个模型来概括数据。既然概括就未必需

13、要百分之百的准确。一个模型要越准确,它就要变得越 复杂,越难理解。现实中我们总是在复杂性和准确性之间进行权衡。因此,统计模型和样本数据之间总是有个差距。样本数据中的变化,有一部分能够被统计模型解 释,这就是拟合的部分; 另一部分不能被统计模型解释, 这就是误差 (error) ,在推断统计中称为 残差 (residual) 。2.6 过度拟合 另外要注意的一点就是,统计模型是基于样本建立的,但是其模拟的真正目标是总体数据。也就 是说统计模型是通过模拟样本去模拟总体。一般来说,统计模型和样本符合得越好,那么它和总体也就符合得越好。但是这个结论其实只在 一定程度上成立。当模型和样本拟合到一定程度之

14、后,会出现它和总体的拟合下降的现象,这称 为 过度拟合 (over-fitting) 。过度拟合之所以会出现,是因为样本和总体相似而又不完全相同。当统计模型一开始和样本越来 越拟合时,它和总体也越来越拟合,这时样本和总体的相似性是主要因素。当统计模型和样本拟 合得越来越好时,它和总体的拟合会开始下降,这时样本和总体的差异开始成为主要因素。变量的定义有两种方式:一是概念化定义 (conceptual definition) ,即用其他概念来描述变量, 这种方式的定义便 于揭示变量的意义。比如:速度定义为描述物体运动快慢的物理量。一是操作化定义 (operational definition) ,

15、即通过数学操作或实验操作来描述变量,这 种方式的定义便于揭示变量的本质。比如:速度定义为位移除以时间(数学操作)。3.2变量的数值特性 根据变量所取的值的性质的不同可将变量分为质性变量和量性变量的取值为非数值性的分类或标签。比如性的取值为数值。比如年龄、身高、体重等。分类变量(categorical/qualitative variable)别、种族、血型、成绩等级(优良中下)等。数值变量(numerical/quantitative variable)根据变量所取的值是否可以排序可分为有序变量和无序变量?有序变量(ordered variable)的值是可以进行排序比较的。比如年龄、身高、体

16、重、成绩等级(优良中下)等。?无序变量(unordered variable)的值是不可以进行排序比较的。比如性别、种族、血型等。根据变量所取的值是否连续可分为连续变量和离散变量? 连续变量(continuous variable)可取的值的个数是无限且不可数的。比如年龄、身高、体重。对于连续变量的测量总是在一定程度上的近似,而不可能是精确值。比如年龄的测 量一般精确到年,身高的测量一般精确到毫米,体重的测量一般精确到克等。?离散变量(discrete variable)可取的值的个数是有限的或者无限且可数的。所有的分类变量都是离散变量。有的数值变量也是离散变量,比如试卷中的题数、班级中的人数

17、等。这里需要的特别注意的是测验的得分,表面看来测验的得分是离散变量,但是它背后所代表的知 识、能力等心理特质其实是连续的,因此测验的得分往往当做连续变量来处理。3.3变量的因果关系根据变量在研究中因果地位的不同可分为自变量 (independent variable) 、因变量(dependent variable)、外部变量 / 无关变量(extraneous variable) 和混杂变量(confounding variable) 。量性研究的目的一般就是要揭示因果关系,反映在变量上就是要了解自变量对因变量的影响。其 中自变量就是实验者控制和操作的变量,因变量就是随自变量而变化的变量。比

18、如要研究教学方法对学生成绩的影响,那么就首先要对学生按照教学方法分组。比如 A组采用 一种新式的教学方法,称为实验组;另一组采用传统/普通的教学方法,称为控制组。学生所在的 组别就是自变量,学生的成绩就是因变量。但是在研究的过程中除了自变量还会有其他因素对因变量产生影响。因为它们和实验研究的目的 无关,这些变量统称为外部变量或无关变量。比如上述的教学研究中教师的个人特征,教室的物 理环境,班级的学习风气等等。可见外部变量有无穷多个。外部变量虽然和实验研究的目的无关, 但是也可能对因变量产生影响。在外部变量中有一种特殊的变量,它和自变量和因变量都有相关,这种变量被称为混杂变量。比 如假定有人研究

19、儿童体重和识字量的关系,结果他发现儿童体重增加时识字量也增加了,那么难 道就说明体重和识字量有关系吗?当然不是,这里是一个混杂变量一一时间一一在作怪,因为儿 童体重和识字量都是随着时间的推移而增加的。可见混杂变量会严重影响对因果关系的判断,从 而影响研究的内在效度。四数据量性研究中所收集的 数据(data)大多数可以表示为数字值,但是并非数字值才叫数据,字符串也 可以作为数据,比如人名等。在大多数时候数据都可以表示为表格(table)的形式。通常的格式是表格的每一行(row)是一条记 录(record),表示所收集的一个研究对象(subject)的各项数据。英文中也常常将一行称为一个 obse

20、rvation 或一个case。表格的每一列(column)对应一个变量(variable)。数据的这种表格 形式,对应于数学中的矩阵,因此很多统计分析以矩阵代数为数学基础。这样的一个表格在软件 中有称为一个 数据表(data table)或一个数据集(dataset)。一项研究可以使用多个数据表,而这些数据表加起来组成一个数据库(database) 0比如,假定一项研究中需要收集某个学校学生和 教师两方面的数据,那我们就至少需要两个数据表。一个数据表存放学生的数据,另一个数据表 存放教师的数据。这两个数据表就构成了这项研究的数据库。4.1数据的分类根据数据的取值类型可以将其分为:量性数据(q

21、ua ntitative data)data),有序数据(ordered data) 和无序数据(unordered data),离散数据(discrete data) 和连续数据(continuous data),参看变量的数值特性。根据收集数据时测量的标度等级,又可将数据分为定类数据(nominal data)、定序数据(ordinal data)、等距数据(interval data) 和等比数据(ratio data),其中后两种又可 合称为数值数据(numerical data),参看测量的标度。五.测量的标度 测量的尺度/标度(measurement scale)是指观察所得的信息

22、和数值之间的对应关系简单来说,测量的标度可以理解为米尺上的刻度。根据米尺上的刻度,我们可以把所观察到的事 物的长度和某个数值对应起来。如果没有刻度,那么米尺就只是一根木棍,无法用于测量。可见刻度相当于把观察到的信息进行转换的一种协议,心理测量中的测量标度也是起到这样的作 用。比如考试卷的评分准则就是一种把学生的答题信息转换为数值的转换协议,也就是测量的标 度。再如,把李克特量表中的非常不同意到非常同意转换为特点数值的规则也是测量的标度。显 然,这种转换方式显然是不精确的,无法和米尺的刻度相提并论。这就涉及到下面要讨论的问题, 即测量标度的等级。5.1测量标度的等级在把观察到的信息进行转换时,转

23、换的目标有不同的精确等级,这就是测量标度的等级。根据测量标度的等级(levels of measurement scales)有定类、定序、等距、等比四种。数据类型可用的运算/比较操作定类数据=,定序数据, =JJ等距数据, =JJ半 +JJ-等比数据, =JJ半 +JJ-,X ,和质性数据(qualitative? 定类标度 (nominal scale) :数值仅仅是表示类别的标签 (labels) 。比如:性别、种族、 血型、学号等。在数据处理时,往往对定类标度的测量值赋予数字,比如性别一栏用0 代表女性, 1 代表男性,这时要注意这些数字仍然只是表示类别的标签。? 定序标度 (ordi

24、nal scale) :数值是有序的,但是相邻值之间的间距是无法确定的或不相 等的。比如:军阶、成绩排名等。? 等距标度 (interval scale) :数值是有序的,相邻值之间的间距是相等的,但是起点值是 不确定的(即并不代表相应属性的缺失,零不表示无)。比如:摄氏温度、日期、海拔高 度等。? 等比标度 (ratio scale) :数值是有序的数值,相邻值之间的间距是相等的,起点值也是 确定的。比如:开尔文温度、身高、体重、年龄等。测量标度 质性/量性 有序/ 无序 连续/ 离散算术运算定类标度 质性 无序离散不能定序标度 质性/ 量性 有序离散不能等距标度 量性 有序连续 / 离散可

25、以等比标度 量性 有序连续 / 离散可以5.2准等距标度 在社会科学研究中涉及到的等比标度和等距标度的测量非常少,大多数测量是定类标度或定序标 度的。定序标度和等距标度的测量之间存在着巨大的差别。严格来说,定序测量所得的数值是无 法进行算术运算的(比如优和良、第 2 名和第 3 名等是无法加减乘除的),因而对其能够进行的 操作就受到了巨大的限制。要注意的是,某些测量虽然实际上是定序标度的测量,却常常当作等距标度的测量来处理。比如 常见的测验成绩,我们无法肯定地说 100分和 99 分之间的差距与 99 分和 98分之间的差距是相等 的,这相当于一把米尺的不同位置的单位刻度是不相等的。但是现实中

26、测验成绩往往当作等距标 度的测量来处理,这种做法无疑隐含着问题。但是社会科学领域这样的做法却很普遍,这是因为 通常认为其间距即便不相等也是相近的,因此就假定其间距是相等的。也就是说,我们知道一把 米尺的不同位置的单位刻度是不相等的, 同时我们认为差别不大, 因而把它当作处处相等来处理。 这种测量的标度称为准等距标度 (Quasi-interval Scale)。准等距标度到底应该作为定序标度还是等距标度来处理, 这个问题现在一般从实用的角度来解决。 如果作为等距标度来处理能够提供更多可靠的信息,那么就是可以接受的,否则就要当作定序标 度来处理。5.3等距标度和等比标度在各种标度等级中,等距标度

27、和等比标度的差别相对来说较难理解。简单来说,等比标度比等距标度多了个真正的零点。这似乎算不上什么,其实有很大的差别。 等距标度也有零点,但不是真正的数据的起点。比如摄氏温标的零点,定义为水的冰点。它不是真正的温度的最低点,所以可以有比它更低的温度,也就是说摄氏温标可以有负值。类似地,海拔高度也可以有负值。可见,等距标度数据理论上的范围是负无穷至正无穷(虽然摄氏温度的实际值不可能至负无穷,但这不是摄氏温标所确定的。)。等比标度的零点是真正的数据的起点。比如开尔文温标的零度是温度的最低点,不可以有比它更低的温度,也就是说开尔文温标不可以 有负值。类似地,高度也不可以有负值。可见,等比标度数据理论上

28、的范围是零至正无穷。等比标度的比例具有实际意义,而等距标度的比例不具有实际意义。比如开尔文温标的100度是50度的两倍,这有实际的物理意义(即前者的分子平均动能是后者的两倍);而摄氏温标的100 度是50度的两倍,这没有实际的物理意义,只有单纯的数值意义。因而等比标度的数据可以使用 比例,而等距标度的数据不可以使用比例。一般而言,等距标度的数据只能相互加减,而不能相 互乘除。尽管等距标度和等比标度有重大的差别,但是在统计和测量中其差别却又无关紧要。在绝大多数 时候,只需要等距标度即可,而无需等比标度。比如,平均数只涉及到数据的相互加减,显然没 有冋题。标准差、协方差、相关系数等虽然涉及到乘法,但它们是基于离差进行的运算,也没有 问题。比如说标准分2分是-1分的两倍是可以的,因为这表示的是两个数值离平均数的距离之 间具有两倍的关系,并没有说两个原始数值是两倍关系。注:对测量标度等级的批评见Vellema n and Wilk in son (1993)的综述 Nomi nal, Ordi nal, I nterval,and Ratio Typologies are Misleadi ng六统计分析技术的选择(组间比较)组间比较的目的是为了判断样本上的组间差异是否能够推论至总体,也就是样本上的组间差异的 信度问题。组间比较本质上来说属于相关分析。所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论