第2章基本概念及基础知识

上传人：叶*** IP属地：浙江上传时间：2022-02-06 格式：PPT 页数：86 大小：2.30MB 积分：25 举报 版权申诉

已阅读5页，还剩81页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、介绍与计量模型相关的非常有用的介绍与计量模型相关的非常有用的统计学概念统计学概念在地理数量分析中应用广泛是许多计量方法的基础知识而相关系数相关系数是贯穿整个地理数学方法的重要概念一、什么是统计学二、统计学的基本问题统计的涵义：统计的涵义：统计工作、统计资料、统计学统计学的过去与现在：统计学的过去与现在：统计学中的各大著名学派、统计学的现代格局统计学的研究方法：统计学的研究方法：大量观察法、统计描述法、统计推断法、统计模型法统计学的内容统计学的内容：描述统计学、推断统计学案例：案例：我该什么时候上网？我该什么时候上网？统计工作是为了管理或认识的需要，对社会经济现象和自然现象进

2、行数量收集的活动。谁做？统计局系统、企业信息化统计资料是统计工作过程中所取得的各项数字资料以及与之各项数字资料以及与之相关信息相关信息的总称。统计资料是统计工作取得的能够说明所研究对象的数据。例如国内生产总值数据，说明整个国家的生产规模。这些数据经常会在报纸、杂志上出现。统计学是在统计工作的经验积累到一定程度时自然产生的，它是收集、整理、描述分析统计数据的方法和技术，为我们的决策提供方面的依据。不列颠百科全书对统计学的定义为：“统计学是关于收集和分析数据的科学和艺术”。中华人民共和国国家统计局企业信息化模式艺术：金字塔1. 1. 国势学派国势学派 2. 2. 政治算术学派政治算术学

3、派 3. 3. 数理统计学派数理统计学派 4. 4. 社会统计学派社会统计学派一是以社会经济问题为主要研究对象的社会经济统计,从属于应用经济学。二是以方法和应用研究为主的数理统计。从学科的角度看，从属于数学。趋势：小批量数据海量数据；应用领域越来越广泛；催生新的交叉学科，如空间统计学；“万能”的方法论学科，成为近百年来，最有用的科学之一。代表人物：【德国】康令和阿亨瓦尔：开设国势学课贡献：提出世界公认的名词统计学（Statistics）评价：“有统计之名，无统计之实”的学派代表人物：【英国】威廉配第和约翰格朗特贡献：开用数量方法研究社会经济现象之先河评价：“有统计之实，无统计之名”的

4、学派政治算术是一部用数量方法研究社会问题的著作。在书中，威廉佩蒂以劳动价值论为基础，对英、法、荷三国进行了国情、国力的数量对比分析，以此为依据，为当时英国社会经济发展出谋划策。马克思称配第是“政治经济学之父，在某种程度上也可以说是统计学的创始人” 代表人物：【法国、比利时、英国】人才济济。拉普拉斯、凯特勒、戈赛特、费希尔、内曼、卡尔皮尔逊贡献：（1）完成统计学和概率论结合（2）建立了丰富的数理统计理论他设计的“直线相关系数”是最常用的相关系数，从其构思过程中，体会“对称美”；他构建的“ 检验”是最常用的检验方法，从其公式形式中，体会“简单美”。许多学者把卡尔皮尔逊尊称为“统计学之

5、父”。2代表人物：【德国】克尼斯、恩格尔和梅尔观点：统计学的研究对象是社会现象，目的在于明确社会现象的内在联系和相互之间的关系。在研究过程中，要用全面调查，也可以适量的使用抽样调查抽样调查。大量观察法是指统计研究各种现象和过程要从总体上加以考察，对现象总体中的全部或足够多的个体进行调查研究，将充分占有的实际数据资料，作为认识的基础。统计描述法是对由调查或实验得到的统计数据资料进行整理、归类，计算出各种能反映总体数量特征的综合指标，并加以分析研究，从而得出需要的数据资料信息，用表格、图形和统计指标数值来表示的统计方法。统计推断法是指以一定的置信水平，根据样本数据资料来判断总体数量特征的

6、归纳推理方法。根据一定的理论和假定条件，用数学方程去模拟现实现象相互关系。利用它可对现象和过程中存在的数量关系进行比较完整和近似的描述，简化客观存在的复杂的其他关系，以便对现象状态和变化过程进行数量上的评价、预测和控制。描述统计学研究如何取得反映客观现象的数据，并通过图表形式对所收集的数据进行加工处理和显示，进而通过综合、概括与分析得出反映客观现象的规律性数量特征。Descriptive Statistics 推断统计学是研究如何根据样本数据去推断总体数量特征的方法，它是在对样本数据进行描述的基础上，对统计总体的未知数量特征作出以概率形式表述的推断。Inferential Statisti

7、cs 案例收集数据收集数据整理数据整理数据分析数据分析数据展现结果展现结果作出决策作出决策早点起，在网上飞驰互联网的用户人数及分布、信息流量分布、域名注册、用户通常在什么时间上网等信息都可以从电讯局或网络公司的业务记录中获得。汇总每天某个时间点上，在线用户占注册用户的比例来反映用户通常上网的时间一、变量与数据二、数据处理三、基本概念四、计算工具 1.1 变量分类系统之一第一种系统将变量归结为分类变量、顺序变量和数量变量。G.R. Iversen 等在统计学：基本概念和方法一书中，首先将回归分析的变量分为两大类：（ 1）自变量（independent variable，独立变量）

8、，又叫解释变量（explanatory variable）。（2）因变量（dependent variable，依存变量），又叫响应变量（response variable）。关于自变量和因变量，我们在回归分析中将要反复讲到。（1）分类型变量（categorical variable）：它的值是非数量的范畴。例如对于性别变量，它的值就是男和女，可以分别表示为1和0。（2）顺序型变量（rank variable）：它的值是有序的。例如对态度变量，它的值就是反对、中立和赞同，可以分别表示为-1、0 和1；对比赛名次变量，它的值是第一、第二和第三，可以分别表示1、2 和3。有时也叫做“次序变量（

9、ordinal variable）”，因为要对数值排次序。（3）数量型变量（metric variable）：它的值是可以作为数学计算（加、乘）的有意义的数值。比如收入、重量、年龄等。不同类型的变量不同类型的变量因变量和自变量的类型因变量和自变量的类型1.2 变量分类系统之二第二个系统将变量归结为名义变量、次序变量和间隔变量。D.G. Kleinbaum 等在应用回归分析和其他多变量方法一书中根据测度的水平给出了如下变量分类：名义（nominal）变量、次序（ordinal）变量和间隔（interval）变量。大体上对应于前面的分类变量、顺序变量和数值变量。（1）名义（nominal）变

10、量：数值上最弱的一种测度水平。（2）次序（ordinal）变量：较高的测度水平，不仅将数分为几个类别，而且理出顺序。（3）间隔（interval）变量：这种变量不仅可以给出数据类别的顺序，而且可以给出不同类别之间距离的有意义的测度。四个数据集：四个数据集：中国主要宏观经济指标数据集、某年世界各国基本情况数据集公司人力资源部数据集、企业流水线上的抽样数据集数据按测量的精度分：数据按测量的精度分：分类数据（categorical data）、顺序数据（rank data）数值型数据（metric data）定距尺度、定比尺度数据按是否与时间有关分数据按是否与时间有关分：时间序列数据（

11、time series data）、截面数据（cross-sectional data）1、认识数据、认识数据 2、数据标准化2.1 数据标准化的方法2.2 标准化数据的性质2.3 广义标准化 3、相关系数与相似系数3.1 相关/似系数的计算公式3.2 几何意义和实例3.3 基于二样本的变量相关系数 4、实验和调查数据的处理4.1 平均值代表真实值4.2 平均值代表真实值的数学原理 5、数据的缺失与估计总体、个体、样本、标志、变量、指标均值、方差、标准离差、协方差、极差、变异系数、标准误差、自由度统计计算工具是完成统计分析的必统计计算工具是完成统计分析的必要条件。常用的统计分析软件要条件。

12、常用的统计分析软件分类数据是对事物进行分类的结果，数据的主要特征是采用文字、数字的代码和其他符号对事物进行简单的分类和分组。分类数据以定类尺度（nominal scale）来衡量。即：等级数据是对事物进行分类的结果，只是这些分类在语义上表现出明显的等级或顺序关系，例如，学生的成绩可以分为优秀、良好、中等、及格和不及格。顺序数据以定序尺度（ordinal scale）来衡量。数值型数据是使用自然或度量衡单位对事物进行测量的结果，其结果表现为具体数值。数值型数据有两种衡量尺度：一是定距(间隔)尺度（interval scale）二是定比尺度（ratio scale）区别：“零点” 时间序列

13、数据（time series data）是在不同时间上收集到的数据，它所描述的是现象随时间而变化的情况。截面数据（cross-sectional data）是在相同或近似相同的时间点上收集的数据，它所描述的是现象在某一时刻或某一时间段的变化情况。总体统计总体，简称总体（Population），就是统计所要研究的事物或现象的全体，即由客观存在的，具有某种共同特征的许多个别事物构成的整体。总体的特点：大量性、同质性、差异性、相对性个体个体（Item Unit）是构成统计总体的个别事物，又称为总体单位。样本样本（Sample）是指从统计总体中抽取出来作为代表这一总体的、由部分个体组

14、成的集合体。抽取原则：随机、非随机标志统计标志，简称标志（characteristic），是指每个个体所共同具有的属性或特征，它是说明个体的属性或特征的具体名称。标志按其性质分为品质标志和数量标志。标志按变异情况分为不变标志和可变标志。可变的数量标志称为变量，其值称为变量值。指标统计指标，简称指标（indicator），是反映总体数量特征的，由各个个体的标志值汇总综合而成。任何一个统计指标都是经过了从个别到一般、从具体到抽象的过程，它体现总体特征，具有综合性。注意：口径外延、维度分类：数量指标、质量指标总体指标、样本指标变量变量（variable）总是可以用数值形式表现的，可

15、变的数量标志和所有的统计指标都是变量。分类：离散型变量、连续型变量确定性变量、随机变量【例】根据大量资料统计结果，汽车的车祸有70%发生于中速行驶时，30%发生于高速行驶时，就此能否认为高速行驶比中速行驶更安全？维度它是反映客观事物的规模或水平的指标，它表现为汇总后直接得到的绝对数或总量，又称之为总量指标或绝对指标。数量指标是最基本的指标，它是计算其他指标的基础。数量指标包括标志总量和总体单位总量，如总产值、工资总额、人口总数、企业个数等。数量指标它是反映客观现象之间的相互联系、比例关系、发展速度、内部结构的指标，一般用相对数或平均数表示。如劳动生产率、成本利润率、人均国民收入等。质量

16、指标是由两个数量指标对比求得的，它是由数量指标派生的。质量指标均值（均值（mean, average）,一阶矩一阶矩均值作为一组数据的代表，反映的是这组数据的平均水平，其几何意义是一组数据的重心位置所在。因此，平均数是一个“位置”概念。算术平均数的计算公式为：这意味着：如果用一个数去代表一组数据的整体水平，只有的代表性最强。因此均值均值可以最好地代表数据的中心位置中心位置。被称为离均差平方和，简称离差平方和离差平方和。方差（方差（variance, var）、二阶矩和标准离差）、二阶矩和标准离差（standard deviation, stdev）方差用以衡量数据的集中或分散程度。如果

17、参数序列是总体（population）本身，则采用总体方差（population variance）；如果参数序列是总体的抽样结果即样本（sample），则采用抽样方差（sample variance）。总体方差公式为总体方差也叫二阶中心矩（secondary central moment）为标准离差（standard derivation），有时简称标准差标准差（SD），它是观测值与均值之间的平均距离。因此，方差本质上是一个距离概念。协方差（协方差（covariance, cov 或或covar）协方差协方差用以衡量两个变量的协变趋势即共同离散程度，计算公式为极差（极差（range）、变异

18、系数（）、变异系数（coefficient of variability）、标准误差（）、标准误差（standard error，ste）极差极差又称范围，用以反映数据之间的最大差距，计算公式为统计分析中用以反映样本变异程度的参量有标准离差和极差，此外还有平均离差（mean deviation，MD），定义为变异系数变异系数用于衡量数据的波动性。计算公式为标准误差标准误差用以衡量实测数据对预测数据的偏离程度，或者说实测数据相对于回归线的离散程度。计算公式自由度（自由度（degree of freedom, df）物理学家对自由度的定义：为了确定一个运动的物体的位置，所需要的独立的坐标数。

19、或者说，一个系统的自由度是指系统运动时，可以独立改变的几何参量的数目。统计学家的定义：为了得出所有观测值所需要的最小观测值的数目。统计学意义的自由度包括如下类别：总自由度总自由度：样品数目或者说样本容量减 1，即n-1 回归自由度：回归自由度：自变量数目，亦即解释变量数目，通常用字母 k 或者m 表示。剩余自由度：剩余自由度：样品数目减去变量数目再减 1，或者总自由度减去回归自由度，即n-k-1 或者n-m-1。三者的关系：总自由度回归自由度剩余自由度总自由度回归自由度剩余自由度我们在实际工作遇到的数据，通常是基于多次测量的多变量分析对象。研究这类数据，并建立数学模型，称为多变量分析

20、，或者多元数据分析（analyzing multivariate data）。多元变量分析多元变量分析的对象可以抽象为一个数据阵列或者数据组（data array）。数据的排列方式一般是，从左到右为变量（ variable ），自上而下为项目（ item），或者叫做研究对象（object），或者叫做事例或数据组（case）。这些变量和项目纵横排列，构成定量分析表格2.1 数据标准化的方法数据标准化的方法如果上表描述的是一个具体的研究对象，表中的xij 都已被赋值，则我们称之为数据集合，或者简称数据集（data set），第i 个项目称为第i 次测量 (measurement）。如表所示

21、，假定有m 个变量，n 个样品，则可以进一步抽象为一个mn 的矩阵X。对应于现实中的某种数据集，方程如下计算结果叫做标准计分(得分)（standard score）2.2 标准化数据的性质标准化数据的性质如果取属于中心化处理，中心化的数据均值为0，但量纲并不统一。中心化数据在时间序列分析时间序列分析中常常用到。如果取属于量纲一致化处理，精度加权距离的计算就是基于这种数据计算欧式距离。经过量纲一致化处理的数据标准差为1，但均值不为0。量纲一致化在聚类分析和判别分析聚类分析和判别分析中常常用到。标准化的主要优点可以归结为两条：其一，消除量纲差异的影响，回归系数具有可比性；其二，将数据的重

22、心位置平移到坐标原点位置，便于直观判断。经过标准化处理的变量，相关系数等于协方差及夹角余弦，有助于几何分析。数据标准化在主成分分析、因子分析和聚类分析中常常用到。在回归分析中，如果计算标准化回归系数和标准化残差，则必须对数据进行标准化处理。广义标准化广义标准化除了上述常规的标准化处理方法之外，还有其他数据标准化方式，统称为广义标准化。广义的数据标准化还有极差标准化和极差正规化等。极差标准化极差标准化将数值转化到-1+1 之间，计算公式为式中R(x)表示极差最大值与最小值之差。显然，与前述标准化的不同之处在于用极差代替了标准差。极差标准化值的特点：其一，均值为0。其二，数值在-1 和+1

23、之间，但绝对值最大值一般不会达到1。极差正规化极差正规化将数值转化到01 之间，计算公式为极差正规化极差正规化值的特点：原来的最大值为1，原来的最小值为0，即有有时为了在正规化正规化的同时将变量大小改变方向原来的大变成小、小变成大，则采用如下计量公式此外，还有下面几种数据转换方式经过这类处理的数据特点是均值为1。经过这类处理的数据特点是最大值为1。原来最小值变为原来最小值变为1，最大值变为，最大值变为0，数值依然在，数值依然在01之间。之间。 3、相关系数（R型分析）与相似系数（Q型分析）3.1 相关/似系数的计算公式假定有 n 个样品，m 个变量，则可以建立一个原始数据矩阵X 如

24、下相关系数（相关系数（correlation coefficient）是对于变量变量而言，第j 和第k 个变量的相关系数，计算公式为或相似系数（相似系数（similar coefficient）是针对样本样本而言，第i 和第r 个样品的相似系数，计算公式为或对于任意两个变量x 和y 的相关系数可以用标准计分标准计分表示，即有 3.2 几何意义和实例相关系数与相似系数的几何意义是相似的，可以类比得知。下面基于标准化数据，说明相关系数的几何意义。为了简明起见，标准化数据的右上角标省略。对于标准化数据，原点为O( x, y )=O(0,0)，计算X与Y的夹角这正是标准化数据的相关系数公式。其中下表是2000 年北京、天津及上海的非农业人口和建成区面积（表）。非农业人口和建成区面积为变量，城市为样品。在变量（建成区面积和非农业人口）空间中表示样品（北京、天津和上海）Q 型分析型分析（基于变量分析样品）；在样品（北京、天津和上海）空间中表示变量（建成区面积和非农业人口）R 型分析型分析（基于样品分析变量）。 4、实验和调查数据的处理4.1 平均值代表真实值4.2 平均值代表真实值的数学原理根据极值条件，令立即得到 5、数据的缺失与估计数据的缺失与估计 5.1 无交互作用双因素方差分析（two-factors analysis of variance）误差平方和最小原理误

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第2章基本概念及基础知识

文档简介

温馨提示

最新文档

评论

第2章基本概念及基础知识

文档简介

温馨提示

最新文档

评论

相关文档