统计学复习资料_第1页
统计学复习资料_第2页
统计学复习资料_第3页
统计学复习资料_第4页
统计学复习资料_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学复习资料第一章数据系统一、数据类型1、定性数据2、定量数据定量数据(scale):能够得到具体数值,普通尚有测量单位。定距变量:如温度、年纪……定比变量:如收入……定距数据(Scale):普通指诸如身高、体重、血压等的持续型数据,也涉及诸如人数、商品件数等离散型数据。定序数据(ordinal):是含有内在固定大小或高低次序的数值或字符,如文化程度、职称,等。定类数据(nominal):没有内在固定大小或高低次序,普通以数值或字符表达的分类数据,如性别、民族,等。二、数据来源1、野外调查2、定位或半定位观察3、室内实验4、判图5、统计资料和文献二、数据的整顿1、检查资料、统计分组与图表绘制确保资料的可靠性、完整性和精确性统计分组是按照一定标志和规定,把数据分成不同的组,为后续的统计研究打下基础。统计分组可分为:按质量标志分组和按数量标志分组。按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,并且不分组距。如:在人口地理研究中,将人口按性别、民族、职业进行分组。按数量标志分组,是先依其变量类型不同,分为离散型变量和持续型变量,然后再根据其特性的不同进行分组。离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)解决。持续型变量只能采用组距式分组。又可分为等距和不等距分组两种。组距分组:第一步,求变量的全距RR=Xmax-Xmin第二步,拟定组数nn=1+3.32lgN(N为样本总量)第三步,计算组距:h=R/n第四步,拟定每组的上、下限2、数据的合并与分割3、数据的函数变换4、数据的其它变换数据的函数变换是将原始数据的每一种数值通过特定的运算方式变换成新的数值。在原有数据基本上,计算产生某些含有更丰富信息的新数据。使数据更直观、更有效。常见的数据变换有:对数或多项式变换;时间序列的平稳化解决;运用区间变换压缩数据取值X围和原则化解决等。涉及算术体现式、条件体现式和函数三大部分。第二节数据的分布特性数据通过整顿后,得出了频数分布的大致状况。但为了确切地表达地理数据的分布性质和在数量上的特性,需要进一步定量计算其特性值。在数据的分布性质中,最重要的两个性质是集中性和分散性。反映数据集中性的特性值有:平均值(均数)、中位数、众数等。反映数据分散性的特性值有:绝对离差度(离差、离差平方和、原则差、方差等)和相对离差度(变异系数)1、平均数(均数,Mean)可代表数据的普通水平,并可作为对比分析的指标。重要涉及算术平均数和几何平均数。(1)简朴算术平均数:(2)加权算术平均数:3)几何平均数普通用来分析和研究国民经济、公司生产或人口等方面的平均发展速度和平均增加速度2、中位数(Median)也称中央值,它是数据按大小排序后位居中间的那个数值。当一种数据变量值分布很偏时,以中位数表达集中趋势比算术平均数更合理。如收入、分数的分布。对于未分组的数据:3、众数(Mode)是数据中出现频数最多的那个数。对于未分组的数据,能够根据每一种数据出现的频数大小直接拟定众数。对于分组数据,按下列公式计算众数:三、数据的分布形态1、偏度(Skewness):反映频数分布偏态方向和程度的测度偏度值不不大于0,表达正偏差值大,称为右偏或正偏;偏度值不大于0,表达负偏差值大,为负偏或左偏。(2)峰度(Kurtosis):指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。当β=0时,表达分布的峰度是正态分布的峰度;当β>0时,表达分布曲线的高峰是尖顶高峰;当β<0时,表达分布曲线的高峰是平顶高峰。右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。交叉列联表的卡方(X2)检查在列联表拟定的状况下,卡方统计量观察值的大小仅取决于观察频数与盼望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与盼望分布的差距越大,表明行列变量之间越有关。反之,当总差值越小时,卡方值也就越小,实际分布与盼望分布越靠近,表明行列变量之间越独立。卡方检查成果:P=0<α(0.05),则回绝0假设,阐明变量之间存在着明显联系,即强有关性。第二章时间序列分析数据的时间序列分析:事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究成果的基础。时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析办法。一、数据空间分布类型1、点状分布2、线状分布3、面状分布:涉及离散型区域、持续型区域两种。离散型区域是一种不持续的面状分布,两个相邻区域之间为不同的质量或性质差别的数据系统。数据的时间序列分析时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析办法。是某些有着严格先后次序的数据,它们之间存在着某种前后相承的关系,而非互相独立。数据的时间序列分析2、时间序列分析办法(1)时域分析:认为时间序列是过去值和某些有关变量的函数,即现在的体现是由过去的状态和某些外部因素决定的,通过过去和现在的序列数据能够预知将来的体现。(2)频域分析:认为时间序列是由若干个含有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,能够认识时间序列的特性,掌握其变化规律。时间序列——时域分析办法简朴回归分析法:一种基于因果关系的分析办法,适合序列间的构造分析和较长久数列数据的预测。趋势外推法:对序列的长久趋势运用曲线进行拟合的分析办法,合用于精度规定不很高的中长久趋势预测。自回归(Autoregression)办法:引入了被解释就量某些阶数的滞后变量,合用于简朴回归分析中残差项存在一阶自有关状况的序列。自回归移动平均(ARMA)模型,也称B-J办法:认为时间序列是若干白噪声序列的某种组合(MA模型),能够由其本身的某些滞后序列进行解释(AR模型)。惯用于随机性波动较频繁序列的短期预测。时间序列的水平分析重要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期(末期)序时平均数:不同时间上的指标数值的平均数。时期数列:时点数列:增减量:报告期与基期水平之差。平均增减量4、时间序列的速度分析发展速度:报告期水平与基期水平之比增减速度:由增减量与基期水平对比求得平均发展速度------几何平均法:侧重于研究对象的最末期的发展水平,如生产能力、产值、人口增加等的统计。------累计法:侧重于研究对象各期发展水平的总和,如累计资产数、累计毕业生人数等的统计。5、时间序列的趋势变动分析1)长久趋势:现象在相称长的时间内所体现的某一方向持续的变化。增加趋势①线性趋势a、移动平均法是扩大原时间序列的时间间隔,选定一定的时距项数n,采用逐次递移的办法对原数列递移的n项计算一系列序时平均数。由于数据在某一时间段内的出现很大的波动,为了滤去数据中某些短期的不规则的变化,找出较长时间的变化规律。该办法合用来分析时间序列的长久趋势,不适合对现象将来的发展趋势进行预测。②滑动平均法由于地理数据在某一时间段内的出现很大的波动,为了滤去数据中某些短期的不规则的变化,找出较长时间的变化规律,惯用滑动平均法解决。惯用三年、五年、十年滑动平均数③直线趋势方程拟合3)线性拟合趋势分析4)非线性趋势方程拟合抛物线型指数曲线型指数平滑法:又叫指数加权移动平均法,通过对时间数列中各个数据进行加权解决,愈近的数据其权数应愈大。能够消除时间数列的偶然因素所引发的变动,进而找出预测对象的数据变化特性和趋势。一次指数平滑法6、时间序列——模型评价预测精度:误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等变量的有关性:F统计量、变量系数的t统计量等;变量因果数量关系:明显性检查Y=0.156*X-298.4920.156为B1,然后为常数。SPSS时间序列的预解决——数据变换重要涉及序列的平稳化解决和序列的平滑解决等。平稳化解决的目的是使解决后的序列成为平稳序列。普通而言,均值平稳化采用差分(Difference)解决,方差平稳化运用Box-Cox变换解决。第三章假设检查与均数比较数据的统计推断与假设检查1、空间类型的抽样设计总体:又称母体,即在数据统计中,把准备加以观察的一种满足指定条件的地理要素的集合。是研究对象的某特性值的全体。样本:从总体中抽出的一部分个体。从总体中取出部分个体的过程,称为“抽样”。抽样过程必须力求样本对总体含有较好的代表性。这种代表性不仅与样本容量有关,即样本越大,抽样误差越小,反之,误差越大,还受抽样办法的制约。抽样办法随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面(线)法3、假设检查假设检查的思想:首先提出假设,然后运用样本数据来检查假设,支持,则接受假设;不支持,则推翻假设。假设检查的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。参数:描述总体的数字特性,如总体均数。统计量:描述样本的数字特性,如样本均数。置信度:样本统计量推断总体特性的可靠性程度置信区间:概率确保下的总体参数的可能取值X围,如本地男性平均初婚年纪有95%的可能性为25±2周岁。推断统计推断统计:由样本数据推断总体特性的办法。在对样本数据描述的基础上,以概率形式对总体的数量特性进行表述。1.总体数据无法获得2.收集总体数据投入较大推断统计涉及参数预计和假设检查两种形式,两者原理一致,仅体现形式不同。均数比较过程是典型的参数检查,参数检查是推断统计的重要构成部分。假设检查的思想:首先提出假设,然后运用样本数据来检查假设,支持,则接受假设;不支持,则推翻假设。假设检查的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。假设检查分为两类:参数检查:总体分布已知时(如正态分布),根据样本数据对某些总体参数(如均值)进行推断。非参数检查:总体分布未知或不符合参数检查的假定分布时。其中,卡方检查是非参数检查假设检查的基本环节提出无效(零)假设(H0)。选择检查统计量,给定明显性水平α。计算检查统计量的发生概率。根据明显性水平,作出统计结论。假设检查无效假设H0:有关总体参数的假设,必然包含等号H0:μ=某值;H0:μ≥某值;H0:μ≤某值;对立假设H1:H1:μ≠某值;H1:μ<某值;H1:μ>某值;检查水平α:即明显性水平,普通取0.01、0.05或0.10。假设检查基于小概率原理:给定检查水平α,如果零假设成立条件下出现现有统计量的概率等于或不大于α,则认为此事件可能性很小,因此就回绝零假设。均数比较★正态分布:概率分布密度曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态曲线。其性质和特点:☆决定于均数和方差2、☆钟形曲线、☆位置特性量均数、中位数、众数相等☆偏度和峰度均为零均数比较的假设检查数据类型:服从正态分布的定距型变量拟解决:某样本均值与否来自某个已知的正态总体?两个样本所代表的总体均值与否相似?某样本所代表的总体均值与否发生了数量上的变化?如果两个样本均数不同,可能存在下列两种状况两个样本所来自的总体均数相似,差别来自抽样误差。2、总体均数确实不同。均数比较的类型单个样本均数与总体均数比较、配对样本的均数比较、两个样本均数的比较两样本方差齐:原始资料呈正态分布时:t检查原始资料不呈正态分布,但样本量较大时:t检查原始资料不呈正态分布,且样本量较小时:非参数检查两样本方差不齐:数据变换后方差齐:t检查数据变换后方差不齐:t’检查检查环节与统计量事先拟定与否双侧检查,建立无效假设H0:μ=μ0(双);对立假设?单侧检查?拟定检查水准α=0.05选择检查统计量进行检查(υ=n-1)成果判断与解释P>0.05,不能回绝H0,p<=0.05,回绝H0。第四章:方差分析方差分析是一种从数据差别入手的分析办法,有助于人们从另一种角度发现事物的内在规律性。它能解决多个均值与否相等的检查问题。是一种实用、有效的分析办法。方差分析基本概念方差分析:从分解数据差别来源入手,检查两个以上总体均数与否相等或与否含有差别的办法。作用:可用于寻找核心性的影响因素,分析影响因素的不同水平与其组合是如何影响观察变量的。观察变量:方差分析的因变量,即进行差别分析的数值型变量。如农作物产量、广告效果等。控制变量:方差分析中的影响因素,分组变量、自变量。如品种、施肥量、广告形式等。其不同类别,称为控制变量的不同水平。如广告形式中的电视广告、广播广告等。方差分析认为造成观察变量值变化的因素有两类:第一类是控制因素不同水平所产生的影响;第二类是随机因素所产生的影响。如果控制变量的不同水平对观察变量产生了明显影响,那么,它和随机变量共同作用必然使得观察变量值有明显波动。如果观察变量值在某控制变量的各个水平中没有出现明显波动,那么能够认为该控制变量没有对观察变量产生重要影响,其数据的波动是抽样误差造成的。方差分析惯用于均数比较,研究控制因素(定性)与观察变量(定量)间的关系。与t检查:方差分析是检查多个总体的均值间差别与否含有统计意义的一种办法,比t检查更能节省时间。与回归分析:方差分析是回归分析的一种特例,能够用回归模型来表达方差分析单因素方差分析拟分析一种控制因素与否对一种观察变量有影响。即控制因素不同水平下观察变量均值与否有差别;多个总体间的均值比较问题。如:分析不同施肥量与否给农作物产量带来明显影响;考察地区差别与否会影响妇女的生育率;研究学历对工资收入的影响……前提条件:各样本彼此独立各总体的方差相等观察变量各总体应服从正态分布统计思路:观察变量的总方差可分解为组间方差和组内方差,前者反映控制因素的影响,后者体现随机误差,如果前者明显不不大于后者,则可认为控制因素对观察值有影响。分析环节:明确控制因素(如:施肥量、地区、学历)和观察变量(如:农作物产量、妇女生育率、工资收入)剖析观察变量的离均差平方和:SST=SSA+SSE分解自由度比较组间和组内的方差大小,根据F分布界值做出统计结论。假设检查基本环节提出假设H0:a1=a2=…=ak=0拟定明显性水平α构造F检查统计量并计算(F统计量服务(k-1,n-k)个自由度的F分布。)统计结论与成果解释如果控制变量对观察变量造成了明显影响,观察变量总的变差中控制变量影响所占的比例相对于随机变量必然较大,F值明显不不大于1;反之,如果控制变量没有对观察变量造成明显影响,观察变量的变差应归结为随机变量造成的,F值靠近于1。方差齐性检查:对控制变量不同水平下各观察变量总体方差与否相等进行分析。采用方差同质性(HomogeneityofVariance)的检查办法。多重比较检查:判断控制因素确有作用后,进一步拟定控制因素不同水平对观察变量的影响程度,即各水平下观察变量的均值两两比较。为什么不用t检查:弃真错误α的概率增大多因素方差分析协方差分析在协方差分析中,作为协变量的变量普通是定距变量。协方差分析涉与到两种类型的控制变量(品质型和定距型)和定距型观察变量,如果将控制变量看做解释变量,观察变量看作被解释变量,那么协方差分析便是一种介于方差分析和线性回归分析之间的分析办法。通过线性回归求出假定协变量相等时的控制因素各水平下的观察变量修正均数;通过方差分析比较修正均数的差别。第五章:有关与回归分析有关分析和回归分析是研究客观现象之间数量联系的重要统计办法;作为推断统计的有关分析与回归分析含有广泛的应用价值;客观现象总是普遍联系和互相依存的;客观现象之间的数量联系,有两种不同的形态:函数关系和有关关系。有关关系:当一种或几个互相联系的变量取一定数值时,与之相对应的另一种变量的值即使不拟定,但它仍按某种规律在一定的X围内变化。变量间的这种互有关系,称为含有不拟定性的有关关系。如:劳动生产率与工资水平、投资额与GDP、商品流通规模与商务成本之间的关系等均属于有关关系。2、有关关系类型划分:完全有关:当一种现象的数量变化完全由另一种现象的数量变化所拟定时,称这种现象间的关系为完全有关。如:在价格不变的状况下,商品的销售总额与其销售量总是成正比例关系。有关系数R=1或-1不有关:当两个现象彼此互不影响,其数量变化各自独立时,称为不有关现象。如:股票的价格高低与气温高低是不有关的。有关系数R=0不完全有关:两个现象之间的关系介于完全有关和不有关之间,称为不完全有关。有关系数0<R<1或-1<R<02、有关关系类型划分:

当一种现象的数量由小变大,另一种现象的数量也对应由小变大,这种有关称为正有关。有关系数R>0负有关:当一种现象的数量由小变大,而另一种现象的数量相反地由大变小,这种有关称为负有关。有关系数R<02、有关关系类型划分:

线性有关:当两种有关现象之间的关系大到呈现为线性关系时,称之为线性有关。非线性有关:当两种有关现象之间,并不体现为直线的关系,而是近似于某种曲线方程的关系,为非线性有关。2、有关关系类型划分:

单有关:两个现象的有关,即一种变量对另一种变量的有关关系。如:y=ax+b复有关:当所研究的是一种变量对两个或两个以上其它变量有关关系时,称为复有关。如:Z=ax+by+c偏有关:在某一现象与多个现象有关的场合,当假定其它变量不变时,其中两个变量的有关关系称为偏有关。如:3、有关分析与回归分析有关分析是用一种指标来表明现象之间互相依存关系的亲密程度。回归分析是有关关系的具体形态。有关分析需要依靠回归分析来表明现象数量有关的具体形式,而回归分析则需要依靠有关关系来表显现象数量变化的有关程度。只有当变量之间存在着高度有关时,进行回归分析谋求其有关的具体形式才故意义。有关分析研究变量之间有关的方向和有关的程度,不能指出变量间互有关系的具体形式,也无法从一种变量的变化来推测另一种变量的变化状况。回归分析则是研究变量之间互有关敏捷具体形式,它对含有有关关系的变量之间的数量联系进行测定,拟定一种有关的数学方程式。1、回归分析概述回归分析:是研究变量之间数量依存关系的一种统计分析办法,能够把握因变量受一种或多个自变量影响的程度,并可运用回归方程进行预测和控制。回归分析的任务:建立回归方程。用途:考察影响因素;预测与控制(1)有关与回归的关系有关:反映变量间线性关系的亲密程度(点的疏密)回归:反映自变量取值大小对因变量取值的影响程度(斜率大小)(2)回归分析的普通环节拟定回归分析的自变量(解释变量)和因变量(被解释变量)拟定回归模型建立回归方程对回归方程进行检查运用回归方程进行预测(3)SPSS回归分析线性回归(Linear):简朴线性回归和多元线性回归★非线性回归:CurveEstimation和NonlinearRegression★Logistic回归:合用于因变量为分类变量的状况。分为二分类、多分类Logistic过程。★其它回归办法:线性回归的前提假设不满足时的补充办法。2、线性回归模型线性回归分析:是描述一种因变量(dependentvariable)Y与一种或多个自变量(independentvariable)X间的线性依存关系,根据自变量数目的不同可分为一元线性回归和多元线性回归。数学模型实际拟合的线性回归方程为第一种模型;第二个为变量个体具体取值的模型,其中残差满足:E(ε)=0;var(ε)=σ2(1)前提条件线性趋势:因变量与自变量是线性有关的。独立性:因变量y的取值互相独立正态性:对于自变量的每一组合,y服从正态分布方差齐性:对于自变量的每一组合,y的方差均相似样本量规定:N≥20回归方程的明显性检查:检查应变量与全部自变量的线性关系与否明显,F=回归均方/误差均方。回归系数的明显性检查:检查总体偏回归系数βi与否等于0,在一元线性回归中,F=t2在多元线性回归中,Fch=ti2,偏F统计量为某个自变量引入方程后使得回归方程F统计量改善的程度.回归方程的拟合优度检查回归方程能够解释的被解释变量变异程度越高,拟合优度越高.Cox&SnellR2统计量=1-(L0/L)2/nNaglkerkeR2=Cox&SnellR2/(1-(L0)2/n),取值0~1回归方程预测值与实际值之间的吻合程度,总体预测精确率越高,拟合优度越高.错判矩阵Hosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为持续性变量时残差分析模型的检查模型拟合优度的检查:决定系数R2,检查样本数据点聚集在回归线周边的密集程度。但其大小受模型中自变量个数的影响,可检查一元线性回归模型拟合的优度调节R2:修正了模型自变量个数P对R2的影响。可用于多元线性回归模型的拟合优度检查。第六章:聚类分析1、聚类分析的意义和作用(1)聚类分析是统计学中研究“物以类聚”问题的多元统计分析办法;(2)聚类分析是根据地理变量的属性或特性的相似性、亲疏程度,用数学的办法把它们逐步分型划类,最后得到一种能反映个体之间、群体之间亲疏关系的分类系统。(3)在聚类分析中,关系亲密的个体聚合到一小类,而关系疏远的个体则聚合到一大类,直到把全部的个体都聚合完毕,最后便可根据各类之间的亲疏关系,画成一X完整的分类系统图,即谱系图。2、聚类分析的基本特点(1)无需先验知识:即事先无需懂得分类对象的分类构造,而只需要一批地理数据;(2)无需亲疏程度:即事先无需知识各变量取值上的总体差别程度,只要选好分类统计量,并按一定的办法环节进行计算;(3)能客观地获得一X完整的分类系统图。3、聚类分析的基本类型(1)Q型聚类分析,即对地点、地区或样品进行分类(2)R型聚类分析,即对要素、指标或变量进行分类4、聚类分析的重要办法(1)系统聚类法(应用最广泛)(2)逐步聚类法(3)逐步分解法(4)最优分割法5、聚类分析注意事项(1)所选择的变量应符合聚类规定,即各变量应能体现聚类的特性规定。(2)各变量的变量值不应有数量级上的差别,可考虑运用原则化解决来消除数量级对聚类的影响。(3)各变量间不应有较强的线性有关关系。SPSS聚类功效惯用的有两种:快速聚类(迭代过程):K-MeansCluster系统聚类:HierarchicalCluster系统聚类由两种办法:分解法和凝聚法。系统聚类的功效:即可进行样品的聚类,也可进行变量的聚类。系统聚类的原理:即我们前面介绍过的系统聚类办法的原理和过程。系统聚类的中要进行下列的选择:数据的原则化测度办法的选择:距离办法的选择或相似性、关联程度的选择。聚类办法的选择:即以什么办法聚类,SPSS提供了七种可供选择的办法。(一)聚类办法1.Between-groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2.Within-groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearestneighbor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论