《统计学教程》课件(前四章内容)_第1页
《统计学教程》课件(前四章内容)_第2页
《统计学教程》课件(前四章内容)_第3页
《统计学教程》课件(前四章内容)_第4页
《统计学教程》课件(前四章内容)_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章引论统计学第一章引论统计学

统计数据的类型

随机性和规律性

概率

参数和统计量

随机变量

本章知识点:统计学统计学是关于收集,处理、分析、解释数据并从数据中得出结论的科学。

统计学统计学是一门有关数据的科学,它研究如何收集数据,如何进行数据处理,如何分析数据,并从数据中得出结论的方法论科学。

统计学应用领域非常广泛,只要有数据的地方,就需要统计学。统计数据的类型按照所采用计量尺度的不同数据可划分为三种类型:数值型数据分类型数据顺序型数据在这三类数据中,数值型数据由于说明了事物的数量特征,因此可归为定量数据,分类型数据和顺序型数据由于定义了事物所属的类别,说明了事物的品质特征,因而可统称为定性数据;还可以从其它角度对统计数据进行划分:按照收集方法的不同:观测数据例如,对商品零售价格变动水平的测量可以得到商品零售价格指数、对股票价格变动水平的测量可以得到股票价格指数。实验数据比如某种新型电池的使用寿命、一种新型降压药疗效的实验数据等。按照是否与时间相联系,可以分为:截面数据:在同一时间点上的横截面数据;时间序列数据:同一现象在不同时间的纵向数据;截面数据:时间序列数据随机性和规律性随机性指,在每次试验前结果具有不确定性,可能这样,也可能那样,结果呈现出偶然性。规律性指,在一定条件下必然发生某个现象,结果带有必然性。许多现象是随机的,带有不确定性;也有许多现象是有规律的;

现实中,随机性与规律性并非完全对立,社会现象通常是随机性和规律性的有机结合体,随机之中带有规律性。

新生儿的性比例,106:100是规律。抛硬币的例子统计规律:随机之中的规律。对统计数据进行分析:是利用数据产生的随机性和统计规律进行推断和决策。概率概率是对机会的描述,度量了某件事情发生的可能性,其取值在0和1之间。概率为0:对应绝对不可能发生的事情。概率为1:对应一定会发生的事情。概率介于0和1之间:为随机事件。随机事件的例子:(1)随意抛掷一颗骰子,出现的点数为6;(4)某对夫妇将要出生的是一名男孩;(5)某天出现雷雨天气; ……参数和统计量总体:包含了所要研究的全部个体(数据的集合)。参数:总体特征的一些概括性数字度量。参数是对总体而言的,常见的参数:总体平均数、总体方差、总体比例,等。参数和统计量样本:从总体中随机抽取一小部分元素的集合。统计量:用来描述样本特征的概括性数字度量。统计量是对样本而言的,常用的统计量:样本平均数、样本方差、样本比例,等。统计学研究的是,如何抽取样本,如果构造样本统计量,如何用样本统计量对总体参数进行估计。随机变量随机变量是相对于常量(也叫常数)而言的,是说明随机现象某种特征的概念。例如,商店销售额,医院婴儿出生数都是随机变量。变量的类型:定性变量,定量变量随机变量按照变量所属类型的不同组合,将变量之间的关系区分为:

定性变量之间的关系

定量变量之间的关系

定性与定量变量之间的关系研究定性变量之间关系的统计模型与方法主要有:

列联分析

对数线性模型

……研究定量变量之间关系的统计模型与方法主要有:

线性回归

非线性回归

……研究定性变量与定量变量之间关系的统计模型与方法主要有:方差分析

logistic回归

判别分析

……统计学第二章

数据的搜集第二章

数据的搜集本章知识点:数据的间接接来源

数据的直接来源抽样误差

未相应误差响应误差

27数据的间接来源(二手数据)数据是由其他人调查或者实验得到的,我们或者拿来直接使用,或者进行重新加工、整理,使之成为我们进行统计分析可以使用的数据。我们把这些数据称为二手数据。28数据的间接来源(二手数据)如,统计年鉴,各种统计数据出版物,一些数据库网站.联合国统计司网站:等。

二手数据的优势:省时,省力,采集数据成本低;需要数据时可以首先考虑。29二手数据的局限数据的真实性,可靠性,时效性,及数据内容是否恰好与需求一致。使用二手数据,要注意数据的定义、统计口径和计算方法,避免数据的错用、误用和滥用。在使用二手数据时,应注明数据的来源,以尊重他人的劳动成果。30数据的直接来源又称一手数据,可以分为调查数据和实验数据。调查数据:通过调查方式得到的数据,主要的调查方式有:

普查,如人口普查,经济普查,农业普查等;

抽样调查,目前应用极为广泛;

统计报表,目前主体是联网直报,多见于政府部门;

其他采集数据方式,如网络“爬虫”技术,等。31实验数据:指在实验中控制实验对象而搜集到的变量的数据。实验是检验变量间因果关系的一种方法,在实验中,研究人员控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验的结果。人文社会科学数据,主要通过调查获取;自然科学研究数据,主要通过实验获取。32是由抽样的随机性引起的样本结果与总体真值之间的差异。只要采用概率抽样,抽样误差就不可避免。抽样误差不是针对某个具体样本的检测结果与总体真实结果的差异而言,它描述的是所有样本可能的结果与总体真值之间的平均性差异。抽样误差在统计学中占有重要地位。33抽样误差

样本量的大小。样本量越大,抽样误差越小;总体的变异性。总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大。34抽样误差大小的影响因素

非抽样误差中的一种,它是指由于种种原因,样本中的一部分人未对调查结果做出反应或回答而造成的误差,也可以称为无回答误差。如果未响应误差是随机的,可以通过增大样本量的方式解决。

35未响应误差如果未响应误差是非随机的,问题就比较严重。调查时要有一些质量保证措施,减少无回答;出现无回答要采取补救措施。36未响应误差也可以视为回答误差。指在调查过程中,由于问题的提问方式、访员的影响或受访者自身的原因,而使受访者在回答问题时产生的误差。相应误差也是非抽样误差中的一种。37响应误差统计学第三章数据的描述1--数据的直观显示第三章数据的描述1--数据的直观显示统计表

统计表的类型

统计图

定性变量的图示定量变量的图示趋势的图示本章知识点:统计表是描述数据的一种基本工具,由横竖交叉线条绘制的表格表现数据所包含的信息。原本杂乱无章的数据,经过有目的的整理,有条理地在统计表中呈现,反映数据的分布特征。统计表简明易懂,节省文字,反映数据分布特征,便于对数据进行对比分析,是统计分析的重要工具。统计表统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。1.简单表

行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。

统计表的类型表3-22011年我国主要宏观经济运行指标

主要宏观经济指标单位数值国内生产总值亿元472881.6就业人数万人76420居民消费价格指数%105.4农村居民家庭人均纯收入元6977.3城镇居民家庭人均可支配收入元21809.8资料来源:中国国家统计局网站《2012年统计年鉴》统计表的类型行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。

2.分组表表3-32003-2011年我国黄金和外汇储备

年份黄金储备(万盎司)外汇储备(亿美元)200319294032.51200419296099.32200519298188.722006192910663.42007192915282.492008192919460.32009338923991.522010338928473.382011338931811.48资料来源:《2012年中国统计年鉴》行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。

3.复合表年份国内生产总值

第一产业第二产业第二产业

第三产业工业建筑业2006216314.424040103719.591310.9412408.6188554.882007265810.328627125831.4110534.915296.48111351.92008314045.433702149003.4130260.218743.21313402009340902.835226157638.8135239.922398.831480382010401512.840533.6187383.2160722.226660.981735962011472881.647486.21220412.8188470.231942.66204982.5资料来源:《2012年中国统计年鉴》表3-42006-2011年主要年份国内生产总值及其构成

单位:亿元行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。

4.交叉表表3-5某项调查被访问者受教育水平和性别分布交叉表

受教育水平性别合计人数(人)百分比(%)男女小学及以下1001402408初中50046096032高中600630123041大学及以上26031057019合计146015403000100用图形的方式表现数据的一种方式。特点是鲜明醒目,易于理解。一张好的统计图,往往胜过冗长的文字表达。根据描述统计变量的性质,可以将统计图进行分类。定性变量图示:条形图、饼图、环形图等;定量变量图示:直方图、折线图、箱线图等。统计图1.条形图条形图可用于显示分类变量和顺序变量取值的频数或频率分布。用宽度相同的条形高度或长短来表示频数的多少或频率的大小。定性变量图示单式条形图图3-12011年我国人口中男女比例图复式条形图图3-21949年和2011年我国人口中男女比例图饼图可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,即相对大小,对于研究结构性问题十分有用。2.饼图图3-32011年我国人口中男女比例图环形图以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。3.环形图图3-41949年和2011年我国人口中男女比例图定量变量也称为数值型变量。按照数据的取值类型,分为:连续性变量和离散型变量用来描述定性变量取值的图示法都能够用来描述定性变量的数值。此外,还可以采用直方图、折线图、箱线图等来进行描述。定量变量的图示直方图是根据定量变量的取值范围来显示观测频数的图。

常用于显示连续型变量在取值区间内的频数分布。

用矩形的宽度和高度(即面积)来表示频数的分布。1.直方图图3-5100名调查员的有效问卷数分布直方图折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。将前面直方图中点直线连接,就形成下面的折线图。2.折线图图3-6100名调查员的有效问卷数分布折线图

当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布图3.8偏态分布图3.7正态分布图3.9

J型分布图3.10

U型分布3.箱线图

箱线图主要用来反映原始数据的分布特征。它由一组数据的最大值、最小值、中位数、上下四分位这五个特征数值组成。箱线图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。图3-11按性别区分的男女学生外语成绩箱线图趋势的图示

当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。1.线图线图在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列图。我国2003年到2011年我国外汇储备情况

图3-122003年—2011年我国外汇储备2.散点图

散点图是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。用坐标横轴代表变量,纵轴代表变量,两个变量的每组数据在坐标系中用一个点表示。图3-131998-2007年国内生产总值和货运周转量散点图统计学第四章

数据的描述2—重要的统计量

本章知识点集中趋势及描述算数平均数

几何平均数中位数众数

均值、中位数、众数之间的关系

本章知识点离散趋势及描述异众比率极差和四分位差平均差、方差、标准差离散系数数据的标准化处理

集中趋势及描述集中趋势:是指一组数据向某中心值靠拢的倾向,是数据分布的一个重要特征。集中趋势的描述:是对一组数据的一般水平代表值或中心值的测度。对集中趋势进行测度的统计量主要有:算数平均数(均值)、几何平均数、中位数、众数等。算数平均数也称均值,是一组数据相加后除以数据个数得到的结果,它是一组数据大小相互抵消的结果,可以看作是数据集的重心。均值是最主要的集中趋势测度统计量,本课程中用符号

表示。

实际计算中又可以分为简单平均数和加权平均数。简单算术平均数未经分组整理的原始数据,其平均值计算就是直接将一组数据的各个数值相加除以数值个数。设一组样本数据为、、、则算术平均数的计算公式为:简单算术平均数加权算数平均数

根据分组整理的数据计算的算术平均数,要以各组变量值出现的次数或频数为权数计算加权算术平均数。

假设样本数据被分成组,样本数据各组变量的代表值用表示,各组变量值出现的频数用表示,则加权算术平均数的计算公式为:加权算数平均数算术平均数二个数学性质性质1各变量值与其算术平均数的离差之和等于零,即:

性质2各变量值与其算术平均数的离差平方和最小,即:

算术平均数二个数学性质最小值或最小值几何平均数几何平均数是用于特殊数据或反映特定目标的平均数,通常用来计算平均比率或平均发展速度,计算公式为:【例4-1】某股票投资者长期持有一只股票,2005-2008年每年的收益率分别是5.6%,7.2%,28.5%,-15.6%。计算该股票投资者4年内的平均收益率。几何平均数

解:根据股票四年的平均收益率可得到其四年的相对价格分别是105.6%,107.2%,128.5%,84.4%。计算四年平均相对价格

四年的平均收益率是105.26%-1=5.26%。几何平均数

105.26%中位数是将变量取值按大小顺序排列后,处于中间位置的那个变量值。中位数把变量的所有取值分成数目相同的两组,一半的数值比中位数小,一半的数值比中位数大,所以中位数是位置平均数。中位数特点是稳定性好,不会受到极端数值的影响。中位数并没有利用所有数据的信息,其对原始数据信息的代表性不如均值。众数是指一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势。

例如,3000名受访者受教育水平分组形成下面统计表。

众数可以看到受教育水平为高中的频数最大,这里众数就是高中学历。均值、中位数、众数的关系从分布的角度看:均值是一组数据全部数值的平均数,中位数是处于一组数据中间位置上的数值,众数始终是一组数据分布的最高峰值。

均值、中位数、众数的关系三者之间的关系表现在:

1.当变量取值的频数分布对称时,则均值()与中位数()、众数()三者完全相等,即图4-1正态分布

2.当变量取值的频数分布呈现右偏时,说明数据存在最大值,必然拉动均值向极大值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为图4-2右偏分布

3.当变量取值的频数分布呈现左偏时,说明数据存在最小值,必然拉动均值向极小值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为。图4-3左偏分布离散趋势及描述离散趋势反映的是各变量值偏离中心值的倾向,是描述数据分布的另一个重要特征。离散趋势是从另一个侧面说明一组数据集中趋势测度值的代表程度。离散趋势越大,集中趋势测度值的代表性越低。

离散趋势及描述

描述离散趋势的测度指标主要有:异众比率、极差、四分位差、平均差、方差、标准差、以及离散系数。

异众比率是指一组数据中非众数(组)的频数占总频数的比例。既适用于定性数据,也适用于定量数据,但主要用于测度分类数据的离散趋势。用Vr表示。计算公式是:

异众比率

异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。极差和四分位差1.极差级差是一组数据的最大值与最小值之差,也称全距,可以用于测度顺序数据和定量数据的离散趋势。级差是最容易计算的离散趋势的测度统计量。但它容易受极端值的影响。如果用R表示极差,其计算公式为:

2.四分位差四分位数是指一组数据按大小排序后处于75%和25%位置上的值,也称四分位点。通常所说的四分位数是指:

处在75%位置上的数值(上四分位数)处在25%位置上的数值(下四分位数)

2.四分位差

四分位差就是上四分位数与下四分位数之间的距离,记上四分位数为

,下四分位数为,四分位差用Qd表示,则:四分位差克服了级差容易受数据中两端极值的影响这一缺陷。平均差、方差和标准差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论