《应用统计学》课件_第1页
《应用统计学》课件_第2页
《应用统计学》课件_第3页
《应用统计学》课件_第4页
《应用统计学》课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲:马媛20015年3月应用统计学主讲:马媛应用统计学1课程的重要性个人参与社会生活的需要专业学习的需要总学时:54学分:3分

课程的重要性2第一章绪论统计学的产生和发展统计数据与统计学统计学的分科统计学的基本概念学习内容学习目标理解统计学的含义理解统计学与统计数据的关系了解统计学的分科了解统计学的发展过程第一章绪论统计学的产生和发展学习内容学习目标理解统计学的3一、统计学的产生与发展统计:统计工作、统计数据、统计学古典统计学阶段(17世纪中叶~19世纪初)国势学派:使用记述、对比的方法研究国家基本国情政治算术学派:使用数字、图表等统计方法,研究英国、法国、荷兰三国的国情、国力概率论学派:研究随机现象近代统计学阶段(19世纪初~20世纪初)现代统计学阶段(20世纪初至今)一、统计学的产生与发展统计:统计工作、统计数据、统计学古典统4历史上著名的统计学家拉普拉斯高斯卡尔·皮尔逊1749-18271857-19361777-1855历史上著名的统计学家拉普拉斯高斯卡尔·皮尔逊1749-1825二、统计学与统计数据收集、整理、显示和分析统计数据的科学,目的是探索数据的内在数量规律性。数据搜集:取得数据数据表述:图表展示数据数据分析:分析数据数据解释:结果的说明二、统计学与统计数据收集、整理、显示和分析统计数据的科学,目6研究过程解释数据(结果说明)收集数据(取得数据)整理数据(处理数据)分析数据(研究数据)实际问题研究过程解释数据收集数据整理数据分析数据实际问题7统计规律正常条件下新生婴儿的男女性别比为107:100投掷一枚质地均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系统计规律正常条件下新生婴儿的男女性别比为107:1008三、统计学的分科统计方法描述统计推断统计参数估计假设检验1.使用方法三、统计学的分科统计方法描述统计推断统计参数估计假设检验1.9描述统计学(descriptivestatistics)研究数据收集、整理和描述的统计学分支内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105研究对象:确定性现象描述统计学(descriptivestatistics)研10推断统计学(inferentialstatistics)总体样本研究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断研究对象:不确定性现象推断统计学(inferentialstatistics)总11描述统计与推断统计的关系反映客观现象的数据描述统计(统计数据的搜集、整理、显示和分析等)样本数据总体数据总体内在的数量规律性概率论(包括分布理论、大数定律和中心极限定理等)推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)描述统计与推断统计的关系反映客观现象的数据描述统计样本数据总122.应用领域理论统计学与应用统计学理论统计研究统计学的一般理论研究统计方法的数学原理应用统计研究统计学在各领域的具体应用国民经济统计学,人口统计学,管理统计学2.应用领域理论统计学与应用统计学理论统计133.统计学与其他学科的关系与数学的关系以数学为基础,但不同于数学与专业课程的关系是专业课程的工具,通过使用可以帮助我们发现研究领域所存在的规律,进一步结合专业知识对它进行阐释可以形成新的理论数学:抽象无量纲演绎为主

统计学:具体有量纲归纳与演绎3.统计学与其他学科的关系与数学的关系以数学为基础,但不同于14统计工作不是把数字随便填到几个格格里去,而应当是用数字来说明所研究的现象在实际生活中已经充分呈现出来和正在呈现出来的各种社会类型。-----《列宁全集》统计工作不是把数字随便填到几个格格里去,而应当是用数字来说明15四、几个基本概念1.总体和样本总体(population)所研究的全部个体的集合,其中的每一个个体称为总体单位总体单位具有大量性、同质性、异质性样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量

四、几个基本概念1.总体和样本总体(population)162.标志和指标说明总体单位属性和特征的名称品质标志:总体单位质的特征数量标志:总体单位量的特征姓名性别年龄学历工龄收入王小二男56研究生2830万标志名称标志值企业名称所属行业员工人数年销售额

(变量)标志:2.标志和指标说明总体单位属性和特征的名称品质标志:总体单17指标:综合反应总体数量特征的概念和数值具有可量性和综合性理论:指标名称、核算方法、计量单位实践:时间、空间、数值常用指标:总量指标相对指标平均指标指标:综合反应总体数量特征的概念和数值具有可量性和综合性理论182014年我国国内生产总值568845亿元,按可比价格计算,比上年增长7.7%。全年全国粮食总产量达到60194万吨,比上年增加1236万吨,增长2.1%。全年城镇居民人均总收入29547元。其中,城镇居民人均可支配收入26955元,比上年名义增长9.7%,扣除价格因素实际增长7.0%。全年农村居民人均纯收入8896元,比上年名义增长12.4%,扣除价格因素实际增长9.3%。2013年全国居民收入基尼系数为0.473。

2014年我国国内生产总值568845亿元,按可比价格计算,19总结:统计学——数据的科学设置科学的指标获取真实的数据运用科学的分析方法总结:统计学——数据的科学设置科学的指标获取真实的数据运用科20第二章统计数据的描述统计数据的来源统计数据的整理分布集中趋势的测度分布离散程度的测度统计图与统计表学习内容了解统计数据的来源和数据的质量要求掌握数值型数据的整理方法掌握数据集中趋势和离散程度的测度方法掌握茎叶图和箱线图的制作方法了解分布偏态与峰度的测度方法掌握统计表和统计图的使用学习目标第二章统计数据的描述统计数据的来源学习内容了解统计数据的来21第一节数据的收集一、直接渠道1.普查(census)为特定目的专门组织的全面调查通常是一次性或周期性的,非经常一般需要规定统一的标准调查时间数据的规范化程度较高应用范围比较狭窄总体统计调查是按照预定的统计任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集资料的全过程。第一节数据的收集一、直接渠道1.普查(census)为222.抽样调查(samplingsurvey)

从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法

特点:经济性、时效性、适应面广、准确性高总体

随机样本

2.抽样调查(samplingsurvey)从233.统计报表按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方法。4.重点调查在所要调查的总体中选择一部分重点单位进行调查重点单位是着眼于现象量的方面,尽管这些单位在全部单位中只占一部分,但是它们的某一主要标志的标志总量在总体标志总量中有绝大比重。重点单位的选择着眼于它所研究现象主要标志总量的比重,因而它的选择不带有主观因素。3.统计报表按国家统一规定的表式,统一的指标项目,统245.典型调查有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。虽然抽样调查、重点调查、典型调查都属于非全面调查,但是只有抽样调查可以用来推断总体的数量特征。重点调查和典型调查所得资料只能形成对总体的定性认识,不能上升为总体的定量结果。解剖麻雀:总体内部个体间差异很小划类选典:总体内部个体间差异较大5.典型调查有意识地选取若干具有代表性的单位进行调查25二、间接渠道统计部门和政府部门公布的有关资料,如各类统计年鉴各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料

Internethttp//WWW.中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社二、间接渠道统计部门和政府部门公布的有关资料,如各类统计年鉴26中国政府及相关机构网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网经济信息及各类网站华通数据中心国家统计局授权的数据中心中国决策信息网决策知识及案例三农数据网三农信息、论坛及相关网站中国政府及相关机构网址数据内容国家统计局http://ww27补充:文献检索系统检索追溯检索浏览检索选取合适的数据库和检索的关键词ScienceCitationIndex平时的积累补充:文献检索系统检索追溯检索浏览检索选取合适的数据库和检索28三、数据的误差1.抽样误差由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素样本容量的大小总体的变异性2.非抽样误差除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中三、数据的误差1.抽样误差由于抽样的随机性所带来的误差影29抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训调查过程控制调查结果进行检验、评估3.误差的控制抽样误差可计算和控制非抽样误差的控制调查员的挑选3.误差的30第二节数据的整理一、数据的预处理数据的审核逻辑审核计算检查保证数据的完整性和准确性目的二、统计分组根据统计研究的需要,将数据按照某个属性分成不同的组别第二节数据的整理一、数据的预处理数据的审核逻辑审核计算311.单变量值分组适用于品质标志分组及数量标志分组中变量值较少时1.单变量值分组适用于品质标志分组322.组距分组【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。

2.组距分组【例】某车间30名工人每周加工某种零件件数如右33组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~组距分组

(要点)将变量值的一个区间作为一组~34组距分组(思路)先确定组数,再确定组距先确定组距,再确定组数组数越多,组距越小最终分组结果需要反应出总体内各单位的实际分布特征例:66697476788082848889组距分组(思路)先确定组数,再确定组距先确定组距,再确定组数35组距分组

(几个概念)下限(lowlimit):一个组的最小值上限(upperlimit):一个组的最大值组距(classwidth):上限与下限之差组中值(classmidpoint):下限与上限之间的中点值组距分组

(几个概念)下限(lowlimit):一个组的36频数分布表频数分布表373.累积频数向上累积频数(以下累积)变量值由小到大排列,表示某个变量值的位置,或者小于等于某个变量值的个数向下累积频数(以上累积)变量值由大到小排列,表示某个变量值的位置,或者大于等于某个变量值的个数例:P19表2.93.累积频数向上累积频数(以下累积)变量值由小到大排列38三、数据分布的图示和类型1.直方图(histogram)用矩形的宽度和高度来表示频数分布的图形在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图三、数据分布的图示和类型1.直方图(histogram)用392.折线图(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的2.折线图(frequencypolygon)折线图也称40次数分配的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布次数分配的类型对称分布右偏分布左偏分布正J型分布反J型分布U41四、洛伦茨曲线描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成AB累积的收入百分比累积的人口百分比

绝对公平线

四、洛伦茨曲线描述收入和财富分配性质的曲线,分析该国家或地区42基尼系数20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。AB基尼系数20世纪初意大利经济学家基尼(G.Gini)43第三节集中趋势的测度一、众数(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据第三节集中趋势的测度一、众数(mode)一组数据中出现次数44无众数

原始数据:10591268一个众数

原始数据:67

9877多于一个众数

原始数据:252828364242应用:市场中价格的确定含义:最典型的,最普遍的无众数

原始数据:105945二、中位数(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据二、中位数(median)排序后处于中间位置上的值Me50%46【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789

【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910

【例】9个家庭的人均月收入数据【例】:10个家庭的47其他位置平均数四分位数(quartile)QLQMQU25%25%25%25%十分位数(decile)D1D2D3……D9百分位数(percentile)P1P2……P99其他位置平均数四分位数(quartile)QLQMQU25%48三、均值(mean)x1,x2,…,xNx1,x2,…,xn设一组数据为:样本总体总体均值样本均值1、简单算术平均(simplearithmeticmean)三、均值(mean)x1,x2,…,xN设一组数据为:样492、加权算术平均(weightedarithmeticmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fn总体样本2、加权算术平均(weightedarithmeticm50《应用统计学》PPT课件51变形公式变量值权重性质各变量值与均值的离差之和等于零

各变量值与均值的离差平方和最小变形公式变量值权重性质各变量值与均值的离差之和等于零各变量52四、几何平均(geometricmean)适用条件变量值以相对数的形式出现且变量值相乘有意义应用计算平均发展速度平均收益率流水线的产品合格率四、几何平均(geometricmean)适用条件变量值以53某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工序产品的合格率分别为98%、95%、95%、97%,计算整个流水线产品合格率?某银行为鼓励用户长期存款,以复利方式计息,某10年期存款的年利率第1—4年为3%、第5—7年年为4.5%、第8—10年为5.5%。则10年的平均年利率?平均年利率为4.19%某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工54五、众数、中位数、均值的比较1、数量关系左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值五、众数、中位数、均值的比较1、数量关系左偏分布均值中位552、众数、中位数、均值的特点和应用众数不受极值的影响易于理解,最典型的,尤其适用于类型变量不唯一中位数不受极值的影响数据分布偏斜程度较大时应用均值数学性质稳定易受极值影响数据对称分布或接近对称分布时应用2、众数、中位数、均值的特点和应用众数不受极值的影响易于理解56前三季度,全国农村居民人均现金收入8527元,同比名义增长11.8%,扣除价格因素实际增长9.7%。全国城镇居民人均可支配收入22044元,同比名义增长9.3%,扣除价格因素实际增长6.9%。根据城乡一体化住户调查,前三季度全国居民人均可支配收入14986元,同比名义增长10.5%,扣除价格因素实际增长8.2%。全国居民人均可支配收入中位数13120元,同比名义增长12.1%。

2014年三季度宏观经济数据前三季度,全国农村居民人均现金收入8527元,同比名义增长157第四节离散程度的测度一、极差(range)R

=max(xi)-min(xi)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响二、内距(Inter-QuartileRange,IQR)上四分位数与下四分位数之差IQR=Q3–Q1反映了中间50%数据的离散程度不受极端值的影响第四节离散程度的测度一、极差(range)R=max58三、方差和标准差(variance,standarddeviation)未分组数据:分组数据:总体方差和标准差三、方差和标准差(variance,standardd59未分组数据:分组数据:注意:样本方差用自由度n-1去除!未分组数据:分组数据:注意:60自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为

n时,若样本均值确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值例如,样本有3个数值,当确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量自由度(degreeoffreedom)一组数据中可以自61变形公式:同随机变量的方差变形公式:同随机变量的方差62四、标准差的作用判断变量的离散程度判断某一变量取值是否一致判断某一变量落在某一区间的概率切比雪夫定律:

判断某一变量值在数据集合中的位置标准化值四、标准差的作用判断变量的离散程度判断某一变量取值是否一致判63五、离散系数(coefficientofvariation

)例:甲乙两组工人加工零件数如下6065707580257912甲组乙组离散系数:标准差与其相应的均值之比或消除了数据水平高低和计量单位的影响用于对不同变量离散程度的比较五、离散系数(coefficientofvaria64【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度【例】某管理局抽查了所属的8家企业,其产品销售数据如表。65结论:

计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度结论:计算结果表明,v1<v2,说明产品销售额的离散程度小66第五节偏态系数与峰度系数一、偏态系数反映变量偏斜程度的指标通常SK取值在-3~+3之间,绝对值越大,表明偏斜程度越大大于0为正偏(右偏),小于0为负偏(左偏),等于0为对称分布第五节偏态系数与峰度系数一、偏态系数反映变量偏斜程度的指67二、峰度系数是对数据分布平峰或尖峰程度的测度K=0正态分布K>0尖峰分布K<0平峰分布二、峰度系数是对数据分布平峰或尖峰程度的测度K=0正态68第六节统计表与统计图一、统计表表2.11某厂职工人数统计表2007年12月31日性别人数(人)比率(%)男女25311568.7531.25表头行标题列标题数字资料合计368

100.00

资料来源:……………附加第六节统计表与统计图一、统计表表2.11某厂职工人数69合理安排统计表的结构,长方形表格,长宽保持适当比例;表头一般应包括表号、总标题和表中数据的性质;满足3W要求:数据的时间(when)、地点(where)、何种数据(what)上下两端用粗线,表内用细线绘制,两端采用开口式;注解或资料来源统计表的设计科学、实用、简练、美观合理安排统计表的结构,长方形表格,长宽保持适当比例;统计表的70二、统计图1.茎叶图(stem-and-leafdisplay)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论