应用统计学讲义_第1页
应用统计学讲义_第2页
应用统计学讲义_第3页
应用统计学讲义_第4页
应用统计学讲义_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学西安交通大学经济与金融学院统计系赵春艳本课程的内容第一章绪论第二章统计数据的搜集、整理和显示第三章统计数据的描述分析第四章参数估计第五章参数假设检验第六章方差分析第七章非参数统计方法第八章时间序列分析第九章相关与回归分析第十章统计指数教材:吴诣民赵春艳《应用统计学》陕西人民教育出版社,2006年。参考书目:1、李心愉·应用经济统计学·北京:北京大学出版社,2003年。2、耿修林·商务经济统计学·北京:科学出版社,2003年3、[美]戴维·R·安德森等·商务与经济统计·北京:中信出版社,2003。4、肖筱南·新编概率论与数理统计·北京:北京大学出版社,2002年。第一章绪论第一节统计学的学科性质一、统计学的学科性质1、争论:“方法论学科”“实质性学科”2、统计处理数据的过程:搜集数据——整理数据——分析数据——解释数据二、统计学的分类1、描述统计学和推断统计学2、理论统计学和应用统计学第二节统计学的几个基本概念一、总体和总体单位1、总体是由具有某种共同性质的许多个体组成的整体,构成总体的个体称为总体单位。2、两层含义:

①统计学研究的是大量现象的数量特征,总体包含了大量现象;

②统计单位具有某一共同性质,但其他的性质、特征是不同的,便于在差异中寻找规律。二、标志和指标1、标志是说明总体单位特征和属性的名称,分为数量标志和品质标志。2、指标是说明总体现象数量特征的概念和数值。按其反映数量特点的不同,分为数量指标和质量指标。三、统计指标1、从总体的一个特征到具体数值,中间有很多步要走。2、以GDP的核算为例来说明①想看一国一年内生产活动的总量,定义GDP是一国在一定时期内最终产品的总价值。(内涵)②最终产品是本期生产本期不再投入生产使用的产品,消费、投资、出口产品。(外延)③跟踪所有产品的使用去向,再核算其价值是不可能的。部门增加值核算方法(计算方法)棉花—纱—布—印染—衣服300—350—460—580—880部门增加值300—50—110—120—300最终产品的总价值=880部门增加值合计=300+50+110+120+300=880④时间、空间、计量单位第二章统计数据的搜集、整理和显示第一节统计数据的搜集一、统计调查方式统计报表制度、普查、抽样调查、典型调查、重点调查例2.1、一批钢材,抽抽样测试其抗抗张力,随机机抽取76个个样本观察值值如下:(单单位:kg/cm2))41.037.033.044.230.527.045.028.540.634.831.233.538.541.543.045.542.539.036.227.538.835.532.529.532.634.537.539.535.829.142.845.142.845.839.837.233.831.231.529.529.035.237.841.243.848.043.641.844.536.536.634.831.032.033.537.440.844.740.041.540.241.338.834.131.834.638.341.344.237.130.035.237.540.538.137.3第二二节节数数据据的的整整理理一、、统统计计分分组组1、统统计分分组是是将统统计总总体按按照一一定标标志区区分成成若干干个组组成部部分的的一种种统计计分析析方法法。2、两两点注注意::——有有时不不易确确定组组与组组之间间的界界限;;——穷穷尽原原则、、互斥斥原则则。钢材抗张力频数频率%组中值向上累计频数向下累计频数27-3079.228.577630-331013.231.5176933-361317.134.5305936-391621.137.5464639-421519.740.5613042-451013.243.5711545-4856.646.5765合计76100------------二、频频数分分布数数列1、统统计分分组后后,每每个组组分配配的总总体单单位数数称为为频数数或次次数,,频数数/总总体单单位总总数=频率率。2、意意义整理了了杂乱乱无章章的数数据,,同时时显示示出一一批数数的分分布情情况,,是数数理统统计学学中随随机变变量及及其概概论分分布概概念在在实际际中的的应用用。3、分分类::按分组组标志志的不不同,,分为为:品质数数列单项数数列::一个个变量量值是是一个个组变量数数列组距数数列::两个变变量值值构成成的区区间是是一个个组三、组组距分分布数数列的的编制制方法法第一步步,排排序后后,极极差=max-min第二步步,确确定组组数、、组距距。组数k=1+3.32lgn(参考考)组距=(max-min)/组数数第三步步,组组中值值。组中值值=((下限限+上上限))/2四、累累计频频数分分布数数列1、各各组频频数向向上、、向下下累计计形成成的数数列。。2、在在经济济学中中的应应用。。————洛伦伦茨曲曲线————基尼尼系数数=A/(A+B)第三节节数数据据显示示—统统计表表和统统计图图一、统统计表表1、表表的格格式::横行标标题::对象象(总总体((常以以年份份形式式表示示)、、总体体分组组、总总体各各单位位)纵栏标标题::统计计指标标交叉部部分::指标标值2、注注意事事项::——数数据居居中,,小数数点对对齐——左左右不不封口口;——表表下面面注明明资料料来源源。二、统统计图图第三章章统统计数数据的的描述述分析析第一节节集集中中趋势势分析析集中趋趋势是是数据据分布布的中中心,,描述述集中中趋势势的指指标有有算术术平均均数、、中位位数、、众数数等。。某单位位80个工工人生生产的的零单位::个6578886558766966806477786065857473656679748559696087858664937662914974787579866887979282669475568577678978798883736984955579775880687787707879614769899666768199Min=47max=99一、算算术平平均数数(均均值))1、将将一批批数累累加起起来,,除以以数据据的个个数,,即为为算术术平均均数。。2、分分为简简单算算术平平均数数和加加权算算术平平均数数例、某某单位位80工人人一周周生产产零件件数。。1、简简单算算术平平均数数2、加加权算算术平平均数数工人一周生产零件数工人数fi组中值xixifi向上累计频数向下累计频数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80---6000------3、算算术平平均数数与数数学期期望对于离离散型型随机机变量量X,,设它它的概概率密密度函函数P(Xi)为,,则的的数学学期望望为对于连连续型型随机机变量量X,,设其其概率率密度度函数数为f(X),,则的的数学学期望望为4、算算术平平均数数的缺缺陷1015202570去掉70后后,二、众众数((M0)1、众数是是指一组变变量值中出出现次数最最多的变量量值。2、众数的的确定①未分组资资料,M0就是出现次次数最多的的变量值。。上例中,78、79各出现5次,都是是M0数据分布是是双峰的。。②分组资料料:在等距分组组的情况下下,频数最最多的组是是众数组,,在该组内内确定众数数。例、上例中中众数组是是第3组,,三、中位数数及分位数数1、中位数数①把一批数数按照从小小到大的顺顺序排列,,处于数列列中点的变变量值就是是Me②确定方法法——未分组组资料:(n+1))/2中位位数的位置置。前例Me=77———分组资料::根据向上上或向下累累计频数分分布数列,,按照确确定中位数数所在的组组,然后确确定。2、百分位位数——把数据据按从小到到大的顺序序排列后,,第P百分位数数是指有P%的值小小于或等于于它,而有有(100-P)%的值大于于或等于它它。——确定方方法。i=(P/100)n就是第P百分位数数的位置。。其中最常用用的是四分分位数。即即把数据分分成四个部部分,每个个部分包括括1/4数数值。第二节离离中趋势势分析一、离中趋趋势1、离中趋趋势是数据据分布的又又一特征,,它表明变变量值的差差异或离散散程度。2、意义::首先,可可以衡量算算术平均数数的代表性性。例:均值都都为150的两组数数50,100,150,200,250100,125,150,175,200其次,进行行产品质量量管理和决决策。3、离中趋趋势测度经经常用到的的指标有::极差、方方差和标准准差、四分分位差等,,它们也被被称为变异异指标。二、极差1、极差也也称为全距距,是一组组变量中最最大值与最最小值的离离差,表明明变量值变变动的范围围。用R表表示极差,,其计算公公式是:2、缺点::易受极端端值的影响响。三、四分位位差1、四分位位差用数列列中第3/4位次与与1/4位位次的变量量值之差除除以2来表表示。2、意义::——剔除了了极端值,,说明50%数据分分布的范围围;——与中位位数配合说说明数据分分布是否对对称。若分分布对称,,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,,则是非对对称的。四、平均差差1、平均差差是指变量量值与其算算术平均数数的离差绝绝对值的算算术平均数数,用符号号A·D表表示。计算算公式:2、优缺点点五、方差与与标准差1、方差与与标准差是是测定离中中趋势最常常用的指标标。标准差差是方差的的平方根,,也称均方方差。2、计算公公式:样本方差和和标准差要要除以n-1,才是总体体的无偏估估计。3、标准差差系数第三节偏偏度和峰度度分析一、矩的概概念1、矩是力力学概念,,用来表示示力和力臂臂对中心的的关系。统统计学中借借用这一概概念讨论随随机变量的的分布特征征。2、统计学学中,将矩矩定义为原原点矩和中中心矩。原原点矩的定定义是:k为整数,,称为k阶阶原点矩中心矩的定定义是:3、中心矩矩的两个重重要性质::——分布对对称时,奇奇数阶中心心矩恒为零零;——当分布布为正态分分布时,偶偶数阶中心心矩有二、偏态1、分布的的偏态就是是分布不对对称的方向向和程2、它的测测量主要是是两种方法法,一种是是矩法,二二是Pearson偏态系数数。Pearson偏态态系数以平平均数与众众数之差除除以标准差差来衡量偏偏斜程度,,用SK表表示。其计计算公式为为:当SK=0时,呈呈对称分布布;当SK>0时时,分分布是右偏偏(正偏))的;当SK<0时时,分布布是左偏((负偏)的的。矩法估计就就是利用中中心矩来衡衡量分布的的偏度。用用公式表示示为:例、前例数数据的偏度度分析。三、峰度1、峰度是是变量分布布的又一性性质,它指指的是分布布曲线的高高峰形态,,也是分布布曲线的尖尖峭程2、衡量指指标:峰度度是用变量量的四阶中中心矩除以以标准差四四次方,并并将结果再再减3,用用公式表示示为:3、正态分分布的四阶阶中心矩系系数,亦即即峰度指标就是是以正态分布布的峰度为比比较标准,判判断实际分布布曲线的尖峭峭程度。当峰度指标>0时时,表示频数数分布比正态态分布更集中中,分布呈尖尖峰状态;<0时表示频频数分布比正正态分布更分分散,分布呈呈平坦峰。例、前例数据据的峰度分析析第四章参数数估计第一节随随机变量与概概论分布随机现象———随机变量———概论分布布——离散型型和连续型随随机变量第二节统统计量与抽样样分布一、几个基本本概念1、总体和样样本①研究对象的的全体称为总总体,组成总总体的每个基基本单元称为为个体;把从从总体中按照照随机原则抽抽出的个体组组成的小群体体称为样本,,所包含的个个体总数称为为样本容量。。②总体=某项项数量指标取取值的全体=随机变量③一个容量为n的样本就是一一个n维随机变量其中相相互独立,与与总体具具有相同的概概率分布。2、统计量与与抽样分布①参数估计②统计量样本函数称为为统计量。设设是来自总体的的一个样样本,是的的函数,若若是连续续函数且其中中不含任何未未知参数,则称是是一个统计量量。③抽样分布统计量的概论论分布为抽样样分布,总体的分布已已知时,统计计量的分布是是确定的。二、三大推断断分布(一)分分布1、设是是来自总总体(0,1)的一个样本,,则称统计量量服从自由度为为n的分分布,记为。。此处,自由度度是指包含的的独立变量的的个数。2、性质:(1)设,,且独独立,则则,,即分布具有可可加性。(2)分位点点若对于给定的的,0<<<1,,存在使得则称点为为分分布的上分分位点,,如图所示。。(二)t分布1、设X~N(0,1),Y~x2(n),且X,Y相互独独立,则称随随机变量为服从自由度度为n的t分分布,记T~t(n)。。t分布又称称学生氏(student)分布。。2、性质——关于y轴轴呈对称分布布;当时时,近似于N(0,1))分布。——α分位点对于给定的αα,0<αα<1,称满满足的点为为t分布布的α分位点点。(三)F分布1、设U~X2(n1),V~X2(n2),且U、V相互独立,,则服从自由度为为(n1,n2)的F分布,,记为2、性质——F分布是是非对称的——α分位点对于给定的αα,0<αα<1,称满满足为F分布的αα分位点。——三、正态总体体统计量的抽抽样分布1、样本均值值统计量的抽抽样分布。(1)总体方方差已知~(2)总体方方差未知(3)当总体体不是正态总总体时,由中中心极限定理理知,n很大大,(n>30),同((1),可以以用样本方差差替代总体方方差。2、样本方差差s2的抽样分布3、两样本均均值差的抽样样分布(1)已已知(2)未未知,但两者者相等(3)当不知知总体的分布布形式时,n很大时,由由中心极限定定理推,同((1),用样样本方差替代代总体方差。。4、两总体方方差比5、样本成数数的抽样分布布第二节点点估计一、点估计1、点估计是是指根据总体体参数的性质质构造一个统统计量,然后后由样本资料料计算出统计计量的值,并并直接作为相相应的总体参参数值的替代代。2、常见的用用样本均值、、方差、成数数作为总体均均值、方差、、成数的估计计值。3、缺点第三节区区间估计一、含义1、用样本统统计量的两个个估计值所构构成的一个区区间估计总体体参数。(1)区间估估计不仅要有有具体结果,,还要有精度度及可靠程度度;(2)估计的的置信度或概概论保证程度度;(3)置信度度与估计精度度。二、区间估计计原理以总体均值的的估计为例(1)三、例题例4.1、一家袜厂的原原料之一加弹弹尼龙来自甲甲、乙两家工工厂,为了估估计甲乙两厂厂提供的产品品的拉力强度度的差异,从从甲厂随机抽抽取了25个个样品,从乙乙厂抽取了16个样品,,测试结果,,甲厂产品的的平均拉力强强度为22千千克,乙厂产产品的平均拉拉力强度为20千克,根根据过去记录录,两个工厂厂产品的拉力力强度的方差差均为10,,要求以95%的把握对对两厂产品拉拉力强度的差差异情况做出出判断。解:m=25,n=16,,,1-=95%即(0.016,3.984),在在95%的概概率保证下,,甲厂产品的的拉力强度大大于乙厂,不不超过4千克克。例4.2、、某教育研究机机构为了了解解男女学生高高考数学成绩绩的差异程度度,随机从参参加高考的男男女学生中分分别抽取了61人和121人,调查查资料得出::男生女生数数学考试成绩绩的方差分别别是73和84,试以95%的概率率推断的置置信区间。解:m=121,n=61,=84,=73,1-=95%假定男、女生生成绩服从正正态分布,统统计量服从的的分布是:=0.05,,查表,(120,60)=1.58,(120,60)=1/(60,120)=1/1.53代入上式,得得区间估计为为(0.57,1.37)。第四节样样本容量的确确定一、决定样本本容量的因素素1、总体方差差2、允许误差差3、概率保证证程度4、以总体均均值的估计为为例:设=例第五章参参数假设检验验第一节参参数假设检验验的基本原理理和步骤一、参数假设设检验的含义义1、问题的提提出2、这类问题题特征3、两个假设设的提出4、对总体假假设的类型二、假设检验验的基本原理理以实例说明。。例5.1、某旅游机构根根据过去资料料对国内旅游游者的旅游费费用进行分析析,发现在10天的旅游游时间中,旅旅游者用在车车费、住宿费费、膳食及购购买纪念品等等方面的费用用是一个近似似服从正态分分布的随机变变量,其平均均值为1010元,标准准差为205元,而某研研究所抽取了了样本容量为为400的样样本,作了同同样内容的调调查,得到样样本平均数为为1250元元。能否根据据样本的平均均数1250元,推断认认为总体平均均数是1010元呢?1、H0:μ=1010;H1:μ≠1010若H0为真,则从X~N(1010,2052)中抽取容量量为400的的样本,则~N(1010,2052/400),则~N(0,1)代入样本值有有2、Z=23.4相当于于随机变量的的一个取值。。3、小概率事事件在一次试试验中几乎不不可能发生。。4、误判5、P值规规则。第二节常常见的参参数假设检检验一、样本均均值统计量量的抽样分分布。总体X~N(μ,σ2),n,H0:μ=μ0;H1:μ≠μμ0;(1)总体体方差已知知~H0成立时,拒绝域(2)总体方方差未知H0成立的条件件下,拒绝域,(3)总体体分布未知知,大样本本,同(1)二、两个总总体均值差差的检验(1)两总总体方差已已知H0成立时,拒绝域(2)两总总体方差未未知,但相相等在H0成立的条件件下,拒绝域(3)总体体分布形式式未知,大大样本,同同(1)三、单个正正态总体方方差的检验验在H0成立的条件件下,拒绝域χ2<或或者χ2>四、两个正正态总体方方差比的检检验在H0成立的条件件下,拒绝域F<或或者者F>五、单个总总体成数的的检验1、拒绝域六、两个总总体成数差差的检验拒绝域第三节假假设检检验的其他他问题一、单侧检检验1、单侧检检验指拒绝绝域在样本本统计量分分布的一侧侧。(1)若,,则则对于显著著性水平,,有有(2)若,,则因为是是总体体均值,所所以对于给给定的显著著性水平,,有当是概率更小小的事件。。2、H0中不管出现现什么符号号,均按等等号处理。。二、参数检检验的两类类错误1、“以真真为假”2、“以假假为真”3、α给定的原原则三、实例例1、已知某某炼铁厂的的铁水含碳碳量服从正正态分布N(4.40,0.052),某日测测得5炉铁铁水的含碳碳量如下::4.344.404.424.304.35若标准差不不变,该日日铁水含碳碳量的均值值是否显著著降低(取取α=0.05)?解:已知μ=4.40,σ=0.05,n=5,α=0.05,设提出出假设:μ:=4.40,μ:<4.40选取统计量量μ<-μμ0.05,拒绝原假假设。例2、一所学校正正在考虑修修订下一年年的学校用用车服务合合同,结合合诸多情况况的分析,,初步确定定学校只能能在A和B两个汽汽车出租公公司中选择择其中的一一个。假设设我们以运运送或到达达的时间方方差作为衡衡量这两个个公司的服服务质量的的标准。如如果两个公公司的时间间方差相等等,那么就就要考虑能能够以较低低价格出租租的那个公公司,如果果两个公司司的时间方方差明显不不同,那么么就要考虑虑选择一个个时间方差差比较小的的公司进行行合作。为为了找到决决策的事实实依据,该该学校对过过去这两个个汽车出租租公司的行行驶和服务务时间进行行了调查。。对A公司司做了25次观察,,得到它的的时间方差差为48,,对B公司司做了16次观察,,得到它的的时间方差差为20。。试在显著著性水平为为0.1的的条件下,,对两个出出租车公司司的服务时时间差异进进行假设检检验。解:已知nA=25,SA2=48,nB=16,SB2=20,α=0.1F=代入样本值值,得F=48/20=2.4在0.1显显著性水平平下,查表表得F0.05(24,19)=2.29,F0.05(24,19)=)=1/F0.05(19,24)=1/2.03=0.49例3、为了了了解男性性与女性对对公共场所所禁烟立法法的态度,,现随机调调查510名男性,,有16%的人赞成成公共场所所禁烟立法法,被调查查的324名女性中中,有29%的人赞赞成禁烟立立法。问男男性与女性性对公共场场所禁烟立立法的态度度是否存在在明显的差差异。(α=0.05)解:已知n=510,px=16%,m=324py=29%α=0.05α=0.05,本题是是左侧检验验,查表得得z0.05=1.65,-4.33<-1.65,拒拒绝原假设设。第六章方方差分析析第一节方方差分析析的基本理理论一、问题的的提出1、例子2、方差分分析:在若若干个能够够相互比较较的资料组组中,判别别各组资料料是否存在在差异以及及分析差异异原因的方方法和技术术。3、有关术术语——试验指指标——试验因因素——试验水水平——试验次次数——单因素素方差分析析和两因素素方差分析析二、方差分分析的假定定条件1、因素A的每个水水平Xj~N(μj,σ2),j=1,2,……,r2、Aj下的任意观观察值XijXij=μj+εij,i=1,2,…,n;j=1,2,……,r3、εij~N(0,σ2)Xij~N(μj,σ2)三、方差差分析的的基本思思想1、组内内数据差差异2、因素素是否会会对结果果有影响响就转化化为各组组均值是是否相等等3、分析析方法::通过方方差的比比较来实实现对均均值的比比较。第二节单单因素方方差分析析一、单因因素等重重复方差差分析1、分析析框架——因素素的每个个水平做做相等次次数的试试验;——Xj~N(μj,σ2),j=1,2,…,rXij=μj+εij;i=1,2,……,n;j=1,2,…,rεij~N(0,σ2)Xij~N(μj,σ2)2、总离离差平方方和及组组内、组组间离差差平方和和令:总离差平平方和::组间离差差平方和和:组内离差差平方和和:ST2=Sb2+Sw23、样本本统计量量的分布布拒绝域例1、在在电解铜铜工艺中中,电流流强度、、电解液液配方和和浓度、、设备水水平等,,对电解解铜的纯纯度有很很大影响响。为考考察电流流强度的的作用效效果,将将其他因因素固定定起来,,分别在在五种电电流强度度下各做做五次试试验,观观察一小小时内得得到的电电解铜的的杂质率率数据如如表所示示:(见见书)解:已知知r=5,n=5,α=0.05不完全相相等F0.05(4,20)=2.87F=6.326>2.87,,拒绝原原假设,,电流强强度对电电解铜杂杂质率有有显著影影响。二、单因因素不等等重复方方差分析析A因素的各各水平下下所做的的试验次次数不完完全相等等1、离差差平方和和2、样本本统计量量的分布布3、例题题:某公司为为进一步步激励销销售人员员的工作作热情,,正筹划划实行新新的分配配办法,,拟定采采用的做做法是对对新近招招聘进来来的销售售人员实实行佣金金制,对对工作满满五年的的员工采采用佣金金加固定定薪金,,对工作作满八年年以上的的销售人人员基本本实行固固定薪金金方案。。不知这这样的分分配办法法是否能能达到促促进销售售的目的的,为此此,主管管部门考考虑进行行跟踪观观察一段段时间,,然后再再正式决决定。从从各个分分配方案案的人员员中,按按随机原原则抽取取一定的的人员,,登记一一个月的的销售量量(单位位:万元元),具具体资料料如表所所示:试在显著著性水平平α=0.05的的要求下下,分析析不同的的分配方方法是否否会对产产品销售售量有影响。。解:已知知r=3n1=6n2=9n3=5不完全相相等F=α=0.05,,F0.05(2,17)=3.59,F=4.68>3.59,拒拒绝原假假设,说说明不同同分配方方法对销销售人员员的销售售量有显显著影响响。第三节两两因因素方差差分析一、无重重复两因因素方差差分析1、分析析框架2、总离离差平方方和的分分解令:3、样本本统计量量的分布布拒绝域例:某水水生植物物研究所所想确定定植物养养料处理理和水温温处理对对用作色色拉的小小型红色色西红柿柿重量((单位::克)的的影响,,得到的的数据资资料如表表所示::试在显显著性水水平0.05条条件下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论