版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用统计学,西安交通大学经济与金融学院统计系赵春艳,本课程的内容第一章绪论第二章统计数据的搜集、整理和显示第三章统计数据的描述分析第四章参数估计第五章参数假设检验第六章方差分析第七章非参数统计方法第八章时间序列分析第九章相关与回归分析第十章统计指数,教材:吴诣民赵春艳应用统计学陕西人民教育出版社,2006年。参考书目:1、李心愉应用经济统计学北京:北京大学出版社,2003年。2、耿修林商务经济统计学北京:科学出版社,2003年3、美戴维R安德森等商务与经济统计北京:中信出版社,2003。4、肖筱南新编概率论与数理统计北京:北京大学出版社,2002年。,第一章绪论,第一节统计学的学科性质一、统计
2、学的学科性质1、争论:“方法论学科”“实质性学科”2、统计处理数据的过程:搜集数据整理数据分析数据解释数据,二、统计学的分类1、描述统计学和推断统计学2、理论统计学和应用统计学,第二节统计学的几个基本概念一、总体和总体单位1、总体是由具有某种共同性质的许多个体组成的整体,构成总体的个体称为总体单位。2、两层含义:统计学研究的是大量现象的数量特征,总体包含了大量现象;统计单位具有某一共同性质,但其他的性质、特征是不同的,便于在差异中寻找规律。,二、标志和指标1、标志是说明总体单位特征和属性的名称,分为数量标志和品质标志。2、指标是说明总体现象数量特征的概念和数值。按其反映数量特点的不同,分为数量
3、指标和质量指标。,三、统计指标1、从总体的一个特征到具体数值,中间有很多步要走。2、以GDP的核算为例来说明想看一国一年内生产活动的总量,定义GDP是一国在一定时期内最终产品的总价值。(内涵)最终产品是本期生产本期不再投入生产使用的产品,消费、投资、出口产品。(外延),跟踪所有产品的使用去向,再核算其价值是不可能的。部门增加值核算方法(计算方法)棉花纱布印染衣服300350460580880部门增加值30050110120300最终产品的总价值=880部门增加值合计=300+50+110+120+300=880时间、空间、计量单位,第二章统计数据的搜集、整理和显示,第一节统计数据的搜集一、统计
4、调查方式统计报表制度、普查、抽样调查、典型调查、重点调查,例2.1、一批钢材,抽样测试其抗张力,随机抽取76个样本观察值如下:(单位:kg/cm2)41.037.033.044.230.527.045.028.540.634.831.233.538.541.543.045.542.539.036.227.538.835.532.529.532.634.537.539.535.829.142.845.142.845.839.837.233.831.231.529.529.035.237.841.243.848.043.641.844.536.536.634.831.032.033.537.440
5、.844.740.041.540.241.338.834.131.834.638.341.344.237.130.035.237.540.538.137.3,第二节数据的整理一、统计分组1、统计分组是将统计总体按照一定标志区分成若干个组成部分的一种统计分析方法。2、两点注意:有时不易确定组与组之间的界限;穷尽原则、互斥原则。,二、频数分布数列1、统计分组后,每个组分配的总体单位数称为频数或次数,频数/总体单位总数=频率。2、意义整理了杂乱无章的数据,同时显示出一批数的分布情况,是数理统计学中随机变量及其概论分布概念在实际中的应用。,3、分类:按分组标志的不同,分为:品质数列单项数列:一个变量值
6、是一个组变量数列组距数列:两个变量值构成的区间是一个组,三、组距分布数列的编制方法第一步,排序后,极差=max-min第二步,确定组数、组距。组数k=1+3.32lgn(参考)组距=(max-min)/组数第三步,组中值。组中值=(下限+上限)/2,四、累计频数分布数列1、各组频数向上、向下累计形成的数列。2、在经济学中的应用。洛伦茨曲线基尼系数=A/(A+B),第三节数据显示统计表和统计图一、统计表1、表的格式:横行标题:对象(总体(常以年份形式表示)、总体分组、总体各单位)纵栏标题:统计指标交叉部分:指标值2、注意事项:数据居中,小数点对齐左右不封口;表下面注明资料来源。,二、统计图,第三
7、章统计数据的描述分析,第一节集中趋势分析集中趋势是数据分布的中心,描述集中趋势的指标有算术平均数、中位数、众数等。,某单位80个工人生产的零单位:个6578886558766966806477786065857473656679748559696087858664937662914974787579866887979282669475568577678978798883736984955579775880687787707879614769899666768199Min=47max=99,一、算术平均数(均值)1、将一批数累加起来,除以数据的个数,即为算术平均数。2、分为简单算术平均数和加权算
8、术平均数,例、某单位80工人一周生产零件数。1、简单算术平均数2、加权算术平均数,3、算术平均数与数学期望对于离散型随机变量X,设它的概率密度函数P(Xi)为,则的数学期望为对于连续型随机变量X,设其概率密度函数为f(X),则的数学期望为,4、算术平均数的缺陷1015202570去掉70后,,二、众数(M0)1、众数是指一组变量值中出现次数最多的变量值。2、众数的确定未分组资料,M0就是出现次数最多的变量值。上例中,78、79各出现5次,都是M0数据分布是双峰的。,分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。,例、上例中众数组是第3组,,三、中位数及分位数1、中位数把
9、一批数按照从小到大的顺序排列,处于数列中点的变量值就是Me确定方法未分组资料:(n+1)/2中位数的位置。前例Me=77分组资料:根据向上或向下累计频数分布数列,按照确定中位数所在的组,然后确定。,2、百分位数把数据按从小到大的顺序排列后,第P百分位数是指有P%的值小于或等于它,而有(100-P)%的值大于或等于它。确定方法。i=(P/100)n就是第P百分位数的位置。其中最常用的是四分位数。即把数据分成四个部分,每个部分包括1/4数值。,第二节离中趋势分析一、离中趋势1、离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。2、意义:首先,可以衡量算术平均数的代表性。例:均值都为150
10、的两组数50,100,150,200,250100,125,150,175,200其次,进行产品质量管理和决策。3、离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。,二、极差1、极差也称为全距,是一组变量中最大值与最小值的离差,表明变量值变动的范围。用R表示极差,其计算公式是:2、缺点:易受极端值的影响。,三、四分位差1、四分位差用数列中第3/4位次与1/4位次的变量值之差除以2来表示。2、意义:剔除了极端值,说明50%数据分布的范围;与中位数配合说明数据分布是否对称。若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,则是非对称的。,四、平均
11、差1、平均差是指变量值与其算术平均数的离差绝对值的算术平均数,用符号AD表示。计算公式:2、优缺点,五、方差与标准差1、方差与标准差是测定离中趋势最常用的指标。标准差是方差的平方根,也称均方差。2、计算公式:样本方差和标准差要除以n-1,才是总体的无偏估计。3、标准差系数,第三节偏度和峰度分析一、矩的概念1、矩是力学概念,用来表示力和力臂对中心的关系。统计学中借用这一概念讨论随机变量的分布特征。2、统计学中,将矩定义为原点矩和中心矩。原点矩的定义是:k为整数,称为k阶原点矩,中心矩的定义是:,3、中心矩的两个重要性质:分布对称时,奇数阶中心矩恒为零;当分布为正态分布时,偶数阶中心矩有,二、偏态
12、1、分布的偏态就是分布不对称的方向和程2、它的测量主要是两种方法,一种是矩法,二是Pearson偏态系数。Pearson偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为:当SK=0时,呈对称分布;当SK0时,分布是右偏(正偏)的;当SK0时,表示频数分布比正态分布更集中,分布呈尖峰状态;0时表示频数分布比正态分布更分散,分布呈平坦峰。例、前例数据的峰度分析,第四章参数估计,第一节随机变量与概论分布随机现象随机变量概论分布离散型和连续型随机变量,第二节统计量与抽样分布一、几个基本概念1、总体和样本研究对象的全体称为总体,组成总体的每个基本单元称为个体;把从总体中按照随
13、机原则抽出的个体组成的小群体称为样本,所包含的个体总数称为样本容量。总体=某项数量指标取值的全体=随机变量一个容量为n的样本就是一个n维随机变量其中相互独立,与总体具有相同的概率分布。,2、统计量与抽样分布参数估计统计量样本函数称为统计量。设是来自总体的一个样本,是的函数,若是连续函数且其中不含任何未知参数,则称是一个统计量。,抽样分布统计量的概论分布为抽样分布,总体的分布已知时,统计量的分布是确定的。,二、三大推断分布(一)分布1、设是来自总体(0,1)的一个样本,则称统计量服从自由度为n的分布,记为。此处,自由度是指包含的独立变量的个数。,2、性质:(1)设,且独立,则,即分布具有可加性。
14、,(2)分位点若对于给定的,01,存在使得则称点为分布的上分位点,如图所示。,(二)t分布1、设XN(0,1),Yx2(n),且X,Y相互独立,则称随机变量为服从自由度为n的t分布,记Tt(n)。t分布又称学生氏(student)分布。,2、性质关于y轴呈对称分布;当时,近似于N(0,1)分布。分位点对于给定的,01,称满足的点为t分布的分位点。,(三)F分布1、设UX2(n1),VX2(n2),且U、V相互独立,则服从自由度为(n1,n2)的F分布,记为2、性质F分布是非对称的,分位点对于给定的,030),同(1),可以用样本方差替代总体方差。,2、样本方差s2的抽样分布,3、两样本均值差的
15、抽样分布(1)已知(2)未知,但两者相等,(3)当不知总体的分布形式时,n很大时,由中心极限定理推,同(1),用样本方差替代总体方差。,4、两总体方差比,5、样本成数的抽样分布,第二节点估计一、点估计1、点估计是指根据总体参数的性质构造一个统计量,然后由样本资料计算出统计量的值,并直接作为相应的总体参数值的替代。2、常见的用样本均值、方差、成数作为总体均值、方差、成数的估计值。3、缺点,第三节区间估计一、含义1、用样本统计量的两个估计值所构成的一个区间估计总体参数。(1)区间估计不仅要有具体结果,还要有精度及可靠程度;(2)估计的置信度或概论保证程度;(3)置信度与估计精度。,二、区间估计原理
16、以总体均值的估计为例(1),三、例题例4.1、一家袜厂的原料之一加弹尼龙来自甲、乙两家工厂,为了估计甲乙两厂提供的产品的拉力强度的差异,从甲厂随机抽取了25个样品,从乙厂抽取了16个样品,测试结果,甲厂产品的平均拉力强度为22千克,乙厂产品的平均拉力强度为20千克,根据过去记录,两个工厂产品的拉力强度的方差均为10,要求以95%的把握对两厂产品拉力强度的差异情况做出判断。,解:m=25,n=16,1-=95%即(0.016,3.984),在95%的概率保证下,甲厂产品的拉力强度大于乙厂,不超过4千克。,例4.2、某教育研究机构为了了解男女学生高考数学成绩的差异程度,随机从参加高考的男女学生中分
17、别抽取了61人和121人,调查资料得出:男生女生数学考试成绩的方差分别是73和84,试以95%的概率推断的置信区间。,解:m=121,n=61,=84,=73,1-=95%假定男、女生成绩服从正态分布,统计量服从的分布是:=0.05,查表,(120,60)=1.58,(120,60)=1/(60,120)=1/1.53代入上式,得区间估计为(0.57,1.37)。,第四节样本容量的确定一、决定样本容量的因素1、总体方差2、允许误差3、概率保证程度,4、以总体均值的估计为例:设=,例,第五章参数假设检验,第一节参数假设检验的基本原理和步骤一、参数假设检验的含义1、问题的提出2、这类问题特征3、两
18、个假设的提出4、对总体假设的类型,二、假设检验的基本原理以实例说明。例5.1、某旅游机构根据过去资料对国内旅游者的旅游费用进行分析,发现在10天的旅游时间中,旅游者用在车费、住宿费、膳食及购买纪念品等方面的费用是一个近似服从正态分布的随机变量,其平均值为1010元,标准差为205元,而某研究所抽取了样本容量为400的样本,作了同样内容的调查,得到样本平均数为1250元。能否根据样本的平均数1250元,推断认为总体平均数是1010元呢?,1、H0:=1010;H1:1010若H0为真,则从XN(1010,2052)中抽取容量为400的样本,则N(1010,2052/400),则N(0,1)代入样
19、本值有,2、Z=23.4相当于随机变量的一个取值。3、小概率事件在一次试验中几乎不可能发生。4、误判5、P值规则。,第二节常见的参数假设检验一、样本均值统计量的抽样分布。总体XN(,2),n,H0:=0;H1:0;(1)总体方差已知H0成立时,拒绝域,(2)总体方差未知H0成立的条件下,拒绝域,(3)总体分布未知,大样本,同(1),二、两个总体均值差的检验(1)两总体方差已知H0成立时,拒绝域,(2)两总体方差未知,但相等在H0成立的条件下,拒绝域(3)总体分布形式未知,大样本,同(1),三、单个正态总体方差的检验在H0成立的条件下,拒绝域2,四、两个正态总体方差比的检验在H0成立的条件下,拒
20、绝域F,五、单个总体成数的检验1、拒绝域,六、两个总体成数差的检验拒绝域,第三节假设检验的其他问题一、单侧检验1、单侧检验指拒绝域在样本统计量分布的一侧。(1)若,则对于显著性水平,有(2)若,则因为是总体均值,所以对于给定的显著性水平,有,当是概率更小的事件。2、H0中不管出现什么符号,均按等号处理。,二、参数检验的两类错误1、“以真为假”2、“以假为真”3、给定的原则,三、实例例1、已知某炼铁厂的铁水含碳量服从正态分布N(.40,0.052),某日测得炉铁水的含碳量如下:4.344.404.424.304.35若标准差不变,该日铁水含碳量的均值是否显著降低(取=0.05)?,解:已知=4.40,=0.05,n=5,=0.05,设提出假设::=4.40,:4.40选取统计量3.59,拒绝原假设,说明不同分配方法对销售人员的销售量有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年全国企业员工全面质量管理知识竞赛押题宝典考试题库附参考答案详解【研优卷】
- 2026年专业综合知识(中级)通关题库附参考答案详解(典型题)
- 2026年幼儿园风的模版
- 2026年幼儿园毕业教案
- 2026及未来5年中国D形衣架市场数据分析及竞争策略研究报告
- 2025福建省泉州市晋江水务集团有限公司招聘派遣制8人笔试参考题库附带答案详解
- 2025福建建工集团泉州工程有限公司招聘10人笔试参考题库附带答案详解
- 2025甘肃定西临洮雪榕生物科技有限责任公司招聘10人笔试参考题库附带答案详解
- 2025湖南双新食品招28人笔试参考题库附带答案详解
- 2025浙江长兴建恒建设有限公司公开招聘工作人员15人笔试参考题库附带答案详解
- 国开2026年《公共政策概论》形成性考核任务1-4答案
- YDT 5102-2024 通信线路工程技术规范
- 冀教版七年级历史下册期中测试
- 咽部肿瘤-课件
- 福建省危险性较大的分部分项工程安全管理标准
- ic m710说明书中文版
- Wagstaff低液位自动控制铸造
- GB/T 9787-1988热轧等边角钢尺寸、外形、重量及允许偏差
- 统编版小学语文小升初专项训练 汉语拼音选择题
- 沙漠掘金(经典版)-沙漠掘金攻略
- 教科版四年级科学下册3《观察土壤》优质教案(2套)
评论
0/150
提交评论