数据的描述性分析.ppt_第1页
数据的描述性分析.ppt_第2页
数据的描述性分析.ppt_第3页
数据的描述性分析.ppt_第4页
数据的描述性分析.ppt_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/5/18,华政商学院,第四章 数据的描述性分析,综合指标分析法 综合指标是指根据总体或者样本的数据计算的综合测量值。能够反映具体时间、地点、条件下研究对象的数量特征。,(Central tendency and dispersion),2019/5/18,华政商学院,例1:怎样描述2010年上海经济状况,GDP为13698亿元,财政收入为7532亿元,固定资产投资为4829亿元,进出口为3221亿美元,顺差为165亿元,GDP增长率为12.4%,一二三产业构成比为:1:45:54. 人均GDP为73124元,农村人均消费12927元,城市人均消费为28947元.,2019/5/18,华政商学院,例2:2010年上海以及长宁区人口结构,平均值? 方差? 分布?,2019/5/18,华政商学院,原始数据,2019/5/18,华政商学院,相对指标的种类,第一节 相对程度的描述,2019/5/18,华政商学院,1、偿债能力分析 :流动比率=流动资产/流动负债 产权比率=负债总额/所有者权益 2、营运能力分析 :存货周转率(次数)=主营业务成本/平均存货 , 存货周转天数=360/存货周转率(次数) 3、盈利能力分析 :销售净利率=净利润/销售收入 净资产收益率=净利润/平均净资产 4、每股收益 :每股收益=(净利润优先股股利)/年末普通股股数 ,市盈率=普通股每股市价/普通股每股收益 5、发展能力分析 :总资产增长率=本年总资产增长额/年初资产总额 6、杜邦财务分析体系 (工商银行财务报表),2019/5/18,华政商学院,某企业年计划工业增加值为200万元,实际完成220万元,计划完成相对指标为 超额绝对值=220-200=20万元 对产量、产值求计划完成程度指标时大于1表示超额完成计划,小于1表示未完成计划,1、,2019/5/18,华政商学院,2、,2019/5/18,华政商学院,恩格尔系数,消费中用于食品的支出,全部消费支出,联合国粮食及农业组织将恩格尔系数作为衡量一个国家或地区富裕程度的标准:恩格尔系数在59%以上为贫困,50%59%为温饱,40%50%为小康,30%40%为富裕,低于30%为最富裕。 我国居民家庭恩格尔系数(%)1978年农村与城镇分别为67.7和57.5,1990年为58.8和54.2。2003年我国发布的第一份中国教育与人力资源问题报告中指出:农村与城镇居民家庭的恩格尔系数分别降至47.7%(小康)和37.9%(富裕)。但是很多专家都撰文指出了恩格尔系数在中国的失灵现象。这方面争论非常多,说明在中国光看恩格尔系数不一定很准确。,2019/5/18,华政商学院,2009中国统计年鉴相关数据显示,2008年畜牧业职工平均工资为10803元,证券业为172123元,二者相差15.93倍, 2008年畜牧业就业人员平均劳动报酬为11018元,证券业为167995元,二者相差15.25倍,3、,2019/5/18,华政商学院,2019/5/18,华政商学院,1、研究某一现象本期对上期的影响,以上期作为基期 2、消除季节变动对于现象发展的影响,以上年同期为基期 3、为了突出某一现象的发展速度,以历史重要的时刻为基,基期的选取,上海的国民生产总值,2019/5/18,华政商学院,例:某年某地区年平均人口数为100万人,在该年度内出生的人口数为8600人。则该地区,5、,2019/5/18,华政商学院,例:某地区某年末现有总人口为100万人,医院床位总数为24700张。则该地区,2019/5/18,华政商学院,6、,2019/5/18,华政商学院,指标对比要有可比性; 相对指标要与总量指标结合运用; 多种相对指标结合运用。,七、相对指标应用的原则,2019/5/18,华政商学院,比较两厂经济效益,不可比,不可比,可比,2019/5/18,华政商学院,1998年相对于1997年,美国的GDP增长速度为3.9,同期中国GDP增长速度为7.8,恰好为美国的2倍;但根据同期汇率(1美元兑换8.3元人民币),1998年中国GDP总量约合9671亿美元,约相当于同期美国GDP总量84272亿美元的1/9。,相对指标应当结合总量指标使用,2019/5/18,华政商学院,结构相对数 比例相对数 比较相对数 动态相对数 计划完成相对数 强度相对数,(部分与总体关系) (部分与部分关系) (横向对比关系) (纵向对比关系) (实际与计划关系) (关联指标间关系),多种相对指标应当结合运用,2019/5/18,华政商学院,数据分布的特征,2019/5/18,华政商学院,数据分布的特征和测度,峰 度,偏 度,2019/5/18,华政商学院,指总体中各单位的次数分布从两边向中间集中的趋势,用平均指标来反映。,集中趋势,第二节 集中趋势的描述,对集中趋势的描述就是找数据的一般水平的中心值或者代表值,2019/5/18,华政商学院,平均指标的种类, 算术平均数 调和平均数 几何平均数 中位数 众数,2019/5/18,华政商学院,下面是一个小故事: 一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?,2019/5/18,华政商学院,公司员工的月薪如下:,2019/5/18,华政商学院,我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越 多,就选择哪个变量值,比如民主决策的表决 机制。(众数) (2)根据居中:比如一个城镇居民的生活 水平,居中的是小康家庭,那么就用小康家庭 来代表该城镇的生活水平。(中位数) (3)根据平均:用平均数来代表变量的 平均水平。(算术平均数),2019/5/18,华政商学院,(一)算术平均数(Mean),计算公式:未分组数据: 按照单变量分组数据: 按照组距分组: X为组中值,概念:,直接承担者,2019/5/18,华政商学院,1. 对于未分组资料简单算术平均数 求某周世博会入园人数34、35、32、35、41、45、51(万人)的算术平均数。 39万人,2019/5/18,华政商学院,2、分组数据(单个变量分组),2019/5/18,华政商学院,加权均值(组距分组),运用条件 1、各组变量用中值代表 2、假设条件是数据在组中的分布是均匀或者对称的,2019/5/18,华政商学院,对于分组资料加权算术平均数*,2019/5/18,华政商学院,权数的意义和作用,权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。 当各组的次数都相同时,即当f1=f2=f3=fn时,加权平均数就是算术平均数 权数的意义:可以表示结构,例如社会发展结构,产业结构等。 带有权数公式的记忆方法 应用:基金,绩点的计算,2019/5/18,华政商学院,算术平均数的性质,可以分析现象之间的依存关系(收入和文化程度),平均值是一个重要的统计量,可以推断总体的平均值,不适合于定类数据和定序数据,受极端值影响较大。,2019/5/18,华政商学院,变量值与其算术平均数的离差之和衡等于零,即: 变量值与其算术平均数的离差平方和为最小,即:,3、算术平均数的主要数学性质,计算方法:average(num1,num2,),2019/5/18,华政商学院,(二)调和平均数 (Harmonic mean),计算加权平均数时,在不知道每组的频数,而只知道每组的观测值之和时,则用调和平均数。 是加权算术平均数的另外一种表现形式,原来只是计算时使用了不同的数据!,2019/5/18,华政商学院,某理财产品第一季度在三个银行网点销售额的资料如下,求一季度该理财产品在三个销售点的平均价格和总销售平均价格。,2019/5/18,华政商学院,2019/5/18,华政商学院,(三)几何平均数,概念: 该标志总量不能表示称为总量的和,而是乘积。 应用:主要用于时间衔接,动态数据的评价。如:计算平均发展速度,平均比率 计算公式 1.简单几何平均数:,2.加权平均数:,2019/5/18,华政商学院,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位 ,则 第一道工序的合格品为100A0.95; 第二道工序的合格品为(100A0.95)0.92; 第五道工序的合格品为 (100A0.950.920.900.85)0.80;,2019/5/18,华政商学院,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,2019/5/18,华政商学院,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,2019/5/18,华政商学院,例2. 一位投资者持有的某只股票,在2006年、2007年、2008年和2009年收益率分别为4.5%、2.0%、-3.5%、5.4%。计算该投资者在这四年内该股票的平均收益率。,四年平均收益率102.04%-1=2.04%,计算方法:geomean(num1,num2,),2019/5/18,华政商学院,1.中位数:把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用Me表示。,不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的作用:,二、位置平均数,2019/5/18,华政商学院,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款: 9元,10元,10元,11元,60元 平均付款为100/5=20元。 很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,2019/5/18,华政商学院,中位数的计算,1、原始数据: (1) 先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数; (2)如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。,2019/5/18,华政商学院,例 求54,65,78,66,43这些数字的中位数。 例、求54,65,78,66,43,38 这些数字的中位数。,你会吗?,2019/5/18,华政商学院,2. 对于分组资料 (1)单项数列:根据(N+1)/2在累计频数分布中找到中位数所在组,该组变量值就是Me 。,中 位 数,2019/5/18,华政商学院,当根据组距数列求中位数时,要采用所谓的比例插值法:先根据(N+1)2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)。,(2)变量数列,按中位数所在组的上限:,按中位数所在组的下限:,上面的公式假定中位数组的频数在该组内均匀分布,2019/5/18,华政商学院,根据前面的数据,计算50 名工人日加工零件数的中位数,2019/5/18,华政商学院,特点:1、不受极端值的影响,在出现极端值时候,可以用中位数代替算术平均数,房价中位数 2、在缺乏计量手段时,可以用中位数近似代替算术平均数 3、受抽样变动的影响较大(与算术平均数相比) 4、各变量值与中位数的离差绝对值之和最小,即,中位数,2019/5/18,华政商学院,3.四分位数,将总体中的各单位分割成相等的四部分,则这三个 分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表 第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算 法分别是,不受极端值的影响 .主要用于定序数据,也可用于数值型数据,但不能用于定类数据,2019/5/18,华政商学院,(二)众数(Mode),众数:是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用Mo表示。 例子:在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,2019/5/18,华政商学院,1. 对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。,无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42,2019/5/18,华政商学院,2. 对于分组资料 单项式:观察频数分布 (或频率分布 ),解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。Mo中国馆。,2019/5/18,华政商学院,1. 众数的值与相邻两组频数的分布有关,4. 该公式假定众数组的频数在众数组内均匀分布,2. 相邻两组的频数相等时,众数组的组中值即为众数,3. 相邻两组的频数不相等时,众数采用下列近似公式计算,众数的计算(组距分组情形),2019/5/18,华政商学院,计算50名工人日加工零件数的众数(定量数据),2019/5/18,华政商学院,(1) 众数仅受上下相邻两组频数大小的影响,不受极 端值影响, (2) 受抽样变动影响大; (3) 众数不唯一确定,但是对于均匀分布则没有众数,这样在一定程度上限制了众数的应用 (4) 众数标示为其峰值所对应的变量值,能很容易区 分出单峰、多峰。因而具有明显偏态集中趋势的频数分 布,用众数最合适。,3. 众数的性质,计算方法:mode(num1,num2,),2019/5/18,华政商学院,1. 的关系,对称分布,左偏分布,右偏分布,(三)众数、中位数和均值的比较,2019/5/18,华政商学院,2、众数、中位数和算术平均数的应用场合,2019/5/18,华政商学院,1、如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服! 2、一个将军率领一群士兵过河,问一名当地的士兵:“这条河的平均深度为多少?” 士兵:“平均深度为1.4米,我军的平均高度为1.65米”,于是将军命令士兵过河。那么将军的这个决定是否英明?,2019/5/18,华政商学院,例:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。,第三节 离散程度的描述P96,2019/5/18,华政商学院,集中趋势弱、离中趋势强,集中趋势强、离中趋势弱,2019/5/18,华政商学院,大多数情形下,平均数是一个非常重要的统计量,但是也要用变异指标来帮助人们进一步了解数据的特征。,2019/5/18,华政商学院,变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大,用来衡量和比较平均数代表性的大小; 用来反映社会经济活动过程的均衡性和稳定性; 用来测定变量数列次数分布较正态分布的偏离程度。,2019/5/18,华政商学院,测定标志变异度的绝对量指标(与原变量值名数相同),测定标志变异度的相对量指标(表现为无名数),平均差 系数,标准差 系数,标志变异指标的种类,偏度,峰度,2019/5/18,华政商学院,数据的特征和测度,2019/5/18,华政商学院,(一)极差(Range)和四分位差,极差(R)又称为全距,指 一组数据的最大值与最小值之差,未分组或者单变量分组数据 R = max(Xi) - min(Xi),计算公式,适用:(1)适用于定序以上的数据 (2)因为只是考虑到数据中的最大值和最小值,不能说明数据整体的离散程度,主要应用于误差控制和波幅控制中。,2019/5/18,华政商学院,2、四分位差(quartile deviation),四分位差: 上四分位数与下四分位数之差 计算公式 Qr = (Q3 Q1) 适用:反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,2019/5/18,华政商学院,(二)平均差(Mean deviation),平均差:各变量值与其均值离差绝对值的平均数,计算公式:,未分组数据,组距分组数据,适用: (1)适用于定距以上的数据 (2)反映了全部数据的差异,能够代表数据的离散程度,但是公式中有绝对值,数学性质较差,2019/5/18,华政商学院,根据表中的数据,计算工人日加工零件数的平均差,2019/5/18,华政商学院,(三)方差和标准差*,(Variance and Standard derivation) 1. 离散程度的测度值之一 2. 克服了平均差的缺点,是最常用的测度值 3. 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差; (Population variance) 根据样本数据计算的,称为样本方差或标准差 (Sample variance),2019/5/18,华政商学院,总体方差和标准差计算公式,未分组数据:,未分组数据:,方差的计算公式,标准差的计算公式,某基金公司旗下有八只基金,2010年的收益率分别为(%):20,30,40,50,60,70,80,90,那么它们的标准差为多少?,2019/5/18,华政商学院,组距分组数据:,组距分组数据:,简化公式52页,2019/5/18,华政商学院,根据表中的数据,计算工人日加工零件数的标准差,2019/5/18,华政商学院,样本方差和标准差,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,2019/5/18,华政商学院,均值方差模型,马科维茨1990年获得诺贝尔经济学奖 应用于资产组合的选择 目标:收益一定,风险最小或者风险一定,收益最大 关键问题是衡量收益率和风险?,2019/5/18,华政商学院,6 管理原则,|X| 3 的概率很小,因此可认为正态随机变量的取值几乎全部集中在 - 3,+ 3 区间内 广泛应用: 产品质量控制 判断异常情况 ,2019/5/18,华政商学院,身高的差异水平:cm,体重的差异水平:kg,可比,二、离散程度的相对指标,2019/5/18,华政商学院,离散系数,离散系数:平均差或标准差与其相应的均值之比 计算公式 适用:消除了数据水平高低和计量单位的影响 测度了数据的相对离散程度 用于对不同组别数据离散程度的比较,2019/5/18,华政商学院,离散系数的应用*,一家投资公司的经理想分析稳健性基金和激进型投资基金的市场表现,从市场上所有的稳健型和激进型基金中各抽取了5家基金。它们2011年的平均收益率和标准差的资料如下。根据这组数据,请评判这两种基金的表现。,2019/5/18,华政商学院,某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,2019/5/18,华政商学院,离散系数,结论: 计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度 。或者说明销售额的平均数比销售利润的平均数代表性强。,2019/5/18,华政商学院,第四节 分布偏态和峰度的测量,1、分布的偏态* 2、分布的峰度* 3、描述统计*,2019/5/18,华政商学院,数据的特征和测度 (本节位置),2019/5/18,华政商学院,偏度与峰度分布的形状,偏态,峰度,2019/5/18,华政商学院,变量X关于A的k阶矩:M=(X-A)k/N。,K阶原点矩:A=0,即以原点为中心。,K=1,2,3时,有:,一阶原点矩M1=(Xi-0)1/N=X/N 二阶原点矩M2=(Xi-0)2/N=X2/N 三阶原点矩M3=(Xi-0)3/N=X3/N,K阶中心矩:A= ,即以 为中心。,K=1,2,3时,有:,一阶中心矩 二阶中心矩 三阶中心矩,m1=(Xi- )1/N=0,m2=(Xi- )2/N=2,m3=(Xi- )3/N,原点矩和中心矩,2019/5/18,华政商学院,计算公式:,1偏态(Skewness):测定数据分布的偏斜程度的指标,未分组数据公式: 分组数据公式:,应用:对称分布时,偏度系数=0 偏度系数0为右偏分布(正偏度) 偏度系数0为左偏分布(负偏度),2019/5/18,华政商学院,应用:偏度系数=0为对称分布 偏度系数0为右偏分布(正偏度) 偏度系数0为左偏分布(负偏度),2019/5/18,华政商学院,2、分布的峰度(Kurtosis),峰度:数据分布扁平程度的测度。 计算公式,未分组数据公式: 分组数据公式:,应用:峰度系数=3正态曲线 峰度系数3尖顶曲线 峰度系数3扁平曲线,2019/5/18,华政商学院,应用:正态曲线:峰度系数=0 峰度系数0尖顶曲线 峰度系数0扁平曲线,2019/5/18,华政商学院,已知2009年我国农村居民家庭按纯收入分组的有关数据如表。试计算偏态系数,2019/5/18,华政商学院,偏度系数,2019/5/18,华政商学院,结论:由于偏度=0.9560,右偏,峰度=3.43,说明我国农村居民家庭纯收入的分布为尖顶分布,说明低收入家庭占有较大的比重。,2019/5/18,华政商学院,农村居民家庭村收入数据的直方图,偏度与峰度 (从直方图上观察),按纯收入分组(元),结论:1. 为右偏分布 2. 有点尖峰,2019/5/18,华政商学院,由Excel输出的描述统计量,2019/5/18,华政商学院,偏度和峰度的具体应用,中国股市收益率的分布特征-是不是服从正态分布?,Jarque-Bera统计量: N为样本数量,S为偏度,K为峰度。,2019/5/18,华政商学院,上证指数2009年10月到2013年9月的收益率数据实证,Eviews软件结果,2019/5/18,华政商学院,收益率不服从正态分布的主要原因之一羊群效应,羊群效应跟随现象:在一群羊前面横放一根木棍,第一只羊跳了过去,第二只、第三只也会跟着跳过去;这时,把那根棍子撤走,后面的羊,走到这里,仍然像前面的羊一样,向上跳一下,尽管拦路的棍子已经不在了,这就是所谓的“羊群效应”也称“从众心理”。,一位石油大亨到天堂去参加会议,一进会议室发现已经座无虚席,没有地方落座,于是他灵 机一动,喊了一声:“地狱里发现石油了!”这一喊不要紧,天堂里的石油大亨们纷纷向地狱跑去,很快,天堂里就只剩下那位后来的了。这时,这位大亨心想,大家都跑了过去,莫非地狱里真的发现石油了?于是,他也急匆匆地向地狱跑去。 资料详见百度百科,例2:收入分配,2019/5/18,华政商学院,江西铜业2009年10月到2013年9月的收益率数据实证,Eviews软件结果,2019/5/18,华政商学院,五数概括 :即最小值xmin 、最大值xmax 、第一四分位数M1、中位数Me和第三四分位数M3,二、五数概括和箱线图,2019/5/18,华政商学院,五数概括 :即最小值xmin 、最大值xmax 、第一四分位数M1、中位数Me和第三四分位数M3,二、五数概括和箱线图,2019/5/18,华政商学院,五个数之间的关系,确定数据分布形态的方法:,数据是完全对称 :,数据是不对称 :,最小值xmin到中位数的距离等于中位数到最大值xmax的距离 。,从xmin到M1的距离等于M3到xmax的距离。,1、五数概括(fiv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论