统计学第四章 数据的概括性度量_第1页
统计学第四章 数据的概括性度量_第2页
统计学第四章 数据的概括性度量_第3页
统计学第四章 数据的概括性度量_第4页
统计学第四章 数据的概括性度量_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.第四章数据概况测定,4.1集中趋势测定4.2离散程度的测定,4.3偏差和峰值状态的测定,数据分布特征,4.1集中趋势的测定,4.1.1 .分类数据:人数4.1.2 .位次数据:中位数和分位数4.1.3 .数值型数据:平均值4.4 Mode最频值2、MedianandQuartiles中央值和分位数3、Mean平均、Outline的概要:4.1.1、分类数据:最频值(Mode )、1 )集中倾向的测度值之一2 )出现次数最多的变量值3 )极端值的影响或者有几个最频值5 )主要用于分类数据的序列数据或数值型数据、1、数的概念中,themodestishevalloftothebservationthappearsmostfrequenty .数在观测值中用Bo表示。 在inasetformmeasurements,themodecommissthechallistoccurswithgreattestfrequency .数据集中,所有数组都是出现频率最高的组。 setfofdatamayhavenonemode (ormodalclass )、ortwoormoremodes(ormodalclass )。 数据集可以是一个最大数量(组)或两个或多个最大数量(组)。Mode的最大数、themodalclassimmenthemolereventhantheastingele-value mode .对于大数据集,大于单个最大数的数组是合适的。 TypesofMode的数量的种类Nomode无人数data 3360605352535253535353535353535353535352535353535353 3525353535353525353535353535353535353535353535353535353535353535353535353535353535353很多人可能是合适的代表值。 例如,在服装行业,制造商、批发商和零售商在做生产和库存决策时,最普遍的尺寸而不是平均尺寸更感兴趣。2、分类数据的数量(计算例)、【例】第3章根据表3-3的数据计算“饮料类型”的数量,解:这里的变量是“饮料品牌”,这是分类变量,不同类型的饮料是变量值。 调查的50人中喝“碳酸饮料”的人最多,15人,占全部被试验者的30%,因此最多是“碳酸饮料”这个品牌,根据Mo=碳酸饮料、3、名次数据的最多(计算例)、【例】第3章例3.5表3-10的数据,计算最多变量为“回答类别”。 因为在甲城市对住宅表示不满的家庭数在108户中是最多的,所以最多的是“不满”的类别,即Mo=不满,4、数值型分组数据的最多数(积分和计算式),1 .最多的值与相邻的两个组的度数的分布有关,4 .该式, 假设所有组的度数在所有组内均匀分布,2 .相邻的两组的度数相等的情况下,所有组的中央值为大众数。3 .相邻的两组的度数不相等的情况下,众数使用以下的近似式计算。11712212452525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525 535-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35-35 数值型分组数据的最频率(计算例)、数值型分组数据的最频率(计算例)、【例4.1】计算50名工人的日加工零件数的最频率。 、4.2.2、顺序数据:中央值和分位数MedianandProperties、1、中央值(概念点)、1 )集中倾向的测量值之一2 )排名后的中间位置的值3 )不受极端值的影响4 )主要使用序列数据,也可以使用数值型数据5 )各变量值和中央值的方差的绝对值之和最小,即2,中央值的位置的确定,分组数据:分组距离分组数据:3,顺序数据的中央值(计算例),【例3.2】第3章根据表3-4的数据,城市因此,Me=一般,4,数值型未数据包数据的中央值(计算式)、数值型未数据包数据的中央值(5个数据的计算例),原始数据:2422212620重新排列,2222426位置:5356,中央值22, 数值型未数据包数据的中央值(6个数据的计算例)原始数据:10591268是:6896的位置:5256, 1 )根据位置式确定有中央值的组2 )使用以下的近似式来计算:3)该式假定中央值组的度数在该组内均匀分布,5、数值型组数据的中央值(点和计算式)、数值型组数据的中央值(计算例) 【例4】。 计算50名工人的日加工零件数的中值,6,四分位数(Quartiles ),1 )集中倾向的测度值之一2 )排序后25%和75%的位置的值,3 )不受极端值的影响4 )主要用于排序数据,也可以用于数值型数据,但排序四分位数(位置的确定)、未分组的数据:组间的组数据: 顺序数据的四分位数(算例),【例4.4】根据第三章表3-10的数据,计算甲城市家庭的住宅满足状况评价的四分位数,解:下一个四分位数(QL )的位置,QL位置=(300)/4=75上的四分位数(QL )的位置,QU位置=(3300)/4=225累计度数QL=QQ=一般,数值型未分组数据的四分位数(7数据的计算例), 原始数据:26023213032282526排序:2123252838332位置:525252525252525252525252525252525252525252525253卡卡32182526是:212362830的位置336052525252525252525252525252525252525252525252525252525252525252525 5252525252525252525252525252525252525252525252525252525252525252525252 根据4=12.5、QU位置=350/4=37.5、【例4.6】例4.1的数据,计算50个工人日的加工零件数的四分位数。 4.1.3、定距离和定比数据(数值型数据):平均(Mean ) .统计学家遇到的数学家、统计学家说“如果X=Y,Y=Z,那么不是说X=Z吗?如果喜欢女孩,那么喜欢那个女孩的男孩也喜欢? “因为数学家说:“左手放在一釜百度的热水里,右手放在一釜度的冰水里没问题吗?平均温度不过是50度。”统计学家和数学家说,如果你的脚坐在炉子上,头放在冰箱里,统计学家说,平均来说,你菅统计学家,1,平均的概念和性质,1 )集中倾向的测量值之一,2 )最常用的测量值之一,4 )容易受到极端值的影响,5 )用于数值型数据,不能用于分类数据和顺序数据,(1)平均(算术平均,2,平均计算式,1组数据为x1,x2 作为xN单纯平均的计算式的分组数据为M1,M2,相当于MN的度数为f1, f2,fK加权平均的计算公式,简单平均SimpleMean,原始数据:10591368,加权平均(WeightedMean ),【例4.7】根据第3章表3-9的数据计算表4-3某计算机公司的销售数据平均计算表,加权平均(加权平均甲乙两组各有10名学生,他们的考试成绩及其分布数据如下:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):811,加权和加权,加权和加权,权重和算术平均的计算取决于变量和权重的共同作用:变量决定平均值的范围,权重决定平均值的位置,3,平均值的数学性质,1 ) .各变量和平均值的方差之和为零,2 ) .各变量和平均值的方差的平方和最小,【例】x=(2,4,6,8 )时, 其调和平均值可以定义计算为: 77777777777777777777776或倒数平均(二),调和平均harmoncmean(harmoncmean ),例有的蔬菜早上0.4元/斤,白天0.25元/斤,晚上0.20元/斤,有人(算术平均法) 例同样,有人早上、中、晚上各买一元,求平均价格。 1、简单调和平均(用于每个变量值都是一个单位),表达式中: x是每个变量值,n是变量值的项数),表达式中:加权调和平均,适用于整体资料分组形成变量数列,表达式中:第一组变量值是组标志的总量。解:例如晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,王先生买白菜2元,菠菜3元,芹菜4元,问每斤的价格吗?算术平均和调和平均的适用前提: a、已知基本式的父项目资料用算术平均计算(子项目资料未知) b、已知基本式的子项目资料用调和平均计算(父项目资料未知)、调和平均是算术平均的变形,本来计算时只使用了不同的数据! 几何平均(GeometricMean ),1 .集中倾向的测度值之一2.N个变量值的积的n次方根3 .适用于特殊数据4 .主要用于计算平均发展速度的5 .计算式可以看作6 .平均值的变化.几何平均,【例3.8】某投资家计算这四年投资者的平均收益率。平均收益率=103.84%-1=3.84%、4.1.4、最频、中央值和平均值的比较、1、最频、中央值和平均值的关系、2、最频、中央值、平均值的特征和应用(1)不受极端值影响的唯一性的数据分布的偏差程度大的情况下,(2) (3)适用于平均值接近容易受到极端值影响的数学性质优异的数据对称分布或者对称分布的情况,数据类型和集中水平测度, 4.2适用离散程度的测度4.2.1 .分类数据:异人比率4.2.2.2.3顺序数据:四分位差4.2.3数值型数据:分散和标准偏差4.2.4相对离散度:离散系数,4.2.1,分类数据:异人比率,异人比率(VariationRatio ), 1 .离散度的测度值之一2 .非大众排列的度数占总度数的比率3 .计算式为4 .为了测量众数的代表性数值,根据fm会众的度数、异人比率(计算例)、【例4.9】第三章表3-3的数据,计算异人比率,二、顺序数据:四分位差quart 四分位差1 .离散度的测度值之一的2 .也称为内距离或四分间隔的3 .上四分位数和下四分位数的差QD=QU-QL4 .反映了中间50%的数据的离散度的5 .不受极端值的影响的6 .用于测定中值的代表的四分位数差【例4.10】第三章表3 - 计算甲城市家庭住宅满足状况评价的四分位数差,解:非常不满为1的不满为2,一般为3,满足为4,非常满足为5已知QL=不满=2,QU=一般=3四分位差: qd=QL=3-2=1,4.2.3,定距离和定比数据(数值型) .分组数据的最大值和最小值之差2 ) .离散度最简单的测度值3 ) .容易受到极端值的影响4 ) .没有考虑数据的分布的分组数据R=max(Xi)-min(Xi ),5 ) .计算式为.2,平均差(mean deviation ).1.各变量值及其平均方差的绝对值的平均3 ) .可以全面反映一组数据的离散度4 ) .数学性质差,实际应用少,5 ) .计算式是未分组的数据、组间分组数据、平均差【例4.11】根据第3章表3-13的数据来计算机销售额方差和标准偏差(Varianceandstandarddeviation ),1 ) .离散度的测度值之一2 ) .最常用的测度值3 ) .反映数据的分布4 ) .反映各变量值和平均值的平均值差5 ) .从总体数据中计算出的值称为总体方差或标准偏差.样本数据根据总体方差和标准偏差(计算公式)、未分组数据:未分组数据:分组数据:方差的计算公式、标准偏差的计算公式:总体标准偏差,【例3.14】第3章表3-13的数据,计算机销售额的. 4、样本方差和标准偏差(计算公式)未分组数据:未分组数据:未分组数据:未分组数据:方差计算公式、标准偏差计算公式:样本方差自由度(degreeoffreedom ),1 ) 在组的数据中可以自由取得值的数据的个数、样本数据的个数为n的情况下,当确定了样本平均x时,可以只自由取得n-1个数据的值,其中需要1个数据就不能自由取得值2 ),例如,对于样本,可以设定x1=2。一旦确定了x=5,x1、x2和x3这两个数据就可以自由取值,另一个不能自由取值,例如x1=6, x2=7时,x3必然取2,但不能取其他值,3 )样本的方差可以从多方面说明用自由度去除的理由,但从实际应用的观点来看,如果利用样本的方差来估计总体的方差2,则是2的无偏差的估计量, 样本方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论