样本数据特征的初步分析.ppt_第1页
样本数据特征的初步分析.ppt_第2页
样本数据特征的初步分析.ppt_第3页
样本数据特征的初步分析.ppt_第4页
样本数据特征的初步分析.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 样本数据特征的初步分析,数据的预处理 频次与频率 观察数据的图形方法 数据特征的度量,3.1 数据的预处理,数据审核 检查数据中的错误 数据筛选 找出符合条件的数据 数据排序 升序和降序 寻找数据的基本特征,数据审核,原始数据 应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 数据是否真实反映实际情况,内容是否符合实际 数据是否有错误,计算是否正确等 间接数据 弄清楚数据的来源、数据的口径以及有关的背景材料 确定数据是否符合自己分析研究的需要 尽可能使用最新的数据 确认是否有必要做进一步的加工整理,当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,数据筛选,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成,3.2 频次与频率,频次(Frequence) 在同一个数据集合中,同一个数据(样本值)出现的次数 频率(Percentage) 某样本值的频率=该样本值出现的频次/n,从某城市抽出来的30个商店中,某商品的价格数据,某单位16人受教育程度 表3.1 某单位职工受教育的结构,家庭家具的基色调的抽样调查结果 表3.2 家庭家具的基色调的抽样调查结果,统计表的设计,4个主要部分:表头、行标题、列标题和数字资料 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“”表示 必要时可在表的下方加上注释,3.3 观察数据的图形方法,条形图 饼图 面积图 线图 直方图 茎叶图 箱形图、散点图、正态概率分布图,条形图(Bar Chart),用直条的长短来表示数据的频次或频率,简单条形图,纵轴为频率 纵轴为累计百分比,分组条形图,分段条形图,饼图,用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多少,面积图,用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然,线图,直方图,用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1,组距分组,将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组,分组方法,1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差,区间长度 4. 组中值(class midpoint) :下限与上限之间的中点值,某班级男生的身高数据,确定区间长度 确定组数 制作频数分布表 确定最左端分组区间位置的准则:组中值为最小值,直方图与条形图的区别,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,茎叶图(Stem&Leaf),定义 按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式 如规定“茎节”的宽度为100, 则样本数据123的“茎节.叶”表达方式就是1.23 “茎节”末位上的1所代表的实际值,就是“茎节”的宽度 原则 确定宽度的原则:样本数据集合中的“茎节”必须是有变化的,茎叶图的作法 某班级男生的身高(cm) 频数 茎 叶 4 16 . 0358 11 17 . 01255667788 6 18 . 012356 1 19 . 0 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据,3.4 数据特征的度量,集中趋势(Central Tendency) 离散程度 (Dispersion) 偏态与峰态(Distribution),3.4 数据特征的度量,3.4.1 集中趋势(Central Tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据 众数 中位数、分位数 均值,众数(mode),概念:一组数据中出现次数最多的变量值,记作M0 说明: 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 从条形图或者频率表、频次表来判断,主要用于定类数据和定序数据,也可用于定距数据 等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分,中位数(Median),概念:排序后处于中间位置上的值,记作Me 说明:,1、不受极端值的影响 2、主要用于定距数据,也可用定序数据,但不能用于定类数据 3、计算的话要注意先算“正中间的位置”,再算“正中间位置上的值”,计算方法 求各个样本的中位数 1.样本: 24 22 21 26 20 解:共有奇数个数据,故 Me=22,将原样本数据排序:20 21 22 24 26,求各个样本的中位数 1.样本: 10 5 9 12 6 8 解:共有偶数个数据,故 Me=(8+9)/2=8.5,将原样本数据排序: 5 6 8 9 10 12,中位数(median)是分位数的一种,除此之外还 有四分位数(quartiles)、十分位数(deciles)和百分位 数(percentile),某班级男生的身高数据的中位数,故 Me=(176+177)/2=176.5,均值(Mean),概念: 一组数据相加后除以数据的个数而得到的结果 性质:集中趋势的最常用测度值 说明: 仅适用于定距级的数据 一组数据的均衡点所在,体现了数据的必然性特征 易受极端值的影响 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,均值的计算,简单平均数(Simple Mean) 加权平均数(Weighted Mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权平均,众数、中位数和平均数的比较,众数是一组数据分布的最高峰值 中位数是处于一组数据中间位置上的值 平均数是全部数据的算术平均,集中趋势特征的特点和应用,众数(mode) 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数(median) 不受极端值影响 数据分布偏斜程度较大时应用 平均数(mean) 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,3.4.2 离散程度的度量,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,离散特征的度量,极值与极差(Range) 四分位差(Interquartile Range) 离差(Deviations) 方差(Variance) 离散系数(coefficient of Variance) 均值标准误差(S. E. mean, Standard Error of Mean),四分位差(Interquartile Range),四分位数(quartile) 一组数据排序后处于25%和75%位置上的值,称为四分位数 下四分位数为QL,上四分位数为QU 四分位差QU QL,离差(Deviations),定义 每个样本与样本均值之差(又称为样本中心化数据) 如样本数据为99.8,99.9,100.1,100.2 则均值为100,则样本离差分别为-0.2,-0.1,0.1,0.2 说明 存在正负相互抵消的问题,不能反映整个样本 数据对样本均值的偏离情况,所以采用离差平方和 的方式(Sum of Squared Deviations),方差(Variance),定义 离差平方和的均值,反映了各变量值与均值的 平均差异 说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差,标准差(Standard Deviation),定义 方差的平方根 说明: 标准差与变量值的计量单位相同,其实际意 义要比方差清楚 自由度一组数据中可以自由取值的个数 按着这一逻辑,如果对n个观测值附加的约束个数 为k个,自由度则为n-k,标准化值,用于对变量的标准化处理 计算公式为 标准化后的变量均值等于0,方差等于1,经验法则,经验法则表明:当一组数据服从正态分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,经验法则(Chebyshev不等式), 对于任一随机变量X,如EX=与DX=2均存在 则对任意0,恒有 是指随机变量的“几乎所有”值都会接近“均值”,该不等式以数量化方式给出了上界 与平均值相差2个标准差的值,数目不多于1/4 与平均值相差3个标准差的值,数目不多于1/9 与平均值相差4个标准差的值,数目不多于1/16,变异系数(Coefficient of Variation),定义 标准差与其相应的均值之比 说明 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较,某旅游局抽查了所属的8家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,均值标准误差(S.E. mean),描述样本均值与总体均值之间的平均差异程度 样本均值与总体均值之间存在差异,当样本量足够大时,这些均值服从正态分布 即样本均值与总体均值的平均差异(离散程度)为2/n,均值标准误差的计算,3.4.3 偏态与峰态,偏态(skewness),峰态(kurtosis),偏态(skewness),数据分布的不对称性称为偏态,其度量值称为偏态系数,记作SK 计算 SK=0为对称分布 SK 0为右偏分布 SK 0为左偏分布 偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或0.51之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,峰态(kurtosis),数据分布的平峰或尖峰程度称为峰态,其度量值称为峰态系数,记作K 计算 K=0扁平峰度适中 K0为尖峰分布,SK=0.448,K=0.306,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数;偏态系数为负值,但与0的差异不大,说明销售量略呈扁平分布,箱线图(Boxplot),由一组数据的5个特征值绘制而成,由一个矩形和向两侧延伸的线段(Whisker)组成 用于显示未分组的 原始数据的分布 绘制方法 首先找出一组数据的 5个特征值,即最大值、 最小值、中位数Me和两 个四分位数QL、QU 连接两个四分位数画 出箱子,再将两个极值 点与箱子相连接,箱线图的构成,分布的形状与箱线图,中位数,修正的箱图,多批数据箱线图,【例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,练习1,一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)如下: 7,4,2,12,10,14,10,10,12,15 1)计算销售量的众数、中位数和平均数 2)计算销售量的方差和标准差 3)说明汽车销量量分布的特征,练习2,某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验,一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间(单位:分钟)为7.2,标准差为1.97,第二种排队方式的等待时间如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.8 1)画出第二种排队方式等待时间的茎叶图 2)计算第二种排队时间的平均数和标准差 3)比较两种排队方式等待时间的离散程度 4)如果让你来选择一种排队方式,会选择哪一种,试说明理由,练习3,为研究少年儿童的成长发育状况,某研究所的一位调查人员A在某城市抽取100名717岁的少年儿童作为样本,另一位调查人员B则抽取了1000名城717岁的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论