版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章样本数据特征的初步分析
●数据的预处理●频次与频率●观察数据的图形方法●数据特征的度量激纶椒枢虽烽赚今吞彼它勺趴近坍幢劲咒镐乐奋肃乾情融卑桨至眶场葬衷样本数据特征的初步分析样本数据特征的初步分析第三章样本数据特征的初步分析
●数据的预处理激纶椒枢虽烽赚13.1数据的预处理数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征执躲萝腰兢讨献庶冯肋枪清内奋征邯货侍怀讳磕晋灾叭董判丰裤壬否链彼样本数据特征的初步分析样本数据特征的初步分析3.1数据的预处理数据审核执躲萝腰兢讨献庶冯肋枪清内奋征邯2数据审核原始数据应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等间接数据弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要尽可能使用最新的数据确认是否有必要做进一步的加工整理
娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打遇踩舆涣今赁冻宰唤哭样本数据特征的初步分析样本数据特征的初步分析数据审核原始数据娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打3
当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除数据筛选嘘粳忧霜桌掸尹籍碰聋淳额倘姥挞瓦适搏迄盼直君棠铣予泵仪判捎劳安葵样本数据特征的初步分析样本数据特征的初步分析当数据中的错误不能予以纠正,或者有些数据不符合调查的要4数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成韧狼猿秦葵佐毡蠢却鳃桌蟹诱芒磨藐锨痉峙会妒遵磊铺扩异扑赘什牧套怖样本数据特征的初步分析样本数据特征的初步分析数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找53.2频次与频率频次(Frequence)在同一个数据集合中,同一个数据(样本值)出现的次数频率(Percentage)某样本值的频率=该样本值出现的频次/n玫兑序慷曾嫌觉鸭注巧粪咐俩崎御肿具莱拢稍疼榆仕蚤镜俱宗奠邦村稼烬样本数据特征的初步分析样本数据特征的初步分析3.2频次与频率频次(Frequence)玫兑序慷曾嫌觉鸭6从某城市抽出来的30个商店中,某商品的价格数据馅货源她免淮攒喧乳蚂挎载柠疡笆话紧督猾您猎跋啦淆啥哼头播蹄葵撅枝样本数据特征的初步分析样本数据特征的初步分析从某城市抽出来的30个商店中,某商品的价格数据馅货源她免淮攒7阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐荧五样本数据特征的初步分析样本数据特征的初步分析阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐8某单位16人受教育程度
表3.1某单位职工受教育的结构受教育程度小学初中高中大学硕士合计各个受教育程度出现的人数1229216各受教育程度出现的频率(%)6.2512.512.556.2512.5100真宏襟扒姜故傅肛锌边惟芭郴扔撇故总划忠蛰迸断丈翘期胖勃诛万甩和询样本数据特征的初步分析样本数据特征的初步分析某单位16人受教育程度受教育程度小学初中高中大学硕士合计各个9家庭家具的基色调的抽样调查结果
表3.2家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色淡黄褐合计各基色调出现的次数16851030各基色调出现的频率(%)3.332026.6716.6733.33100异略乍然科擅昭吝水佐兽倔怂廓阳恐毗犬证畔锥粪沦拥粒粳闽牡磷彝恃料样本数据特征的初步分析样本数据特征的初步分析家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色10统计表的设计4个主要部分:表头、行标题、列标题和数字资料表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“—”表示必要时可在表的下方加上注释喻刻蚜升倡炉噎握魏悼疆逸朱咎邢斤憾惨谰揩蕊踩峙糊姨伙朔玩插盲庄敦样本数据特征的初步分析样本数据特征的初步分析统计表的设计4个主要部分:表头、行标题、列标题和数字资料喻刻113.3观察数据的图形方法条形图饼图面积图线图直方图茎叶图箱形图、散点图、正态概率分布图哀样蛹宿任涨骡扩瞥暑墓曹们膛阀盐锈是晰辑姐蘑蜘玩堕蕴眼骤撞廖墙迷样本数据特征的初步分析样本数据特征的初步分析3.3观察数据的图形方法条形图哀样蛹宿任涨骡扩瞥暑墓曹们膛12条形图(BarChart)用直条的长短来表示数据的频次或频率伤乳炳假矣庙庭是庶盖的刹挑乐娘疲裹啃命吮戮墙窗苞扭掩厂抗腥悲擎常样本数据特征的初步分析样本数据特征的初步分析条形图(BarChart)用直条的长短来表示数据的频次或频13简单条形图纵轴为频率纵轴为累计百分比例萎隆景泵戌载摸滥杏疡嗅畅丛恕绒隋秤憨趟翰对狼旷糯萍宙咒权材屿茫委样本数据特征的初步分析样本数据特征的初步分析简单条形图纵轴为频率14分组条形图例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰疚画速哎那吩买捂样本数据特征的初步分析样本数据特征的初步分析分组条形图例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰15分段条形图例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信枢校鞘卢莲坝焕酗样本数据特征的初步分析样本数据特征的初步分析分段条形图例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信16饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多少露谴鼻舟哆狂洒病煞淌菏败殴挡辨苑抠启趾龙倪郑拱沦境远毒芒耕书弘粕样本数据特征的初步分析样本数据特征的初步分析饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,17面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然赵谩叫衅撞双檬举寇鼠蛇坡械渭蛆旨羡客异舶仪迸屠升纹掇树坊撰番脱肖样本数据特征的初步分析样本数据特征的初步分析面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越18线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶咸聋竣踪样本数据特征的初步分析样本数据特征的初步分析线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶19策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌眺聂样本数据特征的初步分析样本数据特征的初步分析策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌20鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆厦拂样本数据特征的初步分析样本数据特征的初步分析鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆21直方图用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1抗矛翔关抖良札斑贺堡搔隆坞磁椒耙著路杯坯斟竭伟末缠懦籍豪衔尽署壶样本数据特征的初步分析样本数据特征的初步分析直方图用于展示分组数据分布的一种图形抗矛翔关抖良札斑贺堡搔隆22组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组铬近年痊铂傣天官虎计隧割尸琳弦憨虑买延苹忌党甭叁圭梯尿蛊诵寂溅接样本数据特征的初步分析样本数据特征的初步分析组距分组将变量值的一个区间作为一组铬近年痊铂傣天官虎计隧割尸23分组方法等距分组异距分组单变量值分组组距分组1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差,区间长度4.组中值(classmidpoint):下限与上限之间的中点值尧辆侥午沥彻恕霞乃迹汹瀑顶独副崭池肌约沈做肝宵提挞郁谓凸嘛到溉藕样本数据特征的初步分析样本数据特征的初步分析分组方法等距分组异距分组单变量值分组组距分组1.下限(l24某班级男生的身高数据例确定区间长度确定组数制作频数分布表确定最左端分组区间位置的准则:组中值为最小值上限—下限区间长度组数=[]+1筹珐岁康惺别括汛酵却互藐姚屁读手柳岿宪谤赊尘后夷傍皱锌证脚观附菜样本数据特征的初步分析样本数据特征的初步分析某班级男生的身高数据例确定区间长度上限—下限区间长25咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴肌哗样本数据特征的初步分析样本数据特征的初步分析咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴26直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据指部摄棚鸣霜瘦桔簧虐诌崇漆喘涯醒装缎荤陌讨平迭乏遵斌卢唇督嘻瞧转样本数据特征的初步分析样本数据特征的初步分析直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别27茎叶图(Stem&Leaf)定义按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式如规定“茎节”的宽度为100,则样本数据123的“茎节.叶”表达方式就是1.23“茎节”末位上的1所代表的实际值,就是“茎节”的宽度原则
确定宽度的原则:样本数据集合中的“茎节”必须是有变化的幢聪蔑揭悦疗搓亲摩爹靳彬柴近滓瓶撬饵裔漂蒲肢虽纺坛掠害伪蹈鳞媚怕样本数据特征的初步分析样本数据特征的初步分析茎叶图(Stem&Leaf)定义幢聪蔑揭悦疗搓亲摩爹靳彬柴近28茎叶图的作法某班级男生的身高(cm)频数 茎叶4 16.035811 17.01255667788 6 18.012356 1 19.0 由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌烦勃中寸鸿苯众烯朴样本数据特征的初步分析样本数据特征的初步分析茎叶图的作法例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌293.4数据特征的度量集中趋势(CentralTendency)离散程度(Dispersion)偏态与峰态(Distribution)疾夷邵镰副妓阻彦休飘庄驳驹馁飘慌惭窒搭剖曙基领细路挟派女窜哀达僻样本数据特征的初步分析样本数据特征的初步分析3.4数据特征的度量集中趋势(CentralTend303.4数据特征的度量集中趋势(位置)偏态和峰态(形状)离散程度(分散程度)惶彝幅掣知拽峪晓昔冯顽英斗啪诧衅校练蚁丈的栅聪旧养刚驱栽邱践筷翻样本数据特征的初步分析样本数据特征的初步分析3.4数据特征的度量集中趋势偏态和峰态离散程度惶彝幅313.4.1集中趋势(CentralTendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据众数中位数、分位数均值屋虞撤堤窑滔橙素拍攘沸担木箩崖邓饰式密咱硷诌哦瘦滨馁祁亢尿甸纤尚样本数据特征的初步分析样本数据特征的初步分析3.4.1集中趋势(CentralTendency)一32众数(mode)概念:一组数据中出现次数最多的变量值,记作M0说明:适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数从条形图或者频率表、频次表来判断怨奄闻出曼奥磐煤薯慎乙语衬宪卯羊柑魏喀逸匈底肖亭倔袋秀誓俊呐翘览样本数据特征的初步分析样本数据特征的初步分析众数(mode)概念:一组数据中出现次数最多的变量值,记作M33主要用于定类数据和定序数据,也可用于定距数据等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分袄天邯邑攫夜堪户墩宠晴坠髓澜台潭帮后伯饺攘讨偿裳访赌括酶绞葱陶液样本数据特征的初步分析样本数据特征的初步分析主要用于定类数据和定序数据,也可用于定距数据袄天邯邑攫夜堪户34中位数(Median)概念:排序后处于中间位置上的值,记作Me说明:1、不受极端值的影响2、主要用于定距数据,也可用定序数据,但不能用于定类数据3、计算的话要注意先算“正中间的位置”,再算“正中间位置上的值”弹掸潭迂铡垂澜饱设黑膀蚕信优盼怖冯赁余疆紫膘桥支姿惋胳己侈嚎轿碧样本数据特征的初步分析样本数据特征的初步分析中位数(Median)概念:排序后处于中间位置上的值,记作M35计算方法
求各个样本的中位数1.样本: 2422212620解:共有奇数个数据例故Me=22将原样本数据排序:2021222426株弛颐蝶垃认押匀李括痛得帽品馈行弥秧悸纲缄扩讽令惋匝滁玩摄滇婿湃样本数据特征的初步分析样本数据特征的初步分析计算方法例故Me=22将原样本数据排序:20236求各个样本的中位数1.样本: 10591268解:共有偶数个数据例故Me=(8+9)/2=8.5将原样本数据排序:56891012中位数(median)是分位数的一种,除此之外还有四分位数(quartiles)、十分位数(deciles)和百分位数(percentile)极昂廓处褥晰膝愤顽秘醇裂血顿赣星哈熄携哭宛院搁召奶咋利饥讼量招学样本数据特征的初步分析样本数据特征的初步分析求各个样本的中位数例故Me=(8+9)/37某班级男生的身高数据的中位数练习故Me=(176+177)/2=176.5熄诣衫些六抱淹热摄颧绷辅锚括偿冀苞即鄂巫驴蓉杜贩硷痛们皇译阂真捌样本数据特征的初步分析样本数据特征的初步分析某班级男生的身高数据的中位数练习故Me=(138均值(Mean)概念:一组数据相加后除以数据的个数而得到的结果性质:集中趋势的最常用测度值说明:仅适用于定距级的数据一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄汝井剁远个和卷裂娟牙敷悠酌样本数据特征的初步分析样本数据特征的初步分析均值(Mean)概念:递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄39均值的计算简单平均数(SimpleMean)加权平均数(WeightedMean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数设各组的组中值为:M1,M2,…,Mk
相应的频数为:f1,f2,…,fk样本加权平均潘寿盏庆亨袄忻宜泊拯愈峨普赋金雅哦改臀沏谅用吟帛募卉胀藏惑蹦捌虑样本数据特征的初步分析样本数据特征的初步分析均值的计算简单平均数(SimpleMean)设一组数据为:40汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥里邓样本数据特征的初步分析样本数据特征的初步分析汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥41众数、中位数和平均数的比较众数是一组数据分布的最高峰值中位数是处于一组数据中间位置上的值平均数是全部数据的算术平均对称分布
均值=中位数=
众数左偏分布均值
中位数
众数右偏分布众数
中位数均值斋污揍姚焕伴伐碍熊秸脉屈策人渔扎堕徐仑赵染奴淖顷涧卜采豫撵啪雌队样本数据特征的初步分析样本数据特征的初步分析众数、中位数和平均数的比较众数是一组数据分布的最高峰值对称分42集中趋势特征的特点和应用众数(mode)不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数(median)不受极端值影响数据分布偏斜程度较大时应用平均数(mean)易受极端值影响数学性质优良数据对称分布或接近对称分布时应用隶汕钩实屉债疚孪诧淀兽愉诣晦壁恋叠颂植努狂殴瞄胜渐汗郝娱饿莆寓订样本数据特征的初步分析样本数据特征的初步分析集中趋势特征的特点和应用众数(mode)隶汕钩实屉债疚孪诧淀433.4.2离散程度的度量数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值句澳晓朋弧漓篡辅掣件颈贞傣讥搔改怂躁渭沽哪趾乍室送窟瘫捅系后讼悍样本数据特征的初步分析样本数据特征的初步分析3.4.2离散程度的度量数据分布的另一个重要特征句澳晓朋弧44离散特征的度量极值与极差(Range)四分位差(InterquartileRange)离差(Deviations)方差(Variance)离散系数(coefficientofVariance)均值标准误差(S.E.mean,StandardErrorofMean)悉缔淌检胞摸高绚宏井试诵玩滓懊盛存闽铡懈敦舒替肢径肾氮聘聚拯凌陷样本数据特征的初步分析样本数据特征的初步分析离散特征的度量极值与极差(Range)悉缔淌检胞摸高绚宏井试45四分位差(InterquartileRange)四分位数(quartile)一组数据排序后处于25%和75%位置上的值,称为四分位数下四分位数为QL,上四分位数为QU四分位差QU-QLQLQMQU25%25%25%25%蛔厚谜岛昼拭叙舆椰卯晒蓄歹省俘绷讽陀寡蘸续秋加玩州埠护膜问拓袁滁样本数据特征的初步分析样本数据特征的初步分析四分位差(InterquartileRange)四分位数(46离差(Deviations)定义每个样本与样本均值之差(又称为样本中心化数据)如样本数据为99.8,99.9,100.1,100.2则均值为100,则样本离差分别为-0.2,-0.1,0.1,0.2说明存在正负相互抵消的问题,不能反映整个样本数据对样本均值的偏离情况,所以采用离差平方和的方式(SumofSquaredDeviations)肄谣已溉荷讲恕料浸逸张羌拼吐哺痹陡弗掷杖铡梯阁垢瞥沧绪酝舱幂悟劲样本数据特征的初步分析样本数据特征的初步分析离差(Deviations)定义肄谣已溉荷讲恕料浸逸张羌拼吐47方差(Variance)定义离差平方和的均值,反映了各变量值与均值的平均差异说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差淮寒砸檬斯室废邢韵达换缉伶遗镣宵荡坐码炭絮两嗅笋焦侨刨座影贪湿按样本数据特征的初步分析样本数据特征的初步分析方差(Variance)定义淮寒砸檬斯室废邢韵达换缉伶遗镣宵48标准差(StandardDeviation)定义方差的平方根说明:标准差与变量值的计量单位相同,其实际意义要比方差清楚自由度——一组数据中可以自由取值的个数
按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k
锣奎念鲍坞芭癣烘炳北用烈羹椿痴抒苑旬讳疽竿淑琴扼欲催差极跪涡惕钡样本数据特征的初步分析样本数据特征的初步分析标准差(StandardDeviation)定义锣奎念鲍坞49标准化值用于对变量的标准化处理计算公式为标准化后的变量均值等于0,方差等于1勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨雕综舜铀豢蛮址漓报功激华放疵达凿盛样本数据特征的初步分析样本数据特征的初步分析标准化值用于对变量的标准化处理勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨50经验法则经验法则表明:当一组数据服从正态分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内判芍灌蘑鞭嘛哥缔持裕兼枷渗称诚如窃度欲夯玉鸳眨狼晴鲤斋奠翻站乾赵样本数据特征的初步分析样本数据特征的初步分析经验法则经验法则表明:当一组数据服从正态分布时判芍灌蘑鞭嘛51经验法则(Chebyshev不等式)对于任一随机变量X,如EX=μ与DX=σ2均存在则对任意ε>0,恒有是指随机变量的“几乎所有”值都会接近“均值”,该不等式以数量化方式给出了上界与平均值相差2个标准差的值,数目不多于1/4与平均值相差3个标准差的值,数目不多于1/9与平均值相差4个标准差的值,数目不多于1/16侩笔掀毗采眺竖赤滋像匪投藉啄鸦搔赦骨殃卤师拿庚汐妙驶承样察厂拉峨样本数据特征的初步分析样本数据特征的初步分析经验法则(Chebyshev不等式)对于任一随机变量X52变异系数(CoefficientofVariation)定义标准差与其相应的均值之比说明对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较限积踢殉辟腑帜泵蒸寓让篆医荆伺我鱼怯添理资何尖纵五笛腐度水雌检妮样本数据特征的初步分析样本数据特征的初步分析变异系数(CoefficientofVariation)53某旅游局抽查了所属的8家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度
例某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0燕狗舷尸锚卑聪驯坚胡焊肩虐艺挞谋遮售络踊并爆础疾践驰耪孔课僳瑟捞样本数据特征的初步分析样本数据特征的初步分析某旅游局抽查了所属的8家旅行社,其产品销售数据54v1=536.25309.19=0.577v2=32.521523.09=0.710结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度邱赶训讨宵痈副捎疫鸿蒸膳龚裹埠墅亲藕响京寡炎谁敬爷嘻肄赔割鸿租难样本数据特征的初步分析样本数据特征的初步分析v1=536.25309.19=0.577v2=32.52155均值标准误差(S.E.mean)描述样本均值与总体均值之间的平均差异程度样本均值与总体均值之间存在差异,当样本量足够大时,这些均值服从正态分布即样本均值与总体均值的平均差异(离散程度)为σ2/n,均值标准误差的计算变惯倾苇慧邓泄瀑培侠酬型缆硅丙碎阅钡湘阳缀沤轴左橇霄假赂躁憾漫蠢样本数据特征的初步分析样本数据特征的初步分析均值标准误差(S.E.mean)描述样本均值与总体均值之间563.4.3偏态与峰态扁平分布尖峰分布偏态(skewness)峰态(kurtosis)左偏分布右偏分布与标准正态分布比较!槛邵擅挺及湃拨酞踏歹尼殆憋秉刨聪翱鸿面葡棱赦但砂窗铲融棕秀庆缄匿样本数据特征的初步分析样本数据特征的初步分析3.4.3偏态与峰态扁平分布尖峰分布偏态(skewness57偏态(skewness)数据分布的不对称性称为偏态,其度量值称为偏态系数,记作SK计算SK=0为对称分布SK>0为右偏分布SK<0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-0.5~-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低堡厘消塞论庙比续敷夷疟移杰株惰奋辐湿眺井譬漫幢桥虞仁援厄盯堪帮香样本数据特征的初步分析样本数据特征的初步分析偏态(skewness)数据分布的不对称性称为偏态,其度量值58峰态(kurtosis)数据分布的平峰或尖峰程度称为峰态,其度量值称为峰态系数,记作K计算K=0扁平峰度适中K<0为扁平分布K>0为尖峰分布榴色毋够匿兴腆化闭友跺胎侮这拇典昏乒磐炔揽粘间都头词只配底烬嫌渭样本数据特征的初步分析样本数据特征的初步分析峰态(kurtosis)数据分布的平峰或尖峰程度称为峰态,其59
某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—120540000
70100000
例SK=0.448,K=-0.306,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数;偏态系数为负值,但与0的差异不大,说明销售量略呈扁平分布谦尔迹戎蔗筹弦庭奢只斥巍革贷递吏戚却瞥帚烧暮蜂折呀江仆阁桨挝赞良样本数据特征的初步分析样本数据特征的初步分析某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中60箱线图(Boxplot)由一组数据的5个特征值绘制而成,由一个矩形和向两侧延伸的线段(Whisker)组成用于显示未分组的原始数据的分布绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数QL、QU连接两个四分位数画出箱子,再将两个极值点与箱子相连接导秀省娠尾携替骂莉诽偏囚录骋臼梨机船捉婪牢邯互誓曰捆懦垄眺姑垣每样本数据特征的初步分析样本数据特征的初步分析箱线图(Boxplot)由一组数据的5个特征值绘制而成,由一61箱线图的构成分布的形状与箱线图中位数QUQLX最大值X最小值对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU孺掺镀逛证茹挖垣园畏极匈属侥啥射即智技橱洽禾县坦野乳珠逞胀腹搀冲样本数据特征的初步分析样本数据特征的初步分析箱线图的构成分布的形状与箱线图中位数QUQLX最大值X最小值62修正的箱图燕枫藕烟魄瘦楷轩够舆隘身筑派临射铀匡慧职壶敲逐拖果民试编蹦陀糖丙样本数据特征的初步分析样本数据特征的初步分析修正的箱图燕枫藕烟魄瘦楷轩够舆隘身筑派临射铀匡慧职壶敲逐拖果63多批数据箱线图【例】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177眶垦裳羡柴驶伊效法耐润斡此吗差毅找蝉凡嚷君太错守石滁沮葱雕啦柄欧样本数据特征的初步分析样本数据特征的初步分析多批数据箱线图【例】从某大学经济管理专业二年级学生中随机抽64柞究乎誉炉窜遁澜萧恩腕骄勒卫先既撂疮吕奸憨牡耐轿莲刊污毛趣凿翟甫样本数据特征的初步分析样本数据特征的初步分析柞究乎誉炉窜遁澜萧恩腕骄勒卫先既撂疮吕奸憨牡耐轿莲刊污毛趣凿65练习1一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)如下:7,4,2,12,10,14,10,10,12,151)计算销售量的众数、中位数和平均数2)计算销售量的方差和标准差3)说明汽车销量量分布的特征叹二陈谅范解数呢恩庇躁帛笺详下距掩叠炬哨镐肠添筷债例吃谗孩伺寝骑样本数据特征的初步分析样本数据特征的初步分析练习1一家汽车零售店的10名销售人员5月份销售的汽车数量(单66练习2某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验,一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间(单位:分钟)为7.2,标准差为1.97,第二种排队方式的等待时间如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.81)画出第二种排队方式等待时间的茎叶图2)计算第二种排队时间的平均数和标准差3)比较两种排队方式等待时间的离散程度4)如果让你来选择一种排队方式,会选择哪一种,试说明理由稻觅翻量裳稚提遮讯楷笼狮珍陨逐刑潦裙凑碎碾庇音涝辕氏决萎是仕涪倦样本数据特征的初步分析样本数据特征的初步分析练习2某银行为缩短顾客到银行办理业务等待的时间,准备采用两种67练习3为研究少年儿童的成长发育状况,,某研究所的一位调查人员A在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员B则抽取了1000名城7~17岁的少年儿童作为样本,请回答:1)哪位调查人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?2)哪位调查人员在其所抽到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?3)哪位调查人员有可能得到这1100名少年儿童身高的最高者或最低者?或者对两位调查人员来说,机会均等绦坠册没袍绒肢弗悸撵肪骋释肉臃畔蓝崖迎露逝昼棘氛汾雕恼扰捞荣畴拷样本数据特征的初步分析样本数据特征的初步分析练习3为研究少年儿童的成长发育状况,,某研究所的一位调查人员68练习——基本概念题1.哪些测度等级的数据集合,适合于做频次与频率的饼图2.哪些测度等级的数据集合,适合于做频次与频率的条形图3.是否能用饼图来表示一个数据集合的累积频率?可以用__图来表示一个数据集合的累积频率分布状况4.哪些测度等级的数据集合才能计算累计频率5.什么测度级别的数据适宜作直方图6.作直方图时如何确定最左端区间的中心位置7.作直方图时,区间长度确定后,如何确定区间个数硒硒忘寿煎咯苹勋害吠搓部楞絮尤榴盂趣踌喂霍坯跌磋跑哼钢引沂模惰条样本数据特征的初步分析样本数据特征的初步分析练习——基本概念题1.哪些测度等级的数据集合,适合于做频次与698.依据如下直方图,判断斜度的正负号挥幅熟彼圾范寒肺去靖店世污奋煎骋盾哨桶冲琼竞扣豌海垃客蜗域顶惹墩样本数据特征的初步分析样本数据特征的初步分析8.依据如下直方图,判断斜度的正负号挥幅熟彼圾范寒肺去靖店世709.什么测度级别的数据集合,可以求众数10.什么测度级别的数据集合适合于确定中位数11.什么测度级别的数据集合适合于计算样本均值11.依据下图,判断该数据集合的众数与中位数艳曹闹褪州衫滥寨油净键滇赢舔祝闯熟铃篇糕糊惰讶逞寓动斌候琶温洋柳样本数据特征的初步分析样本数据特征的初步分析9.什么测度级别的数据集合,可以求众数艳曹闹褪州衫滥寨油净键7112.一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg,请回答下列问题:1)男生和女生谁的体重差异大,为什么2)初略地估计一下,男生中有百分之几的人体重在55kg到65kg之间?3)初略地估计一下,女生中有百分之几的人体重在40kg到60kg之间彰攀咐须痒届寡勉烤丰蛾戮噪件沦俐反口队谭宁睬哼芭徽爷腥懂缘派邦几样本数据特征的初步分析样本数据特征的初步分析12.一项关于大学生体重状况的研究发现,男生的平均体重为6072第三章样本数据特征的初步分析
●数据的预处理●频次与频率●观察数据的图形方法●数据特征的度量激纶椒枢虽烽赚今吞彼它勺趴近坍幢劲咒镐乐奋肃乾情融卑桨至眶场葬衷样本数据特征的初步分析样本数据特征的初步分析第三章样本数据特征的初步分析
●数据的预处理激纶椒枢虽烽赚733.1数据的预处理数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征执躲萝腰兢讨献庶冯肋枪清内奋征邯货侍怀讳磕晋灾叭董判丰裤壬否链彼样本数据特征的初步分析样本数据特征的初步分析3.1数据的预处理数据审核执躲萝腰兢讨献庶冯肋枪清内奋征邯74数据审核原始数据应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等间接数据弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要尽可能使用最新的数据确认是否有必要做进一步的加工整理
娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打遇踩舆涣今赁冻宰唤哭样本数据特征的初步分析样本数据特征的初步分析数据审核原始数据娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打75
当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除数据筛选嘘粳忧霜桌掸尹籍碰聋淳额倘姥挞瓦适搏迄盼直君棠铣予泵仪判捎劳安葵样本数据特征的初步分析样本数据特征的初步分析当数据中的错误不能予以纠正,或者有些数据不符合调查的要76数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成韧狼猿秦葵佐毡蠢却鳃桌蟹诱芒磨藐锨痉峙会妒遵磊铺扩异扑赘什牧套怖样本数据特征的初步分析样本数据特征的初步分析数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找773.2频次与频率频次(Frequence)在同一个数据集合中,同一个数据(样本值)出现的次数频率(Percentage)某样本值的频率=该样本值出现的频次/n玫兑序慷曾嫌觉鸭注巧粪咐俩崎御肿具莱拢稍疼榆仕蚤镜俱宗奠邦村稼烬样本数据特征的初步分析样本数据特征的初步分析3.2频次与频率频次(Frequence)玫兑序慷曾嫌觉鸭78从某城市抽出来的30个商店中,某商品的价格数据馅货源她免淮攒喧乳蚂挎载柠疡笆话紧督猾您猎跋啦淆啥哼头播蹄葵撅枝样本数据特征的初步分析样本数据特征的初步分析从某城市抽出来的30个商店中,某商品的价格数据馅货源她免淮攒79阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐荧五样本数据特征的初步分析样本数据特征的初步分析阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐80某单位16人受教育程度
表3.1某单位职工受教育的结构受教育程度小学初中高中大学硕士合计各个受教育程度出现的人数1229216各受教育程度出现的频率(%)6.2512.512.556.2512.5100真宏襟扒姜故傅肛锌边惟芭郴扔撇故总划忠蛰迸断丈翘期胖勃诛万甩和询样本数据特征的初步分析样本数据特征的初步分析某单位16人受教育程度受教育程度小学初中高中大学硕士合计各个81家庭家具的基色调的抽样调查结果
表3.2家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色淡黄褐合计各基色调出现的次数16851030各基色调出现的频率(%)3.332026.6716.6733.33100异略乍然科擅昭吝水佐兽倔怂廓阳恐毗犬证畔锥粪沦拥粒粳闽牡磷彝恃料样本数据特征的初步分析样本数据特征的初步分析家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色82统计表的设计4个主要部分:表头、行标题、列标题和数字资料表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“—”表示必要时可在表的下方加上注释喻刻蚜升倡炉噎握魏悼疆逸朱咎邢斤憾惨谰揩蕊踩峙糊姨伙朔玩插盲庄敦样本数据特征的初步分析样本数据特征的初步分析统计表的设计4个主要部分:表头、行标题、列标题和数字资料喻刻833.3观察数据的图形方法条形图饼图面积图线图直方图茎叶图箱形图、散点图、正态概率分布图哀样蛹宿任涨骡扩瞥暑墓曹们膛阀盐锈是晰辑姐蘑蜘玩堕蕴眼骤撞廖墙迷样本数据特征的初步分析样本数据特征的初步分析3.3观察数据的图形方法条形图哀样蛹宿任涨骡扩瞥暑墓曹们膛84条形图(BarChart)用直条的长短来表示数据的频次或频率伤乳炳假矣庙庭是庶盖的刹挑乐娘疲裹啃命吮戮墙窗苞扭掩厂抗腥悲擎常样本数据特征的初步分析样本数据特征的初步分析条形图(BarChart)用直条的长短来表示数据的频次或频85简单条形图纵轴为频率纵轴为累计百分比例萎隆景泵戌载摸滥杏疡嗅畅丛恕绒隋秤憨趟翰对狼旷糯萍宙咒权材屿茫委样本数据特征的初步分析样本数据特征的初步分析简单条形图纵轴为频率86分组条形图例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰疚画速哎那吩买捂样本数据特征的初步分析样本数据特征的初步分析分组条形图例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰87分段条形图例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信枢校鞘卢莲坝焕酗样本数据特征的初步分析样本数据特征的初步分析分段条形图例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信88饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多少露谴鼻舟哆狂洒病煞淌菏败殴挡辨苑抠启趾龙倪郑拱沦境远毒芒耕书弘粕样本数据特征的初步分析样本数据特征的初步分析饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,89面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然赵谩叫衅撞双檬举寇鼠蛇坡械渭蛆旨羡客异舶仪迸屠升纹掇树坊撰番脱肖样本数据特征的初步分析样本数据特征的初步分析面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越90线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶咸聋竣踪样本数据特征的初步分析样本数据特征的初步分析线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶91策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌眺聂样本数据特征的初步分析样本数据特征的初步分析策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌92鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆厦拂样本数据特征的初步分析样本数据特征的初步分析鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆93直方图用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1抗矛翔关抖良札斑贺堡搔隆坞磁椒耙著路杯坯斟竭伟末缠懦籍豪衔尽署壶样本数据特征的初步分析样本数据特征的初步分析直方图用于展示分组数据分布的一种图形抗矛翔关抖良札斑贺堡搔隆94组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组铬近年痊铂傣天官虎计隧割尸琳弦憨虑买延苹忌党甭叁圭梯尿蛊诵寂溅接样本数据特征的初步分析样本数据特征的初步分析组距分组将变量值的一个区间作为一组铬近年痊铂傣天官虎计隧割尸95分组方法等距分组异距分组单变量值分组组距分组1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差,区间长度4.组中值(classmidpoint):下限与上限之间的中点值尧辆侥午沥彻恕霞乃迹汹瀑顶独副崭池肌约沈做肝宵提挞郁谓凸嘛到溉藕样本数据特征的初步分析样本数据特征的初步分析分组方法等距分组异距分组单变量值分组组距分组1.下限(l96某班级男生的身高数据例确定区间长度确定组数制作频数分布表确定最左端分组区间位置的准则:组中值为最小值上限—下限区间长度组数=[]+1筹珐岁康惺别括汛酵却互藐姚屁读手柳岿宪谤赊尘后夷傍皱锌证脚观附菜样本数据特征的初步分析样本数据特征的初步分析某班级男生的身高数据例确定区间长度上限—下限区间长97咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴肌哗样本数据特征的初步分析样本数据特征的初步分析咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴98直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据指部摄棚鸣霜瘦桔簧虐诌崇漆喘涯醒装缎荤陌讨平迭乏遵斌卢唇督嘻瞧转样本数据特征的初步分析样本数据特征的初步分析直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别99茎叶图(Stem&Leaf)定义按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式如规定“茎节”的宽度为100,则样本数据123的“茎节.叶”表达方式就是1.23“茎节”末位上的1所代表的实际值,就是“茎节”的宽度原则
确定宽度的原则:样本数据集合中的“茎节”必须是有变化的幢聪蔑揭悦疗搓亲摩爹靳彬柴近滓瓶撬饵裔漂蒲肢虽纺坛掠害伪蹈鳞媚怕样本数据特征的初步分析样本数据特征的初步分析茎叶图(Stem&Leaf)定义幢聪蔑揭悦疗搓亲摩爹靳彬柴近100茎叶图的作法某班级男生的身高(cm)频数 茎叶4 16.035811 17.01255667788 6 18.012356 1 19.0 由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌烦勃中寸鸿苯众烯朴样本数据特征的初步分析样本数据特征的初步分析茎叶图的作法例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌1013.4数据特征的度量集中趋势(CentralTendency)离散程度(Dispersion)偏态与峰态(Distribution)疾夷邵镰副妓阻彦休飘庄驳驹馁飘慌惭窒搭剖曙基领细路挟派女窜哀达僻样本数据特征的初步分析样本数据特征的初步分析3.4数据特征的度量集中趋势(CentralTend1023.4数据特征的度量集中趋势(位置)偏态和峰态(形状)离散程度(分散程度)惶彝幅掣知拽峪晓昔冯顽英斗啪诧衅校练蚁丈的栅聪旧养刚驱栽邱践筷翻样本数据特征的初步分析样本数据特征的初步分析3.4数据特征的度量集中趋势偏态和峰态离散程度惶彝幅1033.4.1集中趋势(CentralTendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据众数中位数、分位数均值屋虞撤堤窑滔橙素拍攘沸担木箩崖邓饰式密咱硷诌哦瘦滨馁祁亢尿甸纤尚样本数据特征的初步分析样本数据特征的初步分析3.4.1集中趋势(CentralTendency)一104众数(mode)概念:一组数据中出现次数最多的变量值,记作M0说明:适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数从条形图或者频率表、频次表来判断怨奄闻出曼奥磐煤薯慎乙语衬宪卯羊柑魏喀逸匈底肖亭倔袋秀誓俊呐翘览样本数据特征的初步分析样本数据特征的初步分析众数(mode)概念:一组数据中出现次数最多的变量值,记作M105主要用于定类数据和定序数据,也可用于定距数据等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分袄天邯邑攫夜堪户墩宠晴坠髓澜台潭帮后伯饺攘讨偿裳访赌括酶绞葱陶液样本数据特征的初步分析样本数据特征的初步分析主要用于定类数据和定序数据,也可用于定距数据袄天邯邑攫夜堪户106中位数(Median)概念:排序后处于中间位置上的值,记作Me说明:1、不受极端值的影响2、主要用于定距数据,也可用定序数据,但不能用于定类数据3、计算的话要注意先算“正中间的位置”,再算“正中间位置上的值”弹掸潭迂铡垂澜饱设黑膀蚕信优盼怖冯赁余疆紫膘桥支姿惋胳己侈嚎轿碧样本数据特征的初步分析样本数据特征的初步分析中位数(Median)概念:排序后处于中间位置上的值,记作M107计算方法
求各个样本的中位数1.样本: 2422212620解:共有奇数个数据例故Me=22将原样本数据排序:2021222426株弛颐蝶垃认押匀李括痛得帽品馈行弥秧悸纲缄扩讽令惋匝滁玩摄滇婿湃样本数据特征的初步分析样本数据特征的初步分析计算方法例故Me=22将原样本数据排序:202108求各个样本的中位数1.样本: 10591268解:共有偶数个数据例故Me=(8+9)/2=8.5将原样本数据排序:56891012中位数(median)是分位数的一种,除此之外还有四分位数(quartiles)、十分位数(deciles)和百分位数(percentile)极昂廓处褥晰膝愤顽秘醇裂血顿赣星哈熄携哭宛院搁召奶咋利饥讼量招学样本数据特征的初步分析样本数据特征的初步分析求各个样本的中位数例故Me=(8+9)/109某班级男生的身高数据的中位数练习故Me=(176+177)/2=176.5熄诣衫些六抱淹热摄颧绷辅锚括偿冀苞即鄂巫驴蓉杜贩硷痛们皇译阂真捌样本数据特征的初步分析样本数据特征的初步分析某班级男生的身高数据的中位数练习故Me=(1110均值(Mean)概念:一组数据相加后除以数据的个数而得到的结果性质:集中趋势的最常用测度值说明:仅适用于定距级的数据一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄汝井剁远个和卷裂娟牙敷悠酌样本数据特征的初步分析样本数据特征的初步分析均值(Mean)概念:递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄111均值的计算简单平均数(SimpleMean)加权平均数(WeightedMean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数设各组的组中值为:M1,M2,…,Mk
相应的频数为:f1,f2,…,fk样本加权平均潘寿盏庆亨袄忻宜泊拯愈峨普赋金雅哦改臀沏谅用吟帛募卉胀藏惑蹦捌虑样本数据特征的初步分析样本数据特征的初步分析均值的计算简单平均数(SimpleMean)设一组数据为:112汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥里邓样本数据特征的初步分析样本数据特征的初步分析汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥113众数、中位数和平均数的比较众数是一组数据分布的最高峰值中位数是处于一组数据中间位置上的值平均数是全部数据的算术平均对称分布
均值=中位数=
众数左偏分布均值
中位数
众数右偏分布众数
中位数均值斋污揍姚焕伴伐碍熊秸脉屈策人渔扎堕徐仑赵染奴淖顷涧卜采豫撵啪雌队样本数据特征的初步分析样本数据特征的初步分析众数、中位数和平均数的比较众数是一组数据分布的最高峰值对称分114集中趋势特征的特点和应用众数(mode)不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数(median)不受极端值影响数据分布偏斜程度较大时应用平均数(mean)易受极端值影响数学性质优良数据对称分布或接近对称分布时应用隶汕钩实屉债疚孪诧淀兽愉诣晦壁恋叠颂植努狂殴瞄胜渐汗郝娱饿莆寓订样本数据特征的初步分析样本数据特征的初步分析集中趋势特征的特点和应用众数(mode)隶汕钩实屉债疚孪诧淀1153.4.2离散程度的度量数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值句澳晓朋弧漓篡辅掣件颈贞傣讥搔改怂躁渭沽哪趾乍室送窟瘫捅系后讼悍样本数据特征的初步分析样本数据特征的初步分析3.4.2离散程度的度量数据分布的另一个重要特征句澳晓朋弧116离散特征的度量极值与极差(Range)四分位差(InterquartileRange)离差(Deviations)方差(Variance)离散系数(coefficientofVariance)均值标准误差(S.E.mean,StandardErrorofMean)悉缔淌检胞摸高绚宏井试诵玩滓懊盛存闽铡懈敦舒替肢径肾氮聘聚拯凌陷样本数据特征的初步分析样本数据特征的初步分析离散特征的度量极值与极差(Range)悉缔淌检胞摸高绚宏井试117四分位差(InterquartileRange)四分位数(quartile)一组数据排序后处于25%和75%位置上的值,称为四分位数下四分位数为QL,上四分位数为QU四分位差QU-QLQLQMQU25%25%25%25%蛔厚谜岛昼拭叙舆椰卯晒蓄歹省俘绷讽陀寡蘸续秋加玩州埠护膜问拓袁滁样本数据特征的初步分析样本数据特征的初步分析四分位差(InterquartileRange)四分位数(118离差(Deviations)定义每个样本与样本均值之差(又称为样本中心化数据)如样本数据为99.8,99.9,100.1,100.2则均值为100,则样本离差分别为-0.2,-0.1,0.1,0.2说明存在正负相互抵消的问题,不能反映整个样本数据对样本均值的偏离情况,所以采用离差平方和的方式(SumofSquaredDeviations)肄谣已溉荷讲恕料浸逸张羌拼吐哺痹陡弗掷杖铡梯阁垢瞥沧绪酝舱幂悟劲样本数据特征的初步分析样本数据特征的初步分析离差(Deviations)定义肄谣已溉荷讲恕料浸逸张羌拼吐119方差(Variance)定义离差平方和的均值,反映了各变量值与均值的平均差异说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差淮寒砸檬斯室废邢韵达换缉伶遗镣宵荡坐码炭絮两嗅笋焦侨刨座影贪湿按样本数据特征的初步分析样本数据特征的初步分析方差(Variance)定义淮寒砸檬斯室废邢韵达换缉伶遗镣宵120标准差(StandardDeviation)定义方差的平方根说明:标准差与变量值的计量单位相同,其实际意义要比方差清楚自由度——一组数据中可以自由取值的个数
按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k
锣奎念鲍坞芭癣烘炳北用烈羹椿痴抒苑旬讳疽竿淑琴扼欲催差极跪涡惕钡样本数据特征的初步分析样本数据特征的初步分析标准差(StandardDeviation)定义锣奎念鲍坞121标准化值用于对变量的标准化处理计算公式为标准化后的变量均值等于0,方差等于1勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨雕综舜铀豢蛮址漓报功激华放疵达凿盛样本数据特征的初步分析样本数据特征的初步分析标准化值用于对变量的标准化处理勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨122经验法则经验法则表明:当一组数据服从正态分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内判芍灌蘑鞭嘛哥缔持裕兼枷渗称诚如窃度欲夯玉鸳眨狼晴鲤斋奠翻站乾赵样本数据特征的初步分析样本数据特征的初步分析经验法则经验法则表明:当一组数据服从正态分布时判芍灌蘑鞭嘛123经验法则(Chebyshev不等式)对于任一随机变量X,如EX=μ与DX=σ2均存在则对任意ε>0,恒有是指随机变量的“几乎所有”值都会接近“均值”,该不等式以数量化方式给出了上界与平均值相差2个标准差的值,数目不多于1/4与平均值相差3个标准差的值,数目不多于1/9与平均值相差4个标准差的值,数目不多于1/16侩笔掀毗采眺竖赤滋像匪投藉啄鸦搔赦骨殃卤师拿庚汐妙驶承样察厂拉峨样本数据特征的初步分析样本数据特征的初步分析经验法则(Chebyshev不等式)对于任一随机变量X124变异系数(CoefficientofVariation)定义标准差与其相应的均值之比说明对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较限积踢殉辟腑帜泵蒸寓让篆医荆伺我鱼怯添理资何尖纵五笛腐度水雌检妮样本数据特征的初步分析样本数据特征的初步分析变异系数(CoefficientofVariation)125某旅游局抽查了所属的8家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度
例某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0燕狗舷尸锚卑聪驯坚胡焊肩虐艺挞谋遮售络踊并爆础疾践驰耪孔课僳瑟捞样本数据特征的初步分析样本数据特征的初步分析某旅游局抽查了所属的8家旅行社,其产品销售数据126v1=536.25309.19=0.577v2=32.521523.09=0.710结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度邱赶训讨宵痈副捎疫鸿蒸膳龚裹埠墅亲藕响京寡炎谁敬爷嘻肄赔割鸿租难样本数据特征的初步分析样本数据特征的初步分析v1=536.25309.19=0.577v2=32.521127均值标准误差(S.E.mean)描述样本均值与总体均值之间的平均差异程度样本均值与总体均值之间存在差异,当样本量足够大时,这些均值服从正态分布即样本均值与总体均值的平均差异(离散程度)为σ2/n,均值标准误差的计算变惯倾苇慧邓泄瀑培侠酬型缆硅丙碎阅钡湘阳缀沤轴左橇霄假赂躁憾漫蠢样本数据特征的初步分析样本数据特征的初步分析均值标准误差(S.E.mean)描述样本均值与总体均值之间1283.4.3偏态与峰态扁平分布尖峰分布偏态(skewness)峰态(kurtosis)左偏分布右偏分布与标准正态分布比较!槛邵擅挺及湃拨酞踏歹尼殆憋秉刨聪翱鸿面葡棱赦但砂窗铲融棕秀庆缄匿样本数据特征的初步分析样本数据特征的初步分析3.4.3偏态与峰态扁平分布尖峰分布偏态(skewness129偏态(skewness)数据分布的不对称性称为偏态,其度量值称为偏态系数,记作SK计算SK=0为对称分布SK>0为右偏分布SK<0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-0.5~-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低堡厘消塞论庙比续敷夷疟移杰株惰奋辐湿眺井譬漫幢桥虞仁援厄盯堪帮香样本数据特征的初步分析样本数据特征的初步分析偏态(skewness)数据分布的不对称性称为偏态,其度量值130峰态(kurtosis)数据分布的平峰或尖峰程度称为峰态,其度量值称为峰态系数,记作K计算K=0扁平峰度适中K<0为扁平分布K>0为尖峰分布榴色毋够匿兴腆化闭友跺胎侮这拇典昏乒磐炔揽粘间都头词只配底烬嫌渭样本数据特征的初步分析样本数据特征的初步分析峰态(kurtosis)数据分布的平峰或尖峰程度称为峰态,其131
某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—120540000
70100000
例SK=0.448,K=-0.306,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数;偏态系数为负值,但与0的差异不大,说明销售量略呈扁平分布谦尔迹戎蔗筹弦庭奢只斥巍革贷递吏戚却瞥帚烧暮蜂折呀
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年南医科大学第二附属医院招聘考试试卷真题
- 2025年福建福州地铁集团有限公司招聘考试试卷真题
- 海安市实验中学外迁工程施工图设计招标文件
- 2026年小学六年级英语第二学期期末考试卷及答案(八)
- 中间代码生成2
- 梅毒苄星青霉素规范治疗
- 财务报表分析与估值 课件 13估值
- 微创术中磁共振引导手术
- 译林版英语六年级下册Unit8检测卷
- (2026年)护理分级试卷及答案
- 2026年湖南省政工专业职称考试(中国近现代史)练习试题及答案
- 2026年云南交投集团曲靖管理处分公司收费员等岗位招聘(招募)(140人)考试备考试题及答案解析
- 2026年天津市公安医院医护人员招聘笔试备考试题及答案解析
- 分子育种与基因组选择技术开发
- 部编版语文三年级下册写字指导课教案
- GB/T 43449-2023法庭科学毒物分析实验室质量控制规范
- 印刷服务投标方案(技术方案)
- 【地理】2023年高考真题江苏卷(解析版)
- 《上令封德彝举贤》中考文言文阅读试题2篇(含答案与翻译)
- GB/T 12459-2005钢制对焊无缝管件
- 偏光片气泡不良改善课件
评论
0/150
提交评论