管理统计学:第三章:样本数据特征.ppt_第1页
管理统计学:第三章:样本数据特征.ppt_第2页
管理统计学:第三章:样本数据特征.ppt_第3页
管理统计学:第三章:样本数据特征.ppt_第4页
管理统计学:第三章:样本数据特征.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章 样本数据特征的初步 分析,第3章 样本数据特征的初步分析,第3.1节 样本数据结构的基本特征:频次与频率 第3.2节 观察刻度级样本数据结构的茎叶图与直方图方法 第3.3节 样本数据的位置特征:对数据中心的描述 第3.4节 样本数据的离散特征 第3.5节 样本数据特征的综合表达:箱形图,第3.1节 样本数据结构的基本特征:频次与频率,一个误区:聚焦于数据值(样本值)及其变化 另一个重要问题:相同值出现的频次、频率。这是数据集合的最基本的结构特征。 本节讨论这一结构特征:频次(Frequency)与频率(Percentage,或Relative Frequency) 两个紧密相关的不同的概念: 1)样本数据自身(不论什么测度级的数据) 2)同一个数据值(样本值)出现的次数(频次)。,3.1.1 频次与频率的基本概念 频次:在一个数据集合中,同一个数据值(样本值)出现的次数。 频率:某样本值的频率=该样本值出现的频次/n(该数据集合的数据总个数) 一个例子(下页),例3.1.1从某城市抽出来的30个商店中,查出某商品的价格数据: 9.98 10.02 10.00 10.04 10.01 9.99 10.05 10.04 10.06 10.01 10.03 9.99 9.97 9.93 10.01 10.03 10.03 10.02 10.05 9.99 9.95 9.96 9.98 10.00 9.97 10.01 10.00 9.99 9.98 10.00 (感觉如何?乱!),排序:最基本的整理。 9.93 9.95 9.96 9.97 9.97 9.98 9.98 9.98 9.99 9.99 9.99 9.99 10.00 10.00 10.00 10.00 10.01 10.01 10.01 10.01 10.02 10.02 10.03 10.03 10.03 10.04 10.04 10.05 10.05 10.06 简单之至? 认为容易的,可以试试手工对300个数据排序 简单:基于软件。,基于排序,能够简单统计频次: 价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次数: 1 0 1 1 2 3 4 4 频率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 价格(元)10.01 10.02 10.03 10.04 10.05 10.06 次数: 4 2 3 2 2 1 频率% 13.33 6.67 10.0 6.67 6.67 3.33 故意增加了“9.94元”这个刻度 排成一行,看清楚了频率结构特征。 今后,统计频次、频率,都由机器完成。,上例是刻度级的数据,下面看一个名义级数据的例子。 例3.1.3 抽样调查后,得到客户家具的基色调的数据: R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W 其中,R表示暗红色,Y表示淡黄褐色,G表示浅绿色,W表示白色,B表示黑色。 统计出各个颜色出现的频率如下:,当然,也可以统计出顺序级数据集合的频次与频率结构。,3.1.2 观察样本数据基本特征(频次与频率)的图形方法 1.表示频次与频率的饼图(Pie Chart) 每个不同的样本值所占据的圆心角的大小由下式计算: 在圆圈中,给每个不同的样本值一个与其频次(或频率)相当的圆心角: 某样本值对应的圆心角=该样本值的频率360,家具基色调(名义级数据),某单位职工文化程度的结构(顺序级数据),2.表示频次与频率的条形图 图见下页。 非常简单: 1)横坐标:样本数据的不同值。 顺序级以上,横坐标上的样本数据应从小到大排列。若是刻度级的,则在排序中,要注意长度的刻度,保持一致的比例。 2)纵坐标:相应样本值出现的频次或频率。,某商品在30个商店的价格例(注意间距),某科室职工文化程度例(有顺序,无间距),家具基色调例(横坐标的色彩无顺序关系),3.1.3 样本数据集合的基本特征的延伸:累积频率(Cumulative Percentage) 1.累积频率的概念(简单) 设X1X2Xm,是样本数据集合中的不重复的样本值(mn样本个数)。 若把样本值小于等于某个样本数据Xi的频率值,都累加起来,就得到“小于等于Xi”的累积频率。 2.表格法表示累积频率(以价格问题为例):,价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次数: 1 0 1 1 2 3 4 4 频率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 累积频率% 3.33 3.33 6.67 10.00 16.67 26.67 40.00 53.33 价格(元)10.01 10.02 10.03 10.04 10.05 10.06 次数: 4 2 3 2 2 1 频率% 13.33 6.67 10.0 6.67 6.67 3.33 累积频率% 66.67 73.33 83.33 90.00 96.67 100.00 讨论:顺序级数据能够计算累积频率吗? 名义级数据能够计算累积频率吗? 为什么?(答案见教材第72页),3.累积频率的条形图表示 把条形图的纵坐标改成累积频率即可。 商品价格例:,第3.2节 观察刻度级样本数据结构的茎叶图与直方图方法,3.2.1茎叶图(Stem-and-Leaf Plot)的概念与作法 1.概念 “茎-叶”的含义:按照某规则,把所有的样本值分成“茎节”和“叶”两个部分。表达为:“茎节叶”的形式。 “茎节”末位上的1所代表的实际值,就是“茎节”的宽度。,例如,可用茎叶法,把123表达为1.23(此时,茎节宽=100) 此时,123(样本值)=1.23(茎叶表达)100(茎节宽) 问:若茎节宽度为10,如何表达123?,2.例题与茎叶图的作法 例3.2.1 某班级男生的身高(厘米) 171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183 问:若以100cm为茎节宽?茎节是多少?对吗? 结论:样本数据集合中的“茎节”必须是有变化的 茎节宽应为10cm 把所有的数据都表达为“茎节叶”形式后,把相同茎节的数据合并为“茎节叶1叶2”形式(叶,要从小到大排列),再把不同的茎节从小到大纵向排列,就得到茎叶图:,茎 叶 16 0,3,5,8 17 0,1,2,5,5,6,6,7,7,8,8 18 0,1,2,3,5,6 19 0 进一步策略(并注明频次)为: 频次 茎 叶 4 16 0,3,5,8 11 17 0,1,2,5,5,6,6,7,7,8,8 6 18 0,1,2,3,5,6 1 19 0 这就是身高数据集合的茎叶图。 问:如果有的茎节右边的叶子太多了,怎么办?,把“茎节”砍短一点。 例如,把每个茎节分成两段(L、H),有 频次 茎 节 2 16L 03 2 16H 58 3 17L 012 8 17H 55667788 4 18L 0123 2 18H 56 1 19L 0 “茎节长度”的概念:茎节长度=允许覆盖最大值-允许覆盖最小值+1 上例中的茎节长度为5(cm):04,59 上例中的L、H可以省略。 事实上,上例的茎节是不必砍短的, 叶并不多 注意:茎节砍短时,要注意茎节等长的原则,3.2.2 直方图(Histogram)的概念与作法,1.条形图的弱点,当刻度级的数据的精度相对高,使得不重复的数据量非常大时,反而让人看不清数据集合的结构。例如,身高问题 看不清分布的规律,如果我们对数据适当分组,再用矩形的高度来表示各组的数据的个数或频率,就有(可看到清楚的分布规律): 这就是直方图。各区间长度是5cm,起点是157.5cm,终点时192.5cm。,2.直方图:适用于大量不重复样本值的数据集合。 在绘制直方图时,如何对数据分组,如何确定区间长度、区间个数?如何确定区间起点?参见教材。 今后软件可自动完成分组和绘图。 需要掌握的是:直方图与条形图的区别,各适用于什么数据特点?,作直方图时,在区间长度确定后,如何确定区间个数? (数据集合中最大值-数据集合中的最小值)/区间长度,其值4舍5入后加1为组的个数。 作直方图时,如何确定最左端区间的中心位置? 取出样本数据集合中的最小值;确定备选的起始区间的中心位置;在备选区间的中心位置中,哪个与最小值接近,就确定为数据分组的起始区间。,第3节 样本数据的位置特征 对数据中心的描述,样本数据的测度级别的不同,需要不同的表示“数据集合中心”的概念。 本节将介绍“样本中位数”、“样本众数”和“样本均值”三个重要的描述数据集合中心位置的基本概念。,3.3.1 样本众数(Sample mode) 样本众数定义1:样本数据集合中出现频次最高的那个样本值,称为样本众数。在一般情况下,“样本众数”被简称为“众数”。 单一众数:P.67。复众数:P.67。无众数:P.68 从条形图,或者频率表、频次表来判断。,众数定义2:对刻度级的数据,在等区间分组的直方图中,最高的矩形(即峰Peak)所表示的数据区间,称为该数据集合的众数区间,简称众数。如: 众数区间,也有单一众数和复众数之分。 问:众数适用于什么测度?广义与侠义,3.3.2 样本中位数(Sample median) 样本中位数: 设,样本数据集合中的所有数据的排序结果为X1X2Xn,n为样本容量。样本中位数,就是上述序列中,处于“正中间位置”上的数据。 两个要素:位与数。 正中间位置“号码”=(n+1)0.5,例1:17.0 17.1 17.2 17.5 17.5 17.6 17.6 Me=17.5 例2:16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6 Me=17.35 问:中位数适用于什么测度? 分奇偶个数。,3.3.3 样本均值(Sample Mean) 样本均值(Sample Mean) 样本均值仅适用于刻度级的数据。 样本数据集合的样本均值定义为: 式中,Xi为样本观察值。,第3.4节 样本数据的离散特征,描述数据集合的离散特征的两种方法: 一、点状描述,如明确样本数据集合中的最小值和最大值等; 二、区间描述(基于差值的描述),如样本数据集合中的最大值与最小值之差。,3.4.1 对样本数据离散特征的点状描述:极值、四分点与百分位点,1.极大值(Maximum)与极小值(Minimum) 极大值与极小值,从一定视角反映了样本数据集合中样本的离散情况。 问:极大值、极小值适用于什么测度? 另一个位与数的问题:,2.下四分点(Lower quartile)与上四分点(Upper quartile) 1)上、下四分点的概念 下四分点使由小到大排序后的数据集合的左边部分,包含25%的样本总个数,右边部分包含75%的样本总个数。 上四分点使由小到大排序后的数据集合的左边部分,包含75%的样本总个数,右边部分包含25%的样本总个数。 上、下四分点在一定意义上反映了样本数据的离散情况。,2)上、下四分点(及中位数)的位置 Q1:下四分点,Q3:上四分点,Q2=Me:中位数,n:该数据集合的数据总个数。 下四分点Q1的位置=(n+1)0.25 正中间Q2的位置=(n+1)0.5 上四分点Q3的位置=(n+1)0.75 3)上、下四分点(及中位数)的值 当Q1、Q2、Q3的位置为整数时,相应整数位置上的样本值,就是当Q1、Q2、Q3的值。,当其不为整数时: Q1=Q2位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)Q1位置的小数部分 Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)Q3位置的小数部分,本页公式,可以不讲 3)上、下四分点(及中位数)的值 公式表达之二: Q1=Q1位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)(n+1)0.25-(n+1)0.25 Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)(n+1)0.75-(n+1)0.75 式中,“是取整函数,例如,5.75=5,4)例题 例3.4.1数据:99.8,99.9,100.1,100.2,求Q1、Q2、Q3的值。 下四分点Q1的位置=(4+1)0.25=1.25,该位置左边有1个数据(占总数的25%)。 中位数Q2的位置=(4+1)0.5=2.5,该位置左边有2个数据(占总数的50%)。 上四分点Q3的位置=(4+1)0.75=3.75,该位置左边有3个数据(占总数的75%)。,以下是Q1、Q2、Q3的位置的图形表示:,计算Q1、Q2、Q3的值: Q1=99.8+(99.9-99.8)0.25=99.825 Q2=Me=99.9+(100.1-99.9)0.5=100.0 Q3=100.1+(100.2-100.1)0.75 =100.175 当Q1、Q3的位置不是整数时(也就是n+1不能被4整除时),Q1、Q3的值是通过四则运算得到的,所以用Q1、Q3表示离散状况,仅适用于刻度级的数据。 当Q1、Q3的位置是整数时(即n+1能被4整除时),Q1、Q3的值就是相应位置上的值,所以用Q1、Q3表示离散状况,适用于顺序级以上的数据。,有关上四分点、下四分点和中位数的手工计算,不是很重要的。 很重要的是上四分点、下四分点和中位数的概念。 计算将由SPSS软件完成。 百分位点的概念,很容易从四分位点推广得到。,3.4.2 对样本数据离散特征的区间描述:极差、四分距与离差 “区间描述”,必然要做加减运算,因此,区间描述仅适用于刻度级的数据。 1.极差(Range) 极差=极大值-极小值 它反映了样本数据在数轴上的分布范围。 2.四分位距(Interquartile range) 四分位距(Iqr)=Q3-Q1 它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。,3.样本离差(Sample deviations)与离差平方和(Sun of squared deviations) 样本离差被定义为每个样本与样本均值之差:xi- ,i=1,2,n 样本离差又称样本中心化数据。 例3.4.1的样本数据为:99.8,99.9,100.1,100.2,易知均值为100.0,于是,样本离差(中心化数据)依次为:-0.2,-0.1,0.1,0.2。,反映数据集合对其均值的总偏差:所有的样本离差之和,存在正负相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论