版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章统计数据的描述(统计数据的描述和统计数据特征的描述),第2章统计数据的描述,2.1集中趋势的度量2.2离差度的度量2.3偏斜度和峰值状态的度量,学习目标,1。集中趋势2各测量值的计算方法。集中趋势3各测度值的特征及应用。离散度4各测量值的计算方法。离差和离散度峰值状态的测量方法及应用用电子表格进行统计计算、描述和分析。数据分布和集中趋势的特征反映了一组数据中每个数据的共同趋势,即每个数据聚集的位置。通过对这一趋势的研究,我们可以了解事物的本质特征,掌握事物发展变化的规律。这种趋势在统计学上被称为集中趋势。与集中趋势相反,偏离趋势反映了一组数据中观测值之间的差异或离散程度。集中度和离散度是
2、数据分布的两个重要特征。此外,还需要知道数据分布的形状是否对称,分布的偏斜度和平坦度。数据分布特征的测量,2.1浓度趋势的测量,1。分类数据:模式2。顺序数据:中位数和分位数3。数字数据:平均值4。模式、中值和平均值的比较、数据分布特征的测量(本节)、中心趋势、一组数据接近其中心值的趋势和程度测量中心趋势是找出数据水平的代表值或中心值。不同类型的数据使用不同的集中式趋势度量。低级数据的测量值适合高级测量数据,但是高级数据的测量值不适合低级测量数据。分类数据:模式,模式,在一组数据中出现频率最高的变量值不受极值的影响。一组数据可能没有模式或有几种模式,主要用于分类数据,但也可用于顺序数据和数值数
3、据。模式(非唯一性),非模式原始数据: 10 5 9 12 6 8,一个模式原始数据: 6 5 9 8 5,有多个模式的原始数据: 25 28 28 36 42 42。定性变量的模式是确定的。1定性变量模式可以根据分类变量和序列变量的不同值获得频率分布。在确定模式时,只需找出最频繁出现的对应变量值。例:通过观察频率分布表,我们可以直观地看到高中的频率是最高的。因此,对于3000名受调查者的教育水平,模式是高中教育。分类数据模式(示例分析),解决方案:这里的变量是“饮料品牌”,它是一个分类变量,不同类型的饮料是变量值。在被调查的50人中,购买可口可乐的人数最多的是15人,占被调查总人数的30%,
4、所以模式为“可口可乐”,即莫可口可乐,而模式为序列数据(例分析,变量为“回答类别”)。A市对住房不满意的家庭数量最多,为108户,因此模式为“不满意”,即莫不满意,确定了数量变量模式,确定了数量变量模式。对于离散变量的值,在计算模式时,只需要找出最频繁的组,这个组的变量值就是模式。例根据表中35名调查者的有效问卷频率分布数据,确定调查模式。解决方案:根据表格,145份调查问卷对应4份,高于所有其他调查问卷。因此,35名调查者的有效问卷模式为145份。对于连续性变量值,频率分布是根据组距离分组得到的。对于等距分组,对应频率最大的组是模式所在的组;对于非等距分组,频率密度最高的组是复数组。模式,让
5、组的频率为,模式之前的组的频率为,模式之后的组的频率为。假设数据均匀分布在多个组中,模式与其相邻两组的频率分布有如下关系:下限公式:上限公式:模式,18,模式,例将调查中30位被调查者的月收入水平进行分组,得到累计频率分布表。模式、解决方案:首先,确定模式集为3000-40000元组,因此,30位受访者月收入水平模式为3428.6元。3.模式的特征模式根据组和相邻组的频率分布信息确定数据中心的位置。模式是位置代表值,不受数据中极值的影响。并非所有的观测值都被使用,原始数据信息的代表性不如平均值。只有当有足够的数据和明显的集中趋势时,模式的实际代表意义才能得到最好的反映。否则,该模式不应用于表示
6、集中趋势。这种模式在某些场合起着不可替代的作用。例如,衣服、鞋子和帽子的尺寸对制造商来说非常重要,但是由平均值计算的数据可能不存在。制造商按照服装、鞋帽的模式生产是有意义的;该模式不仅能代表数值变量的集中趋势,还能代表非数值变量的集中趋势。例如,房地产开发商关心哪种“模式”的房子卖得最多;饮料制造商关心哪种“颜色”的饮料卖得最多;灯制造商关心哪种“形状”灯卖得最多。模式的另一个功能是,当样本数据中有两种模式时,它提醒我们怀疑这种数据是否来自两个不同的群体。如果学生的身高数据被整理出来,如果身高数据中有两种模式,我们应该考虑是否要混合男女学生的身高数据;将两家工厂生产的灯泡混合,并检查其使用寿命
7、。如果两个工厂的生产质量相差很大,就会发现灯泡的使用寿命有两种模式。顺序数据:中位数和分位数,中位数,一组数据后中间位置的变量值按大小排序,不受极值的影响。它们主要用于顺序数据,但也可以用于数值数据,但不能用于分类数据。变量值和中值之间偏差的绝对值之和最小,即中值,中值为1,当数据规模较小时,确定的变量按大小排列。当数据个数n为奇数时,该位置的变量值为这组数据的中值;当数据数n为偶数时,两个变量在和位置的简单算术平均值为中值。序列数据的中位数(示例分析),解决方案:中位数位置为300/2150。从累积频率来看,中位数属于“平均值”组。因此,Me=一般数字数据的中位数(9个数据的一个例子),示例
8、:9个家庭人均月收入数据的原始数据为: 1500 750 780 1080 850 960 2000 1250 1630排名: 750 780 850 960 1080 1250 1500 1630 2000设置3360 1 2 3 4 5 6 7 8 9。中位数1080,数字数据的中位数(10个数据示例),示例:当变量的数据规模较大时,10个家庭的人均月收入数据排名为: 660 750 780 850 960 1080 1250 1500 1630 2000设置为: 1 2 3 4 5 6 7 8 9 10,中位数。向上或向下累加频率分布:当它是偶数时,第一个变量的值所在的组就是中位数所在的
9、组。当它是奇数时,第一个变量的值所在的组就是中位数所在的组。在单变量分组的情况下,标志值集可以用作中间值。在分组距离的情况下,计算公式的下限公式近似按以下公式计算:上限公式:,中位数,相应的收入水平是3000-4000元,所以这个群体是中值群体,有、(元)、(元),所以30个被调查者的月收入水平中位数是3384.6元。中值,中值,中值中值位于按顺序排列的数据的中间,它是位置平均值,不易受极值的影响。当时间分布不对称或数据中存在极值时,中位数是集中趋势的更好度量,也是集中趋势度量的更稳定指标。因此,许多政府公布的个人收入和人口年龄的平均值经常使用中间值。中值的不足在于它的确定只与中间位置的一两个
10、值有关,忽略了其他值的大小,缺乏灵敏度,不适合代数运算。排序后25%和75%的四分位值不受极值的影响,主要用于顺序数据,但也可用于数值数据,但不能用于分类数据。将数据按大小排序后,将其分为四分位数,并获得三个分界点。每个分界点的值称为四分位数,由齐表示,i=1,2,3,和,四分位数(位置确定),原始数据:顺序数据:顺序数据的四分位数(示例分析),解:位置=(300)/4=75 QU位置=(3300)/4=225从累计频率来看,属于“不满意”组;QU属于“一般”类别。因此,QL=不满意QU=一般,四分位数的数字数据(9个数据示例),示例:9个家庭的人均月收入原始数据为: 1500 750 780
11、 1080 850 960 2000 1250 1630排名3360 750 780 850 960 1080 1250 1500 1630 2000设置3360 1 2 3 4 5 6 7 8 9 示例:10个家庭的人均月收入数据排名为: 660 750 780 850 960 1080 1250 1500 1630 2000 bit : 1 2 3 4 5 6 7 8 9 10,数字数据:均值、均值,是数据集中最常用的趋势测量值。 一组数据的平衡点反映了数据的必然性。它很容易受到极端值的影响。它不能用于对数据和顺序数据进行分类。从统计学的角度来看,算术平均值是同质群体中每个数据的偶然和随机
12、特征相互抵消后的稳定值,反映了数据集的特征。简单均值/加权均值,假设一组数据为:x1,x2,xn,各组的中值为:M1,M2,Mk,对应的频率为:f1,f2,fk,简单均值,加权均值,这里已经改变了!加权平均值(示例分析),加权平均值(权重对平均值的影响),每组有10名学生,他们的考试成绩和分布数据如下:组A:考试成绩(x ): 0 20 100数分布(f): 118组B:考试成绩(x): 0 0 20 100数分布(f): 8平均值(数学性质),1。变量值和平均值之间的偏差之和等于零,2。变量值和平均值之间偏差的平方和最小,已知值1、1、2和3的平均值、模式和中值分别为1.75、1和1.5。如
13、果用平均值来预测,误差为-0.75,-0.75,0.25,1.25,总误差为0;如果模式用于预测,误差为0,0,1,2,总误差为3;如果使用中位数进行预测,误差为-0.5,-0.5,0.5,1.5,总误差为1。调和平均值(示例分析),示例表中显示了蔬菜批发市场中三种蔬菜的日交易数据,并计算了当天三种蔬菜的平均批发价。几何平均数)n,n个变量值的乘积的第n个根适用于比率数据的平均值,其主要用于计算平均增长率。公式是,5。可视为平均值、几何平均值的变形(例分析)。例1999年某水泥生产企业的水泥产量为100万吨,2000年比1999年增长9%,2001年比2000年增长16%,2002年比2001
14、年增长20%。寻求每年的平均年增长率。年平均增长率为114.91%-1=14.91%,且呈几何平均(示例分析)。示例一名投资者购买并持有一只股票,2000年、2001年、2002年和2003年的回报率分别为4.5%、2.1%、25.5%和1.9%。计算该投资者这四年的平均回报率、算术平均、几何平均和平均在统计中的位置。平均值在统计学中起着重要的作用,它是统计分析和推断的基础。从统计学的角度来看,平均值是一组数据的重心,这是数据误差相互抵消后的必然结果。模式、中位数和平均数的比较,以及平均数、中位数和模式之间的比较。从分布的角度来看,平均值是一组数据的所有值的平均值。中位数是一组数据中间的一个值
15、。该模式始终是一组数据分布的最高峰。对于大多数单峰分布的数据,均值、中值和模式之间存在以下关系:(1)当变量值的频率分布对称时,均值完全等于模式和中值,即正态分布,均值、中值和模式之间的比较;(2)当变量值的频率分布为右偏时,意味着数据有一个最大值,这必然会将平均值拉至最大值。模态和中值不受极值的影响,所以它们之间的关系为,右偏分布,均值、中值和模态之间的比较。(3)当变量值的频率分布偏左时,表明数据中存在一个最小值,这将不可避免地将平均值拉向最小值,而模式和中值不受极值的影响,因此它们之间的关系是。左偏分布,模式、中值和均值之间的关系,模式、中值和均值的特性和应用,模式不受极值的影响,当数据
16、分布偏斜时,应用的中值不受极值的影响,当具有良好数学性质的数据对称或近似对称分布时,应用的均值易受极值的影响,并且应用了数据类型和集中趋势度量。2.2离差度的度量,分类数据:非均质比序列数据:四分位数离差数值数据:方差和标准差的相对位置度量:标准分的相对离差度:离差系数,数据特征和度量(在本节中的位置),离差趋势,数据分布的另一个重要特征反映了每个变量值远离其中心值(离差度)的程度。从另一个方面来看,它表明不同类型的数据具有不同的离散度测量值。分类数据:差异率,变异率,是指一组数据中非模态频率(组)与总频率之比。它既适用于定性数据,也适用于定量数据,但主要用于衡量分类数据的离散趋势。由Vr表示。计算公式如下:多样性比率的函数是衡量模式对一组数据的代表性的指标。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.5 解决连续两问的实际问题(分层作业) 人教版数学(2024)二年级下册(含答案)
- 2026年南昌理工学院单招综合素质考试题库附参考答案详解(综合题)
- 2026年南昌交通学院单招职业适应性测试题库及1套完整答案详解
- 2026年冀中职业学院单招职业适应性考试题库带答案详解(培优b卷)
- 2026年厦门华厦学院单招职业倾向性测试题库含答案详解
- 2026年内蒙古建筑职业技术学院单招职业倾向性考试题库参考答案详解
- 2026年保险职业学院单招综合素质考试题库附答案详解(培优a卷)
- 2026年内蒙古能源职业学院单招职业技能测试题库及答案详解(真题汇编)
- 2026年兰州石化职业技术大学单招职业倾向性测试题库附答案详解(综合题)
- 2026年南京信息职业技术学院单招职业技能考试题库含答案详解(研优卷)
- 2025年中考道德与法治真题试题和答案详解
- 多模态虚假信息分析课题申报书
- 生产急救管理制度
- 2026年乌鲁木齐市高中美术创作能力测试试卷及答案
- R语言程序设计 教案
- 2026北京海淀初二上学期期末英语试卷和答案
- 预拌干混砂浆培训课件
- 2025年智慧物流综合服务平台项目可行性研究报告
- 河道沙石破碎筛分施工方案
- 2026年高考地理压轴训练卷2
- 企业债券发行流程及法律风险管理方案
评论
0/150
提交评论