




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022/10/101 第四章 描述统计量简介2022/10/102第四章 样本统计量描述一、样本数据位置特征的统计量二、样本分布特征的统计量三、样本数据离散程度特征的统计量调查杭州市居民收入情况,得到100个样本数据,根据这些数据,你最想得到哪些信息?统计量:用来描述样本特征的概括性数字度量调查顾客对产品的满意度情况,获得100个样本数据,能分析出哪些信息?调查大学生群体中对手机品牌的偏好程度,你如何描述调查结果?2022/10/103一、样本数据的位置特征对数据中心的描述 样本众数(Sample Mode)分类数据 样本中位数(sample median)定序数据 样本均值(Sample
2、mean) 定比数据2022/10/104(一) 分类数据集中趋势度量众数样本众数定义1:样本数据集合中出现频次最高的那个样本值为众数。众数单一众数复众数2022/10/105众数的计算 可以简单地从频次统计表中查出(频次最大的样本值就是该样本数据集合的众数)。也可以从条形图上看出(最高竖条所代表的样本值就是该样本数据集合的众数)。如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:没必要,没必要,没必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓2022/10/107样本众数定义2 对于刻度级的样本数据集合,在对数据等区间分组的直方图中,最高的矩形所表示的数据区间,称为该数
3、据集合的众数区间,简称众数。 众数区间也有单一众数与复众数之分。如:10个样本收入情况如下:2000, 2200, 2300,2400,3000,3400,3400, 4000, 4500,4500。 2022/10/1082022/10/1010分类数据或顺序数据描述频次与频率的图形方法饼图(Pie Chart)#条形图 #2022/10/10112022/10/1012图.调查中不同受教育程度出现的频率2022/10/1014 累积频率(Cumulative Percentage)的计算 以例.为分析对象,按照上述原则,可以计算出小于等于各个Xi的累积频率,见表. 表3.1.8 某品牌牙膏
4、价格Xi的累积频率 价格9.939.959.969.979.989.991010.0110.0210.0310.0410.0510.06频次1112344423221频率3.333.333.336.671013.3313.3313.336.67106.676.673.33累积频率3.336.671016.6726.674053.3366.6773.3383.339096.67100注意:只有顺序级以上的样本数据才存在累积频率的问题名义级样本数据不存在累计频率的问题2022/10/10152022/10/1017频数分析过程的spss操作(1)建立或打开一个数据文件,执行Analyze Desc
5、riptive Statistics Frequencies。打开Frequencies对话框 频数 定类分析2022/10/1018频数分析过程(2)确定输出选择项 单击Statistics按钮,打开统计量选择对话框选择Percentile Values 栏中的选项,输出所选变量的百分值Dispersion(离差)栏,用于指定输出反映变量离散程度的统计量Central Tendency (集中趋势)栏,用于指定输出反映变量集中趋势的统计量Distribution (分布特征)栏,用于指定输出描述分布形状和特征的统计量2022/10/1019频数分析过程 (3)单击chart按钮。打开统计图对
6、话框,对图形类型进行设置。(4)单击Format 按钮,打开格式对话框Order by 排序组栏,用于指定频数表中变量的排序2022/10/1020频数实习1:打开数据文件:“规划调查资料.sav”统计调查对象的基本信息,完成下表:基本信息频数频率性别男性女性地区农村省会城市中小城市县镇所在年级大一大二大三大四2022/10/1021频率分析实习2一家电脑公司为了对比不同品牌的电脑在一季度和二季度的销售情况,搜集到下列数据,试绘制图表比较不同品牌电脑的销售情况;不同季度电脑的销售情况。电脑品牌一季度二季度联想256468IBM285397康柏247328戴尔5636882022/10/1022
7、频数实习3:某行业管理局所属40个企业2002年的产品销售收入数据见数据文件:40企业产品销售收入.sav1. 如果按照规定:销售收入在125万元以上为先进企业,115125万元为良好企业,10511万元为一般企业,105万元以下为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组并统计频率与累积频率。并用饼状图表示。2022/10/1024频数分析主对话框中点击statistics功能按钮2022/10/1025Ststistic对话框2022/10/1027均值计算的spss操作Analyze主菜单下Descriptive statistics Descriptive。打开Des
8、criptive对话框 定比2022/10/1028点击options按钮,定义统计量选项2022/10/1029Save standardized value as variables选项:将标准化值作为新变量保存。标准化值给出了一组数据中各数值的相对位置,比如,如果某个数值的标准分数为1.5,表示该数值高于平均数的1.5倍的标准差。标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而是将该组数据变为平均数为0,标准差为1。2022/10/1030 2022/10/10312022/10/1032二、描述样本分布特征的统计量 1.峰度
9、:描述某变量所有取值分布形态陡缓程度的统计量。峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。2022/10/1033二、描述样本分布特征的统计量 2.偏度:描述某变量所有取值分布形态的对称性的统计量简称SK。偏度为0表示其数据分布形态与正态分布偏度相同,左右对称;偏度大于0表示正偏差数值较大,为正偏和称右偏,有一条长尾拖在右边;偏度小于0则相反。SK的绝对值大于1时,被称为高度偏态分布,当SK的绝对值大于0.5小于1时被称为中等偏态分布。2022/10/10342022/10/10352022/1
10、0/1036三 样本数据的离散特征 本部分应掌握的主要内容(一)对样本数据离散特征的点状描述:极值、四分点与百分位点(二) 对样本数据离散特征的区间描述:极差、四分位距与离差(三) 离散状况的统计描述:样本方差2022/10/1037(一) 样本数据的离散特征 离散特征点状描述区间描述极值四分点百分位点极差极差四分位距离差平方和样本离差2022/10/10381.对样本数据的离散特征点状描述 1)极大值(Maximum)与极小值(Minmum):这两个样本值从一定视角反映了样本数据集合中样本值的离散状况。 2)下四分点(Lower Quartile)与上四分点(Upper Quartile)3
11、)上下百分位点(Percentile)2022/10/1039下四分点与上四分点 下四分位点:把排序后的样本数据集合分成左右两部分,使左面部分包含25%的样本总个数,右边部分包含75%的样本总个数。下四分位点Q1的位置=(n+1)*0.25Q12022/10/1040下四分点与上四分点 上四分位点:把排序后的样本数据集合分成左右两部分,使左面部分包含75%的样本总个数,右边部分包含25%的样本总个数。上四分位点Q3的位置=(n+1)*0.75Q32022/10/1041下四分点Q1的值与上四分点Q3的值 当下四分位点与上四分位点的位置为整数时,相应整数位置上的样本值就是Q1,Q3的值。当下四分
12、位点的位置与上四分位点的位置不为整数时,Q1,Q3的计算公式:Q1=Q1位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)*0.25Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)*0.752022/10/1042(二) 对样本数据离散特征的区间描述:极差、四分位距与离差 1.极差(range):极大值与极小值之差。极差受到极端值的影响,只利用了一组数据两端的信息,不能反映出中间数据的分散情况,所以有一定的局限性。2022/10/1043顺序数据离散程度的度量3.四分位距(Interquartile Range):样本数据排序后的上四分位点与下四分位点之
13、差。四分位距反映了中间50数据的离散程度:其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位距不受极值的影响。2022/10/1044Q3Q12022/10/1045数值型数据离散程度的度量4.样本离差与离差平方和(Sample Deviations Or Sum of Squared Deviations)2022/10/1046(三) 离散状况的统计值描述:样本方差 样本方差(Sample Variance):离差平方和与n-1的比值。样本方差的含义:通过消除样本个数对“偏离情况”的影响,以便较为客观地反映样本数据对样本均值的平均偏离情况。样本方差s2的计算公式:20
14、22/10/1047 2022/10/1048(四)分类数据离散程度的度量异众比率:非众数组的频数占总频数的比率。用来衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越大。2022/10/1049异众比率的计算如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:没有必要,没有必要,没有必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓频数:没有必要(3),有必要(6),无所谓(1)众数6,非众数4,异众比率4/10=40%表示“有必要”选项这一众数对垃圾分类行
15、为的认识状况的代表性中有40无法代表。仅有60的代表性。2022/10/1050实习1:样本数据特征的初步分析打开数据文件:“描述统计量.sav”描述学生的各门成绩与总成绩等指标的如下初步统计特征:1.各门成绩的集中趋势如何?2.总成绩的离散程度如何?3.总成绩的分布规律如何?2022/10/1051实习:连续数据样本离散统计量样本1:50,50.02 ,49.99,50.01,49.98样本2:1,99,50,样本3:49,50,51,56,44,45,55,47,53,46,44样本4:49,50,511.计算4个样本的均值、极值,方差,并加以比较,四个统计指标值是如何表示样本的离散情况的?2.计算样本2与样本4的离差,比较两个变量的离散情况。2022/10/1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 利用信息技术助力提高初中生科学素养的研究
- 抒情表达自我作文7篇范文
- ××超市捐赠管理制度
- 诗词鉴赏中的意象解读:大一语文教案
- 雨中的温情写事作文(11篇)
- 读小王子后的感悟心得作文7篇范文
- 2025年无损检测员(中级)无损检测在建筑行业的应用试卷
- 童话故事白雪公主的感悟(10篇)
- 2025年制动气室项目立项申请报告
- 艺术设计领域特别声明及证明(5篇)
- 可视对讲及门禁的课程设计
- 2024届云南省曲靖市富源六中生物高二下期末学业质量监测模拟试题含解析
- 包茎的护理查房课件
- 吉林省长春市南关区2022-2023学年五年级下学期期末考试数学试题
- 汉语阅读教程第一册第四课
- 法律与社会学习通章节答案期末考试题库2023年
- 食品营养学第三版题库及答案
- 学生实习三方协议
- 辊压机的维护与检修
- 安全生产和消防工作考核细则
- 一年级下册 《认识人民币探究性作业设计》
评论
0/150
提交评论