版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 描述性统计,描述性统计(descriptive statistics)是一套用來整理和慨括数据的方法,它可以很快地显示出数据的基本倾向性,揭示你在什么地方值得使用统计推断的方法去更详细地考察数据。,1,学习交流PPT,总体与样本 总体(population):研究的全部对象。分为无限总体(infinite population)和有限总体(finite population)。 个体(individual):构成总体的每个成员。 样本(sample):总体的一部分。 样本的含量(sample size):样本内包含的个体数目。,2,学习交流PPT,抽样,抽样(sample):从总体中获
2、得样本的过程。 目的:通过对样本的研究推断其总体 随机抽样(random sample) 抽签、抓阄等。使用随机数字表。 放回式抽样(sampling with replacement) 非放回式抽样(sampling without replacement),3,学习交流PPT,2.1 数据预处理的原因,正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability),数据质量的含义,4,学习交流PPT,现实世界的数据,不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。 含噪声的 包含错误或存在偏离期望的离群值。
3、 不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出,5,学习交流PPT,数据错误的不可避免性,数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98,6,学习交流PPT,数据错误的危害性,高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力,7,学习交流PPT,数据预处理的形式,数据清理 补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 规范化和聚集 数据归约 简化数据、但产生同样或相似的结果,8,学习交流PP
4、T,数据预处理的形式,9,学习交流PPT,小结,现实世界的数据一般是脏的、不完整的和不一致的。 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。,10,学习交流PPT,2.2 描述性数据汇总,获得数据的总体印象对于成功的数据预处理是至关重要的。 描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。 动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。
5、,11,学习交流PPT,描述性统计数值指标包括: (1)集中位置的指标,用以描述观察值的平均水平。 如算术均数、几何均数、中位数、众数、百分位数等。 (2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。 如全距、标准差、方差、变异系数、四分位数间距等。,12,学习交流PPT,数据类型及频数(率)分布,连续型数据(continuous data):又称度量数据(measurement data) 离散型数据(discrete data):又称为计数数据(count data) 变量的方法(method of variable):对连续型数据进行分析的方法。 属性的方法(me
6、thod of attribute):对离散型数据进行分析的方法。,13,学习交流PPT,频数(率)表和频数(率)图,离散型数据 组值(class value):一般用组值编制频数(率)表(frequency table)。 柱形图(column diagram):一般用柱形图绘制频数(率)图。 连续型数据 组限(class limit):一般用组限编制频数(率)表。 直方图(histogram)、多边形图(polygon)和累积频数图(cumulative frequency graph):一般用直方图、多边形图和累积频数图绘制频数(率)图。 组界(class boundary): 中值(m
7、idvalue):每一组的两个组限的平均值。 频数分布(frequency distribution)(百分率分布 percentage distribution) 把频数或频率按顺序排列起来。,14,学习交流PPT,第一节 概述,描述性统计的表、图形式包括: (1) 频数分布表 (2) 条形图、直方图、茎叶图、盒形图,15,学习交流PPT,设原始观察值共n例,为X1 ,X2 ,, Xn 。,和(SUM):X X1X2Xn 。 平方和, SS(SUM OF SQUARE): X2 X12X22Xn2 平方和又记为USS (UNCORRECTED SUM OF SQUARE) 离均差平方和,记为
8、CSS (CORRECTED SUM OF SQUARE):,16,学习交流PPT,第二节 频数分布表,频数表的编制 编制步骤: 1. 求极差(即全距)R; 2. 确定组数n、组距i,并写出组段; 3. 列表划记。,17,学习交流PPT,某市1995年110名7岁男童的身高资料(cm),18,学习交流PPT,本例资料,最大值为134.5cm,最小值为110.2cm,故极差 R=134.5-110.2=24.3cm 组数不宜太多,也不宜太少。一般根据样本量的多少分成8-15组。 本例假设分成10组。 理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以
9、不等。 本例,组距=24.3/10=2.43,我们取为2cm。 组段:上限、下限 列表划记,19,学习交流PPT,某市1995年110名7岁男童身高的频数分布表,20,学习交流PPT,频数表的用途 根据频数表,进而可以绘制频数图。 揭示资料的分布特征和分布类型; 资料的分布范围、峰(单峰或多峰)和离散情况。 对于单峰分布资料, 对称分布,其中一种特殊的分布叫做正态分布; 非对称分布,又称偏态分布。 便于发现可疑值; 便于进一步计算指标和统计分析处理。,21,学习交流PPT,第三节 集中位置的度量,一、算术平均数(Arithmetic Mean) 简称为均数(Mean),总体均数用希腊字母表示,
10、样本均数用 表示。,=,=,适用于服从正态分布的资料。,22,学习交流PPT,一、算术平均数,=120,23,学习交流PPT,一、算术平均数,x为每个组段的组中值,f为相应组段的频数。 原理:将落在某一组段内的观察值都视为 组中值。 本例: =(4.04+4.25+5.83)/120 =595.8/120=4.965 如用原始观察值计算有 =(5.195+5.070+5.010)/120 =4.959,24,学习交流PPT,二、几何均数(Geometric Mean),几何均数用G表示, 为观察值的总乘积开n 次方根,有,25,学习交流PPT,常用对数计算,公式如下: LogG=logX/n
11、再查反对数得出G。 列成频数表时计算公式如下: LogG=flogX/f 适用条件:1.成倍数关系的资料。 2.明显正偏态分布的资料。,二、几何均数(Geometric Mean),26,学习交流PPT,二、几何均数(Geometric Mean),例3.3 6例钩端螺旋体病人的潜伏期分别为7, 10, 12, 14, 18, 20天, 求其平均潜伏期。 解: 或者lgG=(lg7+lg10+lg20)/6=1.1045 查反对数得G=12.7(天),27,学习交流PPT,二、几何均数(Geometric Mean),当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25, 1:50,
12、 1:50, 1:100, 1:100, 可先取其倒数,25, 50, 50, 100, 100,再求取几何均数为57.43, 则平均抗体滴度为1:57。,28,学习交流PPT,三中位数(Median),中位数用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。 计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。,29,学习交流PPT,三中位数(Median),如求数列7, 10, 12, 14, 18, 20的中位数。n=6,为偶数,取中间两个数的平均数,
13、则 M=(12+14)/2=13(天) 如求数列7, 10, 12, 14, 15,18, 20的中位数。n=7, 为奇数,取中间那个数为中位数。则 M=14(天),30,学习交流PPT,三中位数(Median),适用于表示任何分布资料的平均水平。 但常用于非正态分布资料。由于中位数不 受个别特大,特小数值的影响, 因此它比均 数稳健,常用于资料分布不明,或明显偏态, 或分布的一端无确定值的情况。,31,学习交流PPT,四众数(Mode),频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。,32,学习交流PPT,集中趋势的测度,33,学习交流PPT,五百分位数(Perc
14、entile),第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集中位置、变异度等。,34,学习交流PPT,百分位数,70%下侧,30%上侧,第70个百分位数值,四分之一分位数=25% 四分之二分位数=50%,35,学习交流PPT,五百分位数(Percentile),2.确定医学正常值范围。 P25称为第1四分位数;记为Q1。 P50称为第2四分位数;记为Q2,就是中位数M P
15、75称为第3四分位数;记为Q3。 计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。,36,学习交流PPT,五百分位数(Percentile),例:用直接法计算例3.2资料共120例的第5百分位数, 用频数表法计算第95百分位数, 解:将原始观察值由小到大排列,得 3.980, 4.065, 4.070, 4.070, 4.2150, 4.250, 4.260, 4.290, 5.850, 5.875 先确定第x百分位数在第几位。用公式:(n+1)x%,37,学习交流PPT,五百分位数(Percentile),本例(120+1)5%=6.05,第5百分位数在第6.05位
16、,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255 (1012/L)。,38,学习交流PPT,五百分位数(Percentile),39,学习交流PPT,五百分位数(Percentile),计算P95 1.列出频数分布表,计算累计频数。 2.计算nx%,12095%=114 3.对照累计频数栏与nx%确定PX应落在哪一个组 段中。114将在组限为5.5的组中,该组段下限为 L,组距为i,频数为f,上一组累积频数为f l 。 PX=L+ i(nx%-f l)/f , P95=5.5+0.2(114-108)/9=5.633 (1012/L)
17、,40,学习交流PPT,第三节 离散程度的指标,1.全距(Range) 是最大与最小观察值之差。 全距计算方便,但仅利用最大与最小二个数据来 代表全部数据的离散程度,信息利用差。全距受 特大与特小值影响大,不稳定。 2.四分位数间距(Interquartile Range),41,学习交流PPT,第三节 离散程度的指标,四分位数间距是第3四分位数与第1四分位 数之差,即P75-P25。 四分位数间距受特大值或特小值影响小, 较稳定。 中位数和四分位数间距相结合常用于表示 非正态分布资料的平均水平和离散程度。,42,学习交流PPT,第三节 离散程度的指标,3.标准差与方差(Standard De
18、viation and Variance) 总体的标准差,方差符号为,2,样本的标准差,方差符号为S,S2。,43,学习交流PPT,第三节 离散程度的指标,当为频数表资料时,公式如下:,方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数标准差的写法综合观察值的集中和离散特征。,44,学习交流PPT,第三节 离散程度的指标,4.变异系数(Coefficient of Variation) 简记为CV,它是标准差与均数之比,用百分数表达。,由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于
19、比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。,45,学习交流PPT,第三节 离散程度的指标,46,学习交流PPT,偏态系数(skewness):,评价正态分布对称性的指标。 对称:skewness=0; 正偏态:skewness0;个别数据特别大。 负偏态:skewness0;个别数据特别小。,47,学习交流PPT,峰态系数(kurtosis):,评价正态分布正态峰的指标。 正态峰:kurtosis=0; 尖峭峰:kurtosis0; 平阔峰:kurtosis0;,48,学习交流PPT,第四节 统计表与统计图,49,学习交流PPT,统计图表都是将已整理好的资料用简明的格式或图
20、形表达出来,因此是表达和分析统计资料的重要工具。 统计表可以代替冗长的文字叙述,便于计算、分析和对比。统计图则具有问题突出,简单明了,形象化等优点,能使人一目了然。 但统计表不形象,统计图对数字的反映不精确。因此在实际工作中,往往同时使用统计表和统计图。,50,学习交流PPT,统计表,统计表(statistical table)是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。 统计表的结构 从外形看 标题: 说明表的名称 横标目:说明各横行数字的涵义 纵标目:说明各纵栏数字的涵义 总标目,51,学习交流PPT,表1 某年某地消费者对有机食品的态度,52,学习交流PP
21、T,从内容看 主语:指研究的对象,通常列在表的左侧 谓语:说明主语的各项指标,通常列在表的右侧 主语和谓语连起来能读成一句完整而通顺的话。,53,学习交流PPT,统计表的种类 简单表:按一个研究特征/标志/标识分组 复合/组合表:按二个或二个以上研究特征/标志/标识分组,54,学习交流PPT,表 某大学某年的学生分布,55,学习交流PPT,绘制统计表的原则 重点突出,简单明了 主谓分明,层次清楚 绘制统计表的要求 标题 标目 线条 数字 备注,56,学习交流PPT,统计图,统计图(statistical graph)是用点的位置、线段的升降、直条的长短或者面积的大小等形式来表达统计资料之间的数
22、量关系。 统计图形象、直观,便于对比分析,但对数量的表达比较粗糙,不够精确。,57,学习交流PPT,绘图的基本要求 根据资料的性质和分析目的,正确选择合适的图形; 每图应有标题; 直角坐标系中绘图时,纵横轴都应有标目,并注明单位;纵:横一般以5:7为宜;纵轴尺度一般应从“0”开始。 比较不同对象时,用不同的线条或颜色表示,并要附图例说明。图例写在图的下面或图的右上角。,58,学习交流PPT,几种常用的统计图 直条图(bar graph) 直条图用等宽直条的长短来表示相互独立的各指标的数值大小。 适用于相互独立的、无连续关系的间断性资料的比较。 种类:单式直条图和复式直条图,59,学习交流PPT
23、,60,学习交流PPT,直条图的绘制要点 纵轴应从“0”开始,中间不能折断,否则不能正确反映比较指标之间的相对比例; 各直条的宽度应当相等。单式直条图直条之间要有间隔,间隔以直条的宽度或直条宽度的一半为宜。复式直条图同一指标之间不要有间隔; 复式直条图中不同系列之间要用不同的图案或颜色相区别,并用图例说明; 直条按某一系列中的长短顺序从大到小或者从小到大排列,以便比较。,61,学习交流PPT,圆图和百分条图 都适用于构成比资料。 圆图(pie graph):又称饼图 以圆面积为100,圆内各扇形面积为各部分所占的百分比,用来表示全体中各部分的构成。,62,学习交流PPT,绘制圆图的要点: 每3.60为1; 从相当于时钟12点或者9点的位置开始顺时针方向绘图; 各部分用不同的图案或者颜色表示,或在图上标出各部分的百分比和名称,或以图例说明; 同一组资料,按百分比大小顺序排列; 比较不同组资料,画两个或多个等圆,在每一个圆的下面注明组别,按固定顺序排列各组成部分,用相同的图例。,63,学习交流PPT,百分条图(percent bar graph) 以一个直条的面积
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- MECT治疗精神分裂症的护理
- 耳闻脑神经病康复训练方案
- 逻辑思维训练游戏
- 疫苗研发流程科普
- 心血管内科冠心病康复训练计划
- 眼科青光眼患者眼压监测指导
- 呼吸系统疾病管理指南
- 奋力奔跑 同心追梦的精神
- 急诊室急救技能培训计划
- 火车票管理系统
- 江苏省南京市六合区名校联盟2026届高三下学期第一次调研考试生物学试卷(含答案)
- 权威发布!2023年《全国法院金融审判会议纪要》
- 【《中国工商银行个人消费信贷风险与防范研究》14000字(论文)】
- 《希腊城邦和亚历山大帝国》历史教学课件
- 《城市地下道路工程设计标准》DBJ41-T218-2019
- 纳滤膜行业分析报告
- 2026湖北武汉理工大学心理健康教育专职教师招聘2人备考题库及1套参考答案详解
- 煤矿通风设施构筑课件
- 人教部编版五年级语文下册《清贫》教学课件
- 2026年消防工作计划及重点整治工作
- 2025年提前招生社会工作笔试题及答案
评论
0/150
提交评论