版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Descriptive Statistics : Numerical Methods 描述统计 :数值方法,Chapter 3,主要内容,Measures of Location 位置的度量(数据集中趋势的度量) Measures of Variability 变异程度的度量(数据离散趋势的度量) Measures of Relative Location and Detecting Outliers 相对位置的度量和异常值的检测,Exploratory Data Analysis 探索性数据分析 Measures of Correlation Between Two Variables 两变
2、量间关系的度量 The Weighted Mean Grouped Data 加权平均数与分组数据,主要内容,Measures of Location位置的度量(数据集中趋势的度量),Mean平均数 Median中位数 Mode众数 Percentiles 百分位数 Quartiles 四分位数,Mean 平均数,平均数衡量数据集的中心程度 如果数据来自于一个样本,平均数定义为 如果数据来自于一个总体,平均数定义为,称为样本平均数,称为总体平均数,平均数易受极端值的影响,Median 中位数,将所有数据按上升排序,位于中央的数据为中位数 如果数据个数为奇数,中位数为位于中央的数据 如果个数为偶
3、数,中位数为中央两位数的平均,众数是在数据集中发生频率最高的数据值,Mode 众数,Percentiles 百分位数,第P百分位数是指,至少有P%的数据项小于或等于这个值。 递增排序 计算指数i= (p/100)n 若i 不是整数,将其向上取整 若i是整数,则p分位数为第i项与第i+1项的数据的平均值,四分位数是特定的百分位数 第一个四分位数为25%百分位数(下四分位数) 第二个四分位数为50%百分位数(中位数) 第三个四分位数为75%百分位数(上四分位数),Quartiles 四分位数,Measures of Variability变异程度的度量(数据离散趋势的度量),Range 全距 In
4、ter-quartile Range 四分位点内距 Variance 方差 Standard Deviation 标准差 Coefficient of Variation变异系数,Range 全距(极差),全距是数据中最大与最小间的差距 是衡量数据变异程度最简单的描述 全距易受极端值的影响,Interquartile Range四分位点内距(IQR),四分位点内距是第三与第一四分位数间的差距 是中间50%的数据的全距 它能够克服极端值的影响,Variance 方差,方差是各数据值与平均值之间的差异 如果数据集为样本,样本方差为 如果数据集为总体,总体方差为,Standard Deviation
5、 标准差,如果数据集是样本,样本标准差为 如果数据集为总体,总体标准差为,Coefficient of Variation变异系数,变异系数是标准差相对于平均数的大小的度量 如果数据集为样本,公式为 V = 如果数据集为总体,公式为 V =,已知甲乙两组工人的平均工资和标准差如下: 甲组: =100元 =10元 乙组: =80元 =9.6元 如果直接比较两组工人工资的标准差,就会得出甲组工人工资水平差异大于乙组的错误的结论。正确的比较是先计算两组工人工资的变异系数 0.120.10,说明乙组工人工资水平间差异较大。,Measures of Relative Location and Detec
6、ting Outliers 相对位置的度量和异常值的检测,z Scores z 分数 Chebyshevs Theorem切贝晓夫定理 The Empirical Rule经验法则 Detecting Outliers异常值的检测,z Scores z分数,z分数通常称为标准化数值 被解释为数据值xi 偏离平均数标准差的个数 z 分数大于0的数据是那些比平均数大的数据值 z分数小于0的数据是那些比平均数小的数据值 z分数等于0的数据是那些与平均数相等的数据值,ChebyshevS Theorem 切贝谢夫定理,至少 (1 - 1/z 2) 个数据与平均数的距离在 z 个标准差范围内,其中:z
7、是大于1的任何数值 例如 至少75%的数据与平均数的距离在 z =2个标准差范围内 至少89%的数据与平均数的距离在 z= 3个标准差范围内 至少89%的数据与平均数的距离在 z =4个标准差范围内,Empirical Rule 经验法则,具有钟形分布的数据: 大约68%的数据落在平均数的1个标准差范围内 大约95%的数据落在平均数的2个标准差范围内 几乎所有的数据落在平均数的3个标准差范围内,Detecting Outliers 异常值的检验,异常值:一个数据集中的一个或多个非常大或非常小的数据值 z 分数小于 -3 或大于 +3 的数据值可能是异常值 异常值的出现可能是由于记录的错误 异常
8、值的出现可能是由于该数据不属于这个数据集 异常值的出现也可能是记录正确的非正常数据值,Exploratory Data Analysis 探索性数据分析,Five-Number Summary 五数概括 Box Plot 箱图,Five-Number Summary 五数概括,Smallest Value 最小值 First Quartile 第一四分位数 Median 中位数 Third Quartile 第三四分位数 Largest Value 最大值,下限: Q1 - 1.5(IQR) 上限: Q3 + 1.5(IQR) 上、下限以外的数值为异常值,Box Plot 箱图,Measure
9、s of Correlation Between Two Variables 两变量间关系的度量,Covariance 协方差 Correlation Coefficient 相关系数,Covariance 协方差,样本协方差记为 sxy. 总体协方差记为,Correlation Coefficient 相关系数,如果数据集是样本, 相关系数记为 rxy. 如果数据集为总体,相关系数记为 相关系数在 -1 and +1. 值接近 -1 表示完全负线性相关 值接近+1 表示完全正线性相关.,The Weighted Mean 加权平均数 Grouped Data 分组数据,The Weighted Mean Grouped Data 加权平均数与分组数据,The Weighted Mean 加权平均数,样本加权平均数 总体加权平均数,Mean for Grouped Data 分组数据平均数,样本数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特区建工集团2026届春季校园招聘备考题库及答案详解【新】
- 2026江苏南京大学SZXZ2026-009生物医学工程学院科研人员招聘备考题库附答案详解(夺分金卷)
- 2026广东惠州博罗县园洲镇九潭卫生院招聘编外工作人员1人备考题库附参考答案详解(培优)
- 2026河南郑州市第一〇七高级中学招聘23人备考题库附参考答案详解ab卷
- 2026福州产发园区运营管理有限公司项目运营合同制用工招聘3人备考题库(网校专用)附答案详解
- 2026浙江宁波能源集团股份有限公司第一批招聘20人备考题库附参考答案详解【巩固】
- 2026湖南永州市双牌县融媒体中心(双牌县广播电视台)招聘1人备考题库(考点精练)附答案详解
- 质量管理体系实施方案
- 2026浙江宁波市医疗中心医院招聘编外人员1人备考题库附参考答案详解【完整版】
- 2026云南省房物业管理有限公司招聘12人备考题库及完整答案详解(易错题)
- 呼吸与危重症患者实时监护CDSS方案
- 南京工业大学研究生学位论文格式的规定
- 研发技术劳务合同范本
- 连云港市宁海街道社区工作者招聘考试真题
- 眼科患者围手术期护理要点
- 青贮机械出租合同范本
- 初中历史选择题专项训练200题
- 《利用勾股定理解决最短路径问题【转化思想】》专题课件
- 口腔科合理用药知识培训课件
- 教师政治站位方面存在的问题及整改措施
- 2025至2030中国水务行业发展分析及投资前景与战略规划报告
评论
0/150
提交评论