版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、河北工程高等院校数学学部,第一章数据描述的分析,数据描述的分析,研究背景,研究方案,研究成果,研究总结,数据分析研究的对象是数据,它们是观测值:如果这个观测值是对象的全体,数据分析的任务是提取包含在数据中的有用的信息。 如果数据是从总体提取的样本,则分析估计样本中包括的总体信息。平均、方差等数字特征、研究背景、研究方案、研究成果、研究总结、数据库元数据数字特征主要有以下几个方面。 把观测值作为样本容量。 1平均:即平均:平均表示数据的集中位置。平均、方差等数字特征、研究背景、研究总结、方差、标准离差和变异系数方差是描述数据方差性的一个尺度,其维是数据维的平方。 标准离差、平均、方差等数字特征、
2、研究背景、研究总结、变异系数:数据相对方差性的尺度即CV校正平方和CSS未校正平方和USS、平均、方差等数字特征、研究背景、研究总结、3偏度和峰度和峰度是描述数据偏态、尾重的尺度。 与数据的力矩有关。 数据的力矩分为原点力矩和中心矩。 k次原点力矩k次中心矩、平均、方差等数字特征、研究背景、研究总结、偏差中,s为标准离差。 偏度是描绘数据对称性的指标。 对于平均配对数据,偏置是0,右侧的分散数据的偏置是正,左侧的分散数据的偏置是负。 偏度、研究背景、研究总结、平均、方差等数字特征,研究背景、研究总结、峰度是数据的整体分布为正态概率分布,峰度几乎为0的分布比正态概率分布的尾部分散时,峰度为正,否
3、则,峰度为负。 尖度为正时,两侧的极端数据多,尖度为负时,两侧的极端数据少。 整体数据特征、研究背景、研究总结、从整体x中提取观测数据的样本、整体分布函数设为f。 当x为离散分布时,整体分布可由概率分布列描绘。 整体为连续分布时,整体分布可由概率密度描绘。 连续分布中最重要的是正态概率分布,其概率密度和分布函数分别是具有整体数据特征、研究背景、研究综述、正态概率分布的整体为正态整体。总体数据特征、研究背景、研究综述、样本数字特征对应的是总体数字特征总体平均方差总体标准差总体离散系数、总体数据特征、研究背景、研究综述、总体原点矩(k阶)总体中心矩(k阶)总体偏置总体峰度、总体数据特征、研究背景、
4、 研究总结、总体数据特征、研究背景、研究总结、总体数字特征和样本数字特征、研究背景、研究总结、统计学结果表明,样本数字特征是对应总体数字特征的矩估计。 当存在总体数字特征时,相应的样本数字特征是总体数字特征的总和估计,因此当n大时,总体数字特征和样本数字特征、研究背景、研究总结、观测数据是对象的总和,数据的分布或总和分布可以是、 被认为能够获取观测数据的整体分布是离散且均匀的分布:在这种情况下,作为数据的数字特征的整体数字特征说明数据本身。、MEANS流程、研究背景、研究总结PROC MEANS选项(options) VAR变量名表指定需求计算的数值变量和顺序BY变量名表,用该值形成多个观测组
5、,对应的描述性统计量(需要对BY变量进行排序) CLASS 结果以表的形式输出FREQ变量名称表输入数据系度数表的数据时,使用OUTPUT OUT=SAS数据定径套统计量牛鼻子字变量名称表,可以用SAS计算的记述性统计量部分牛鼻子字及其意义、研究背景、研究总结、 可由SAS计算的描述性统计量局部牛鼻子词及其含义、研究背景、研究综述、实例、研究背景、研究综述从1.9个杆塔上普通盘绝缘体测定到的该层电导率的数据,为9.8.9.006.4.0.5.3.9.2.7.0810.4.0.2.0.75.45 例、研究背景、研究总结例、研究背景、研究总结例、研究背景、研究总结例、研究背景、研究总结计算得出,8
6、.487,3.046,1.845,cv 21.745,0.035,0.852,绝对值相对较小、实例、研究背景、研究总结,某厂某悬式绝缘子机电破坏负荷试验数据(单位:吨)小组用表格表示,计算这些个小组数据的平均、方差、标准离差、离散系数、偏度、峰度。 例、研究背景、研究总结、例、研究背景、研究总结、例、研究背景、研究总结、例、研究背景、研究总结、SAS计程仪项目为data p9; do g=1 to 2; 输入n; do I=1到n; 输入x; 输出; 结束; 结束; 卡多斯; 110.841.051.201.3.9.531.671.801.872.072.11130.540.640.750.7
7、60.8.1.161.201.341.351.481.8.7; 专业人员; var x; 贝格; run; 例、研究背景、研究总结、Proc UNIVARIATE、研究背景、研究总结、统计计程仪项univariate与统计项means的功能相似,可以计算数值变量的描述性统计值, univariate可以为变量的分配情况提供更多的信息:生成统计输出文件,以便在发生次数分配表检验资料是否成功分配后进行分析,从而生成计算指出一个变量的极端值的四分位数的分配图。 univariate流程的一般格式、研究总结proc univariate选项列表by变量名称(组变量) class变量名称(组变量) fr
8、eq变量名称(表示相应记录查询密码出现频率的数值变量) weight变量名称(相应记录查询密码的权重、univariate进程的一般格式、研究总结在一个univariate进程中,可以多次使用output命令,但其他6个命令只出现一次,这6个指令可以以任何顺序出现。proc univariate选项列表、Data输入数据文件名如果省略此选项,SAS将查找并分析在此步骤之前最后创建的数据文件Noprint如果仅生成统计输出文档而不打印记录通讯端口, 使用此选项抑制记录通讯端口的生成Plot生成三种图形:茎叶图或平行柱形图图、箱线图、常态概率图、proc univariate选项列表,FREQ是变
9、量值出现的次数、百分比, PCDLDEF1/2/3/4/5此选项确定生成包含累积百分比的次数分配表的正常检验输入数据是否表示关正态概率分布字,并输出检验结果。 缺省奥尔特值为VARDEF,指令,VAR变量名列1列举需要统计分析的变量名2如果省略此指令,将分析输入文档中的所有数值变量如果选择output命令,则不能省略VAR命令。命令、BY变量名称univariate plump计程仪程序基于该指令列举的变量将文件分成几个小档案,按每个小档案分别执行分析,在选择该指令时,文件内的数据首先基于BY变量的值,按照大小对大小进行排序命令、FREQ变量名:该变量必须是输入文件中的数值变量,该值表示观察体
10、重复出现的次数。 如果此变量的值包含小数,则取整数部分。 如果值小于1,则此观察体将从计算过程中排除。 诸如中位数、分位数、三平均值和极差、平均值、方差、标准离差等数字特征是整体特征值的一种矩估计,适于分析来自正态概率分布的数据。 在整体的分布未知或者数据偏向的情况下,有若干异常值(极端值),分析上述数据的方法不适合,计算中位数、分位数、三平均值、极端差等数据的数字特征,计算上述特征需要顺序统计量。 顺序统计、中位数和极差和中位数计算公式是中位数描述数据中心位置的数字特征。 大于或小于中位数的数据数量是总的数据数量的一半。 相对于中位数和极差、对称分布的数据,平均值和中位数接近的偏置分布的数据
11、的平均值和中位数不同。 中位数的另一显着特征是不受异常值(特大或极小)的影响,有鲁棒性,是数据分析中重要的统计量。 极差的计算公式是描述数据分散性的数字特征。 数据越分散,差距就越大。 例如,考虑以下样本: 5、1.1、1.1、7、8写顺序计量,求中位数、极差。分位数、配对和容量样本的分位数也可将分位数、分位数称为100。 几乎所有样本的100个观测值不超过分位数. 0.5分位数(第二5.0分位数)的是中位数m。 在实际的应用中,0.75分位数和0.25分位数(7.5分位数和2.5分位数)很重要,分别被称为上、下四分位数,以下的分位数也经常记作实际应用:例子,试着考虑以下的样本:平均值m是记述
12、数据的集中位置的数字特征计算中使用了样本的所有信息,而m仅使用了数据分布的一部分信息。 因此,在正常情况下,集中的位置优于用m描述的数据。 然而,如果存在异常值,则缺乏鲁棒性,而m的鲁棒性强。 考虑到有效利用样本信息并具有强鲁棒性,三平均值可以用作数据集中位置的数字特征。 三平均计算公式为:例,从1.9个杆塔上的普通碟子绝缘子测量的层电导率的数据如下:9. 8.9.006.1.7.397.2.7.0810.4.0.208.756.4511.9010.309.5.8.247.756 另外,例如,由于上下舍入点分别为1.29和15.05,因此数据没有异常值。 二、数据的分布、数据的数字特征描绘数据
13、的主要特征,要全面描述数据的整体情况,必须研究数据的分布。 数据分布的主要描述方法是图像直方图和茎叶图、数据的理论分布,即整体分布。 数据分析的一个重要问题是研究数据是否来自正规整体,这是分布的正规经验问题。 描述了图像直方图、经验分布函数和QQ图、数据分布、常用图像直方图。 将数据取值的范围分成几个区间(一般是等间隔),在等间隔区间的情况下,将每个区间的长度称为组间距。考虑数据落入各区间的频度和频度,在各区间描绘矩形,其宽度为组间距,其高度为频度、频度或频度/组间距,高度为频度/组间距时,各矩形的面积为数据落入区间的频度,该图像直方图能够估计整体的概率密度。 组距离对图像直方图的形态有很大影
14、响,如果组距离过小,每组的频度少,由于随机性的影响,相邻区间的频度可能大的组的距离过大,则图像直方图中反映的概率密度的形态不敏锐。图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图, 创建图像直方图、经验分布函数和QQ图、图像直方图、经验分布函数和QQ图、示例(1)图像直方图、拟合正态分布曲线(2)创建经验分布函数图、拟合正态概率分布函数曲线(3)创建正态QQ图,并直观地确定样
15、本数据是否来自整个正态概率分布总结了例、例、例、例、茎叶图、箱线图及五数,与图像直方图相比,茎叶图的数据分布构造更细致。 某班有3.1学生,某班考试成绩如下: 2545054556164727578798384858686878989192。 茎叶图、箱线图和五个数综合,茎叶图、箱线图和五个数综合,茎叶图的特征、茎叶图和图像直方图一样,可以直观了解数据的分布状况。 根据茎叶图分析,可以大致直观地判断这些个数据是否接近对称性、分散性是否、异常值有木有、数据中间隙有木有等。 利用茎叶图,可以自然地排列所有的数据。 从茎叶图可以看出从原始数据中得到的位次统计量。 对于排名的数据组,从小数据到大数据的每个数据的排名称为排名。从大数据到小数据的排名称为排名。 每个数据的等级上升和等级下降较小的被称为该数据的深度即深度min (等级上升、等级下降),例如金属铅压铸件硬度数据, 5.3.070.284.355.378.563.571.453.482.567.369.573.055.785.895.474.454.177.852.469.153.564.382.755.787.587 例、箱线图、茎叶图是探索性数据分析采用的重要方法。 箱线图也能直观简洁地表现数据分布的主要特征。 例如,一个班有3.1学生,一个班的考试成绩如下:制作2545
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 橡胶制品生产流程办法
- 半导体塑封成型工艺技师岗位招聘考试试卷及答案
- 根号3.6a其中a为1至9的近似计算详解B2
- 第十四章 光(原卷版)
- 妇科肿瘤治疗相关血小板减少症临床管理专家共识总结2026
- 5.4基层群众自治制度 课件2025-2026学年统编版道德与法治八年级下册
- 2026届甘肃省武威第三中学高三质量监测(二)化学试题含解析
- 餐饮购销合同
- 2025~2026学年河北邯郸市鸡泽县第一学期期末学期调研九年级英语试卷
- 2026劳资员培训考试题及答案
- 2025年春新北师大版数学七年级下册课件 第四章 三角形 问题解决策略:特殊化
- DG∕TJ 08-2188-2015 应急避难场所设计规范
- 民族团结先进班集体事迹材料7篇
- 【MOOC】金融学-郑州航空工业管理学院 中国大学慕课MOOC答案
- 华南理工大学《工程热力学》2022-2023学年第一学期期末试卷
- OTIS奥的斯XIOTIS西子奥的斯扶梯GECS扶梯调试手册
- 安全用电主题班会课件
- 中石化连云港炼化厂年产60万吨-对二甲苯项目设计说明书
- DL-T5344-2018电力光纤通信工程验收规范
- 《运动训练学》考研历年真题
- 动画公司招聘考试题目及答案
评论
0/150
提交评论