




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析 数据的描述性分析即是从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也是对数据进行进一步分析的基础。 1 单样本数据 1、 一组单样本数据 ,样本数据个数称为样本容量, 1)样本平均数,2)样本方差,3)样本标准差,4)偏度,5)峰度,2、五数概括 1)中位数,2)最小数,3)最大数,4)极差,5) 分位数,6)上四分位数,7)下四分位数,8)极差,9)上下截断点,无数概括:最小数、下四分位数、中位数、上四分位数、最大数和在一起称为无数概括。,例:已知数据: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.33 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95,计算:平均数,方差,中位数,四分位数;并判断是否有异常值。,解:,3、直方图: 直方图可以直观的观察数据的分布情况。 所谓直方图就是将数据按它们的取值范围划分为若干子区间,以每一个子区间为底,在它的上方作一个矩形,矩形的面积与位于该子区间内的数据个数成比例。这些矩形的全体构成了数据直方图。 方法:将数据范围分成若干自取件,一般是等间距的。考虑落入每个区间的频率。,绘制直方图的关键之处在于子区间的划分,我们将分别讨论两种情况:样本数据本身包含了子区间的划分或至少提供了划分的信息,另一种是样本数据只提供单纯的n个数字。 1、样本数据组提供了子区间的划分 例1 某市居民的月收入情况,宽度为组距,高度为落入该区间的频率,2、样本数据组只提供了n个数据 此时对数据绘制直方图需要制图者自己选择与确定子区间的个数及如何划分,这两个因素将直接关系到直方图的形状。 这是仍旧需要对数据进行子区间,划分大部分采用均分的方式,区间的个数通常在620之间(也有815个),具体要分成多少个,要有实际问题确定。假设样本数据组要划分成k个子区间,则具体划分数据的原则是,设n个数据的最小值为a,最大值为b,则把 b -a 做为区间的长度。这种分法是比较常见的 。,三、 茎叶图 茎叶图是探索性数据分析时对数据的初步形象描绘,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形。这样既有了直观的图示,又对具体数据有大致了解。可以更细致的看出数据的分布结构。 茎叶图制作的第一步是将每一个数据分解为三个部分:茎、叶以及可忽略部分。一个数,从哪一位开始可以归属于可忽略部分,需要看研究的实际情况而定。,某班31名学生考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 87 89 89 89 90 91 91 92 100,茎叶图与直方图一样,都可以直观的看出数据分布的情况,但茎叶图用了所有数据,没有丢失信息。从图上大致可以看出数据是否对称,分散性如何,是否有异常值,数据中间是否有间隙等。利用茎叶图也很自然的给数据进行了排序。,数据分析中,常常要比较两组可比数据的分布趋向,背靠背茎叶图为此提供了方便。假如从某地区随机抽样男女居民各20名,对他们的月收入进行调查,得数据如下(单位为元): 男 803,659,571,778,492,295,345 673,388,580,708,433,301,193 435,560,767,678,288,477 女 680,792,583,434,425,186,288 379,444,556,471,671,536,333 422,236,195,345,389,400,这两组数据的茎叶图可以忽略个位数而得,被忽略的个位数一般不四舍五入。茎叶图实际上是“带有数据的直方图”,忽略个位数相当于选择划分区间的端点恰为10的倍数。如果随意地将个位数四舍五入,则等于将一个区间内的某些数据武断地转到右边的区间,显然这是不妥当的。 通过此图可以粗略的得到, 高收入中,男性比女性多。 茎叶图中, 如果一行的数据过多, 可以分成两行显示。,2 两样本数据 社会经济领域中数据组并非总是以单样本形式出现,我们还常常需要研究两个变量之间的关联程度,例如父亲的身高与成年儿子的身高;丈夫的收入与妻子的收入;股票市场的上证综合指数与深圳成份指数;货币投放量及通货膨胀率;等等。本节将讲解两样本数据的初步整理分析。,一 相关系数 给定一组两样本数据 ,如果根本不考虑其中一个变量的状态(比如先不考虑x),那末对y数据的概括统计量当然是和(或)。同样地单纯考虑变量x也有概括统计量。在两样本数据中极重要的一个概括统计量是x与y之间的相关系数。,1)均值向量,2)变量X的方差,3)变量Y的方差,4)变量X,Y的协方差,5)协方差矩阵,6)相关系数,1)相关系数的绝对值最小为0,最大为1。 2)当为0时,表示两个变量不相关,即无线性关系; 3)当绝对值为1时,表示完全相性相关。即Y=KX+B 4)数值越
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年儿童辅导员面试流程与模拟题详解
- 2025年公共关系专员岗位素质测评试题及答案解析
- 2025年安全员面试资料及答案
- 课件不同步显示问题
- 2025年安全员C证考试重点题目解析
- 课件《宝葫芦的秘密》
- 2025年智能物业招聘面试题及解析
- 机电基础知识培训
- 初中语文教学课件运用
- 读懂彼此的心课件
- (2025年标准)淘宝分红合同协议书
- 矿山工程合同范本
- 商用中小型冷库知识培训课件
- 2025年黑龙江省水利水电集团有限公司招聘考试笔试试题(含答案)
- 抗战胜利八十周年纪念-2025-2026学年高二上学期爱国主义教育主题班会
- 银行理财规划配置方案(3篇)
- 2025-2030中国城市更新政策演变与实施路径专项调研报告
- 儿科川崎病课件
- 2025年书记员考试题库(附答案)
- 中成药合理使用培训课件
- 建筑材料绿色采购实施方案
评论
0/150
提交评论