分析数据间的相关性.ppt_第1页
分析数据间的相关性.ppt_第2页
分析数据间的相关性.ppt_第3页
分析数据间的相关性.ppt_第4页
分析数据间的相关性.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Excel数据统计与分析,主讲:张小兰 电话Email:,第四章 分析数据间的相关性,世间万物总是存在不同程度的联系 函数关系 统计关系,线性相关,X,Y,正线性相关,负线性相关,X,Y,非线性相关,4.2两数值型数据间的相关性,(1)图形分析法 散点图是统计关系分析中最常用的图形工具,它将数据以点的形式画在直角平面上,它将一组数据作为纵轴,将另一组数据作为纵轴,事物对象的每个个体以点的形式出现。,(1)若所有点落在一条直线上,说明数据间是线性相关,是函数关系,不是统计关系。 (2)所有点杂乱无章,从形态上看不出任何特征和规律,表明数据间不相关 (3)图形点大致呈某种

2、曲线形态,表明数据间存在非线性相关 (4)所有点大致落在一条直线周围,表明数据间有线性相关性。,实践,1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求利用散点图法分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。,(2)数值分析法 图形能够直观展现数据间的相关关系,但并不精确。简单相关系数通过数字准确描述数据间线性相关的方向和强弱程度。,简单相关系数 简单相关系数取值范围-1,1 简单相关系数0,表示两个数据正线性相关 简单相关系数0.8,表示两个数据相关性很强 简单相关系数0.3,表示两个数据相关性较弱,求简单相关系数的方法: (1)简单相关系数可通过

3、函数Correl或Pearson实现 (2)“数据分析”中相关系数命令,实践,1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求函数和“数据分析”命令分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。,4.3两品质数据间的相关性,从人事数据中分析性别跟职称是否相关? (1)图形分析法 复式柱形图是柱形图的扩展,主要用于对事物两个或多个特征的分类对比。,(2)数值分析法-列联表 在该图基础上进一步计算一些简单的百分比。,列联表示例,获不获得学分与性别是有关系的,男生获得学分的可能更大一些,列联表示例,获不获得公选课学分与性别是不相关的,实践,给定的性别与受教

4、育程度数据进行相关性分析,做出他们的三维簇状柱形图及列联表。 对人事数据中性别与职称进行相关性分析,做出三维簇状柱形图及列联表。,4.4 相关的可靠性检验,总体与样本 常常存在这样的情况,我们所观察的只是部分或有限的个体,而需要判断的总体对象范围却是大量的,甚至是无限的。比如说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片使用寿命这一指标。我们关心的是这一整批芯片的质量,但由于各种原因,只能抽取其中的一小部分进行测试。这时,这一整批芯片的质量和被抽取出来的那一部分的质量就构成了“整体”和“部分”的关系了。,可靠性研究的就是分析样本数据所体现的相关或不相关在总体数据间是否依然存在,假设检验

5、的基础,假定数据符合正态分布 假设收集到无限多的数据,这些数据可能看起来像下图 我们可将这些数据看成平滑的分布 红线,正态曲线和概率,了解了正态曲线的平均值和标准偏差有助于估计风险,Probability of sample value,正态分布的应用,如果我们货物交付给顾客的平均时间是240分钟,这一过程的标准偏差是15分钟,那么在270分钟后到货的概率为多少?,正态分布的应用2,中国成年男子身高均为168cm,标准差为5.5cm.试计算: 1、身高小于160cm的概率。 2、身高高于180cm的概率。 3、身高介于160-180cm的概率。,假设检验的基本原理,显著性水平,显著性水平是当原

6、假设正确却被拒绝的概率 通常人们取0.05或0.01 这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%,(1)数值型数据相关的可靠性检验,数值型数据相关的可靠性检验步骤如下: (1)首先提出两总体是否相关的假设,通常假设是两总体不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99,相关系数的差距,0.95把握度下的差距 TINV函数:TINV(probability,degrees_freedom), probab

7、ility为1-把握程度; degrees_freedom为n-1,实践,个人购买商品住在面积与商品住宅销售额之间的相关性进行可靠性检验。,卡方分析的主要步骤: (1)首先提出两总体是否相关的假设,通常假设行变量总体与列变量总体不相关。 (2)计算差距。计算目前列联表中的频数数据所呈现的实际相关性与行列变量总体不相关之间的差距有多少 (3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99,(2)品质型数据相关的可靠性检验,计算差距,为列联表每个单元格中的实际频数,为列联表每个单元格中的期望频数,实践,对性别与受

8、高等教育程度之间的相关性进行可靠性检验。 方法一:利用卡方分析,方法二:利用Chitest函数 (1)假设性别与高等教育程度无关,得到期望频数区域。 (2)利用Chitest函数,求得chitest (实际频数,期望频数)的值,该值代表假设成立的概率。 (3)若该概率为小概率事件,则认为假设不成立,反之,则成立。,实践,实验内容 (一)随机抽取由10名大学生组成的样本,研究他们在高中与大学的英语成绩得出下表结果:(单位:分),试用相关系数r测定其相关程度。,(二)下面是几家百货商店销售额和利润率的资料:,1以纵轴表示利润率,横轴表示每人月平均销售额,画出散点图,观察并说明两变量之间存在何种关系。 2计算每人月平均销售额与利润率之间的相关系数,并说明其相关的密切程度。 3.检验每人月平均销售额与利润率之间的相关程度,显著性水平取0.01,(三)由人事数据,利用数据透视表得出学历与职称之间的频数分布表,如下图所示。,分析职称与学历之间的相关性,并检验相关性,4.5数据的线性回归分析,回归效应 1887年生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想 。1888年他又引入“相关”(Correlation)的概念。原来,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论