版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析(方法和案例),2020年8月5日,不要过于教条地对待研究结果,尤其是当数据质量有疑问时。古扎拉蒂,统计名言,第9章,单变量线性回归,9.1变量间关系的测量,9.2单变量线性回归的估计和检验,9.3回归方程的预测,9.4残差检验模型的假设,回归分析,2020-8-5,学习目标,相关分析参数的最小二乘估计;回归线的拟合优度;回归方程的显著性检验:回归方程预测;残差证实的模型假设;用电子表格和统计软件进行回归分析;2020年8月5日;孩子和父母一样吗?高尔顿被认为是现代回归和相关技术的创始人。1875年,高尔顿用豌豆实验来确定大小的遗传规律。他挑选了7组不同大小的豌豆,并说服他在英国不同地
2、方的朋友在每组中种植10颗种子。最后,他比较了原始豌豆种子(父亲)和新的长豌豆种子(后代)的大小。结果出来后,他发现不是每个后代都和父亲一样。不同的是,较小的豌豆有较大的后代,而较大的豌豆有较小的后代。高尔顿称这种现象为“回归祖先”(倾向于一般类型的祖先),后来称之为“回归平均”。一个在某个时期(低于或高于人口平均水平)具有某种极端特征的个体,在未来某个时期(无论是单个个体还是整个后代)会弱化其极端特征,这种趋势现在被称为“回归效应”。人们发现它被广泛使用,不仅限于一代一代的豌豆大小问题。2020年8月5日,后代会和父母一样吗?正如高尔顿进一步发现的,平均来说,非常矮的父亲往往有更高的后代;而
3、非常高的父母倾向于生比较矮的孩子。第一次考试成绩最差的学生往往在第二次考试中成绩更好(接近所有学生的平均成绩),而第一次考试成绩最好的学生往往在第二次考试中成绩更差(也接近所有学生的平均成绩)。同样,平均而言,第一年利润最低的公司在第二年不会是最差的,而第一年利润最高的公司在第二年也不会是最好的。如果我们把父母和孩子看作两个变量,找出这两个变量之间的关系,并根据这种关系建立一个合适的数学模型,我们就可以根据父母的价值来预测孩子的价值,这是经典回归方法要解决的问题。学习本章后,你会对回归问题有更深的理解。2020年8月5日,回归分析将研究什么?在研究一些实际问题时,经常会涉及到许多变量。在这些变
4、量中,有一个变量在研究中受到特别关注,称为因变量,而其他变量被认为是影响这个变量的因素,称为自变量。假设因变量和自变量之间存在一定的关系,并用一个合适的数学模型来表达这种关系,那么这个模型就可以用来根据给定的自变量来预测因变量,这就是回归所要解决的问题。在回归分析中,只有一个自变量被称为一元回归,而多个自变量被称为多元回归。如果因变量和自变量之间存在线性关系,则称之为线性回归。如果因变量和自变量之间存在非线性关系,则称之为非线性回归),9.1变量之间的关系9.1.1变量之间有什么关系?9.1.2用散点图描述相关性9.1.3用相关系数衡量关系的强度,第9章,单变量线性回归,2020年8月5日,如
5、何分析变量之间的关系?建立回归模型时,首先要了解变量之间的关系。要分析变量之间的关系,有必要解决以下问题:变量之间是否存在关系?如果是,它们之间有什么关系?变量之间的关系有多强?样本反映的变量之间的关系能代表整体变量之间的关系吗?9.1.1变量之间的关系是什么?9.1变量之间的关系,2020-8-5,函数关系是一一对应的确定关系。有两个变量X和Y,变量Y随变量X而变化,并完全依赖于X。当变量X取某个值时,根据一定的关系,Y取相应的值,那么Y就是X的函数,表示为y=f (x),其中X称为自变量。y被称为因变量。所有观测点都落在一条线上,2020年8月5日,相关性(几个例子),孩子的身高和父母的身
6、高之间的关系从遗传学的角度来看,当父母更高时,他们的孩子的身高一般更高。然而,实际情况并不完全是这样的,因为孩子的身高并不完全由父母的身高决定,还有许多其他因素影响着一个人的收入水平与受教育程度之间的关系。收入水平相同的人不能有不同的教育水平,而教育水平相同的人往往收入水平不同。虽然收入水平与受教育程度有关,但它不是决定收入的唯一因素。影响作物单位面积产量与降雨量关系的因素很多,如职业、工作年限等。在一定条件下,降雨量越多,单位面积产量越高。然而,产量不是由降雨量决定的,还受许多其他因素的影响,如施肥量、温度、管理水平等。2020年8月5日,一个变量的值不能由另一个变量唯一确定。当变量X取某个
7、值时,变量Y的值对应一个分布,每个观测点围绕一条直线分布。9.1.2用散点图描述相关性。9.1变量之间的关系,2020-8-5,散点图),2020-8-5 8-5,用散点图(实例分析)描述变量之间的关系,实例9-1为了研究销售收入和广告费用之间的关系,某医药管理局随机选取了20家医药生产企业,得到其年度销售收入和广告费用。画一个散点图来描述销售收入和广告费用之间的关系。原始数据,2020年8月5日,散点图(销售收入和广告费用的散点图),9.1.3用相关系数衡量关系强度,9.1变量之间的关系,2020-8.5,相关系数。衡量变量之间线性关系强度的一种统计量,如果相关系数是根据整个人口的所有数据计算的,则称之为总体相关系数,如果是根据样本数据计算的,则称之为样本相关系数,简称
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 虚拟现实体验场所安全管理条例
- 车辆保险培训课件
- 2025江苏南京市生态环境局所属事业单位招聘高层次人才2人备考题库及参考答案详解
- 助眠服务话术指南
- 2026福建福州市鼓楼区城市管理综合执法大队人员招聘2人备考题库及参考答案详解一套
- 2026重庆万州区长滩镇非全日制公益性岗位工作人员招聘1人备考题库及参考答案详解1套
- 护理职业发展与就业指导
- 2026重庆医疗器械质量检验中心招聘2人备考题库及完整答案详解一套
- 驾驶员培训课件软件
- 个人所得税申报可靠准确责任承诺书(8篇)
- 五年级简便计算100题
- 三年级作文写小狗海滩冬天童话故事
- (康德卷)重庆市2024届高三一诊物理试卷(含答案)
- 重庆市沙坪坝小学小学语文五年级上册期末试卷
- 中药制剂技术中职PPT完整全套教学课件
- 龙虎山正一日诵早晚课
- 《国际学术论文写作与发表》学习通超星课后章节答案期末考试题库2023年
- 中考满分(合集15篇)
- 艺术课程标准(2022年版)
- 《大数据营销》-课程教学大纲
- JJF 1654-2017平板电泳仪校准规范
评论
0/150
提交评论