免费预览已结束,剩余25页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.1回归分析的基本思想及其初步应用。我们知道函数关系是一种确定性关系,相关性是一种非确定性关系。回归分析是对两个相关变量进行统计分析的常用方法。我们将通过具体的问题进一步学习回归分析的基本思想及其应用。问题1:通过结合实例1获得线性回归模型和随机误差。区分函数模型和回归模型。回归方程:因为所有的样本点不是共线的,而是分散在某一条直线上,所以身高和体重之间的关系可以用线性回归模型来表示:其中a和b是模型的未知参数,e称为随机误差。函数模型与“回归模型”的关系,函数模型:因变量y完全由自变量x决定回归模型:预测变量y完全由解释变量x和随机误差e决定注:e的主要原因是:(1)所用的确定性函数不合适;(2)忽视某些因素的影响;(3)观测误差。中随机误差项e的原因是什么?问题2:在线性回归模型中,e是bx a预测的真实值y的随机误差,是一个不可观测的量,那么我们应该如何研究随机误差呢?结合实施例1,除了身高以外,影响体重的其他因素是不可测量的。不希望有某种方法来获得随机误差值以提高预测变量的估计精度,但是它可以估计包含在预测变量的观测值中的随机误差,这对于我们发现样本数据中的误差和评估模型是非常有用的,因此我们在这里引入了残差的概念。e=y-(bx a),随机误差,e的估计,样本点:对应的随机误差:随机误差的估计:称为对应点的残差。称为残差平方和。问题3:如何发现数据中的错误?如何衡量随机模型的拟合效果?(1)通过分析可以在原始数据中发现可疑数据,并判断所建立模型的拟合效果。残差图的产生和作用:产生:纵轴坐标是残差变量,横轴可以有不同的选择。横轴是数字:可以调查残差和数字顺序之间的关系,这通常用于调查数据错误。横轴是解释变量:可以研究残差和解释变量之间的关系,这通常用于研究模型是否有改进的空间。功能:判断模型的适用性。如果模型选择正确,残差图中的点应分布在以水平轴为中心的带状区域中。下表列出了女大学生身高和体重的原始数据以及相应的剩余数据。剩余图的制作和功能。坐标的垂直轴是剩余变量,水平轴可以有不同的选择。如果模型选择正确,残差图中的点应分布在以水平轴为中心的带状区域中。应特别注意远离水平轴的点。高度和重量残差图几点注意:第一个采样点和第六个采样点之间的残差比较大,在采集过程中需要确认是否有人为误差。如果数据收集中存在错误,请纠正它们,然后重新使用线性回归模型来拟合数据。如果数据收集中没有错误,则需要找到其他原因。此外,剩余点相对均匀地落在水平带区域,这表明所选模型是合适的。这种带区域的宽度越窄,模型的拟合精度越高,回归方程的预测精度越高。在某种程度上,误差和残差这两个概念非常相似,都是衡量不确定性的指标,但它们之间存在差异。误差与测量有关。误差的大小可以衡量测量的准确性。误差越大,测量就越不准确。误差分为两类:系统误差和随机误差。其中,系统误差与测量方案有关,可以通过改进测量方案来避免。随机误差与观察者、测量工具和被观察对象的性质有关,只能最小化,但是在线性模型中,它代表独立变量描述预测变量的能力。相关系数,相关系数的性质(1) | r | 1。(2) | r |越接近1,相关度越强;|r|越接近0,相关度越弱。注:b与r的数字相同:x和y的线性相关程度如何?它们有多相关?相关系数,r 0正相关;R 0负相关。通常:r -1,-0.75-负相关非常强;r0.75,1正相关非常强;R -0.75,-0.3-负相关是普遍的;r0.3,0.75正相关是普遍的;R -0.25,0.25-弱相关;从上面可以看出,分析变量对总效果的贡献为64%,即20.64,可以描述为“高度解决了重量变化的64%,而随机误差贡献了剩余的36%。因此,身高对体重的影响远大于随机误差。我们将使用相关指数来分析下面的例子1:预测变量的变化程度可以分解为解释变量引起的变化程度和剩余变量的变化程度之和,即;问题4:考虑例子1:当用回归方程预测体重时,我们应该注意什么?回归方程只适用于我们研究的样本总数。2.我们建立的回归方程通常是时间相关的。3.样本值的范围将影响回归方程的适用范围。4.从回归方程获得的预测值不能被认为是预测变量的精确值。其中涉及一些统计学概念:模型所应用的人口;模型的及时性;样本值范围对模型的影响;正确理解模型预测结果。一般来说,建立回归模型的基本步骤如下:(1)确定研究对象,明确哪些变量是分析变量,哪些变量是预测变量。(2)绘制已确定的分析变量和预测变量的散点图,观察它们之间的关系(如是否存在线性关系等)。)。(3)根据经验确定回归方程的类型(如果我们观察到数据是线性的,那么我们选择线性回归方程y=bxa)。(4)根据某些规则(例如最小二乘法)估计回归方程中的参数。(5)获得结果后,分析残差图中是否有异常(个别数据对应的残差过大,或残差呈现非随机规律等)。),如果有异常,检查数据是否有误,或者模型是否合适等。问题5:总结建立回归模型的基本步骤,问题6:如果两个变量呈现非线性关系,如何解决?(分析实施例2)在实施例2中,粉红色钟形虫Y所产的卵数与温度X相关。已收集了七组观察数据并列于表中:(1)尝试建立产卵数Y与温度X之间的回归方程;预计在28摄氏度下产卵的数量。(2)您建立的模型中的温度在多大程度上解释了产卵数量的变化?方法1:单变量函数模型;方法2:对数;方法3:指数函数模型;方法3:用计算器得到z相对于x的线性回归方程的相关指数;因此,y相对于x的非线性回归方程是:当x=28,y44时,指数回归模型中的温度解释了产卵数变化的98%;哪个是最好的模型?显然,指数函数模型是最好的!利用残差计算公式,从残差平方和来看,指数函数模型的拟合效果优于二次函数。或者分别从0.98和0.80的条件R2,可以获得它们的效果。在散点图中,样本点不分布在某个波段区域,因此两个变量之间不表现出线性相关性,因此不能用线性回归方程直接建立两个变量之间的关系。z=lny,则变换后的采样点应分布在直线z=bx a(a=lnc1,b=c2)周围。通过使用线性回归模型建立了y和x之间的非线性回归方程。当回归方程的形状不像y=bx a时,我们称之为非线性回归方程。根据现有的泛函知识,我们可以发现样本点分布在某一指数函数曲线周围,其中c1和c2是待定参数。课堂知识延伸。我们知道,如果国际刑警组织能够在犯罪现场提取罪犯的脚印,它将很快获得破案的重要线索。其中一个原因是人的脚的长度和身高之间有关联。一个人的身高可以根据一个人的脚的长度来预测。我们也知道,在统计学的历史上,人们已经收集了很长时间的关于人的身高和前臂长度的数据,试图找到这些数据之间的规律。受以上两个小故事的启发,请将全班分成4-6人一组,在老师的指导下开展数学建模活动,亲身体验回归分析的思维方法,提高学生的实践能力。数学建模的主题是收集周围一些人的脚掌长度和前臂长度以及他们的身高的一个数据,以绘制作为两个变量的散点图。如果两个变量之间存在线性相关性,则获得回归线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医药产业园区建设项目可行性研究报告及总结分析
- 2025年气候友好型 agricultural practices 项目可行性研究报告及总结分析
- 2025年环境监测与智能传感器项目可行性研究报告及总结分析
- 2025年儿童 STEM 教育项目可行性研究报告及总结分析
- 2025年城市骑行文化推广项目可行性研究报告及总结分析
- 高校毕业生招聘事业单位工作人员(45人)模拟试卷完整答案详解
- 2025年配送服务奖励协议
- 2025年移动健康管理解决方案项目可行性研究报告及总结分析
- 园林工程资料员劳动合同(3篇)
- 2025年新能源汽车智能控制系统研发项目可行性研究报告及总结分析
- 2025年2月兽医检验练习题库与参考答案解析
- 旅游服务质量管理制度
- 2025-2030年中国过碳酸钠项目可行性研究报告
- 球馆合作协议书合同
- 海洋岩土工程课件
- 委托接送子女上下学服务合同协议书范本模板5篇
- 2025年团的基础知识测试模拟100题及答案
- 护理压疮不良事件分析
- 慢性阻塞性肺疾病患者随访服务记录表
- 财经文员岗位实训教案
- 中医护理技术临床应用
评论
0/150
提交评论