版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE10基于线性回归模型通过MATLAB软件的S学院大学生体重的分析与预测实证研究目录TOC\o"1-3"\h\u15711绪论 2165351.1国内外研究现状 2142221.2研究意义 3155242线性回归的简述 363122.1最小二乘线性回归模型 418482.2逐步回归模型 598253建模与分析 5287463.1建模的基本步骤 593623.2建立模型 6310093.3预测与分析 14289123.4预测模型的优缺点 143070总结 1519089参考文献 161绪论1.1国内外研究现状现在的时代在快速发展,人们的生活质量和生活水平也在不断地提高,解决温饱也已经不是问题,更不会像之前吃不饱的年代那样瘦骨嶙峋,我们的体重也在不断增加,这就体现了我们的生活质量在提高。并且当今21世纪,体重是我们经常会特别注意的一个指标,人人都有爱美的心,人人都有追求美的权力,也会在意他人对自己的评价,所以了解影响我们体重的因素,避免过胖的身体才有可能拥有健康的体魄。根据身边成人体重的走向,我们应该重视在当今社会除了生活质量提高影响之外,还有什么因素会影响我们的体重。首先,人们对影响体重基数最直观的感觉应该就是身高、年龄,除了这些还有什么会影响体重的因素也是我们在不断探索的问题,如今体重的预测成为当今国内外学者研究探讨的热门论题。这个时候如何准确的预测体重就成了人们感兴趣的事情,这就有待建立更合理的模型,从而更加准确地对体重进行预测,以给相关人群带来强有力的参考BBB。早期的学者大多都是从胎儿着手来研究他们的体重,通过母体自身未怀孕之前的体重开始研究其影响因素。例如,在1990年就发表过《用逐步回归分析法预测新生儿体重》,围绕生产医学发展以来,对胎儿的成熟度,特别是预测胎儿出生体重,早已引起产科工作者的重视.在临床医学上简便又实用可靠的方法如测量宫底高度,根据不同孕妇的怀孕周期得出不同的曲线图,超声测量胎头双顶径估计胎儿体重。同样的,逐步回归分析使用的范围也广。2013年等学者运用逐步回归分析,并以此创立了回归模型的河南省食粮产量,从而对影响食粮产量的要素进行了分析。乡间从业生产的工作人员、农村用电量、粮食的生产单产、化肥使用折和的纯量浓度、农业机械工作的总动力等为回归方程的模型的主要影响因素,从而回归方程模型可以确定影响河南省粮食产量因素的。2014年庄荟瑛、赵宏林、王丽梅等采用分层整群随机抽样的方法选取通辽市2949名7~18岁蒙古族青少年为研究对象,对十八个指标进行分析,并对青少年的维尔维克指数和各种指标采用逐步回归分析的方法进行了指标的分析。近年来这些问题也受到众多学者的深入了解剖析,但对成人体重的预测方向却是较少的,人们更多的了解未出生的婴儿体重的预测,大部分都是使用逐步回归分析法、多元回归法等。研究成人体重的方法也差不多,首先我们需要对可能存在的影响因素进行收集、统计、分析和处理,然后用MATLAB对所整理的数据逐步进行线性回归分析,衡量由拟合得到的模型哪些是有效的,模型系数精确度和模型预测的数值范围多大,并对成人体重进行预测,使得预测结果与实际结果相拟合。1.2研究意义众所周知,我国是世界上人口最多的国家,在现在这个经济快速发展的时代里,城市居民的生活质量有了一定程度的提高,这一切都要归功于国家的优惠政策,从吃饱到吃好,娱乐项目也增多了,平均体重基数也比之前大了。体重控制不好很有可能会影响身体的健康,养成良好的生活习惯,即使体重不是最完美的,但健康一定不会太差。特别是在校大学生,身边的同龄人较多,就会产生一些比较心理,看到自己的身材再看看别人的身材,可能会产生一些自卑或者其他的想法,现在这个时代趋势就是这样,看脸看身材。因此本论文希望通过研究数学与应用数学专业的同学体重,发现其中存在的问题进而找到有效的体重预测方法,对成人体重进行有效预测,对体重困扰人群提供参考建议,不要在意他人的眼神,自信才是最美的,同时也使得成人体重趋于平稳发展,健康才能创造更多的财富。2线性回归的简述线性回归为了确定数学统计分析方法之间2个或2个以上相互依存变量的量的关系,统计回归分析被广泛使用。其表达形式为,为误差服从均值为0的正态分布。多元线性回归,通常在坐标平面上是用一条直线去近似,一般来说,有2个或者2个以上的自变量和一个因变量。特别的,如果只有一个自变量和因变量,我们就叫做一元线性回归。在统计学中,线性回归方程的对一个或多个独立变量和从属变量之间进行建模的一种线性\t"/item/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/_blank"析。像这种函数一般是一个或者好多个一起统称为线性组合的系数的参数模型。如果只有1个独立变量的方程情况称为简单回归。在线性回归中,未知的模型参数通过调查报告的数据来估计,调查报告里面知道所表现出来的数据就使用的函数来建模。一系列这样建立的模型都被叫做线性模型。用的最多最平常的建模是给定值的的条件均值是的仿射函数。特别的,\t"/item/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/_blank"模型可以是一个中间数或一些其他的给定的条件下的条件分布的分位数作为的线性函数表示。像全部形式的回归分析一样,在线性回归里和的联合概率分布只是占一小部分。绝大多数部分的重点还是放在给定值的的条件概率分布。非线性依存于其未知参数的模型比线性依存于其未知参数的模型更难去拟合,而且产生的估计的统计不一样的点也更难查看确定。这也是为什么线性回归是回归分析中第一类经过逐步试探并在实际应用中使用范围最广的类型。2.1最小二乘线性回归模型最小二乘法是由高斯最早提出的,他以最小化图中垂直方向的达到最小作为优化结果的最终目的,从而确定出估计参数和,从这个方法来确定模型参数和的方法叫做,还有另外一个名字就是最小平方法。最小二乘法计算回归直线的离差平方和达到最小,但不能准确保证其拟合数据的最佳直线,这也是拟合直线会有一些相对较好的的特征。在某种条件下,和的最小二乘法的估计量和其他估计量的相比,标准差还是比较小的,从最小二乘法求得的结果可知和之间的,根据以上性质,最小二乘法在回归模型中被广泛使用也是最常见的方法。一般情况下,都可以通过求出其方程[5],可以计算出正常的的直线。一般地,影响的因素往往不止一个,假设有,,,,个因素,通常可考虑如下的线性关系式:(1)对与,,,同时作次独立观察得组观测值,,它们满足关系式:(2)其中,互不相关均是与同分布的随机变量[6]。令(3)于是有,使用最小二乘法得到的解。其中,称为的伪逆。2.2逐步回归模型逐步回归分析方法的最基础思路是自动从大量可以提供选择的变量中选取最重要的变量,建立回归分析的预测模型。其基本思想是:将自变量一个一个引入,引入的条件是其偏回归经检验后是显著的。同时,在引入新变量的同时也不要忘记对旧变量的检验,这样就可以剔除偏回归平方和不显著的自变量。就这样一直边进边出,直到既没有新引入也没有旧踢出为止。这样做的目的是建立“最优”的多元线性回归方程[7]。3建模与分析3.1建模的基本步骤关于建模中要遵循的步骤没有一定的模式,这些模式通常与问题性质和建模目的有关,以下是建模的基本步骤:(1)导出调查报告样本数据的所有值;(2)根据样本数据的性质,选择合适的模型进行拟合;(3)估计计算模型中未知参数的值;(4)检验所建立形成的模型的有效性。如果拟合的模型不通过检验,就重新选择另外的模型并再次拟合;(5)模型优化。如果拟合模型通过检验,充分考虑各种可能会影响因变量的自变量,建多个拟合模型,在所有检验通过的拟合模型里面选择最佳模型;(6)利用方程拟合的模型,预测大学生体重的未来走势[8]。3.2建立模型本文将选取S学院数学与应用数学专业的数据进行分析,从这些数据,我们可以看出,影响体重的因素可能有多个。现在本文将通过这些已有的附录一的数据,预测大学生体重基数。根据附录一的数据对模型的参数进行估计又称数据拟合,首先以是否吸烟为主要自变量(是为1,否为0),大学生的体重和身高为因变量做了参数估计,总共数据量,包括大学生体重参数均值的点估计(记作和)和区间估计、体重低(小于54.75kg)的比例(记作和)大学生身高均值的点估计(记作和)和区间估计、矮(低于163cm)的比例(记作和)。表1不吸烟和吸烟大学生体重和身高的参数估计(为样本数,下同)参数估计不吸烟大学生吸烟大学生大学生体重参数均值的点估计大学生体重均值的区间估计大学生体重低的比例大学生身高均值的点估计大学生身高均值的区间估计矮的比例从表中可以看出,吸烟的大学生比不吸烟大学生的体重平均低3kg,而且体重轻的比例也比不吸烟的低很多,不吸烟的平均身高没有吸烟的高,还可以看到吸烟大学生体重均值的区间估计和身高区间估计的区间都是比较大的,说明模型不够稳定,出来的数据表达的不够准确。为了充分利用所给的数据进行全面的研究,需要借助回归分析方法,建立大学生体重与吸烟状况、性别、身高等多种因素的回归模型,分析模型得出结果。对于数据中186名大学生,用和分别表示大学生体重和吸烟这两个变量,假设二者的关系可以用一次函数模型来描述。按照最小二乘法准则,用数据拟合的办法就可以轻松得到模型系数,。表2体重和吸烟线性回归的分析表回归统计MultipleR0.049597RSquare0.00246AdjustedRSquare-0.00296标准误差12.43175观测值186方差分析dfSSMSFSignificanceF回归分析170.1223270.122320.4537240.501417残差18428436.91154.5484总计18528507.03Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept54.01170.9506856.813771.3E-11852.1360655.8873352.1360655.88733XVariable12.2549713.3476890.673590.501417-4.349828.859762-4.349828.859762这个一次函数可以从表中得出,,所有表达式为:(4)根据统计学显著性检验方法所得到的P值(P-value),一般都是以为显著,为非常显著,其解释含义是样本之间的差异由抽样误差所导致的概率小于0.05或0.01[9]。根据表中的相关系数(multipleR)和较小、显著性,由此可以说明吸烟对体重的影响不大。下面用同样的方法对大学生的体重和性别进行一次函数,按照最小二乘法准则,用的办法很容易得到模型系数,。表3体重和性别线性回归的分析表回归统计MultipleR0.534192RSquare0.285362AdjustedRSquare0.281478标准误差7.719276观测值186方差分析dfSSMSFSignificanceF回归分析14378.0434378.04373.472844.09E-15残差18410964.0559.58722总计18515342.09Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept50.281480.66436975.683011.4E-14048.9707251.5922448.9707251.59224XVariable110.875381.2687658.571634.09E-158.37218413.378588.37218413.37858这个一次函数可以从表中得出:(5)根据表中的相关系数和较大、显著性较小,表明是非常显著的一个因素,所以体重及其有可能和性别有关。同等的,下面用同样的方法用附录一的数据对大学生的体重和身高进行一元线性回归,得到的数据如表4:表4体重和身高线性回归的分析表回归统计MultipleR0.561488RSquare0.315269AdjustedRSquare0.311547标准误差7.556026观测值186方差分析dfSSMSFSignificanceF回归分析14836.8824836.88284.718567.63E-17残差18410505.2157.09353总计18515342.09Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept-59.849812.3017-4.865172.45E-06-84.1203-35.5793-84.1203-35.5793XVariable10.6987630.0759179.2042687.63E-170.5489830.8485440.5489830.848544这个一次函数可以从表中得出:(6)根据表中的相关系数和较大、显著性非常明显,所以体重可能和身高有关,做的这几个一元线性回归分析,也得出一些数据,那除了一元线性分析,我们是不是也可以进行多元回归分析,并且除了这几个一元的自变量,有可能还有其他的影响变量存在。通常情况下,影响的因素往往都不止一个,现假设,,,,,,6个因素分别为年龄、吸烟、喝酒、熬夜、性别、身高,这也是我们平常生活中最常见的,能想到比较有关联的几个因素,然后考虑用如下的线性关系式来表达:(7)这几个因素作为自变量与体重这个因变量一起利用Excel进行多元线性回归分析,如下表5:表5体重和年龄、吸烟、喝酒、熬夜、性别、身高进行多元线性回归的分析表回归统计MultipleR0.59596RSquare0.355169AdjustedRSquare0.333554标准误差7.434278观测值186方差分析dfSSMSFSignificanceF回归分析65449.031908.171816.4324.79E-15残差1799893.0655.26849总计18515342.09Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept-24.713620.35167-1.214330.226222-64.873715.44645-64.873715.44645XVariable10.0601350.3548090.1694860.865606-0.640010.760281-0.640010.760281XVariable2-0.995852.806062-0.354890.723089-6.533064.54137-6.533064.54137XVariable30.8258613.0085760.2745020.784015-5.110986.7627-5.110986.7627XVariable40.6665521.2156460.5483110.584161-1.732293.065394-1.732293.065394XVariable55.5214961.8155673.0411970.002711.9388289.1041631.9388289.104163XVariable60.4618890.1087134.2487173.45E-050.2473660.6764120.2473660.676412这个多元回归方程可以从表中得出:,,,,,,,从而得到相应的表达式:(9)根据表中的多个自变量因素对比,可以看到和的P值是相对较小,显著性比较高的,但还是并不能完全确认影响体重的决定因素,所以继续使用逐步回归,把这6个可能存在的影响因素放在一起,这也是建立多元线性回归模型时经常遇到的。在现实生活中,能影响体重的因素有可能有很多,从方程的角度说希望有显著影响的都能被模型运用,但又希望那些影响不大的因素没有,还有就是希望模型尽可能的简单。下面用附录一数据提供的全部信息,用逐步回归算法来选择变量,建立一个大学生体重的多元线性回归模型。用表示大学生体重,,,,,,,6个因素分别为年龄、吸烟、喝酒、熬夜、性别、身高组成候选变量集合。根据前面的结果可以基本确认性别和身高是对大学生体重最主要的影响因素,首先选取,为初始子集,现在用MATLAB软件来运行逐步回归程序计算,显著性水平(引入变量,移出变量)。程序运行的最后如下图1。在整个图的左上部的显示是用圆点和线段显示各个候选变量的回归系数,估计值和其置信区间,图种蓝色部分的线表示这个变量还在模型中运行,红色部分的线表示变量已经不在模型中运行。图右上部的窗口中可以看到列出了1个三列六行的统计表,这三列分别表示各个候选变量的回归系数估计值、t统计量和P显著值。图片的中间部分是当前模型可输出的常数项的估计值,决定系数,检验值,P值等[10]。图1逐步回归程序运行的最终输出图形大学生体重逐步回归模型最终输出如上图1,包含了和两个自变量。表6逐步回归的最终结果回归系数系数估计值系数置信区间-22.32985.60660.4575最终模型为 (10)可以明显的从图1看到只有和是蓝色,其他都是红色,表明红色的几个都被程序剔除了,只留下了性别和身高,从P值就可以明显的看到其他几个数都是比较大的,只有和是较小的。所以,影响大学生的体重的最大影响因素是性别和身高。3.3预测与分析本文通过Excel对数据进行处理,采用一元线性回归和多元线性回归的最小二乘法通过吸烟、性别、身高等因素对体重影响进行分析,预测大学生体重,然后再用MATLAB进行逐步回归,排除关联性不大的因素,从而得到相应模型数据,根据上文相关预测模型,期预测结果就是公式(10)如下:根据图1,我们可以看到所列出的年龄、吸烟、喝酒、熬夜、性别、身高这6个可能存在的影响因素,最终得出来的结果可以从显著性P值看出,性别是显著,身高是非常显著,从而得出只有性别和身高是影响大学生体重的因素。3.4预测模型的优缺点优点:1、分析法在分析多模型时,更加简单和方便;2、运用回归模型,只要采用的数据和模型是一样的,通过正常的统计方法都可以计算出结果,但在图和表的形式中,数据之间关系的表现出来的解释常常因为不同的作者解释出来的结果都不一样,不同的计算者分析数据画出的拟合曲线很大可能也是和别的计算者不一样的;3、回归分析可以较为精准地计算测量出不同因素之间的程度与回归程度的高低,体现出不同的预测方程式的表现效果;在回归分析法中,多元回归分析法比较适用于现实生活中常见的问题,受多种不同因素综合影响时使用的一种分析法,现实中仅仅只受1个因素的影响的变量的情况是比较少见的,同时我们也要注意在不同模式的适用合理范围也是有所不同的[11]。缺点:有时候在回归分析中,选用多少种不同的自变量和自变量采用不同表达式只是一种主观推测,这影响了可能存在的其他没有想到的影响因素,所以预测模型不能完全表达正确,使得回归分析在某些情况下受到限制,而且数据的多少也有可能影响预测的准确性。所以在模型预测、分析数据以及理论上得出的结果与实际值会存在一定的误差,由于这种误差无法消除,因此就不能得到一个完全精确的预测结果。总结文中采用了线性回归分析法的相关内容来预测大学生的体重,其中主要做了以下研究工作:(1)对S学院数学与应用数学专业同学的体重数据进行了分析拟合预测。(2)主要对S学院数学与应用数学专业同学的体重进行了模型假设,利用线性回归、逐步回归计算等方法来得出相关数据。(3)通过excel和MATLAB软件来分析预测曲线参数估计方程,利用得到的参数估计方程计算出预测值,并将最终得到的预测值进行多元化的比较,最终结果证明了得到的逐步回归模型计算结果的误差用于大学生的体重是有效的。虽然文章中得到的预测模型结果与实际值较为吻合,但是生活中可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年县级医院劳动合同模板重点
- cam工作总结报告2026年避坑指南
- 2026年村安全生产培训内容落地方案
- 植树节的演讲稿15篇
- 2026年行为安全培训内容从零到精通
- 贵阳市乌当区2025-2026学年第二学期五年级语文期中考试卷(部编版含答案)
- 伊春市汤原县2025-2026学年第二学期五年级语文第四单元测试卷(部编版含答案)
- 滨州地区无棣县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 2026年教育平台数据采集协议
- 2026年车间安全员培训考试内容底层逻辑
- 浆砌片石劳务施工合同
- 五年级语文阅读理解32篇(含答案)
- 人民版劳动教育二年级下册全册课件
- 2025年统计学多元统计分析期末考试题库:多元统计分析综合试题
- 《小石潭记》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- 江岸区2023-2024学年下学期期中七年级数学试卷(含答案)
- 核聚变材料研究进展-深度研究
- 互联网十创新创业项目计划书
- 《ABO亚型鉴定》课件
- 手术室应对特殊感染手术的应急预案
- QB-T 1957-2023 铝及铝合金锅
评论
0/150
提交评论