




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘 要 回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。关键词:多元线性回归分析;参数估计;检验abstract regression analysis and analysis of variance is the inquiry and proce
2、ssing of the correlation between two important branches, wherein the regression analysis method is the most commonly used mathematical prediction method, it is the use of statistical data to determine the relationship between the variables, and based on this relationship predict future trends. intro
3、duces a linear regression analysis and multiple linear regression analysis method general way of thinking and the general steps, and use them to research and analysis that we encounter in our life, are difficult to determine as a function relationship between the variables in the solving process, th
4、e regression equation is established by the regression equation to predict.keywords: multiple linear regression analysis; parameter estimation;inspection 目 录摘 要iabstractii目 录iii引言11 回归分析的背景来源及其概念11.1 回归分析的背景11.2 回归分析的基本概念12 线性回归分析模型22.1 一元线性回归的模型22.1.1 回归参数和的估计32.1.2 一元线性回归方程的显著性检验32.2 多元线性回归分析的模型42
5、.2.1 回归参数和的估计52.2.2 多元线性回归分析方程的显著性检验53 实例应用53.1 问题提出53.2 建立模型63.3 关于家庭收入与家庭食品支出的应用63.4 多元线性回归分析在我国民航客运量与其影响因素中的应用8小结12参考文献13谢辞14 引言回归分析是研究生活中多个相关变量变化的一种最常见的数学方法,运用它来解决实际问题,不仅可以使问题简单化 ,还可以对未来的数据进行预测。本文主要将回归分析应用于研究家庭食品支出和家庭收入以及我国民航客运量和国民收入、消费额、铁路客运量、民航航线里程、来华入境人数之间的关系。 1 回归分析的背景来源及其概念 1.1 回归分析的背景 “回归”
6、这一概念是在19世纪80年代由英国的统计学家弗朗西斯高尔顿在研究父代身高和子代身高之间的关系时提出来的。他发现不管父代身高是高或是矮,子代的身高都有回归父辈平均身高的趋势,他把这种现象称作回归。现如今,回归分析已经成为社会科学定量分析研究中最基本、应用最为广泛的一种数据处理方法。它不但可以给出描述自变量和因变量之间相关关系的函数表达式,还可以用来预测因变量的取值。在现实生活中,影响某一现象的因素常常是多方面的。社会科学的研究不可能像自然科学研究那样运用实验的方法来进行解决,人们为了弄清和解释事物之间变化的真实原因和规律,就必须借助一些经验数据并进行整理分析。而回归分析的最大优点恰恰就在于它可以
7、通过统计方法来对干扰因素加以控制,从而帮助我们来发现自变量与因变量之间的关系。1.2 回归分析的基本概念一切运动着的事物都是相互联系、相互制约的,从而,描述事物和事物运动的变量之间也是相互联系、相互制约的。变量之间的关系总体可以分为两类:一类叫做确定关系,即函数关系,它的特征是:一个变量随其他变量的确定而确定。例如球的体积和半径之间的关系;另一类关系叫做相关关系,这类关系的特征是:变量之间的关系很难用一种精确的方法表示出来。例如农业上的施肥量和亩产量之间有一定的关系,但是由施肥量不能精确地算出亩产量,由亩产量也不能精确地计算出施肥量。而回归分析就是用来处理和描述这种相关关系的。那么,什么是回归
8、分析呢?我们大家都知道,数学分析和高等数学是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析则是研究随机变量之间的相关关系的一种数学方法。它是最常用的数理统计方法,能解决决策、控制、生产工艺优化等问题。目前,回归分析在工农业生产及科学研究中有着极其广泛的作用,同时也在实验数据的处理、经验公式的推导、产品的统计质量管理、市场的预测、气象预报和医学卫生等许多领域都常常会运用回归分析。回归分析主要研究的内容是:(1)从一组数据出发,确定这些变量(参数)之间的定量关系,所得到的表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)在有关的许多变量中,判断变量的显著性,即哪
9、些是显著的,哪一些是不显著的,显著地保留,不显著的忽略;(4)利用所求得的回归方程进行预测和控制。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和多个自变量时,叫做多元回归分析。另外,依据描述自变量和因变量之间的函数关系是线性的还是非线性的,把回归分析又分为线性回归分析和非线性回归分析。本文主要研究线性回归分析。2 线性回归分析模型线性回归分析是回归分析中较为简单的一类,并且它在现实生活中的应用及其泛。线性回归分析则是研究和处理变量之间的线性相关关系的数学方法。根据所研究自变量的多少,可以将线性回归分析分为一元线性回归分析和多元线性回归分析
10、。2.1 一元线性回归的模型一元线性回归模型又称简单直线回归模型,它是根据成对的两种变量的数据,配合直线方程式,根据自变量的变动,来推算因变量发展趋势和水平的方法。它是研究相关的两种数量变动与存在关系的一种方法。一元线性回归模型的一般形式: (1) 上式中,表示随的变化而线性变化的部分,是随机误差,是其它一切不确定因素影响的总和,它的值是不可测的,通常假定服从,称函数为一元线性回归函数。为回归常数,为回归系数,他们统称为回归参数。其中称为回归自变量或回归因子;称为回归因变量或响应变量。 若,是的一组观测值,那么一元线性回归模型可表示为: 上式中, , , 2.1.1 回归参数和的估计 用最小二
11、乘法估计的值,即取它们的一组估计值,使其随机误差的平方和达到最小,即使与的最佳拟合。若记则显然有并且关于可微,则由多元函数存在极值的必要条件得 则称为的最小二乘估计,其中 , 于是可得到经验回归方程 。 其中有 , 则是的无偏估计。2.1.2 一元线性回归方程的显著性检验 根据回归方程求出估计值以后,现在的问题是:与之间是否确实存在这种线性关系呢?也就是说是否为,这就需要对回归方程作显著性检验。显著性检验法有检验法、检验法和检验法,而检验法是最常用、最基本的检验方法。只要判断出与的大小即可,当时,则说明的假设不成立,即模型中的一次项是必要的。换而言之,模型对水平而言是显著的,反之就是不显著的。
12、经过检验,当回归方程有意义时,便可用它来进行预测。当给定时求出预测值即可。2.2 多元线性回归分析的模型线性回归模型适合于分析一个因变量和多个自变量之间的相关关系。现假设一个回归模型中有个自变量,即有, 则该回归模型可以表示为: (2)其中服从,并且独立同部分布。上式中,表示个体在因变量中的取值,为截距的总体参数,为斜率的总体参数。由于该回归模型中包含多个自变量,因此将(2)式称为多元线性回归模型。 如果我们定义一下的矩阵: 此时,我们可以采用矩阵的表达形式,将一般的多元线性回归模型表示为: (3)上面的式子也常常简记为:。这里,表示因变量的向量,表示总体参数的向量,表示由所有自变量和一列常数
13、1所组成的矩阵, 则表示随机误差变量的向量。2.2.1 回归参数和的估计类似于一元线性回归分析的参数估计,求多元线性回归分析的回归系数的估计值,就是求最小二乘函数达到最小的值。于是可求得的最小二乘估计 。从而可得经验回归方程 ,称为残差向量。通常有为的最小二乘估计。2.2.2 多元线性回归分析方程的显著性检验假设不全为0。当成立时,构造统计量服从,对于给定的显著性水平(一般取值为0.01或0.05),检验的拒绝域为。当多元线性回归方程经过检验是显著的之后,并且其中每一个系数均显著不为0时,便可以用此方程进行预测。即给定,将其代入回归方程,可得到:。3 实例应用3.1 问题提出食品是人们生活中不
14、可缺少的。每个家庭都必须在食品支出上加以重视,然而,一个家庭的收入是该家庭食品支出的先决条件。也就是说,家庭收入影响着家庭食品支出。那么它们之间到底有什么关系呢?另外,在现实生活中,影响某一变量的因素不止一个,有时候从表面上看,诸多的因素好像都与某一因变量有着某种相关关系,其实不然。在这些因素中有的因素对该变量是显著性的或起决定性作用,而有的因素则是不显著的。要解决这类问题,我们就必须借助于多元线性回归。例如:在我国民航客运量的研究中,影响民航客运量的因素是多方面的,其中包括国民收入、铁路客运量、民航航线里程等。下面本文将分别解决以上的两个问题。3.2 建立模型 假设家庭收入为,家庭食品支出为
15、,那么可以设这两种变量之间的关系为:,其中为回归参数,是随机误差,并且服从; 假设我国民航客运量为,国民收入、消费额、铁路客运量、民航航线里程和来华旅游入境人数分别为,和。则设变量之间的关系为:,其中为回归参数为不可测量的误差变量。3.3 关于家庭收入与家庭食品支出的应用 为了研究家庭收入和该家庭食品支出之间的关系,随机调查了10个家庭,所得数据如下:家庭收入和食品支出数据 单位:百元12345678910家庭收入20303240152613383540食品支出76812911410910首先设家庭收入为(单位:百元),家庭食品支出为(单位:百元)根据题中所给出的数据,我们可以画出散点图,由图
16、我们可只看出,家庭收入与家庭食品支出之间存在线性关系。表3.1 样本数据计算表序号 家庭收入 食品支出 1 20 7 400 49 1402 30 6 900 36 180 3 30 8 1024 64 2564 40 12 1600 144 4805 15 9 225 81 1356 26 11 676 121 2867 13 4 169 16 52 8 38 10 1444 100 3809 35 9 1225 81 31510 40 10 1600 100 400 289 84 9263 792 2624 通过以上计算可以得到家庭食品支出对家庭收入的样本回归方程是: 该方程说明,当收入为
17、零时,家庭的食品支出也必须有2.1056元。这部分的支出可看作是基本支出或固定支出水平;在一定的范围内,收入每增加100元,食品支出就增加21.78元。用检验法进行显著性检验,取显著水平。因为 拒绝域为 ,而所以拒绝,也就是说家庭收入对家庭食品支出有着显著的影响。取,即当家庭收入为4200元时,食品支出的预测值为:(百元)置信度为95%的预测区间为 通过计算可以得到,因此可得预测区间为:(4.3518,18.1546),即有95%的把握估计当家庭收入为4200元时,家庭食品支出额在435到1815.46元之间。3.4 多元线性回归分析在我国民航客运量与其影响因素中的应用为了研究我国民航客运量的
18、变化趋势及其成因,现以民航客运量作为因变量,以国民的收入、消费额、铁路客运量、民航航线里程以及来华旅游入境人数作为影响国民航客运量的主要因素。根据2004年统计摘要可以获得1988-2003年统计数据见下表4.2。 表4.2 民航统计数据表年份 /万人 /亿元 /亿元 /万人 / 万km /万人 1998 231 3010 1888 81491 14.89 180.921989 298 3350 2195 86389 16.00 420.391990 343 3688 2531 92204 19.53 570.251991 401 3941 2799 95300 21.82 776.71199
19、2 445 4258 3054 99922 23.27 792.431993 391 4726 3358 106044 22.91 947.701994 554 5652 3905 11353 26.02 1285.221995 744 7020 4879 112110 27.72 1783.301996 997 7859 5552 108579 32.43 2281.951997 1310 9313 6386 112429 38.91 2690.231998 1442 11738 8038 122645 37.38 3169.481999 1283 13176 9005 113807 47.
20、19 2450.142000 1660 14384 9663 95712 50.68 2746.202001 2178 16557 10969 95081 55.91 3335.502002 2886 20223 12985 99693 83.66 3311.502003 3383 24882 15949 105458 96.08 4152.70运用回归分析的方法分析上面的所给出的一系列数据,并且建立多元线性回归模型并用matlab软件进行解决。建立回归分析模型,定义民航客运量为,国民收入、消费额、铁路客运量、民航航线里程和来华旅游入境人数分别为,和.设变量之间的关系为: 其中为不可测量的误差
21、变量。根据统计数据,利用matlab计算出回归系数。具体如下:231 298 343 401 445 391 554 744 997 1310 1442 1283 1660 2178 2886 3383 ;3130 1888 81491 14.89 180.92;3350 2195 86389 16.00 420.39;3688 2531 92204 19.53 570.25;3941 2799 95300 21.82 776.71;4258 3054 99922 23.27 792.43;4736 3358 106044 22.91 947.70;5652 3905 11353 26.02
22、1285.22;7020 4879 112110 27.72 1783.30;7859 5552 108579 32.43 2281.95;9313 6386 112429 37.38 3169.48;13176 9005 113807 47.19 2450.14;14384 9663 95712 50.68 2746.20;16557 10969 5081 55.91 3335.65;20223 12985 99693 83.66 3311.50;24882 15949 105458 96.08 4152.70; ;计算出: 回归系数;因此所得的多元线性回归方程为:;该方程中的,都有明确的含
23、义。例如说:当0.5196时则表示国民收入每增加1亿元,在其他条件不变的情况下,民航客运量就会增加0.5196万人。运用检验法对回归方程进行检验,经过计算可得,取显著性水平,查分布表得,因为。故拒绝,表明线性回归方程高度显著,即就说明,整体上对有显著的影响。对回归系数进行显著性检验,,代入公式,。计算得:给定,查分布表得,其中,均大于所查表的值,而,这样的结果说明回归系数中,,,对有显著性影响,而对无显著影响,这说明铁路客运量对民航客运量无显著影响。此时,该多元线性回归模型中可以剔除铁路客运量的影响,从而得到新的线性回归模型为:再经过检验可知,所有的回归变量均对有显著性影响,并且可以计算出复相
24、关系数。因为复相关系数接近1,则可认为与之间相关关系显著,说明拟合程度很高,故该模型的预测值和真实值之间很接近。经过调查,已知2010年的国民收入为30782亿元,总的消费额为22351亿元,民航航线里程为198463万km,来华旅游入境人数是5268.46万人。即有1 30782 22351 18463 5268.46; 因而可得2010年民航客运量的预测值为:万人。即预计,2010年我国民航客运量可达到4585万人。 然而,线性回归分析主要解决实际问题中的具有相关关系的变量,在某一范围之中,这种线性关系可以一直维持着,但实际生活中的问题,并不总是如我们所想的那样,它总会有一个极限。当某一变
25、量达到上限的时候,就不会和其他的变量再次呈现线性关系了。此时,线性回归分析的方法就不可用了。那么,当我们遇到这种问题时,就不得不采用控制的方法加以解决。对于我国民航客运量的问题中,在国民收入、消费额、铁路客运量一定的前提条件下,当民航客运量时,来华旅游入境人数应控制的范围由方程组 其中所确定,即分别解出,可以作为控制的上下限。小结在现实生活中,当我们遇到几个变量之间的关系无法用函数形式确定的时候,我们便会尽可能多的去调查和搜集与此相关的一些数据,然后再利用回归分析的方法去研究和分析这些数据之间的关系。本文首先介绍了线性回归分析的来源、阐述及其分类,另外,重点让我们了解了一元线性回归分析和多元线
26、性回归分析在数学建模中的一般步骤和一般思想。在运用回归分析解决问题的过程中,最关键的是对其线性回归方程中的参数进行估计。然而对于参数估计的方法,我们通常采用的是最小二乘法的原则,在必要的情况下,通常也借助于matlab软件进行相应的计算,从而得到相应的线性回归方程,并对方程和回归系数进行显著性检验,最后进行预测。 在本文中,主要研究了家庭收入与家庭食品支出之间的线性关系、我国民航客运量与国民收入等多个因素的线性关系,通过对它们所提到数据的分析和研究,并建立相应的数学模型,进而可以得出线性回归方程,通过显著性检验之后,并分别计算出家庭收入为4200元时家庭食品支出的预测和2010年我国民航客运量的预测。通过计算的这两个实例分别体现了一元线性回归分析和多元线性回归分析在数学建模中的应用。在此过程中,我们可以明确地得到运用回归分析解决实际问题的一般步骤:第一步,根据所给数据确定相关变量,第二步,假设线性回归模型,第三步,对模型中的回归参数进行估计,第四步,检验显著性,第五步,依据回归方程进行预测,最后,将建立的回归模型应用于实际生活生产中。参考文献【1】 薛毅主编. 数学建模基础. 北京工业大学出版社 2005.1 【2】 杨虎 ,钟波 , 刘琼荪 编
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论