回归分析(5)讲解课件_第1页
回归分析(5)讲解课件_第2页
回归分析(5)讲解课件_第3页
回归分析(5)讲解课件_第4页
回归分析(5)讲解课件_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章 非线性回归8/9/20221 线性回归的理论较为成熟,应用也较为广泛。但当被解释变量与解释变量之间呈某种曲线关系时,就必须用非线性回归。 本章首先介绍可线性化的非线性回归,然后介绍多项式回归,最后简要介绍了一般的非线性回归模型。8/9/202221 可线性化的非线性回归8/9/202231. 线性化的含义及途径 因为线性回归的“线性”是针对参数而言,而不是针对自变量而言,所以有些非线性回归模型可以通过变量代换转化为线性回归模型。 例如,8/9/20224 对模型1,只要令 即可化为线性回归模型 对模型2,令原模型化为多元线性回归模型8/9/20225 对模型3,可先两边取对数,得然后

2、再令原模型化为线性回归模型8/9/20226 (1) 新引进的自变量只能依赖于原始变量,而不能与未知参数有关。若模型1中的b未知,则模型1不能线性化。 可线性化的非线性回归模型称为本质线性回归模型,不可线性化的非线性回归模型称为本质非线性回归模型。8/9/20227 (2) 非线性化模型能否线性化不仅与回归函数的形式有关,而且与误差项的形式也有关。 例如,模型3的误差项为乘性误差项,可以线性化,而模型4的误差项为加性误差项,不可以线性化。 在对非线性回归模型进行线性化时,总是假定误差项满足可线性化条8/9/20228析,所以通常略去误差项,而仅写出回归函数。 例如,模型3常简记为 。2. 常用

3、可线性化的曲线回归方程 SPSS中给出了11种常见的可线性化的非线性回归方程,见下表。8/9/202298/9/202210 显然,上述曲线中的复合函数、增长函数和指数函数等价,只是形式不同。 若选用上述曲线进行回归,只需选用分析-回归-曲线估计菜单即可,而不必做任何变换。 除了上述曲线外,还有下列几种常用回归曲线。8/9/202211 (1) 双曲函数8/9/202212 (2) S型函数II8/9/202213 此函数显然有两条渐近线y=0和y =1/a。 S型函数有多种,其共同特点是曲线首先缓慢增长,在达到某点后迅速增长,在超过某点后又缓慢增长,最终趋于一个稳定值。 S型函数在许多领域都

4、有广泛的应用,例如产品的销售量、农作物的8/9/202214生长、病毒的传播速率与时间的关系等都可以用S型函数研究。 SPSS中的S型函数y=exp(b0+b1/t)当b10时不属通常意义的S型函数。 另外,SPSS中的Logistic函数也是S型函数。8/9/202215 例10.1 对下表中的GDP数据进行非线性回归。 解 首先做数据散点图。 分析-回归-曲线估计。 分别选线性和复合函数进行回归,结果见下。8/9/202216 年份tyy1e198114862.44296.35566.05 198225294.75123.04171.66 198335934.56108.80-174.30

5、 198447171.07284.24-113.24 198558964.48685.86278.54 1986610202.210357.16-154.96 1987711962.512350.06-387.56 1988814928.314726.42201.88 1989916909.217560.04-650.84 19901018547.920938.89-2390.99 19911121617.824967.89-3350.09 19921226638.129772.14-3134.04 19931334634.435500.81-866.41 19941446759.442331

6、.774427.63 19951558478.150477.138000.97 19961667884.660189.807694.80 19971774462.671771.352691.25 19981879395.785581.38-6185.68 8/9/202217 数据散点图8/9/202218 线性回归8/9/202219 指数回归8/9/202220 回归效果图8/9/202221 需要说明的是,回归分析的一个重要应用是预测,而预测的方法有多种,如拟合(回归)、灰色模型、时间序列和神经网络等。 相比较而言,Origin的拟合功能更强,提供了更多的线型,可以图形的帮助下选择较合适

7、的线型。8/9/202222 Origin拟合效果图8/9/2022232 多项式回归8/9/202224 多项式回归是一种较为重要的非线性回归模型,有较广泛的应用。1. 几种常见的多项式回归模型 常见的多项式回归模型有一元二次模型和一元三次模型8/9/202225 三次及以上的多项式回归模型较少使用,因为此时回归系数的解释比较困难,回归模型的数值稳定性也不太高,不利于应用。 多元多项式回归比较复杂,较少使用。二元多项式回归模型为8/9/2022262. 多项式回归应用实例 例10.2 根据下表研究给定年龄组内经理的人寿保险额y与年均收入x1和风险反感度x2的关系。 研究者认为年均收入与人寿保

8、险额有二次关系,风险反感度与人寿保险额只有线性关系,年均收入风险反感度对人寿保险额有无交互效应不得8/9/202227而知。 为此,研究者选用二元二次多项式回归模型并检验交互效应和风险反感度的二次效应。8/9/202228 序号x1x2y166.297196240.964563372.99610252445.01684557.2044126626.852514738.122449835.84649975.79692661037.4085491154.37621051246.1867981346.134771430.3663141539.065561679.3812451752.76681331

9、855.9166133数据表8/9/202229 为了清楚地看到各项对回归的贡献,使显著性检验更加明确,采用逐个引入自变量的方法。 首先由x1和x2的值求出的值,然后用下列方法依次引入变量 : 先选入y和x1, 然后下一张,再选入x1, x2 , 然后再下一张, 再选入 ,8/9/202230 以此类推。方差分析表如下:8/9/202231 根据下列公式计算得偏F统计量8/9/202232 下面检验交互效应和风险反感度的二次效应。 因为交互影响项系数显著性检验的偏F值=2.00,临界值F(1,2)=4.75,交互影响项系数没通过显著性检验,所以回归模型中不应该包含交互作用项x12。 又风险反感

10、度二次效应项的偏F=8/9/2022330.93,临界值F(1,13)=4.67,也没通过显著性检验,所以回归模型中也不应该包含二次效应项 。 类似可验证, 项通过显著性检验。 综上,最终选用下列回归模型8/9/202234具体回归方程为 其标准化形式为8/9/202235 例10.3 用均匀设计法研究从烤烟中提取粗蛋白的实验条件。目标变量y是提取的蛋白质尝试,三个实验因子分别为:提取液pH值x1,提取时间x2的,提取温度x1。 采用U7(73)均匀设计表, 试验安排与结果如下表:8/9/202236 x1x2x3y10.0032.00100.008.501.568.0080.005.8013

11、.1048.0060.0073.606.0024.0045.002.200.862.0035.008.3012.4040.0020.0019.603.0016.0010.003.50数据表首先做三元线性回归,结果如下:8/9/202237 线性回归8/9/202238 显然,回归效果极差。 可将所有项选入,然后选择逐步回归法,结果如下:8/9/202239 逐步回归8/9/202240 8/9/202241 8/9/202242 具体回归方程为 其标准化形式为8/9/202243 从标准化回归方程中可以看出,四个变量的作用由大到小依次为: 。 根据回归方程分析,提取时间还有必要延长; 提取温度

12、和提取液pH值有交互作用,且系数为正,故较高的温度更有利于提取蛋白;pH值应稍低些更佳。8/9/202244 由于本例中最好的实验条件是根据前述分析,影响蛋白提取浓度的最主要因素是提取时间,提取时间应在48h以上;提取液pH值是第二重要因素,pH值应比13.10再低些;提取温度应该控制在60C以上。8/9/202245 类似于例10.3寻找最优生产条件的问题在医药、食品行业较为常见。解决此类问题较适当的方法是将试验设计方法与回归分析方法相结合响应面分析。 相关内容见下学期的试验设计与分析课程。8/9/2022463 非线性回归模型8/9/2022471. 非线性最小二乘估计 非线性回归模型一般

13、可记为其中 是因变量, 是自变量, 是未知参数向量, 是随机误差项并满足独立同分布假设,即8/9/202248 如果 ,即为线性模型,且必然有k=p;对于一般情况的非线性模型,参数的数目与自变量的数目并8/9/202249没有对应关系。 对非线性回归模型,估计参数的方法仍为最小二乘法,即求使得达到最小的 ,称为 的非线性最小二乘估计。8/9/202250 当 f 对 可微时,可以建立正则方程组上述方程组的解即为 。8/9/202251 正则方程组往往是非线性方程组,没有解析解法,一般用Gauss-Newton迭代法求其数值解。 在实际中,可用统计软件完成非线性最小二乘估计。同时,还可以得到近似

14、的参数的区间估计和显著性检验、回归方程的显著性检验等结果。 在非线性回归中,平方和分解式8/9/202252SST=SSR+SSE不再成立。 类似于线性回归中的判定系数,定义非线性回归的相关比 相关比也称为相关指数。8/9/2022532. 非线性回归模型的应用 例10.4 一位药物学家使用下面的非线性模型拟合药物反应:其中自变量x是药剂量,用级别表示;因变量y是药物反应程度, 用百分比表8/9/202254示。三个参数 均非负。 根据专业知识, 的上限是100%,三个参数的初始值取为测得9个反应数据如下:请拟合出回归方程。8/9/202255 数据散点图8/9/202256 分析-回归-非线

15、性。 选y为因变量,录入模型表达式c0-c0/(1+(x/c2) * c1)输入参数及初始值。 回归结果如下:8/9/202257 8/9/202258 8/9/202259 从残差和R2可看出,回归的效果较好,回归方程为8/9/202260 例10.5 Gompertz模型计量经济学中的一个常用模型,可用来拟合销售量增长。Gompertz模型的形式为其中L为销售量增长上限。 下表中给出了某商品销售数据,用Gompertz模型进行拟合。8/9/202261 数据表年份ty19610190319621252019632268819643197519654195719665249819676302

16、01968748091969852051970942908/9/202262 年份ty197110393319721145671973125429197413542619751461371976156522197716736419781773191979187485198019798619812074708/9/202263 数据散点图8/9/202264 由于求解非线性回归最小二乘的正则方程组需要用到Gauss-Newton迭代法,而迭代法往往是局部收敛的,所以需要选择合适的参数初值。 对于随意选定的参数初值,回归的效果并不好。下面给出取特定初值的回归结果。8/9/202265 8/9/20

17、2266 其实,也可以用Origin进行拟合以获得更好的拟合效果。 下面给出采用BiDoseResp函数的Origin拟合结果。8/9/202267 BiDoseResp拟合图8/9/202268第11章 含定性变量的回归模型8/9/202269 在实际问题的研究中,经常遇见一些非数量型变量。例如,性别中的男女;正常年份和干旱年份;战争与和平;改革前后等。 非数量型变量称为定性变量。在建立经济问题的回归模型时,常常需要考虑定性变量,如建立粮食产量预测模型时就应考虑正常年份与受灾年8/9/202270份的不同影响。 本章主要介绍自变量含定性变量和因变量含定性变量的回归模型。8/9/2022711

18、 自变量含定性变量回归模型8/9/202272 在回归分析中,对自变量是定性变量的情形可先给予数量化处理。处理方法是引进只取0和1两个值的虚拟自变量将定性变量数量化。当某一属性出现时,虚拟变量取值1,否则取值0。1. 简单情况 首先讨论定性变量只取两个可能8/9/202273值的简单情况。例如,研究粮食产量问题,y为粮食产量,x为施肥量。另外再考虑气候条件,分为正常年份和干旱年份两种情况。 令Di=1表示正常年份,Di=0表示干旱年份,回归模型为其中干旱年份的粮食平均产量为8/9/202274正常年份的粮食平均产量为 这里假设无论正常年份还是干旱年份,施肥量增加一个单位,粮食产量都增加相同的数

19、量 。8/9/202275 例11.1 某学者想调查文化程度对家庭储蓄的影响,在一个中等收入的样本中,随机抽查了13户高学历家庭与14户低学历家庭,调查数据如下。 因变量y是上年家庭储蓄增加额,自变量x1是上年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。8/9/202276 序号y/元x1/万元x212352.3023463.2133652.8044683.5156582.6068673.21710852.60812363.41912382.201013452.811123652.301223653.711332564.011432562.908/9/20227

20、7 序号y/元x1/万元x21532653.811632654.611735674.211836583.711945883.502064364.812190475.012279854.202389503.902498654.802598664.6026102354.8027101404.208/9/202278 8/9/202279 8/9/202280 回归方程为 如果不引入家庭学历定性变量x2,仅用家庭收入x1作一元线性回归,则R2=0.618,残差也较大。 这个结果表明,中等收入家庭每增加1万元收入,平均拿出3826.13元作为储蓄。高学历家庭每年的平均储8/9/202281蓄额少于低学

21、历的家庭3700.33元。 但如果仅从样本数据考虑,高学历家庭的平均年储蓄增加额为3009,低学历家庭的平均年储蓄增加额为50 59,两者的差为2050,与用回归方程得出的结果差别较大。 出现上述差异的原因在于,回归方程假设了所有家庭年收入相等,即8/9/202282消除了家庭年收入的影响,因而反映了两者储蓄额的真实差异。2. 复杂情况 当定性变量取n(n2)个值时,可以考虑引入n个0-1型自变量。 例如,某商厦策划营销方案,需要考虑销售额的季节影响。为了用定性变量反映春夏秋冬四季,引入了四8/9/202283个0-1型自变量: 但由于这4个变量的和为1,产生了完全多重共线性。 解决上述问题的

22、方法是,去掉一8/9/202284个0-1型变量。 通常,定性变量有n类可能时,只需引入n1个0-1型变量。当n=2时,引入一个0-1型变量即可。8/9/2022852 含定性变量回归模型的应用8/9/2022861. 分段回归 在实际中,有时会遇见某些变量在不同的影响因素范围内变化趋势截然不同的情形。例如经济问题涉及经济政策有较大调整时,调整前后的变化幅度会有很大不同。对于此类问题,有时用多种曲线拟合效果仍不能令人满意。如果作残差分析,会发现残差8/9/202287并不随机,而是有一定的系统性。对于此类问题,可考虑用分段回归进行处理。 例11.2 下表给出了某工厂生产批量x与单位成本y的数据

23、,试用分段回归建立回归模型。8/9/202288 序号y/元x1x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800数据表8/9/202289 散点图8/9/202290 从散点图中可以看出,数据的线性性较好,可以用线性回归。线性回归的指标及残差图见后。 回归指标显示,回归方程的显著性较高,且不存在自相关性。对残差值与x1的Spearman检验结果表明,也不存在异方差性。8/9/202291 线性回归指标8/9/202292 线性回归残差图8/9/202293 散点图显示,批量超过500

24、后,成本下降的速率似乎变快,所以也可以考虑用分段的方法进行回归。 建立回归模型其中8/9/202294 若引入两个新自变量则原回归模型变为二元线性回归模型此模型可分为两个一元回归模型: 当x1500时, 当x1500时,8/9/202295分段回归示意图8/9/202296 分段回归指标8/9/202297 从分段回归指标中可以看出,分段回归的效果并不太好。其实,由于 的显著性概率为0.153,没有通过显著性检验,即不能认定 ,换句话说,不能认定本例适用于分段回归。8/9/2022982. 回归系数相等的检验 例11.3 在例11.1中,假设高低学历家庭的年收入均相等,即回归斜率 与学历无关。

25、实际上,这个假设是否合理需要检验。检验的方法是引入如下含有交互效应的回归模型8/9/202299其中,y是上年家庭储蓄增加额,x1是上年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。 此模型可分为两个线性回归模型 高学历家庭x2=1:8/9/2022100 低学历家庭x2=0: 显然,高学历家庭的回归系数为 ,低学历家庭的回归系数为所以检验两个回归方程的回归系数相等,等价于检验交互回归模型中的=0。8/9/2022101 交互模型回归指标8/9/2022102 由于交互项显著性概率为0.247,故应接受原假设,即认为 ,在例11.1中,假设高低学历家庭的年收入相等

26、是正确的。8/9/20221033 因变量是定性变量的回归模型8/9/2022104 在有些社会经济问题中,因变量只有两个可能结果。这样的因变量也可用虚拟变量表示,虚拟变量的取值可以0或1。 例如,给出200个不同年龄和性别的人对某项服务的认可数据,其中, 年龄是连续变量,性别是定性变量,男女分别用1和0表示,而观点则为包8/9/2022105括认可(用1表示)和不认可(用0表示)两个水平的定性变量。试根据数据研究用户对服务的认可度。 显然,从简单的图形中很难找到结论。解决此类问题的一种方法就是因变量包括定性变量的回归模型。8/9/2022106 年龄观点散点图8/9/2022107 性别观点

27、条形图8/9/20221081. 定性因变量回归方程的意义 在前例中,若将一次调查看成一次Bernoulli试验,则认可度即为试验成功的概率p,只不过这里的p为年龄和性别的函数。 下面讨论因变量为定性变量的回归方程的意义。 考虑简单线性回归模型8/9/2022109因为yi是0-1型Bernoulli随机变量,分布律为其数学期望即因变量y的均值为因变量y取1时的概率。8/9/20221102. 定性因变量回归的特殊问题 常规回归模型如多项式回归不适用于因变量为定性变量的回归方程,原因如下: (1) 对于任意给定的自变量值, 因变量只取两个值,误差项也只取两个值,自然不满足回归模型的假设。 (2

28、) 因为8/9/2022111即随机误差的方差与自变量有关,从而存在异方差。 (3) 显然, 因变量y的均值介于0和1之间, 而常规回归模型无法满足这个限制条件。8/9/20221124 Logistic回归8/9/2022113 解决因变量为定性变量回归模型中问题的常用方法是Logistic回归。1. 分组数据的Logistic回归 当数据量较大时,可能不便于提供因变量的所有取值,而只能提供因变量对自变量的汇总数据,称之为分组数据。 此时,可采用下列方法进行回归:8/9/2022114 (1) 选用Logistic函数做为回归函数,从而使得回归函数值介于0到1之间。 (2) 因为没有提供因变

29、量的具体值,加之回归值本身即为某种平均值,所以在此情况下可以用因变量等于1的8/9/2022115比例做为因变量。 下面给出Logistic函数的图形及一个例子,以说明如何进行分组数据的Logistic回归。8/9/2022116 Logistic图形8/9/2022117 Logistic图形8/9/2022118 例11.4 在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的三个月内,只有一部分顾客确实购买了房屋。购买房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的家庭年收入为自变量,建立Logistic回归模型。8/9/2022119 数据表序号年家庭收

30、入签订意向人数实际购房人数实际购房比逻辑变换权重11.52580.32 -0.75 5.4422.532130.41 -0.38 7.7233.558260.45 -0.21 14.3444.552220.42 -0.31 12.6955.543200.47 -0.14 10.766.539220.56 0.26 9.5977.528160.57 0.29 6.8688.521120.57 0.29 5.1499.515100.67 0.69 3.338/9/2022120 数据表中并没有给出每人是否实际购房情况,而是给出了与每个收入对应的签订购房意向及实际购房的汇总数据,即分组数据。 可用下

31、列Logistic函数进行回归:8/9/2022121其中c为分组数据的组数。 做Logit变换则Logistic回归方程变为线性模型 对“逻辑变换”和“年家庭收入”做线性回归的结果见下。8/9/2022122 回归指标8/9/2022123 回归方程为 当x0=8时, ,即年收入8万元且签订了购房意向的家庭,其购房概率为0.590。8/9/2022124 虽然前面的Logistic回归模型解决了定性因变量回归问题,但存在一个缺陷,即没有解决异方差问题。 可以用加权最小二乘估计解决异方差问题。 可证,权 。8/9/2022125 加权回归指标8/9/2022126 用加权最小二乘得到的Logi

32、stic回归方程为 当x0=8时, 。8/9/20221272. 未分组数据的Logistic回归 分组数据的Logistic回归的拟合精度不太高。对于未分组原始数据,可直接用最大似然估计进行Logistic回归。 设y是0-1型变量,x1,x2,xp是与y相关的确定性变量,(xi1,xi2,xip;yi)是n组观测值,yi与xi1,xi2,xip的关系8/9/2022128为其中 由于yi是0-1型随机变量,分布律为8/9/2022129似然函数取对数,得8/9/2022130 对于Logistic回归,将代入,得8/9/2022131 能够使得上式达到最大值的估计值 即为 的最大似然估计。

33、 SPSS在Logistic回归中提供了求解上述最大似然估计的功能。8/9/2022132 例11.5 在一次关于公共交通的社会调查中,一个调查项目是“乘公交还是骑自行车上下班”。因变量y=1表示乘公交,y=0表示骑自行车,自变量x1是年龄;x2是月收入;x3是性别, x3=1表示男性,x3=0表示女性。数据见下表,建立Logistic回归模型。8/9/2022133 序号性别年龄月收入y10188500202112000302385014023950150281200160318500703615001804210001904695011004812000110551800112056210

34、0113058180011411885008/9/2022134 序号性别年龄月收入y15120100001612512000171271300018128150001913095012013210000211331800022133100002313812000241411500025145180012614810000271521500128156180018/9/2022135 由于月收入不显著,将其剔除后再做回归,结果如下:回归指标8/9/2022136 此时,年龄、性别均显著,最终的回归方程如下:回归指标8/9/2022137 因为 随x1, x3的增大而增大, 减小,所以年龄越高乘

35、车比例越高,女性乘车比例高于男性。8/9/2022138 例11.6 城市的居民家庭,按其有无割草机分为两组,有割草机的一组记为z1,没有割草机的一组记为z2,割草机厂家欲判断一些家庭是否将购买割草机。从z1和z2中分别随机抽取12个样品,调查两项指标:x1表示家庭收入,x2表示房屋前后面积。数据见下表,建立Logistic回归模型。8/9/2022139 数据表z1z2x1x2x1x220.0 9.2 25.0 9.8 28.5 8.4 17.6 10.4 21.6 10.8 21.6 8.6 20.5 10.4 14.4 10.2 29.0 11.8 28.0 8.8 36.7 9.6 16.4 8.8 36.0 8.8 19.8 8.0 27.6 11.2 22.0 9.2 23.0 10.0 15.8 8.2 31.0 10.4 11.0 9.4 17.0 11.0 17.0 7.0 27.0 10.0 21.0 7.4 8/9/20221408/9/20221418/9/2022142 第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论