




已阅读5页,还剩145页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章非线性回归 28 03 2020 2 线性回归的理论较为成熟 应用也较为广泛 但当被解释变量与解释变量之间呈某种曲线关系时 就必须用非线性回归 本章首先介绍可线性化的非线性回归 然后介绍多项式回归 最后简要介绍了一般的非线性回归模型 1可线性化的非线性回归 28 03 2020 4 1 线性化的含义及途径因为线性回归的 线性 是针对参数而言 而不是针对自变量而言 所以有些非线性回归模型可以通过变量代换转化为线性回归模型 例如 28 03 2020 5 对模型1 只要令即可化为线性回归模型对模型2 令原模型化为多元线性回归模型 28 03 2020 6 对模型3 可先两边取对数 得然后再令原模型化为线性回归模型 28 03 2020 7 1 新引进的自变量只能依赖于原始变量 而不能与未知参数有关 若模型1中的b未知 则模型1不能线性化 可线性化的非线性回归模型称为本质线性回归模型 不可线性化的非线性回归模型称为本质非线性回归模型 28 03 2020 8 2 非线性化模型能否线性化不仅与回归函数的形式有关 而且与误差项的形式也有关 例如 模型3的误差项为乘性误差项 可以线性化 而模型4的误差项为加性误差项 不可以线性化 在对非线性回归模型进行线性化时 总是假定误差项满足可线性化条 28 03 2020 9 析 所以通常略去误差项 而仅写出回归函数 例如 模型3常简记为 2 常用可线性化的曲线回归方程SPSS中给出了11种常见的可线性化的非线性回归方程 见下表 28 03 2020 10 28 03 2020 11 显然 上述曲线中的复合函数 增长函数和指数函数等价 只是形式不同 若选用上述曲线进行回归 只需选用分析 回归 曲线估计菜单即可 而不必做任何变换 除了上述曲线外 还有下列几种常用回归曲线 28 03 2020 12 1 双曲函数 28 03 2020 13 2 S型函数II 28 03 2020 14 此函数显然有两条渐近线y 0和y 1 a S型函数有多种 其共同特点是曲线首先缓慢增长 在达到某点后迅速增长 在超过某点后又缓慢增长 最终趋于一个稳定值 S型函数在许多领域都有广泛的应用 例如产品的销售量 农作物的 28 03 2020 15 生长 病毒的传播速率与时间的关系等都可以用S型函数研究 SPSS中的S型函数y exp b0 b1 t 当b10时不属通常意义的S型函数 另外 SPSS中的Logistic函数也是S型函数 28 03 2020 16 例10 1对下表中的GDP数据进行非线性回归 解首先做数据散点图 分析 回归 曲线估计 分别选线性和复合函数进行回归 结果见下 28 03 2020 17 28 03 2020 18 数据散点图 28 03 2020 19 线性回归 28 03 2020 20 指数回归 28 03 2020 21 回归效果图 28 03 2020 22 需要说明的是 回归分析的一个重要应用是预测 而预测的方法有多种 如拟合 回归 灰色模型 时间序列和神经网络等 相比较而言 Origin的拟合功能更强 提供了更多的线型 可以图形的帮助下选择较合适的线型 28 03 2020 23 Origin拟合效果图 2多项式回归 28 03 2020 25 多项式回归是一种较为重要的非线性回归模型 有较广泛的应用 1 几种常见的多项式回归模型常见的多项式回归模型有一元二次模型和一元三次模型 28 03 2020 26 三次及以上的多项式回归模型较少使用 因为此时回归系数的解释比较困难 回归模型的数值稳定性也不太高 不利于应用 多元多项式回归比较复杂 较少使用 二元多项式回归模型为 28 03 2020 27 2 多项式回归应用实例例10 2根据下表研究给定年龄组内经理的人寿保险额y与年均收入x1和风险反感度x2的关系 研究者认为年均收入与人寿保险额有二次关系 风险反感度与人寿保险额只有线性关系 年均收入风险反感度对人寿保险额有无交互效应不得 28 03 2020 28 而知 为此 研究者选用二元二次多项式回归模型并检验交互效应和风险反感度的二次效应 28 03 2020 29 数据表 28 03 2020 30 为了清楚地看到各项对回归的贡献 使显著性检验更加明确 采用逐个引入自变量的方法 首先由x1和x2的值求出的值 然后用下列方法依次引入变量 先选入y和x1 然后下一张 再选入x1 x2 然后再下一张 再选入 28 03 2020 31 以此类推 方差分析表如下 28 03 2020 32 根据下列公式计算得偏F统计量 28 03 2020 33 下面检验交互效应和风险反感度的二次效应 因为交互影响项系数显著性检验的偏F值 2 00 临界值F 1 2 4 75 交互影响项系数没通过显著性检验 所以回归模型中不应该包含交互作用项x12 又风险反感度二次效应项的偏F 28 03 2020 34 0 93 临界值F 1 13 4 67 也没通过显著性检验 所以回归模型中也不应该包含二次效应项 类似可验证 项通过显著性检验 综上 最终选用下列回归模型 28 03 2020 35 具体回归方程为其标准化形式为 28 03 2020 36 例10 3用均匀设计法研究从烤烟中提取粗蛋白的实验条件 目标变量y是提取的蛋白质尝试 三个实验因子分别为 提取液pH值x1 提取时间x2的 提取温度x1 采用U7 73 均匀设计表 试验安排与结果如下表 28 03 2020 37 数据表 首先做三元线性回归 结果如下 28 03 2020 38 线性回归 28 03 2020 39 显然 回归效果极差 可将所有项选入 然后选择逐步回归法 结果如下 28 03 2020 40 逐步回归 28 03 2020 41 28 03 2020 42 28 03 2020 43 具体回归方程为其标准化形式为 28 03 2020 44 从标准化回归方程中可以看出 四个变量的作用由大到小依次为 根据回归方程分析 提取时间还有必要延长 提取温度和提取液pH值有交互作用 且系数为正 故较高的温度更有利于提取蛋白 pH值应稍低些更佳 28 03 2020 45 由于本例中最好的实验条件是根据前述分析 影响蛋白提取浓度的最主要因素是提取时间 提取时间应在48h以上 提取液pH值是第二重要因素 pH值应比13 10再低些 提取温度应该控制在60 C以上 28 03 2020 46 类似于例10 3寻找最优生产条件的问题在医药 食品行业较为常见 解决此类问题较适当的方法是将试验设计方法与回归分析方法相结合 响应面分析 相关内容见下学期的试验设计与分析课程 3非线性回归模型 28 03 2020 48 1 非线性最小二乘估计非线性回归模型一般可记为其中是因变量 是自变量 是未知参数向量 是随机误差项并满足独立同分布假设 即 28 03 2020 49 如果 即为线性模型 且必然有k p 对于一般情况的非线性模型 参数的数目与自变量的数目并 28 03 2020 50 没有对应关系 对非线性回归模型 估计参数的方法仍为最小二乘法 即求使得达到最小的 称为的非线性最小二乘估计 28 03 2020 51 当f对可微时 可以建立正则方程组上述方程组的解即为 28 03 2020 52 正则方程组往往是非线性方程组 没有解析解法 一般用Gauss Newton迭代法求其数值解 在实际中 可用统计软件完成非线性最小二乘估计 同时 还可以得到近似的参数的区间估计和显著性检验 回归方程的显著性检验等结果 在非线性回归中 平方和分解式 28 03 2020 53 SST SSR SSE不再成立 类似于线性回归中的判定系数 定义非线性回归的相关比相关比也称为相关指数 28 03 2020 54 2 非线性回归模型的应用例10 4一位药物学家使用下面的非线性模型拟合药物反应 其中自变量x是药剂量 用级别表示 因变量y是药物反应程度 用百分比表 28 03 2020 55 示 三个参数均非负 根据专业知识 的上限是100 三个参数的初始值取为测得9个反应数据如下 请拟合出回归方程 28 03 2020 56 数据散点图 28 03 2020 57 分析 回归 非线性 选y为因变量 录入模型表达式c0 c0 1 x c2 c1 输入参数及初始值 回归结果如下 28 03 2020 58 28 03 2020 59 28 03 2020 60 从残差和R2可看出 回归的效果较好 回归方程为 28 03 2020 61 例10 5Gompertz模型计量经济学中的一个常用模型 可用来拟合销售量增长 Gompertz模型的形式为其中L为销售量增长上限 下表中给出了某商品销售数据 用Gompertz模型进行拟合 28 03 2020 62 数据表 28 03 2020 63 28 03 2020 64 数据散点图 28 03 2020 65 由于求解非线性回归最小二乘的正则方程组需要用到Gauss Newton迭代法 而迭代法往往是局部收敛的 所以需要选择合适的参数初值 对于随意选定的参数初值 回归的效果并不好 下面给出取特定初值的回归结果 28 03 2020 66 28 03 2020 67 其实 也可以用Origin进行拟合以获得更好的拟合效果 下面给出采用BiDoseResp函数的Origin拟合结果 28 03 2020 68 BiDoseResp拟合图 第11章含定性变量的回归模型 28 03 2020 70 在实际问题的研究中 经常遇见一些非数量型变量 例如 性别中的男女 正常年份和干旱年份 战争与和平 改革前后等 非数量型变量称为定性变量 在建立经济问题的回归模型时 常常需要考虑定性变量 如建立粮食产量预测模型时就应考虑正常年份与受灾年 28 03 2020 71 份的不同影响 本章主要介绍自变量含定性变量和因变量含定性变量的回归模型 1自变量含定性变量回归模型 28 03 2020 73 在回归分析中 对自变量是定性变量的情形可先给予数量化处理 处理方法是引进只取0和1两个值的虚拟自变量将定性变量数量化 当某一属性出现时 虚拟变量取值1 否则取值0 1 简单情况首先讨论定性变量只取两个可能 28 03 2020 74 值的简单情况 例如 研究粮食产量问题 y为粮食产量 x为施肥量 另外再考虑气候条件 分为正常年份和干旱年份两种情况 令Di 1表示正常年份 Di 0表示干旱年份 回归模型为其中干旱年份的粮食平均产量为 28 03 2020 75 正常年份的粮食平均产量为这里假设无论正常年份还是干旱年份 施肥量增加一个单位 粮食产量都增加相同的数量 28 03 2020 76 例11 1某学者想调查文化程度对家庭储蓄的影响 在一个中等收入的样本中 随机抽查了13户高学历家庭与14户低学历家庭 调查数据如下 因变量y是上年家庭储蓄增加额 自变量x1是上年家庭总收入 自变量x2表示家庭学历 高学历家庭x2 1 低学历家庭x2 0 28 03 2020 77 28 03 2020 78 28 03 2020 79 28 03 2020 80 28 03 2020 81 回归方程为如果不引入家庭学历定性变量x2 仅用家庭收入x1作一元线性回归 则R2 0 618 残差也较大 这个结果表明 中等收入家庭每增加1万元收入 平均拿出3826 13元作为储蓄 高学历家庭每年的平均储 28 03 2020 82 蓄额少于低学历的家庭3700 33元 但如果仅从样本数据考虑 高学历家庭的平均年储蓄增加额为3009 低学历家庭的平均年储蓄增加额为5059 两者的差为2050 与用回归方程得出的结果差别较大 出现上述差异的原因在于 回归方程假设了所有家庭年收入相等 即 28 03 2020 83 消除了家庭年收入的影响 因而反映了两者储蓄额的真实差异 2 复杂情况当定性变量取n n 2 个值时 可以考虑引入n个0 1型自变量 例如 某商厦策划营销方案 需要考虑销售额的季节影响 为了用定性变量反映春夏秋冬四季 引入了四 28 03 2020 84 个0 1型自变量 但由于这4个变量的和为1 产生了完全多重共线性 解决上述问题的方法是 去掉一 28 03 2020 85 个0 1型变量 通常 定性变量有n类可能时 只需引入n 1个0 1型变量 当n 2时 引入一个0 1型变量即可 2含定性变量回归模型的应用 28 03 2020 87 1 分段回归在实际中 有时会遇见某些变量在不同的影响因素范围内变化趋势截然不同的情形 例如经济问题涉及经济政策有较大调整时 调整前后的变化幅度会有很大不同 对于此类问题 有时用多种曲线拟合效果仍不能令人满意 如果作残差分析 会发现残差 28 03 2020 88 并不随机 而是有一定的系统性 对于此类问题 可考虑用分段回归进行处理 例11 2下表给出了某工厂生产批量x与单位成本y的数据 试用分段回归建立回归模型 28 03 2020 89 数据表 28 03 2020 90 散点图 28 03 2020 91 从散点图中可以看出 数据的线性性较好 可以用线性回归 线性回归的指标及残差图见后 回归指标显示 回归方程的显著性较高 且不存在自相关性 对残差值与x1的Spearman检验结果表明 也不存在异方差性 28 03 2020 92 线性回归指标 28 03 2020 93 线性回归残差图 28 03 2020 94 散点图显示 批量超过500后 成本下降的速率似乎变快 所以也可以考虑用分段的方法进行回归 建立回归模型其中 28 03 2020 95 若引入两个新自变量则原回归模型变为二元线性回归模型此模型可分为两个一元回归模型 当x1 500时 当x1 500时 28 03 2020 96 分段回归示意图 28 03 2020 97 分段回归指标 28 03 2020 98 从分段回归指标中可以看出 分段回归的效果并不太好 其实 由于的显著性概率为0 153 没有通过显著性检验 即不能认定 换句话说 不能认定本例适用于分段回归 28 03 2020 99 2 回归系数相等的检验例11 3在例11 1中 假设高低学历家庭的年收入均相等 即回归斜率与学历无关 实际上 这个假设是否合理需要检验 检验的方法是引入如下含有交互效应的回归模型 28 03 2020 100 其中 y是上年家庭储蓄增加额 x1是上年家庭总收入 自变量x2表示家庭学历 高学历家庭x2 1 低学历家庭x2 0 此模型可分为两个线性回归模型高学历家庭x2 1 28 03 2020 101 低学历家庭x2 0 显然 高学历家庭的回归系数为 低学历家庭的回归系数为所以检验两个回归方程的回归系数相等 等价于检验交互回归模型中的 0 28 03 2020 102 交互模型回归指标 28 03 2020 103 由于交互项显著性概率为0 247 故应接受原假设 即认为 在例11 1中 假设高低学历家庭的年收入相等是正确的 3因变量是定性变量的回归模型 28 03 2020 105 在有些社会经济问题中 因变量只有两个可能结果 这样的因变量也可用虚拟变量表示 虚拟变量的取值可以0或1 例如 给出200个不同年龄和性别的人对某项服务的认可数据 其中 年龄是连续变量 性别是定性变量 男女分别用1和0表示 而观点则为包 28 03 2020 106 括认可 用1表示 和不认可 用0表示 两个水平的定性变量 试根据数据研究用户对服务的认可度 显然 从简单的图形中很难找到结论 解决此类问题的一种方法就是因变量包括定性变量的回归模型 28 03 2020 107 年龄观点散点图 28 03 2020 108 性别观点条形图 28 03 2020 109 1 定性因变量回归方程的意义在前例中 若将一次调查看成一次Bernoulli试验 则认可度即为试验成功的概率p 只不过这里的p为年龄和性别的函数 下面讨论因变量为定性变量的回归方程的意义 考虑简单线性回归模型 28 03 2020 110 因为yi是0 1型Bernoulli随机变量 分布律为其数学期望即因变量y的均值为因变量y取1时的概率 28 03 2020 111 2 定性因变量回归的特殊问题常规回归模型如多项式回归不适用于因变量为定性变量的回归方程 原因如下 1 对于任意给定的自变量值 因变量只取两个值 误差项也只取两个值 自然不满足回归模型的假设 2 因为 28 03 2020 112 即随机误差的方差与自变量有关 从而存在异方差 3 显然 因变量y的均值介于0和1之间 而常规回归模型无法满足这个限制条件 4Logistic回归 28 03 2020 114 解决因变量为定性变量回归模型中问题的常用方法是Logistic回归 1 分组数据的Logistic回归当数据量较大时 可能不便于提供因变量的所有取值 而只能提供因变量对自变量的汇总数据 称之为分组数据 此时 可采用下列方法进行回归 28 03 2020 115 1 选用Logistic函数做为回归函数 从而使得回归函数值介于0到1之间 2 因为没有提供因变量的具体值 加之回归值本身即为某种平均值 所以在此情况下可以用因变量等于1的 28 03 2020 116 比例做为因变量 下面给出Logistic函数的图形及一个例子 以说明如何进行分组数据的Logistic回归 28 03 2020 117 Logistic图形 28 03 2020 118 Logistic图形 28 03 2020 119 例11 4在一次住房展销会上 与房地产商签订初步购房意向书的共有n 313名顾客 在随后的三个月内 只有一部分顾客确实购买了房屋 购买房屋的顾客记为1 没有购买房屋的顾客记为0 以顾客的家庭年收入为自变量 建立Logistic回归模型 28 03 2020 120 数据表 28 03 2020 121 数据表中并没有给出每人是否实际购房情况 而是给出了与每个收入对应的签订购房意向及实际购房的汇总数据 即分组数据 可用下列Logistic函数进行回归 28 03 2020 122 其中c为分组数据的组数 做Logit变换则Logistic回归方程变为线性模型对 逻辑变换 和 年家庭收入 做线性回归的结果见下 28 03 2020 123 回归指标 28 03 2020 124 回归方程为当x0 8时 即年收入8万元且签订了购房意向的家庭 其购房概率为0 590 28 03 2020 125 虽然前面的Logistic回归模型解决了定性因变量回归问题 但存在一个缺陷 即没有解决异方差问题 可以用加权最小二乘估计解决异方差问题 可证 权 28 03 2020 126 加权回归指标 28 03 2020 127 用加权最小二乘得到的Logistic回归方程为当x0 8时 28 03 2020 128 2 未分组数据的Logistic回归分组数据的Logistic回归的拟合精度不太高 对于未分组原始数据 可直接用最大似然估计进行Logistic回归 设y是0 1型变量 x1 x2 xp是与y相关的确定性变量 xi1 xi2 xip yi 是n组观测值 yi与xi1 xi2 xip的关系 28 03 2020 129 为其中由于yi是0 1型随机变量 分布律为 28 03 2020 130 似然函数取对数 得 28 03 2020 131 对于Logistic回归 将代入 得 28 03 2020 132 能够使得上式达到最大值的估计值即为的最大似然估计 SPSS在Logistic回归中提供了求解上述最大似然估计的功能 28 03 2020 133 例11 5在一次关于公共交通的社会调查中 一个调查项目是 乘公交还是骑自行车上下班 因变量y 1表示乘公交 y 0表示骑自行车 自变量x1是年龄 x2是月收入 x3是性别 x3 1表示男性 x3 0表示女性 数据见下表 建立Logistic回归模型 28 03 2020 134 28 03 2020 135 28 03 2020 136 由于月收入不显著 将其剔除后再做回归 结果如下 回归指标 28 03 2020 137 此时 年龄 性别均显著
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 复合变现投资协议书范本
- 家电清洗学员合同协议书
- 家政保洁合同协议书模板
- 学生外出兼职安全协议书
- 并购服务协议跟谁签合同
- 土地翻新协议书范本模板
- 宾馆租赁合同合同协议书
- 外卖小哥的合作合同范本
- 大平方出租商铺合同范本
- 基层工会结对共建协议书
- Q3D学习体会课件
- 眼科学教学课件:绪论
- 中医运动养生 中医养生学课件
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 1192-1999农业轮胎
- 人类学-课件精
- DBJ51-T 188-2022 预拌流态固化土工程应用技术标准
- 体育产业经营管理课件第一章导论
- 2023门球竞赛规则电子版图文并茂
- 部编版四年级语文上册第5课《一个豆荚里的五粒豆》优秀PPT课件
- 大班社会《班级规则我遵守》课件
评论
0/150
提交评论