(应用数学专业论文)带随机约束的线性回归模型及bayes方法的统计诊断.pdf_第1页
(应用数学专业论文)带随机约束的线性回归模型及bayes方法的统计诊断.pdf_第2页
(应用数学专业论文)带随机约束的线性回归模型及bayes方法的统计诊断.pdf_第3页
(应用数学专业论文)带随机约束的线性回归模型及bayes方法的统计诊断.pdf_第4页
(应用数学专业论文)带随机约束的线性回归模型及bayes方法的统计诊断.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t 玩t 油 p aper , 他 山 叱 姗 g ive t heg e n e r alls es t haation, t he 1 1 n e arr e gre ss i o nm odelwiththe r a n d om co创tr al n ts , i n t r o d u c e i t s r esid u al s , 幼ds h o wt h 此t he c d mis因u i va- l e ntt o t hem ean s h i fto u t l i e r mod e l ( m s o m ) for d i 鳍nos t ics p ulp 瞬, 比e n we mvest i g a t e t hecom m on st at istics: c o okdi st ance , w, kst at is ti c , c o v a r l 补r a t io , l l ke】 迈 oodd 岭 t allce匆 l dso姐 w七 di sc uss t he加七 e r o , c ed洲i et iyandobt a in七 hescore6t at isticabout t 晚 mod e l .an e x a 旧 ple 扭g iventoil fust r at eour resul ts .a ft e r that, we in t r o d ucethe b ay e s l an m e t hodoft h e l 加 夕 曰 湘on m o del, u set h e b aye8 1 a nt h e o n e s t oesti m a t e t heco efficientp ar ame te r , h 即e educedp ar a 幻 q e t ric e m p l r l c alb ayes( p e b ) es t 汕at io n of p aiamet ert h a t isd i ffer e ntfr o mwhatz h ang etal.体 刀d e s c ri b ed , 幼dst u dy its s upe- r iorit 吻 t h e or d in 肚 y le ast s q l l ares( l s)朗 t 汕at io ns, t hen 如es t i g a t e t 加 common c as e d e l et i onm o del ( c d m ) , 幼d i t s s t a t is t ics; anexa m p leist o il l u s t r ate o u r res u lts, t he 山a g r am ke y w o r d s : r a n d o mc ons t r a i nts , c 韶 e d e l et i o nm o d e l , me an s hi fto u t li e r m o d el , y 厄 r i anc e s exp and mo d e l , p r i ord istr ib uti o n , p e be st i m ati o n 声明 本学位论文是我在导师的 指导下取得的研究成果, 尽我所知, 在本 学位论文中,除了加以 标注和致谢的部分外,不包含其他人已 经发表或 公布 过的 研究成果, 也不包含我为获得任何教育机构的学位或学历而使 用过的材料。 与我一同工作的同 事对本学 位论文做出的贡献均己 在论文 中作了明确的说明。 。二 r乒得 可年 7 月 旧 学位论文使用授权声明 南京理工大学有权保存本学位论文的电 子和纸质文档,可以 借阅或 上网 公布本学位论文的 全部或部分内 容,可以向 有关 部门 或机构送交并 授权 其保存、 借阅或上网公布本学位论文的全部或部分内 容。对于保密 论文, 按保密的 有关规定和程序处理。 研究生签渔 业 件丫年 耐 硕士论文 带随机约 束的线性回归 模型及b a y es 方法的统计诊断 第 一 章绪 论 ll 概述 线性模型是现代统计学中理论丰富、 应用广泛的 一个重要分支,随 着高速电子计 算机的日 益普及,在生 物、医学、 经济、 管理、农业、工业、工程技术等领域的应用 获得了长足发展。之所以如此,其原因主要是: ( 1) 在 现实 世 界中 , 许多 量 之间 具 有线 性 或 近似的 线 性依 赖关 系 ;虽 然许多 量之 间 的关系是非线性的,但是经过适当的变换,变换过后的新变量之间具有近似的线性关 系。 (z)线 性 关 系 是 数学 中 最 基 本的 关系 , 它 比 较 容易 处理。 在数 学 中己 经 积累了 处理 线 性关系的 丰富的理论与方法, 为实际 应用提供了 坚实的理论依据和有效算法。 而线性回归模型又是线性模型中的一个重要分支,在过去的几十年中,线性 回归模型不论是理论还是实际应用中都得到了飞速的发展 ,已经有许多相关专著出 版, 例 如: 陈 希 孺闭9 】 1 1 01( 1 9 8 1 , 1 9 8 7 , 1 9 99) , 王 松 桂12 811501 13 1 1 ( 1 9 8 7 , 1 9 9 9 , 2 0 0 3 ) , 韦 博 成15 5 1 ( 1 9 9 1 ) , we is b ers 3 9 】 ( 1 9 9 5 ) 等。 1 . 2 带有约束的回归模型研究现状 在现实世界中,各类模型它们或多或少带有某种约束,已有许多作者对其进行 了 研 究。 对 带 线性 约 束的 线 性回 归 模 型的 研究 , 王 松桂 在 睁 1 中 简 单介 绍了 用拉 格朗 日 乘 子 法求 约 束 最小 二 乘估 计, 韦 博 成 !3 al 中 对带 线性 约束的 非 线 性 模型的 最小 二乘 估计的各阶矩进行了 推导,并 研究了 最小二乘估计量的随机展开问 题,韦博成、曹国 良冈 ( 1 9 8 9 ) 也 对带 线 性 约 束的 非 线 性 模 型 进 行了 研究, 石 磊价 周( 1 9 9 5) 对 于具 有 线 性约 束 的 线 性 回 归 模 型 参 数 估 计 进行 了 局部 影 响 分 析, 马 阳明 、 韦博 成!l sj( 1 9 9 3) 研究了带约束非线性回归模型及其数据点的影响分析,从带约束的均值漂移出发, 给出了 模型的曲 率度量,并导出了回归模型度量影响的诊断统计量及曲 率表示,申 维价 月( 1 9 9 5 ) 对带 约 束的 混合 模 型 进行 个 研究; 对于 带非线 性 约 束的 有 : 杨 婷、 杨 虎网 ( 2 0 0 3) 关 于 椭 球 约 束与 广 义岭 估 计 , 张 双 林 阵 司( 1 9 9 4) 等 对非 线 性 约 束的 线 性模型的可容许线性估计;而关于不等式约束的 有:史宁中及其学生对保序约束模型 的 研 究 可 参 见网 份 司 等 , es co b ar :la. 等l 周( 1 9 8 4) 对具 有不 等 式约 束 的 线 性 模 型 参 硕士论文带 随机约 束的 线性回归模型及b a , 印 方法的统计诊断 数 进 行 估 计, 还 有 从 如 l g j in n e 的12 5ji2 6( 1 9 9 6 , 2 0 0 0 ) ; 另 外, 杨 丽 等f4 3)( 2 0 0 0 对线性回归模型具有随机约束的情况进行了初步的影响分析。 1 。 3 b a y e s 方法 b ayes 统计是统计学的重要领域,它起源于英国 学者贝叶斯( b ay e s , t.r . 1 702 ( ?) - 1 761) 去 世后于1 7 63年发表的一篇论 文 “ 论有关机遇问 题的求解”. 在此论文中,他提 出著名的 b a y es公 式 和一种归纳推理方 法,后 世学者 把b a y es 公式中所包含的统计思想加 以引申 发展成为一种广泛应用于统计推断的系统理论和 方法, 统称为 b aye s 统计。 b ayes 统 计 方 法 与 经 典 统 计 方 法 的 主 要 不 同 之 处 在 于 考 虑 问 题 时 除 了 利 用 样 本 的 信 息外, 为了 提高 统计 推断的效率还要 利用参数的先验信息。 在b aye s 理论中, 把感兴 趣 的参 数 口 =( 81 , , 二 , 入 ) 任 e 视 为随 机 变 量, e为参 数 空间 . 并 且 假定 , 在 获 得试 验 观 察数据之前, 人们对未知的参数己 经有了一定的认识, 这种认识用概率 分布武 的 来 表 示,即 先验分布。 而把样本x=(x: , 从, , 义 爪 ) 的联合 概率函数视为 是在给定夕 的 条 件下的 条件概率函数,用可 刘 刃 表示。 从而 夕 在给定样本 :的 条件概率函 数了 ( 二 的 为 f ( 二 6 ) = p ( 二 口 ) 击( 夕 ) 几夕 恤 夕 ) 而( 6 ) 这就是著名的b a y e s 定理或称b a y es 公式。也称为参数0 在已知样本 后的后验概率函 数。 前 面已 指出 , j先 验 分 布 可 的概括 了 试 验 者 在 试验 之 前 ( 即 获 得 样 本 二 之 前) 对 未 知 参 数 口 的 认 识, 而 了 (x !夕 ) 则是 得到 样 本 二 的 条 件下 试验 者 对 0 的 重新 认识, 称为 夕 的 后 验分 布。 它综合了 夕 的先验信息和样本, 带来的关于口 的 信息,因 此所有的 b a y es 统计推断都 应当基于参数的后验分布进行。 在 统 计决 策问 题中 , 我 们 称 所 采 取 的 决定 为 决 策 或 行 为 (act fo n) , 把 可 能 采 取的 决 策所组 成的 集合称为决策空间, 记为刀 。 采取任何 决策行 动,都有可能 造成损失,因此 需 要 引 入 损 失函 数, 一 个决 策 行 动 的 好 坏 由 风险 函 数 的 大 小 来 决 定 ( 莽11 田 ) 。 设 有 样 本空 间 x , 凡 , 而 pe, 口 任 e 为 其上 的 概率 分 布, , , 凡 为 行动 空间。 侧 d , 的 为 损 失函 数, 它 是 定 义在 e x , 上的 非 负 可 测 函 数。 通 常 情况 下, 损 失 函 数 拭 d , 的 取 二 次 损 失 l ( d , 夕 ) = ( d 一 6 ),d ( d 一 夕 ) =1d 一 夕 爹 硕士论文带随机约束的线性回归模型及b a y es 方法的统计诊断 其中d 为一已 知的正定的或者非负定的 矩阵。特别,当刀=1 时,损失函数 石 ( d, 口 ) =11 一 口 112 在实际 中 用的 更多一 些。 记 r(e 洒 ( 劝 ) 为 采取行动 吞 (x ) 的 风险, 则 二 (。,。(x ) 一 e ,l , , ( ), 一 丈 l ( ,“ (二 ) 。 ( ) 而称 、 (句 一 厂 为行动占 在先验分布, 之下的b ay 朗 风险。 为 b ay e s 决策函 数或者b 御 阳 5 解。 r ( 口 , 司 而 若 行 动 犷 满 足 凡 (粉卜七黔凡 间 , 则 称 在 b ayes 决 策问 题中 常 使 用 后 验 风 险 最小原 则: 设 双d , 的 为 损 失函 数, 则 称 r ( ; 卜 无 l (“ ,卢 ,“ “ ) 为当得到样本二 时行动d 的后验风险。对任何样本值劣 ,若存在行动心,使后验风险最 小,即 域 叫 习 = 馨r( 叫 习 则 称心 为 一个 b a y e s 决策函 数。 可以 证明 后验风险最小原则与 b ay e , 风险 最小原则是等价 的,因 此心与b aye s 风险最小原则下获得的 b a y 朋 解是一样的。中国 科技大学博士张伟 平(2 0 05 ) 在 其 博 士 论 文!47 中 就 是 应 用了 b aye风 险 最 小 原 则 得出 了 模型 的 参 数估 计, 并介绍了其相关性质;本文则是在此基础上做了一定的改进,并应用其估计做了诊断 方面的一些墓本工作。 关 于b 句 阳 5 方法的 详 细介 绍可参 看吴!401 ( 2 0 0 0) , 茹份 01( 1 9 9 9 ) 等 专著。 1 .4统计诊断 统计诊断是上世纪七八十年代中期发展起来的一门统计新分支。它以强烈的应 用背景、新颖地统计思想、广泛的研究内容和丰富的实际成果在广大统计工作者面前 展现出 一个与应用结合的崭新领域。 统计学的出发点是一个数据集,该数据集往往是 根据在实际工作中逐步积累起来的历史资料或围绕某一特定目 标收集起来的数据,经 硕士论文带随 机约 束的 线性回 归模型及b 好 锐方法的 统计诊断 初步加工整理而 成,通常的 做法是把它纳入某一方面有效的统计模型进行研究。但 是, 全体统计模型都只能是对 客观过程的一种近似描述, 选择它的依据就是使尽量多 的点适合这个模型, 对于我们得到的数据集, 有些 数据可能是收集或整理的过程中的 疏忽或失误或其他原因而出 现很大的误差, 这些点 有时会 对我们的统计推断 产生重大 的影响,统计诊断 就是针对上述种种问 题而发展起来的。 其中异常点的识别和影响分 析现已 发展成为统计诊断的主要内容,而常 用的方法主要有数据删除法以 及其基础 上c ook 距离, w侧 k 统计量等影响诊断统计量, 均值漂移检验,和模型的异方差检验 等。 关 于 异 方差 检 验问 题 我国 学 者 林金 官、 刘 应安( 11 司 一 11 刀 等) 对 多种 模 型 ( 非 线 性 随 机 效 应 模 型 、 广 义 非 线 性 随 机 效 应 模 型 、 具 有 ar闻误 差 的 线 性 随 机 效 应 模 掣 笋 模 型)都做了相关工作。 在过去的近三十年中,对于经典的线性回归模型的诊断,c ookandw抽 1 5- bergll ll( 1 98 2) , 韦 博 成 阳 5 ( 1 9 9 1 ) 等已 经 做了 全 面 综 合的 讨论; 对于 其 它模 型 ( 例如非线性回归 模型、非线性随 机效应 模型、 具有a r ( 1) 误差线性模型、 广义线性模 型、指数族非线性模型和再生散度非线性模型、 指数族非线性随机效应模型、半参数 非线性模型, 变系数模型和半参数广义线性模型、 带有约束的线性回归模型等)的统 计诊断也有了一定的发展。 1 . 5 本文主要工作 本文主要讨论了 带随机约束的 线性回归模型和线 性回 归模型的b ayes 方法的若干问 题,重点在于统计诊断方面的研究和应用。 第二章主要讨论了带有随机约束的线性回归模型。首先给出带有随机约束的 线 性回归模型的定义,并给出其相应的广义最小二乘估计,并证明了数据删除模型和 均值漂移模型的等价性。把残差、c ook 距离、w k 统计量 、c r 统计量以及假设检验 的 s co re 检验统计量等 度量 推广到带有随机约束的 线性回归 模型。 最后通过实 例分 析, 验证诊断 方法的 有效性, 并给出 诊断图。 第 三章 主 要讨 论 线 性 回 归 模 型的 b ay e s 方法 的 统 计 诊 断。 首 先在砰 刃 基 础上 对 线 性 回归 模 型的 参 数 作了 进一 步的 估 计, 得出 了 不 同 于14 刀 的 p e b 估 计, 并 讨论了 其 优良 性,接着对模型进行统计诊断,介绍了常见的诊断模型数据删除模型,得到相应的诊 断统计量,通过实例说明,最后给出其诊断图。 硕士论文 带随 机约束的 线性回 归 模型及b ayes 方法的统计诊断 第 二 章带随机约束的线性回归模型的统计诊断 2.1 模型的提出 在一些实际问 题中, 仅考虑回归模型本身是不够的,有时可能对回归模型系数的 取值有了 某些约束; 本章我们讨论带随 机约束的 线性回归模型, 其一般形式为: y =x 口 + 。 , : ( 0 , a z i ) ; 产 = 万 口 + e , e ( 0 , w) ,( 2 . 1 . 1 ) 其 中 , .尹 未 知 , 而 假 定 w 是 已 知 的 , _ x 为 。 x 姗矩 阵 , h 为 z x 、p 阶 矩 阵 。 模型 (2. 1 . 1) 中的第1 式称为样本信息, 第2 式为随机约束条件。 2. 2 模型的参数估计 我们把模型 (21 . 1) 中的两式合并在一起,即有如下等式形式 ( 2 .2 . 1 ) 以下我们假定模型 ( 2. 2 . 1 )中的x ,r 均为列满秩矩阵。 这样我们可得到参数的广义最小二乘估计为 口二(xix+ 。 2 hw 一 1 万 ) 一 1 ( x y + 。 2 hw 一 , 拼 ) . ( 2 . 2 2 ) 2 .3 几类重要的诊断模型 为了 研究 数据集恤, 弓 ) 与 模型的 符合的 情 况, 一个很重 要的方 法就是逐步考虑每 组数据点的 作用、具体来说,就是逐个考虑每组数据点的对于回归分析的 ( 估计、检 验等)的影响,为此,通常采用两种模型: 第一,数据删除模型, 一 即在模型 ( 2. 1. 1) 中,删除第落 个数据点,研究这个点删除前后对于估计量以及其他统计量是否有举足轻 重的影响;第二,均值漂移模型,即在第 个数据点上增加一个扰动,这相当于扒 的均 值有所漂移,研究这个扰动对于估计量以及其他统计量是否有显著影响。以下我们看 到, 这两种模型实际上是等价的,可以 说, 删除一个点,并研究其对估计量的影响, 是最基本的方 法。另外, 对异常点的检验我们还可以 采用方差加权模型。 硕士论文带随机约束的线性回归模型及b a 尹 翔 方法的统计诊断 2. 3.1 数据姗除模型 对于 模型( 2. 1 .1 ) , 删除 第 价数 据点 伽, 刀) 后, 其 模 型为 : y ( )=x ( ) 口 + 。 ( ) , 。 ( ) ( 0 , 。 2 1 ) ; 补二 万 口 +e , e 、(0 , w)( 2 . 3 . 1 ) 其中 y 闰和 成 分 为 。 一 1 维向 量, 分 别由 y 和 。 去 掉 认 和 价 得 到, x 仍为 ( 、 一 l)x p 阶 矩阵, 由 x 去 掉 第 1 行 得 到 叮, 记 模 型(2 .3. 1)中 口 的 估 计 为 风 习 。 由( 2 忍 .2 ) 式 , 则 户 ( ) 二( x ( q 忧( ) 土 。 2 尸w一 , 万 犷 , ( x ( ) y ( ) + 。 z h , w , 拜 ) 。 定理 2. 1模型 ( 2. 1 1) 和模型 (2.3.1) 中的 刀 的 估计有如 下的关系: 风 动 二 户 一 ( x,x+ 。 2 万 w一 1 万 ) 一 1 为 氏 1 一入 ( 2 3 , 2 ) 其中 “ , 认 一 叮( x ,x十 尹 hiw 一 h 犷 1 ( x ,y 十 尹 h,w 一 1 司 , 外 为 x ( x ix + 尹 h , w 一 i h ) 一 l x 的 第1 个对角元素。 证明: 由矩阵分析中的和式求逆公式可知 (x(i),x(i)+ 尹h,w一 i h ) 一 1 ( xx十 尹 万 尹w一 ih一 丸 杯) 一 (x,x十 尹 h,w一 ih) 一 1 + ( 犬 矛尤+ a z h w一 i h ) 一 l x ( 1 一 从 ( x ,x+ 。 z h,w一 1 万 ) 一 1 毛 ) x “ ( x ,x+ 。 z h w一 i h ) 一 1 =(x,x+ 尹 hw一 i h)一 1 +( x,x+ 尹 h,w一 1 哟一 1 为 灯(x沈十 尹 hlw一 i h ) 一 1 一 入 户 ( * )= ( x 介 ) ,x( ) + a z 尸w 一 1 万 ) 一 1 (x住 ) y ( * ) + az 尸 w 一 户 ) = 1 ( x x+ 。 2 万 w 一 1 万 ) 一 1 ( xx+口 z h , w一 i h) 一 1 众 公 “ ( x x+口 z h , w一 i h) 一 1 十 1一 扒 城 tx y + 。 z h w 一 1 产 一 二 认 1 (xx+ 。 2 hw 一 1 万 ) 一 1 ( x 乍+ 。 z h,详一 拜 ) 一 ( x x+ , , 万 ,w 一 i h ) 一 二 认 ( x x+ 。 z h w 一 i h ) 一 1 二 、 二 ; ( x ,x+ 。 2 尸w一 i h ) 一 1 ( x y+ 口 z h w一 1 拜 ) 1 一入 硕士论文带随机约束的 线性回归模型及b 即es 方法的统计诊断 ( x ,x+ 。 z h,w一 i h ) 一 1 二 和从 刀一 1 一纵 (x,x+ 尹hw一 i h)一 城 1一九 x呱从 一 叮(x,x+ 尹 丫w一 , 玛一 1 怀,y十 尹 了w 一 1 川+ 诚1 一 入)l = 口一( x,x+ 尹 h,w一 1 用一 伙人 1一入 由 这 个 定 理 我 们 可 以 看出 , 估 计 量 户 (i) 和 户 之 间 差 异 的 大 小 是由 氏 和 p “ 决 定 的 , 氏 越 大, 估计量之间的 差异越大,亦即第 个数据点对模型的影响越大; 儿越大, 估计量之间的 差 异同 样越 大, 这说明 氏 和 入是决 定 第 个 数据点影响 大小的 很 重要的 统计量。 如果异常点的个数多于一个,则情况变的很复杂。其中首要任务是确定异常 点的个数。如果所设个数与实际个数不符,则会产生严重的问题。关于多个数据 点的删除问题,我们仅考虑检验某k 个固定的数据是否为异常点,记试 的k 个指标集 为 j = 红 , , 砚 , 在 模型 式 ( 2. 1 1 ) 中, 把j 中 指标所 对应的 数 据删除以 后, 相应的 各 个 量 记 为 y ( 刀 、 x ( 刀 和 e( j), 其 中 y ( j ) 和 e( j ) 为 ( 。 一 哟 维向 量, x 刀 为 伍 的x p 维 阶矩阵.则在 ( 2 l i) 式中 删除指标属于j 的k 个数据点以后的模型为: y ( 刀 =x ( 了 ) 口 + 二 ( j ) , 。 ( j ) 、( 0 , a z 了 ) ; ” = 万 口 + e , e 、( 0 , w) .( 2 . 3 . 3 ) 上 式 中 口 的 估 计 为 夕 ( j) , 由( 2 .2 2 ) 式 , 户 ( j ) = (x ( j ) 忱( j ) + a z h, w 一 i h 犷 (x ( j ) y ( j ) + 尹h,w一 场) , 这时我们可得到如下定理: 定理2. 2模型 (2.3.3) 和模型 (21 . 1 )中的 口 的 估计 有如下的 关系 八 j)二 户 一 ( 叉 j犬+ 尹 h,体 一 1 刃一 为(i 一 乃) 一 场 ( 2. 3. 幻 令 己 , = 打一 二 /(x,x十 尹 hw 一 i h 犷 1 ( x j y + 尹 h ,w一 1 川 乃= 为(x,x十 。 z h , w一 i h ) 一 1 为1. 硕士论文带随机约 束的 线性回归模型及b ay翻 方法的统计诊断 证明: 我们由矩阵分析中的和式求逆可知 ( x ( j) x ( j ) + 。 z h,w一 i h ) 一 1 =( 尤 尹尤+ 尹 h,w 一 , h一 为,x,) 一 1 =( x,x+ 。 z h,w一 i h ) 一 1 + ( x ,x+ 尹 h,w一 i h ) 一 1 xj ( 1 一 局( x ,x+ 。 z h w 一 i h ) 一 1 价, ) 幻( x x+ 。 2 尸w一 1 万 ) 一 1 二( 义 产x+ 尹 h,w 一 ih) 一 1 + ( xix+ 尹 h,w一 ih) 一 1 幻,(i一 乃) 一 i xj( 万 沪尤十 a 2 hw一 i h ) 一 1 户 ( 了 )=( x ( j) x ( j ) + 。 z h,w 一 1 万 ) 一 , ( x ( j ) , 丫 ( j ) + 。 z h w一 1 户 ) =1 ( xx+ a z h w一 1 万 ) 一 1 + ( x x+ 尹 h w一 i h ) 一 i xj (1 一 pj) 一 1 为 x ( x x+ 。 z h w一 i h ) 一 1 x ( x y + 。 z h,w一 1 户 一 x , ,为) =(x,x十 尹hw一 ih) 一 1 (x,y+ 尹 hw一 甸 一 (x,x十 尹 h,w一 ih) 一 1 为1玲 + ( x x+ 。 z h,详一 i h ) 一 i x j ( 1 一 乃) 一 1 为( x ,x+ , z h , w 一 i h ) 一 x j 妈 = 户 一 (xlx十 尹 尸w 一 , 川一 1 为 ( 1 一 乃) 一 1 xi(i 一 p;)鱿 j)一 xj(x,x+ 尹 hw 一 , h)一 1 (xy 十 尹 h ,w一 切 + 与( x ,x+ 。 , h w一 i h ) 一 1 为 玲 ) 】 动 一 (x,x+ 尹 h,w 一 ih广 1 为( 卜 pj 广 场 定理 ( 2. 2 )出是定理 ( 2 . 1 )的推广,若k二1 时,便可得定理 (2, 1) ,定理 (2 .2 ) 仍 说明 估 计 量 户 ( j) 和 户 之 间 差 异的 大 小 是由 匀 和 pj决 定的。 2.3.2 均值漂移模型 在统计诊断中,数据删除模型是一个非常重要的模型,在现实中比较直观, 所以 它就显 得非常重要, 而 均值漂移模型是与 数据删除 模型相对应的, 韦 在归 5 1 对其方 法作 了详细的介绍,在这里我们用它来诊断带随机约束的线性回归模型. 对于数据删除模型 ( 2. 3. 1) 相应的我们可以在第云 个点增加一个扰动写成如下均值 漂移模型: 丫二 叉 刀 十 7 成+ 气 万刀+e. ( 2 . 3 5 ) 硕士论文带随机约束的线性回归模型及b a y es 方法的统计诊断 其中, 成 是 第 个元素是1 , 其它为0 的 n 维单 位向 量, 甲 是扰动值. 将上述模型写成矩阵的形式如下: ( 2 . 3 . 6 ) 为 区 别 起见 , 记 模 型( 2. 3. 6)中 口 的 估 计 为 凡. 我们可以得到 口 , 守 的估计为: 、.了产 y拼 2夕.卜、 、.,/了 刃叮 了!、 1 工 、.,了产 x, x+尹h,w一 i h x铸 刃xl 尹h,w一 1 o, ( 2 . 3 , 7 ) 产了口.、 一一 、,.夕2 、风亏 /!、 我们可以得到如下定理: 定理2. 3模型 (2.3.1) 和模型 (2.3.6) 中的 口 的 估计有如下的关系 几= 风 幻 且 今 = 1 一几 证明: 由分块矩阵求逆公式可知: xi x+a 2 hw一 i h 成 , x /产.、 一- 、.夕/ 凡专 j/夕.、 (x x+ a z h w一 i h ) 一 1 + 心x ( x ,x+ 。 2 尸w一 1 万 x x+ a z h w 一 , 万 ) 一 l x , 试 吸 ix( x ,x+ 。 2 万 , w一 , 万 ) 一 1 一 刀幻 1一 扒滋 x, x+a z h i w一 i h 1 一入 1 了了.、 -一 、.1夕. y口 /! 、1.1 a z h i w一 1 0 ( x ,x+ a z h w一 i h ) 一 1 几 “ 一 丹口 了了砰.几、 一一 凡 =口一 (x,x十 尹hlw一 ih) 一 城氏 1一久 久 , ,、氏 = p 气 1 ) ,7= ; - 一 叮 丁 - 1 一 f“ 对应的多个点的删除模型来说,均值漂移模型模型中也就相应地在多个数据点增 加扰动,在模型 ( 2 念3) 中我们假定指标属于j 的乞 有扰动项,这时模型 ( 2. 址 ej ; 万口十e. -一一一- 叭叭拜 矛.1、ee 这个模型称为均值漂移模型,其矩阵形式为: y= 召= x口 +刀 7 + , 刀口+e.( 2 3 8 ) 其中 , 是 表示 一 个 k 维 参 数向 量 形 式, d=( 吸 ; , 一 , 曳) ,人是 第 众 个 元 素 是1 。 上式也可以合并为如下形式: ( 2 . 3 9 ) 这时我们可以得到如下定理: 定理2. 4模型 ( 2. 3. 3) 和模型 (2.3.9) 中的 口 的估计有如下的 关系: 几=八 j) 且 今 二 。 式 1 一 勿 犷 证明: 由分块矩阵求逆公式可知: 、,.尸/ y拼 /夕.、 、!/ ( 骨 ) 一 ( 一 ( 里 二 xi x+口 2 hw一 i h d,x xi d a z h, w一 1 xld, 了!、 - 、.1.j/ (x,x+ 。 z h w一 1 万 ) 一 1 + ( x x+ a z 万 , w一 1 万 ) 一 i x d ( j 一 匆 ) 一 i d ,x( x x+a z h ,w一 i b 一 ( 1 一 儿) 一 i d ,x ( x x+ a , h ,w一 i h ) 一 1 1矛 y拼 !、 !/ 一 ( x ,x+ 。 z h,w一 i h ) 一 i x 成 ( 1 一 p j ) 一 1 (i 一 勿 ) 一 1 口 z h,w一 1 x,di 1、 x .矛/ 、.,了了 ( x,x+。 2 万 , w一 1 万 ) 一 i x d ( 1 一 p , ) 一 1 “ (i一 勿 ) 一 艳 , 一 八儿 /!、. 一一 故 一 ( x x+ 。 z h w 一 , h ) 一 i x ,珑, 1 0 =尽 ( j ) ,7=(i一 勿) 一 枯 j. 吞 一一 .几 硕士论文带随机约束的线性回归模型及b 智es 方法的统计诊断 2. 3. 3 方差扩大模型 一个线性模型之所以 会出现异常点,究其根源,通常可归结为两方面的原因: 第一,均值漂移模型;这就是上节所讨论的模型。第二,方差产生漂移。即在模型 (2.1. 1) 中, 某一个 ( 或几个) 数据点的方差特别大,这时模型不满足方差齐性条 件 。 、(0 , 尹 1) ,因 而导 致 有关的 统 计 分 析 产生 失 误, 这 种模型 可 表示 为 =郑 + : , 二 ( 0 , 口 2 。 一 1 ) ; = 万 口 +e , e ( 0 , w) ;( 2 3 1 0) 几=战 ag(l , , 二, 。 , , 1)=1 一(l一 。 ) 成 哎 .( 2 名 .1 1) 其中 几 的 第 个对角元素 。三1 ; 如果 。 显著小于1 , 则可认为伽, 弓 ) 为异常点, 更一般 地,可假定0 为 0=面 叩( 叭, 。 2 , , 叽) ( 2 3 . 1 2 ) 其中 叭 大多数为1 ,明显小于1 的则对应于异常点,这种模型称为方差扩大模型。显 然 肖。 二1 时 几= 户 : 当 。 二 0 时 凡= 风 勺 , 这 说 明 方 差 扩 大 模 型 实 际 上 包 含 了 数 据 删 除模型,不过此种模型的诊断有一定的难度,不容易产生明显的效果:而在现实生活 中随机变量氏 e 在很多种情况下都服从正态分布的,我们将在下节对如下的方差扩大模 型进行讨论。 y = x口+ , 拼 = 万 口十 、 n ( 0 , 。 2 。 一 , ) ; e n( 0 , a , w)( 2 . 3 1 3 ) 2 .4 诊断统计量 异常点分析和强影响点分析是统计诊断的重要内容,本节在上面的基础上,给出 异常点和强影响点的诊断统计量:统计学家们提出过多种统计量如:残差,c ook 距 离,w k 统计量和c r 统计量等。本节将在上面讨论的基础上来讨论这些部分统计量。 硕士论文带随机约束的 线性回归模型及b a y es 方法的统计诊断 2 :4残差 在线性模型中,普通残差是最基本的诊断统计量对于经典的线性回归模型来说, 系 娜的 最 小 二 乘 估 计 为 几 , = ( x lx 犷 , x ,y我 们 记 残 差 芭 。= y 一 x 几 , .还 有 学 生 化 残 差 饥 , , 学 生 外 残 差 ls 都 是 在 几 , , 的 基 础 上 讨 论 的 , 详 见 文 献协 5 , 130 . 对于 本章 介绍的 带 随 机约 束的 线性回 归 模型来 说, 系数 琪 估计 户二( x ,x十 。 , h,w一 i h 犷 1 (x乍十 a z h ,w一 场 ) 因 此我 们 可 记: ( 1)残差:云 二y一犬口 ( 2 ) 学生化内 残差: 几= 红 1一夕 “ (3 ) 学生化外残差: 九= 一一鱼二 一 么了1 二 入 2. 4.2 c o 0 k 距离 对 模型(2 :3 1) , 为了 研究 第 * 组 数 据点对模型的 影响 , 户 一 风 劝 差 值是第 , 个 数 据点 的 影响 大小的 一种 度量, 差值 越 大其影响 也 就 越大。 但是,由 于 户 一 风 幻是一 个向量,不便于比较,必须选择一个合适的数量或距离,以便定量地比较影响的大 小;c 。 。 k 与weis b erg定义了 如 (2.4 1) 一般形式的coo k 距离, 及 = ( 禹一 几(, ) ) 材 ( 几一 几( ) ) ) c ( 2 .4 . 1 ) 对 于( 2. 4. 1)式 来说, 为了 消 除 尺 度的 影响 , 一 般 取 m=c 阅 一 1 ( 句 , c=夕 的 列 数; 而模型 离: (21 1)式, 口 浏但 ) = 尹(xix十 尹h , w一 i b 犷 王 ,c = p , 因 此可 定 义如 下的 c ook 距 认 = ( 口 一 口 ( 、 ) ) (x,x+ 示 2 万 w 一 , 万 ) ( 户 一 户 ( , ) ) 时2 ( 2 . 4 . 2 ) 其中尹是沪的一个估计。 硕士论文带随机约束的线性回归模型及b a y es 方法的统计诊断 且我们知道: 护= 。 一 功 一 ir ss= 恤一 川 一 ( 犷 一 义 几 s)(y 一 x 几 5).( 2 . 4 3 ) 这时可得到如下定理: 定理2. 5对给 定模型 ( 2. 1 . 1) 式, 尹用尹,则c 。 。 k 距离可 表示为: 二 ; 一 。 (x 呼一 。 (xx)琢 粽豁 只( xix) 我们定义为以 下第一式, 等于以下第二式: ( 2. 4. 匀 pl(xl x)一 斌x (i)x (i)+ 尹 h w 一 ih ) 一 伙= ; 粤, . 1一 夕翻 ( 2 4 5 ) 证明: 将 ( 2. 3. 2) 式代入 (2.4.2) 式可得 几1 = 劈 二 , 【( x ,x+ 斤 z h w一 i h ) 一 1 ( x x+ 合 z h,w一 i h ) 一 1 二 臂 p a z ( 1 一 入) 2 二 “ ( x ,x+ 沙 z h w一 i h ) 一 1 匆 对2 ( 1 一 几 ) 2 儿 试 1 一 入) 鳍 合 2 ( 1 一 入) 一。 (x ,x 氏李 赴 气一 只 (x ,x )丝 , 夕 口 气 1 一乃 )p 这时把 (2.4.3) 带入上式即可得 ( 2. 4. 4) 。 对于( 2. 4. 5) 我 们将( x (i) ,x .十 尹h , w一 i h 犷 1 两 端各 乘以 叮和 约 得 二 ; ( x ( ) ,x 介 ) + 合 , h,w一 i h ) 一 为 , “ 1( x x+ a z h w 一 , 万 ) 一 :x x+ a z 万 w 一 1 万 ) 一 l x 二 “ ( x x+ 厅 2 hw一 1 万 ) 一 1 一 p “ l x = 升谊 + 一 尸 舞 二 另外由 于是为尹未 知的, 我 们还可以 用来时_ 。 一 p 一 曦, n 一 p 沪代替,这时可以得到 另一个c o ok距离了刃 砚 了. 1 3 硕士论文带随 机约 束的线性回 归模型及b a 犷 翔 方法的统计诊断 定理么 6对给定 模型 ( 2. 1 . 1) 式, 尹用时, 则 八可 表示为: 几: =只 ( xx ) ( 。 一 功 2 臂 夕 恤一 , 一 曦5 ) ( 1 一 阳 ) 几 5 5 ( 2 . 4 ,6 ) 由 定理 (2. 5) 和定理 (2乃 ) 都可以 看出, c o ok距 离的 大小 取决于约束残差的估计氏 以 及约束杠杆值 火的 大小, 前者反映有约束下 模型的 拟合的 情况, 后者表示约束下模型 的 杠杆 值. 若 氏 越 大, 或 者 多 场 越大 , 几, ( 几2 ) 就 越 大, 则 影 响 就 越大. 2 , 4 . 3 w一 k统计量 我们知道界k 统计量也会是检验异常点的常用统计量之一,在这里还是类似 于 c ook 距离的介绍, 私k 统计量是从数据拟合观点 提出 的,今考虑数据点伽, 从 ) 删除 前 后 对 丸 处 拟 合 值 的 影 响 ; 其 拟 合 值 分 别 为 公 二 城 口 和 公 二 城 底 二 者的 差 值 城 沪一 自 可 用 来度量第 个数据点对于拟合带来的影响。另外,为了消除尺度的影响,还要除以拟合 值的 均 方 误 差 v , ( 式 自。 因 此 户 的 w-k 距 离 定 义 为 基于模型 ( 2. 3 . 1 ) 份 一 众 叻一 自 咋。一 赢 根据上面的讨论我们可得; v , 民自= 护 减 ( xx+ 护 h w 一 ih) 一 场= a 阮.( 2. 4. 钓 由w. k 统计量的定义可到如下定理 定理 2. 7对给定模型 ( 2 . 1 1) 式,由于尹未知,我们用沪代替,这时眠可表示为: w凡, 二 态 ,“ “ 一 沪 不 万 巧 七 d ( ( x ,x+ 护 hiw一 i h ) 一 1 , 示 2 ) (户 一 户 ( ) ) ( x x + 。 2 万 w 一 万 ) (户 一 户 (* ) ) 沙 2 ( 2 .4 ,8 ) w凡1 2= ( 2 . 4 9 ) 证明: 由 w k 统计量的定义与 ( 2 .4 石 )式,我们得 w凡1 = xi x+ a w一 i h ) 一 城 口斌介滋 氏 一 行 赣)而 斋 瓦 =斌 只 ( x , x ) 八 , 硕士论文 带随机约 束的 线性回归 模型 及b a 夕 es 方法的 统计诊断 此式即为 ( 2. 4. 8) 式,对 (2沌9) 我们可知: 户 一 户 ( ) ) ( x ,x+ a z h,w一 1 万 ) ( 夕 一 户 ( 一 、 一 ,淤 荔 飞 丙 感 而 = 以xl x)褚= w kl2 若尹未知时,w k 统计量重点在于考虑去掉第云 个数据点以后拟合得影响,因此,我 们经常用 时来代替, 对于 时 来说 v 吞 k 统计量 w凡: 与 w凡1 的 形式是一致的, 只不过 把 w 凡: 中 的 护 换 为 岭, 但 其 效 果可 能 有所 区 别了 。 2. 4.4 协方差比统计量 、 ,。 , *, , 二。 c浏阳f n 、 1 、,。 . ,. 人二 卜 二、 . ,一 一 , 毋 刀 左 卜 匀 里 月 健= 一 万 二 一 饱六 过早 0 为已 知 的 正 定 矩阵 ; 户 先 验 分 布 满 足如 下 条 件: e 咖 = 乒 , c 浏 ( 自= : 址( 3 .0 2 ) 其中v0 为已知的正定矩阵。 3 . 1 线性回归 模型的参数的b a y e s 估计 3.1.1 引言 通常求线性模型中回 归参数的 b ayes 估计有下面 几种方 法:一种是在正态线性模型 下假定回归参数的先验分布为正态分布或无信息先验,其后验分布也为正态分布;故 在二次损失 下 b ayes 估 计由 后验均 值给出, 这是常 用的 求 b ay e s 估计的 方法。 第二 种方 法 是多层先验b 盯 e s 方法,即选定先验分布后,该先验分布中 往往还含有未知的超参数, 硕士论文 带随机约束的线性回归模型及b a y 翻 方法的统计诊断 则假定这些未知的 超参数有某种先验分布,然后进行综合,最后得到b ayes估计。第三 种方法是在g m ar肋v 模型下假定先验分布满足一定矩的条件,在二次损失下最小 化 b 用 阳 5 风险 获 得 b a y es 线 性 估 计。 张在 件 刃 给出 了 b ay es 线 性 无偏 估 计的 定 义: 定义 类 j l u e ) 3. 1( 体 刃 ) 设 r 沪 , 的 为 估 计 量 夕 的 b 我 ” 绍 风 险 , 在 参 数向 量 夕 c 砂xl的 线 性 枯 计 = a y 十 认 a 砂“ , b 任 砂” 中 , 称 线 性 估 计 决为 口 的 b ayes 线 性 无 偏 枯 计 (b ayes , 如 果 满 足约 束 条 件 ei决一 61二 0 以 及r(决 , 的= 面n r(j , 的 . a, b 显然,第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论