(概率论与数理统计专业论文)对几个统计模型的构造和数据分析.pdf_第1页
(概率论与数理统计专业论文)对几个统计模型的构造和数据分析.pdf_第2页
(概率论与数理统计专业论文)对几个统计模型的构造和数据分析.pdf_第3页
(概率论与数理统计专业论文)对几个统计模型的构造和数据分析.pdf_第4页
(概率论与数理统计专业论文)对几个统计模型的构造和数据分析.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a ctu abs t r a c t mo s t s t a t i s t i c a l m o d e l s a r e c o n s t r u c t e d b a s e d o n d a t a a n d u s e d t o fi n d t h e p a t t e r n o f t h e r e a l w o r l d r e fl e c t e d b y t h e d a t a . t h e r e a r e c l o s e d r e l a t i o n s h i p b e t w e e n d a t a a n d r e l a t e d m o d e l s . o n o n e h a n d , t h e i n f o r m a t i o n c o n t a i n e d i n t h e d a t a c a n b e u s e d t o b u i l d , t o v e r i f y a n d t o m o d i f y t h e m o d e l . a n d o n t h e o t h e r h a n d , a f e w i n fl u e n t i a l p o i n t s o r o u t l ie r s i n t h e d a t a c o u l d m a k e s e r i o u s m i s l e a d in g i n m o d e l b u i l d i n g . t h e r e fo r e i d e n t i 卜 i n g i n fl u e n t i a l p o i n t s a n d i m p r o v i n g m o d e l s e f fi c ie n c y a c c o r d i n g t o t h e c h a r a c t e r i s t i c s p r e s e n t e d b y d a t a a r e v e r y i m p o r t a n t i n p r a c t i c e . i n t h i s d i s s e r t a t i o n , w e s t u d ie d h o w t o d i a g n o s e t h e o u t l i e r s o f t w o k i n d s o f m o d e l s a n d h o w t o i m p r o v e e ffi c i e n c y d a t a o f t w o k i n d s o f m o d e l s . di a g n o s t i c s .d i a g n o s t i c s o n o u t l ie r s o f p a r t i a l le a s t s q u a r e ( p l s ) r e g r e s s i o n m o d e l : t h e s e c o n d o r d e r l o c a l i n fl u e n c e a p p r o a c h s u g g e s t e d b y + u 另一 方面, 又可以 利用现有的 数据来改进棋型的 精度.因此分析致据对棋型拟合所产生的影晌、 利用数据构造优化统计棋型是具有实际 t义的方向 . 这也是本论文开题的方向. 本文的主要工作集中 在识别p l s 棋型和 l a d拟合的a r模型 数据中的形响点、 利用致据改进p l s 模型和生 存函 致的该估计的 精确度. 1 . 1 影响点和 p l s、 l a d回归 1 . 1 . 1 橄型中的影晌点 早在2 0 0 多年前, 人们巳 经开始注意到数据中的 影响点间 题, 但是由于没有 配套的理 论, 所以 在判断 影晌点的 时 候 经验占 主 要 地位, 而 对 影响 点的 处 理方 法 也多 用 删 除 法( b e r n o u l l i 1 7 7 7 ) . 在 将 近5 0 年 之 后的1 5 5 2 年。p e i r c e 提供了 第一个关于影响点的 客观判 别方法. 此后特别是近三十 年来, 在人们的普遍 关注下许多识别影响点的方法应运而生. 这些方法大致可以 分为三类. 第一类是借助于图 形的直观观察法, 在经验比 较丰富的时 候比 较有效. 第 二 类 是 传 统的 以 各 类 残 差( r e s i d u a l s ,i n t e r n a l s t u d e n t i z e d r e s i d u a l s ,e x t e r n a l s t u d e n t iz e d r e s i d u a l s ) 为基础的 诊断方法. 这一类诊断方法所依位的主要 手段是逐点删除. 在此方面比 较具有开创性 的 工作是c o o k ( 1 9 7 劝提出 的 用 删除法 诊断 线性回 归 中 的影 响点 问 题. 这方 面( o o k s - we is b e r g ( 1 9 5 2 ) 以 及b a r n e t t , y) . 换句话说 就是要 选择与响应变量1 尽量相关的成份 t, 同时 还希望这些成份保留了尽可能多的关于 _ v的 信息. 下面让我们 来介绍偏最小二 乘法的 步骤: 1 ) 按照诸如文叉有 效性之 类的准则顺次选出q 个成份.2 ) 用y做响应变量,t , 做解释变量做普 通的最小二 乘回归. 然后经过还原得到 3 . 其中第一步 提到的选成 份的 具体过程是这样的: 先从x中选出一 个, , x1 的向 量t , ( t , 二v c r 1 ) 使得 v u r ( t i ) 最大, 然后按照 c o ? ( 1 1 . 、 ) 的 大小来决定是否选取它. 如果它被选中, 则考虑_1中 与t 、 正交的部份11 , 并应用 类似前 面选 t 、 的 原则与方法从中 选出勺. 如果九不能通过交叉有效性检验: 就终止该过程, 并认为, =t 即 t 1 就是 想 要提 取的 成 份 . 否 则。 重 复上面 的过 程, 运 用 文叉有 效 性选出t , 二, t 9 , 注 意 此 处q 三k 下面给出相应的计算公式: 1 . 选成份过程 ( a ) 通过计算 u l 来得到 t 1 y了 y 了j t x xt ) f , =_y u , , _ t t 飞 p r 二 刃 不 ; 2 . 1 ) 2幻 ( 2 . 3 ) x , =.一1 1 p i t 二 1一p r ) .( 2 . 4 ) 第二常 寻找偏最小二乖回归的影响点 ( ) l )计算f , f o r ; 二2 . . . . . , ( y 0 . 0 9 7 5则继续第 i +1步选成份的过程,:6 1 f l! 就停止选成份的过程. 2 . 在 选 好4 个 成份 之 后 得 到 矩阵t q =( 矛 1 . . t q ) 并用 它来 拟合回 归模 型 ) =t q r 4 =r l t i + +r , t q + 用 普 通 最 小 二 乘 法 得 到 系 致 的 估 计 :r=( t g t t q 厂 t 0 几一 , 从 而 得 到 拟 合 后 的 模 型 、 一 二+ i t j + 了 ,其过程如下: +几 f a . 然 后 在 将成份 还 原 成x的 线 性组 合的 形式, 得到 偏 最小 二 乘回 归 系 数的 估 计 由 等 式( 2 . 6 ) 和( 2 .8 ) 得到 x i= x i- , 一 f ; p t 二 一y i一 , 一 x _ 1 。 少 t 二x i- i ( i s. 一 z i p r ) =xi - p ( i x . 一、- i p i - i ) ( i x . 一w i p) =x i i ( i x 少 -, 一 c , p t ) ) t i =xi - 1 .z u i一 x ( n ( , 、 一 。 。 j。 丁 ) )“ , 00j,)3 )t, - 、 “ ,: 角二谁 寻找偏最小二乘回归的影响点 进一步有 y =t i l l 斗 =几_ t c q 二十甲e = p u , ,., q ) 1 +p 4 ,y tv 9 1 0 ) y ( e 几 、 。 最后得到偏最小二乘回归系数的估计 “ =艺p ; w i ( 2 . 1 1 ) 2 . 2 . 2伯.小二乘方法的弱点 当多里共线性存在的时候,偏最小二乘方法往往能得到比普通最小二乘方法更合理的结果,但是和最 小 二 乘方 法一 样; 偏最 小 二 乘方 法 也不 能避 免 影响 点的 影 响. 因 为 交 叉有 效 性准 则中 决 定 成 份 个数y 的q 4 是由 对影响点不具有抵抗力的s s e和 p s s e计算出 来的. 而回 归系数的估计 3 7 会因 为影响点干扰到 r 的 估 计或 者, 的 选择而 受到 影响 . 从等 式( 2 . 5 ) 一 ( 2 .7 ) 来 看,3 9 的 估计涉 及到f . 、. p i . i 这 些 量 都是 非稳健的. 这一事实已 经 被许多例子所证实. 既然3 9 会被一个或几个影响点的影响, 那么 识别这些点 就很 有必耍了. 但是,由 于偏最小二乘回归 得到的残差分布难以估计,所以传统的基于残差的影响点检验方法就显得 不大适用了. 加之它的计算是一 个迭代过程. 使得估计删除某点 前后的关系非常困 难 因 此如果使用逐点删 除法, 只能每删除一点重算一遍: 计算量很大. 而且由于 偏最小二乘算法本身的原因, 还非常容易出 现掩盖 和淹没现象, 使得逐点 删除方法的 效果大打折扣. 基于以上的 原因 , 我们这里采用的是wi t k l u o ( 1 9 9 3 a . b ) 提出的 二阶局部影响作为寻找偏最小二乘影响点的 工具, 这样不 但避免了 分布间 题和 迭代算法的大计算 量的困扰, 而且因为二阶通近本身的特点, 使得到的公式具有识 别多重影响点的能力. 下面一节, 简要介绍 了二阶局部影响的原理. 2 .3 二阶局部影响 自 从c o o k ( 1 9 8 6 ) 提出了 局部扰动的概念, 这个概念巳 经被广泛应有在了 许多方向上 . 这里我们将沿 用 一、 i . : = 1 . . . . . 川. 1 代表扰动的方向,u 给出 扰动程度. 很明显, 这个扰动 形成了 一个n 一 维空间 . 同时用q 来记一 个 从上面模型中 得到的 统计量. 显 然, 当i c 在。 一 维空间 变动的 时候。r? 也会随之发生 变化, 而r 1 的这种变 化 可 以 用 一 个恤+ 1 卜 维 空 间 来 描 述. 换 句 话 说 就 是i l 是。 一 维 向 量4 。 的 函 数 . 如 果 记w二( w l . . . 二 1, 1, 1 t . 第二幸 寻找偏最小二乘回归的影响点 这个函数曲面有如下形式: 。 ( 。 。 , ) 用d , 来代表 州w ( 司) 的在方向1 上的a 二0 时刻的二阶导数. 在许多文献中提到的是曲率, 但是由于二 阶 导数的物理意义: 我们有理由 认为用二阶 导数代替曲率 会导致更为直接和有效的 方法.r j ( + l ( + ) ) 在方向 1 上对 a的二阶导数可以写成 d , = i t 班1 , 其 中 令 一。 = 。 一 t t i 当 我 们 注 意 到 对 称 的 。 阶 矩 阵 具 有 。 个 实 正 交 特 征 向 量 和 1t f l 一 t f r l - it ( f2 + f t )2 , 之 后 , 寻 找 到 具 有 局 部 最 大 二 阶 导 数 的 方 向 就 简 化 成 为 解 下 面 的 等 式 j f一a l n l =。2 . 1 2 ) 在这里 f=; j / 2 +班 1 2 , 2 . 1 3 ) 被称为统计量 ?i 的二阶导 数矩阵. 最大二阶导数对应的方向l 上, 具有较大的余弦绝对值的分量所对应的点就被认为是影响点.下面章 节里的主要工作就是计算我们关心的统计量 :3 w 和 q 4 的二阶导数矩阵 3 ? 和 c ” .为了 达到这个目的, 首 先要得到 3 w 和 c7 q 由x. y直接表达的公式.但是偏最小二乘方法提供的只是一个迭代的算法,而不 是这样的公式.因此,我们需要做一些理论上的准备工作. 2 .4 用_y . y直接表示3 q 和q f ma r t e n s ( 1 9 ,8 5 ) 提供7 如下引 理: 引 理2 . 1 : w 1 , 二 ( p p, 是 相互 正 交的 ,t t 二 t , 也是 相 互 正交的 . 墓千上面的引理,我们证明了如下定理: 定理 2工 入 2二 _ 女 、 a f, 是_v t 1 -i - t _v的 特 征 向 量 , 相 应 的 特 征 值 为入 : =i - t _v x t 1 = 0. 证明. ( 司. 从等式( 21 ) 得到 y t ) 一 ) . t _ i c 1=1 勺一 1 t l =j r t _ 1 xt 丫 xr 5 j 5 t . .x t 1x i . 二1几 i - t - . _ t 7 =、 爪 丫 工r ) 一 u 1 由 此 可 知、 , 是 特 征 值为a l 二y t x x t i的 特 征向 量 . 第二幸 寻找偏.小二乘回归的影响点 ( b ) . 注 惫 到i a .n k ( x t y l t . ) =i , 这说 明 矩阵_v t 1 . 1 * t .v有 且 只 有一 个 非 零 特 征 值 . 既 然 上面 已 经 证明特 征 值入 1 =j .- t xx t - 0 , 那么a l 就 是它的 那 个唯 一的 非零 特征 值, 相 应的 待 征向 量 是u l . 因 为x t l i t x是p x p 实 对 称 矩 阵 , 所 以 它 有p 个 实 不 相 关 的 特 征向 量 而 且 不 同 特 征 值 对 应 的 特 征 向 蚤是相互正文的. 因此与特征向量 : c , 正文的成份都可以用零特征值对应的特征向量表示出 来. 既然引理 1 指出, 1 , , 二 , o k . 是p 维空间中 相互正交的向 量, 那么之 。 : , w k 就属于二 1 的 正交补空间 . 于是可 知, “ ,2 . 、 、 是特征值为入=0 的特征向量. 证毕. 口 这个定理使得计 算 , r ( 7 =1 . 动的导数成为可能. 在下面 计算 3 + 和 e a 的 导数的 过程中, 都需要 用到 : i =产 人 : 全i t -4 2 1 第二幸 寻找偏三小二乘回归的影响点 邓1 1 一 i i r x t l j 一 内1 1 .1h ? ; ) .1 1 一 i i t x t d 、一 i -_ 1 t _4 3 1 了矛j.、 t o 一一 i i 了 a , 一 g t _ v t i i t ( -; , , j i t g , 2 l 一 , r ( r- e i -1了 二1。 g i , ) 1 全 1 1 .4 , 1 ?艺月 t 一- d 、龟.下/ 产h 不 x t 2.、 t 介 一一 1 i 杯 a , 一 f t . t l )a ; h 了 x t ) d 1 1 0 1 i t 、 、 / 1 t 1 i ,t x 了 耳:1 1 - n p =i t ( 1 i 1 ; , , 二 , k , j ) .a i - ( f t _v t _v i i + i i t x t .7+ f + i i t .v t l 一¥ iv )p r it a ; _v t _7+ i i 、 if ( 1i 1 ;, . 卜 , it-l; ) :1 1 一 1 ( : p 火 1 h 7 _ x ii - / + i i- 1 x , x ( i i , i , 二、 l i , i ) p + 1 1 1 -; t d .s j,一, 1 ) /_ tr x t - t a 、 、 1) t l t -t _v t x h a f + i i -t _v t x ( 立h j h ) + i.i.t -v t d x n * ), 全 i t .a d 第二 t 寻找偏.小二乘回 归的影响 点 i i 了 :1 1 一 n :l l 一 f t _v t i v t _1 1 1 +i s - t .v t _ ( i , l 、 i i 勺 、leseseses了 t-tg 万:il tt .j.jj 了了叮.、 了. t 八 + n - t xt l _1 i v ) a l 一 1 i t i i 若 _1 t j j咨 、.矛jz i t i i 了 _v t i 一 t (睿 n jlij )x t x ii +d x w , .1 t v ) :t f - 1 - t _1 1 1 1 i - t _1 i i , 自尸曰 1 - t _1人 + ( a t f i,-t _1 t 7, i i 1 1 . , 二 , n t f i -t _1 t x l i g l ) .1 1 - 1 yt _ 1 人 一 t ( j= 1 。 j叮 )x t _1 11 +d c- , _ 1 t i 、卜少 t _ 1 1 ) : 1 + ( i i i _1 t _1 t i n i i v 1 t .y 1.1 n ) 1 1 一 l .-t xi i , 全 i t -a 如 果 记 口 一 ( v n j1it )_1 t .1 ttj= 1十 d -x cj i i , t m- 1 : =n t n=i t q jq 有 , _1 i 1 , + ( i i 二 厂_1 i v a , . 叮.1 t _1 i l n ) 同 时 注 意 到 等 式 、 . 1 1 ,t a f - 1 n llt 一 i i t _1 t l = 1t q :1 f - 1 i 1 t x t d - i 匆t .-i a l ) :1 1 - 1 . a f - 1 . .1 i - 1 i i , t _ v t ) 丫 a i - 1 : 4 1 uo tl it- t .j硬 = i t 口 :if-v t x q 十j i - t x t 峨i i 1 i . 凡t ) 十i f - t 对l 川l ) p + 、.若性.,j了了 p t i六 妙_x !i , 了r.里、2!.、 = j t q :1 i - 1 r-t x t x ( 全、 一,p i ) 十 , , t x t d., ,.)i p t 14 -t _k t .,v 凡 了 -1 全 i t .4 y 1 . l 0 刃口 、飞.r/ 产 g n i i t g , i i t g , n i1 t g ,4 1 了,几1二、 t o i i i t .1 i 一 g t x t . v i i -p 二 一, t ( e e。 g ; ,b , )l 全 jt -i ,o l =17 -1 第二 章 寻找偏最小二乘回归的影响点 2 a 叮.叮 1 1 ;t .1 1 一 f t v t .v f p二 y t 工 人 .1 1 h,11 p 二 i t ( j =1 全i t .a 1 二 * -tj )一 t x ( ej= i l i ; 1 ) j ) l 1 2 1 i it :1 1 一 i 6 t 1 t x c p 二 。 t 1 1 t x t x c p = i ty 4e h ig ijp j 11(= 1j- 1 全 1 t . 1 , 2 1 1 3 1 1 杯 1 1 一 f t x t l x i p p 二 xt d -, , , -, t 鲜叮 一 t (睿 一 ii t )x t d x 1r+,1 全1 t -1 1 .3 1 1 1 了 :1 1 一 1 1 t x t l .x f p = 0 t l l - t - 1 t l 3 ( 1 i 1 1 . 一it d x li ,立 勺 , vli jli )i = i i g l ) p i t - 1 1 , 1 了 =1 3 ? 的 表达 式 正 是由 这目项组 成的 : 1 t .3 1 = i t ( .a 1 +a i 十+ i t ( 2 ( -4 6 - - 1 1 。 - -a 1 ,1 ) 1 + i t ( 2 ( -1 2 +ta 3 +a ; +一 a j ) ) i 一 4 7 +- 1 8 + 1 1 1 +.4 1 3 +-4 1 4 1 ) ! it 1t ,( - 硬l 4 ,4 ; 一4 1 。 - -4 1 2 ) ) , +i t ( 4 , +4 3 +4 ; +一4 , ) i + i t 仁 4 丁 合 ( 毛 + - 4 a 一.4 , - 十4 3 十.4 t + .4 t ) i - i t ( .4 6 +4 , +- s +-4 1 1 +4 1 3 +4 1 4 ) ! - i t ( .4 0 十4 t + .号+ 一4 t1 1 十 一4 t1 3 十 .4 13 ) i . 由 子! t .4 , ! 等 于厂4 户 i 二1 . . . . . 1 4 所 以 为 了 计 算 方 便 可 以 把刃写 成 如 下 的 对 称 形 式 : 3 ? = z ( -4 1 +飞 、 - -a ,。 一4 1 2 ) 十 2 ( -4 i + 一4 a + ( 一 毛 : +4 3 +注 5 +4 9 ) + ( 4 , + -4 3 + . 4 t - ( - 4 6 + .4 ; +一 飞+4 1 1 +- 4 1 3 +4 1 4 ) 一 ( 一4 t6 + .4 t + 聋 + a tl i + 一a t1 3 十4 tl d 2 . 1 丁 1n 一研 琉+ 得 到:j 4 ( (f ) 的 二 阶 导 数 矩阵3 9 之 后, 通 过它 最 大 特 征 值 对 应的 待征 向 量 的 较 大 分 量 可 以 容 易 的 找 到 影响点,就象在 23节中提到的那样. 第二童 寻找 偏最小二乘回归的 影响点 2. 5. 3 推导统计f q 9 的二 阶导徽矩阵并用其诊断形响点 当 模 型 加 扰 动 后 统 ltl q 9 也 要 受 到 扰 动 的 影 响 。被 记 为 c t ( , 一 , 一 若 (a ls se vj ,) 其 中 的 尸 s ti 1. 4 + 1 回 和. s e 9 ( 川按照定 理 2 3中 的 结论有如下 形式: p s s e 9 + ( a ) = 又( 1 +r e f ) 2 . 1 5 ) x (, _ x t q -e + l ( a ) ( 1.1 -v + , t ( (, )_l (i.4 (,) 一、 ( .) 1.1 -9 + 1 (a ) ) 一 i i -, + , t ( , )一 t(j i ) 、 , ) )1 s s e 9 ( a ) = y t ( _-1 一 _ a x l 、 “ ( 。 ) ( 、 工 q t ( 。 ) 工 t _飞 _y 1 1 - 7 ( , , ) ) 一 i s 9 t ( ( l ) .v t _a ) ) 因为统计a x 2 9 川 的公式很复杂, 我们先对公式中的 各项单独求导. 然后再计算统计量 q+ 的一、 二阶导 数 罕 .具体步骤如下. 娜1 步. 定 义v , q ( 时 数, (a l 和今 纂 丝 i v 9 ( a ) , i i 9 ( o ) - p 了 、 ( 1 ) . 计算r r 0 ( e + ) 在 = 叮4 v 9 ( a ) ( w 内(i ) _1 t .a _1 1 户( 。 ” 一 1i-9t(a)_1. 并 且 计 算,伙 ()的 一 、 二 阶 导 . 为 了 简 单 起 见 , 在 下 面 的 求 导 过 程 中 , 定 义 符 号 0p , 二_) i v ( 0 ) - i 1 1 . q t a , , 同 时 省 去 :1 1 9 ( 0 ) 一 等 一 些 符 号 的 负 标 . “ 一 ” 处 的 一 阶 导 ” 半 la_ u , a la _ 。 oo- a - ) _1 心 一邓里 ;ia业 。 = n “ 一 j 1 t x + _1 ,t 11 .1 一 - _ v ,t i 1 a i - i _v .1 i - 1 1 t _l ; y 、.夕2 入:入 ti .户口j. 了.1.、 = .叮( 1 1 1 1 、 . . . , 风枷, + 可 -pt( _ pt (2( i t 1 i t i t i i q .1 ? 1 , x t h : , + i i ) -71 t”+ ! 一 ( :一 - t x t _v ( i , , ! . 、 i i , / ) +i i t _ t l 一v i i 一 1 1 1 ,了 at xi , , i 1 t x t d s u -r , l/ -t x r x i , ,j 这 样: 了 的一阶 导 数 对应 的向 量 为 t ., t .v 1, , i i - t t o x l l 了 .v t _v i , 百,万毛 r.叮. 了了t pp 2.1.、 9一 it-l凡 叮邓 j矛1. 于 tl 、夕 ,孟 一- t 门,r 第二 章 寻找偏.小二乘回归的影响点 2 ) . 计 算4 q ( 川在“ =0 处的 二 阶导 数 , = 中a ) .为了记号简单,在下面的推导过程中把 口门-耐 兴丝 二 。 和1lr 4(a )ial 。 _ 。 简 记 为 i le和 厂 “ 。 ;11 1 2 )1 ;lal 全 it t0 1 0 - 0 2f tv i ll e u f o ) ( l l (a ) . t .4 .x l f f a ) ) 一 , l 1 t ( 2 j .y . + ? i t i t lf t i t g j % t .i a 1 1 ( a 1 1 - 1 ( 2 1 ( i l t ( 2 )xt a x r ( n ) ) 一 .t ( a ) ( l p t ( a i _e r a :c l t y 2 1 ) 一 , 1 1 1 ( , ) s) e n t i i =.叮令灯 一 , 1.1 t .i1 十 叮w :1 1 一 j l lit.j . 1、 + . x t otl :11;12一 擎.l , - 2 .v t 资:1 1 - 心1 - 1 1 1 -t x一 2 .1 t ii :1 1 - . .i i - 1 黑 - x ,t 1 1 ,j , - l o ii _ x t x 1 1 :1 1 - 1 1 .1.- t _ , - x 厂 1 1 1 1 1 - 1 1 1 三 戈 t x t x 0 x :1 1 一 i i t .i , _ _ 1 1 : 1 i - i r1 i 了 一 l x1 1 :1 1 - 1 i - t 戈 一21 1 _ 1 1一 u l r r 1 ( r f4 p g ;lc,;,j= 1 k= 1, 全1 1 1 ; 1 . 叮.叮 t丁 /才老.,胜t、 可 : . p t ij -1 x t . zo.p 一 自-t ij. s . p t o i v r x t l x i s p = xt d x l v r , it (直 iit p j )-v t d x 1t 1 .1 全 1 1 1 ; 1 9 . p t ij - t . t l .v 群p二 i t 1 5 1 . 1 0 . 挤 3,1r x t _i 半 p = i t ( j =l叮 劝 , ,1 1 aiit p +;)-1 t -+ ( h ,p ; ) l 全 i t i . 1 . 1 1 . p t a 7 1 1 - 1 _c p , 一 i t q t :i i - i q j 0- i t i ; l . 这 样 经 过 整 理之 后 就可以 得 到r ,0 a ) 的二 阶 导 数矩阵 1 =( 1 i +i 了 ) + 2 1 -2 一 2 ( 1 3 +1 了) 一 ( i s +i 了 ) 一2 ( 1 ; +、 梦 ) 一 2 1 i + 2 1 ; . 第 “ 步计 算 p s s e + 的 一 、 二 阶 导 数eip ,s 笋, 1 和 立 竺 夸 罗 卫. ( 1 ) . 注 意 到p s s e v + 1 ( a ) 的 表 达式( 2 a s ) 第二 个括号中 的 第 二 项颇 为 复杂, 这 无疑给 求导带 来许多不 便.这一步的主要目的就是将着一项进行化简,使之易于求导. 注 惫 到于 。 + ( 。 ) 一l i -v + 1 ( a ) ( 1 .1 -v + 1 t a j - t - _ l 1 -v + 1 ( a ) ) 一 1 .1.-? + 1 t ( a j .v t _4 1 和,2 + 1 ( a ) 的 定 义 , 以 及以下的三个公式: 咒 吞 知 凡) = . t . i .l 一 ( 十 “ i , j - , x ,t - 一v t . ., t . + = x t 一” 一 1 + 耐)y 一y ( 4 一b d ( t ) 一 1 =.4 - 1 +a 一 b ( d 一 一 , t . - 1 b ) 一 “ -t 4 一 可 以 得 到 该 项 的 化 简 式 , 并 根 据 这 个 式 子 的 意 义 , 把 这 一 项 记 为 , + )1 ( a ) i1 . 它 表 示 受 了 扰 动 的 模 型 去 掉 第 一 一习 幻 邢, . 卡 曰 第二童 寻找偏盈小二乖回归的影响点21 , 个观测后重新拟合得到的第 , 个响应变量的估计值. x t、 j 0 1 1 : 一” + ( “ ) ) 一 i t q + i t ( 11 )a vt r * ) 、 1 , aa i i q + l l i q + l , q + 1 t a ) x; ( 1 +( 1 1 , x t . 1 . v i i “ 千 ( 。 ) x ,t l i q + 1 ( a .) ) 一 , 1.1 9 + 1 t ( a ) ( . t 一、 、 一( 1 + “ / . ) 、 ) a+ a ) ( ( i l 一。 + 1 t ( a ) x t .-1 .v lf i + l ( a ) ) 一 tt.llt xx一x 士 (llv+ir(a)x ta% ii.v+1( l11-v+t(a)_,a ts1v+ (a)(11v+r(a)x r.11,+1(a)t+ r,-% t117+(a)(1iv+r (ay_ata,111v+ pv+ls9+it 7.111t 1, ii i ,.i .s. 1 八 一【 1 l 、一1 止一、1- r 曰 x t ,3,一 , 一 (, + “ ), : ( ) + ,v+r(a1=l;rdv+ i(ay- liy+(a)i1+ :l:ij:+0r, q + i( iyl 回 在 这 个推导 过程中 , 为了 记 号简 单. 我们 省 去了i .i + i ( a ) , 1 1 -q + 1 ( 0 ) 的 上 标q +上 . 井取 而代 之以 i v ( a ) , 1 1 . ( 2 ) 计 算 估 计 il(+i ) l ( . ) 在。 替:1 了 + 1. 一 。 处 的 一 阶 导 , e cl. ,l l t = (, 为 了 推 导 过 。 ” 简 单 , 用 ; 来代 一 。 一 歹 貂 ty i ll 1 斋 。 , 习,iy ; li 与约-.-t, 尸认一朴、 - + ( 卜 , ,, ) 2 = x 八 :3 1 , i3 , ) t 十 。; 丁 , , 一 ( 。 y i ) c t ) l 73 , ) - 2 , , y: 一 ( , .z y ) 。 厂 了 ( i 一 , ) + ( l -e 在下面 的 章 节中 , 上 面等 式的 最 后一 项 被 记为b 脚. 这就等 子 给出了b 的 定 义 . ( 3 ) . 计 算 估 计 歹 朴 l ( n ) 在 。 = 号 ,一 (。 )、.、?一 .3v+ (a 1a a_ o 0处的二阶导数同样为了推导过程中的记号简单,省去符 月= 自 a d v + a 沙口 z 和 n -_g 户尹 , 1 月 门 2 的 上 标叮 十1 . 用 . , a- 0n- 0 ,3+7 j = ur - 0. 刹_ 。 和y as 二 。 来 代 v . 叼-j,l 第二t 寻找偏最小二乘回归的影响点2 5 ,z y 胃间 j , 2 ja杯 v t o :3。 _ 。 it 4+ ii 一 。 令一 2 i+ ,lip , + z, 一 2rry , a一 。1, a ,y , , d a i -o , 、 .* 厂 : 一 y , )(2 1 - aa , 。 : , 一一一下正;万厂一,丁 一 甘 1 吐 a1t7a 1 一tl 一( 1 + i1 x; ) - t一 (y j 一t 3 + 怒 -1- t - r,f i 一u) 2 ) i t a ; 1 一2 y , i t x , x , i i 1 一之 j (几.火伟ti it厂禹 + 击 i t r ,x t一 2 y ;i t v , ( 1 + 念 ) e r i 一 i t ( 1 一 , , ) 2 e ; i 、leseseseseses/、.十j.尹 几 t i 了1.、了了.、 + 2 i t ( b e 万 + i,it )i i ( 1 一 , , ) it (1 + 台 ) p1- x,)( 一 、尾 , 一 , 一 r rr3 + 2x y - , 一产 ) . x 了 不: 了 夕 r f i 一) a e 耐 + 2 州 yi- x,1t( ej= 1 一 d ; ) t 一 2 y ,x : xfr t i -l , 一2 y ; ( 1 +忽 十2 1 一毛 尸 因 此 端1 y (t ) ( ) 的 二 阶 导 数 矩 阵 为 : q 1 一( 1 +v+ )( y .、 . 卜 ( 。 - j= r ;jv+ i + 2rv+ - 犷 + , 万 刃 万 4 + l 一 (+ a v 、 , 千 1 一一布万矛耳尸 一 一) + z t :,了 干 , ( p , , 4 + 1 ) t 了- 一 2 y ( , + 带 )。: + i j 2 ! 趁 叼 + 3 灭 r了 , + 1一 i v + 1 u l 乙 一 2 ytiyj t 、 2 兰会 豁 7e r2 b r + q+ . 计算p 5 4 e q + 1 ( a ) 在a=0 ri p s s e 9 + 1 ( a 乡 刊, 处的一、二阶导数 全 p s .s f a + i t l 少 口 与 1 = 尸 ; s e + + i () 八, , 2 川 u=0 a= 0 一 习it(y i 一 y +1+1 )2 十 “ ( u 一iu ) ) 一竺 碧 上 业 ) 一 e ( ( , 一 y ,u )2 c t 一 ? ( 。 一 夕 =( o ) 【门 )/ r = 1 5 p s s e v + ( n 1 全1 t p s e 。 十 , r ,=0 2 二 u 一 t (4 lr( y r 一 、 。,)俘 (v+- y 7 i ) + 粤 ,2 2 或 z ( j 一纵) ) 二 斋y t ) r ) ) - o _ 1t 恶 ( 一 “ ( +j i 一 j r)r) e r9 rp ) t + j t(q j r(11了 一 ( , 一 乡 ,( )乡 (门 )/ 第 二章 寻找偏最小二乘回归的影响 点 则 p .ti s e + 1 ( 川的二阶导数矩阵 为: p s s e 9 + 1 = 艺( - 4 ( y , 一 y i(r ) ) e iy i( r)t + 2 l i(1) i(f)了 一 2 ( 1 一 j (i) j f ) 第3 步. 计算,s s e 4 ( a ) 在“ =0 处的一 、 二阶 导 数 . . . . . 3 n )t )l : s s e -l )o l - a - . 全1t s s e 9 1 =h (y t l y - : t l s 承 fa t - l: r .4 x 旦 0 丝 1 - 2 t l x al aw la= 0 内- d ): 1 ( :3 .一 t x ha=0 3 0 1tp 一 pi. 1 y 丁 、 如 娜d步: 计算统计量 q 9 ( u ) 在。=u处的一、二阶 导数 yti1 9 ( ) 与.9, 1? v ( )j 1. ! 泣 黔门 . o 全 q g t i - ( s s e ( . ) ) )u= 二 ( p s s e 9 + s s 石 9 - s s e9 ps s ev + , ( s s e 9 ) = 七 全l t o e l e 7 p s s e 9 + 1 1 a ) s s 右9 ( ) 一d s s # 9 l a l p s s e v + ( a ) 一j j t (,) ? j夕了石v l i! 口 。 s s e, ( , 门 一 内p s s e 4 + s s e q - s s e 9p s s e 4+ (s s e , )一 “sse, 由 此统计量 0 11 (川 的二阶导数矩阵为 q t i 尸 s s eq 十 i s is e ? -s s e v ps s e q + l.c 、 .夕 .e 、 tq q s s e q ( s s e q ) 2 i seq 2 . i 9 ) 至 此 主 要 统 计 量1j, ( a ) 和o q ( a ) 的 二 阶 导 数 矩 阵 已 经 被 推 导 出 来 . 正 如 第 节 中 所 描 述 的 那 样 , 有 了这两个矩阵, 寻找 影响点的任务就转化为寻找矩阵的特征向 量和恃征值的问题了. 2 . 6 例子 为了证实本章提出的公式的效果。 我们模拟了三个例子,人为的加入一个或多个影响点. 结果发现, 与 传统的 逐点删除法相比 , 本章 提出的 方法不但计算速度快, 而且可以发现逐点删除法难于 发现的联合异 常点和具有掩盖现象的影响点. 第二章 寻找偏最小二乘回归的影响点 例一:在这个例子中 , 我们构造了 一个5 0 x - 的解释矩阵 v, 其结构为: 一=( + ti t +0 .0 0 0 2 a tz t . 叩 11 13 1 , rr 1 1t +“ 闭 . 这 里 阶 数 为5 0 x :3 的 矩 阵 a 二( “ 。 ) 是 正 交 化的 随 机 矩 阵 , 具 体 值 见 附 录 . 同 时 构 造5 0 x 1 的 响 应 向 量、 一 y . =a t + ( 112 ) + : , 这 里: 是 均 值 为。 , 方 差 为 0 . 0 0 0 0 1的正态随机致.在此, 给响应向量的第 5 个观测 j 、 人为地加了一个误差0 . 5, 使之成为一个人 造的影响点.在下面的分析中,我们将会看到这第 5个点确实是一个不寻常的点.正因为它的存在, 使得 逐点别除寻找影响点的时候,许多个正常的点都显得行为异常. 先来分析一下 第5 个观测在参数估计中 所引 起的变化. 用全数据和 删除第压 个观测的数据分别做偏最 小二乘回归, 得到的估计结果列在下表: 致据集截 距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论