(应用数学专业论文)lisrel结构模型的统计诊断问题.pdf_第1页
(应用数学专业论文)lisrel结构模型的统计诊断问题.pdf_第2页
(应用数学专业论文)lisrel结构模型的统计诊断问题.pdf_第3页
(应用数学专业论文)lisrel结构模型的统计诊断问题.pdf_第4页
(应用数学专业论文)lisrel结构模型的统计诊断问题.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l i s r e a l结构模型的统计诊断问题 丫 5 8 6 1 2 7 摘要 l i s r e l 线性结构方程式模型可对不能 通过直接观测得到的 潜 在因子之间的关系作分析, 这是传统的统计方法所不能做到的。 因 此, l i s r e l 模型在医学、 教育心理学、 生物学以 及经济学等领域 都有着广泛的应用。 本文对 l i s r e l线性结构方程式模型进行了统 计诊断方面的初步的研究, 阐述了l i s r e l模型在统计诊断方面的 参数估计及其性质。 我们对l i s r e l结构模型在统计诊断方面进行了研究, 获得主 要结论有: 1 .用广义逆的方法求出了l i s r e l结构模型的参数估计及其 相应性质。 首先我们将一元的l i s r e l结构模型推广到多元自 变量 多元因变量的情形。 由 广义逆的基本性质得出任意两矩阵之差的广 义逆公式, 从而得出了l i s r e l结构模型的系数的广义l s 估计及 参差公式。 2 我们讨论了数据删除模型, 得出了其参数估计与原模型相 应参数估计间的关系式, 并指出通过数据删除模型判断异常点和强 影iq ul 点的方法。 3 .我们讨论了均值漂移模型及其参数估计, 并指出通过均值 漂移模型判断异常点和强影响点的方法。 4 .根据影响函数的定义, 得出了l i s r e l 结构模型中夕 的样 本影响函数。 5 . 将 wi l k s 准则推) 到多维情形,在 l i s r e l结构模型中用 于观察异常点,从而得出相应的结论。 木: a徉丁 t i . , 勺v t.4 i w 恩 勿全文公布 北方交通大学硕士学位论文 关键词: l i s r e l 模型, 统计诊断, 广义逆, 异常点, 强影响点, 数据删除模型,均值漂移模型,样本影响函数,w i l k s 准则 z j s r e a j 结构模型的统计诊断问 题 ab s t r a c t l i s r e l s t r u c t u r a l e q u a t i o n m o d e l c a n a n a l y s i s t h e c o n n e c t i o n o f t h e f a c to r s t h a t c a n n o t b e o b s e r v e d d ir e c t l y , w h i l e t h e tr a d i t i o n a l m e t h o d i n s t a t i s t i c s c a n n o t d o . t h e r e f o r e l i s r e l m o d e l h a s a b r o a d a p p l i c a t i o n 仇s u c h a s i a tr o l o g y , p s y c h i c s , b i o l o g y , a n d e c o n o m i c s a n d s o o n . t h e a rt i c le e l e m e n t a r i l y d i s c u s s e s s t a t is t i c a l d i a g n o s t i c s f o r l i s r e l m o d e l , a n d t h e n s t a te s i t s e s t i m a t e o f t h e p a r a m e t e r s a n d c h a r a c t e r s t h e ma i n c o n c l u s i o n s a r e : i . w e f i n d e s t i m a t e滋 t h e p a r a m e t e r s a n d c h a r a c t e r s认 g e n e r a l i z e d c o n t r a d i c t o r y m e t h o d . f i r s t l y w e s p r e a d l i s r e l m o d e l t o m u l t i - m o d e l , w h i c h h a s m u l t i - i n d e p e n d e n t v a r i a b l e a n d m u l t i - d e p e n d e n t v a r i a b l e . t h e g e n e r a l i z e d c o n t r a d i c t o ry o f t h e a r b i t r a r y t w o m a t ri x e s i s o b t a i n e d t h r o u g h t h e b a s a l c h a r a c t e r s o f g e n e r a l i z e d 旧o n日 rl c o n t r a d i c t o r y . t h e n w e g a i n t h e l s e o f t h e p a r a m e t e r s a n d e r r o r s . 2 . we d i s c u s s 比e c a s e - d e l e t i o n mo d e l s a n d o b t a i n c o n n e c t i o n o f i t a n d o r i g in a l m o d e l s . t h e n w e p o i n t o u t t h e w a y j u d g e t h e o u t l i e r s a n d i n f l u e n t i a l p o i n t s th r o u g h c a s e - d e l e t i o n m o d e l s .1 w e d i s c u s s m e a n s - s h i f t m o d e ls a n d p o i n t o u t th e w a y t o j u d g e t h e o u t l i e r s a n d i n f lu e n t i a l p o i n t s t h r o u g h m e a n s - s h i f t m o d e ls , 屯i n c a s e o f d e f i n i t io n o f t h e i n f l u e n c e f u n c t i o n , w e g a i n t h e s a m p l e i n f l u e n c e f u n c t i o n o f t h e p i n l i s r e l m o d e l . 5 . w e s p r e a d o u t l i n e s t h e n o b t a i n wi l k s r u l e t om u l t i - c a s e , a n d u s e i t t o o b s e r v e c o n c l u s i o n s 北方交通大学硕士学位论文 k e y w o r d s : c o n t r a d i c t o r y , l i s r e l m o d e l , s t a t i s t i c a l d i a g n o s t i c s , g e n e r a l i z e d o u t l i n e s , i n fl u e n t i a l p o i n t s , c a s e - d e l e t i o n m o d e l s , m e a n s - s h i f t m o d e l s , s a m p le i n f l u e n c e f u n c t i o n , wi l k s r u l e 北方交通大学硕士学位论文 第一章预备知识 1 . 1 l i s r e l模型简介 在许多领域的研究,特别是社会科学、行为科学等领域的研 究中,常常要处理诸如 “ 态度” 、“ 智力” 、 “ 满意” 、 “ 忧虑” 、 “ 动 机” 、 “ 认识”等一些含潜在变量的结构问题,用普通的路径分析 方法等无法处理这些含潜在变量的情形。 l in e a r s t r u c t u r a l r e l a t i o n 模型是一种新的统计方法,该方法可对不能通过直接观测得到的 潜在因子之间的关系作分析, 这是传统的统计方法所不能做到的。 如在探究患者生存质量问 题上,考虑5 项生理指标收缩压、 舒张压、心跳间隔、呼吸间隔和舌下温度,从生理知识知道,这 5项指标是受植物神经的交感神经和副交感神经质配的,而这两 种神经的状态并不能直接测定出来。 l i s r e l提供了 一种数据分析和研究理论结构的完整结合的 系统,与路径分析相类似的是, l i s r e l模型也涉及到估计模型 参数、 检验模型对数据的拟和程度等等。 所不同的是, 对l i s r e l 模型没有那么多的限制。例如,l i s r e l模型允许观测变量有测 量误差, 残差项也可以是相关的, 还可以处理互逆的因果关系( 双 向箭头)等等。另一点重要的区别是,路径分析中对各个方程式 是分别单独地进行估计的, 而l i s r e l模型中的所有参数则是同 时进行估计的。 因 此l i s r e l 模型 在医学、 教育心理学、 生物学以 及经济学 等领域都有着广泛的应用。 l i s r e a i 结构模型的统计诊断问题 l i s r e l 一 般模型由 度量模型和结构方 程式模型两部分构成 1 .度量模型: 度量模型一 般由两个方程式组成,分别规定了内生的潜在向 量? i 和内 生的 显 在向 量y( 即 观测变 量) 之间,以 及外生的 潜在 向 量含 和外生的 显在向量x之间的联系,即 ( 为简化起见,假定 所有变量都以 偏差形式出现) y - a m+ 。和 x二 a x e + b ( 1 . 1 ) 其中, y 表 示 因 变 量的 观 测 值 构 成的 向 :r ( p x l ) a , 表 示y 对77 的回 归 系 数 或负 荷 矩阵 ( p x m ) 77 表 示 不 可 观 测的 因 变 量 构 成的 向 量(m、 l )c- 1 ) 。 表 示y 的 测量 误 差 构 成的 向 量( p x 1 ) x表示独立的观测值构成的向 量仁x d 占 表示 不 可 观 侧的 独立 变量 构成的向 量( n x l ) a ,r 表示x对含 的 回归 系数 或负 荷 矩阵( q x n ) 占 表 示x的 测 量 误 差 构 成 的向 量( q x l ) 可以注意到,l i s r e l的度量 模型和因子分析模型很相似。 事实上, l i s r e l的 度量部分的确可以 看成是一种证实性的因子 分析模型,也可以看成是对观测变量的度量性质即可靠性的一种 描述。 2 结构方程式模型 a 匕 方交通大学硕十学位论文 结构方程式模型部分规定了 所研究的系统中假设的潜在外生 变量和潜在内生变量之间的因果关系,即 q= b ? , + r 夸 + e ( 1 . 2 ) 其中b表示潜在内生变量对潜在内生变量的效应的系数矩阵 ( - - m ) , 其 对角 线元素 均为。 , 且1 一 b 是非 退化的 ( 行列式 值 不为0 ) . r 表示潜在外生变量对潜在内生变量的效应系数矩阵 ( m x n ) 。 表 示 残 差 项 构 成的 向 量( m x l ) . 1 .2统计诊断问题简介 歼. 2 . 1 统计诊断的内容和意义 统计诊断是 7 0 年代中期发展起来的一门统计学分支, 顾名思 义,统计诊断就是对从实际问题中收集起来的数据,和提炼出来 的模型以及由此出发所作的推断方法的合理性进入深入细致的分 析,并通过一些诊断统计量来检查数据、模型及推导力 一法中可能 存在的 “ 毛病” , 进而提出“ 治疗” 方案。也 就是说, 对统计方法 解决问 题的全过程进行诊断。 为了克服既定模型与客观实际之间可能存在的不一致性,通 常有两种途径可循:第一,寻找一种统计方法是之当模型又微小 变动或扰动时统计诊断不会受太大的影响,亦即这种统计方法对 模型的扰动具有某种稳健性,这就是所谓的稳健统计。第二,寻 找一种诊断方法,判断实际数据是否与既定模型有较大偏离并采 取相应对策,这就是统计诊断的主要内容。 l i s r e a l 结构模型的统计诊断问 题 1 .2 .2 统计诊断的 基本概念 ( i ) 异常点 在回归模型中,异常点是指对既定模型偏离很大的数据点。 异常点的探查是统计诊断的主要内容之一, b e c k m a n 和c o o k 在文 献 5 中指出,目 前 对异常点 有以 下两种较为流行的 看法:第一, 把异常点看成是那些与数据集的主体明显不协调、使得研究者大 感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端 点,即落在分布的单侧或双侧d 分位点以外的点,而a 通常取很 小的值 ( 如0 . 0 0 5 ) , 致使观察者对数据中出现如此极端的点感到 意外。第二,把异常点视为杂质点。它与数据集的主体不是来自 同一分布,是在绝大多数来自 某一共同分布的数据点中掺入的来 自 另一分布的少量“ 杂质” 。 不管采用哪种看法, “ 异常点” 的“ 异 常”之处总是相对于数据集的主体或所假定的模型而言的。在回 归模型中, 异常点对模型的偏离程度要远比 数据主体中的点为大, 对它们较为精细的鉴定则必须通过对度量偏离的指标作检验来确 定。 ( 2 ) 强影响点 数据集中的强影响点是指那些对统计量的取值有非常大的影 响力或冲击力的点。数据集中各个数据点对统计诊断的影响大小 是不相等的,在分析影响大小时, 有几个基本问题需要考虑。首 先必须明确“ 是对那一个统计量的影响, 。 例如, 对线性回归模型, 所考虑的是对回归系数的估计量的影响还是对误差方差的估计量 的影响;是对拟和优度统计量的影响还是对预测统计量的影响; 等等。一般来讲,对于既定模型,通常总是选择几个有兴趣的统 北方交通大学硕士学位论文 计量( 如回归系数的估计量等等) , 然后考察数据点对它们的影响。 其次, 必须确定“ 度量影响的尺度是什么?” 。 为了定量的刻画影 响的大小,迄今为止已提出多种尺度。诸如,残差的尺度,给予 拟和的尺度,基于影响函数的尺度等等。在每一种类型中又可能 有不同的统计量,例如基于影响函数就己 提出多种 “ 距离”来度 量影响, 有c o o k 距离、 修正c o o k 距离、 w e l s c h 一 k u h 距离等等。 如同对待异常点的处理一样,对己判定的强影响点也必须慎 重处置。强影响点通常是数据集中更为重要的数据点,它往往能 提供比一般数据点更多的信息,因此需引起特别注意。还有,强 影响点和异常点是两个不同的概念,它们之间即有一定的联系也 有区别。强影响点可能同时又是异常点也可能不是;反之,异常 点可能同时又是强影响点也可能不是。 1 .3矩阵知识 本文的概念和公式大多以向量和矩阵的形式出现,所以有必 要介绍一些矩阵方面的相关知识。 1 .3 . 1广义逆矩阵 广义逆矩阵是本世纪矩阵理论中的一项极为重要的新发展, 特别自7 0 年代以来, 广义逆矩阵的理论和计算方法的研究取得了 长 足的进展,并在概率统计、数学规划、数值分析、控制论、博 弈论和网络理论等领域得到程度不同的应用。 定义1 对给定的 矩阵次二 . , 如有矩阵x满足 l i s r e a l 结构模型的 统计诊断问 题 axa =a( 1 . 3 ) 则称x是a的一个 “ 减号逆” ,记为a 一 。 定理1 .1 对于 任意 给定的 矩阵凡,a 一 必 存在。 推 论 1 .1 ( 1 ) 对于 任意 给定 的 矩阵氏 。, 若a 对称 则在 所有a 一 中至少有一个是对称的。 若az 0 , 则至少有一个a 一 二 0 ; ( 2 ) a - 惟一。a为可逆矩阵,此时a - = a - ; ( 3 ) a - a与a a 一 均为幂等矩阵,且 r k ( a 一 ) 二 r k ( a ) = r k ( a - a ) = r k ( a a 一 ) ; ( 3 )若j ( b ) c m ( a ) , n ( c ) p ( a t ) , 则c t a - b 与a - 的 选 择无关。 一般说 来, a的减号逆a 一 不一定只有一个, 粗糙地说,a的 秩越小,a 一 就越多。 定理1 .2 a 一 有下列基本性质 ( 1 ) 侧一 ) 为a 的 一 个 广 义 逆, 特 别 地, 若a = a t , 则叼一 ) 为a的一个广义逆; ( 2 ) 若p ,q 均为可逆方阵, 则( p b q ) 一 ( ) - b - p - 1 , 从而 有 b 一 q ( p b q ) 一 p。 定 理1 .3 a 侧 t a ) - 川a 一 a , a a 扭 切 ) - a 一 a t 。 北方交通大学硕十学位论文 定 理1 .4若记 弓= a 叼t a ) - a r , 则弓与叼t a ) 一 的 选 取 无关 且p a 对称、 幂等。 下面我们来推导在本文中起重要作用的任意两矩阵之差的广 义逆公式: 引理 1 对于分块矩阵a= 当a 0 时有下式成 、.声厂 人人 ( a , , 一 a 12 a 2 2 a 2 , ) 一 a + aa , 2 ( a 二一 a 2 , a ,l a i2 ) 一 a 2 , a ,i 一 a , i a , 2 x 2 n 一 x i z a 2 ,a ii ( 1 .4 ) 其中x 2 x ,2 满 足a u x ,2 ( a , , - a 2, a i ,a ,2 ) 一 。 ,( 1 .5 ) 叼2 2 一 a 2 , a , , a , 2 ) x , ,a l , = 0 。( 1 .6 ) 证明:当a二 0 时,由于a= l l,分块后得 二a =l艺二 利用 a i i a h a , 2 一 l ,l , ( l , l , ) 一 l il , 一 l ; l , 一 a t 2 , a 2 ,a i-i a , , 一 l l . ( l i l .2) 一 l ,l , 一 乓l , 一 a 2 1 类似的有 a 2 2 a 2 2 a 2 , = a 2 , ,a 1 2 a 2 2 a 2 2 = a 1 2 因此 i 一 a 2 , a 八o)(a ,n a ,2 1(ii a 2 a 22/ii0 一 a 舀 a 1 2 i 0 a 2 : 一 a 2 1 a 八 a , 2 街0 了产!、 l i s r e a l结构模型的统计诊断问题 由分块矩阵求逆公式得 + 几o ( a a u ) 一( 一 “ ,1 a , 气 a 2 , a 22欠 2 x 2 , 一 x , 2 a 2 ,a u x2 , 了 - n a 了日、 一 b 、,.月.犷了 a ,-1 人2 一i 其中b = a 2 2 一 儿, a减 2 戈2 1 x 2 , 只要满足 人, x , 2 b= 0 , 类似地有 b x 2 , a 二 0 。 + 、,.产. y 1 2 a -2 2 一 a 2 a, y , : 一 y 2 a m a -2 2 i五 产仁、 一 d 、,月.,了 a 2 2 a , ( a lla 21 ( - i a 12 a 22 其中d一 a , , 一 式 a2 凡, , y 2 1 y , 只要 满足 a 2 2 矶 , d二 0 ,d y 2 a 2 2 = 0 。 比较这两个不同表达式的左上角子块,就得 (a ,: 一 人 2, ) _a ,2a 22 a+ a 一 a ,2 x 22 一 “ a ,2 y a 2,a ,i 一 aa , 2 x 2 】 一 x 1 2 a 2 ,a , i 只要x 2 , i x ,2 满 足 ax , 2 ( a 2 : 一 a 2 , aa u ) = 0 ,( a 2 : 一 a 2 , aa , 2 ) x 2 ,a , , 一 0 。 定理 l s 任意两矩阵b,c的差的广义逆为 ( b 一 c ) 一 b 一 + b - c ( c一 :b - c ) 一 c b - 证明: c 1 . 7 北方交通大学硕士学位论文 很 明 显, 式 ( 1 .4 ) 中 取x , , 二 0 ,x 12 一 0 是 可以 的, 这 样 就 化简为 叼1 t 一 a t 2 a 2 2 a 2 1 ) 令a te = a 2 , = a 2 2 , = a v + a li a 1 2 州z : 一 a 2 , a ii a i 2 ) 一 a 2 ,a u 则可化为 ( a , , 一 a ,2 ) 一 a p t 十 aa 2 2 ( a 2 2 一 a 2 2 a t, a 2 2 ) a 2 z a 这样我们就可以得出任意两矩阵b, c的差的广义逆 (b 一 c y 一 b 一 , b - c (c 一 c b - c y c b - 显然,上式并不是b一 c的广义逆的全体,但它是b一 c的广 义逆,当我们只需要b一 c的一个任意广义逆时,有这个表达式 就很方便了。 1 .3 .2二次投影公式 设x为n x p 阶矩阵,其列向 量在欧式空间r 中生成的线性 空间记 为if ( x ) 。 qj ( x ) 空 间 上的 正 交 投 影阵( 简 称 投 影阵) 一记 为 弓。qi ( x ) 的 正 交 补空 间 上 的 投影 阵 记 为q x 。 正 交 投 影阵p x 满 足 卜 列关系 形二 p x 一 p x 二 x ( x x ) - x t , ( 1 .8 ) q x二 1 一 凡。( 1 ,9 ) 其中口t x ) 一 表 示( x 下 x ) 的 广 义 逆。 二 次 投 影 公 式设 , x p 阶 矩 阵 x 可 分 块 为 x= 扭t, x 2 ) , 则 l i s r e a l 结构模型的统计诊断问 题 影 阵p x 可 表 示为 p x 一 凡+ p q , x= 凡十 几- x , ) x , ( i . 1 0 ) 这 个公 式 表 示, 在 线 性 空 间qj ( x ) 上的 投影 可以 分 成 两次 来 进 行: 首 先 求 出 在 t ( x , ) 上 的 投 影 , 然 后 再 求 其 正 交 补 q x , x 2 生 成 的 空 间中的投影。 今考虑回归分析中常用的投影阵,考虑线性回归模型 y ; r x ; fl + s , , a i - n ( o , a 2 ) , i 一 1 ,2 , . . . , n . ( 1 .1 1 ) 、 = , x =, , 二 , x 、 _: 少 , 。 一 (p . , p 。二 , o n -, j . 其中 y 为因 变 量, x i 为自 变量, 。 , 为 随 机误 差。 其 第i 组 观 察 值 为 卜 ; x i. , , x iy ) 通 常 可 表 示 矩 阵 形 式 如 下 y 一 邓 十 ,: - n ( o , c 2 7 ) 。 其中, y 二4 y r , j3 c , , , y rz y , 。 一 ( , : , ) p p a ) , x 为 二 、 , 阶 列 满 秩 矩 阵 , 其 第 , 行 为 记 模 型 ( 1 . 1 1 ) 式中月 和a 2 的 估计 分 别为户 和 引 46 一 (13 11 , (l , x -, , d之 。 在模型 ( 1 . 1 1 ) 式中,x的 投影阵常 一e 为p , 并记q一 i 一 p q 山 于p 作 甩 到y 上 得 到 逆 和 值犷 二 p y , 因 此 这 种 特 定的 投 影 阵 也 北方交通大学硕十学位论文 称为帽子矩阵。帽子矩阵有许多特殊的性质,在介绍这些性质之 前先引进若干记号。 在( 1 . 1 1 ) 式中, 我 们假定x为 列满秩矩阵。 把x的列向 量记 20 吸犷户p-1 x 气 为1 一 ( 1 , x , 一 位 , 二 ., 如下 1 了 , x ,x o _ y e x的 各 行 组 成 的 向 量 记 为 二 1 ,,n 。 矩阵x可写成分块形式 x = ( 1 , x ) , x二 由于君= 乌 一 , 一 1 丫, 因 此 由 二 次 投 影 公 式( 1 .1 0 ) 可知,帽子矩阵即x产生的投影阵尸可表示为 (l.1l) ” 一 资 + x (x x )一x t , 其中 j二 1 1 , x 。 一 (i 一 与) x 。 n 对 ) 是 否 为异常 点等 价于 检 验如下 假 设 h : r l 二 q “方 :n ; q a 更一般地,考虑同时检验多个异常点的均值漂移模型 y. x , 二 n x (p + k )y ( f + k )x p + d n . (d ,x p + e ,, 其寸 , l j s r e a l 结 构模型的统计诊 断问 题 中 为i x p 阶 扰动 矩阵, d 一 恤 。 , , d ir ) 为。 x 1 矩阵, d i, 一 (0 , 一 , 0 , 1 , 0 , , o y , i 一 卜,la第 i, 个 分 量 为 1 , 其他均为零。 判断指标属于j 的1 个数据点是否同时为异常点的问题, 等价 与检验假设 h (, :4)二 0 ,鱿:(d;- 0 。 八屹 ,临67 及22 e 设 模 型 ( a .$ ) 式 相 应的 最 小 二 乘 估 计 为y a 、 犷、 ,则有如下定理, 定 理2 .2 模 型 仁5 ) 式 相 应的 最小 二 乘 估计 满 足 y 。 一 y 一 w5 ) 一 g t 4 t , r 一 ( d i q d i , e 。 一 e 一 q d i ( d it q d ) 一 e i , r s s q 二 r s s 一 e i ( d it q d i ) e i , , , , , :e ? d q d ) 一 e . v一 v 一 互 止 二 遥二 二 i l _ n 一 p一 k 了丫 了甘月,、 d 证明: y 二 y + d ir ) r + e 一 低 十e ( i ,乓 d , )1 二 p y 由_ 次投影公式知 北方交通大学硕士学位论文 8)哟 (2仁 p 一 p 4 , , , 二 p + p , i 一 p + q d , (d q d r ) - d i q q 一 i 一 p 二 i 一 p 一 q d j 衅q d , ) 一 d f q = q 一 q d j ( d i q d i ) 一 d it q %(4 ( 2 .9 ) 和 ( 2 .8 ) 两 式 代入 ( 2 .7 ) 式 右 端 可 得 p y 一 尸 y 十 q d i ( d i q d i ) 一 可 q y 一 p y 一 p d i ( d it q d i ) 一 可 q y + d ; ( d 了 q d j ) 一 叮 q y 二 ( t o-q t y 一 ( t ) 一 t d) 一 d+ d ; ( d it q d i ) 一 dq y 二 。 ( t ) 一 5 t y 一 (j ts ) 一 v d i 可知 i ( d r q d i ) 一 d i q y (d i q d i) 一 、 it q y + d i ( d i q d ; ) 一 可q y ,. 二 ( dq d i ) 一 d i q y 二 ( d = q d i ) 一 e ; 从而己知 y 。 二 r 一 w ) 一 t d i ( d i q d i ) 一 d i q y _ y 一 ( t s ) r n r , r s s 。 二 y 1 q y 二 y t q y 一 y q d ; (d i q d i ) 一 d it q y 二 r s , 一,e i ( d ir q d i ) 一 e ; , v 2 二r s s _ 一 r s s n 一 p一 k n 一 f一 k _ r (d : q d i e : 二 v 2 e z ( d i q d i ) 一 e i n 一 p一 k 一一 一, n 一 p一 k e . 二 q y 二 q y 一 q d i ( d i q d i ) - d it q y 二 e 一 q d i ( d it q d i ) 一 j i 。 2 1 l i s r e a l 结构模型的统计诊断问题 第三章 影响分析 3 . 1 样本影响函数 影响函数概念的来源可追溯到v o n m is e s 在四十年代的研究 t 作 2 1 , 1 9 7 4 年h a m p e l 2 2 使 用 影响 函 数 并 引 进 崩 溃 点 的 概 念 给稳健性以精确的描述,取得很大的成功。1 9 8 0年 c o o k和 w e i s b e r g在文献 2 3 中 利用影响函 数 来检查 样 本点 对估计量的 影响,本章中我们将先定义多元结构模型的影响函数,然后利用 其检查样本点对模型 ( 2 .2 )的估计量的影响。 3 . 1 . 1影响函数的定义及其样本形式 设x. . . , x 。 为来n 母体分布函 数为f ( x ) ( c e r ) 的 独立同 分 布 样 本 , t一 t x , ,x ) 为 k 为 向 量 值 统 计 量 , 当 t 的 函 数 形式给定以 后, 它的分布将山f ( x ) 唯一确定。 现假定f ( x ) 受到一 个扰 动 而变化为g ( x ) , 则相 应于t的 分 布 也 将产 生 变化, 希望 通 过 研究t与 扰 动a f ( x ) 一 g ( x ) - f ( x ) 之间 的 相 互依 赖 关系 来 考察 t的 性质。 为此将所有感兴趣的分布函数集中在一起组成一个分布函数 族f , 设f 为全体分布函数空间中的一个凸子集d 包含所有的退化 分 布 , 当 然 要 求 所 考 虑 的 母 体 分 布 函 数f ( x ) e f 。 又 设 欢为 基 于 样本 x . . . . . . x 。 的 经 验 分 布函 数, 它 可 表 示 为 f (x ) 一 1 x s ;(x ) , x e r ( 3 . 1 ) 北方交通大学硕士学位论文 s i ( x ) = : 土 式中 x 及诸x 、 均为m 由 ( 3 . 1 ) 式立即可得 吐出提 其注 f (x ) 一 (i 一 1 )f _, (x ) + - s (x ) 。( 3 . 2 ) 下面给出影响函数的定义, 定义3 . 1设t 为从f 映射到r k 上的向量值泛函, 假定涉及到 的 极 限 存 在 , 则 t 在f 的 影 响 函 数 i f 伍 t , f逐 点 定 义 为 if (z ; t , f ) 一 lim- u+ t (1 一 ) 二 + e 6 j - t ( f ) (3 .3 ) 其中 、 , 、 i , u : z v 八u ) 嘴 、w . l u , 升 匕。 若上述极限不存在,则t 在f的影响函数不存在。 定 义3 .2统计 泛函t 关于 样本x ; , 二 , x 。 的 经验影响函 数定义 为 e if (z ; : , f ) 一 jim 1 (i 一 : )f , e s _ i- t ( f? )1 , : 二 二。 七 一u 个e -一扣 尽管e l l有着很好的大样本性质,但是为了求出这些量仍需 要一个极限过程,在使用上还是不太方便。我们希望能够直接山 样本 x : , , 二 , x , 出 发, 构 造与 影 响 函 数i f 类 似的 度 量, 并 希 望能 直 接 刻 画 删 除 第 i 个 数 据 点 所 产 生 的 影 响 。 l j ( 1 2 ) 式 类 似 , f 与 f ( i) 之间有如下的关系 f ( i ) 二(1 + 一 与f - n一7 s ; , ( 4 ) l i s r e a l 结构模型的统计诊断问 题 其 中6 ; 为 质 量 集中 在 点戈 的 单 点 分布 函 数。 定义 3 。统计泛函t 相对于第i 个数据点的样本影响函 数定 义为 s if . 一 (n 一 1)t (f (i) 一 t (p ) i i , 一 1, 2 , , 一 , n 。(3 .5 ) 3 . 1 .2结构方程式模型的样本影响函数 现 考虑模型 ( 2 .2 ) 式, 寻 求l s 估 计y 的 影响函 数及其 样本形式。 按照上一小节的讨论,首先需要构造适当的泛函t,使得 t ( f ) = y 一般地,线性回归模型是用来描述因变量夕与自变量 i . i 氛* 之间的 线性相关关系, 或说我们希望用 s r , 一 , 氛、 的 线性函 数在均方意义下来逼近, 。记 p , = 乞 , 氛 * ) , 设 ( 2 p + k ) 维 随 机 向 m u t = ly t , : ) 的 联 合 分布为f,且假定存在二阶知 、卜, e , ( . . t ) v z ( f ) v , ( f ) 、口产、,户 ff 咨乎.、厂、 科代 zr盈.,.,、 -一 飞、.1于护 勿尹 髯t y 了! f e 目 其 中 , 气 ( f ) 均 视 为 关 于 f 的 泛函 ( p + k ) x ( p + k ) 矩 阵 v i r ( f ) 为 畜 的 协 方 差 阵 , y 2 2 ( f ) 为 y 的 方 差 , 且 v , ( f ) r 0 . g z 2 ( f ) - o o 现假定己获得。的n个样本ul ,一 ,。 。,其中 u二 停, , 力 , 设 基 于 此 样 本 的 经 验 分 布 函 数 为 户 。 当 允 许 对 歹 进 行设 计时 , 我 们往 往 将其 样 本含 1 , 二 , 5看 成固 定的 向 量 而建 立 模 型 2 .2 式 。 此 时 , 夸 一 t r. , 氛ts r y 一 (y r . , v n ) , 则 北方交通大学硕士学位论文 回 归 系 数y 的l s 估计 为p 然地取为 二 烤 1 夸 ) 一 夸 r y与 y 相应的 统计泛函可自 t ( f ) 二 v i i ( f ) v s 护) 记 f (u ) 一 生 双7 . ru ) , ll g r 2p+k 2 , 当。 a “ 、 , o l 其它 l t 6 r t a k 砂.j毖亚、 尝 、.j 伪 占 氏 办 l, f z i o , 其它 xgrp k /, 一 犷 25 y z y, .o,a l y ex 0 显然 a ; ( u ) 二 占 传) 吞 , ( 夕 ) 。 在以_ 上记号下,有 j i t ( ) = 声 d t - (. ) -多 声讯 和 , 一 i -.d,$,(f )f d,y ) ( 3 .6 ) r同定理2 . 1 中规定。 3 .2 wi l k s 准则 对于向 量值影响函数, 例如! f ( a ) ,如何用它来探查强影响 点?通常的做法就是寻找影响函数的适当的模,将向量映射为数 量,再根据模的大小来加以判断。s . wi l k s 给出了一种对一组向 量排序的准则,通常称之为 w i l k s 准则,它可用来识别多元数据 中的异常点 下 面我们就模型( 2 .2 ) 式给出wi l k s 准则的 相应结论。 设v一 酬= ( v 几x ;勺( i = 1 , . . . , n ) 为n 个( p + k ) 维向 量,记 、 一 n _( v , 。 一 客 (v ; 一 、 1 一 v )l , ( 3 . 7 ) u v和洲 1一n-1 一- 一 9 00, 一 u ( z ) ) 、,月尹1 朴妙“、 一u见 若i ( 1 5 1 n ) 使得 北方交通大学硕十学位论文 iq ( i ) i q ( 3 . 8 ) .m驯 m执 -一 “、一9 9一! 则 认 为 v ;。 为 最 可 能 的 异 常 点 。 e i3 ( 3 .7 ) 式可得 u (i) 二 、 + 兴(v 一 。 ) 了 ju月ij 。 (,卜 万 !(u 一 二 卜 共(v ; 和一 u n一1 尹忆w 户几. ju月jj 一u - 一 7 (v , 一 v x v , 一 v、 n一1 (v , 一 v x v , 一 v y 少 ,艺 + 兴y (v 、 一 二 k u 一 二 )t 、 n一i 份 兴又 (v ! n一1 节 一 二 11v 、 一 v =q 一典 月一 t ( v一 v ) ( u , 一 v ) t 山代数公式得 于是 一 ,叶一 nn - 1 : 一 v ) t。 一(v i一 可 一 , 一 n ( ;un - 1一 v ) , 。 一(v , 一 u ) o 叫阳 因 此, w i l k s 准则等价于: 取i ,. 使得 v ; 一 v ) t q 一 ,(v - - u ) 一 m a (l ;1,sn一 d t 0 一扣一 v ) a ( 3 . 9 ) 记 iq( i ) i n; =二 一升 i训 一( v一 u ) 1 。 一 和 , 一 刃。 ( 3 . 1 0 ) 2 7 l i s r e a l 结构模型的统计诊断问题 其中 , a , 称为 第l 个 数 据点 的 广 义 方 差比 , 扭一 i ) 瑟称为 第2 个 数 据点的ma h a l a n o b i s 广义距离。 使用 wi l k s准则来探查数据中关于某一项量参数的强影响 点,对选定的某一样本影响度量,经计算可得到它在n 个数据点 的 取值, 利用( 3 .9 ) 式即 可找 到 这个向 量中的 异 常向 量。 从而可认 为该异常向量所对应的数据点为关于此向量参数的强影响点。在 随后的例子中我们将作具体的解释。 3 .3 例题:分析鼻炎患者生存质量的影响因素 患者的生存质量受病情、手术方式、用药程度和治愈时间等 因子的影响,可以通过检查等手段获得患者的各项数据,但那些 对生存质量起支配作用的因子的状态不能直接测定到。义如,考 虑生理指标: 呼吸情况、 睡眠状况及头痛情况, 从生理知识知道, 这五项是受植物神经支配的,而这些神经的状态也不能直接测定 出来。因子分析就是要找出某个问题中可直接测量的具有一定相 关性的诸指标,如何受少数儿个在专业上有意义、又不可直接测 量到、且相对独立的因子支配的规律,从而可用诸指标的测量值 来间接确定诸因子的状态。同时,l i s r e l线性结构方程式模型 是分析不可直接测量的因素之间的关系。因此将因子分析与 l i s r e l 模型相结合是合理、 适用、且方便的。 1 . 调查与分析: 选择衡水市枣强县医院2 0 0 1 年上半年就诊的鼻炎患者共 6 0 例作为调查对象, 调查项目分为只部分( 数据见附表) : 反映调查 对象的基本情况、 病情和治疗情况的指标 1 4 项; 反映调查对象的 精神、心理状态及一些机体功能的指标共1 0 项。 北方交通大学硕士学位论文 首先创建包含分析数据的数据集,它有6 0 个观测、2 4 个变 量,其2 4 个变量名意义如下表: 变量名及意义 变量名意义变量名意义 年龄 性别 ( 男, x 2 =1 汝, x 2 = 2 7 锻炼身体 增加营养 文化程度 睡眠情况 发病时年龄呼吸情况 戈凡戈从 x ,发 现病情时的 状况 x ,是否 侵犯其它器官 头痛情况 记忆能力 x,出现症状到确诊间隔时间逻辑思维能力 x 。中 医 治 疗效 果 x 。手 术 方 式 情绪 疾病恐惧感 xxk砚叽乙犯x匕r89 、iix长 x i o使 用 消 炎 药 程 度 x 1 ,治 愈时间 精神痛苦感 治疗疾病的信心 x 1 2治 疗总费 用 y,对治疗的态度 2因子分析 对反映患者基本情况、 病情和治疗情况的1 4 个变量值进行主 成分因子分析,从而可知相关阵大于等于1 的特征值有四个,它 l i s r e a l结构模型的统计诊断问题 们一起解释了总信息的7 0 .5 4 %,从 1 4 个变量中可提取出四个公 因普 1 , 夸 2 , 参 3 , 占 4 。 这四 个公因 子在1 4 个变 量上的因 子负 荷见下表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论