




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在实际问题中我们经常会遇到一些关于污染数据 c o n t a m i n a t e dd a t e 和截断 数据 c e n s o r e dd a t e 的回归分析问题 所谓污染模型 即总体分布表现为两个 分布的混合 1 一占 鼻 力 g 互 x 其中o f 1 该问题中 互 z 是未知的 分布函数 e z 是己知的 这类问题一般表述为 试验所观察到的数据以概率 1 一g 来自分布e 戈 以概率占来自分布e x 通常我们认为数据本应服从分布e x 但却受到了来自分布e z 的数据的污染 占称为污染系数 本文主要研究了一类特殊的污染数据模型相关参数的估计 检验和污染系数的 估计问题 讨论了污染数据线性模型在删除条件下参数估计的前后关系 并给出了 c o o k 距离 文中首先给出了污染数据线性模型的定义及有关参数的点估计 再对文中所提 到的模型i l 的参数给出其区间估计 同时介绍了污染模型的b a y e s 检验 文中第三章是污染线性模型的展开 在这部分中 我们讨论了该模型在个体删 除的情况下前后参数的关系并得到了相应的c o o k 诊断统计量 第四章给出了污染数据线性模型在理论上的一个典型应用 然后用统计模拟的 方法模拟了该模型中厂 石 和g 工 都为正态情况下的相关结论 综上所述 本文是在总结前人对该模型研究的基础之上 全面地研究了污染数 据线性模型并得到了一些简单结果 关键词 污染数据 参数估计 影响分析 随机模拟 a bs t r a c t i np r a c t i c a lp r o b l e m s t h ef e g r e s s i o n a n a l y s i so fs o m ec o n t 锄i n a t e dd a t aa n d c e n s o r e dd a t aa r eo r e ne n c o u n t e r e d t h es o c a l l e dc o n t 锄i n a t e dm o d e l i sm a tt h eo v e r a l l d i s t r i b u t i o n p e r f o m e df o r 似om i x e d d i s t r i b u t i o nf x 1 一s 互 x g e 算 w h e r e0 占 1 i nt h i sp r o b l e m t h ed i s t r i b u t i o n 石 石 i su m 1 1 0 w n a i l d 互 x h a s b e e nk n o w n s u c hp r o b l e m sg e n e r a l l ye x p r e s s e dt h a tt h ed a t ab yt e s to b s e e da s 1 一g p r o b a b i l i t yc o m i n g6 mt h ed i s t r i b u t i o nf 石 占p r o b a b i l i t yc o m i n g 矗o mm e d i s t r i b u t i o ne x w eu s u a l l yt h j i l l t h a tt h ed a t as h o u l db es u b j e c tt od i s t n b u t i o n 互 x b u tw a sp o l l u t e db yt l l ed i s t r i b u t i o ne z w h e r e占i sk n o w na sc o n t 锄i n a t e d c o e 伍c i e n t as p e c i a lk i n d o fc o n t a m i n a t e dm o d e l p a r a m e t e r se s t i m a t i n g t e s t i n g a 1 1 d c o n t 锄i n a t e dc o e 伍c i e n te s t i m a t i n ga r es t u d i e di nt h ep 印e r u n d e rt h ec o n d i t i o n so f d e l e t i o n t h er e l a t i o n s h i p 锄o n go ft h ep a r a m e t e re s t i m a t i o n so ft h ec o n t a m i n a t e dl i n e a u r m o d e li sd i s c u s s e d a n dt h ec o o ks t a t i s t i c sa r er e a c h e d f i r s t l y w eg a v et h ed e f i n i t i o na n dp r e s e n t e dp o i n te s t i m a t e so fm er e l e v a n t c o m a m i n a t e dd a t al i n e a rm o d e lp a r a m e t e r si nt h et e x t t h e n p a r a m e t e r si n t e r v a l e s t i m a t i o no ft h em o d e lm e m i o n e di nt h et e x t w e r e 百v e n a tt h es 锄et i m e w e i n 们d u c e db a y e st e s to ft h ec o n t 锄i n a t e dm o d e l c h 叩t e ri i i i st h ec o n t 锄i n a t e dl i n e a rm o d e ls t a r t e d i nm i sp a r t u n d e rt h e c o n d i t i o n so ft h ei n d i v i d u a ld e l e t i o n w ed i s c u s st h ep a r 锄e t e r sr e l a t i o n s h i po ft h e c o n t 锄i n a t e dd a t al i n e a rm o d e lb e t w e e nm eb e f o r ea n da r e rd e l e t i o na n d 西v e l e c o r r e s p o n d i n gc o o kd i s t a n c e t h et y p i c a la p p l i c a t i o ni nm et h e o 巧o ft h ec o n t a m i n a t e dd a t al i n e a rm o d e lw a s 西v e n t h e n m es t a t i s t i c a ls i m u l a t i o nm e t h o dw a su s e dt os i m u l a t et h em o d e l t bs 啪u p t i l i st e x ti sas 啪m a r yo ft h er e s u l t so ft h e i rp r e d e c e s s o r s t h e c o n t 锄i n a t e dl i n e a rm o d e lw a sc 0 m p r e h e n s i v es t u d i e d a l l ds o m es i m p l er e s u l t sa b o u t m em o d e la r ed i s c u s s e d k e yw o r d s c o n t a m i n a t e dd a t e p a r 锄e t e re s t i m a t i o l l i n n u e n c e 锄a l y s i s s t 0c h a s t i c s i m u l a t i o n i i 学位论文独创性声明 本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取 得的研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论 文中不包含其他人已经发表或撰写过的研究成果 与我一同工作的同事 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意 如不实 本人负全部责任 论文作者 签名 娅 整丛 2 8 年6 月2 日 学位论文使用授权说明 河海大学 中国科学技术信息研究所 国家图书馆 中国学术期刊 光盘版 电子杂志社有权保留本人所送交学位论文的复印件或电子文 档 可以采用影印 缩印或其他复制手段保存论文 本人电子文档的内 容和纸质论文的内容相一致 除在保密期内的保密论文外 允许论文被 查阅和借阅 论文全部或部分内容的公布 包括刊登 授权河海大学研究生 院办理 论文作者 签名 然 爨二叠 2 0 0 8 年6 月2 0 日 第一章绪论 第一章绪论 1 1 线性模型及其相关理论 1 1 1 线性模型概述 线性模型是一类统计模型的总体 它包括线性回归模型 方差分析模型 协方 差分析模型和线性混合效应模型等 许多生物 医学 经济 管理等领域的现象 都可以用线性模型来近似的描述 有时许多量之间的关系是非线性的 我们经过适 当的变换 变换过后的新变量之间具有近似的线性关系 因此线性模型有着广泛的 应用 对回归模型所进行的统计分析 通常称为回归分析 以下将介绍回归分析的 主要应用 l 描述变量之间的关系 当我们有了一组因变量和自变量的数据 通过回归分析方法 建立一个线性经 验回归方程 通过一定的检验 我们认为这个方程描述了因变量和自变量之间的相 依关系 事实上 当我们应用线性模型对数据进行分析时 面临着模型选择 自变 量选择 误差假设等诸多问题 因此 当我们获得了一个经验回归方程后 需要考 察它是否真正刻画了因变量与自变量之间客观存在的依赖关系 2 分析变量之间的相互关系 在建立了一个比较满意的经验回归方程之后 就可以利用它分析变量之间的关 系 用y 表示因变量 x 五 x 为自变量 假设经验回归方程是 y j b a b l x i 七p 2 x 2 j 3p xp 在消除了自变量x x 所用计量单位的影响之后 回归系数层的估计值层的 大小在一定稃度上反映了变量对变量y 的影响大小 另外 我们还可以分析自变量 之间存在的相互关系 3 预测 点预测就是通过经验回归方程 对自变量五 t x 的一组特定值去预回因 变量 尽管会有一定的误差 它却构成了回归分析一个极为重要的应用 有时候 我们往住需要用 个区间去预测因变量 称为区间预测 1 1 2 线性回归模型的相关理论 假设 为因变量 墨 t 一 为对l 有影响的自变量 并且它们之间具有线 性关系 y p q 七 3 xl 0 i x 2 8 h xp e 其中p 为误差项 它表示除了墨 五 x 川之外其它因素对 的影响 属 屈 屏一 是待估什的未知参数 假定我们有了因变量y 和自变量墨 t x 川 的以组观察值 蕾i t 2 i 咒 f l 2 z 它满足关系式 咒2 属 t l 屈 j 口一l 膨 l 巳 f 1 2 z 把它写成矩阵的形式为 少 x e 1 1 1 这里 y 为 z l 的观察向量 x 为甩 p 的设计矩阵 为未知的参数 其中成称 为常数项 f 为 z x l 的随机误差向量 理论上误差向量假设为 f e q o 阮r 白 仃2 f l 2 f i c o v q 勺 o 事实上 常有纥 q z f 1 2 玎 这里砰可能不全相等的情况 这时 误差向量的协方蒡为 c d v e 砰 o 0 0o o 在一些实际问题的研究中 误差还具有自相关性 一种简单的自相关关系是误 第一章绪论 差为一阶自回归形式 即 p i 五q 一 幺 l 力l 1 下面给出线性回归模型理论中常用的几个定理 定理1 1 对线性回归模型 1 1 1 的最小二乘估计为夕 x7 x 一 x r y 且具有下列性质 1 e 0 2 v 夕 仃2 x 丁x 一 这个定理的第一条结论表明 最小二乘估夕是 的无偏估计 我们把吾看成误 差向量e y x 的估计 残差平方和为尺懿 占r e 孑 它的大小反映了实际数 f i 据与理论模型的偏离程度或者说拟合程度 r s s 愈小 数据与模型拟合得愈好 下 面的定理给出了r s s 的一个有用表达式以及利用r s s 构造的的无偏估计 定理1 2 1 r 船 y r 一x 何7 x 一1x r y j r j 一矽r x7 y 2 孑 堕 且矛z 是盯 的无偏估计 n p 定理1 3 对线性回归模型 1 1 1 若进一步假设误差向量p o 盯2 则 1 夕 盯2 x 7 x 一1 等 南 3 与r 镕相互独立 1 2 研究背景及污染模型的提出 1 2 1 研究的背景 m c k e n d r i c k 嘲 1 9 2 6 叙述了这样的一个例子 2 0 世纪初 某印第安居住地的居 民受到霍乱的感染 在该居住地抽查了2 2 3 户居民 其中有1 6 8 户居民尚未受到感 染 而其他居民家庭都或多或少地受到感染 他们被感染的情况见下表1 1 河海大学硕十论文 表1 1 m c k e n d r i c k 问题的真实数据与拟合值 家庭中感染的人数x o123 4 5 总数 家庭数 1 6 83 21 661o2 2 3 p o s s i o n 分布拟合值1 5 1 6 45 8 4 81 1 2 81 4 50 0 0o 0 l2 2 3 混合分布f 的拟合值 1 6 8 0 13 2 5 21 5 8 15 1 21 2 5 0 2 92 2 3 一个自然的想法是用p o i s s o n 分布来拟合这些数据 记分布参数为允 则五的 极大似然估计为 互 i 三y 葺 从拟合值来看 表1 1 的第3 行 效果很不理想 n 智 z 2 一心口坶伽统计量为3 6 7 5 不能接受参数分布为p o i s s o n 分布 如果计算一下样 本矩 可得到一阶 二阶原点距为 西 i 去喜玉 3 8 6 磊z 去喜誓2 7 7 4 若它们来自p o i s s o n 分布 应有五 五卜五 但五 五 o 5 3 5 和西 相差很大 也 说明p o i s s o n 分布的假定不合理 通过进一步研究 m c k e n d r i c k 发现2 2 3 户居民有 部分家庭可能从未饮用带有霍乱病菌的井水 也就是说他们并没有暴露于感染霍乱 的风险中 而那些暴露于霍乱风险的家庭的感染情况确实符合p o i s s o n 分布 从抽 样来看 可把总体分成两个子总体 暴露于霍乱感染风险的家庭和没有暴露于霍乱 感染风险的家庭 每个抽到的个体都可能来自这两个不同的子总体 假定来自前者 的概率为l 一占 来自后者的概率为占 对于前者 家庭中感染霍乱的人口数符合 p o i s s o n 分布 记其分布函数为只 j c 而后者感染系数恒为零 是个单点分布 记 其分布函数为e x 这样 家庭中感染霍乱的人口数x 服从的分布f x 为 f x 1 一占 e x 占互 x 其中o s 1 m c k e n c k 问题的出发点是希望建立暴露于霍乱风险的人群中家庭成员感染 数的模型 但得到的数据中混入了未暴露于霍乱风险的人群的数据 使得推断发生 了偏差 或者说数据受到了污染 c o n t 锄i n a t e 此时总体分布表现为两个分布的混 合f x 1 一 互 x s 互 x 其中0 g 1 在以上问题中 e x 是未知的参数 分布 是我们主要关心的 e x 是己知的 这类问题的一般表述为 试验所观察 到的数据以概率 1 一占 来自分布e x 以概率s 来自分布e x 通常我们认为数 第一章绪论 据本应服从e x 该分布 但却受到了来自分布e x 的数据的污染 这里占称为污 染系数 在实际应用中 随机变量受到污染的现象是很常见的 如在卫生统计和医学试 验中 当考察正常个体的生理指标的分布时 会混入一些患病的个体 反过来 当 考察患病个体的生理指标的分布时 会误诊混入一些正常的个体 在生产制造过程 中 由于生产条件的突发性变化 而使正常产品中混入了少量劣质产品 事实上 一般观察到的数据都或多或少地受到污染 没有污染的数据可以看成是占 0 的特 例 1 2 2 污染数据线性模型的提出 h u b e r 1 9 6 4 考虑了一类 被污染的正态分布族 c x 1 一占 e x s 互 x 其中0 g 1 上式中s 为污染系数 e x 为正态 0 1 分布的情况 而e 石 为一切关于原点对 称的一维概率密度族 即为 最 x 1 一s o 1 占g g 乓 其中e 功为一切关于原点对称的一维概率密度族 本文在h u b e r 提出的模型基础上 提出文中所涉及的三种污染数据线性模型们 模型i 已知简单的线性回归模型可以表示 乃2 口 誓 乌 f l 2 z 其中q 乞 气i i d 且e 白 o e 芎 仃 o 若设 w 为一组i i d 并独立于 p f 的污染变量 且眺 o 聊 面 o 通过试验观察到的数据为 满足下式 y j 1 一g 片 占wf 1 2 疗 其中占 0 占 1 是未知的污染参数 设口 1 口 6 1 一s z f 卜占 q s w 1 f z 此时j 可以表示为 气 河海大学硕士论文 一 口 红 刁 f l 2 刀 1 2 1 其中 z l 乞 z i i d 如 o j 1 一占 2 仃 9 2 仃 1 2 1 就是模型i 模型i i 在非污染的线性模型中 知 m 是受污染源影响的 而 是一组污染变 量 这样我们只能观测到污染数据 剪 而且 西 的分布可如下表示 y 1 一占 y s 少 f l 2 l 1 2 2 其中乇和 分别是y 和 的分布函数 占 o g 1 是未知的污染系数 1 2 2 称 为模型i i 模型 设 只 服从一般意义下的线性模型 乃 巳 f 1 2 z 其中薯是尺p 中一组己知向量 是未知的p 维回归参数 q 乞 巳是一组独立的 且具有相同分布函数f x 的误差 如 o e q 2 砰 现在 m 受污染源的影响 而且污染变量 w 是一组具有己知分布函数g x 的 独立变量 眺 o e 订 盯 因此我们只能得到观测数据 一 且满足 一 1 一占 刁 f l 2 刀 1 2 3 其中o g l 是未知的污染系数 z z 2 乙i i d 且具有未知分布 c x 1 一s f z g g x e 乞 o 仃2 e 2 1 一占 盯 s 2 d j 三 o g 焉 0 g 2 l1 观察值为 一 1 一占 乃 s w f 1 一s 誓 q s 心 1 一s 口 薯 1 一s e f 占w 1 一占 口 毛 z 口 6 丐 乙 2 1 2 其中 疗 1 一占 口 6 1 一占 刁 1 一占 q 占w 乞为取自随机变量z 所有可能 的值 服从 o 1 一s 2 砰 s 2 蠢 分布 将 2 1 2 式写成矩阵的形式为 j x r z 2 1 3 这里y 为咒 1 的观察向量 x 为 z 2 的设计矩阵 r 为2 l 的未知的参数 z 为 z l 的误差向量 由咒一 口 彳 一一 1 一占 缸 誓 1 一占 2 砰 s 2 霹 和 2 1 3 式 河海大学硕士论文 根据定理1 1 和定理1 2 得r 的估计 和j 的方差估计宅 分别表示为 尹 x r x 1 x 7 y n 玉 f if l r 一 2 i 五l f l 喜五 l 一2 2 由宅 1 一吾 2 砰 参2 霹 并根据 2 1 1 式解得占的估计为 s 2 再由a 1 一善 舀 6 1 一吾 得 口2 8 一 f lf l 卉 霹 隆卜喜 1 1 2 1 4 2 1 5 2 1 6 2 1 7 2 1 8 m 儿 职 l 矗 恐 五 l 五恐 吒 九 卜 磊 渊 一 薯 孑 h 忍一 薯 吲 阼 一 乃 瑚 誓 浏 孑 h 阼一 蕾 一 第二章污染数据线性模型的参数估计与b a y e s 检验 2 1 2 当口 o 时模型 中参数口 s 的估计 在模型i i 中 非污染的线性模型中 m 是受污染影响的 是一组污染变量序 列 设儿 口 q f l 2 l 其中q 相互独立 服从 o 盯 咒 受到一 串与之独立的随机变量r 的干扰 为取自r 的值 且相互独立 服从 o 盯 仃 蠢均为已知 我们只能观察到污染数据组 j 而且 y j 的分布可如下表示 2 1 一占 y s y f 1 2 z 由假设知只相互独立 且服从 口 触 砰 分布 因此可以推出 尸 y y 1 一g p 咒 y s p y 邓叫e 志唧 号 卜 志酬一轰 出 故y 的密度函数为 圳钊叫志唧 笋卜壶e 卅努 于是可得 e y j ej 矗 y 咖 e 沪州忡俐卜占 志唧 号产 e 志唧c 一白咖 算出毋 1 一s 口 薯 毋 2 1 一g 口 氏 2 盯门 西s 毋 3 1 一g 口 誓 3 3 1 一占 口 玉 砰 毋 5 1 一s 口 5 l o 1 一s 砰 口 薯 3 彳 1 5 1 一s 口 矸 河海大学硕士论文 下面考虑口 o 且z 未知情况下 s 砰的估计 采用矩方法立出方程组 一 一 1 一s 薯 f 1 月 一3 1 一占 3 3 1 占 砰 一 f lf l f l 5 1 一占 5 霉 1 0 1 一占 仃 3 f lf l f i 由方程 2 1 9 中的第一式得 1 一s 薯 f i 1 5 1 一s 砰 f l 将 2 1 1 0 式带入 2 1 9 式中的其他两式有 西 v 3 型 i h 刮 誓 f l y 5 厶 f l 进一步地 2 f l 4 i l 2 1 妒一3 砰 并 f 1f i 1 一占 西 扣if l 西 f l f l 因为1 一s o 则 与 f l 甩 f l 并 o 上l 盯 薯 l 同号 当砰已知时 直接解上面的方程得 蕾 f l n n 2 1 5 砰 一 扣l 1 1 3 2 1 9 2 1 1 0 2 1 1 1 2 1 1 2 h 盯 一薯 d 州 3 矧 2 詹 渊 一 阔 第二章污染数据线性模型的参数估计与b a y e s 检验 s 泓 考 l nnn 一 订3 3 仃 一 号卜 旦 可型 f l 薯 f i s 喀n 并 j lf i 并 f i i 2 1 1 3 当仃 未知时 将 2 1 1 2 中的第一式代入 2 1 1 1 中的第二式 得到一个关于 盯 的一元二次方程 其中 不妨设k 盯n t lf l 2 4 一3 考虑判别式 f l a 6 b 文 c q 一n 彳 9 誓 f lf l b 一6 誓 霉 c f lf i 剪3 1 5 剪 f 1 月 一 2 f if 那么对应地有 1 0 y j 一 i l 西5 并3 2 w 5 3 柳一2 驴 5 3 目一2 蔷n 善 1 4 f i y j 5 一r 芍 一2 誓 汹 y 盯3一 h 麓 m 一哟 一户 一 烈 一 l r 矿 淄 i 霉 翻 蕾 淄 召2 4 彳c 4 i l 河海大学硕士论文 并3 2 5 3 k 2 1 2 5 3 k 一 扣l 4 5 3 k 2 5 妒 2 3 f l i 由一元二次方程求根公式得 由上式可以看出 或2 当 5 一 5 3 k n f i舶啦 圭沤 并 5 3 k f i 一3 2 f l 西 f l k 一 一5 f l o 时 反2 的计算公式中取负号 当 5 3 k 3 o 时 反2 的计算公式中取正号 当 5 3 k 当 5 3 k f l f i h f i f l f i o 时 反2 蕾 2 1 y i o 时 反2 最后通过 2 1 1 3 式计算 f l舶一3 妒三妪 f i 订 5 3 k f l 郧一3 即圭压 出 和参 3 一 5 3 k f 三1 1 5 乃 渊 肼 h 3 i k3 故号 同 耖一 与 露 为因又 h 州 l 第二章污染数据线性模型的参数估计与b a y e s 检验 2 1 3 在一般情形下模型i i 中口 s 的估计 我们下面将讨论 当口 o 砰 霹均己知时 参数口 g 的估计 1 先讨论砰 蠢 仃2 的情况 利用矩估计的方法 可以立出方程组为 并 1 叫去窆 口 氏 n 百 一2 c 一s 去 喜c 口 薯 2 仃2 3 c 一s 吉 喜c 口 薯 3 3 喜c 口 誓 仃2 设f 2 芳 上述方程组等价于 丢喜并 1 一占 o j 去喜萨盯2 1 一 f 2 2 厉 x 2 2 三喜冉等喜触h 3 蕊诎f 厕 3 其中贾 咒 则有 y 葺 j 一 f l 若设暇 万 z 霹 f i f 2 2 反 x 2 o x 则上述方程组等价于 i l a 一 n f i 阪 坠墨1 2 2 f 2 2 反 x 2 彤 2 一 2 x 2 一牙2 去喜稍h 煅 去喜萨冉 1 叫嘶2 嗽 2 2 1 1 4 2 1 1 5 去喜一3 一等喜一邓叫 彬吸 3 3 万抒慨 掰可棚3 p 1 6 肖 瑚 渊 1 一n l 一以 l n 记上式为 2 1 1 6 式 由 以彬2 x 2 一又2 昭一 若设么 吉 河海大学硕 j 论文 并2 一盯2 2 1 6 式可得 订 竺丝 茎 二墨 2 当竺 茎 二 墨垄 兰墨 彤3 孵 3 x 2 一又2 代入上式得 丢 嘶2 盯2 2 一 f l 坠警毫掣 盼 一 一i r 一ii x 2 一x 2 3 b 寺 2 西2 一盯2l 式写成关于 的一元四次方程为 啄一3 晖 昭 从中解出 再由 2 一3 暖 2 昭 2 2 1 1 7 肛鲨二些茎 霉之则 2 1 1 7 x 2 一j 2 3 2 兰丝二丝 阪 生丝 3 一召 4 一召 x 2 一齐 昭一呒 竺 o u 4 一b 解出 代入 2 1 1 6 式可以得到 三窆一z 一 舀 翌鱼 1 7 慨一静 l 一栉 乙 u 2 一 莎一疗 3 一 乃 h l 一以 一 堕 m t 一玎 n 岁 誓删 2 一 炳一雅 3 3 黼 2 置雠 l 一珂 矧 一以 h 矿一以 3 一一 乃 m 2 仃 澍 l 一 一2 一盯2 l 丢窆西2 矧一豸 由善表达式及知 o l 于是只保留 o l 范围内的根 而舍弃其他的根 再将 这个根嘭代入舀 夕和善的表达式 则可求出它们的值 2 再讨论更一般的情形 即砰 仃 的情况 那么 同样可以用矩估计的方 法求出 夕和善的值 为此我们只需要解下列方程组 c t s 吉 去喜c 口 誓 3 3 喜c 口 夕t 仃 根前面类似的讨论知道 在仃 霹 且均己知的情形 最终解一个关于 的一元 六次方程 其中 彳 可一3 牙可 2 牙 b 万一j 2 f 22 f l z 一 1 8 拜 f l z 表示观察值的个数 一 h l 一托 汹 l 一厅 只 矧 1 一n 乃 h 1 一n q y 1 一厅 伊 哆 一 n 一乒b t 毛 z 矧 彳 4 伊 b删拶咖 2 0 3 f 一 甜 一 一 一 岛 研 仃 一p b 撕 一 名 圪 乞 一 气x 职似珏 6 工l 沙耐 埘夸 l r 铲 烈p 霄 渊 乎一m 等 河海大学硕士论文 2 1 4 模型 中口 队占的区间估计 为以下讨论的方便 由第一章模型i 的定义知口 1 一f 口 6 1 一g 即将口 6 视为新的参数 则a 1 一善 在 6 1 一旬 分别是口 6 的最小二乘估计 l s e 为证明以下两个定理 先给出文献 1 l 中的一个引理 引理l 设y o y y 为观察到的一列数据 且朋 1 一s 一 占 西 口 q f 1 2 z 其中 为固定的回归设计 常数序列 q 为i i d 且q o 彳 o 仃 o o 为i i d 且 o 霹 o 霹 o 则 a 吉喜 岳缸卜以川 州 6 套 c 五 口 委 万z d a 和占与s s e 相互独立 z 6 其中 仃2 1 s 2 仃卜占2 霹 s 五一 2 当 t 跚 西一a 一如 2 l f if i 定理2 1 设y 虻 y 为观察到的一列数据 且乃 1 一占 西 g 西 口 玉 q 汪1 2 z 其中毛为固定的回归设计 常数序列 q 为i i d 且弓 o 砰 o 砰 o 为i i d 且 o 蠢 o 霹 序列 咒 q 相互独立 则污染系数s 的给定置信度为l 一7 的置信区间为 6 l c 其中 魏 重二 堕享堕姿二堕堕 i 6 o 窆 一一磊一缸 z 仁气万矿 q 刍唔警塑 o a 窆 y 卜a 一缸 z 如 生磊五厂 证明 由引理1 专 一一面一矽墨 2 z 2 z 一2 给定的置信度为l y 则 f i 吖嚏c 川 吉喜c 一 哦凡 c 盹 小7 皇兰兰生望茎塑翌燮型笪鲞塾堡生皇堡型 垒墼 即尸 一一面一氏 2 f i z 2 2 由仃2 1 一s 2 砰 占2 霹 令 剪一匆一风 2 订2 气矿 z z 一2 j l j 一s 2 砰 占2 正2 鬻 盔 c t 一占2 砰 占2 霹 簪 红 由占的取值范围0 占 l 分别解得 g l 6 i 堕二正至殛 砰 z 岛2q 巾届百再丽 证毕 定理2 2 设并 奠 订为观察到的一列数据 且以 1 一占 西 g 订 口 蕾 q f l 2 z 其中薯为固定的回归设计 常数序列 q 为i i d 且q o 彳 o 砰 o 为i i d 且f o 仃 o 司 序列f 只 q 相互独立 则回归参数口 的给定置信度为l 一 的近似置信区间为 吃 乞 岛 巳 其中 6 f z 一2 晚 吃 丁一 包 6 0 z 一2 屯 q 2 f 盎一乞o 一2 允 矿 以一2 屯 1 一誊 c 32 l 一量 其中屯 屯分别为a 占的标准差 为吒 吒的估计值 证明 由引理l 气2 嘉 根据文献 1 胁暖卜棚 墨材的无偏估计 鲥 署 的估计值分另l j 为屯 z z 一 口 6 h 川皿川州 ovd 一 免2 击 由引理知等 0 1 又占与s s e 相互独立 根据引理知 河海大学硕士论文 等确 2 所以盘2 等叫州埔定置信蜘嘶则 z 一2 仃2 尸h 咽 等 鼍 2 卜y 即 p 占一之c n 一2 6 一y jij 所以届的置信区间为 占一名c 嚣一2 气 占 之c 挖一2 气 22 由于6 1 一g 令 1 一善 占一名 一2 1 一吾 占 名 z 一2 气分别解得 占一f l 一2 仃 占 f 聆一2 盯i g 1 一善 所以 的置信区间为 6 2 c 2 其中 1 一吾 6 一乏 z 一2 吃 6 乏 z 一2 吃 1 一善 c 22 类似可得口的置信度为卜7 的近似置信区间 6 3 c 3 其中 6 3 a f 刀一2 屯 a f 万一2 吃 1 一舌 c 32 1 一吾 2 2 污染数据线性模型的b a y e s 检验 证毕 b e r g e r j a n db e r li n e r 1 9 8 6 对污染模型进行了b a y e s 分析 在经典的 假设检验中 如果观测值服从某个分布f x 则根据这个分布及显著性水平口计算 相应的检验分位值只 但污染分布实际上是由两个分布f z 及g x 组成 与经典 的假设检验所用的分布总体相比 有着完全不同的结构 当指标值服从污染分布时 它实际上有可能来自两个分布总体f x 或g z 由于不知道哪些观测值来自正常 第二章污染数据线性模型的参数估计与b a y 鹤检验 总体f x 哪些来自g z 因此按经典方法 用正常分布f x 计算分位点也是不 合理的 在此 我们将污染模型中的污染部分视为对参数的先验概率部分 因此可 以应用b a y e s 统计检验的方法 推导出污染模型以下的统计检验公式 2 2 1b a y e s 统计检验原理 b a y e s 统计的基本观点就是要充分利用先验信息 并综合样本信息 然后进行 b a y e s 统计推断 具体来讲设x x l 五 以 r 尺 x 厂 工 p 口 0c 尺户 b a y e s 观点认为 先验信息的集中体现就是参数9 应当为随机变量 它应当有一个 先验分布 b a y e s 统计推断的出发点为参数目的后验分布 即x 已知时乡的条件分 布p 臼i x 设有零假设和对立假设凰 乡 o 日 臼 o 用 代表接受假设q 江o 1 的 行为 则损失函数具有如下简单形式 硼叫乏鼍 o 1 2 2 1 以见 卜1 k口 靠 o 1 心 2 d 这里的k 为对应于经典假没检验中犯第一类错误 弃真 所造成的损失 对应于 经典假设检验中犯第二类错误 取伪 所造成的损失 行为q 的后验期望损失为 e 呻 乡 p 吕 卵唧 臼 心卵叭中 氐p o 胁 同理 e 兀 口 口 k p o 陋 这里兀 乡陋 为参数p 的后验分布 p o l p o 陋 分别为参数落入参数日空间o o 的后验概率 最佳的b a y e s 检验 决策 就是选择后验期望损失最小的行为 对于假设检验问题 月r o 秒 o o q 目 o l o ou o i 0 假设给定护的先验分布秒 万 秒 从直观上看 乃 x 万 秒卜 d 口 尸 口 o tl z 河海大学硕上论文 x l 刀 口枷臼 尸 护 o 乃 曲和 x 分别表示参数口属于 和o 的后验概率 因此 若雹 x 石 则 否定矾 这表示秒 o 的可能性比较大 所以可以取否定域与检验函数为 尺 却 柏 州 工 嘶 圭 f 1 x r 少 x 2t 二 z 尺一 其中尺 表示r 一的余集 定理2 3 对于凰 口 o q 9 0 l o ou o l 的假设检验问题 若取先 验分布为 刀c 乡 署j 三暑 麒脚e s 否定域舸 b 垆嬲 卦 2 2 2 污染数据线性模型的b a y e s 检验 对于污染模型的分布可表示如下 e 1 一占 尸 石 占 g x 2 2 2 这里疋为污染分布 f 工 表示正常分布 g 工 为污染分布 占表示污染系数a 可知 观测值来自j 下常分布f 的概率只有 1 一s 因此参数取正常值皖的先验 概率为n l s 参数受污染即9 岛的先验概率为l n f 而受污染时护 岛的 分布为g x 由于g x 的取法不同 污染模型可取均值移动模型和随机模型两种 为了避免 主观意识的影响 可取g x 为无信息先验 即n 目 芘1 并要求 第二章污染数据线性模型的参数估计与b a y e s 检验 口 厂 y19 n 臼 dp n 口i d秒 了粉秒 2 2 3 口 岛i i 1 l 因此 从模型 2 2 2 中 我们可以取得先验 若考虑f x 为一维标准正态分布的情形 用形表示观测值 根据定理2 3 则 有 掣l 暇谢 彬 h 卿4 掣小这说明在污染 模型中若 2 2 5 式成立 观测值来自污染源总体 凶而拒绝原假设 反之接收原 假设 2 3 本章小结 本章首先给出了模型i 中参数f 和污染系数s 的估计 然后在口 o 和更一 般的情况下给出模型i i 中参数占 和污染系数占的点估计并对模型i i 的参数做了 其区间估计 最后 在 功服从正态分布的情况下 讨论了污染模型污染模型的 b a y e s 检验问题 这些工作是在污染数据线性模型的估计 检验和模拟方面的简单 讨论 为进一步讨论该模型和其它相关模型起了铺垫作用 第三章污染数据线性模型的影响分析 第三章污染数据线性模型的影响分析 影响分析 i n n u e n c ea n a l y s i s 是统计诊断中十分活跃的分支 它的内容大致分为 数据点的影响分析和广义的影响分析 数据点的影响分析是研究特定的某几个 特 别是研究某一数据点对于统计分析的影响 这是分析初期研究的重点 也是最有实 用价值的部分 广义影响分析主要是研究当模型有微小扰动时 对于统计推断的影 响 本章的主要内容是污染数据线性模型数据点的影响分析 重点是研究在定义度 量影响的统计量后 用影响统计量来刻画删除个别数据点对回归分析影响的大小 3 1 影响分析的基本知识 对于模型 1 1 1 式中删除数据点 奶 以后的模型可以表示为 yj x p e j j i 或 y f x f p f 3 1 1 其中y f 和e f 为 一1 维的向量 分别由 和p 去掉咒和乞得到 彳 f 是 z 一1 p 的矩阵 由x 去掉第f 行巧得到 这种模型称为数据删除模型 现记数据删除模型 3 1 1 式中 和盯2 的估计分别为夕 f 和彦2 f 则有以下 定理 定理3 1 模型 3 1 1 式中 和莎2 的最小二乘估计与模型 1 1 1 的相应 估计分和彦2 有如下关系 厕 矽一掣 3 1 2 卜 p i 双沪延尘拿一 3 1 3 甩一口一l 其中 河海大学硕十论文 a i2y i 一 i 9 i 毫刍 r i2 赢 见 为x 生成的投影阵尸 x x r x 1 x7 的对角元 i 称为标准化残差 在考虑模型 1 1 1 式中删除数据点 咒 以后的影响 差值夕 f 一夕就是 彳 影响大小的一种度量 为了便于定量的进行比较 我们引入受到广泛重视的 c o o k 距离 模型 1 1 1 式和 3 1 1 第f 个数据点 咒 巧 的c o o k 距离定义为 d f 逊塑笙粤幽 3 1 4 口盯 d f 亦称为c o o k 统计量 实际上q 表示夕 f 与夕的权因子为x7 州p 彦2 的一种加权 距离且与尺度无关 定理3 2 给定模型 1 1 1 式和 3 1 1 式 则c o o k 距离可以表示为 口 学 掣 d l 芏 3 1 6 l 一p p 证明 由 3 1 5 式可以直接得到 3 1 4 式 以下证明 3 1 6 式 将 3 1 2 式可得 b 南 笔笋 2 尚 蒜与p 1 一既 彦2 1 一p 一 芏 1 一办 p 该定理说明 c o o k 距离d f 的大小取决于残差毒以及帽子矩阵对角元素肼的大 小 前者反映拟合的情况 后者表示第f 个点距离数据中心的远近程度 第三章污染数据线性模型的影响分析 3 2 污染数据线性模型的影响分析 考虑污染数据线性模型i 的矩阵形式 j x f z z o 1 一s 2 砰 9 2 霹 对该模型删除数据点 咒 f 以后的模型表示为 y d x f r z f z o o 1 一占 f 2 彳 占2 f 仃 3 1 7 其中y f 和z f 为 z 一1 维的向量 分别由 和z 去掉咒和毛得到 x f 是q 1 2 的矩阵 若用 f 表示删除后r 的估计 那么有 f x r f x 叫 x r f f 忙 n 一1 11 t l誓 i 薯一玉 f l t f i f l 一 一 1 五 1 誓一i 1 l l 矗 艿一片 f l x i 试一x 试 一 一一一 五一 玉 一一西 f if l lf i h以 提一1 一 一 毛一芬 2 薯一 玉 舅一一 o 1 玉一一誓舅 兰 三1生l z 一1 一 一 蕾一玉 2 设广 f 的方差估计为怠 i 那么有 屯 掣 1 l x 一ix i y l y i 一 y l 从 3 1 8 河海大学硕士论文 由于忘一 1 一s f 2 盯卜9 2 f 霹 那么 参 f 仃2 一 仃卜霹 模型 2 1 3 中 未删除时污染系数估计为 仃 一 占 一 删除前后污染系数估计的差为 因为 则 参o 一参 f 仃卜蠢 盯 露 一 一一 一一 五 一一西 z 1 一 一 薯一薯 2 誓一 誓 西一少 z 一1 t 西一 一 在 f n 1 一 一 薯一薯 2 3 1 8 f 1 一相 f 1 2 l 1 一善 f 触j 一 y 卜y 薯一 蕾 少卜y f z 一1 f 1 月 疗 薯一 墨 西 一 一 薯一薯 2 f i 一一 l 一1 薯一一誓 1 川 窆 一 一 窆薯一鼍 1 一删 删除前后参数口 的估计差为 f 一西 第三章污染数据线性模型的影响分析 一 西一西 薯一 五 曼 生 垄 三 i 一 薯 玎n 咒一1 一 一 薯一葺 2 f lf l 并一一 珂一1 t 西一t 一 f lf i 1 一善 f 甩一1 主 一 一 主丐一再 1 一删 f if i y 葺y j r lj r f if i 2 x y i 隆 2 一九喜 以下计算污染模型的c o o k 距离 由c o o k 距离的定义 及定理3 2 只需求得a 一口 2 办 c x 7 x 广t c 毛 1薯 龟t y i 一 圣 z 再 薯 f lf l玎 一 2 f 1 y 一 一 扛l 2 9 o 一薯 薯 t 2 f i 薯 一 2 m 淄 渊 一 一 孑 崩 聆一 一l h 疗一 渊 薯 葺 渊 一 瑚 川 r 誓 闽 l 一 聆 拜 纠 聆 j 密 矧 聆 m 瑚 l 薯 薯 h 薯 一 渊 渊 孑 h 飑 由 2 口 并 y 五y j r 一1j if i 2 1 一既 p 河海大学硕士论文 一 1 蕾 y f i 隆卜喜 慨 f l 月h f lf i 斟一挖喜 百亡一 r 一 f l 2 霹 1 2 2 一 誓i 胛 i i n n 2 一誓 毛 薯 万一t 薯 f lf if i 2 f i 2 则 我们还可以计算污染模型c o o k 距离有关的似然距离 计算较繁琐 3 0 一 薯 澍 鼍 矧 薯 甩一 渊 蕾 醉 n一 y 瑚 聆一 只 誓 h l 薯 一 乃 一 x l 一 i i 写 矧 n一 m h 誓 m 葺 一 以 瑚 州 一 m葺 j 淄 蕾 一甩 l 誓 薯 h 誓 一 h 砧 h t 一 0群 l 一 澍 玎 第四章实例分析 第四章实例分析 模型的重要理论价值在于实际应用 事实上 随机变量受到污染的现象是很常 见的 一般观察到的数据都或多或少地受到污染 因此污染模型广泛存在 下面讨 论两个关于污染模型的例子 4 1 污染线性模型的最小二乘估计 经典的最小二乘估计理论在线性模型理论中处于核心地位 它的原始假设是 观测误差q e 2 为 d 且 o 芎 矿2 o 时 k x o 吃一o 当 z 专 时 吃为窗宽 定 义s 的估计为善 i n i 五婴 定义厂 x 的估计为夕 x 五垒掣 5 5 g g x l g 选取厂 x g x 都为截断情形下的正态分布进行模拟 具体分布密度可表示为 m 仁去唧c 2 卜叭川 i o 其它 热口 去e 卅扣x 贴 括去唧c 一扣 也 砣 i o 其它 热6 赤吲一扣a x 如此定义可以保证满足以上的条件 结果分别列在表4 3 4 6 中 取s 的不同 值和不同的随机样本量n 重复做m 2 0 0 次实验 表中的两个数据分别是m 次重复 试验后参的均值和样本标准差 表4 3 样本量为1 0 0 的污染系数估计量及其标准差 h s o 3占 0 6 均值 o 5 4 7 0 o 6 3 7 2 o 0 5 标准差 o 0 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境戏剧社会功能-洞察及研究
- (2025年标准)离婚定金协议书
- (2025年标准)装修恢复协议书
- 音乐符号学理论构建-洞察及研究
- 2025年更改姓名协议书
- 城市轨道交通劳动力、施工机械设备及材料保证措施
- 2025年私人宾馆转让协议书
- 部编版语文二年级上册第二单元教学计划
- 2025年新天津保学协议书
- 2025年教育系统内招教师笔试试卷及答案
- 2025年湖北省中考数学试卷及答案
- 职业病危害警示与告知制度
- 制药企业价值链管理模式创新与优化
- 2025林业局考试试题及答案
- 初三上学期年级组工作计划
- 行业联盟协议书范本
- 进度计划跟踪管理制度
- 医用物品洗涤消毒供应中心项目可行性研究报告写作模板-备案审批
- DB36T-莲鳖种养结合技术规程
- 汽车维护与保养冷却液的检测与更换课件
- 8. 选择健康的生活方式(导学案)(解析版)
评论
0/150
提交评论