(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf_第1页
(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf_第2页
(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf_第3页
(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf_第4页
(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf_第5页
已阅读5页,还剩121页未读 继续免费阅读

(管理科学与工程专业论文)基于马氏田口的多元系统稳健性优化与诊断分析研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

天津大学博士学位论文 基于马氏田口的多元系统稳健性优化与诊 断分析研究 a s t u d y o nr o b u s to p t i m i z a t i o na n d d i a g n o s t i ca n a l y s i so f m u l t i d i m e n s i o n a l s y s t e mb a s e d o nm t s 一级学科 管理科学与工程 学科专业 管理科学与工程 研究生 韩亚娟 指导教师 何桢教授 天津大学管理学院 2 0 0 7 年1 2 月 中文摘要 对于多元系统优化与诊断分析 马氏田口方法实现了特征子集选择与诊断分 析的整合 既拥有很多多元分析方法的优点 又克服了其不足之处 然而 传统 马氏田口方法在多元系统优化与诊断分析中也存在一些缺陷 因此 本文对其进 行深入研究 以便使其更好地应用于多元系统稳健性优化与诊断分析 在多元系统诊断 预测分析中 传统的马氏距离函数忽略了各指标的相对重要 程度 因而需要对传统马氏距离函数进行改进 使其与主观赋权法相结合 准确 反映观测样本的异常程度 在建立与优化多元测量表阶段 应采用传统的指标等 权重马氏距离函数 对于优化后的测量表 则应根据重要程度对各指标赋予不同 权重 即利用赋权重马氏距离函数衡量多元系统样本的异常程度 提高多元系统 诊断 预测的准确度 对于多元测量表诊断出的异常样本 进行异常原因分析和异常方向确定将显 得尤为重要 本文在分析赋权重马氏距离函数与传统马氏距离函数差异的基础 上 提出了赋权重马氏距离m y t 正交分解法 并将其应用于多元系统马氏田口 异常值异常原因分析 同时 提出了基于m y t 正交分解法的多元系统马氏田口 异常值异常方向确定方法 该方法具有很强的稳健性 适用于马氏田口的逆矩阵 法 伴随矩阵法和施密特正交化法 不管是马氏田口的施密特正交化法 还是伴随矩阵法 都是通过改进马氏距 离函数来解决强相关问题 本文利用广义逆矩阵处理强相关问题的强大能力和 m p 广义逆矩阵的存在唯一性 提出马氏田口m p 广义逆矩阵法 有效解决了 多元系统优化分析中的强相关问题 同时 本文另辟蹊径 利用多重信息源信息 离散性 f d o d 度量来衡量多元系统观测样本的异常程度 并将其与田口方法结 合进行多元系统优化分析 使强相关问题对多元系统优化分析的影响降为最低 最后 利用马氏田口伴随矩阵法和m p 广义逆矩阵法对某医院现阶段血粘度 诊断系统进行优化 说明伴随矩阵法在选择有效变量时存在的问题和m p 广义 逆矩阵法的稳健性 对优化后的血粘度诊断系统 利用赋权重马氏距离进行诊断 控制 并采用赋权重马氏距离m y t 正交分解法进行异常样本潜在原因分析和异 常方向确定 取得了良好的效果 关键词 多元系统 稳健性 马氏田口 赋权重马氏距离 m y t 正交分解 强相关 f d o d 度量 m p 广义逆矩阵 a b s t r a ct m a h a l a n o b i s t a g u c h is y s t e m m t s m e t h o de f f e c t i v e l yi n t e g r a t e sf e a t u r es u b s e t s e l e c t i o nw i t hd i a g n o s t i ca n a l y s i sf o rm u l t i d i m e n s i o n a ls y s t e m m t sm e t h o ds h a r e s m a n ya d v a n t a g e so fo t h e rm u l t i v a r i a t em e t h o d s b u ti ts t i l ln e e d st ob es t u d i e di n o r d e rt ob em o r ee f f e c t i v e l ya p p l i e dt or o b u s to p t i m i z a t i o na n d d i a g n o s t i ca n a l y s i sf o r m u l t i d i m e n s i o n a ls y s t e m f o rt h ed i a g n o s i so rp r e d i c t i o na n a l y s i so fm u l t i d i m e n s i o n a ls y s t e m t r a d i t i o n a l m a h a l a n o b i sd i s t a n c ef u n c t i o ni g n o r e st h er e l a t i v ei m p o r t a n c eo fe v e r yv a r i a b l e w h i c hl e a d st h ea c c u r a c yt od e c r e a s es i g n i f i c a n t l y t h u s i tn e e d st ob ec o m b i n e dw i t h s u b j e c t i v ew e i g h ta s s i g n m e n tm e t h o dt om e a s u r et h ed e g r e eo fa b n o r m a l i t yo f m u l t i d i m e n s i o n a lo b s e r v a t i o n s i nt h es t a g eo fc o n s t r u c t i o na n do p t i m i z a t i o no ft h e m e a s u r e m e n ts c a l e t r a d i t i o n a lm a h a l a n o b i sd i s t a n c ef u n c t i o nw i t ht h es a m ew e i g h t s f o re v e r yv a r i a b l ei sa d o p t e d f o rt h eo p t i m i z e dm e a s u r e m e n ts c a l e d i f f e r e n tw e i g h t s s h o u l db ea s s i g n e dt ot h ev a r i a b l e sa c c o r d i n gt ot h e i rr e l a t i v ei m p o r t a n c e i e w e i g h t e dm a h a l a n o b i sd i s t a n c e f u n c t i o ns h o u l db eu s e dt om e a s u r et h ed e g r e eo f a b n o r m a l i t yi no r d e rt oi m p r o v et h ea c c u r a c yo fd i a g n o s i so rp r e d i c t i o no f m u l t i d i m e n s i o n a ls y s t e m f o ra b n o r m a lo b s e r v a t i o n sd i a g n o s e db yt h eo p t i m i z e dm e a s u r e m e n ts c a l e i ti s i m p o r t a n tt oa n a l y z et h e i rp o t e n t i a lc a u s e sa n di d e n t i f yt h e i rd i r e c t i o n so fa b n o r m a l i t y b a s e do nt h ed i f f e r e n c eb e t w e e nw e i g h t e dm a h a l a n o b i sd i s t a n c ef u n c t i o na n d t r a d i t i o n a lm a h a l a n o b i sd i s t a n c ef u n c t i o n m a s o n y o u n g t r a c y m y t o r t h o g o n a l d e c o m p o s i t i o nm e t h o do fw e i g h t e dm a h a l a n o b i sd i s t a n c ei sp u tf o r w a r d a n da p p l i e d t op o t e n t i a lc a u s e sa n a l y s i so fm u l t i d i m e n s i o n a la b n o r m a lp o i n t s m e a n w h i l e b a s e d o nt h em y t o r t h o g o n a ld e c o m p o s i t i o n an e wm e t h o di d e n t i f y i n gt h ed i r e c t i o no f a b n o r m a l i t yo fm u l t i d i m e n s i o n a la b n o r m a lo b s e r v a t i o n si sb r o u g h tf o r w a r d t h i s m e t h o di sr o b u s ta n da p p r o p r i a t et oi n v e r s em a t r i xm e t h o d a d j o i n tm a t r i xm e t h o da n d g r a m s c h m i d tm e t h o do fm t s f o rb o t hg r a m s c h m i d tm e t h o da n da d j o i n tm a t r i xm e t h o do fm t s m u l t i c o l l i n e a r i t y i ss o l v e d b yi m p r o v i n gm a h a l a n o b i sd i s t a n c ef u n c t i o n m p g e n e r a l i z e di n v e r s em a t r i xm e t h o do fm t sw h i c he f f e c t i v e l ys o l v e sm u l t i c o l l i n e a r i t y i nt h es t a g eo fo p t i m i z a t i o na n a l y s i so fm u l t i d i m e n s i o n a ls y s t e mi sp u tf o r w a r db a s e d o nt h es t r o n gc o m p e t e n c eo fg e n e r a l i z e di n v e r s em a t r i xf o r d e a l i n gw i t hs t r o n g c o r r e l a t i o np r o b l e ma n dm pg e n e r a l i z e di n v e r s em a t r i x so n l ye x i s t e n c e a tt h es a m e t i m e f u n c t i o no fd e g r e eo fd i s a g r e e m e n t f d o d m e a s u r e m e n ti su s e dt om e a s u r et h e d e g r e eo fa b n o r m a l i t yo fm u l t i d i m e n s i o n a lo b s e r v a t i o n s a n dc o m b i n e sw i t ht a g u c h i m e t h o dt o o p t i m i z et h em u l t i d i m e n s i o n a ls y s t e m w h i c hm i n i m i z e st h ee f f e c t o f m u l t i c o l l i n e a r i t yo nm u l t i v a r i a t eo p t i m i z a t i o n f i n a l l y ah o s p i t a lv i s c o s i t yo fp l a s m ad i a g n o s t i cs y s t e mi so p t i m i z e db ya d j o i n t m a t r i xm e t h o da n dm pg e n e r a l i z e di n v e r s em a t r i xm e t h o do fm t s t h er e s u l t ss h o w t h a ta d j o i n tm a t r i xm e t h o dc a n ts e l e c te f f e c t i v ev a r i a b l e sa n dm pg e n e r a l i z e d i n v e r s em a t r i xm e t h o di sr o b u s t i nt h eo p t i m i z e dv i s c o s i t yo fp l a s m ad i a g n o s t i c s y s t e m m u l t i d i m e n s i o n a lo b s e r v a t i o n sa led i a g n o s e da n dc o n t r o l l e de f f e c t i v e l yb y w e i g h t e dm a h a l a n o b i sd i s t a n c e t h ep o t e n t i a lc a u s e so fm u l t i d i m e n s i o n a la b n o r m a l p o i n t sa l ea n a l y z e da n dt h ed i r e c t i o no fa b n o r m a l i t yi sc o r r e c t l yd e t e r m i n e du s i n g m y t o r t h o g o n a ld e c o m p o s i t i o nm e t h o do fw e i g h t e dm a h a l a n o b i s d i s t a n c e k e y w o r d s m u l t i d i m e n s i o n a ls y s t e m r o b u s t m a h a l a n o b i s t a g u c h is y s t e m w e i g h t e dm a h a l a n o b i sd i s t a n c e m y to r t h o g o n a ld e c o m p o s i t i o n m u l t i c o l l i n e a r i t y f d o dm e a s u r e m e n t m pg e n e r a l i z e di n v e r s e m a t r i x 图目录 图1 1 多元数据处理与决策系统 图1 2 论文的技术路线图 一 1 9 1 1 1 3 1 4 1 8 2 1 2 5 2 5 2 6 2 6 3 3 图2 1 多元诊断系统 一 图2 2 修改的多元诊断系统 图2 3 向量变换过程 一 一 图2 4 马氏田口的基本步骤 一 图2 5 马氏田口中的 望小 型q l f 图2 6u 和u 均为越大越好型 图2 7u 为越小越好型 u 为越大越好型 图2 8u 为越大越好型 u 为越小越好型 图2 9u 和u 均为越小越好型 一 图3 1 马氏距离和欧氏距离 一 图3 2 等权重马氏距离函数与赋权重马氏距离函数在马氏田口中的应用 4 3 图4 1e 项的解释 一 图4 2 吒项的解释 一 图4 3 x i 对x j 的回归残差 一 图5 1 马氏田口逆矩阵法与m p 广义逆矩阵法的比较 4 8 4 8 4 9 7 3 图5 2 基于f d o d 度量和田口方法的多元系统稳健性优化与诊断分析步骤 7 5 图6 1 正常参考样本和异常条件的马氏距离 伴随矩阵法 优化前 一 7 9 图6 2 正常参考样本和异常条件的马氏距离 m p 广义逆矩阵法 优化前 8 2 图6 3 标准化效应的排列图 8 4 图6 4 正常参考样本和异常条件的马氏距离 m p 广义逆矩阵法 优化后 一 8 5 图6 5 标准化效应的排列图 x l 与x 2 x 3 调换位置 8 7 图6 6 正常参考样本和异常条件的马氏距离 优化后 x l 与x 2 x 3 调换位置 图6 7 赋权重 r o c 权重 马氏距离m d 优化后 图6 8 赋权重 r s 权重 马氏距离m d 优化后 图6 9 赋权重 r r 权重 马氏距离m d 优化后 图6 1 0 优化后血粘度诊断系统的样本诊断控制图 8 8 9 0 9 0 9 1 9 2 表目录 表2 1 正交表l 2 7 及变量安排 表2 2 逆矩阵法 施密特正交化法和伴随矩阵法的比较分析 表3 1 德尔菲各指标权重估计记录表 表3 2 指标重要程度的标度及含义 表3 3 两两比较法的判断矩阵 1 6 2 7 表3 4 指标重要程度的标度及含义 一 表3 5 秩心 r o c 权重 一 表3 6 秩和 r s 权重 一 一 一 表3 7 秩倒数 r r 权重 表4 1 正常参考组数据 3 8 3 9 4 0 4 1 41 表4 2 异常样本数据 阈值t 3 表6 1 血粘度诊断系统的变量 优化前 5 9 6 0 7 7 表6 2 马氏距离 伴随矩阵法 优化前 一 一 7 8 表6 3 正交表l 2 1 9 及变量安排 伴随矩阵法 表6 4 信噪比增加表 伴随矩阵法 表6 5 马氏距离 m p 广义逆矩阵法 优化前 一 一一 一 8 l 表6 6 正交表l 2 1 9 及变量安排 m p 广义逆矩阵法 8 3 表6 7 信噪比增加表 m p 广义逆矩阵法 一 一 一 8 4 表6 8 马氏距离 m p 广义逆矩阵法 优化后 8 4 表6 9 信噪比分析 m p 广义逆矩阵法 8 5 表6 1 0 正交表l 2 1 9 及变量安排 m p 广义逆矩阵法 x l 与x 2 x 3 调换位置 表6 1 1 信噪比增加表 m p 广义逆矩阵法 x l 与x 2 x 3 调换位置 8 7 表6 1 2 马氏距离 m p 广义逆矩阵法 优化后 x l 与x 2 x 3 调换位置 8 7 表6 1 3 信噪比分析 x l 与x 2 x 3 调换位置 一 8 8 表6 1 4 血粘度诊断系统的变量 优化后 表6 1 5 优化后血粘度诊断系统变量权重 排序法 一8 9 表6 16 赋权重 r o c 权重 马氏距离m d 优化后 一8 9 表6 1 7 赋权重 r s 权重 马氏距离m d 优化后 9 0 表6 1 8 赋权重 r r 权重 马氏距离m d 优化后 一9 1 表6 1 9 异常样本单变量的t i 2 和王屹 表6 2 0 正常参考样本空间各变量的统计值 表6 2 1 异常样本两个变量的吒 赋权重马氏距离正交分解 9 4 表6 2 2 异常样本两个变量的t 2 指标等权重马氏距离正交分解 9 5 表6 2 3 优化后血粘度诊断系统的变量及其权重 9 7 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果 除了文中特别加以标注和致谢之处外 论文中不包含其他人已经发表 或撰写过的研究成果 也不包含为获得苤壅苤堂或其他教育机构的学位或证 书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意 学位论文作者签名 韩亚娲 签字日期 湖彦年 月舡月 学位论文版权使甫授枚书 本学位论文作者完全了解苤奎盘堂 有关保留 使用学位论文的规定 特授权 丞鲞盘芏可以将学位论文的全部或部分内容编入有关数据库进行检 索 并采用影印 缩印或扫描等复制手段保存 汇编以供查阅和借阅 同意学校 向国家有关部门或机构送交论文的复印件和磁盘 保密的学位论文在解密后适用本授权说明 学位论文作者签名 韩亚边局 导师签名 签字日期 珊年1 月访日签字目期 拇f 月l z 日 天津大学博士学位论文 1 1 研究背景与意义 第一章绪论 随着计算机 信息技术和网络技术的不断发展 数据增长的速度不断加快 数据收集变得越来越容易 然而 面对如此庞大的数据源 人们却陷入了 数据 富有 信息贫乏 的尴尬境地 如何从大量的高维数据中提取有用信息 进而利 用有用信息 快速准确地做出柔性决策是现今很多决策者们面临的主要问题 如 图1 所示 h 特征提取卜一诊断 预测卜 厂 多元数据系统卜 1 l 一优墨盖鬈蠡元卜 一采取措施 叫特征选择卜 叫模裂7 卜 原始数据降维处理压缩信息判别决策 图1 1 多元数据处理与决策系统 客观世界里的物体或事件 在物理上总是可以测量的 且可测数据的维数是 无限多的 为了对这些物体或事件进行综合评价或分类 人们总是愿意尽可能多 地收集相关数据信息 致使数据处理难度加大 处理时间和处理费用增加 即所 谓的 维数灾难 因此 数据综合之前的合理降维就显得尤为重要 它是模式 识别 机器学习 统计学等领域至关重要的研究课题 对于多元数据系统 实现维数降低的方法主要包括两类 特征提取和特征选 择 特征提取是指将高维空间的数据按照一定的准则投影到低维子空间中 且使 原始数据中有用信息损失最小 模式间的分离程度最高 常用的特征提取方法有 主成分分析 p r i n c i p a lc o m p o n e n ta n a l y s i s p c a lj 投影寻踪 p r o j e c t i o n p u r s u i t p p 2 3 1 k l 变换 k a r h u n e n l o e v et r a n s i t i o n k l t 4 1 线性判别分析 l i n e a rd i s c r i m i n a n ta n a l y s i s l d a p j 独立分量分析 i n d e p e n d e n tc o m p o n e n t a n a l y s i s 1 c a 6 等 尽管特征提取作为数据预处理的一种重要方法 可以帮助 人们获得最具代表性 最能反映对象本质的特征变量或达到更为有效的分类目 的 但它并不能实现真正意义上的系统降维 因为提取的每一个特征变量都是原 始变量的线性或非线性组合 因而不可能降低数据收集成本 尤其对于数据收集 第一章绪论 成本昂贵的系统 特征提取的应用受到一定程度的限制 特征子集选择 f e a t u r es u b s e ts e l e c t i o n f s s 是指在系统性能没有明显下降 甚至提高的前提下 从给定的n 个特征的候选特征集中选择一个包含m 个特征的 好 的特征子集 m o d b 的变量为有效变量 n a k a t s u g a w a 和o h u c h i 2 0 0 2 2 0 1 提出一种选择有效变量的新方法 即基于变量的效应方差 而非效应均值选择有效变量 取得了良好的效果 对于利用公式 2 1 1 计算的信 噪比 则直接根据信噪比大小选择有效变量 2 0 天津大学博士学位论文 4 验证优化后的测量表 有效变量选择之后 我们仍用这n 个正常参考组的样本数据就这些有效变量 生成马氏空间 以此为基础计算正常样本和异常条件的马氏距离 进而计算信噪 比 验证优化后的测量表是否变异得到降低 信噪比得到提高 w a n g c h i u 和 s u 2 0 0 4 3 2 将培训样本和测试样本区分开 即利用培训样本数据构建和优化测 量表 而利用测试样本数据对测量表进行验证 2 2 4 用优化后的测量表进行诊断 预测 1 确定阈值t 马氏田口的另一大任务就是确定阈值 如何设定一个合理的阈值t 这将涉 及到统计学理论和专业知识 在传统的多元方法中 阈值t 的确定大部分取决于 误判的损失和概率 这将不仅需要考虑第1 类错误 同时还需考虑第1 i 类错误 例如 在医学诊断中 漏掉一个需要早期治疗的不健康人将是一个非常严重的问 题 然而 在马氏田口中 阈值t 一般是通过二次损失函数 q l f 确定的 它综 合考虑了造成的损失和需要的成本 因为马氏距离m d 的目标值为0 所以二次 损失函数采用 望小 型 如图2 5 所示 损 失 其计算公式为 m d l 佗 图2 5 马氏田口中的 望小 型q l f 2 1 生砖匹 砖雁 失 k 捌 人 第二章多元系统马氏田口方法的基本理论 1 心 2 1 4 其中 人 功能界限 即与病人死了或产品为废品的距离相对应的值 a 相应a 的损失 a 成本 即进一步诊断病人的成本或对学生提供外加培训的成本 t 阈值 由于第1 类错误口 把健康人判为不健康而进行不必要的精密治疗的错误 所造成的损失和第 类错误 把不健康人判为健康而错过早期治疗的错误 所 造成的损失必须由专业人员确定 所以阈值t 本质上是由专业人员依赖经验和分 析确定的 n a k a t s u g a w a 和o h u c h i 2 0 0 1 l9 提出一种通过y 分布计算正常参考样 本的累计概率来评价阈值的新法则 同时利用k o l m o g o r o v s m i m o v 检验为阈值 建立置信区间 提高了多元系统样本识别的准确度 c h i n n a m r a i 和 s i n g h 2 0 0 4 57 j 基于包含9 9 的正常参考样本确定阈值 在实际应用中 采用的 简单方法为 确定有效变量后 重新计算所有正常 异常条件的马氏距离 采用 尝试和估计的方法来估测两类错误口和 先将阈值设定为t 距离小于t 者均 判为正常 计算正常参考组中被判为 异常 的样本所占比例 作为犯第1 类 错误的概率口的估计 计算异常条件中被判为 正常 的样本所占比例 作为犯 第1 i 类错误的概率 的估计 若此时口和 的估计值能满足专业需要 则将t 确定为阈值 如不满足 则继续尝试 2 诊断 预测 采取相应措施 采用优化后的测量表 利用多元统计过程控制对多元系统进行诊断 预测 并 基于观测样本的马氏距离大小采取相应的措施 传统的马氏田口方法在诊断 预 测阶段计算观测样本的马氏距离时未考虑各变量重要程度的差异 降低了测量表 诊断 预测的精度 本文第三章将对此进行研究 如果马氏距离特别小 则可适 当拉长两次诊断间的时间 减少诊断次数 或可预测较长时间以后的系统状况 如果马氏距离特别大 则需通过m y t 正交分解法分析是哪些变量单独或共同起 作用的结果 进而找出相应的解决方案 这将在本文的第四章详细分析 2 3 马氏田口的基本特点 马氏田口作为一种行之有效的诊断 预测方法 具有如下特点 1 马氏田口是一种测量方法 而非简单的分类方法 传统的多元方法 如辨别与分类方法 多用于分类 即将观测样本归为不同的 2 2 天津大学博士学位论文 事先确定的类别 然而 马氏田口的主要目的在于建立一个测量表 用以测量观 测样本偏离正常参考组的程度 这将有利于帮助决策者采取与不同异常程度相对 应的解决措施 提高决策的柔性 2 马氏田口中只有正常总体 没有异常总体 传统的多元方法常常包括多个总体 例如正常总体和异常总体 然而马氏田 口中只有一个正常总体 正常参考组 没有异常总体 因为每一个异常条件都是 独一无二的 各有各的异常之处 不能一概而论 3 马氏田口基于数据分析 而非概率与分布 传统的多元方法一般基于概率与分布来分析多元系统 给实际应用带来很多 不便 尤其对于不懂统计的人 应用起来就更加困难 基于数据分析的马氏田口 方法让人应用起来更加简单容易 例如 它利用二次损失函数确定阈值 以其作 为多元统计过程控制的界限进行判断 4 马氏田口可以真正降低维度 降低多元系统的维度是一个挑战性的课题 很多传统多元分析方法不能实现 真正意义上的降维 例如 主成分分析通过减少主成分个数来降低系统的维度 然而每一个主成分都是所有原始变量的线性组合 所以它不能真正做到维度降 低 马氏田口方法利用正交表和信噪比来确定有效变量 进而获得有效变量集以 进行系统诊断与预测 2 4 马氏田口几种不同方法的比较研究 马氏田口主要有三种方法 包括逆矩阵法 施密特正交化法 m t g s 和伴随 矩阵法 这三种方法各有优缺点 适用于不同的场合 现从不同角度分析如下 2 4 1 强相关问题 m u l t i c o l l i n e a r i t y 如果多元系统存在强相关问题 则其相关矩阵的行列式 i c i 为0 或接近于0 因为逆矩阵的计算公式为 c 百1c l c i 所以 当作为分母的行列式为0 或接近于0 时 逆矩阵 c 1 将很难计算或变得 很不准确 进而使基于逆矩阵计算的马氏距离 公式2 2 难于计算或很不准确 与逆矩阵法相比 施密特正交化法不受强相关问题的影响 因为其马氏距离 2 3 第二章多元系统马氏田口方法的基本理论 的计算 公式2 3 不依赖于相关矩阵的逆矩阵 所以 即使强相关问题很显著 计算出来的马氏距离仍是准确的 t a g u c h i 和j u g u l u m 提出的另一种解决强相关问题的方法就是伴随矩阵法 由于相关矩阵的逆矩阵是由相关矩阵的伴随矩阵除以相关矩阵的行列式所得 所 以他们认为伴随矩阵与逆矩阵具有相同的性质 可以用伴随矩阵代替逆矩阵来计 算马氏距离 只是用伴随矩阵计算出来的马氏距离在数值上与用逆矩阵计算出来 的马氏距离有所不同而已 它们之间的关系如公式 2 9 所示 即用伴随矩阵计 算的正常参考组样本马氏距离的均值不为1 所以其马氏空间将不能被称为单位 组 伴随矩阵法克服了强相关问题的影响 可以计算出准确的马氏距离 然而 在马氏田口中 伴随矩阵法不能代替逆矩阵法 因为伴随矩阵法在测量表优化阶 段存在缺陷 无法选择出有效变量 本文将在第五章重点研究多元系统稳健性优 化与诊断分析中的强相关问题 并提出有效解决方法 2 4 2 异常方向的确定 对于多元系统 利用马氏距离可以测量异常的程度 然而 确定异常的方向 也非常重要 例如 对于医学诊断系统 既存在不健康的人 坏 的异常 也 存在超健康的人 好 的异常 针对不健康的人 医院会适当缩短两次诊断间 的时间 并对病人进行比较深入详细的检查 然而对于超健康的人 则可延长两 次诊断间的时间 这样既可以不耽误病情 又可以降低检查成本 对于研究生入 学系统 成绩特别差的学生属于异常 坏 的异常 成绩特别好的学生也属于 异常 好 的异常 针对成绩特别差的学生 学校将开补习班使其进一步接受 教育 然而对于成绩特别好的学生 学校将设立奖学金对其加以表扬 由此可见 对于多元系统 异常方向的确定是非常重要的 t a g u c h i 和j u g u l u m 认为 在马氏田1 3 的三种方法中 由于逆矩阵法和伴随 矩阵法通过相关矩阵计算马氏距离 因而无法确定异常的方向 而施密特正交化 法使用施密特正交化向量计算马氏距离 所以可以确定异常的方向 首先 用施 密特正交化法研究只有两个向量u 和u 的情况 基于正交化向量的符号和马氏 距离判断 好 的异常和 坏 的异常 然后 将同样的逻辑推广到多元系统 k 2 对于两个变量的系统 由于原始变量 x x 的马氏空间常常具有椭圆 形状 且正交变换后 u u 其椭圆形状仍保持不变 所以我们可以利用椭圆 更加形象地说明异常的方向 现在分四种情况 2j j 加以说明 1 u 和u 均为越大越好型 以学生入学系统为例 t 代表阈值 u 代表学生的平均成绩 u 代表学生 的托福考试成绩 很显然 这两个成绩都应越大越好 即对于 好 的异常 应 一2 4 天津大学博士学位论文 满足u 0 u 0 且相应的马氏距离m d t 否则 均为 坏 的异常 如 图2 6 所示 从数学角度描述如下 如果第j 个条件属于 好 的异常 则需满 足 地u 2 j 0 且挣蝴s 1 t 2 u 为越小越好型 u 为越大越好型 以银行准予贷款系统为例 t 代表阈值 u 代表家庭人数 u 代表家庭收 入水平 很显然 家庭人数越少 收入越高 银行越愿意给其贷款 即对于 好 的异常 应满足u 0 且相应的马氏距离m d t 否则 均为 坏 的异常 如图2 7 所示 从数学角度描述如下 如果第i 个条件属于 好 的异 常 则需满足 妣u 2 j 0 且耶l u i 刳 t u 2 厂刘 的 u 踢 好 的异常 i 一 m s u 图2 6u 和u 2 均为越大越好型图2 7u 为越小越好型 u 2 为越大越好型 3 u 为越大越好型 u 为越小越好型 以监测系统为例 t 代表阈值 u 代表抗拉强度 u 代表发生某过失的概 率 很显然 抗拉强度越大 发生某过失的概率越小 检测系统越好 即对于 好 的异常 应该u 0 u t 否则 均为 坏 的异常 如图2 8 所示 从数学角度描述如下 如果第j 个条件属于 好 的异 常 则需满足 地吣 且艟 鲁 t 4 u 和u 均为越小越好型 2 5 第二章多元系统马氏田口方法的基本理论 以电路监测系统为例 t 代表阈值 u 代表发生某过失的概率 u 代表蚀 刻后线宽度的减少 很显然 这两个向量都应越小越好 即对于 好 的异常 应该u 0 u t 否则 均为 坏 的异常 如 图2 9 所示 从数学角度描述如下 如果第j 个条件属于 好 的异常 则需满 足 饥吣 挣韵 t u 2 一 m s 爿 u r l i 好 的异 图2 8u l 为越大越好型 u 2 为越小越好型图2 9u 和u 2 均为越小越好型 以此类推 如果有k 个向量 则第j 个异常为 好 的异常的条件为 如果u l 是越大越好型 则u j 0 如果u 是越小越好型 则u i 0 如果u 是越小越好型 则u i 0 如果u k 是越小越好型 则u 蝎 t 或者罢 专 2 罢 k t 否则 异常为 坏 的异常 2 4 3 部分相关问题 尽管正交化向量 u u u 之间是正交的 但是正交化向量 u u u 与原始变量的标准化变量 z z z 之间可能存在关系 这种 关系用部分相关系数进行测量 m o r r i s o n 对此作了详细讨论 9 4 当采用施密特正 交化法进行多元系统诊断时 如果部分相关不显著 则不需要正交列 o a s 可 以直接独立地估计向量的效应 如果部分相关显著 则需利用正交列来估计向量 效应 由于部分相关系数的计算与检验非常麻烦 所以建议不进行部分相关分析 2 6 天津大学博士学位论文 直接利用正交列来估计效应 选择有效变量 2 4 4 几种方法比较小结 综上所述 马氏田口的三种方法各有优缺点 总结如表2 2 所示 表2 2 逆矩阵法 施密特正交化法和伴随矩阵法的比较分析 不同方法优点缺点应用条件 夺计算比较简单 令无法判断异常的夺不需判断异常的 不用考虑变量的方向 方向 排列次序和变量 受强相关问题的 夺 强相关问题不显 逆矩阵法之间的部分相关影响 当相关矩著 性阵的行列式等于 0 或接近于0 时 这种方法失效 夺不受强相关问题夺需要事先考虑变 夺 需要判断异常的 施密特正交化法的影响 量的排列次序 方向 m t g s 夺可以判断异常的 令需要检验变量间 方向的部分相关性 令计算比较简单 无法判断异常的 令 不需判断异常的 不用考虑变量的方向 方向 排列次序和变量 伴随矩阵法之间的部分相关 性 夺不受强相关问题 的影响 然而 h a w k i n s 2 5 j 对t a g u c h i 和j u g u l u m 提出的施密特正交化法的优点提出了 自己的看法 1 对于强相关问题 只要相关矩阵的行列式不严格为0 计算机 精度的提高就可解决通过逆矩阵所计算马氏距离不准确的缺陷 2 对于施密特 正交化法可以促进系统选择有效变量这一点 可以说是缺乏说服力 t a g u c h i 和 j u g u l u m 通过医学诊断研究 从1 7 个正交向量中选择了9 个有效正交向量 u u u 6 u u u 1 2 u 3 u 和u 5 然而 由于u 是前i 个原始变量 x x 一 x i 的函数 所以有效正交向量u 意味着我们选择了前1 5 个原始变量 即x 1 x 2 x ls 除了x 6 和x 1 7 以外 尽管t a g u c h i 和j u g u l u m 对主成分分析很 不满意 但是他们所推崇的正交化向量方法与主成分分析存在类似的问题 3 一2 7 第二章多元系统马氏田口方法的基本理论 施密特正交化法在进行正交化转换时需要考虑变量的排列次序 变量的排列次序 不同 转化后的正交化向量不同 导致信噪比存在差异 最终选择的有效正交向 量也有所不同 针对上述医学诊断系统 1 7 个变量就有1 7 1 3 5 6 x 1 0 1 4 种排列次 序 2 5 马氏田口统计和操作方面的研究与解释 马氏田口方法在实际应用中已经取得了很大的成功 然而该方法在实际应用 中也遇到了一些难以解释和操作的问题 为了使马氏田口能更好 更有效地应用 于实践 本文在此对所遇到的问题加以研究与解释 1 异常条件的选择问题 如前所述 现阶段正常参考组的确定主要依赖于专业人士的经验 所谓正常 意味着样本没有任何异常情况 例如 对于医疗诊断系统 正常意味着没有任何 疾病的健康人 对于制造过程检验系统 正常意味着没有任何质量问题的合格产 品 对于模式识别系统 正常意味着参考的模式 然而 异常指的是正常以外的 任何异常条件 为了检验优化前后测量表的有效性 应该考虑不同种类 不同异 常程度的异常条件 即通过合理抽样选择具有代表性的异常条件 同时 马氏田 口的数据分析也以合理抽样为基础 可见 合理抽样对马氏田口非常重要 2 分类的解释问题 阈值的使用 马氏田口区别于传统多元分析方法的一大特点就在于它偏重于测量 而非分 类 马氏田口建立的测量表是一个连续测量表 它可以测量观测样本偏离正常参 考组的程度 其范围为0 o o 当然 我们也利用二元损失函数确定了用于多元 统计过程控制的阈值 然而 阈值的确定与马氏田口建立的是一种测量异常程度 的连续测量表并不矛盾 恰恰相反 阈值的确定是基于异常程度的 因为阈值代 表几个关键的异常程度 用它可以进行简单的分类 然而马氏田口不仅可以根据 阈值进行分类 而且能提供更多的有关异常程度方面的信息 3 测量表的有效性验证问题 高 的界定问题 马氏田口的第二步骤是对建立的测量表进行有效性验证 按照t a g u c h i 和 j u g u l u m 的定义 如果异常条件的马氏距离高于正常参考组的马氏距离 则可认 为所建立的测量表是有效的 然而 此处所谓的 高 是相对的 如果 高 代 表异常条件的最小马氏距离高于正常参考组的最大马氏距离 则在很大程度上限 制了马氏田口的应用 因此 我们需要事先确定一个合适的比例 用以判断测量 表的有效性 2 8 天津大学博士学位论文 4 正交表的选择问题 马氏田口的主要贡献在于利用实验设计的正交表进行变量选择 全因子实验 的数据分析有简洁的公式可循 但其突出的问题是如何减少实验次数 部分因子 实验次数变少 但其数据分析比较麻烦 很难给出一般的公式 鉴于此 人们常 常应用正交表组织部分实验 既能保证实验次数的减少 又方便分析 同时更重 要的是它在方差模型的假设下具有很多统计优良性 9 5 9 8 均衡性 在实验所 有布点上预测方差都相等 d 最优 估计量的广义方差最小 a 最优 被估参数估计值与真值之间的均方误差最小 e 最优 估计量的协方差阵的 最大特征根最小 m 最优 实验点上估计值的方差平均最小 g 一最优一 一预报区域内预测值的最大预报方差最小 这些统计优良性可以保证通过正交表 所做结论的可靠性 马氏田口实际是利用二水平正交表并结合了田口正交表实验设计的优化思 想进行变量选择 由于交互作用对正交表优化结果有影响 所以需要慎重对待 处理交互作用的方法主要有 1 慎重选择优化指标 采用信噪比 2 适当选 择可分性判据指标 如马氏距离 尽量避免高阶交互作用 3 发展几张特殊 的正交表 如l t 2 2 1 1 l l s 2 3 7 入l 3 6 2 1 1 3 1 2 j 使得交互作用能够均匀分布在 特殊正交表的各列上 从而消除它们的影响 4 验证实验以检验最佳方案是否 存在交互作用 另外也存在一些适合于筛选有效变量的实验设计方法 如因素轮 换法 超饱和表设计 c o t t e r 筛选法和多步分组筛选法等 9 引 可作为马氏田口正 交表设计的补充 一些统计学家认为马氏田口中不涉及实验成本 仅涉及计算成本 随着计算 机性能的提高又可以明显降低计算成本 所以为了获得更佳的有效变量集 应该 采用全因子实验 然而 随着系统复杂性的增加 变量个数也明显增多 全因子 实验将受到很大限制 而且通过全因子实验和部分因子实验优化后的系统性能差 别很小 因此我们没有必要花费过多的计算成本 当然 学者们也在努力寻找一 个选择最优变量组合的规则或另一种信噪比来确定有效变量集 a b r a h a m 和 v a r i y a t h 2 0 0 3 2 4 提出了前向选择程序 f o r w a r ds e l e c t i o np r o c e d u r e 即按照信 噪比大小依次逐一增选变量 取得了很好的效果 w o o d a l l k o u d e l i k 和 t s u i 2 0 0 3 冽提出用秩相关系数 r a n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论