已阅读5页,还剩58页未读, 继续免费阅读
(计算机软件与理论专业论文)模糊因子分析方法在医疗费用统计中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 从二十世纪七十年代起,医疗费用的过快增长已成为各国政府和社会关注的热 点问题,各国在控制医疗费用方面做了大量有益的探索。在我国,医疗费用的不合 理增长,已成为导致医患关系日趋紧张的重要因素。为了有效控制医疗费用的过度 增长,对医疗费用限高,我们迫切地需要一种能够对医疗费用实施有效监控的科学 方法。现有医疗费用研究中所使用的大多为经典因子分析方法。然而对于经典因子 分析,如果分析数据中存在特殊值或干扰信息,那么分析结果将会受到严重影响。 在医疗系统中,不可避免的会出现许多特殊或突发病例,因此经典因子分析方法并 不适合于医疗系统的数据分析。 针对这一问题,本文提出模糊期望、模糊方差、模糊协方差及模糊相关系数的 概念,并以此为理论基础建立模糊因子分析模型。模糊因子分析模型基于经典因子 分析模型,可以极大地减小测量、观测或是实际资料中的病态数据和不良信息对分 析结果的干扰,使分析结果的准确性得到极大提高。 本文以经典因子分析模型和模糊因子分析模型为基础,建立了一个数据分析平 台。该平台可以实现因子分析的全部过程,可以对比两种模型的分析结果,并具有 数据录入,数据管理,图形呈现,以及系统设置功能。 最后,本文以某医院出院患者医疗费用的统计资料为原始数据,运用模糊因子 分析模型和经典因子分析模型对其进行分析处理,对比两种模型的分析结果,解释 分析结果,并指出影响医疗费用的主要因素。 应用表明,模糊因子分析在医疗费用的研究中具有更大的科学性和准确性,具 有实用价值。 关键词:因子分析;模糊因子分析;医疗费用管理 a b s t r a c t f r o mt h es e v e n t i e so ft h et w e n t i e t hc e n t u r y , t h ee x c e s s i v eg r o w t ho fm e d i c a l e x p e n s e sh a sb e c o m eh o ts p o t so fg o v e r n m e n ta n ds o c i e t y , a n dm u c h u s e f u lr e s e a r c hi s d o n et or e s t r i c tm e d i c a le x p e n s e s i nc h i n a , u n r e a s o n a b l eg r o w t ho fm e d i c a le x p e n s e s h a sb e c o m ea ni m p o r t a n tf a c t o rw h i c hl e a d st ot h et e n s er e l a t i o n sb e t w e e nd o c t o r sa n d p a t i e n t s i no r d e rt oc o n t r o lt h ee x c e s s i v eg r o w t ho fm e d i c a le x p e n s e se f f e c t i v e l ya n d r e s t r i c tt h em e d i c a le x p e n s e s ,ar e a s o n a b l em e t h o di su r g e n t l yn e e d e dt oc o n t r o lt h e m e d i c a le x p e n s e s a tp r e s e n t ,c l a s s i c a lf a c t o ra n a l y s i si so n l ym e t h o df o rt h es t u d yo f m e d i c a le x p e n s e s b u tt h er e s u l ti ss e r i o u s l ya f f e c t e db ys p e c i a lv a l u ea n di n t e r f e r e n c e i n f o r m a t i o ni nc l a s s i c a lf a c t o ra n a l y s i s t h e r ea r em a n ys p e c i a la n du n e x p e c t e dc a s e s i n e v i t a b l yi nt h em e d i c a ls y s t e m ,s ot h a tc l a s s i c a lf a c t o ra n a l y s i si sn o ts u i t a b l ef o rd a t ao f m e d i c a ls y s t e m t or e s o l v et h i sp r o b l e m ,t h i sp a p e rp u t sf o r w a r dt h ec o n c e p t so ff u z z ye x p e c t a t i o n , f u z z yv a r i a n c e ,f u z z yc o v a r i a n c e ,f u z z yc o r r e l a t i o nc o e f f i c i e n ta n df u z z yf a c t o ra n a l y s i s m o d e lw h i c hb a s e do nt h ec l a s s i c a lf a c t o ra n a l y s i s t h ee f f e c to fs p e c i a lv a l u ea n d i n t e r f e r e n c ei n f o r m a t i o ni nd a t ao fm e a s u r e o b s e r v a t i o na n da c t u a li n f o r m a t i o ni sg r e a t l y r e d u c e d ,a n dt h er e s u l to f a n a l y s i si sm o r ea c c u r a t e t h i sp a p e re s t a b l i s h e sad a t aa n a l y s i sp l a t f o r mw h i c hb a s e do nc l a s s i c a lf a c t o r a n a l y s i sm o d e la n df u z z yf a c t o ra n a l y s i sm o d e l t h i sp l a t f o r mc a nc a r r yo u tt h ee n t i r e c o u r s e so f f a c t o ra n a l y s i s ,a n dh a v et h ef u n c t i o no f c o m p a r i s o no f t w om o d e l s ,d a t ae n t r y , d a t am a n a g e m e n t ,g r a p h i c sd i s p l a ya n ds y s t e ms e t f i n a l l y , t h i sp a p e rd ot h ea n a l y s i so fs o m eh o s p i t a lp a t i e n t s m e d i c a le x p e n s e si nt h e d a t aa n a l y s i sp l a t f o r m ,c o m p a r et h er e s u l t so fa n a l y s i so ft w om o d e l s ,g i v et h e i n t e r p r e t a t i o no f t h e r e s u l t so f a n a l y s i sa n dt h ed e c i s i v ef a c t o ra f f e c t i n gm e d i c a le x p e n s e s p r a c t i c es h o w st h a tf u z z yf a c t o ra n a l y s i si sm o r es c i e n t i f i c ,a c c u r a t ea n df e a s i b l ei n t h es t u d yo f m e d i c a le x p e n s e s k e yw o r d s :f a c t o r a n a l y s i s ;f u z z yf a c t o ra n a l y s i s ;m e d i c a le x p e n s e sm a n a g e m e n t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东北师范大学或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 学位论文作者签名:j 基卜日期:二堕l 。l 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位 论文的规定,即:东北师范大学有权保留并向国家有关部门或机 构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权东北师范大学可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编 学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:羞避 日 期:2 宣:i ,兰兰 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名;l 囹珏 e t 期:芈 电话: 邮编: 第一章绪论 1 1 研究背景及意义 1 1 1 研究背景 我国卫生部1 9 9 4 年提出医疗要从国有化转向产业化,医疗产业化后随之转变的是 患者成为了“上帝”。患者最关心的问题无疑是医生的技术水平和医疗费用,并且对后 者的关心远远大于前者。 近年来,各个国家的医疗卫生费用急剧增长。美国是目前世界上医疗卫生费用开支 最大的国家,近4 0 年来,美国医疗卫生费用持续增长,从1 9 6 0 年的2 6 9 亿美元增至1 9 8 0 年的2 4 7 3 亿美元,到1 9 9 8 年增至1 1 4 9 1 亿美元,占国内生产总值的比例达到1 4 “1 。 据统计,1 9 8 0 年澳大利亚等2 4 个发达国家医疗卫生支出占国内生产总值百分比的年平 均值为7 1 4 ( 希腊、卢森堡、挪威除外) ,到1 9 9 4 年年平均值增至8 2 3 ( 部分国家为 1 9 9 3 年数据) ,平均增长幅度为1 5 0 1 。 发达国家的医疗卫生费用增长迅速,发展中国家的情况亦是如此。中国作为世界上 最大的发展中国家,2 0 0 0 年,我国卫生总费用为4 7 6 4 0 亿元,是1 9 9 1 年的5 4 倍, 年均递增1 8 3 ;人均卫生总费用为3 7 6 4 元,是1 9 9 1 年的4 9 倍,年均递增1 7 2 , 大大超过了同期的经济增长幅度。同时超出了全球卫生费用的平均增长水平和发达国家 卫生费用的增长水平,也超出了一个发展中国家所能负担的最大限度。3 。 2 0 0 4 年我国卫生部发布的第三次国家卫生服务调查分析报告显示,过去5 年,老百 姓年均收入增长水平远远低于年均医疗支出增长,医疗支出已成为我国居民的第三大消 费。卫生部统计信息中心主任饶克勤在广州作专题报告时说,虽然我国居民收入增加, 但幅度未及医疗费用的增长。 医疗费用的过快增长,不可避免地带来了许多不良后果:首先,政府财政将不堪重 负,越来越多的公共资金被用于医疗保险支出,甚至造成巨额财政赤字:其次,医疗费 用的过快增长给广大患者带来巨大的经济负担和健康损害,正成为导致医患关系日趋紧 张的重要因素;此外,医疗费用增长过快也会使医院的竞争力下降,尤其在中国加入 w t o 后,由于进入的国外医院大多具有精良的技术设备和先进的服务理念,我国医疗 卫生机构遇到了前所未有的挑战。 科学地研究影响医疗费用的诸多因素,找到影响医疗费用过高的主要因素,对其加 以控制和调整,以保证医疗费用的合理性,已经成为当前的一个关键和重要的工作。 因子分析是多元统计分析中的一种重要方法,积极探索因子分析在医疗领域的应用 具有重要的实用价值和广阔的发展前景。目前因子分析在医学领域的应用主要集中在以 下三个方面:、在医院管理中的应用。二、在医院信息系统中的应用。三、在医院药 品使用中的应用。 1 近年来,国内研究人员利用因子分析在医疗领域方面做了大量的工作,也取得了不 少进展和成绩。如医院病人满意度的调查和统计分析、医院工作质量综合评价、构建医 院顾客让渡价值模型、测定药品的组成含量、住院病人护士观察量表的分析等。 当前,国内研究人员利用因子分析对医疗费用的研究尚处于起步阶段,已有的研究 使用的大多是经典因子分析方法。因子分析方法能够从各项医疗费用中提取影响医疗费 用过高的主要因素。因子分析方法能够保证在原始数据信息损失最小的前提下,将大量 的数据集合进行降维处理,快速地找出其内在结构,大大提高分析效率。 由于经典因子分析易受异常值的干扰,而在医疗系统中,又不可避免地存在许多特 殊或突发病例,因此对医疗费用进行经典因子分析的结果可能受到严重影响,不具有普 遍性。 本文建立的模糊因子分析模型能够极大地减小异常值的影响,分析结果真实可靠, 适合于医疗费用的数据分析。 1 1 2 研究意义 1 为控制医疗费用的合理性提供科学依据,维护患者的利益 基于模糊因子分析的医疗费用研究旨在有效检测费用中决定性的因素,并为控制医 疗费用的过度增长提供科学依据,有利于保证医疗费用的合理性,有利于维护患者的利 益,具有现实意义。 2 为研究和管理部门提供参考,对医疗领域有指导意义 以科学的理论方法为指导,进行医疗费用深入调查和研究,从中找出影响医疗费用 的决定性因素,并采取针对措施,将医疗费用控制在一个切实合理的范围内,使卫生资 源能够得到有效逑利用,有利于发挥其最大的医疗效益,完善医疗总控,对整个医疗领 域具有重要的实用价值。 当前,各地医疗费用管理体制改革不断深入,有关医疗费用的统计分析研究将为进 一步深化医疗费用体制改革提供有价值的参考和理论依据。 1 2 国内外研究现状 1 2 1 因子分析研究现状 随着信息技术的迅猛发展,数据的规模不断扩大,各行业都积累了大量的数据资料, 人们需要了解这些数据之间的关系。因子分析能够帮助人们从大量的数据中快速的提取 出有用的信息,因此因子分析模型的研究正日益被人们关注。然而由于早期的因子分析 方法是建立在普通相关矩阵基础之上的,个别异常值的存在可能严重扰乱因子分析的结 果,容易受异常值影响。因此,经典因子分析方法是不稳健的,经典因子分析模型远远 不能满足研究者的现实需要。 现代因子分析模型的研究主要是针对经典因子分析的缺陷,提出新的因子分析模 型,通过解决原有模型的缺陷,使因子分析的结果可信度更高,因子解释更加合理。 现代前沿的因子分析模型有很多”,应用比较广泛的是稳健因子分析“。经典因 子分析方法建立在普通相关矩阵基础之上,不具有稳健性,容易受异常值影响。稳健因 子分析模型的基本思想是:建立稳健相关矩阵,通过对相关矩阵的处理减小个别异常值 的影响。 计算稳健相关矩阵的方法: ( 1 ) i i - 估计1 和r 一估计“” ( 2 ) p j r o u s s e e u w 提出的托d 估计“”。 此外,因子分析也被广泛应用在医学、地质、股票等领域,用来对该领域中积累的 大量数据进行分析处理,并根据各个领域中数据的特点对因子分析模型进行改进“4 。1 。 1 2 2 医疗费用研究现状 1 国内外对医疗费用增长的认识 从二十世纪七十年代起,医疗费用的过快增长成为西方发达国家共同面对的社会问 题,也引起了一些相关组织和部门的注意。i s s a ( 国际社会保障协会) 、0 e c d ( 经济合 作与发展组织) 、i l 0 ( 国际劳动组织) 、w h o ( 世界卫生组织) 等国际组织,都对医疗费 用的增长原因进行了研究和分析。 2 国内外采取的措施以及相关研究 世界范围内的卫生经费急剧上升,尤以医疗费用更甚,其增长速度已超过国内生产 总值( g r o s sd o m e s t i cp r o d u c t ,g d p ) 和物价指数的增长。各国在控制医疗费用方面作了大 量有益的探索。 美国于1 9 8 2 年率先实行疾病诊断相关分类法啪1 ( d i a g n o s i sr e l a t e dg r o u p ss y s t e m , d r g s ) ; i 预额付款制度( p p s ) ,以控制本国医疗费用的不合理增长。d r g s 由美国耶鲁大 学的d o bf e t t e r 和j o h nt h o m s o n 在7 0 年代末负责研制成功,自1 9 8 3 年1 0 月1 日起 被正式作为医疗保险预付款制度( p p s ) 的基础依据。d r g s 根据国际疾病分类( i c o ) 的不同 病种,以病人特征及住院期间所接受的治疗措施为基础,测算其病种的标准成本。有些 学者认为以d r g s 分组没有充分照顾到病情因素对医疗资源使用的影响,同时对一些新 技术、新病种的考虑也有欠缺。 在我国,对于住院医疗费用问题的研究分析,所采用的方法主要有多元逐步回归分 析、l o g i s t i c 回归分析、因子分析、通径分析、递归系统模型的多因素分析与秩和比 法动态对比综合分析等。这些分析对医疗领域的研究起到了一定的积极作用,比如对我 国医疗费用高涨的原因和对策的分析、住院手术患者医疗费用构成及其影响因素的分 析、医疗费用控制的制约因素及变化趋势的分析等。 目前,国内外对医疗费用的研究所使用的都是以概率论为基础的统计分析方法,而 概率的公理化定义表明,其分析结果会受到病态数据的严重影响。此类统计分析方法一 般是对于给定的数据,首先提出一种统计模型( 通常要求满足独立和正态假设) ,然后 在这一假设检验条件下,导出它的一些理论和方法,做出统计推断( 如参数估计和假设 检验) ,这属于经典的统计分析方法。但是,在实际中获得的数据,由于种种原因,可 能不符合现有模型的假设检验,如果仍采用该方法,效果不会理想,甚至可能严重偏离 正确结果。 在医疗系统中,有许多特殊或突发病例。对于这些数据,如果依然采用经典统计分 析方法,其分析结果可能会受到严重影响,没有可信性。因此,现有统计分析方法实际 上并不适合于医疗系统。 1 3 本文研究内容 本文以经典因子分析模型及模糊统计的数字特征为理论基础,提出并建立一种更适 合于分析医疗服务行业数据的模糊因子分析模型。 本文以经典因子分析模型和模糊因子分析模型为理论基础建立了一个模糊统计分 析平台,该平台可以实现因子分析的全部过程。 最后,本文以某医院出院患者医疗费用的统计资料为原始数据,运用模糊统计分析 平台进行分析,并比较经典因子分析和模糊因子分析的结果,指出影响医疗费用的主要 因素。 4 第二章经典因子分析方法论述 2 1 多元统计分析概述 在许多科学研究中,研究者都可能会遇到分析具有多个变量的数据的问题,需要从 表面上看起来杂乱无章的数据中发现和提炼出规律性的结论。毫无疑问,人们对这个问 题的兴趣在不断增长,并形成了致力于这个任务的一门学科,称为“多元统计分析”。 多元统计分析是多变量的统计分析方法,是数理统计中最重要的分支之一,其内容 庞杂,视角独特,方法多样,并且在使用中不断的完善和创新。它在自然科学、社会科 学和经济学领域中都得到了越来越广泛的应用,是一种非常重要和实用的多元数据处理 方法,汇聚了不同领域的研究者,尤其是商业、经济学、生态学、地质学、社会学、医 学、教育学等方面的学者和工程技术人员,投身到多元统计分析这一研究领域,形成新 的技术热点。在这些领域中,有这样三个共同之处:一、这些领域都积累了大量的数据; 二、常常需要同时观测多个指标。三、需要研究分析得出大量数据中存在的内在规律和 结构。实践证明,多元统计分析是对多个随机观测变量实现性、定量分析的有效工具。 多元统计分析起源于2 0 世纪初,它的理论和方法在近半个世纪获得了飞速的发展。 1 9 2 8 年w i s h a r t 发表论文多元正态总体样本协方差的精确分析,可以说是多元分析 的开端。2 0 世纪3 0 年代r a f i s h e r 、h h o t e l l i n g 、s n r o y 、许宝繇等人做了一系列 的奠基性工作,使多元分析在理论上得到了迅速的发展。4 0 年代在心理、教育、生物等 方面有不少的应用。但是由于计算量大,其发展受到影响甚至停滞了相当长的时间。5 0 年代初期,电子计算机的出现使多元分析方法得到了广泛的应用。6 0 年代,由于新的理 论和方法不断涌现,又促进它的应用范围更加扩大。7 0 年代初期,在我国开始引起各个 领域的极大关注。近十几年来,电子计算机的普及,人工智能、机器学习等相关学科的 出现,又为多元统计分析方法增添了新的活力,它在许多学科领域里面都得到了日益广 泛的应用,发展更加活跃和深入。 多元方法的主要应用在以下几个方面: 1 数据简化或结构简化:在不损失有价值信息的情况下尽可能简单地将被研究的现 象描述出来。 2 ,分类与分组:根据所测量的特征将一些“类似的”对象或变量分组。另外,或许 需要一些分类规则,以便将对象归入明确定义的各组。 3 变量问依赖性的研究:变量间关系的本质研究。检测所有变量是否相互独立,还 是有一个或多个变量依赖于其他变量,如果存在依赖关系i 分析这种关系的内在结构。 4 预测:为了根据某些变量的观测值预测另一个或另一些变量的值,必须确定诸变 量之间的关系。 5 假设的构造与检验:对以多元总体参数形式陈述的多种特殊统计假设进行检验。 s 这样做可以验证某些假设或增强事先建立的信念。 多元统计分析方法多种多样,包括回归分析、主成分分析、因子分析、典型相关分 析、判别分析和聚类分析等。英国著名统计学家m 。k e n d a l l 对多元统计分析的分类如下: 多元统计分析 需厂t r 丌 轰早鳌羹凳 雾霁霜券灵分分 相 分 尺 菥 折 葬 析 粪忻转 冉 回 判 泛多 归 别 涵 重 分 分 关 列 析 析 系 联 iii 模型结构分布理论 i 假设检验 j 茬耋凳 蠹 尧征量元 秤 元 值独协 检 离 显立方验差 著性 差 分 性分析 析 图2 - 1 多元统计分析的分类 在多元统计分析方法中,因子分析是最常用和重要的方法之一,通常可以利用因子 分析方法来进行变量问依赖性的研究。 2 2 经典因子分析概述 2 2 1 因子分析概述 因子分析起源于2 0 世纪早期,是k 皮尔逊( p e a r s o n ) 、c 斯皮尔曼( s p e a r m a n ) 及其他一些学者为定义和测定智力提出的。由于与智力有联系,早期主要是对心理测量 学有兴趣的科学家们,培育和发展了因子分析。对几个早期研究的心理学解释的争论以 及缺乏强有力的计算工具,阻碍了因子分析作为统计学方法的最新发展。高速计算机的 出现,重新引发了研究者对因子分析理论的兴趣。 因子分析( f a c t o ra n a l y s i s ) 是多元统计分析中处理降维的一种统计方法。它通过 研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数的几个潜在 的且不能观测的随机量来描述其基本的数据结构。 因子分析的基本思想是通过对变量( 或样品) 的相关系数矩阵( 或是协方差矩阵) 6 内部结构的研究,找出能控制所有变量( 或样品) 的少数几个随机变量来描述多个变量 ( 或样品) 之间的相关( 相似) 关系。换句话说,就是把所有观测变量进行分组,使一个组内 的所有变量之间是高度相关的,而不同组中的变量的相关性相对较小,那么每一组变量 就可以用单一的潜在的结构( 或因子) 代表其基本结构。这少数的几个潜在且不能观测 的随机量就叫做因子( 或公共因子) ,它能够反映原来众多变量的主要信息。 因子分析的主要目的是试图用最少个数的不可观测的互不相关的因子来描述原来 的一组可观测的相互有关的变量,尽可能合理地解释存在于原始变量之间的相关性。根 据这一目的,其主要工作就是找出能控制所有变量( 或样本) 的少数几个因子。 目前,因子分析已经被广泛地应用到经济学、社会学、考古学、生物学、医学、地 质学等各个领域。使用因子分析能够保证在原始数据信息损失最小的前提下,将高维的 数据集合进行降维处理,快速地找出其内在结构,大大提高决策者的洞察能力和分析效 率。 2 2 2 因子分析的基本形式 因子分析主要有两种基本形式:探索性因子分析( e x p l o r a t o r yf a c t o ra n a l y s i s ) 和验证性因子分析( c o n f i r m a t o r yf a c t o ra n a l y s i s ) 。探索性因子分析( e f a ) 致力于找 出事物内在的本质结构;而验证性因子分析( c f a ) 是用来检验已知的特定结构是否按照 预期的方式产生作用。两者之间是既有联系也有区别的,两种因子分析都是以普通因子 模型为基础的,其区别是在寻找公共因子的过程中,是否利用先验信息。探索性因子分 析是在事先不知道影响因素的基础上,完全依据资料数据,利用统计方法以一定的原则 进行因子分析,最后得出因子的过程。而确定性因子分析充分利用了先验信息,是在已 知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。探索性因 子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的 相关程度;而验证性因子分析的主要目的是测试事先定义因子的模型拟合实际数据的能 力。 探索性因子分析试图揭示一套维数相对较大变量的内在结构,这是因子分析最通常 的形式。 2 2 3 因子分析与回归分析、主成分分析的区别 1 因子分析与回归分析的区别:因子分析中的因子是一个比较抽象的概念,而回归 因子有非常明确的实际意义;因子分析模型中的公共因子个数是未知的,是需要估计的, 而回归分析模型中的回归因子个数则是已知的;因子分析模型中的公共因子之间是相互 独立的,而回归分析中的回归因子则可能是相关的。 2 因子分析与主成分分析的区别:两者都是在力图逼近协方差矩阵z ,但主成分分 析实质上是一种变量变换,而因子分析需要构造因子模型。在主成分分析中原始变量的 线性组合表示新的综合变量,即主成分;每个主成分相应的系数是唯一确定的。而在因 子分析中则利用潜在的不可观测的变量和随机影响变量的线性组合来表示原始变量,即 因子,并用因子来“解释”相关矩阵的内部依赖结构。每个因子相应的系数不是唯一的, 其因子载荷阵也不是唯一的。虽然两者都是逼近协方差矩阵,但是基于因子模型的逼近 7 更精细一些。 2 3 因子分析的模型 2 3 1 数学模型 假设有p 个成分的观测随机向量x ,有均值和协方差矩阵。因子模型是要求x 是线性依赖于几个不能观测的称之为公共因子的随机变量只,e ,a ,巴和p 个附加的称 之为特殊因子( 或有时也称为误差) 的变差源。,岛, ,占,这里特殊因子是指不能被前 m 个公共因子包含的部分,具体地,因子分析模型是: x f = 弘i + z i l f i + a + l i m f m 十 t m 曼p ) 或者写为矩阵形式 x j x 2 : x p k t l 2 : 咎p + x n = l f + e “1 1 2 ,2 l ,2 2 ; l p l1 p 2罐 + 刘 ( 2 1 ) 其中,称系数,口为第f 个变量在第歹个因子上的载荷,故矩阵是因子载荷阵。第i 个 特殊因子岛只与第i 个响应x ,相联系。 由于该模型中l o 、e i 、f 都是不能观测量,从观测值来直接确认这个因子模型是不 现实的,那么,为了推出因子模型,要对随机向量f 和f 作某些附加假设。 f 和的期望值为零。即: 层( f ) = 0e ( e ) = 0 e ,e ,a ,卅不相关且方差皆为1 。即: c o v ( f ) = 砸胛7 】- i q ,e 2 人,。不相关且方差不同。即: c o y ( e ) = 昱【甜7 】i 甲= 0 0 : oo - 0 0 t: y 。 8 甲是对角矩阵 公共因子f 与特殊因子相互独立。即: c o v ( f ,) = e ( f e 7 ) = e ( f , e i ) e ( e e 2 ) e ( e s 。) e ( e 毛) e ( e 岛) e ( f 2 e 。) ; e t f p e 好p 0 e ( f p j = 0 2 3 2 因子分析模型的性质 , 1 原始变量x 的协方差矩阵的分解 ( x 一) ( r 一) r = ( f + ) ( l f + ) 7 = l f ( l f ) 7 + ( 7 + l f e 7 + 箔7 依据满足的条件有: = c o y ( x ) = e ( x 一) ( x 一) 7 =llr+甲(2-2) c o v ( x ,f ) = e ( x - b ) f 7 = l e ( f f 7 ) + 层( 驴7 ) = l 2 因子载荷矩阵不是唯一的 设丁为一个p x p 的正交矩阵,即t t 7 = ,则f = l t ,f = t 7 工模型可以表示为 x = 十r f + + ,且它满足因子模型的条件 e ( f ) = 0e ( 功= 0c o v ( f ) = , c o y ( e ) = 甲 c o v ( f , 功= e ( f + ,) = 0 2 3 3 模型参数的统计意义 1 因子载荷的统计意义 因子载荷0 是第f 个变量与第歹个公共因子的相关系数,表示依赖弓程度,它反映 了第f 个变量在第j 个公共因子上的相对重要性。其绝对值越大,相对的重要性越高。 2 共性方差贸的统计意义 变量置的共性方差是因子载苟矩阵的第j 行的元素的平方和,记蟛= 妻譬 ,- j 它表示全部公共因子对变量的方差的总贡献。砰越接近l ,说明该变量的几乎全 部原始信息都被所选取的公共因子说明了,也就是说由原始变量空间转为因子空间的性 质越好,保留原来的信息量越多。 9 3 公共因子只方差贡献的统计意义 将因子载荷矩阵中各列元素的平方和记为s :羔鳄,称s ,为对x 的方差贡献,即 j = l 表示同一公共因子对诸变量所提供的贡献总和,是 天,- 一z “k 一u 一一n 。一一z u 。,一一吓。 2 ,4 模型参数的估计方法 因子模型确定之后,由于和甲都是不可观测的值,因此我们下一步的工作就是估 计和甲。 2 4 1 主成分估计法 利用谱分解对协方差矩阵进行因子化分解。设随机向量x = ( ,聋:,a ,x 。) 的均值为 ,协方差为, 疋2 a 五,0 为的特征根,e 。,a ,p ,为对应的标准化特征向量, 则 = 五已。p i + 五已:e :t + a + 乃勺t :悴。乒麓 瓶威 a 乃哆 【 。 【瓦; ( 2 - 3 ) 此分解式恰是公共因子与变量个数一样多且特殊因子的方差为0 时,因子模型中协 方差阵的结构,即= f 。各个公共因子的载荷与相应的主成分的系数仅相差一个常 数乃倍,故称为主成分估计法。 上式忽略了特殊因子。当然,假定原始变量完全由公共因子决定,不存在特殊因子, 可能是不合适的。而我们在实际应用时总希望公共因子个数小于变量的个数,因此给定 公共因子数目m 0 和v ( x :) 0 。则称 p ( x i , x 2 ) 2 褊 ( 3 _ 6 ) 为x 。与x :的相关系数或标准协方差。它是一个无量纲的量。有时把相关系数记作 对于n 元随机变量x = ( x ,置,x 。) ,与之对应的相关系数矩阵记作 吼 例如: p = 户1 2 a 。 p 2 2 仍。 p n 2 p 。 表3 4 实际观测数据 n o x ix 2 x 3 11 0 0 21 0 0 51 0 0 5 21 0 1 01 0 0 19 8 7 3l o 2 11 0 2 2 9 8 l 41 0 2 2l o 2 99 6 l 51 0 4 71 0 4 79 6 6 61 0 4 61 0 4 49 4 8 7l o 6 5 1 0 6 0 9 4 0 81 0 6 71 0 6 69 2 6 91 0 8 91 0 8 39 。2 7 l o l o 8 4l o 8 2 9 0 2 按( 3 - 6 ) 式计算相关系数矩阵如下: l1 0 0 0 9 9 0 9 4 l l0 9 9 1 0 0 0 9 4 i 【一0 9 4 0 9 4 1 0 0j 3 2 2 模糊统计学中的数字特征 模糊统计学是在模糊集合的基础之上建立起来的各种统计方法。下面分别给出模糊 集合、模糊数学期望、模糊离差、模糊方差、模糊协方差和模糊相关系数的定义。 1 模糊集合 设集合x = “,屯,毛 ,隶属度n = 伽。,:,以 ,则称 f = x ,n = 取i l ,工2 2 ,x 。) ( 3 - 7 ) 为模糊集合。其中:x k i 0 ,( 后= 1 ,2 ,甩) 。 对于模糊集合f ,当以= l , = 1 , 2 ,n ) 时,f = x ,即:x 仅仅是当隶属度为 1 时f 的特例。当以= 0 ,( k = 1 , 2 ,玎) 时,f = o ,即:f 为空集。 2 模糊数学期望 设集合x ,均值隶属度n 。相应的模糊集合f = x ,n ,则称 2 l h 以 f e ( f ) = 生 以 为x 的模糊数学期望,或模糊均值。 在实际应用中,模糊均值不能直接计算,而是利用模糊迭代方法获取。设实际观测 数据x = 缸。,x :,工。 ,均值隶属度n = ,:,以) ,其模糊均值为 i 。 譬= 等_ 一 ( 3 - 8 ) 肌 其中: 以归匕每:。 t = o c 川2 均值隶属度的初值肌( 0 ) = i ,不难看出,模糊均值的初值譬= i ,即:算数平均值; m 为模糊迭代次数,取决于对迭代精度口的具体要求。 口:丢窆k 一即) 1 月钉一 例如: 表3 - 5 实际观测数据 n o l23 45678 91 0 i x1 0 1i 0 ,01 0 5 9 11 0 29 7l o 4 9 41 0 79 2 按( 3 - 2 ) 式计算经典均值i = 9 9 3 按( 3 8 ) 式计算模糊均值z = 9 9 7 2 3 8 3 ,迭代次数m = 2 在j 下常情况下,经典均值与模糊均值之间没有什么差别。但是,当实际观测数据中 存在个别误差较大的数据时,经典均值与模糊均值之间差别较大。试验证实,模糊均值 的抗干扰能力较强,而经典均值较差。例如: 表3 - 6 实际观测数据 n o12 345678 91 0 i x1 0 49 8 1 0 81 0 01 0 7 o9 9l o 5 9 71 0 69 1 按( 3 - 2 ) 式计算经典均值孑= 1 9 7 8 按( 3 - 8 ) 式计算模糊均值z = 1 0 1 1 1 9 0 4 ,迭代次数m = 5 从实际观测数据表中提供的数据可以看出,其实测值以小于1 0 的观测误差,在 1 0 0 上下浮动,实际均值约为1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高炉炼铁安全知识培训
- 2026年安全防火防盗知识
- 2026年生产助理招聘笔试精题
- 2026年电气技术初级题库精
- 中国教育网护理学模拟课件
- 基础护理学第七章:护理职业素养与职业道德
- 2025天津市管国有文化企业公开选聘总经理副总经理笔试历年参考题库附带答案详解
- 2025北京建筑材料科学研究总院有限公司实习生招聘9人笔试历年参考题库附带答案详解
- 2025中汽数据有限公司硕博应届生春季校园招聘100人笔试历年参考题库附带答案详解
- 苏教版初中语文名著阅读教学:现状、策略与实践探索
- KTV消防安全管理制度
- SCARA工业机器人手臂设计
- 国际航运管理习题及答案
- 新疆兵团建设工程标准化手册最终版
- 铁塔外市电引入施工组织方案(业务能力及服务水平)
- 离婚协议书下载电子版完整离婚协议书下载
- 探究古代闽剧人物造型的转变
- 2023年中级消防设施操作员(监控方向)理论知识考试题库(浓缩500题)
- GB/T 1112-2012键槽铣刀
- 2020年事业单位考试必考的180个公共基础知识要点精髓整理总结
- 复旦眼科学课件03眼底病
评论
0/150
提交评论