版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、因子分析教学内容的改进*教育部人文社会科学研究规划基金项目资助,项目批准号:09YJA910002;2009教育部人文社会科学重点研究基地重大项目资助,课题名称:多元统计分析及其应用的统计理论研究;广东商学院科学研究重点项目资助,项目批准号:08ZD11001。 因子分析模型L的教学内容林 海 明1-3(1.广东商学院经济贸易与统计学院 广东广州510320 2.广东省电子商务市场应用技术重点实验室 广东广州510320 3.广东商学院国民经济研究中心 广东广州510320)摘要:迄今国内外流行的因子分析教学内容没有优良性的结论,以至在数学上、教学上和应用上存在许多问题。为了解决这些问题,这里
2、沿着国内外教材中因子分析教学内容的常规路径,根据近期改进的、具有优良性结论的因子分析模型L及其解,依次给出了:因子分析的新定义、特点,因子分析模型L及其解,因子何时意义明确、因子个数更好的确定方法,因子分析模型L与因子分析原模型的比较,待研究的问题等,力争在教学内容上做到思路清晰、方法简捷、理论明确、容易抓住要点,为因子分析理论与应用的教学提供一个可行的参考。关键词:因子分析;教学内容;改进;因子分析模型L中图文分类号O212 文献标识码A O 问题的提出多元统计分析目前是数理统计、统计、经济管理、生物等相关专业本科、硕士、博士生的常规课程,因子分析是其中的主要内容,以具有代表性的Johnso
3、n.R.A ,Wichern.D.W著1实用多元统计分析(2007)为例,因子分析的教学内容有:9.1 引言 简述因子分析的起源、发展、定义、实际问题、特点。9.2 正交因子模型 介绍正交因子模型及其协方差结构。9.3 估计方法 介绍估计因子载荷阵的主成分法、主因子解、最大似然法。9.4 因子旋转 主要介绍方差最大化正交旋转。9.5 因子得分 介绍加权最小二乘法、回归法。9.6 因子分析展望和建议。上述内容以降维、清晰解释数据为目标,建立了先估计因子载荷阵及其旋转,再求因子得分的二步估计方法,使得因子分析理论方法与应用得到了较好的深入,同时,存在一个明显的遗留问题:因子分析模型没有最优化条件,
4、以至相应教材中迄今不知哪个解是更好的?这即是因子分析优良性问题。为了解决上述优良性问题,2(2009)34(2006)5(2007)提出了求因子分析精确解的思想,受到张尧庭、方开泰教授6中标准化主成分及其载荷阵等式表示近似原始变量关系式的启发,对模型引入了最优化条件,找到了更具优势的方法-标准化主成分法,建立了改进的模型和理论-因子分析模型L及其解,明确了因子、误差项的意义,给出了前m个因子对变量x方差贡献和达到最大、误差项方差和达到最小,其能达到降维目的,解决问题具有一般性等更好的结论。使得因子分析的理论被简洁为18个字:标准化主成分或其旋转是因子分析的解(计算上是:主成分法初始因子载荷阵回
5、归的因子得分或其旋转)。据此,因子分析教学内容改进条件已较成熟。因子分析教学内容改进的任务是:沿着国内外教材中因子分析教学内容的常规路径,根据近期改进的、具有优良性结论的因子分析模型L及其解,讲清因子分析的基本概念和目的,合理引入改进的、具有最大化条件的因子分析模型L,用更具优势的方法-标准化主成分法,给出因子分析模型L的解和优良性结论,建立和给出一些应用规则、注意事项,提出一些待研究的问题。于是:1中因子分析的内容9.1-9.6可依次简化改进为如下内容1-4(中国人民大学、华南师范大学、东北财经大学、广东商学院、内蒙古财经学院、山东工商学院等高校,已经或正在使用这些内容,给相应专业的本科、硕
6、士、博士进行教学):1 引言 介绍因子分析的产生、实际问题、发展、定义、特点等(19.1的改进)。2 因子分析模型L(19.2的改进)。3 因子分析模型L的解与优良性(含方差最大化正交旋转)(19.3-9.5的简化)。4 注意事项和待研究的问题(19.6的改进)。这里力争在教学内容上做到思路清晰、方法简捷、理论明确、容易抓住要点,为因子分析理论与应用的教学提供一个可行的参考。以下依次完成这些任务。1 引言已有的主成分分析理论,一方面,能找到原始变量与主成分的线性等价性,达到降维目的,另一方面,主成分的原始变量系数无直接的统计意义,主成分有时命名不清晰,对变量解释不力。怎样找到载荷系数有直接统计
7、意义、命名较清晰、变量解释较有力的较少综合变量解决问题呢?这些综合变量称为因子。实际问题中,如某公司对n(如30)名应聘人员的知识和能力进行测试,出了p(如40)道题,题中的内容包括如下几个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,将每一个方面称为因子,怎样求解这些因子?评出合适人选呢?因子分析是1904年Spearman.C从智力测验得分的统计分析方面提出的,目前这一方法的用处已为经济、社会、生物、医学、体育等领域许多实际工作所证实。将主成分分析向前推进一步,就是因子分析。因子分析也是降维方法的一种。定义1 因子分析是通过互不相关、方差为1、
8、前几个方差贡献和达到最大化且意义较清晰、其后几个方差贡献小的最少综合变量线性表示原始变量的多元统计方法,这前几个综合变量称为因子,其后几个综合变量称为误差因子。因子分析的目的:较清晰地简化数据-用尽可能少的几个互不相关的综合变量较清晰地解释较多的原始变量。对于主成分分析,其是通过单位化系数的线性组合将原始变量化为互不相关、方差降序排列达到最大化的主成分的多元统计方法。主成分的方差有大有小,而因子的方差全部是1。主成分方差>1(或<1)时,主成分取值比相应因子取值分散(或集中)。因此,结论1 因子分析与主成分分析显著的区别是:方差。故两者是取值不同、不可混淆的计量体系。主成分正交旋转
9、后改变了主成分方差降序排列最大化的条件,结果已不是主成分,故主成分不可旋转。因子分析的优点:因子载荷系数有直接的统计意义,因子可正交旋转,至少有两个常用的解-初始因子、旋转后因子,命名较清晰,故因子分析更精细。因子分析与主成分分析相同的是:都是能降维、可消除相关性的方法,解决问题的步骤基本一致;初始因子与变量的相关阵、主成分与变量的相关阵都是相同的;初始因子、主成分命名依据都是用初始因子与变量的相关阵;因子、主成分和原始变量都可相互线性表示(见第3部分定理1、定理2)。注1:主成分不可旋转,标准化主成分可旋转6。标准化主成分或其旋转,是因子分析模型L的解(见第3部分定理1、定理2),不是主成分
10、分析的解。2 因子分析模型L设为正向化、标准化随机向量,秩,的非零特征值为、,因子载荷阵 因子、误差因子载荷阵误差因子,称为第i个变量在第j个因子上的载荷(简称为因子载荷),因子对的方差贡献。 因为秩,设想是互不相关、方差为1的的线性组合,。因子分析的目的是降维:降维的数学描述是前m个因子对的方差贡献和达到最大。写为矩阵表示得如下改进的、具有最大化条件的模型:因子分析模型L3 求,使, (1), (2)达到最大,。 (3)其中的选取以因子对有代表性为前提,称为误差项,是方阵主对角元素的和(下同)。 注2:用矩阵分解理论可证明(此略):因子、误差因子的个数和r是最小的。 模型中因子载荷、因子方差
11、贡献和变量共同度的统计意义(1)由是标准化的、,秩,有:,即因子载荷阵是变量与因子的相关系数,它反映了第i个变量在第j个因子上的相当重要性。(2)将因子载荷阵中各列元素的平方和记为:。其是因子对的方差贡献,表示同一因子对变量所提供的方差贡献之总和,它是衡量因子相对重要性和降维的指标。(3)变量的共同度定义为因子载荷阵中第i行元素的平方和,即。为了说明它的统计意义,将式两边求方差,由式有1=,这里此式说明变量的方差由两部分组成:第一部分为共同度,它刻划因子对变量的总方差所作的贡献,越接近1,说明该变量的几乎全部原始信息都被所选取的因子说明了。第二部分是误差因子所产生的方差,称为误差因子方差,它是
12、使方差为1的补充值。设是第个元素为1的维单位列向量。性质1 设为的正交旋转阵,为旋转后共性方差,则(正交不变性)。证明:。6 证毕。3 因子分析模型L的解与优良性 设、这里(单位阵),记是以为对角元素的对角矩阵。设主成分,有=, (4) 。 (5)因为是标准化的,由式(4)、式(5),将主成分进行标准化有标准化主成分: (6)记标准化主成分载荷阵:。 (7)引理17 设和B都是p阶对称阵,的特征值是,,B的特征值是,若-B是非负定的,则。定理124 标准化主成分及其载荷阵(主成分法下初始因子载荷阵回归的因子得分)是因子分析模型L的解,具体为:,,误差项:,。 其中称为初始因子载荷阵,称为初始因
13、子, 称为误差公因子载荷阵,称为误差公因子。证明24:式(1)取方差、由式(2)得:,即非负定,设的特征值是,,按及其特征值的假定,由引理1,得:。于是; (8)将式(4)左乘P,由,有;因为X是标准化的,由式(4) Y的数学期望E(Y)=0,由式(5),所以,所以;由式(6)、式(7),有,所以(标准化主成分法),即得式(1),是标准化主成分,所以,即得式(2);,所以,结合式(8),即得式(3)。证毕。注3:北京大学数学科学学院陈家鼎教授帮助证明了不等式(8),在此表示衷心感谢。建立因子分析模型的另一目的是要较清晰地知道每个因子的意义,以便对实际问题作出更为客观的分析。当初始因子载荷阵中行
14、元素的绝对值不是足够向0或1两极分化时,不能较清晰地知道每个因子的意义,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转。旋转的方法有多种,如方差最大化正交旋转、斜交旋转等,这里给出常用的方差最大化正交旋转结论。方差最大化正交旋转法具体见16。定理223 标准化主成分的旋转及其载荷阵(主成分法下旋转后因子载荷阵及其回归的因子得分)是因子分析模型L的解,具体为:设为的方差最大化正交旋转矩阵,为旋转后因子方差贡献,,,、同定理1, 其中、同定理1,称为旋转后因子载荷阵, 称为旋转后因子。证明23:利用定理1和为的方差最大化正交旋转矩阵有,即得式(1),,即得式(2),=,式有正交不变性,即得式
15、(3)。证毕。性质22(优良性):因子分析模型L的因子载荷阵使因子的方差贡献和达到最大化,误差项方差和达到最小。具体是:对给定的因子个数m,满足式、式的所有因子载荷阵L、L,同时有:,时,等式成立;,当或时,等式成立。证明2 定理1-2中已证明,这里证明,由式(8),=,当或时,由定理1-2有:。证毕。注4:北京大学数学科学学院陈家鼎教授帮助证明了定理3的不等式,在此表示衷心感谢,他告诉笔者,他还在矩阵范数下证明了:或是使达到最小的解。注5:还可证明(此略)因子分析模型L的因子是无偏的,平均预报误差是0。定理1、定理2的证明是用标准化主成分法给出结论的,其能同时求出因子载荷阵及其因子、误差因子
16、载荷阵及其误差因子、误差项的解,且这些解有性质2等的优良性,由此,结论2:标准化主成分法是更具优势的方法。注6:因子分析原模型中,当第i个变量的公因子共性方差时,公因子对Xi影响不大,6 即此时的公因子对Xi不解决问题。文5的定理4说明这是因子分析原模型和理论没有优良性结论的直接原因。因子分析的解不唯一,使用者熟悉的是旋转后因子,少见的是初始因子,故有时出现不讲应用效果地使用旋转后因子的情况。从解释效果上讲,因子分析有时更适宜使用初始因子。因子解释效果好的前提条件是:因子与变量有较高的相关性。注意到因子载荷阵是与因子的相关系数阵,故初始因子、旋转后因子解释效果好的结构简化规则:规则1 比较旋转
17、后因子载荷阵(多计算几个比较)与初始因子载荷阵,如果中行元素的绝对值足够向0或1两极分化,则直接使用初始因子分析解决实际问题8。如果中行元素的绝对值足够向0或1两极分化,则使用旋转后因子分析解决实际问题5。按规则1选取的解,相应因子解释变量相关性高,解决问题效果好。注7:解决实际问题时,前列与前()列旋转后因子载荷阵设为、,则、的前列互不相同,故是一个挑选的结果,设k是变量协差阵特征值碎石图1拐点对应的序号,规则1的是、(多个结果中挑选)中行系数足够向0、1两级分化的矩阵。旋转后因子载荷阵与初始因子载荷阵进行对比时,建议用因子载荷绝对值0、1两极分化对比表判断。因子分析的另一任务是选取尽可能小
18、的m,使前m个因子对有显著的相关性,从而达到降维的目的。注意到因子载荷阵是与因子的相关系数阵,这里给出更好的规则:规则2 使用初始因子时,用和因子与变量显著相关的临界值判断,若因子与某些变量显著相关,则选入该因子,因子个数m、因子方差累计贡献率随之确定。使用旋转后因子时,用和因子与变量显著相关的临界值判断,若因子与某些变量显著相关,则选入该因子,因子个数m、因子方差累计贡献率随之确定。按规则2选取的因子,相应因子解释变量有代表性,否则是不解决问题的。如果x服从正态分布,由定理1、定理2,因子服从正态分布,故因子与原始变量显著相关的临界值可查自由度为()的检验相关系数的临界值表9。注8:初始因子
19、个数、旋转后因子个数有时是不同的。初始因子与旋转后因子模型相同,更相近,这里有:结论3:初始因子与旋转后因子显著的不同是:因子对变量的方差贡献。结论3使得变量在因子中的分布发生改变,计量值不同,故计量应用中不可混淆具体不同为后面初始因子与旋转后因子综合评价步骤中第(4)-(10)步的因子定量值。初始因子与旋转后因子相同的是:都是降维、可消除相关性的方法,解决问题的步骤基本一致;初始因子和旋转后因子与标准化变量都可相互线性表示(定理1、定理2)。初始因子分析与主成分分析具体异同和实证见10。因子分析与主成分分析具体异同和实证见11。初始因子与旋转后因子具体异同和实证见8。与因子分析原模型及其估计
20、解16比较,因子分析模型L引入了最优化条件,找到了更具优势的方法-标准化主成分法,求出了精确解,建立了改进的因子分析模型L及其解,明确了因子、误差项的意义,给出了性质2的优良性,能达到降维目的,解决问题具有一般性等。结合定理1、定理2,故有:结论4 因子分析模型L及其解是因子分析的优良模型和解。结论5 因子分析的理论被简洁为18个字:标准化主成分或其旋转是因子分析的解(计算上是:主成分法因子载荷阵回归的因子得分或其旋转)。4注意事项和待研究的问题4.1 注意事项用定义1明确:因子分析概念,因子分析与主成分分析的区别。主成分不可正交旋转,标准化主成分可正交旋转。标准化主成分或其正交旋转是因子分析
21、的解,不是主成分分析的解,故主成分与因子分析的计量值不能混淆。因子分析应用中,使用具有优良性的因子分析模型L及其解。初始因子、旋转后因子显著的不同是:因子对变量的方差贡献。故两者的计量值不能混淆。何时使用旋转后因子、初始因子由规则1确定更好。因子个数的选取以规则2确定更好.4.2 待研究的问题以因子分析为基础的对应分析法12,其数据分析目前达不到意义、方向清晰的效果,故对应分析有待进一步研究和完善。构造方程模型1与因子分析如何更好的结合应用?有时初始因子载荷阵行系数绝对值向0、1两极分化的结果,比旋转后因子载荷阵好,是何原因?标准化主成分法破除了相关阵(协差阵、离差阵)的可逆性解决问题。故类似于相关阵、协差阵、离差阵不可逆的多元统计分析问题,同样有待用此方法深入。设总体协差阵为,的秩为r,设样本协差阵为,的秩为,r的一致估计量是什么,其与有何关系。教学案例将另行行文。参考文献:1R.A.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025建筑项目委托贷款合同范文
- 2025版风湿免疫科学理论知识考核及答案解析
- 2025美容师劳动合同范本
- 2025敬老院活动总结(3篇)
- 2025企业终止劳动合同协议书模板
- 2025年下半年吉林长春市事业单位招考(33名)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林通化市事业单位招聘(专项招聘)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林辽源市事业单位招考工作人员(3号)易考易错模拟试题(共500题)试卷后附参考答案
- 2025私人借款协议(个体之间)
- 2025年下半年吉林四平市道路运输管理局招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025太原迎泽区社区劳动保障协理员和城镇最低生活保障协理员招聘考试参考题库及答案解析
- 2025年西藏初中班招生统一考试语文试卷试题(含答案详解)
- 教学设备投标施工方案
- 南京223火灾事故调查报告
- 食堂从业人员卫生课件
- 喀什地区2025新疆维吾尔自治区喀什地区“才聚喀什智惠丝路”人才引进644人笔试历年参考题库附带答案详解
- 拼多多社交电商课件
- 成人坏死性筋膜炎的诊断和治疗共识(2025版)解读
- 工程测量技术实践作业指导书
- 围墙粉刷施工方案(3篇)
- 2025山东泰山财产保险股份有限公司总公司及分支机构校园招聘、社会招聘笔试备考试题及答案解析
评论
0/150
提交评论