《数学建模方法》-第5章 方差分析法_第1页
《数学建模方法》-第5章 方差分析法_第2页
《数学建模方法》-第5章 方差分析法_第3页
《数学建模方法》-第5章 方差分析法_第4页
《数学建模方法》-第5章 方差分析法_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

章节内容§5.1方差分析法5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法5.1方差分析法——根据实验结果进行分析、鉴别各因素对实验结果影响程度的一种方法5.1方差分析法例

星海钢琴厂为了推销星海钢琴,在五个地区建立了销售点,统计的四个时期的销售量资料如右表所示。试问该产品在不同地区和不同时期的销售情况是否存在显著的差异。624481071191213978721223地点销售量时期

5.1方差分析法思路分析在不同地区和不同时期星海钢琴的销售情况是否存在显著的差异判断5个不同的地区,在不同的时期钢琴销售额的均值是否相等若均值相等不同地区和不同时期钢琴的销售额无差异,即地区和时期对销售额无影响均值不相等(不同地区和不同时期星海钢琴的平均销售额分别为7.75、4.75、6、5.75、7.5、4.8、9.8、8.8、2)使用更准确的方法:方差分析法因为每个地区和时期的平均销售额是根据随机样本的数值计算的,均值的差异可能是由于抽样随机性造成的5.1方差分析法添加标题添加标题定义所要检验的对象为自变量,也称为因素或因子。因素的不同表现称为水平或处理。每个因素水平下得到的样本数据为观测值。例5.1.1中,地区和时期就是试验的因素,地区取了5个水平,时期取了4个水平,本题是两个因素4×5水平的方差分析问题。分类方差分析方法(简称方差分析)就是借助于对误差来源的分析,检验各总体的均值是否相等来判断各类型自变量对数值型因变量是否有显著影响的分析方法。5.1方差分析法在一次试验中,如果仅考虑一个试验条件而将其他因素相对固定的试验,称为单因素试验,对应的方差分析称为单因素方差分析.依此类推,有两因素方差分析和多因素方差分析。5.1方差法分析假定条件(1)各因素水平下的观察值是随机变量的实现,它能够分解成两个部分,一是个因素水平下的期望,另一是随机误差项。因此有,,

(5.1.1)其中

n

为试验次数,r

为因素水平数。(2)服从正态分布,即

,且相互独立。方差分析的实质是变异分析这一假定叫做方差齐性假定,它是方差分析的重要前提。方差的齐性假定往往不易得到满足,出现这样的情况时,要注意对试验的安排,以尽量减小对分析结论的干扰。在上述假定条件下,方差分析的数据结构模型可表述成

(5.1.2)方差齐性假定安竟⼦种技⼤学5.1.1⽅差分析的基本思想本质检验同方差正态母体均值是否相等的统计方法数据差异来源随机误差(组内方差,

条件影响(组间方差,):不同水平下数据差异核心逻辑⽅差分析逻辑关系):同一水平下数据数据差异分解组间/组内方差F检验统计推断方差分析的基本思想5.1方差法分析5.1方差法分析根据试验资料,检查方差分析的假定条件是否能够成立;0103提出检验假设;第三步04构造检验统计量;第四步由试验资料计算检验统计量的值;第五步05在给定的显著性水平

下,查出临界值,作出比较判断。第六步0602建立方差分析的数据结构模型;第二步第一步步骤流程章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法单因素方差分析5.1方差法分析5.1方差法分析因素水平合计

均值

…1…

2…………………合计…

均值…

因素指标样品

表5.1.2

单因素试验数据表5.1方差法分析单因素方差分析:问题定义与原理5.1方差法分析假设检验原假设(NullHypothesis)所有处理组的总体均值相等备择假设(AlternativeHypothesis)至少有两个处理组的总体均值存在显著差异H0:μ1=μ2=…=μrH1:⾄少两个μj不相等组间变异由因素引起组内变异随机误差引起总变异观测值与总平均值的差异5.1方差法分析单因素方差分析:平方和计算公式单因素方差分析:平方和计算公式平方和关系总误差平方和等于组间误差平方和与组内误差平方和的和。5.1方差法分析总误差平方和反映了全部观测值与总平均值之间的差异,表示数据的总变异。组间误差平方和反映了各组平均数与总平均数之间的差异,表示因素水平间的差异。组内误差平方和表示各组观察值与该组平均数的变异程度,反映随机误差的影响。F统计量构建平方和分布特性决策规则对于给定的显著性水平α,检验决策如下:单因素方差分析:检验统计量5.1方差法分析5.1方差法分析单因素方差分析:更加简便的公式组内误差平方和组间误差平方和总误差平方和因素

A表5.1.3方差分析表15.1方差法分析样品5.1方差法分析表5.1.4方差分析表2

有时候,由于条件的限制,不同因素水平下的试验次数难以做到一致,或者由于某些试验不成功、发生数据丢失等情况的出现,也会使样本大小不一。这时候,就要进行不等重复的方差分析。这种情况下的处理方法和单因素等重复方差分析的处理类似,不再详述。章节内容§5.1方差分析法

5.1.1单因素方差分析

5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法5.1方差法分析无重复双因素方差分析:问题定义与原理等重复双因素方差分析和不等重复双因素方差分析与无重复双因素方差分析原理一样,本小节只介绍无重复双因素方差分析。5.1方差法分析表5.1.4

无重复双因素试验数据表5.1方差法分析S=S+S+ST2A2B2E2无重复双因素方差分析:模型假设

和单因素方差分析一样,双因素方差分析也是通过对数据误差来源的分解进行的:无重复双因素方差分析:5.1方差法分析总平方和反映了所有观察值与总平均值之间的差异因素A效应平方和反映了行因素不同水平之间的差异因素B效应平方和反映了列因素不同水平之间的差异随机误差平方和反映了无法由A和B解释的随机变异无重复双因素方差分析:化简计算

在无重复双因素方差分析中,每个水平组合只进行一次试验,无法直接计算组内误差

随机误差平方和通过总平方和减去两个因素效应平方和得到随机误差平方和S=S-S-S反映了无法由因素A和B解释的随机变异E2T2A2B25.1方差法分析因素A效应平方和总平方和因素B效应平方和5.1方差法分析表5.1.5无重复双因素试验数据计算表5.1方差法分析表5.1.5无重复双因素试验数据计算表(续)

5.1方差法分析无重复双因素方差分析:检验统计量5.1方差法分析表5.1.6无重复双因素方差分析表多因素方差分析方法类似,就不再赘述了。5.1方差法分析例

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在

对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。(附件1是某一年份一些葡萄酒品尝评分表)。分析附件1中两组评酒员的评价结果有无显著性差异。

要求对两组评酒员评价结果有无差异性进行分析,通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄酒的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下图所示。析案例分析:葡萄酒质量评价5.1方差法分析案例分析:葡萄酒质量评价

图5.1.1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分均值。

图5.1.2红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。5.1方差法分析案例分析:葡萄酒质量评价图5.1.3白葡萄酒样品4差异图(左边)。

图5.1.4白葡萄酒样品23差异图(右边)。针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒分开进行显著性检验。两组评酒员的评价结果可重复方差分析27种葡萄样品酒分别分析结果若具有显著性差异的样品酒占总样品酒的比例高于认定两组评酒员的评价结果具有显著性差异β分析5.1方差法分析5.1方差法分析对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行。1针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值。2解模型建立:在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:5.1方差法分析案例分析:葡萄酒质量评价

由上可知:由于两组评酒员对两类葡萄酒评价结果的方差均不满足齐次性要求,尽管方差分析的条件不满足。但在实际使用过程中,只要在两水平下方差比均在3以内,仍旧可以用SPSS进行方差分析,况且结果是稳健的。解5.1方差法分析水平外观澄清度外观色调香气纯正度香气浓度香气质量口感纯正度口感浓度口感持久性口感质量整体得分表5.1.7因素B葡萄酒10个水平所对应的各个指标解5.1方差法分析假设检验与数据分析对m个样品酒的双因子可重复方差检验后,得出β值,则认为在置信水平β下,两组评酒员的评价结果存在着显著性差异。5.1方差法分析实验结果(部分)(利用统计软件SPSS,得到红、白葡萄酒的各个样品酒的见表5.1.8。完整表格在下一页)5.1方差法分析

5.1方差法分析

从这个例子可以再一次看出,数学建模过程,绝不是数学方法的简单套用,如果上述例子仅仅进行方差分析的话,并不能很好的解决要回答的问题,创造性的引入0-1数据分析才能较好的解决了问题。

案例分析:葡萄酒质量评价5.1方差法分析定义本节回顾

理解方差分析法学习任务课本习题:章末习题5熟练掌握无重复双因素方差分析

熟练掌握单因素方差分析章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法5.2主成分分析法——一种多变量统计分析方法,将有一定相关性的多项指标重新组合成一组

较少个数的互不相关的综合指标,用以解释多变量的方差-协方差结构。5.2主成分分析法主成分分析原理示意主成分Y1历史起源1901年:卡尔·皮尔逊首次对非随机变量

引入主成分分析方法1933年:Hotelling将该方法推广到随机变量情形主要优势有效降低数据维度解决多重共线性问题避免信息重复提高统计结果的可靠性

主成分分析将多个相关变量降维为少数几个不相关变量应用领域数据挖掘地理信息分析分子动力学模拟人口统计添加标题主成分提取的目标主成分分析的数学原理保留信息:主成分要尽可能多地保留原始变量的信息相互独立:主成分之间要保证彼此不相关降维:用较少的主成分代替较多的原始变量线性组合:原始变量的线性组合形成新的综合变量方差最大化:第一个主成分是所有线性组合中方差最大的正交性:后续主成分与已提取的主成分不相关降维:选择前几个方差较大的主成分,减少变量个数1.主成分分析的数学模型5.2主成分分析法添加标题主成分提取的目标主成分分析的数学原理保留信息:主成分要尽可能多地保留原始变量的信息相互独立:主成分之间要保证彼此不相关降维:用较少的主成分代替较多的原始变量线性组合:原始变量的线性组合形成新的综合变量方差最大化:第一个主成分是所有线性组合中方差最大的正交性:后续主成分与已提取的主成分不相关降维:选择前几个方差较大的主成分,减少变量个数1.主成分分析的数学模型5.2主成分分析法5.2主成分分析法

在实际应用时,通常选前几个方差比较大的主成分,虽然会丢失一部分信息,但抓住了主要矛盾进行深入分析,既减少了变量的个数又抓住了主要矛盾,有利于问题的分析和处理。1.主成分分析的数学模型5.2主成分分析法2.从协方差矩阵出发求解主成分方差贡献率计算协方差矩阵法的优势保留原始变量的量纲和数量级信息计算直接,数学表达式简单明了适用于指标间量纲相同或可比的情况第k个主成分的方差贡献率:反映第k个主成分提取原始变量总信息的百分比前k个主成分的累积贡献率:反映前k个主成分解释原始变量信息的百分比2.从协方差矩阵出发求解主成分5.2主成分分析法5.2主成分分析法3.从相关矩阵出发求解主成分

在实际问题中,总体协方差阵

与相关阵

通常是未知的,于是首先需要通过样本数据来估计

,然后再导出样本主成分。

在实际问题中,总体协方差阵∑与相关阵R通常是未知的,于是首先需要通过样本数据来估计∑和R,然后再导出样本主成分。5.2主成分分析法3.从相关矩阵出发求解主成分第一步计算标准化指标的相关系数矩阵R确定主成分的个数0102第二步03第三步04第四步第五步4.主成分分析的主要步骤055.2主成分分析法4.主成分分析的主要步骤第六步0607第七步对确定出的主成分作出符合实际意义的解释利用所确定出的主成分的方差贡献率计算综合评价值,从而对被评价对象进行排名和比较。5.2主成分分析法从协方差矩阵出发适用场景单个指标的方差对研究目的起关键作用,如:优缺点优点缺点从相关系数矩阵出发适用场景需要消除原始变量不同量纲与数量级的影响,如:优缺点优点缺点选择建议:根据具体研究目的,灵活选用合适的方法。实际应用中,可同时使用两种方法进行对比分析,以获取更全面的信息。需要保留原始变量的尺度信息•指标具有相同的测量单位•研究目的侧重于变量的变异程度•保留原始变量的方差信息•处理具有相同量纲的变量•受变量量纲和数量级影响•变量间相关性被夸大•处理不同测量单位的变量•相关性比单个变量方差更重要•指标间存在较强相关性的场景•消除量纲和数量级影响•有效处理相关指标•丢失原始方差信息•标准化过程可能使信息损失•主成分分析方法的选择5.2主成分分析法案例分析:葡萄酒质量评价例

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。利用题目中所给的附件数据,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。本例子的主要目的在于:怎么用主成分分析来处理实际问题5.2主成分分析法主要挑战理化指标种类繁多,处理起来困难较大指标之间存在相关性,需要进行降维处理不同指标的量纲和数量级差异大,难以直接比较需要结合多种方法进行综合评估和分级案例分析:葡萄酒质量评价题目要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。考虑到理化指标种类繁多,处理起来困难较大,可先利用主成分分析对指标进行降维,然后结合其它方法,譬如综合评价,聚类等再进行分级。以红葡萄样品为例,首先利用SPSS软件对其30个理化指标进行主成分分析,并进一步得到主成分向量。然后采用基于层次分析法的模糊综合评价来对理化特性进行分级。最后采用在二维平面上对葡萄的总体理化特性和葡萄酒质量加权聚类对酿酒葡萄进行等级划分。问题分析原始变量主成分5.2主成分分析法组合方法应用第一步:主成分提取利用SPSS软件对30个理化指标进行主成分分析,提取出前9个主成分,累计方差贡献率达到86.247%。第二步:模糊综合评价采用基于层次分析法的模糊综合评价来对理化特性进行分级,将主成分得分进行加权汇总。第三步:聚类分析采用在二维平面上对葡萄的总体理化特性和葡萄酒质量加权聚类对酿酒葡萄进行等级划分。收集酿酒葡萄的理化指标和葡萄酒质量评分数据预处理对数据进行标准化和相关性分析主成分分析提取关键的主成分,降低维度综合评价基于主成分进行葡萄酒分级主成分分析应用流程数据收集案例分析:葡萄酒质量评价5.2主成分分析法为什么需要数据预处理?题中附件中30项评价指标的量纲不同,数值数量级差异很大,难以直接进行运算。因此需要进行标准化处理,获得一个统一的度量供模型评价使用。主要预处理步骤:指标选取:从原始数据中选择了30个理化指标,

只考虑一级指标(将3个果皮颜色看

作一级指标)数据标准化:使用极差标准化方法,将不同量纲

和数量级的指标转化为可比的无量

纲数据数据矩阵构建:将标准化后的数据构造成n×p

的样本矩阵,为后续主成分分

析做准备5.2主成分分析法模型准备与数据预处理安竟⼦种技⼤学5.1.1⽅差分析的基本思想极差标准化公式标准化处理的重要性标准化处理流程原始数据数据清洗标准化样本矩阵主成分分析5.2主成分分析法模型准备与数据预处理消除原始变量不同量纲与数量级的影响使各指标具有可比性避免数值较大的指标对分析结果产生过影响将数据压缩到[0,1],便于后续主成分分析为保证主成分分析结果的科学性和可靠性奠定基础5.2主成分分析法红葡萄主成分提取结果主成分分析降维主成分分析能将许多相关的随机变量压缩成少量的综合指标,同时又能反映原来较多因素的信息。由于用于刻画酿酒葡萄质量的理化指标数量较多,所以先通过主成分分析对指标进行简化。按照主成分分析的理论,若前k个主成分的累计方差贡献率达到了85%,则认为这k个主成分能反映足够的信息由表可见,前9个成分的累计方差贡献率已达86.247%,能够较全面地反映主要理化信息。故取前9个成分为主成分,对应9个不同的特征值。5.2主成分分析法图5.2.1红葡萄理化指标特征值变化曲线绘图为验证主成分提取的结果的正确性,作出红葡萄理化指标特征值的变化曲线如图5.2.1所示。由图5.2.1可以看出:各理化指标的特征值曲线的变化由陡峭逐渐向平稳过渡,亦说明仅用前9个成分就可以替代30个指标对葡萄的总体理化特性进行描述。

案例分析:葡萄酒质量评价为了得到主成分向量,将SPSS得到的成分矩阵中的每列除以相应特征根的平方根,再根据特征向量做出线性组合:5.2主成分分析法5.2主成分分析法定义本节回顾

理解主成分分析法学习任务课本习题:章末习题5学会将主成分分析与其它方法结合

熟练掌握主成分分析的步骤章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法

因子分析方法由Thurston于1931年提出,是主成分分析法的推广和发展,是统计分析中降维的一种方法。

它通过研究众多变量之间相关矩阵和协方差矩阵的内部依赖关系,探求观察数据的基本结构。

它的目的在于将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。5.3因子分析法5.3因子分析法5.3因子分析法基本流程第一步:主因子分析通过研究原始变量的相关系数矩阵的内部结构,导出能控制所有变量的少数几个综合变量,通过综合变量去描述原始的多个变量间的相关关系。往往这几个综合变量是不可观测的,故称其为主因子或公共因子,称这种通过原始变量相关系数矩阵出发的因子分析为R型因子分析。因子分析所获得的反映变量间本质联系、变量与公共因子的关系的全部信息通过导出的因子负荷矩阵体现。第二步:因子解释和命名从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,按公共因子包含变量的特点(即公因子内涵)对因子进行解释和命名。第一步主因子分析第二步因子解释和命名1.因子分析数学模型5.3因子分析法5.3因子分析法为了最终演示发布的良好效果,请言简意赅的阐述观点。根据需要可酌情增减文字,以便准确理解您所传达的信息。文字是您思想的提炼,为了最终演示发布的良好效果。添加正文,文字是您思想的提炼,为了最终演示发布的良好效果。根据需要可酌情增减文字,以便观者准确理解您所传达的信息。(3),

(即互不相关,且都是标准化的变量,假定也是标准化的,但并不相互独立),

(即互不相关,且都是标准化的变量,假定也是标准化的,但并不相互独立)(4)1.因子分析数学模型添加正文,文字是您思想的提炼,为了最终演示发布的良好效果。根据需要可酌情增减文字,以便观者准确理解您所传达的信息。(1)(2)1.因子分析数学模型5.3因子分析法

1.因子分析数学模型5.3因子分析法5.3因子分析法1.因子分析数学模型抽取公共因子的方法主成分分析法主轴因子法极大似然法主因子分析的一个核心任务是从众多的变量中抽取若干个公共因子,从而达到减少变量数目的降维目标因子抽取过程需要确定抽取几个公共因子统计方法操作困难代数方法(1)通过对相关矩阵秩的估计来确定因子抽取个数(2)通过计算公共因子的方差百分比来确定抽取个数(3)使用图解法来确定因子抽取个数

设从相关矩阵出发求解主成分,设有p个变量计算相关矩阵的特征值和特征向量按特征值大小排序主成分变换成因子(1)主成分与原始变量的转换关系

(2)Y到X的转换关系2.因子导出主成分法5.3因子分析法

设从相关矩阵出发求解主成分,设有p个变量计算相关矩阵的特征值和特征向量按特征值大小排序主成分变换成因子(3)后面的p-m个主成分用特殊因子

代替

(4)为了把

转化为合适的公因子,把主成分

变为方差为1的变量2.因子导出主成分法5.3因子分析法因子载荷矩阵的估计设样本相关系数矩阵R的特征值为,其相应的标准正交特征向量为,设,则因子载荷矩阵A的一个估计值为

共同度的估计为:2.因子导出主成分法5.3因子分析法5.3因子分析法2.因子导出主成分法01上面的主成分分解不唯一,十分不利。因子分析的目的不仅是抽取公共因子,更是要知道抽取的每个公共因子的实际意义,以便分析问题。这时利用因子负荷矩阵的不唯一性,通过适当的因子负载矩阵的旋转变换,使旋转后的因子负载矩阵结构简化,具有更鲜明的实际意义或可解释性。结构简化就是使每个变量仅在一个公共因子上有较大的负荷,而在其余公共因子上的负荷较小。这种变换因子负荷的方法称为因子旋转。02由于正交变换是一种旋转变换,如果选取方差最大的旋转变换,即将各个因子旋转到某个位置,使每个变量在旋转后的因子轴上的投影向最大、最小两极分化,从而使每个因子中的高载荷只能出现在少数的变量上,在最后得到的旋转因子载荷矩阵中,每列元素除几个外其余的均趋于0,从而使得因子载荷矩阵结构简化,关系明确。第一步计算标准化指标的相关系数矩阵R0102第二步03第三步04第四步第五步3.因子分析一般步骤055.3因子分析法5.3因子分析法070806第六步第七步第八步3.因子分析一般步骤对公共因子进行重新命名,并解释公共因子的实际含义;对初始因子载荷矩阵进行旋转5.3因子分析法1009第九步第十步第十一步3.因子分析一般步骤据总因子得分估计值

就可以对每个被评价的对象进行排名,从而进行比较11比较方面主成分分析因子分析目的把原始变量变换为一组互不相关的变量(主成分)寻找少数几个潜在的公共因子,解释变量间的相关关系本质一种数学变量变换方法一个统计因子模型重点解释各变量的总方差解释各变量之间的协方差假设条件不需要任何假设需要假设因子模型成立结果唯一性当特征值唯一时,主成分唯一因子不唯一,可旋转得到不同位置主成分分析与因子分析比较5.3因子分析法案例分析:城市环境质量评价例

随着城市经济的快速发展和城市人口的不断增加,人类活动对城市环境质量的影响日显突出。对城市土壤地质环境异常的查证,以及应用查证获得的海量数据资料开展城市环境质量评价,研究人类活动影响下城市地质环境的演变模式,日益成为人们关注的焦点。

按照功能划分,城区一般可分为生活区、工业区、山区、主干道路区及公园绿地区等,分别记为1类区、2类区、……、5类区,不同的区域环境受人类活动影响的程度不同。现对某城市城区土壤地质环境进行调查。为此,将所考察的城区划分为间距1公里左右的网格子区域,按照每平方公里1个采样点对表层土(0~10厘米深度)进行取样、编号,并用GPS记录采样点的位置。应用专门仪器测试分析,获得了每个样本所含的多种化学元素的浓度数据。另一方面,按照2公里的间距在那些远离人群及工业活动的自然区取样,将其作为该城区表层土壤中元素的背景值。

附件列出了采样点的位置、海拔高度及其所属功能区等信息;列出了8种主要重金属元素在采样点处的浓度以及8种主要重金属元素的背景值。

通过数据分析,请分析重金属污染的主要原因。5.3因子分析法5.3因子分析法01由于造成重金属污染的原因可以是人类活动,也可以是自然过程。因此先分析8种重金属元素之间的相关性。02以8种重金属元素浓度为单个因子,利用因子分析法,得到影响土壤整体变异性的3个重金属污染主因子。04分析其分布特征,从而得出人类活动和自然过程对重金属含量的影响程度。03根据主因子的变异特征向量大小,将8种重金属元素进行分类。案例分析:城市环境质量评价分析5.3因子分析法案例分析:城市环境质量评价模型建立检验项目检验值取样足够度的KMO度量0.778Bartlett球形度检验近似卡方905.711自由度28显著性0.000表5.3.1因子分析检验从相关矩阵出发,用主成分分析方法来提取公共因子,由SPSS得:5.3因子分析法图5.3.1因子分析碎石图绘图用SPSS画出因子分析的碎石图,如图5.3.1所示。由图5.3.1可判定选取3个主因子(主成分)做主成分分析和因子分析比较合适。计算因子载荷矩阵,由于主成分的系数阵的特征向量与因子载荷矩阵存在的关系式(5.3.2),利用主成分的系数矩阵和因子载荷初始矩阵,计算出各个特征值所对应的特征向量。5.3因子分析法5.3因子分析法表5.3.2特征向量

建立主因子表达式:

三个主因子的累积变异量:三个主因子可解释总变异量的70.941%44.500%14.377%12.064%案例分析:城市环境质量评价5.3因子分析法5.3因子分析法单击此处输入你的项正文,文字是您思想的提炼,请尽量言简意赅的阐述观点,单击此处输入你的项正文单击此处输入你的项正文,文字是您思想的提炼,请尽量言简意赅的阐述观点,单击此处输入你的项正文0103单击此处输入你的项正文,文字是您思想的提炼,请尽量言简意赅的阐述观点,单击此处输入你的项正文02第一主因子解释了总体变异的44.5%,Cd,Cr,Cu,Ni,Zn和Pb的因子特征值较高,而As和Hg具有相对较低的因子特征值,这一现象说明该城区土壤中As和Hg的分布受到不同于其他重金属的影响因素。第二主因子解释了总体变异的14.377%,且Hg的特征向量比较高第三主因子解释了总体变异的12.064%,只有重金属元素As的特征向量比较高案例分析:城市环境质量评价综上分析,可将8种重金属元素分为三类:第一类:Cd,Cr,Cu,Ni,Zn和Pb;第二类:Hg和Pb;第三类:As。且这三类重金属元素的来源不同。5.3因子分析法运用同样的方法,可分别对5个功能区的土壤重金属浓度进行因子分析,分别分析各个功能区污染源的主要原因。

由于重金属As在五个区域内均没有超过国家二级标准,与土壤背景值相比,相差不大,由此可以分析出该城区内重金属元素As总量的影响与该城区的成土作用密切相关,受当地矿物成分、风化作用等影响。土壤中Pb和Hg的浓度主要是交通工具排放的影响,与此同时大气中Pb和Hg的浓度在全球范围内正在增加,因此交通污染和大气沉降是土壤中Pb和Hg混染的最主要因子。Cd,Cr,Cu,Ni,Zn和Pb浓度均严重超出了背景值而且相关性较高,可知人类活动对这些重金属元素总量的增加作用均很明显。案例分析:城市环境质量评价5.3因子分析法定义本节回顾

理解因子分析法学习任务课本习题:章末习题5熟练掌握因子分析一般步骤

熟练掌握因子导出主成分法章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法

§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法聚类分析:通过数据的特征分析,将具有相似特征的数据(变量)分成不同类别,以便更好地挖掘数

据或变量的内在规律。目的:找出具有相近程度的点或类聚为一类,根据多个观测指标,找出能够度量样本或指标之间相似

程度的统计量,以这些统计量为划分类型的依据。根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统

计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相

似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚

合到一个大的分类单位,直到把所有的样本(或指标)聚合完毕。5.4聚类分析法5.4聚类分析法

对变量(指标)进行聚类,分析指标之间的相似

性关系,将相似的指标归为一类。

对样品进行分类,分析样品之间的相似性关系,

将相似的样品归为一类。5.4聚类分析法距离度量法相似系数法01将一个样本看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。02用相似系数,相似系数的绝对值越接近1,样本的性质越接近,样本性质彼此无关的样本,相似系数的绝对值越接近于零。比较相似的样本归为一类,不怎么相似的样本归为不同的类。1.样本距离与相似性1.样本距离与相似性5.4聚类分析法5.4聚类分析法1.样本距离与相似性5.4聚类分析法1.样本距离与相似性5.4聚类分析法1.样本距离与相似性5.4聚类分析法01像样本点之间可以有不同的定义距离的方法一样,类与类之间的距离也有各种定义。例如可以用两类之间最近样本的距离定义类与类之间的距离,或者用两类之间最远样本的距离定义类与类的距离等等。03系统聚类方法尽管很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。02类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。常用的系统聚类方法有最短距离法、最长距离法、重心距离法、类平均法等等。2.类与类之间的距离与相似性5.4聚类分析法最短距离法类平均法最长距离法重心法2.类与类之间的距离与相似性先对数据进行变换处理,消除量纲对数据的影响;030102各样本点自成一类(即n个样本点一共有n类),计算各样本点之间的距离;第二步距离最近的两个样本点并成一类;第三步04选择并计算类与类之间的距离,并将距离最近的两类合并;第四步重复上面作法直至所有样本点归为所需类数为止;第五步05最后绘制聚类图,按不同的分类标准或不同的分类原则,得出不同的分类结果。第六步06第一步聚类的一般步骤5.4聚类分析法案例分析:拍照赚钱APP任务分析例

“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式众包平台,相比传统市场调查方式大大节省调查成本,而且有效保证了数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。若定价不合理,有的任务就会无人问津,导致商品检查的失败。本例子的主要目的在于:怎么用聚类分析来处理实际问题5.4聚类分析法案例分析:拍照赚钱APP任务分析例

附件一是一个已结束项目的任务数据,包含每个任务的位置、定价和完成情况;附件二是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额越大(任务分配时实际上是根据预订限额所占比例进行配发)。研究附件一中项目的任务定价规律,分析任务未完成的原因。二维码5-32017B题及附件。本例子的主要目的在于:怎么用聚类分析来处理实际问题5.4聚类分析法添加标题通过例子4.1.2进行数据初步处理,绘制了任务完成情况的二维散点图以便观察任务完成情况。从图4.1.4发现未完成任务的分布均在佛山市及东莞市南部地区附近。接着例子4.2.1进一步挖掘数据,建立任务之间的距离矩阵和会员与任务之间的距离矩阵,采用Spearman秩相关检验的方法得结论:任务密度与价格之间存在着负相关关系,任务与市中心的距离和价格之间为较强的正相关关系,而人员密度对价格的影响很小。因此探究任务的价格规律时排除人员密度因素。添加标题添加标题案例分析:拍照赚钱APP任务分析5.4聚类分析法随后通过例子4.3.2采取逐步回归的方法,将影响价格的因素按照影响程度由大到小的顺序进行线性回归。得到回归模型为分析案例分析:拍照赚钱APP任务分析5.4聚类分析法分析

案例分析:拍照赚钱APP任务分析聚类过程5.4聚类分析法

型聚类结果及分析5.4聚类分析法案例分析:拍照赚钱APP任务分析根据上述Q型聚类的方法,得到以下四种类型的任务,如图5.4.1所示。图5.4.1聚类分析结果5.4聚类分析法5.4聚类分析法综上所述,任务未完成的原因是多方面的,需要从供求关系、任务的地理位置、任务价格的设置等多方面分析。

类型一(供求均衡类)供求比率几乎为1,任务密度和用户密度相对平衡,任务地点距离市中心较近,交通较便利。因此该类型的任务完成率是最高的,达到了76%。类型二(位置偏僻类)任务的供求比率小于类型一,可接受任务的人数相对较多,然而任务的完成率却不如类型一。经分析知该类型任务距离市中心是最远的,导致完成任务的难度也较大。从侧面说明任务距离市中心的距离对任务完成程度的影响更大一些。类型三

(密度集中类)任务密度是最大,市中心的距离也较近,该地区交通便利。但此时用户密度与任务密度相差较多,供求比率高,因此任务完成率相对于前两种情况较低一些。类型四(价格过高类)用户密度的数量最多,供求比率较低,距离市中心也较近,但此时的任务完成度却最低。经分析数据可知,该地区任务的价格相对较低,因此导致完成率较低,为54.01%。

案例分析:拍照赚钱APP任务分析

在实际问题中,总体协方差阵

与相关阵

通常是未知的,于是首先需要通过样本数据来估计

,然后再导出样本主成分。

5.4聚类分析法经过对比,发现已完成任务的价格普遍高于未完成任务。说明在其他条件不变的情况下,价格较低会导致任务的完成率较低。到此为止,通过数据特征分析、相关分析、逐步回归和聚类分析等多种方法的综合运用,分析出任务没有完成的原因。

图5.4.2

已完成任务和未完成任务的平均价格往往单一的一种方法并不能很好的解决数学建模中的问题,需要多种方法有机的结合才能较好的解决实际问题。案例分析:拍照赚钱APP任务分析5.4聚类分析法定义本节回顾

理解聚类分析法学习任务课本习题:章末习题5熟练掌握类与类之间的距离与相似性

熟练掌握样本距离与相似性章节内容§5.1方差分析法

5.1.1单因素方差分析5.1.2无重复双因素方差分析§5.2主成分分析法§5.3因子分析法§5.4聚类分析法§5.5应用案例CHAPTER5多元统计建模方法5.5应用案例—小微企业信贷问题小微企业信贷问题简述在企业与银行的借贷过程中,由于中小微企业的体量较小、缺乏充足的资产用于抵押,因此银行通常通过信贷政策、企业的交易单据信息、贷款对象的上下游企业还款能力等因素对借贷进行风险评估,再据此确定企业的信贷策略。银行通常选择高信誉、信贷等级高的企业进行贷款。除了决定是否向企业进行贷款外,银行还需要根据相关企业的风险评估相关信息对准备贷款的企业进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论