《多元统计分析》(第6版)课件 第10、11章:多变量数据的图表示法及应用、多维标度法理论与应用_第1页
《多元统计分析》(第6版)课件 第10、11章:多变量数据的图表示法及应用、多维标度法理论与应用_第2页
《多元统计分析》(第6版)课件 第10、11章:多变量数据的图表示法及应用、多维标度法理论与应用_第3页
《多元统计分析》(第6版)课件 第10、11章:多变量数据的图表示法及应用、多维标度法理论与应用_第4页
《多元统计分析》(第6版)课件 第10、11章:多变量数据的图表示法及应用、多维标度法理论与应用_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多变量数据的图表示法及应用CONTENTS目录01多变量图表示法概述02散点图矩阵03脸谱图04雷达图与星图05星座图及其他多变量图表示法06多变量图表示法的综合应用与总结多变量图表示法概述01多变量图表示法的意义与学习目标多变量图表示法的重要性

图形是探索性研究的重要工具,能直观反映资料分布及变量间相关关系,将图形直观简洁的优点延伸到多变量研究中。理解作图思想

学习目标之一是理解各种多变量图表示法的作图思想,这是掌握和应用这些方法的基础。了解作图方法

了解各种多变量图表示法的作图方法,明确不同方法的绘制流程和要点。掌握软件作图

能够利用软件对多元资料作图,如SPSS、R语言、Excel等,实现数据的可视化呈现。数据探索分析

能够利用所作的多变量图形对数据进行探索性分析,揭示数据特征和规律。2026/5/16多变量图表示法的发展与特点发展背景20世纪70年代以来,统计学家研究发明了很多多维变量的图表示方法,以应对多变量数据作图的需求。与单双变量图形的差异变量较少时可用直方图等方法,3个变量作三维散点图已不方便,多于3个变量则需多变量图表示法,它能展示多个变量间关系,而单双变量图形主要反映较少变量间关系。直观简洁的特点多变量图表示法借助图形描述多元资料统计特性,具有直观、简洁的优点,能让研究者对资料有较深印象,帮助进行探索性分析。灵活性不同于其他统计方法,大部分图表示法无非常严格的画图方法,研究者可根据习惯设定规则,方便揭示资料间联系。2026/5/16散点图矩阵02散点图矩阵的基本思想

图形方阵结构散点图矩阵是一个大的图形方阵,非主对角元素位置为对应行变量与列变量的散点图,主对角元素位置为各变量名。

核心作用可清晰展示多个变量两两之间的相关关系,是直观、简单、易理解的多变量可视化工具,受到实际工作者喜爱,多数统计软件已支持该功能。

局限性并非真正意义上的多变量作图方法,仅研究两两变量关系,不能直接反映多个变量间关系,借助其对资料分类较困难。2026/5/16数据准备以3.7.1节中15个亚洲国家和地区的经济水平及人口状况数据为例,打开SPSS原始数据文件“43.7.1Asia.sav”。菜单操作步骤依次点选Graphs→LegacyDialogs→Scatter/Dot,进入Scatter/Dot对话框,选中MatrixScatter对应的图标,点击Define按钮,进入ScatterplotMatrix对话框。参数设置将左边框中的变量依次选入MatrixVariables下方的框中,点击Ok运行,即可得到散点图矩阵。SPSS软件实现散点图矩阵案例散点图矩阵的分析与解读

变量关系分析粗死亡率与其余5个变量相关关系均不明显;平均预期寿命与粗出生率和城镇人口比重有明显线性相关关系;人均GDP与城镇人口比重及平均预期寿命存在某种曲线关系。

标记变量应用可将15个国家和地区的主要宗教信仰保存为新变量“religio”添加到原数据中,在ScatterplotMatrix对话框中将其选入SetMarkersby框,使不同宗教信仰国家以不同颜色显示,便于更详细分析。2026/5/16脸谱图03脸谱图的作图思想与发展提出背景与起源脸谱图由美国统计学家H.切尔诺夫于1970年首次提出,最初用于聚类分析,后引发广泛关注并被改进,部分统计软件已收入该方法。基本作图思想将观测的多个变量(指标)用脸的不同部位形状或大小表示,一个样品对应一张脸谱,通过面部特征直观展示多元数据,便于归类与比较。变量与面部特征对应关系按切尔诺夫1973年画法,15个指标对应特定面部特征,如脸的范围、形状、鼻子长度、嘴的位置等;变量不足时部分特征自动固定,变量过多则可忽略或采用改进方法(如取消对称性引入更多特征,最多可用36个变量)。2026/5/16数据准备以交通运输业30家上市公司10项财务指标数据(含X1-X10,如西部创业X1=0.0600、X2=2.7591等)为例,数据来自SPSS文件,需转换为数据框并将公司名称设为行名。R语言实现步骤1.安装并加载aplpack包(含faces()函数)及foreign包;2.读取SPSS数据文件;3.转换数据格式并处理行名;4.使用faces()函数绘制,参数如face.type=0(无色)、scale=TRUE(数据标准化)等。函数参数说明faces()函数关键参数:xy为数据矩阵,face.type控制颜色(0无、1彩色、2彩色圣诞老人),nrow.plot/ncol.plot设定行列脸谱数,fill控制变量不足时是否固定特征,scale控制是否标准化数据。R语言绘制脸谱图案例脸谱图的分析与注意事项

经营状况差异分析从脸的高度和宽度(公司收益)看,上海机场(X1=1.9100)和厦门空港(X1=1.3794)处于较高水平,长江投资(X1=-0.3000)和西部创业(X1=0.0600)明显较低;总体经营状况较好的有上海机场、厦门空港和外运发展。

变量次序的影响脸谱形状受变量次序影响大,若10个指标次序改变,得到的脸谱图会有很大不同,需注意变量排序对图形解读的干扰。

分析方法的局限性与建议根据脸谱图归类具有主观性,不同人关注面部部位不同可能得出不同结论;实际分析中必须与聚类分析、相关分析等定量方法结合,才能得到合理可信的结论。2026/5/16雷达图与星图04雷达图的标准画法与Excel实现01雷达图的标准作图步骤先画一个圆,将圆p等分并由圆心连接各分点形成p条坐标轴,根据变量取值对坐标轴作刻度;每个样本在p个轴上确定坐标,依次连接形成p边形,通过多边形形状分析样本相似性。02Excel制作雷达图示例(北京和天津消费支出)数据含食品烟酒、衣着等8项支出(北京居住支出18604.8元,天津8175.4元);操作步骤:插入→图表→雷达图→带数据标记的雷达图,可调整标记大小、颜色及线段样式。03雷达图的应用特点适用于样本数目较少时的多指标对比,直观展示样本间差异;样本数较多时易重叠,需单独作图,Excel提供图形再编辑功能以优化显示效果。2026/5/16星图的特点与R语言实现

星图与雷达图的异同形状相似,星图可一次生成多个观测的独立图形(每个样本对应一张星图);星图受变量排列次序影响更小,主观判断干扰较脸谱图弱,更适合多样本归类分析。

R语言stars()函数参数解析x为数据矩阵/数据框(行代表样本);full=TRUE生成圆形星图;scale=TRUE默认标准化数据;labels为样本名称;flip.labels=FALSE避免变量名重叠,输出更整齐。

星图生成与消费结构分析案例以31个地区城镇居民消费支出数据为例,调用stars()函数生成星图;半径从右起水平方向对应第一个变量,逆时针依次排列;北京、上海、浙江消费水平较高,河北等10地区消费结构相似。2026/5/16星座图及其他多变量图表示法05星座图的基本原理与作图方法

星座图的核心思想将所有样本点映射到一个半圆内,如同天文学中星座的图像,通过样本点在半圆内的位置直观分析其相关性,位置接近的样本点具有较高相似性。

数据变换步骤将资料(X1i,X2i,…,Xfii)通过构造函数fj(X)变换,使其取值范围落到(0,π)之间,实现数据规格化处理。

权重赋予规则对每一变量赋予权重wj,满足权重总和为1。权数可采用随机数方法产生,或取等权重(如wj=1/fi)。

坐标计算方法以圆点O为圆心,w1为半径画半圆,弧度B11处记为O1;再以O1为圆心,w2为半径画半圆,弧度B12处记为O2,依此类推,Ofi点即为样本点位置,通过路径计算确定坐标。2026/5/16案例数据背景沿用交通运输业30家上市公司的10项财务指标数据(X1-X10),包括西部创业、铁龙物流、上海机场等公司的经济效益及资本构成指标。星座图绘制结果通过数据规格化、权重赋予及坐标计算,将30家公司样本点绘制于半圆内,形成星座图(见图10-7),样本点位置直观反映公司间的相似程度。样本归类结果根据星座图中各公司的接近程度,可将30家公司分为4类:上海机场、外运发展、厦门空港为一类;长江投资单独成类;铁龙物流、大秦铁路等10家公司为一类;其余公司为一类。与其他图示法的差异此归类结果与脸谱图等方法存在区别,如脸谱图中白云机场与大秦铁路归为一类,而星座图中白云机场属于第三类,提示实际应用中需多种方法综合使用。星座图案例分析与归类应用其他多变量图表示法简介

01塑像图通过塑像的不同部位(如高度、宽度、形状)表示观测的不同指标取值,以立体形象展示多变量特征,适用于需要突出变量间层次关系的场景。

02轮廓图将每个观测的多个变量值在同一坐标系中用折线连接,形成轮廓曲线,通过曲线形状的相似性比较样本差异,常用于时间序列或多指标趋势分析。

03树形图以树状结构展示变量间的层次关系,每个分支代表一个变量,分支的长度或粗细表示变量取值大小,适用于具有层级结构的多变量数据可视化。

04方法选择建议多变量图表示法需结合具体问题选择,如探索变量间相关关系可选用散点图矩阵,样本分类可结合脸谱图、雷达图与星座图,同时需与聚类分析、相关分析等定量方法结合,以提高结论可信度。2026/5/16多变量图表示法的综合应用与总结06多变量图表示法的优势与局限

直观形象呈现数据特征通过图形化方式将多维数据转化为可视图像,如脸谱图用面部特征直观反映变量差异,雷达图以多边形形状展示样本轮廓,帮助研究者快速建立数据印象。

辅助探索性数据分析可初步揭示变量间相关关系(如散点图矩阵展示两两变量相关性)、样本聚类趋势(如星座图中样本点的位置接近程度),为后续定量分析提供方向。

结论需结合定量分析验证图示法仅提供直观印象,结论主观性较强,如脸谱图归类受变量次序和观察者关注点影响,需与聚类分析、相关分析等定量方法结合,确保结论可信。2026/5/16实际应用中的方法选择与结合依据数据特点选择方法变量数量较少(≤5个)可优先用散点图矩阵;样本对比分析常用雷达图;需形象化记忆样本特征时选择脸谱图;大样本聚类分析可尝试星座图。多方法综合验证结论不同图示法可能得出差异结论,如交通运输业上市公司分类中,脸谱图与星座图归类结果不同,建议同时使用多种方法交叉验证,提高分析可靠性。结合专业背景与软件工具分析时需结合研究领域知识(如财务指标分析关注收益与风险变量),并利用SPSS、R等软件实现作图(如R的faces()函数画脸谱图,Excel画雷达图)。2026/5/16思考与练习:多变量图示法实践桔梗科植物数据特征概览包含6个种的8个性状数据,变量涵盖茎缠绕性、株高、叶序等分类学特征,样品号1-6对应党参、桔梗、轮叶沙参等物种,数据类型含数值与分类变量。作图任务与方法提示1.散点图矩阵:分析株高与子房室数等数值变量的相关性;2.脸谱图:用R的aplpack包将8个变量映射为面部特征;3.雷达图:在Excel中对比不同物种的性状轮廓;4.星座图:通过数据变换与权重设置绘制样本点分布。分析要点与结论要求需观察变量间关系(如株高与茎缠绕性是否相关)、物种聚类情况(如轮叶沙参与石沙参是否相似),并结合图示结果与植物分类学知识撰写分析报告,指出方法局限性。2026/5/16THEEND谢谢观看多维标度法理论与应用CONTENTS目录01多维标度法概述02多维标度法模型与距离阵03古典解的计算与优良性04非度量法与相似系数矩阵CONTENTS目录05多维标度法的步骤与实现06案例分析07总结与思考多维标度法概述01多维标度法的核心概念多维标度法(MDS)是通过一系列技巧,使研究者识别出受测者对样品进行评价的关键维数的统计方法。其核心在于通过样品间的相似性或偏好判断,推导出构成评价结论的内在维数。多维标度法的核心作用多维标度法可确定受测者评价样品时使用的维数、维数数量、各维数相对重要性,以及帮助获得样品关联的感性认识。多维标度法的应用场景广泛应用于市场研究(识别顾客对产品/服务/公司评价的关键维数)、自然属性比较(如食品口味、气味)、政治候选人或事件了解、不同群体文化差异评估等领域。多维标度法的定义与作用学习目标

模型理解目标深入理解多维标度法的模型原理,包括两因子和三因子的度量和非度量多维标度模型等。

求解方法掌握目标了解多维标度法求解的古典法和非度量法,掌握古典解的计算步骤及非度量法中的Shepard-Kruskal算法等。

空间图维数解释目标能够解释维数在空间图中的表现,理解低维拟合构造点如何反映样品间的关系。

软件模块应用目标掌握实现多维标度法的软件模块,如SPSS软件中的Multidimensionalscaling模块的操作与结果解读。2026/5/16多维标度法模型与距离阵02多维标度模型分类

按因子数量划分包括两因子和三因子模型,用于描述样品在不同维度空间中的分布特征,通过多因子组合揭示数据内在结构。

按度量性质划分分为度量模型和非度量模型。度量模型基于定量数据的实际距离值构建;非度量模型仅利用数据的次序关系(如相似性排名)进行分析。

数据形式与个体差异模型数据为样品间的对称或不对称方阵(相似性数据)。在心理分析中,每个矩阵对应一个主体,对不同主体拟合不同参数的模型称为个体差异模型。2026/5/16距离阵的定义一个n×n矩阵D=(dij),若满足Dᵀ=D(对称)、dii=0(对角线元素为0)、dij≥0(i≠j,非负),则称为距离阵。距离阵的特性定义的距离不一定满足通常距离的三角不等式,拓展了距离的概念,使其适用于更多实际场景中的数据描述。拓展意义为后续欧氏型距离阵的讨论奠定基础,通过放宽传统距离的严格条件,使多维标度法能处理更广泛的相似性或距离数据。距离阵的定义与拓展欧氏型距离阵

01欧氏型距离阵的定义一个距离阵D=(dij)称作欧氏型的,若存在正整数f及f维空间的n个点x₁,x₂,…,xₙ,使得d²ij=(xᵢ-xⱼ)ᵀ(xᵢ-xⱼ)(i,j=1,2,…,n)。

02判断欧氏型的定理设D是n×n距离阵,B由特定方式定义(bij=aij-i●-●j+●●),则D是欧氏型的当且仅当B≥0(B为非负定矩阵)。

03矩阵B的构造与性质B是X中心化后的内积阵,满足B=(HX)(HX)ᵀ≥0(HX为数据中心化矩阵)。若B≥0,其特征根非负,可通过特征分解构造欧氏空间中的点坐标。2026/5/16古典解的计算与优良性03构造矩阵A与B由距离阵D=(dij)构造矩阵A,其中aij=-0.5dij²;再通过A计算矩阵B,bij=aij-i●-●j+●●(i●、●j、●●分别为行平均、列平均、总平均)。求解B的特征根与特征向量计算B的特征根λ1≥λ2≥…≥λn,若存在负特征根则D非欧氏型。选取正特征根对应的正交化特征向量X(1),X(2),…,X(k),满足X(i)ᵀX(i)=λi。确定维数k与拟合构造点依据累积贡献率a1,k(特征根占比)和a2,k(平方和占比)确定k,通常取k=2。令X=(X(1),X(2),…,X(k)),其行向量即为古典解的拟合构造点。古典解的求解步骤主坐标的定义与优良性主坐标的定义

设B的正特征根为λ1≥…≥λf,对应特征向量V(1),…,V(f)且V(i)ᵀV(i)=λi,称V1,…,Vn(Vk=(V(1),…,V(k))ᵀ)为X的k维主坐标。主坐标与主成分的关系

定理11.3表明:X的k维主坐标是将X中心化后n个样品的前k个主成分值,即HXTk=Vk(HX为中心化数据,Tk为前k个主成分载荷矩阵)。古典解的优良性

在所有k维构造点XΓ1(Γ1为正交阵)中,取Γ1=Tk时,拟合误差φ=Σ(Λdij²-dij²)最小,故k维主坐标是最优低维拟合构造点。2026/5/16非度量法与相似系数矩阵04非度量模型与Shepard-Kruskal算法非度量模型的核心思想非度量模型不要求拟合距离与原始数据严格数值对应,仅利用数据的秩次信息,通过未知单调增函数f建立拟合距离与原始数据的关系,即dij=f(Λdij+eij),重点关注距离排序的一致性。Shepard-Kruskal算法步骤1.排序原始相似系数矩阵非对角元素;2.构造k维拟合构造点,计算拟合距离Λdij;3.对{dij}进行最小二乘单调回归,确定{d}使s²(Λ)=Σ(Λdij-d)²最小;4.计算压力指数sk,迭代优化至sk≤5%(优)或≤10%(可接受)。压力指数与模型评估2026/5/16相似系数矩阵相似系数矩阵的定义相似系数矩阵C=(cij)满足对称性(Cᵀ=C),且cij≤cii(i,j=1,2,…,n),反映样品间的相似程度,不要求cii=1,常见于聚类分析等场景。相似系数与距离阵的转换通过公式dij=√(cii+cjj-2cij)将相似系数矩阵C转换为距离阵D,其中dij≥0、dii=0且dij=dji,确保D符合距离阵定义。欧氏型距离阵的判定定理定理11.2:若相似系数矩阵C非负定(C≥0),则转换后的距离阵D为欧氏型。证明基于B=HAH≥0(H为中心化矩阵),由定理11.1可推得D满足欧氏距离条件。2026/5/16多维标度法的步骤与实现05多维标度法的实施步骤确定研究目的明确通过多维标度法希望解决的问题,如识别评价样品的关键维数、分析样品间的相似性或偏好关系等。选择样品与变量选取需要比较分析的样品,并确定原始变量,或直接获取样品间的距离矩阵、相似矩阵。选择求解方法根据数据类型和研究需求,选择古典法(基于主成分分析思想)或非度量法(如Shepard-Kruskal算法)等求解方法,分析距离矩阵或相似矩阵。确定维数通过特征根的累积贡献率等指标选择适当的维数,通常取k=1、2或3,以在低维空间中较好地呈现样品关系。结果解释与模型检验2026/5/16SPSS软件实现流程

数据输入与准备打开SPSS数据文件,确保数据格式正确,若输入原始变量需准备好样品的相关数据;若输入距离阵或相似阵,需按矩阵形式组织数据。

进入多维标度法模块依次点击Analyze→Scale→MultidimensionalScaling(ALSCAL),进入多维标度法的主对话框。

变量选择与设置将需要分析的变量选入变量框;在Distances选项中,若输入的是距离阵选择“Dataaredistances”,若输入原始变量则选择“Createdistancesfromdata”,并设置距离计算方式(如欧氏距离)及变量标准化等。

模型与选项设置点击Model按钮,设置测量水平(如Interval、Ratio、Ordinal)、标度模型(如欧氏距离)、维数(通常默认2维)等;点击Options按钮,选择需要输出的结果(如空间匹配图、拟合散点图等)。

运行与结果查看完成设置后点击OK运行,SPSS将输出迭代历史、Stress和RSQ值、样品坐标、空间定位图及拟合散点图等结果,据此分析模型拟合效果和样品关系。2026/5/16案例分析06城市距离定位案例英国12个城市案例基于英国12个城市公路距离数据,计算B矩阵特征根,λ1=394473、λ2=63634,累积贡献率a1,2=92.6%、a2,2=99.8%,取k=2。通过前两特征向量得到二维坐标,绘制空间图实现城市位置还原。我国10个城市案例使用我国10个城市距离数据,SPSS中选比率尺度、欧氏距离模型,迭代3次后Stress=0.06259(<10%)、RSQ=0.98505(≈1)。二维坐标空间匹配图与实际地图相对位置吻合,体现正交变换不变性。模型拟合检验方法通过Stress值(越小越好,<5%优秀)和RSQ值(越大越好,接近1最佳)评估拟合效果,结合欧氏距离线性拟合散点图,点分布在y=x附近说明模型拟合理想。2026/5/16亚洲国家和地区经济水平分析案例数据处理与距离阵构建选取亚洲15个国家和地区的6个经济人口变量,SPSS中选择“从数据创建距离”,测量水平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论