《多元统计分析》(第6版)课件 第9、10章:定性数据的建模分析:对数线性模型与Logistic回归、多变量数据的图表示法及应用_第1页
《多元统计分析》(第6版)课件 第9、10章:定性数据的建模分析:对数线性模型与Logistic回归、多变量数据的图表示法及应用_第2页
《多元统计分析》(第6版)课件 第9、10章:定性数据的建模分析:对数线性模型与Logistic回归、多变量数据的图表示法及应用_第3页
《多元统计分析》(第6版)课件 第9、10章:定性数据的建模分析:对数线性模型与Logistic回归、多变量数据的图表示法及应用_第4页
《多元统计分析》(第6版)课件 第9、10章:定性数据的建模分析:对数线性模型与Logistic回归、多变量数据的图表示法及应用_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定性数据的建模分析:对数线性模型与Logistic回归CONTENTS目录01引言与学习目标02对数线性模型基础03对数线性模型的SPSS实现与案例分析04Logistic回归模型基础CONTENTS目录05分组数据的Logistic回归模型06未分组数据的Logistic回归模型07Logistic回归的方法步骤与扩展08总结与思考引言与学习目标01定性数据的特点定性数据是离散型数据,常以列联表形式呈现,描述分类变量间的关系,如收入水平与产品满意度的交叉分组数据。列联表分析的局限性列联表分析无法系统评价变量间联系,不能估计交互作用大小,难以深入揭示变量间复杂关系。建模方法的必要性对数线性模型可将方差分析方法应用于列联表,分析变量间交互效应;Logistic回归适用于因变量为二分类的情况,克服判别分析的严格假设,二者为定性数据建模提供有效工具。本章核心价值通过学习对数线性模型和Logistic回归,掌握定性数据的建模分析方法,提升对离散型数据关系的描述、解释和预测能力,为实际问题分析提供支持。定性数据与建模需求本章学习目标01掌握对数线性模型的基本原理理解对数线性模型将概率取对数后分解为因素主效应和交互效应的原理,以及模型饱和与非饱和的判定条件。02掌握对数线性模型的建模方法学会基于列联表数据,通过参数估计和检验,分析变量间主效应和交互效应,如利用SPSS软件实现模型分析。03掌握Logistic回归分析结果的解释能够解释Logistic回归中的系数含义、优势比率,以及模型拟合优度检验结果,如通过wald统计量判断自变量显著性。04理解判别分析与Logistic回归的优缺点判别分析依赖多元正态性和等协方差阵假设,Logistic回归无此限制且结果稳定,对自变量类型要求宽松,更具实用性。05掌握通过SPSS软件实现Logistic回归熟练操作SPSS软件进行数据准备、模型参数设置、结果输出与解读,如完成分组或未分组数据的Logistic回归分析。2026/5/16对数线性模型基础02对数线性模型的基本原理

对数线性模型的定义对数线性模型是用于离散型数据或交叉列联表数据的统计分析工具,可将方差分析和线性模型方法应用于交叉列联表,以描述和分析定性变量间的关系。

模型的核心作用弥补列联表分析的不足,能系统评价变量间联系,估计变量间交互作用大小,是处理定性变量关系问题的有效方法。

概率对数变换与分解思想先将概率取对数,再进行分解处理,通过建立对数线性关系,将复杂的定性变量关系转化为可分析的线性模型结构。2026/5/162×2维频数表与概率表频数表展示交叉分类下的观测频数,如A因素与B因素不同水平组合的n11、n12等;概率表则对应各组合的概率πij,边际概率πi·、π·j及总和为1。对数线性模型公式推导通过对概率取对数并分解,得到模型ηij=Ai+Bj+(AB)ij,其中Ai对应lnπi·,Bj对应lnπ·j,(AB)ij对应ln(πij/(πi·π·j))。与双因素方差分析模型类比模型结构类似有交互效应的双因素方差分析,αi、βj为A、B因素的主效应,γij为交互效应,满足各效应和为零的约束条件。2×2维交叉列联表与模型结构模型参数估计与效应判断

参数估计方法以交叉列联表频率为概率的无偏估计,将频率取对数后代入模型,通过公式计算交互效应γij的估计值,调整i、j取值上限可适用于非双水平因素。

交互效应γij的判断γij>0表明两因素对应水平存在正效应,γij<0为负效应;γij=0时因素相互独立。如例9.1中,高收入与满意的γij=-0.260为负效应。

饱和模型与非饱和模型若所有γij=0,模型为非饱和模型(因素独立);否则为饱和模型(因素有交互效应)。饱和模型中实际频数与期望频数相同,残差为0。2026/5/16对数线性模型的SPSS实现与案例分析03数据准备与SPSS操作步骤

数据输入格式以3×2维交叉列联表(收入情况:高/中/低;满意情况:满意/不满意)为例,数据需按“频数-收入情况-满意情况”三列输入SPSS,如收入1(高)、满意1对应频数53,收入1、满意2对应频数38等,共6行数据。

激活频数操作通过Data→WeightCases菜单,选中“Weightcasesby”,将“频数”变量选入FrequencyVariable框,点击OK完成激活,确保分析时以频数为权重,否则结果会出错。

Loglinear模块参数设置依次选择Analyze→Loglinear→ModelSelection,将“收入情况”“满意情况”选入Factor(s)框,分别定义范围(收入1-3,满意1-2);“频数”选入CellWeights框;Options中勾选SaturatedModel的ParameterEstimates,点击OK执行分析。2026/5/16输出结果解读(一):模型信息与拟合优度

模型基本信息输出显示有效样本量792,分为6类(3×2交叉),收入情况3水平、满意情况2水平,分析效应包含主效应及交互效应(收入情况※满意情况)。

收敛情况系统经1次迭代后达到收敛,相邻两次估计之差≤0.001,表明模型迭代收敛速度快,结果稳定。

拟合优度检验饱和模型下,观测频数与期望频数完全一致(如高收入满意组均为53.5),残差及标准化残差均为0;似然比卡方与Pearson卡方值均为0,自由度0,提示模型完全拟合数据。2026/5/16输出结果解读(二):效应检验与参数估计K-way效应检验

K-way及Higher-orderEffects检验显示,1维及以上效应(主效应+交互效应)的似然比卡方=662.843(Sig=0.000),2维交互效应卡方=22.087(Sig=0.000),均拒绝原假设,表明主效应与交互效应显著。参数估计结果

收入情况主效应:高收入=-0.683,中收入=0.883,低收入=-0.200;满意情况主效应:满意=0.425,不满意=-0.425;交互效应:高收入满意=-0.260,中收入满意=0.269,低收入满意=-0.009。效应方向与大小判断

参数值为正表示正效应,负为负效应。如中收入满意交互效应为正(0.269),表明中等收入对满意度有促进作用;高收入满意为负(-0.260),表明高收入对满意度有抑制作用。2026/5/16案例分析结论顾客满意度整体偏向满意(β满意=0.425);收入阶层满意度差异显著,中收入最高(α中收入=0.883),高收入最低(α高收入=-0.683);交互效应显示中等收入对满意度有正效应,高、低收入有负效应,企业核心消费群体为中等收入者。模型应用价值对数线性模型可系统分析定性变量间的主效应与交互效应,克服列联表分析无法量化交互作用的局限,适用于市场调研、社会调查等领域,帮助识别关键影响因素及群体差异。实践注意事项应用时需确保数据格式正确并激活频数,根据研究目的选择饱和或非饱和模型;通过参数估计值的正负与大小可直观判断效应方向及强度,为决策提供量化依据。案例结论与应用启示Logistic回归模型基础04Logit变换与模型构建直接处理概率的局限性因变量为二元变量时,概率π的取值范围为[0,1],难以用线性模型描述其与自变量的关系;且当π接近0或1时,微小变化不易被普通方法捕捉。Logit变换的定义引入Logit变换Q=ln(π/(1-π)),将π从[0,1]区间映射到(-∞,+∞),解决了线性模型的取值限制问题,对π在0或1附近的微小变化敏感。Logistic线性回归模型表达式假设Q与自变量线性相关,即ln(π/(1-π))=β₀+β₁x₁+...+βₖxₖ,反变换后得到Logistic回归模型π=1/(1+e^-(β₀+β₁x₁+...+βₖxₖ)),克服了线性模型的局限。2026/5/16假设条件对比判别分析依赖严格的多元正态性和等协方差阵假设,实际中常难以满足;Logistic回归无此假设,结果在假设不满足时仍稳定。适用场景差异判别分析适用于被解释变量为多组的情况;Logistic回归在被解释变量为两组时更受欢迎,且对自变量类型(度量/非度量)无限制。优缺点总结Logistic回归优势:无需严格假设、结果稳定、类似回归分析易解释、可包含非线性效果和诊断;判别分析在满足假设时分类精度可能较高,但假设限制严格。Logistic回归与判别分析的比较模型估计与拟合度评价

极大似然估计法通过迭代寻找使似然函数最大化的参数估计值,不同于多元回归的最小二乘法,适用于Logistic变换的非线性特征。

拟合度指标-2LL用-2倍似然比值的自然对数(-2LL)衡量模型拟合度,值越小拟合越好;完全拟合时-2LL=0,实际中通过比较不同模型的-2LL值判断改进效果。

Wald统计量的作用用于检验回归系数的显著性,Wald值越大(sig.值越小),系数越显著;不同于多元回归的t检验,专门适用于Logistic回归的参数检验。2026/5/16分组数据的Logistic回归模型05分组数据模型的改进与Logit变换

01回归模型的两方面改进针对0-1型因变量问题,回归函数改用限制在[0,1]区间内的连续曲线,如Logistic函数;因变量用yi等于1的比例代替本身作为因变量,因E(yi)=πi是自变量为xi时yi等于1的比例。

02Logistic函数形式与图形Logistic函数形式为特定表达式,其图形呈S形。图9-1和图9-2分别展示了不同Logistic函数的图形,体现其在[0,1]区间内单调递增的特征。

03购房意向数据的Logit变换计算以例9-2购房意向数据为例,计算实际购房比例πi=mi/ni,再进行Logit变换π9i=ln(πi/(1-πi))。如序号1,年家庭收入1.5(10万元),签订意向书人数25,实际购房人数8,πi=0.32,π9i=-0.75377。2026/5/16建立线性回归模型对例9-2数据,令π9i=β0+β1xi+εi,构建普通一元线性回归模型。以Logit变换后的π9i为因变量,年家庭收入x为自变量。经验回归方程与检验结果得到经验回归方程:9=-0.886+0.156x,判定系数r²=0.9243,显著性检验P值≈0,模型高度显著,表明年家庭收入与Logit变换后的购房比例线性关系强。购房比例预测应用利用模型预测,当x0=8(年家庭收入80万元)时,代入方程得π9=-0.886+0.156×8=0.362,再还原为购房比例,预计实际购房比例为59%,即签订意向书的该收入家庭购房概率为59%。普通最小二乘估计与结果解读加权最小二乘估计与异方差处理分组数据模型的异方差性分组数据的Logistic回归模型存在异方差性,式(9.7)的回归模型不是等方差的,当ni较大时,πi的近似方差为特定形式,需采用加权最小二乘估计处理。加权最小二乘估计的权数选择选取权数wi=niπi(1-πi),其中ni为签订意向书人数,πi为实际购房比例。如例9-2中序号1,wi=25×0.32×(1-0.32)=5.440,通过权数调整消除异方差影响。SPSS加权回归操作及结果对比在SPSS中依次选择Analyze→Regression→Linear,将逻辑变换、年家庭收入、权重分别选入对应框。输出结果显示,加权后模型R²=0.881,调整后R²=0.864,对x0=8预测购房比例为58.5%,与未加权结果接近,提升了模型精度。2026/5/16未分组数据的Logistic回归模型06未分组数据模型的极大似然估计

似然函数构建设y为0-1型变量,n组观测数据为(xi1,xi2,…,xk;yi),yi概率函数为P(yi)=πi^yi(1-πi)^(1-yi),似然函数L=∏[πi^yi(1-πi)^(1-yi)]。

对数似然函数对似然函数取自然对数得lnL=∑[yilnπi+(1-yi)ln(1-πi)],代入Logistic函数πi=1/[1+exp(-(β0+β1xi1+…+βkxik))],转化为含参数的函数。

极大似然估计求解通过数值计算迭代寻找使lnL最大化的参数估计值,SPSS软件内置该求解功能,无需手动计算复杂偏导数方程组。2026/5/16案例分析:公共交通方式选择

变量设置因变量y:1=乘坐公交车,0=骑自行车;自变量包括连续型变量年龄(岁)、周收入(元),分类变量性别(1=男性,0=女性)。

数据概况调查对象为工薪族群体,共28组观测数据,示例数据:序号1(女,18岁,850元,y=0)、序号7(女,36岁,1500元,y=1)等。

建模目的分析年龄、周收入、性别对公共交通方式选择的影响,建立Logistic回归模型预测乘坐公交车的概率。2026/5/16SPSS操作与结果解读(一):变量筛选SPSS操作流程依次选择Analyze→Regression→BinaryLogistic,将y选入Dependent框,性别、年龄、周收入选入Covariates框,点击OK运行。初始模型Wald检验周收入Wald值=0.661,sig=0.416(>0.05),不显著;性别Wald=4.669(sig=0.031)、年龄Wald=2.486(sig=0.115),考虑剔除周收入。变量剔除过程移除周收入后重新建模,性别和年龄的显著性提高,模型更简洁,符合变量筛选原则。2026/5/16SPSS操作与结果解读(二):最终模型与解释

最终模型输出性别B=-2.224(Wald=4.506,sig=0.034),年龄B=0.102(Wald=4.986,sig=0.026),常数项B=-2.629。

回归系数与优势比解释单击此处添加项正文

结论最终模型显示性别和年龄显著影响交通方式选择:女性更倾向乘公交,年龄越大乘公交比例越高。2026/5/16Logistic回归的方法步骤与扩展07Logistic回归的建模步骤变量选择因变量为分组变量(限于两组),自变量可选择定量或定性变量(需编码),无需满足各组协方差阵相等假定,数据稳健性较强。数据拆分将样品分为两部分:一部分用于估计Logistic函数(分析样品),另一部分用于检验模型判别精度(保留样品)。模型假定与参数估计假定自变量间无高度相关,因变量发生概率模型为Logistic模型,采用极大似然估计法估计参数,通过Wald统计量检验参数显著性。拟合评估与结果解释通过似然比值(-2LL)评估模型拟合度,依据参数的显著性、符号及大小解释自变量对因变量的影响,如正系数对应优势比率增大。模型验证利用保留样品验证模型判别精度,结合逻辑框图(图9-3)展示从变量选择到模型验证的完整流程。2026/5/16分组数据的特殊处理与权函数选择

Logit变换修正公式当分组数据中存在mi=0或mi=ni(即πi=0或1)时,采用修正公式计算样本频率:πi=(mi+0.5)/(ni+1),避免Logit变换无意义。

异方差性与加权最小二乘分组数据Logistic回归存在异方差,权函数通常选择wi=niπi(1-πi),通过加权最小二乘估计消除异方差影响,提升模型精度。

二阶段最小二乘法确定权函数第一阶段:用普通最小二乘拟合回归模型;第二阶段:根据第一阶段结果估计组比例πi,以wi=niπi(1-πi)做加权最小二乘,优化权函数确定过程。2026/5/16模型定义与应用场景多元Logistic回归适用于因变量为多组(大于两组)的情况,如疾病严重程度(轻、中、重)与患者年龄、性别等因素的关系分析。模型推广基础作为二元Logistic回归的推广,其构建基础、偏差使用及统计推断与二元模型有所不同,可通过逼近法配合多个二元Logistic回归模型实现。复杂性与研究价值多元模型因变量水平增加导致分析复杂度提升,但在医学、社会科学等领域具有重要应用价值,具体方法可参考相关文献[5][7]。多元Logistic回归简介总结与思考08知识体系梳理与关键要点回顾

对数线性模型核心知识对数线性模型用于离散型数据或列联表数据的统计分析,可描述定性变量间关系及交互作用。其基本公式为ηij=Ai+Bj+(AB)ij,Ai、Bj为主效应,(AB)ij为交互效应。通过对概率取对数并分解处理,当交互效应yij均为0时为非饱和模型(因素独立),否则为饱和模型。

Logistic回归核心知识Logistic回归适用于因变量为二元变量的情况,通过Logit变换将概率π转换为Q=ln(π/(1-π)),使其在(-∞,+∞)上变化。模型形式为Q=β0+β1x1+…+βkxk,采用极大似然估计法估计参数,通过优势比率(Exp(B))解释自变量对因变量发生概率的影响,Wald统计量用于检验系数显著性。2026/5/16知识体系梳理与关键要点回顾两种方法适用场景对比对数线性模型主要用于分析多个定性变量间的关系及交互作用,适用于列联表数据;Logistic回归用于研究因变量(二元)与自变量(定量或定性)的关系,预测事件发生概率。当被解释变量为两组时,Logistic回归因无需严格的多元正态性和等协方差阵假设,且对自变量类型无要求,更具优势。SPSS操作关键步骤与结果解读对数线性模型SPSS操作:激活频数(Data→WeightCases),选择Analyze→Loglinear→Modelselection,定义变量范围,选择参数估计选项。结果解读关注交互效应yij的正负及大小、模型拟合优度检验(饱和模型残差为0)。Logistic回归SPSS操作:Analyze→Regression→BinaryLogistic,选入因变量和协变量,结果解读关注Wald值、Sig.值、Exp(B)及回归方程的实际意义。2026/5/16简述对数线性模型应用的原理对数线性模型应用原理:将列联表中概率取对数,分解为因素主效应和交互效应,模仿方差分析模型结构,通过参数估计(如yij)判断变量间关系。若yij>0为正效应,yij<0为负效应,yij=0则变量独立。以频率表对应项作为概率无偏估计,代入模型进行参数估计和检验,适用于分析定性变量间关系及交互作用。基于民众对某项提案看法数据建立对数线性模型现有民众对提案看法的列联表数据(态度:赞成、反对、弃权;性别:男、女),建立对数线性模型步骤:1.数据准备,将交叉列联表数据按频数、态度、性别形式输入SPSS;2.激活频数(WeightCases);3.选择Analyze→Loglinear→Modelselection,将态度和性别选入Factor(s),定义变量范围(态度3水平,性别2水平);4.选择参数估计选项,运行分析;5.根据输出结果中交互效应参数判断态度与性别间的关系及效应方向。思考与练习思考与练习

Logistic回归模型在处理问卷调查数据中的应用Logistic回归在问卷调查数据中可用于分析影响二元因变量(如是否购买、是否满意等)的因素。例如,以顾客购买意向(是/否)为因变量,年收入、年龄等为自变量,通过建立Logistic回归模型,估计各因素对购买概率的影响,优势比率可反映自变量变化对购买优势的影响程度,帮助研究者了解关键影响因素,为决策提供依据。

使用SPSS软件建立实际问题的Logistic回归模型以“是否乘坐公交车上下班”为例,因变量y=1(乘公交)、y=0(骑自行车),自变量为年龄、性别、周收入。SPSS操作:1.数据录入,包含各变量值;2.选择Analyze→Regression→BinaryLogistic,将y选入Dependent,年龄、性别、周收入选入Covariate(s);3.运行后根据Wald值和Sig.值剔除不显著变量(如周收入);4.得到最终回归方程,解释性别(女性乘公交比例高)和年龄(年龄越大乘公交比例越高)的影响。2026/5/16THEEND谢谢观看多变量数据的图表示法及应用CONTENTS目录01多变量图表示法概述02散点图矩阵03脸谱图04雷达图与星图05星座图及其他多变量图表示法06多变量图表示法的综合应用与总结多变量图表示法概述01多变量图表示法的意义与学习目标多变量图表示法的重要性

图形是探索性研究的重要工具,能直观反映资料分布及变量间相关关系,将图形直观简洁的优点延伸到多变量研究中。理解作图思想

学习目标之一是理解各种多变量图表示法的作图思想,这是掌握和应用这些方法的基础。了解作图方法

了解各种多变量图表示法的作图方法,明确不同方法的绘制流程和要点。掌握软件作图

能够利用软件对多元资料作图,如SPSS、R语言、Excel等,实现数据的可视化呈现。数据探索分析

能够利用所作的多变量图形对数据进行探索性分析,揭示数据特征和规律。2026/5/16多变量图表示法的发展与特点发展背景20世纪70年代以来,统计学家研究发明了很多多维变量的图表示方法,以应对多变量数据作图的需求。与单双变量图形的差异变量较少时可用直方图等方法,3个变量作三维散点图已不方便,多于3个变量则需多变量图表示法,它能展示多个变量间关系,而单双变量图形主要反映较少变量间关系。直观简洁的特点多变量图表示法借助图形描述多元资料统计特性,具有直观、简洁的优点,能让研究者对资料有较深印象,帮助进行探索性分析。灵活性不同于其他统计方法,大部分图表示法无非常严格的画图方法,研究者可根据习惯设定规则,方便揭示资料间联系。2026/5/16散点图矩阵02散点图矩阵的基本思想

图形方阵结构散点图矩阵是一个大的图形方阵,非主对角元素位置为对应行变量与列变量的散点图,主对角元素位置为各变量名。

核心作用可清晰展示多个变量两两之间的相关关系,是直观、简单、易理解的多变量可视化工具,受到实际工作者喜爱,多数统计软件已支持该功能。

局限性并非真正意义上的多变量作图方法,仅研究两两变量关系,不能直接反映多个变量间关系,借助其对资料分类较困难。2026/5/16数据准备以3.7.1节中15个亚洲国家和地区的经济水平及人口状况数据为例,打开SPSS原始数据文件“43.7.1Asia.sav”。菜单操作步骤依次点选Graphs→LegacyDialogs→Scatter/Dot,进入Scatter/Dot对话框,选中MatrixScatter对应的图标,点击Define按钮,进入ScatterplotMatrix对话框。参数设置将左边框中的变量依次选入MatrixVariables下方的框中,点击Ok运行,即可得到散点图矩阵。SPSS软件实现散点图矩阵案例散点图矩阵的分析与解读

变量关系分析粗死亡率与其余5个变量相关关系均不明显;平均预期寿命与粗出生率和城镇人口比重有明显线性相关关系;人均GDP与城镇人口比重及平均预期寿命存在某种曲线关系。

标记变量应用可将15个国家和地区的主要宗教信仰保存为新变量“religio”添加到原数据中,在ScatterplotMatrix对话框中将其选入SetMarkersby框,使不同宗教信仰国家以不同颜色显示,便于更详细分析。2026/5/16脸谱图03脸谱图的作图思想与发展提出背景与起源脸谱图由美国统计学家H.切尔诺夫于1970年首次提出,最初用于聚类分析,后引发广泛关注并被改进,部分统计软件已收入该方法。基本作图思想将观测的多个变量(指标)用脸的不同部位形状或大小表示,一个样品对应一张脸谱,通过面部特征直观展示多元数据,便于归类与比较。变量与面部特征对应关系按切尔诺夫1973年画法,15个指标对应特定面部特征,如脸的范围、形状、鼻子长度、嘴的位置等;变量不足时部分特征自动固定,变量过多则可忽略或采用改进方法(如取消对称性引入更多特征,最多可用36个变量)。2026/5/16数据准备以交通运输业30家上市公司10项财务指标数据(含X1-X10,如西部创业X1=0.0600、X2=2.7591等)为例,数据来自SPSS文件,需转换为数据框并将公司名称设为行名。R语言实现步骤1.安装并加载aplpack包(含faces()函数)及foreign包;2.读取SPSS数据文件;3.转换数据格式并处理行名;4.使用faces()函数绘制,参数如face.type=0(无色)、scale=TRUE(数据标准化)等。函数参数说明faces()函数关键参数:xy为数据矩阵,face.type控制颜色(0无、1彩色、2彩色圣诞老人),nrow.plot/ncol.plot设定行列脸谱数,fill控制变量不足时是否固定特征,scale控制是否标准化数据。R语言绘制脸谱图案例脸谱图的分析与注意事项

经营状况差异分析从脸的高度和宽度(公司收益)看,上海机场(X1=1.9100)和厦门空港(X1=1.3794)处于较高水平,长江投资(X1=-0.3000)和西部创业(X1=0.0600)明显较低;总体经营状况较好的有上海机场、厦门空港和外运发展。

变量次序的影响脸谱形状受变量次序影响大,若10个指标次序改变,得到的脸谱图会有很大不同,需注意变量排序对图形解读的干扰。

分析方法的局限性与建议根据脸谱图归类具有主观性,不同人关注面部部位不同可能得出不同结论;实际分析中必须与聚类分析、相关分析等定量方法结合,才能得到合理可信的结论。2026/5/16雷达图与星图04雷达图的标准画法与Excel实现01雷达图的标准作图步骤先画一个圆,将圆p等分并由圆心连接各分点形成p条坐标轴,根据变量取值对坐标轴作刻度;每个样本在p个轴上确定坐标,依次连接形成p边形,通过多边形形状分析样本相似性。02Excel制作雷达图示例(北京和天津消费支出)数据含食品烟酒、衣着等8项支出(北京居住支出18604.8元,天津8175.4元);操作步骤:插入→图表→雷达图→带数据标记的雷达图,可调整标记大小、颜色及线段样式。03雷达图的应用特点适用于样本数目较少时的多指标对比,直观展示样本间差异;样本数较多时易重叠,需单独作图,Excel提供图形再编辑功能以优化显示效果。2026/5/16星图的特点与R语言实现

星图与雷达图的异同形状相似,星图可一次生成多个观测的独立图形(每个样本对应一张星图);星图受变量排列次序影响更小,主观判断干扰较脸谱图弱,更适合多样本归类分析。

R语言stars()函数参数解析x为数据矩阵/数据框(行代表样本);full=TRUE生成圆形星图;scale=TRUE默认标准化数据;labels为样本名称;flip.labels=FALSE避免变量名重叠,输出更整齐。

星图生成与消费结构分析案例以31个地区城镇居民消费支出数据为例,调用stars()函数生成星图;半径从右起水平方向对应第一个变量,逆时针依次排列;北京、上海、浙江消费水平较高,河北等10地区消费结构相似。2026/5/16星座图及其他多变量图表示法05星座图的基本原理与作图方法

星座图的核心思想将所有样本点映射到一个半圆内,如同天文学中星座的图像,通过样本点在半圆内的位置直观分析其相关性,位置接近的样本点具有较高相似性。

数据变换步骤将资料(X1i,X2i,…,Xfii)通过构造函数fj(X)变换,使其取值范围落到(0,π)之间,实现数据规格化处理。

权重赋予规则对每一变量赋予权重wj,满足权重总和为1。权数可采用随机数方法产生,或取等权重(如wj=1/fi)。

坐标计算方法以圆点O为圆心,w1为半径画半圆,弧度B11处记为O1;再以O1为圆心,w2为半径画半圆,弧度B12处记为O2,依此类推,Ofi点即为样本点位置,通过路径计算确定坐标。2026/5/16案例数据背景沿用交通运输业30家上市公司的10项财务指标数据(X1-X10),包括西部创业、铁龙物流、上海机场等公司的经济效益及资本构成指标。星座图绘制结果通过数据规格化、权重赋予及坐标计算,将30家公司样本点绘制于半圆内,形成星座图(见图10-7),样本点位置直观反映公司间的相似程度。样本归类结果根据星座图中各公司的接近程度,可将30家公司分为4类:上海机场、外运发展、厦门

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论