版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第13章因子分析本章目录01因子分析的基本理论介绍因子分析的基本概念、因子模型、因子个数确定方法、模型估计方法、模型评估指标以及因子旋转的理论基础。02因子分析示例通过计算机行业上市企业创新能力评估的案例,详细演示在EViews中进行因子分析的完整操作流程,包括模型设置、估计、诊断、旋转和得分计算。01因子分析的基本理论因子分析概述定义因子分析是一种探索性的多元统计方法,它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个抽象的“公共因子”来表示其基本的数据结构。目的1.数据简化:综合变量减少个数;2.结构探索:揭示变量内在联系;3.变量分类:根据载荷对变量分类。特点因子分析是一种“降维”技术,它将原始的p个变量转换为m个(m<p)公共因子,这些因子是不可直接观测的,但能够反映原始变量的大部分信息。因子模型(基本形式)基本模型公式Xᵢ:p维观测变量向量,即我们实际测量的数据。μ:p维均值向量,代表观测变量的平均水平。L:p×m因子载荷矩阵,衡量变量与因子的相关程度。Fᵢ:m维公共因子向量,不可观测的潜在核心变量。εᵢ:p维独特因子向量,变量中不能被公共因子解释的部分。模型核心解读线性组合分解每个观测变量都可以拆解为两部分:公共因子的线性组合+独特因子。这体现了因子分析的降维思想。载荷矩阵的桥梁作用因子载荷矩阵L是连接“可观测变量”与“不可观测公共因子”的关键桥梁,其元素值大小反映了变量与因子的关联强度。因子模型(基本假设与方差分解)基本假设1.公共因子约束公共因子的均值为0,方差标准化为1。2.独立不相关独特因子均值为0,且与公共因子线性不相关。3.独特因子互斥不同变量的独特因子之间互不相关。方差分解共同度(h²ⱼ)变量方差中能被所有公共因子解释的比例,反映因子对变量的解释力。独特度(ψⱼ)变量方差中不能被公共因子解释的部分,由独特因子贡献。核心意义评估分析效果的关键共同度是衡量因子分析质量的重要指标。当共同度越高时,说明该变量的大部分信息都被所选的公共因子所捕获,因子分析的降维效果越好。确定因子个数的方法(一)Kaiser-Guttman准则(特征根大于1)最常用的方法。计算相关系数矩阵的特征根,保留特征根大于1的因子。因为对于相关系数矩阵,特征根的平均值为1,特征根大于1意味着该因子解释的方差大于平均水平。累计方差贡献率法计算每个因子的方差贡献率和累计方差贡献率,选择累计方差贡献率达到某个阈值(通常为80%或90%)的因子个数。该方法确保提取的因子能够解释大部分数据信息。方法特点这两种方法简单直观,但有时可能会提取过多或过少的因子。确定因子个数的方法(二)最小平均偏相关法(MAP)核心逻辑:计算去除m个因子后偏相关平方的平均值。决策标准:选择使该平均值最小的因子个数m。断棒法(BrokenStick)核心逻辑:将特征根的分布与随机分布(断棒分布)进行比较。决策标准:保留那些解释方差比例超过随机预期的因子。平行分析法(Parallel)核心逻辑:对比真实数据特征根与模拟随机数据的平均特征根。决策标准:保留真实特征根大于随机特征根的因子。★目前最准确的方法之一学术应用建议:平行分析法(ParallelAnalysis)因其客观性和准确性,在现代学术研究中被强烈推荐。它通过与随机数据对比,能有效排除数据中的“噪音”干扰,帮助研究者识别出真正具有结构意义的潜在因子。因子模型的估计方法(一)最小差异法(MinimumDiscrepancy)核心思想:通过最小化观测协方差矩阵与模型拟合协方差矩阵之间的差异来估计因子载荷和独特因子方差。最大似然法(ML)基于正态分布假设,统计性质良好,应用最为广泛。广义最小二乘法(GLS)对数据进行加权处理,适用于存在异方差的情况。非加权最小二乘法(ULS)计算过程简单,不要求严格的分布假设,稳健性较强。方法特点与评价理论优势理论基础扎实,估计结果较为可靠,能够有效反映变量间的潜在结构。计算挑战计算相对复杂,尤其是在因子个数较多或样本量较大时,对计算资源有一定要求。在实际应用中,若数据符合正态分布,最大似然法(ML)通常是首选,因其能提供标准误和拟合优度检验统计量,便于模型评估。因子模型的估计方法(二)主成分因子法源于主成分分析,通过对协方差矩阵进行特征分解,提取主成分作为初始因子,然后通过迭代调整共性方差来得到最终的因子解。共性估计方法在主成分因子法中,需要对变量的共性方差进行估计,常用方法包括:对角线分数法、最大相关系数法和平方多重相关法(SMC)。迭代法通过反复更新共性方差估计并重新提取因子,直到结果收敛。但过度迭代可能导致结果偏差。核心逻辑:主成分因子法通过特征分解初始化,结合迭代法不断优化共性方差估计,直至收敛。因子模型的估计方法(三):分区协方差法(PACE)方法定义PACE是一种非迭代的估计方法。它通过将协方差矩阵分割成不同的区域进行独立估计,具有一致性、渐近正态性和尺度不变性等优良统计性质。核心优势计算效率极高,特别适用于变量个数很多的大型因子模型。因其快速收敛特性,也常被用作其他复杂迭代方法的初始值,加速整体求解过程。工具支持主流统计分析软件如EViews已内置支持PACE方法,无需手动编程实现,为处理大规模金融或经济数据提供了便捷的工具支持。应用场景小结:当面对变量维度极高(例如超过100个变量)的大型数据集时,传统的极大似然估计等迭代方法可能面临计算瓶颈或收敛困难。此时,分区协方差法(PACE)凭借其非迭代、高效率的特性,成为了因子模型估计的首选方案。模型评估指标从不同维度衡量因子模型对数据的解释能力与拟合优度绝对拟合指标●卡方检验
检验模型拟合协方差矩阵与观测矩阵的差异,p>0.05表示拟合良好。●信息准则(AIC,SC)
综合考虑拟合度和复杂度,数值越小代表模型越优。相对拟合指标●核心逻辑
将当前估计模型与“独立模型”(零因子模型)进行对比。●评估目的
量化模型相对于基准模型的改进程度,反映因子结构的有效性。残差指标●均方根残差(RMSR)
直接衡量拟合残差的大小,数值越小说明拟合精度越高。●标准化均方根残差(SRMSR)
消除了变量量纲的影响,更便于在不同研究间进行比较。评估建议:单一指标不足以全面评价模型,建议结合绝对拟合、相对拟合及残差指标进行综合判断,以确定最佳的因子个数和模型形式。因子旋转旋转目的因子载荷矩阵并非唯一解。旋转的核心目的是:简化载荷矩阵结构,使变量载荷两极分化。让每个变量尽可能只在一个因子上有较高载荷。最终实现因子实际含义的清晰解释。旋转原理通过对载荷矩阵L和公共因子F进行正交或斜交变换,得到新模型。新旧模型在观测数据上是等价的。旋转类型正交旋转(Orthogonal)保持因子之间相互独立(不相关)。最常用的是方差最大法(Varimax)。斜交旋转(Oblique)允许因子之间存在相关性。通常能得到更符合实际、易于解释的结果。因子旋转是因子分析中提升结果可解释性的关键步骤02因子分析实例案例背景介绍研究目的通过11个指标来衡量计算机行业355个上市企业的创新能力,以评估企业的综合创新水平。变量定义列出11个指标的名称及代码,涵盖研发投入(如研发人员占比、研发费用)、研发产出(如专利账面价值)和研发可持续性(如营收增长率)等方面。数据说明样本数量为355个,为截面数据。模型设置与估计(Data页)操作路径在EViews中,选择多个序列,右键点击选择Open/asFactor,打开因子分析对话框。Data页设置•Type:选择Correlation(相关系数矩阵)•Method:选择Ordinary(皮尔逊相关系数)•Variables:输入11个变量;Sample:设置样本范围操作界面说明右侧展示了因子分析Data页的设置界面,需重点确认变量列表与样本范围是否正确,这是后续分析的基础。因子分析Data页设置界面💡操作提示•若数据量纲不同,务必选择基于相关系数矩阵分析。•建议勾选“Balancedsample”以保证数据质量。•变量需为数值型序列,否则无法计算相关系数。模型设置与估计(Estimation页)Estimation页核心设置•Method:选择PACE估计方法。•Numberoffactors:选择基于方差解释比例确定因子个数。操作界面概览界面包含Method(估计方法)、Numberoffactors(因子数量)及Options(选项)等核心设置区域,右侧图示为具体设置界面。执行模型估计确认所有参数设置无误后,点击界面右下角的“确定”按钮,EViews将开始运行算法并估计因子模型参数。Estimation页设置界面示例💡操作提示•PACE方法适用于处理高维数据,估计效率较高。•若未特殊指定,建议保留默认选项以确保结果稳健。模型估计结果解读因子载荷矩阵关键发现:展示未旋转的正交因子载荷矩阵,分析各变量在不同因子上的载荷分布。例如:研发投入相关变量(X1,X7,X8,X9)在第一因子上表现出显著的高载荷。方差解释比例统计指标:基于提取的3个公共因子,分析其对总体方差的解释能力。数据表明:第一因子单独解释了超过60%的方差,累积方差贡献值达到4.27,说明因子提取效果良好。因子命名命名逻辑:根据载荷分布和变量含义,对三个公共因子进行专业命名:因子1:研发投入因子因子2:研发可持续性因子因子3:研发产出因子综合结论通过因子分析,我们成功将多个研发指标降维为三个核心维度:投入、可持续性和产出。这三个因子不仅涵盖了研发活动的主要方面,而且具有较高的方差解释率,为后续的综合评价提供了坚实的数据基础。模型诊断(拟合优度与残差)拟合优度指标评估查看模型的拟合优度总结(表13-3),通过R²、调整R²等关键指标,量化评估模型对原始数据的解释能力,判断自变量对因变量的解释程度是否显著。残差协方差矩阵检验查看残差的协方差矩阵(图13-3),检验模型的拟合效果。理想情况下,残差应数值较小且无明显规律(随机分布),若存在明显模式则提示模型可能遗漏关键变量。残差协方差矩阵示例综合诊断结论判定综合拟合优度指标的解释力与残差分析的随机性,最终判断模型的整体拟合效果是否良好。若指标达标且残差随机,则模型有效,可用于后续推断;反之则需优化。模型诊断(特征根与MSA值)特征根碎石图通过观察曲线拐点确定因子个数。本例中曲线在第3个因子处出现明显拐点,之后趋于平缓,提示提取3个因子较为合适。KMO检验(MSA值)本例中Kaiser-Meyer-Olkin检验的MSA值为0.64。虽然略低于0.7的标准,但仍接近临界值,表明数据结构尚可,适合进行因子分析。诊断结论综合特征根碎石图的拐点信息与KMO检验的MSA值结果,统计指标支持我们从数据中提取3个公共因子的决策。总结:因子分析的前提假设检验通过了关键指标的验证。特征根碎石图直观展示了因子贡献度的变化趋势,而KMO值则量化了变量间的偏相关性,两者共同为后续提取3个公共因子提供了坚实的统计依据。因子旋转(正交旋转)旋转目的通过因子旋转简化因子结构,使每个变量在尽可能少的因子上有较高的载荷,从而更容易解释因子的实际含义。正交旋转设置选择最常用的方差最大法(Varimax)进行正交旋转,确保因子之间相互独立,便于后续分析。旋转结果解读旋转后因子载荷矩阵显示,变量在因子上的载荷分布更集中,分组更加明确,因子的经济含义或实际意义显著增强。图13-5:因子旋转设置界面(Varimax正交旋转)操作提示:在因子分析对话框中,进入“Rotation”选项卡,选择“Varimax”方法,即可执行正交旋转。因子旋转(斜交旋转)斜交旋转特点斜交旋转(ObliqueRotation)打破了因子必须独立的假设,允许因子之间存在相关性。这种方法通常能更贴合现实数据结构,得到更易于解释的因子含义。斜交旋转结果通过观察因子载荷矩阵(如表格13-8),并与正交旋转结果对比,可以发现斜交旋转在保持变量解释率的同时,能更清晰地界定因子归属,具有更强的实际解释优势。因子相关矩阵斜交旋转会生成因子相关矩阵。该矩阵展示了提取出的因子之间存在显著的相关性,这更符合现实世界中不同能力维度或特征往往相互关联而非完全独立的情况。核心洞察:在探索性因子分析中,如果理论假设变量间存在潜在关联,或正交旋转结果解释性不佳时,斜交旋转是更优的选择。它通过牺牲因子独立性假设,换取了对现实结构更真实的拟合。因子载荷图分析图13-8:旋转后的因子载荷分布图载荷图绘制基于旋转后的因子载荷矩阵进行可视化作图,清晰展示三个主因子在二维平面上的投影分布,直观呈现变量间的关联结构。图形解读通过载荷图可直观观察变量聚类情况。例如,研发投入相关变量显著聚集在“研发投入因子”轴附近,验证了因子命名的合理性。分析结论载荷图清晰展示了变量的分组情况,不仅验证了因子结构的有效性,也进一步确认了我们对三个核心因子含义的解释是准确且可靠的。因子得分计算与分析因子得分计算方法通常采用回归法(RegressionMethod)进行估算,将因子表示为原始变量的线性组合。通过因子得分系数矩阵(表13-10),可以计算出每个样本在各个公共因子上的具体得分值。因子得分的实际应用利用计算出的因子得分,可对企业进行综合排名和聚类分析。量化评估企业在“研发投入”、“可持续性”及“创新产出”等不同维度上的表现,辅助战略决策。因子得分双坐标图(图13-9)该图直观展示了不同企业在“投入(Invest)”、“可持续(Sustainable)”和“产出(Output)”三个维度因子上的得分分布与相关性。●橙色/蓝色散点代表不同企业●箭头方向表示因子载荷核心价值:因子得分是对原始多维数据的降维与综合,将抽象的统计概念转化为可量化、可排名的具体数值,为企业竞争力分析提供科学依据。感谢观看第十四章广义线性模型目录01二元选择模型学习处理因变量为二值选择的Probit和Logit模型,掌握其建模方法和模型评价。02排序选择模型学习处理因变量为有序多分类的排序选择模型,掌握其原理和在EViews中的实现。03计数模型学习处理因变量为计数变量的泊松模型,掌握COUNT和GLM两种估计方法。01二元选择模型广义线性模型的应用模型形式:二元选择模型概述什么是二元选择模型?当因变量Y的取值只有两种可能(通常编码为0和1)时,我们需要使用二元选择模型来分析自变量X对Y的影响。例如,分析个人特征对是否购买保险(Y=1购买,Y=0不购买)的影响。模型的核心目标模型的核心不是直接预测Y的取值(0或1),而是预测在给定自变量X的情况下,Y取1的概率P(Y=1|X)。这是一个介于0和1之间的连续值。两种经典模型为了将概率P(Y=1|X)与自变量X线性关联起来,需要引入连接函数。最常用的两种模型是Probit模型和Logit模型,它们分别采用不同的连接函数。模型形式:Probit模型详解模型公式与连接函数公式:P(Y=1|X)=Φ(β₀+β₁X₁+...+βₚXₚ)。其中,Φ(·)是标准正态分布的累积分布函数,它将线性组合转换为概率值。该函数像一个“S”形曲线,能够将任意实数的线性组合,完美地转换为0到1之间的概率值,确保概率在合理范围内。系数的边际效应回归系数βⱼ的含义是“边际效应”,即当其他变量保持不变时,自变量Xⱼ每增加一个单位,事件发生概率P(Y=1|X)的平均变化量。系数为正概率增加,系数为负概率减少。Probit模型的特点基于正态分布假设,适用于事件发生概率在0.5附近的情况,其概率变化在两端较为平缓,中间变化较快,符合正态分布的概率密度特征。模型形式:Logit模型详解模型公式与连接函数log(π/(1-π))=β₀+β₁X₁+...+βₚXₚ,其中π=P(Y=1|X)。连接函数是logit函数,将概率π转换为取值范围为(-∞,+∞)的线性表达式。通过logit变换,我们将非线性的概率问题转化为了线性回归问题,使得我们可以利用线性模型的参数估计方法来求解。发生比(OddsRatio)与系数解释π/(1-π)称为“发生比”。系数βⱼ的指数形式e^βⱼ表示:当Xⱼ增加一个单位时,发生比变为原来的e^βⱼ倍,这是解释Logit模型系数的标准方式。Logit模型的特点基于逻辑分布假设,其概率变化曲线与Probit模型类似,但在两端的变化比Probit模型更缓慢一些,适用于各种概率水平的情况。EViews建模详解:案例引入案例背景:例14-1研究目标:分析人体内HDL(高密度脂蛋白)和Fib(纤维蛋白原)两项生化指标对是否发生心肌梗塞(Y)的影响。本案例旨在通过实证分析,探究生化指标异常与心血管疾病风险之间的量化关系,为临床诊断提供数据支持。变量定义因变量Y:是否发生心梗(1=发生,0=未发生)。自变量HDL:高密度脂蛋白含量(mg/dL)。自变量Fib:纤维蛋白原含量(mg/dL)。样本量:53个。建模思路我们将分别尝试建立Probit和Logit模型,分析HDL和Fib对心梗发生概率的影响,并比较模型效果。EViews建模详解:步骤1-模型设定操作路径与方法选择1.打开EViews,确保数据已导入工作文件。点击主菜单`Quick`->`EstimateEquation`打开方程估计对话框。2.在对话框的`Method`下拉菜单中,选择`BINARY`(二元选择模型)。输入变量设定在`EquationSpecification`框中输入:`YCHDLFib`。其中,Y是因变量,C代表常数项,HDL和Fib是自变量。图14-1二元选择模型的方程定义窗口EViews建模详解:步骤2-模型估计与初步结果选择模型类型在Binaryestimationmethod中,可选择Probit(默认)、Logit或Extremevalue。本次操作先选择默认的Probit模型进行估计。初步估计结果分析点击OK后得到包含常数项的模型估计结果。观察结果发现,常数项的Prob值(p值)大于0.05,表明常数项在统计上不显著,后续需调整。表14-3a包含常数项的模型估计结果EViews建模详解:步骤3-修正模型与结果解读修正模型设定返回方程估计对话框,将方程定义改为`YHDLFib`(去掉常数项C),重新进行估计。这是因为原模型中常数项不显著,需要精简模型。关键统计量解读Loglikelihood:对数似然值,值越大模型拟合越好。McFaddenR-squared:伪R方,衡量拟合优度,值越大越好。LRstatistic:似然比检验,用于检验模型整体显著性。最终估计结果与系数解读去掉常数项后,HDL和Fib的系数都显著(p值<0.05)。HDL系数(-0.062):系数为负,表明HDL升高会降低心梗发生的概率,是保护性因素。Fib系数(12.735):系数为正,表明Fib升高会增加心梗发生的概率,是风险因素。模型评价与分析:期望预测表(E.P.表)E.P.表的作用期望预测表(Expectation-PredictionTable)是评估二元选择模型预测准确性的重要工具。它通过比较模型的预测值与实际观测值,统计正确预测和错误预测的数量,直观地展示模型的预测能力。通过E.P.表,我们可以清晰地看到模型在预测“发生”和“不发生”两种情况时的表现,是模型诊断不可或缺的环节。生成E.P.表的操作步骤在方程估计结果窗口中,点击菜单View->Expectation-PredictionEvaluation。在弹出的对话框中设置预测截断值(Cutoffvalue),通常默认值为0.5。操作界面截图图14-5:设置预测截断值的对话框。当预测概率大于0.5时,模型判定事件发生。模型评价与分析:E.P.表结果解读E.P.表结果展示展示例14-1在截断值为0.5时的E.P.表结果(表14-6),该表直观呈现了模型对样本的预测分类情况。结果解读正确预测:主对角线数值和,代表正确预测样本数。错误预测:副对角线数值和,代表错误预测样本数。预测准确率:正确预测数除以总样本数。本例结果分析在例14-1中,模型正确预测了41个样本,错误预测了12个样本,总体预测准确率约为77.4%。这一数据表明,该模型在当前设定下具有较好的预测能力,能够有效对样本进行分类判别。02排序选择模型广义线性模型的应用排序选择模型概述什么是排序选择模型?排序选择模型(OrderedChoiceModel)适用于因变量为有序多分类变量的情况。这些类别之间存在明确的顺序关系,但类别间的差距并不一定相等。例如,收入水平(低、中、高)、考试成绩等级等,这类数据既不是连续数值,也不是完全无序的分类。典型应用场景•客户满意度:不满意(0)、一般(1)、满意(2)、非常满意(3)•信用评级:AAA(3)、AA(2)、A(1)、BBB(0)与多元选择模型的区别排序选择模型的关键在于选择项之间存在顺序,而一般的多元选择模型(如离散选择模型)的选择项之间是无序的(如不同品牌、不同交通方式)。模型原理与形式潜在变量(LatentVariable)原理引入不可观测的潜在变量y*=Xβ+ε,代表选择偏好的潜在强度。因变量Y的观测值由y*落在不同区间决定。这是排序选择模型的核心假设:虽然无法直接观测潜在强度,但可以通过观测到的离散选择结果来推断它。临界值与概率计算设定临界值γ₀<γ₁<...<γ_M。当y*落在不同区间时对应不同的Y值(0,1,...,M)。概率由连接函数(如Logit)决定。模型特点与二元选择模型类似,但需同时估计回归系数β和临界值γ。临界值将潜在变量空间划分为不同区间,对应不同的选择结果。案例引入:例14-3案例背景分析电商平台的两个关键指标——年销售额(X1)和平均配送时长(X2)——对客户满意度(Y)的影响。建模目标建立排序选择模型,分析X1和X2如何影响客户满意度的不同等级。变量定义因变量Y:客户满意度(0=不大满意,1=满意,2=很满意)。自变量X1:平台年销售额(千元);X2:平均配送时长(天)。样本量:29个平台客户。模型应用价值通过该模型,我们可以量化评估不同因素对客户满意度等级跃迁的影响程度,从而为平台优化运营策略提供数据支持,例如在提升销售额与缩短配送时间之间找到平衡点。EViews建模步骤1:模型设定操作路径1.打开EViews,确保数据已导入工作文件。2.点击主菜单Quick->EstimateEquation,打开方程估计对话框。选择估计方法在对话框的Method下拉菜单中,选择ORDERED(排序选择模型)。输入变量与操作界面在EquationSpecification框中输入:YX1X2。注意:EViews在排序选择模型中会自动忽略常数项,以避免与临界值混淆。EViews建模步骤2:结果解读模型估计结果概览模型输出结果主要分为两部分:回归系数(Variable)和临界值(LimitPoints)。回归系数反映自变量对因变量的影响方向与程度,临界值则用于划分不同的等级区间。结果深度解读1.系数:X1(销售额)系数为正,表明销售额越高满意度越高;X2(配送时长)系数为负,符合时长越长满意度越低的预期。2.临界值:γ₁=15.04,γ₂=26.21,将潜在变量划分为三个区间,分别对应满意度等级0,1,2。图:EViews有序Logit模型估计结果输出模型分析:结果保存与基本分析保存方程系统在方程估计结果窗口,点击`Name`,可以将估计结果保存为一个方程对象,方便后续分析和调用。基本分析功能通过`View`菜单可进行多种分析:查看因变量各等级的频数分布,或进行系数诊断检验等。操作界面截图:保存对话框与因变量频数表模型分析:预测方法预测特点由于排序选择模型的因变量是类别变量,不能直接使用`Forecast`功能进行预测。需要通过创建模型对象来实现预测操作。操作步骤1.在方程估计结果窗口,点击`Procs`->`MakeModel`,创建一个模型对象。2.在模型对象窗口,点击`Solve`,进行静态预测(Staticsolution)。操作界面截图:模型对象与求解设置模型分析:预测结果解读预测结果序列求解后生成新序列:`i_y_0`(预测的潜在变量值),`y_0_0`、`y_1_0`、`y_2_0`(分别代表预测为0、1、2等级的概率)。预测值解读根据预测的潜在变量值`i_y_0`和模型估计的临界值确定最终等级。例如,若`i_y_0`<15.04,则预测等级为0。操作界面截图:预测序列与概率分布模型分析:预测评估预测评估方法在方程估计结果窗口,点击View->PredictionEvaluation,可以生成预测评估表,以此评估模型的预测准确性。本例结果分析模型整体预测准确率约为65.5%,效果一般。提示需进一步优化,例如引入更多变量或尝试不同模型形式。评估结果解读(表14-12)03计数模型广义线性模型的应用计数模型概述什么是计数模型?计数模型(CountModel)专门用于分析因变量为计数变量的情况。计数变量是指表示事件发生次数的非负整数,例如:事故发生次数、顾客购买次数、网站点击量等。它通过引入特定的概率分布(如泊松分布、负二项分布)来拟合数据,从而准确捕捉事件发生频率的统计规律。典型数据特征计数数据通常具有以下特征:1.取值非负(0,1,2...);2.零值较多(事件不发生的情况常见);3.方差不等于均值(过度离散或欠离散)。与线性回归的区别普通线性回归不适合处理计数数据,因为它可能产生负的预测值,且无法有效处理数据的离散性和过度离散问题,导致模型参数估计有偏或无效。泊松模型与QML方法泊松模型(PoissonModel)最基础的计数模型,假设因变量Y服从泊松分布,条件均值λ等于条件方差。通常设定为对数线性形式:ln(λ)=Xβ,其中λ=E(Y|X)。常用于描述单位时间内随机事件发生的次数,例如某路口一小时内的交通事故数、某客服中心一小时内的来电数等。泊松模型的限制严格假设“均值等于方差”。若实际数据方差大于均值(过度离散)或小于均值(欠离散),模型估计结果将不再有效。拟最大似然法(QML)一种稳健的估计方法。即使分布假设不正确,只要条件均值设定正确,仍能得到一致的参数估计,适用于处理复杂计数数据。案例引入:例14-4案例背景分析某企业34台机器的事故数据,研究机器的运行时间和使用年限对事故发生次数的影响。变量定义•因变量Y:机器平均每年发生的事故次数(计数变量)。•自变量X1:机器已经运行的时间(单位:月)。•自变量X2:机器开始使用时间是否在5年以下(1=是,0=否)。建模目标建立计数模型,分析X1和X2如何影响机器事故发生的次数。EV
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 税务合法合规性承诺书范文5篇
- 新一代电子商务平台搭建与运营指南
- 2026湖南岳阳市第二批青年见习岗位招募303人考试备考题库及答案解析
- 2026福建厦门大学国际中文教育学院教师招聘考试参考题库及答案解析
- 绿色能源应用保障承诺书4篇范文
- 2026年西安经开区管委会公办学校招聘应届生(111人)考试参考试题及答案解析
- 2026江苏开放大学招聘15人考试参考题库及答案解析
- 2026辽宁锦州华顺国有资产经营(集团)有限公司用工15人考试备考试题及答案解析
- 2026云南昭通昭阳区太平街道办事处招聘人员5人笔试模拟试题及答案解析
- 2026年3月滨州医学院附属医院派遣制工作人员招聘(8人)考试备考试题及答案解析
- 电商行业电商平台跨境电商合规方案
- (高清版)DB22∕T 3469-2023 医疗机构护理文书书写规范
- 污水管道及化粪池进行清污、疏通、巡检方案
- 项目工程投标书模板
- 健康医疗数据分级示例、业务场景
- 2024年贵州省贵阳市中考生物地理合卷试题(含答案逐题解析)
- 洛带古镇文旅古镇全年运营规划方案
- 2024年中国石化云南石油分公司加能站后备站长招聘150人高频考题难、易错点模拟试题(共500题)附带答案详解
- 信息安全管理体系ISMS建设方案
- 2024年江苏省中学生生物学奥林匹克初赛理论试题
- 初中八年级-足球-脚内侧传球
评论
0/150
提交评论