极大似然估计与贝叶斯估计比较_第1页
极大似然估计与贝叶斯估计比较_第2页
极大似然估计与贝叶斯估计比较_第3页
极大似然估计与贝叶斯估计比较_第4页
极大似然估计与贝叶斯估计比较_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

极大似然估计与贝叶斯估计比较引言:从一个“参数估计”的困惑说起记得刚入行做金融风控模型时,我曾被一个问题反复困扰:同样是估计用户违约概率的分布参数,有的同事坚持用极大似然估计(MLE),有的则力推贝叶斯估计(BE)。某次模型评审会上,两派甚至为“历史违约率数据该不该提前纳入模型”争得面红耳赤。那时我才意识到,这两种看似都是“找参数”的方法,背后竟藏着统计学两大流派的深刻分歧。如今在计量经济学、机器学习、资产定价等领域摸爬滚打多年,愈发觉得这两种估计方法像一对“既生瑜何生亮”的兄弟——它们共享“参数估计”的目标,却在哲学基础、数学形式、应用场景上大相径庭。本文将从基本概念出发,逐层拆解两者的差异与联系,试图为读者勾勒出一幅清晰的对比图谱。一、追本溯源:两种估计方法的基本概念1.1极大似然估计(MLE):“数据为王”的频率学派代表要理解极大似然估计,不妨先想象一个经典场景:你拿到一枚硬币,想知道它是否公平(即正面朝上的概率p)。你抛了10次,得到7次正面。这时候,MLE的思路很直接——找一个p值,让“抛10次得7次正面”这个结果出现的概率最大。数学上,这个“概率最大”对应的就是似然函数L(p|数据)的最大化。似然函数本质是给定参数p时,观测数据的联合概率密度(离散情况是概率质量函数)。对于抛硬币的二项分布例子,似然函数就是组合数C(10,7)乘以p⁷乘以(1-p)³。要让这个值最大,求导后会发现最优解是p=7/10=0.7。这就是MLE的核心:用观测数据“反推”最可能的参数值,完全依赖当前样本信息。需要强调的是,频率学派认为参数p是一个固定的未知常数,数据是随机的。MLE的目标就是通过样本数据找到这个“最可能”的常数,结果通常是一个具体的数值(点估计)。1.2贝叶斯估计(BE):“经验与数据共舞”的贝叶斯学派产物同样是抛硬币的例子,贝叶斯估计会怎么处理?假设你之前有经验:大部分硬币是公平的,p可能在0.5附近。这时候,贝叶斯方法会把这种“经验”转化为先验分布(比如假设p服从均值为0.5的Beta分布),然后结合当前观测的7次正面数据,用贝叶斯定理计算后验分布——即“在观测到数据后,p的分布应该是什么样”。贝叶斯定理的公式是:后验分布∝似然函数×先验分布。这里的“∝”表示正比于,因为分母是数据的边缘概率(归一化常数)。对于抛硬币的例子,若先验是Beta(a,b),则后验会是Beta(a+7,b+3)。最终的贝叶斯估计可以是后验的均值((a+7)/(a+b+10))、中位数或众数,具体取决于损失函数的选择。与MLE不同,贝叶斯学派认为参数本身是随机变量,具有不确定性(由先验分布描述),数据的作用是“更新”这种不确定性,得到后验分布。因此,贝叶斯估计的结果通常是一个分布(或分布的某个特征值),天然包含了参数的不确定性信息。1.3概念层的初步对比:从“点”到“分布”的跨越到这里,我们已经能看出两者的第一个关键差异:MLE给出的是参数的点估计(一个具体数值),而BE给出的是参数的分布(或分布的某种概括)。这种差异的背后,是两大学派对“参数本质”的根本分歧——频率学派视参数为固定常数,贝叶斯学派视参数为随机变量。举个更贴近金融的例子:估计某股票收益率的均值μ。用MLE的话,我们会计算样本均值作为μ的估计值;用贝叶斯估计的话,若假设μ服从正态先验N(μ₀,σ₀²),则后验分布仍是正态分布,均值是样本均值和先验均值的加权平均(权重由样本方差和先验方差决定)。这时候,贝叶斯估计不仅告诉我们μ的“最佳猜测”,还能给出μ落在某个区间的概率(比如有95%的概率μ在[1.2%,2.5%]之间),这种“不确定性量化”在风险定价中尤为重要。二、哲学根基:频率学派VS贝叶斯学派的世界观之争2.1频率学派:数据是唯一的“裁判”频率学派的核心信念是“概率是频率的极限”。他们认为,只有通过大量重复试验,事件发生的频率才会趋近于其真实概率。因此,参数作为“真实世界的客观存在”,必须通过观测数据来逼近。在这种世界观下,估计方法的好坏主要看“频率性质”——比如无偏性(估计量的期望等于真实参数)、有效性(方差最小)、一致性(样本量增大时估计量趋近于真实值)。MLE之所以被频率学派推崇,正是因为它在大样本下具有这些优良性质:渐近无偏、渐近有效(达到克拉美-拉奥下界)、渐近正态。这意味着,当数据量足够大时,MLE几乎能给出“最优”的点估计。但频率学派也承认,小样本下MLE可能表现不佳——比如抛3次硬币全是正面,MLE会得出p=1,这显然不符合直觉,因为我们知道硬币不太可能绝对不公平。2.2贝叶斯学派:概率是“信念的度量”贝叶斯学派的哲学更贴近人类的日常思维:我们对事物的认知是动态更新的。比如,医生诊断疾病时,会先根据患者年龄、性别等信息形成“先验概率”(比如年轻人得某种病的概率较低),再结合检查结果(似然)调整为“后验概率”。这种“先验→数据→后验”的思维模式,本质上就是贝叶斯定理的应用。在贝叶斯学派看来,概率并不需要依赖“大量重复试验”,它可以是对不确定性的主观度量。参数作为未知量,其“真实值”可能永远无法确定,但我们可以用分布来描述对它的信念。先验分布的选择可以是客观的(比如用历史数据拟合),也可以是主观的(比如专家经验),但关键是通过数据不断修正这个信念。这种灵活性让贝叶斯方法在小样本、信息有限的场景下更具优势——比如新药临床试验(样本量小)、罕见事件预测(历史数据少)。2.3哲学分歧的现实映射:从“该不该用先验”说起两派的哲学分歧在实际应用中最直接的体现,就是“是否允许引入先验信息”。频率学派认为,先验信息可能带有主观性,会干扰数据的“客观性”,因此估计过程应完全基于当前样本。贝叶斯学派则反驳:完全忽略先验信息才是不客观的,因为现实中我们很少在“一无所知”的情况下做决策——比如估计某只新股的波动率,我们肯定会参考同行业股票的历史波动率作为先验。举个资产定价的例子:估计某私募基金的α系数(超额收益)。如果该基金成立仅1年(12个月数据),用MLE得到的α可能波动极大(因为样本量小)。而贝叶斯估计可以引入“同策略私募基金α的均值为0.5%”的先验,将估计结果向0.5%收缩,避免小样本导致的过拟合。这种“收缩估计”在金融中非常实用,因为它本质上是在用历史经验“校准”新数据的噪声。三、数学形式:从优化问题到概率更新的差异3.1MLE的数学表达:最大化似然函数的优化问题MLE的数学流程可以概括为“三步曲”:设定模型:假设数据服从某个概率分布族,如正态分布N(μ,σ²)、泊松分布P(λ)等,分布的参数θ(如μ、σ²或λ)是待估计的未知量。构造似然函数:对于独立同分布的样本X₁,X₂,…,Xₙ,似然函数L(θ|X)是样本联合密度函数f(X₁,X₂,…,Xₙ|θ),即L(θ|X)=∏f(Xᵢ|θ)(连续型)或∏P(Xᵢ=θ)(离散型)。为了计算方便,通常取对数似然函数l(θ|X)=lnL(θ|X)=∑lnf(Xᵢ|θ),因为对数函数是单调递增的,最大化对数似然等价于最大化似然。求解优化问题:通过求导找到θ的极大值点,即θ̂_MLE=argmaxθl(θ|X)。对于简单模型(如正态分布的均值),可以解析求解;对于复杂模型(如混合分布、非线性模型),则需要用数值方法(如牛顿迭代法、梯度上升法)。以正态分布均值μ的估计为例,假设方差σ²已知,样本均值X̄是μ的MLE。这是因为对数似然函数l(μ)=-n/(2σ²)∑(Xᵢ-μ)²,对μ求导并令导数为0,解得μ̂=X̄,这符合我们的直觉。3.2BE的数学表达:贝叶斯定理驱动的概率更新贝叶斯估计的核心是贝叶斯定理的应用,其流程可分为:选择先验分布:根据领域知识或历史数据,为参数θ选择一个先验分布p(θ)。常见的先验包括共轭先验(如正态分布的先验是正态,二项分布的先验是Beta)、无信息先验(如均匀分布)、信息先验(如专家指定的分布)。计算似然函数:与MLE类似,似然函数L(θ|X)=∏f(Xᵢ|θ),但这里它被视为θ的函数(而非X的函数)。计算后验分布:根据贝叶斯定理,后验分布p(θ|X)=L(θ|X)p(θ)/p(X),其中p(X)=∫L(θ|X)p(θ)dθ是边缘似然(归一化常数)。得到估计量:后验分布包含了关于θ的所有信息,实际应用中常取后验均值(E[θ|X])、后验中位数(Med[θ|X])或后验众数(Mode[θ|X])作为点估计。若需要区间估计,则计算可信区间(如95%可信区间是后验分布中包含95%概率的最小区间)。仍以正态分布均值μ的估计为例,假设先验是μ~N(μ₀,σ₀²),数据Xᵢ~N(μ,σ²)独立,σ²已知。则后验分布p(μ|X)仍是正态分布,均值为(σ₀²X̄+nσ²μ₀)/(nσ²+σ₀²),方差为(σ₀²σ²)/(nσ²+σ₀²)。可以看到,后验均值是样本均值X̄和先验均值μ₀的加权平均,权重与样本量n、先验方差σ₀²、数据方差σ²相关——样本量越大(n越大),数据的权重越高;先验方差越小(σ₀²越小,即先验信息越确定),先验的权重越高。这种“信息融合”的特性是贝叶斯估计的魅力所在。3.3数学层面的关键差异:优化VS积分从数学操作来看,MLE的核心是“优化”(求似然函数的最大值),而BE的核心是“积分”(计算后验分布需要对先验和似然的乘积积分)。这一差异导致了两个重要结果:计算复杂度:MLE的优化问题在很多情况下可以通过解析解或高效数值方法解决;而BE的积分(尤其是高维参数空间)往往难以解析计算,需要借助马尔可夫链蒙特卡洛(MCMC)、变分推断等近似方法,计算成本更高。不确定性表达:MLE的结果是一个点,其不确定性通常通过渐近正态性(用Fisher信息矩阵估计方差)间接表达;而BE的后验分布直接给出了参数的概率分布,不确定性可以通过方差、分位数等直观度量。四、应用场景:何时选MLE?何时选BE?4.1MLE的适用场景:大样本、“无先验”或“先验不可靠”MLE在以下场景中表现突出:大样本数据:由于MLE的渐近优良性(无偏、有效、正态),当样本量足够大时,它能给出稳定且高效的估计。例如,用过去10年的日收益率数据估计某指数的均值和方差,MLE是首选方法,因为大样本下其结果几乎等同于“真实值”。模型简单且似然函数易优化:对于线性回归、广义线性模型等结构清晰的模型,MLE的解析解或数值解都很容易计算。例如,普通最小二乘法(OLS)其实是正态分布假设下的MLE(当误差项服从正态分布时,OLS估计量等价于MLE)。先验信息缺失或不可靠:如果没有历史数据或专家经验可用,强行引入主观先验可能导致估计偏差。此时,MLE作为“数据驱动”的方法更客观。例如,研究一个全新的金融产品(如刚推出的加密货币衍生品),没有历史数据参考,用MLE基于当前交易数据估计参数更稳妥。4.2BE的适用场景:小样本、“有先验”或“需量化不确定性”贝叶斯估计在以下场景中更具优势:小样本或稀疏数据:当样本量较小时,MLE容易过拟合(比如抛3次硬币全正面得到p=1),而BE通过先验信息“正则化”估计结果,避免极端值。例如,保险精算中估计罕见事件(如重大自然灾害)的发生概率,历史数据有限,引入行业平均概率作为先验能显著提高估计的稳定性。需要融合多源信息:当存在历史数据、专家意见等先验信息时,BE能自然地将这些信息与当前数据结合。例如,新药临床试验中,一期试验样本量小(n=30),可以用二期试验的历史数据作为先验,得到更可靠的疗效参数估计。需要量化参数不确定性:在风险分析、决策优化中,仅知道参数的点估计是不够的,还需要知道参数的分布。例如,资产组合优化中,贝叶斯估计可以给出预期收益率的后验分布,进而计算不同置信水平下的最大回撤,帮助投资者更全面评估风险。4.3一个金融实例:信用评分模型中的对比假设我们要构建一个个人信用评分模型,估计违约概率的Logistic回归系数。训练数据是某银行过去2年的1000条贷款记录(n=1000),变量包括收入、负债比、历史逾期次数等。用MLE:直接最大化对数似然函数,得到各变量的系数估计值。由于样本量较大,MLE的标准误较小(系数估计较准确),模型的预测效果主要依赖当前数据。用BE:假设系数服从正态先验(比如均值为0,方差较大的无信息先验),通过MCMC方法得到后验分布。如果我们有行业经验(比如“收入越高,违约概率越低”),可以将收入变量的先验均值设为负数,方差设小(强先验),这样后验系数会向先验均值收缩,避免因数据噪声导致系数符号错误(比如收入系数估计为正,这显然不合理)。此外,贝叶斯模型还能给出每个系数的95%可信区间,帮助我们判断变量是否显著(若区间不包含0,则变量显著)。五、优缺点对比:没有“最好”,只有“最适合”5.1MLE的优势与局限优势:计算简单高效:对于大多数常见模型(如线性回归、指数分布),MLE有解析解;即使需要数值优化,现代计算工具(如Python的scipy库)也能快速求解。大样本下表现优异:渐近无偏、有效、正态的性质,让MLE在大数据时代成为“默认”选择,尤其在机器学习的参数训练中广泛应用。结果直观易解释:点估计的结果符合人类“找一个确定值”的直觉,便于报告和决策。局限:小样本下不稳定:容易受异常值影响,可能出现“过拟合”(估计值偏离真实值)。例如,用5个数据点估计正态分布的方差,MLE会低估真实方差(因为分母是n而非n-1)。无法利用先验信息:在信息有限时,可能浪费宝贵的历史经验或专家知识。不确定性表达间接:虽然可以通过标准误或置信区间(基于渐近正态性)描述不确定性,但这些都是近似,小样本下误差较大。5.2BE的优势与局限优势:灵活融合先验信息:无论是客观的历史数据,还是主观的专家经验,都能通过先验分布纳入模型,提升小样本下的估计精度。直接量化不确定性:后验分布天然包含参数的概率信息,可信区间比MLE的置信区间(基于频率学派的重复抽样思想)更易解释(“参数有95%的概率在区间内”vs“95%的样本会生成包含真实参数的区间”)。贝叶斯推断的一致性:随着数据量增加,后验分布会收敛到MLE的结果(先验的影响逐渐消失),体现了“数据主导”的客观性。局限:计算复杂度高:高维参数或非共轭先验下,后验分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论