机器学习系列之一:mHC对Barra机器学习因子的改进-_第1页
机器学习系列之一:mHC对Barra机器学习因子的改进-_第2页
机器学习系列之一:mHC对Barra机器学习因子的改进-_第3页
机器学习系列之一:mHC对Barra机器学习因子的改进-_第4页
机器学习系列之一:mHC对Barra机器学习因子的改进-_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告/金融工程研究报告mHC对Barra机器学习因子的改进 相关报告本报告提出并验证了将流形约束超连接(mHC:Manifold‑Constrained流程的可行性与效果。相关报告针对金融数据的低信噪比、非平稳性与极端尾部行为,我们从模型拓扑与几何约束两方面入手:在传统MLP的基础上引入多流残差通道、扇入/扇出门控映射以及对残差混合矩阵的双随机流形投影(通过Sinkhorn‑Knopp实现以限制层间变换的谱范数并将映射约束在输入凸包附近,从而实现数值稳定性与抗外推能力的提升。实验使用2014–2025年A股全市场截面数据(剔除停牌与ST长期稳定性——自相关随滞后期的衰减速度明显低于无约束MLP,说金面或极端微盘博弈驱动的短期行情中,因其平滑与守恒特性,可能弱化对瞬时套利信号的响应,从而在部分时间段内表现落后于激进的无约束模型。对量化研究方法论启示与工程建议包括:对深层网络引入流形约束可显著提升数值稳定性并减少对噪声的过拟合,但在低维输入与浅层网络场层抽样、样本加权与滚动再训练策略以保持子群代表性;若目标是同时兼顾短期收益与长期稳健,可采用模型集成或时序加权合成,将mHC用于稳定化长期信号提取、将裸MLP用于捕捉短期交易机会,再通过风控规则动态切换或加权。 3 52.1.超连接(Hyper- 5 52.3.参数初始化与冷启动策略 6 73.1.长期风险模型构建与残差收益剥离 3.2.机器学习模型滚动训练 3.6.机器学习因子的表现 124.1.动态路由机制:多流交互与非线性映射 4.2.流形约束:Sinkhorn-Knopp投影与双随机矩阵 4.3.深度堆叠:从浅层感知机到深层流形网络 4.5.模型适用性边界分析 20 22 22 4 在过去的十多年里,量化研究从以线性多因子框架为主,逐步向深非线性交互与复杂结构关系演进。这一转变的核心动因捕捉高阶因子交互与微观结构异质性上的限制。然而,深度模型提出了严苛挑战,主要集中在极低的信噪比、首先,金融市场的信号强度普遍偏弱。与图像不同,因子与个股收益之间的统计关联通常很微弱且时变。一个在过命信号”使得模型在训练阶段极易将偶发的其次,数据的非平稳性和偏态分布加剧了建模难度。收与异方差特征,截面因子的分布会随时间或者事件发生结训练)在金融截面问题上不再可靠,因为它们隐含的数据的可用标签远少于标准监督学习任务,标签本身受到成交息等噪声污染。再者,常见的数据泄露、幸存者偏差以及这些因素合力放大了“高容量模型”的风险:当网络的深度与宽度增长时,参数空间迅速膨胀,模型具备记忆训练噪声的能力,从而出现过拟合与对偶参数放大导致的数值不稳定:未经约束的线性变换矩阵在多层征”,这些特征在未来周期不可复现,造成显著样本外性传统的交叉验证方案在金融时序任务中需要严格的时间顺序保留、purging与foldCV直接套用到时间序列与截面数据上,常常导致未来信息泄露,从而无法反在此背景下,单纯依赖模型容量扩展(加深网络、增加宽度)并不健的Alpha。需要从模型结构与先验约束层面引入更强的归纳偏置以对抗噪声与不引入数值稳定性的约束(如限制线性变换的谱范数、使用双随机或正交矩阵投影)通过非负性、凸组合等结构性限制,使得特征变换更在训练与评估流程中采用金融专用验证策略(滚动回测、时间序列交叉验证、以捕捉复杂交互,但同时又要保证对噪声与分布漂移的抵抗力式往往倾向于通过增加参数量(宽度与深度)来提升拟合能力信噪比的数据环境下,这种“暴力美学”往往适得其反。过大的假设空间使得模型极易记住训练集中的随机噪声,导致样本外预测崩光点”。非负且行列和为一的变换。这一约束带来两个直接收益:一是现“非扩张”传播,避免信号在深层网络中被指数级放大;二是变换可解释为输入通道的凸组合,使得输出保持在输入凸包内,天然抑制过度外推行为。波动更小)及更小的极端回撤风险。这些都是量化造成可微模块,支持端到端反向传播。报告中给出具体的初始化与冷与完全无约束的宽网络不同,mHC引入的是一种“有界的表达空间”——在允许高维交互的同时,通过流形约束限制可能的线性混合形互的能力,又避免了无序参数扩张带来的噪声放大。本章将介绍mHC的在大语言模型训练中的理论框架,本章节重点关注Sinkhorn-2.1.超连接(Hyper-Connections)的拓扑结构DeepSeek的mHC架构是对传统残差网络(ResNet)的一次拓扑重构。在标准后的新特征再通过“扇出映射”H_post广播回n个子流中1.并行通道:多个子流允许网络在不同通道中维护独立的特征表示,避免了单一2.动态路由:通过可学习的混合矩阵,网络可以动态地决定信息在不同子流间的为了在深层网络中保持信号传播的稳定性,mHC引入了两组关键的几何约束,分在无约束的深层网络中,信号经过多次线性变换后容易出现数值爆炸或梯度消失。这意味着混合矩阵必须满足三个条件:所有元素非算法实现:在训练过程中,通过Sinkhorn-Knopp算法对参数矩阵进行迭代式的行归一化和列归一化,使其快速收敛到双随机流的谱范数(<=1为构建超深层网络提供了坚实的数扇入映射H_pre和扇出映射H_post的参数必逻辑解释:非负性确保了特征的聚合是基于“加权累加”而非“差分抵消”。这使得输在金融模型的训练初期,保持梯度的流动性至关重要。Linear(x)+β渐增大,网络开始学习复杂的非线性路由。经典Barra模型构建过程中一直贯彻和使用线性约束与DeepSeekmHC的流形约束在数学本质上的“神似”之处。两者都试图通过“归一化”或“守恒”的手段,来解决一个发散的问题。但在具体的数学构造、物理含义以及在模型中起到 mHC:在深层网络中,如果残差连接矩阵是任意的,信号经过几十层传播后会发散如果你按市值持有全市场,你的超额收益(相对市场因子)应该是0。mHC:强调也不应该凭空消失(衰减只能重组。“异”:数学构造与物理含义的云泥之别:尽管哲学一致,但在具体落地时,两者是权重不同:市值加权vs.均匀加权这是最本质的区别票(大市值公司)对约束的贡献更大。Barra承体市场效应”。mHC(双随机矩阵):mHC的Sinkhorn约束是的求和是不带外部权重的(或者说是位是平等的。它不关心哪个流代表“大市值”,哪个代表“小市值”,它只关心流与流符号不同:多空vs.非负Barra它像是在倒水,把这一层的特征“倒”到下一层,水流不能是负的,而不是在经典的Barra风险模型框架下,因子收益通常通过横截面回归(Cross-Sectional 例如,“估值因子”的有效性往往是非线性的——极度低估的股票可能不仅不回归,反而面临“价值陷阱”的风险;同时,因子之间存在显著的交互效应,如“动量因子”传统的线性经验人工构造大量的交叉项(InteractionTerms)来试图捕捉这些规律,为一个整体的市场状态“指纹”。模型能够“端到端”地学习出这些因子在不同市场环境下的非线性组合规则,从而捕捉到线性模型无法触及的高阶Alpha信息。该模型的解释变量由三部分构成:1个国家因子捕捉市场整体反映全市场股票共同波动的食品饮料公用事业休闲服务表3:长期风格因子(15个)历史市场贝塔,衡量系统性标杠杆历史盈利的稳定性与波动程度程度(Accruals)通过对全市场个股进行逐期的横截面回归,我们将个分和特质收益部分。回归后的残差项,即为个股在剔除了市场、行业及主流风格影含了当前线性模型未能解释的非线性Alpha信息,因此被选定为后续机器学习模型的预测目标。下一期的个股残差收益率。为了捕捉不同时间72个月的长窗口旨在学习跨越牛熊周期的稳健规律,36个练频率设定为月度,即在每个月月末,利用最新的回这种多周期的训练架构,本质上是在偏差与方差每个月度节点,三个独立训练的MLP模型(72m股残差收益的预测值。由于不同训练窗口下的模型对数据的敏感度不的预测值在分布和量纲上可能存在差异。因此,首先对三个预测向量分Z-Score标准化处理,使其均值为0,标准差为1。随后,将标准化后的三个指标合合成方法采用等权平均或基于历史IC的加权平均。这一合成步骤有一模型的预测噪声,集成了不同时间跨度下的非线输出的合成因子仍可能在统计上与输入的风格因子存在线性的相关性(即“因子泄短期换手等)以及经过正交化处理的机器学习因子。通过全市场的横截面回机器学习因子的回归系数即为其“纯因子收益率”。有已知风险(包括长期和短期风格)后,是否依然具备显著的超额收益获取能力。CNEX模型中成功上线。初步回测结果显示,该因子在剥离了所有已知风险后,依标为0.45。这些结果充分验证了利用深度神收益之间非线性关系的有效性,为量化投资策略提供了新的Alpha来线性的、微观的规律。如果我们像Barr双随机约束迫使模型必须公平地对待每一个“隐式因子流”,这有助于在中小盘股或特定风格上挖掘出大票掩盖掉的Alpha。的风格切换是非线性的(例如:资金从“成长”流出,可能不是流向“价值”,而是流4.1.动态路由机制:多流交互与非线性映射传统的MLP层在处理特征时,通常采用全连接的方式,即所层都进行全局混合。这种方式虽然具备极强的拟合能力,但在低信噪比的金中,容易导致模型无法区分有效信号与噪声,从而产生过拟合。mHC引入了动态路由机制,通过`mHC_Layer`将单一线性混合流:由残差连接矩阵H_res控制。它负2.非线性激活:F是标准的MLP块(Linear->ReLU->Linear负责提取高阶3.扇出:H_post将提取的特征广从而在捕捉复杂规律与抑制噪声传播之间取得在深度网络中,随着层数的增加,参数矩阵的连乘往往会导致梯度的爆炸或消失,这在金融时间序列预测中尤为致命。为了解决这一问题,mHC对残差连接矩阵我们将H_res约束在Birkhoff算法通过交替对矩阵的行和列进行归一化,能够快速将任无任意实数空间这一约束在数学上保证了信号在网络层间传播时的非扩张性,即输入信号的能量得益于流形约束带来的数值稳定性,我们能够显著增加网络合和训练不稳定的问题。而在mHC架构下,我36到简单的风格的线性关系,而第5-6层则能抽象出如“在流动性紧缩环境下的高估值小盘股反转”这类复杂的非线性模式。我们在2014年至2025年的A股该股票样本为所有的A股上市公司包含北交所股票,剔除停牌及S样本个数的变化会对基于MLP的因丰富的横截面信息与更高的特征多样性,能够降低模型方差、更大容量的网络提供训练数据支持;但同时也可能引入更多异质样本收缩则会增加过拟合风险、削弱对小盘或新上市样本的代表性,体现,说明其根源主要在模型结构与正则化策略的差异,而非单一训对比未加入mHC的MLP因子与加入mHC后的因子在每一截面日期上的rankIC,我们发现多数日期两者的相关性均超过0.3(显著相关但相关性并不稳定,共同信号基底:两组模型使用相同输入特征与标签,因而在大多MLP更易放大短期资金面或极端样本的交易信号,这在波动或极端事件期会放大二者输出的差异;非平稳与市场分期效应:不同年份市场结构、流动性与对比未加入mHC的MLP因子与加入mHC后的因子各自的截面自相关随滞后252天左右时降至约0.2;但整体上,加入mHC的因子随滞后衰减更慢、长期自等价于对因子信号施加一定的低通滤波,使得长期持久的结构性信号得以保短期冲击被快速衰减;用,从频域角度更有利于保留低频(慢变)成分,因而子流集成与方差缩减:mHC的多流/集成式路由将信息在子流间平滑分型集合的方差缩减效应,减少了单一极端样本或事主要在2023年下半年以来,mHC模型因子收益率表现出了一定的波动这类行情往往由资金面博弈与高频量化交易主导,具有极强的缺乏基本面逻辑支撑。mHC的核心机制——流形约束与双随机投影,本质上是一这种“保守”的特性虽然在长期保护了模型免受噪声干扰,但在市场由纯资金博弈主导的短周期内,mHC可能会因为过滤掉了这些高波动的短期信号而显得“反应迟格因子。在因子拥挤度极高的环境下,单纯的模型结构优化面临边际效此外,深层网络对历史长期规律的深刻记忆,在掘中的适用边界。本研究中部分实验组(尤其是浅层网络对照组<6层)的浅层网络中,信号路径短,数值不稳定性尚未显现。此时引入mHC示,mHC的优势随着网络深度的增加而呈现非线性增长,这表明其更适合用于构mHC架构最初是为大规模预训练模型设计的,旨在提升高维特征空间中的逻辑推征能力瓶颈并不在于拓扑结构,而在于信息含量本身。在低维任务扩展率(n)是mHC的核心超参数。DeepSeek理论推导表明,当n=1时,双随机Sinkhorn-Knopp投影算法虽然收敛速度快,但仍会引入约5%-10%的额外训练耗理那些对稳健性要求极高、且数据分布存在显著非平稳比。尽管在当前的实验设置下——受限于网络深度(6层)与输入特征维度(风格因子)——mHC暂未在纯因子收益率指标上取得压倒性的优势,甚至在特定市场环境下表现出一定的滞后性,但这一在金融领域应用的核心矛盾,并为下一代量化模型的设计提供了极究者们不断增加模型的容量,试图通过更复杂的函数即逝的Alpha。然而,金融数据固有的低信噪比和非平稳性使得这一路径充满了陷阱:过强的拟着对噪声的过度记忆,导致模型在样本外迅速失效。本研究引入mHC的初衷,正是为了对抗这种“过拟合-欠拟合”的二元困境。mHC并非简单地增加参数,而是引入了物理学意 通过多流动态路由,允许模型在不同的特征子空间中观结构的异质性。这一设计在数学上保证了信号能量在深层网络传播中的非扩张性,在金融语义下,则对应着对极端风险的内生性控制。我们的实验结果证实了这一点:mHC模型在mHC的核心优势在于解决深层网络(如50+层)中的梯度消失与信号崩塌问题。在DeepSeek的原论文中,mHC是为了优化数十亿参数的大语言模型而设计的。“长程稳定性保障”显得多余。这就像在平坦的城市道路上驾驶一辆配备了全地结构不仅无法发挥优势,反而可能因为额外的摩擦损耗(双随机矩阵约束本质上是一种强力的平滑算子。它倾向于将输出特在短期内通过过拟合这些极端特征获得高收益,尽管这种收益往往不可持续。在金融AI领域,我们常说“数据决定上限,模型逼近上限”。但mHC告诉我们,“约束决定底线”。Birkhoff多面体约束提供了一种强有力的归纳偏置:它假设市场信息的变换应当是守恒的、概率性的转移,而非任意的线性扩张。这种基于第一性原理的假设,比单纯的L1/L2正则化更符合金融系统的物理直觉。传统的深度学习模型是黑盒,我们只能通过SHAP值等事后手段进行解释。而mHC的动态路由矩阵提供了内生的可解释性。通过观察境下的分布,我们可以直观地看到模型是如何在“动量流”、“价值流”与“情绪流”之 往有害)的情况下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论