机器学习应用系列：强化学习驱动下的解耦时序对比选股模型

上传人：b*** IP属地：广西上传时间：2026-03-05 格式：DOCX 页数：31 大小：2.76MB 积分：22 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u深度学习模型简介 1TCN时间卷积网络模型 2TransFormer模型 4残差网络模型 6对比学习 8强化学习近端策略优化（PPO） 9空间编码器构建 10市场维度特征提取：空间 11个股特异特征提取：alpha空间 12个股基本面特征提取：Theta空间 15空间融合初探 17强化学习空间融合 20模型测试与指数增强策略 23沪深300指数增强 234.2中证1000指数增强 25总结与展望 27风险提示 28图目录图1：强化学习驱动下的解耦时序对比学习(DTLC_RL)网络结构图 1图2：TCN整体架构 2图3：TCN模块结构示意图 3图4：TransFormer网络结构 4图5：self-attention机制 5图6：Multi-HeadSelf-Attention结构 6图7：门控残差网络层归一化结构 7图8：对比学习结构 8图9：正负样本对构造过程 9图10：强化学习机制 9图11：PPO/PolicyGradient更新流程 10图12：Beta空间编码器构建：TCN 11图13：Beta空间编码器构建：TCN 12图14：Alpha空间编码器构建：多尺度13图15：Alpha空间信息与Barra因子相关性 14图16：Alpha_Transformer多头超额走势 15图17：Alpha_Transformer多头分年度超额走势 15图18：Theta空间编码器构建：门控残差16图19：Theta空间信息与Barra因子相关性 17图20：DTLC_Linear模型结构 18图21：DTLC_Linear分组测试 19图22：DTLC_Equal分组测试 19图23：DTLC对照组整体超额表现 19图24：DTLC对照组分年度超额表现 19图25：PPO强化学习空间融合示意图 20图26：DTLC_RL因子IC表现 22图27：DTLC_RL分组测试 22图28：DTLC融合模型相对万得全A超额走势 22图29：DTLC_RL多头分年度超额净值 23图30：DTLC_RL沪深300指数增强表现 24图31：DTLC_RL沪深300指数增强超额情况 24图32：DTLC_RL沪深300指数增强表现（近一月） 25图33：DTLC_RL沪深300指数增强表现（近三月） 25图34：DTLC_RL沪深300指数增强表现（近一年） 25图35：DTLC_RL沪深300指数增强表现（近三年） 25图36：DTLC_RL中证1000指数增强表现 26图37：DTLC_RL中证1000指数增强超额情况 26图中证1000指数增强表现（近一月） 27图中证1000指数增强表现（近三月） 27图中证1000指数增强表现（近一年） 27图中证1000指数增强表现（近三年） 27表目录表1：Multi-Transformer模型量价时序特征列表 11表2：Beta_TCN回测结果 12表3：Multi-Transformer模型量价时序特征列表 13表4：Alpha_Transforme回测结果 14表5：Alpha_Transformer因子10分组表现 15表6：Theta空间编码特征列表 15表7：Theta-ResMLP回测结果 16表8：DTLC非强化学习融合方式回测结果 19表9：DTLC非强化学习融合方式分年度超额对比 19表10：DTLC_RL回测结果 22表11：DTLC_RL因子多头分年度表现（超额） 23表12：DTLC_RL回测结果 23表13：DTLC_RL沪深300指数增强效果 24表14：DTLC_RL沪深300指数增强策略分区间回测结果 24表15：DTLC_RL中证1000成分股回测结果 25表16：DTLC_RL中证1000指数增强效果 26表17：DTLC_RL中证1000指数增强策略分区间回测结果 26深度学习模型简介在当前背景下，深度学习与机器学习技术在量化选股领域的主流做法主要沿着两条路径演进：一是对传统多因子模型进行非线性拓展，通过神经网络学习因子间的复杂交互关系，旨在构建对区别于传统多因子的非线性融合模型；二是构建端到端的深度时序模型，直接从量价序列中提取预测信号，端到端的预测未来一定时间长度的收益率，初始的量价时序信息中并不一定需要具备一定的选股能力。这些方法在一定程度上提升了模型的预测能力，但也具备一定的局限性：一方面，多数模型难以清晰分离市场系统性风险、行业联动、个股特质与财务安全等不同来源的收益贡献，导致模型在风格切换时表现不稳定；另一方面，特征表征与因子融合往往采用静态或简单动态权重，缺乏对市场状态的自适应能力，在极端行情下容易失效。图1：强化学习驱动下的解耦时序对比学习(DTLC_RL)网络结构图南证券整理（mrlotstieaigithifcemteri,DTCR，模型的核心设计释性且具备一定环境适应性的选股模型：第一部分，多层次因子解耦与表征学习：DTLC_RL模型构建了三个在数学上正交的潜在表征空间，分别专注于捕捉市场系统风险（β空间、个股特异信号（α空间、与个股基本面信息（θ空间。每个空间均配备经过专门设计的深度编码器（如、Transformer、门控残差MP，以确保从相应数据模态中提取出最有效的特征；第二部分，对比学习增强表征稳健性：为避免模型过拟合于数据噪声，并为后续融合奠定良好基础，我们在每个子空间内部引入对比学习机制。通过构建基于收益率相似性的正负样本对，该机制驱使编码器学习到的表征能够拉近同类样本、推远异类样本，从而显著提升特征在截面上的区分能力与模型在面对未知样本时的泛化鲁棒性。第三部分：正交约束保障因子独立性：DTLC_RL模型设置正交化损失函数，强制要求三个子空间输出的表征向量在统计上接近相互独立。致力于缓解了不同特征空间之间的多重共线性问题，确保了β、α、θ所承载信息的纯粹性与互补性，极大增强了模型的经济含义可解释性，并为动态权重分配提供了清晰、互不干扰的决策基础。第四部分，强化学习驱动空间融合：区别于传统固定权重合成或嵌入可学习线性层学习融合权重的方式，本文主要构建深度强化学习（DRL）智能体作为融合控制器。该智能体以三个子空间表征及当前市场环境状态为输入，通过持续与投资环境交互学习，输出一套随时间与市场状态自适应变化的空间融合权重。TCN时间卷积网络（是一种基于卷积神经网络的时序模型。相较于传统的循环神经网络（，TCN采用了一种新颖的卷积结构，通过扩张因果卷积和残差连接来捕捉时序依赖关系。股票价格波动模式。TCN的设计遵循两个基本原则：1）因果性：网络输出只依赖于当前及过去的输入，不依赖于未来；2）任意长度映射：网络能将任意长度的输入序列映射为相同长度的输出序列。图2：TCN整体架构南证券整理为了实现上述原则，TCN主要依靠两种特殊的卷积操作：因果卷积：在标准的卷积中，某一时刻的输出可能依赖于未来的输入（如果使用对称的填充）。因果卷积通过左侧填充确保卷积核只看到当前时刻及之前的历史信息。因果约束条件为：其中为t

𝑦𝑡=𝑓(𝑥𝑡,𝑥𝑡−1,…,𝑥𝑡−𝑘+1)𝑡−𝑖为历史输入，k为卷积核大小。输出序列𝑌∈𝑅𝑇×𝑑′的每个元素为：𝑡−𝑖𝑘−1𝑦(𝑖)=∑𝑊(𝑖)⋅

+𝑏(𝑖)𝑡 𝑗=0

𝑡−𝑗𝑗𝑊(𝑖)为权重矩阵，𝑏(𝑖)为偏置项。𝑗扩张卷积：积核大小为k，则有效感受野R=1+(k−1)d，总感受野为：𝐿𝑅total=1+∑(𝑘−1)×𝑑𝑙𝑙=1扩张因果卷积为：𝐻𝑙=ReLU(BatchNorm(CausalConv1d(𝑋𝑙,𝑘,𝑑𝑙)))完整残差块为：𝐵𝑙𝑜𝑐𝑘(𝑋)=𝐴𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛(𝑋+𝐹(𝑋))𝐹(𝑋)=𝑊2∗𝜎(𝑊1∗𝑋)图3：TCN模块结构示意图南证券整理TransFormer模型Transformer是一种基于自注意力机制（Self-Attention）的深度学习模型，最初被提出用S（gSt-emMmy、R（tdcuetit）等循环神经网络，sfmer摒弃了递归结构，转而通过自注意力机制实现了全序列并行计算，这显著提升了训练速度。此外，尽管LSTM和GRU通过门控机制缓解了梯度消失问题，但在超长序列中，这两个模型仍可能丢失早期信息；而Transformer的自注意力机制则直接建模模型中任意位置间的关联，无需依赖递归路径，因此相较于LSTM与GRU，更擅长捕捉跨周期的时序规律。图4：TransFormer网络结构南证券整理Transformer的核心模块包括多头自注意力层（Multi-HeadAttention）和前馈神经网络（FFradtk。其输入序列首先通过嵌入层转换为向量表示，并加入位置编码（PositionalEncoding）以保留时序信息。自注意力机制通过计算序列中每个元素与其他元素的相关性权重，动态调整信息聚合方式。具体计算过程如下：（1）自注意力计算给定输入矩阵𝑋，通过线性变换生成查询、键（𝐾𝑒𝑦、值）矩阵：𝑄=𝑋𝑊𝑄，𝐾=𝑋𝑊𝐾，𝑉=𝑋𝑊𝑉其中QK，V分别代表查询（Qy、键（y、值（le）矩阵对应的线性变换矩阵。此外，通过点积𝑄𝐾计算注意力得分，进而得到自注意力值𝑍：( ) 𝑄𝐾𝑇𝑍=𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛𝑄,𝐾,

=𝑠𝑜𝑓𝑡𝑚𝑎𝑥()𝑉√𝑑𝑘其中𝑑𝑘为键向量的维度，用于防止梯度消失，𝑠𝑜𝑓𝑡𝑚𝑎𝑥函数将一组数值转换为概率分布（总和为，放大高分值的相对权重，从而实现注意力得分的归一化。除了上述提及的简单的自注意力计算外，有时也会使用多头注意力机制，即在构建Transformer模型时也会将𝑄,𝐾,𝑉分割为多个子空间并行计算，从而得到数个注意力头𝑧𝑖并拼接，最后通过线性变换矩阵，将拼接结果变换为一个融合了所有注意力头信息的矩阵𝑧：𝑧=𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑(𝑄，𝐾，𝑉)=𝐶𝑜𝑛𝑐𝑎𝑡(𝑧1，……，𝑧ℎ)𝑊𝑂其中，每个注意力头𝒛𝒊独立学习不同子空间的特征表示，𝑊𝑂表示融合后的线性变换矩阵。（2）多头注意力将𝑄,𝐾,𝑉分割为多个子空间并行计算，最后拼接结果并通过线性层融合：𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑(𝑄，𝐾，𝑉)=𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1，……，ℎ𝑒𝑎𝑑ℎ)每个注意力头独立学习不同子空间的特征表示。其中，WO是融合后的线性变换矩阵。图5：self-attention机制南证券整理（3）前馈网络与残差连接自注意力输出经过前馈网络（含𝐿𝑈激活和层归一化（𝐿𝑒𝑁𝑜𝑚，并通过残差连接缓解梯度消失问题。算式如下，其中，𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥)指当前子层（自注意力层或前馈层）输出（如前述提及的𝑧：𝑂𝑢𝑡𝑝𝑢𝑡=𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥+𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥))上述提及的𝑅𝑒𝐿𝑈函数可以通过将负输入置零并保留正输入，提升网格的稀疏性与泛化能力，并促进计算高效性，其算式如下：𝑅𝑒𝐿𝑈(𝑥)=𝑚𝑎𝑥(0，𝑥)图6：Multi-HeadSelf-Attention结构南证券整理门控残差网络（GatedResidualNetworkGRN）是一类针对序列建模与高维特征交互（FusionTransformer,FN（tigmcism）与残差连接（silcnctin，从而能够根据输入数据的重要性自适应调节信息流动，使模型既保持足够的非线性表达能力，又能避免深层网络常见的梯度消失问题。整体而言，GRN可以视为一个可控的前馈网络，网络内部通过门控结构决定多少输入信息保留、多少经过非线性变换后注入输出，能够有效处理金融时间序列中存在的特征异质性、噪声扰动及影响强度随时间变化的问题。（1）特征变换与前馈结构给定输入特征向量x，GRN首先将其映射到一个更高维的表示空间，以增强特征表达能力：𝑥̃=𝑊1𝑥+𝑏1其中：W1x̃为初步提取后的特征表示。随后，x̃通过一个带有非线性激活函数（如E）的前馈网络。𝑠=𝐸𝐿𝑈(𝑊2𝑥̃+𝑏2)这一步的主要功能是增强模型的非线性表达能力，使其能够捕捉特征间隐性的交互关系。（2）门控机制门控机制的核心思想是让网络自适应地决定当前特征需要修改到何种程度。具体而言，GRN使用一个门控向量g对非线性变换输出进行调节：𝑔=𝜎(𝑊𝑔𝑥+𝑏𝑔)其中：𝜎(⋅)为sigmoid函数，其输出范围在(0,1)，可以看作保留比例；𝑔的每个维度决定了对应特征最终输出中保留的权重。逻辑上，门控结构提供了类似LSTM中输入门的作用：当𝑔较大时，网络允许更多非线性变换后的内容进入下一层；当𝑔较小时，网络更倾向于保留原始输入，从而抑制噪声或过度拟合。LeakyReLU(x)={xifx≥0αxifx<0（3）残差连接为了减少深度网络的梯度消失风险，GRN采用残差结构，将原始输入直接并入输出：𝑥̃=𝑠⊙𝑔+𝑥其中：⊙表示逐元素相乘；s⊙g是经门控调节后的新特征；直接加上原始输入x，能保证网络即使在门控关闭时也能稳定传递信息。残差路径提供了类似捷径连接（shortcutconnection）的结构，使GRN可以堆叠更深而不影响训练稳定性。（4）层归一化为了进一步提升训练稳定性，GRN最终对残差输出进行层归一化。𝐺𝑅𝑁(𝑥)=𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥̃)层归一化可避免特征尺度不一致导致的训练不稳定问题，尤其在高维金融时间序列中效果显著。图7：门控残差网络层归一化结构南证券整理对比学习高维度、低信噪比的数据特性，并挖掘出不同股票、不同市场周期间的隐藏关联模式。图8：对比学习结构南证券整理近端策略优化（方法，PPO（的设计及多轮次PPO算法能处理高维状态动作空间和稀疏奖励问题，从而更好适应股票交易中非平稳的市场环境，并实现稳健的交易策略优化。对比学习中最常用的损失函数是InfoNCE：𝑖𝑒𝑥𝑝(𝑓(𝑥)𝑇𝑓(𝑥+)/𝜏)𝑖𝑖=1𝐿InfoNCE=−𝐸[𝑙𝑜𝑔𝑖=1

𝑒𝑥𝑝(𝑓(𝑥)𝑇𝑓(𝑥++∑𝑁

𝑒𝑥𝑝(𝑓(𝑥)𝑇𝑓(𝑥−)/𝜏)]𝑖其中𝑓𝑥)是样本𝑥的特征表示，𝑥+是正样本（与x语义相似𝑥−是负样本（与𝑥语义不同，𝜏是温度超参数。该损失通过stmx形式，最大化正样本对的相似度，同时最小化负样本对的相似度。正负样本对的相似度计算采用余弦相似度：𝑖( ) 𝐮𝐓𝐯sim𝐮,𝐯

=|𝐮||𝐯|温度参数τ控制着相似度分布的平滑程度。较小的τ使分布更尖锐（关注困难负样本τ0.070.1，用于调整模型对困难样本的关注度。𝑠(𝑥,= (sim(𝑓(𝑥),𝑓(𝑦))/𝜏)∑𝑧∈ℬ𝑒𝑥𝑝(sim(𝑓(𝑥),𝑓(𝑧))/𝜏)图9：正负样本对构造过程南证券整理近端策略优化（方法，PPO（的设计及多轮次PPO算法能处理高维状态动作空间和稀疏奖励问题，从而更好适应股票交易中非平稳的市场环境，并实现稳健的交易策略优化。其期望累积回报最大化，目标函数为𝑇𝜃 𝐽(𝜃)=𝐸𝜏∼𝜋[𝑅(𝜏)]=𝐸𝜏∼𝜋[∑𝛾𝑡𝑟𝑡𝜃 𝑡=0其中：𝜃是策略参数，𝜏为轨迹(𝑠0,𝑎0𝑠1,𝑎1,)，𝛾为折扣因子，𝒓𝒕为时刻t的即时奖励。图10：强化学习机制南证券整理策略梯度计算公式为：𝑇𝜃𝛻𝜃𝐽(𝜃)=𝐸𝜏∼𝜋[∑𝛻𝜃𝑙𝑜𝑔𝜋𝜃(𝑎𝑡|𝑠𝑡)⋅𝐴𝜋𝜃(𝑠𝑡,𝑎𝑡)]𝜃𝑡=0𝑨𝝅𝜽(𝒔𝒕,𝒂𝒕)为优势函数，衡量在状态𝒔𝒕下采取动作𝒂𝒕相对于平均情况的优势。PPO核心创新在于引入新旧策略概率比及裁剪目标函数：𝑟(𝜃)=𝜋𝜃(𝑎𝑡|𝑠𝑡)𝑡 𝜋𝜃

(𝑎𝑡|𝑠𝑡)𝐿CIP)=𝑡[𝑚𝑖(𝑡𝜃)𝑡,cli𝑡),1−,1+)𝑡)]其中ϵlip𝑥,𝑎,)=𝑚𝑎𝑥𝑚𝑖𝑥,),)𝑡为t时刻的优势估计值。广义优势估计AE为（其中𝛿𝑡为D残差：∞𝑡𝐴ĜAE(𝛾,𝜆)=∑(𝛾𝜆)𝑙𝛿𝑡𝑙=0

𝑡+𝑙𝛿𝑡=𝑟𝑡+𝛾𝑉(𝑠𝑡+1)−𝑉(𝑠𝑡)𝑡=𝛿𝑡+𝛾𝜆𝑡+1图11：PPO/PolicyGradient更新流程南证券整理空间编码器构建本节主要介绍三个不同空间的特征选取以及空间构造方式，并为后文引入强化学习算法融合三个空间铺垫。在空间融合之前，本文的所有空间均会单独训练以测算不同空间在当前特征及模型设置的条件下是否可以挖掘出与金融原理类似的信息。若无其他说明，本文所有模型（监督学习，非强化学习）训练方式等其他模型设定如下：1）训练数据及数据处理：所有个股过去10年内的时序特征，做5天采样，预测标签为未来一个月(20个交易日)的累计收益；2）训练集验证集比例：80%：20%；时序尺度选择：60天，基本面特征仅包含截面特征；数据处理：（与最后一个时间步比值（均值标准差，基本面特征仅作截面去极值及zse标准化；模型训练及调仓频次：一年更新，月频调仓；模型超参数：batch=截面个股数，lr=1e-4。空间本节主要构造beta险是指那些影响所有股票的共性风险因素，如宏观经济波动、政策变动、市场情绪等。构造5个与市场相关的股票特征用以刻画个股与市场的关联程度。表1：Multi-Transformer模型量价时序特征列表序号特征中文名称特征助记符特征计算方法1收益率暴露beta_mkt个股60日收益率与市场收益率（中证全指）相关系数2波动率敏感度beta_vol个股滚动20日波动率/市场滚动20日波动率（中证全指）3流动性betabeta_liq个股滚动60日换手率变化与市场滚动60日换手率的相关系数4大小盘暴露beta_size个股截面流通市值分位数5市场情绪敏感度beta_sent个股收益率与市场滚动20日波动率的相关系数，窗口计算长度60南证券整理本节主要采用时间卷积网络作为beta空间特征的编码器。输入是上述六个特征构成的60块依次处理1块2块包含两层卷积，配备批归一化和激活函数，并通过残差连接保持梯度稳定。最后，通过全局平均池化压缩时间维度，输出一个32维向量作为beta框架的一部分，通过端到端学习优化参数，同时受正交约束确保与其他子空间解耦。图12：Beta空间编码器构建：TCN南证券整理在无其他空间及其他特征的配合下，本文仅测试beta空间特征及编码器因子信息挖掘情况（Beta_TCN）。整体而言，自2019年1月至2025年11月，Beta_TCN因子IC均值为9.54%，多头组合前10%年化收益率27.73%，相对中证全指年化超额仅14.82%，月均单边换手率0.79X。整体而言Beta_TCN因子具备一定的选股效果。（IC测试中、、分别代表参数在1%、5%、10%的显著性水平下显著，下同，不再特殊强调。）表2：Beta_TCN回测结果ICICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边月均换手率Beta_TCN0.09693.7327.73%27.19%1.0245.80%0.79X、恒生聚源、整理，截至2025年11月28日但本文构造beta空间的目的主要目的是挖掘个股与市场基准之间的关联性，换言之，本文训练出的ta空间编码器（t_CN因子，在具备一定选股能力的前提下，即使没有和后文空间进行正交化操作beta上有较多的暴露BarraBarrabeta、流动性以及残差波动率因子相关性（绝对值较高，其中与beta因子相关性10.99%，与流动性以及残差波动率因子相关性分别为-9.86%与-13.80%beta空间编码器可以挖掘出个股暴露在beta中的相关信息。图13Beta南证券整理，截至2025年11月28日空间4月发布的报告《信息约束与时序截面双流网络模型》中的时序模型，该节针对个股特异特征提取空间（空间）将主要采取上述报告中使用的Transformer13个量价时序特征用以多尺度模型编码，具体特征计算方式及特征设定如下：表3：Multi-Transformer模型量价时序特征列表序号特征中文名称特征助记符特征计算方法1量价背离度pvoT收盘价减去收盘价的5日指数移动平均值后，除以成交量的20日移动平均值2压力支撑效率sse20203流动性冲击系数liqT成交量与昨日成交量差值的绝对值，除以过去20日内成交量序列的标准差4波动率偏度skewT日收益率过去20日内的三阶标准化矩5隔夜跳空强度gapT开盘价减去昨日收盘价，再除以T-1收盘价6波动率期限结构vts过去10日内日收益率序列的标准差除以过去30日内日收益率序列的标准差7量能聚集度vcllT成交量除以过去20日内成交量的移动平均值8收益率波动比rvrT收益率除以过去20日序列日收益率标准差9筹码松动度cslT收盘价减去过去60日收盘价的移动平均值后，除过去60日收盘价的移动平均值10反转效应强度rev过去20日序列中，当日收益率与昨日的日收益率的相关系数11波动率聚集度vclb过去5日内日收益率序列的标准差除以过去20日内日收益率序列的标准差12收益分布峰度kurtosis日收益率过去20日内的四阶标准化矩13流动性冲击持续性lip进三日流动性冲击系数加权求和南证券整理具体模型结构如下：图14：Alpha空间编码器构建：多尺度Transformer南证券整理Transformer4060日，分别表征短、中、长三个不同跨度的时序信息，并分别使用transformer层进行编码处理，随后对transformer层输出的信息以60习参数的门控融合层对三个不同时间尺度的信息进行加权求和，最终引入全连接层输出收益率预测。根据alpha空间的定义，该空间致力于挖掘个股alpha信息，若在无其他空间配合的情况下单独使用该空间进行个股收益率预测任务，也可得到选股效果不错的因子（Al_asfm。自19年1月至025年1月，全A范围内AlrsfmrRankIC表征），多头组合（10%）32.66%，月均单边换手率。整体来看，alpha空间单独具备不俗的收益预测能力，且因子表现具备一定的选股效果。表4：Alpha_Transforme回测结果ICICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边月均换手率Alpha_Transformer0.11374.1932.66%23.04%1.4227.59%0.83X、恒生聚源、整理，截至2025年11月28日Alpha_Transformer4月发布的报PINN信息约束与时序截面双流网络模型》中多尺度Transformer因子的相关测试细节。本文构造Alpha_Transformer因子是否能产生相对市场基准较为稳定的超额，且与市场基准相关性尽可能的低。Al_rsfmer（绝对值较高，相关性分别为-22.78%以及-19.01%Alpha_Transformer因子与beta因子相关性为-7.49%beta_TCN50.56%Alpha空间编码器可以学习到一定程度的个股特异性信息，且与beta间正交融合提供了一定的可解释性基础。图15：Alpha空间信息与Barra因子相关性南证券整理，截至2025年11月28日1202511月，Alpha_Transformer因子相对中证全指数年化超额收益率18.30%，超额收益率年化波动率10.71%；分年度来看，自年20251110.21%，平均超额回撤率8.18%，平均年化超额收益率18.28%。综合超额收益及超额波动率来看，超额稳定年份主要为、、、年因子整体表现波动较大。图16：Alpha_Transformer多头超额走势图17：Alpha_Transformer多头分年度超额走势整理，截至2025年11月28日整理，截至2025年11月28日表5：Alpha_Transformer因子10分组表现年份年化收益率年化波动率信息比率最大回撤率20194.60%7.58%0.616.20%20209.00%9.74%0.929.12%202135.39%15.29%2.3112.95%202216.79%10.17%1.655.90%202324.86%6.65%3.743.90%202422.13%12.58%1.7610.78%202515.21%9.43%1.618.39%、恒生聚源、整理，截至2025年11月28日空间本节主要构造基于个股基本面指标的theta空间，该空间以价值投资理论中安全边际为原则进行构建，旨在为深度学习选股模型提供一个相对稳健基本面系统。在特征工程层面，我们精选了八个核心财务指标作为输入特征。这些指标覆盖了估值、成长、盈利、质量等多个基本面维度，具体特征列表如下：表6：Theta空间编码特征列表序号特征中文名称特征助记符特征计算方法1市盈率pe个股滚动一年市盈率2市净率pb个股滚动一年市净率3ROE均值比标准差roemeantostd个股过去三年单季度roe均值比标准差4股息率dividendyield个股滚动一年股息率5ROE环比roemom个股单季度roe环比变化6EPS同比epsyoy个股单季度eps同比变化7营业利润率operatingprofit个股单季度营业利润率8ROICroic个股单季度资本回报率南证券整理在theta空间的编码器结构方面，我们设计了门控多层感知机作为核心编码器。该架构包含四个关键组件：输入投影层将八维基本面特征映射到统一隐藏空间；门控残差块通过主路径学习特征变换、门控路径动态调制特征重要性，并结合残差连接确保训练稳定性，输出层最终生成theta空间编码向量。图18：Theta空间编码器构建：门控残差MLP南证券整理根据theta空间的定义，该空间致力于挖掘个股基本面信息，若在无其他空间配合的情况下本文单独训练theta空间编码器以实现收益预测任务1月，AMLP（10%）23.88%thetabetaTheta因子多头组37.41%beta0.41X，换手率远远低beta空间因子与空间因子。表7：Theta-ResMLP回测结果ICICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边月均换手率Theta-ResMLP0.04851.8723.88%23.96%0.9937.41%0.41X、恒生聚源、整理，截至2025年11月28日本文构造θ空间的核心目的是系统性地挖掘个股的财务安全边际与抗风险能力。换言之，本文训练出的θ空间编码器，在没有和后文其他空间进行正交化操作的前提下，在具备一定选股能力的同时，理论上应在基本面相关因子上有显著暴露，且与beta空间、alpha空间因子具备较低的相关性。经相关性测试，LP因子与BTOPbeta因子相关性（绝对值）较高，相关性分别为32.42%%、-14.45%、14.95%、-14.53%以及-14.94%；与市值因子、动量因子相关性较低。可见Theta-ResMLP因子主要暴露于BarraTheta-ResMLPbeta_TCN5.37%，与Alpha_Transformer7.73%theta空间编码器可以学习到一定程度的个股基本面信息，且与beta空间编码器、空间编码器学习的信息重合度较低，边际信息提供量较大，这也为后续空间正交融合提供了一定的可解释性基础。图19：Theta空间信息与Barra因子相关性南证券整理，截至2025年11月28日本节主要考虑两类空间对照组融合方式：1）直接对三个空间训练出的因子进行等权求和；2）将三个空间的编码信息进行合并，并通过单层线性层进行处理并接入预测头进行收单本文不再赘述，下面主要介绍方法二：空间线性融合的方法（i。空间线性融合DTLC模型的构造基于前述的三个空间的高维表征，同时每个空间均经过对比学习优化以增强特征区分度。在融合阶段，模型将三个空间的编码直接进行编码信息拼接，输入一个包含线性层和Softmax激活的轻量网络，并动态生成空间权重，进而对编码进行加权融合，最终通过预测头输出收益率预测。训练过程采用多任务损失函数，以信息系数（IC）最大化为核心目标，同时辅以对比学习损失增强特征鲁棒性，并引入正交约束损失确保三个空间表征的独立性，构建端到端的监督学习框架。该模型的主要目的是为强化学习融合版本建立可对比的基准模型，为后文科学评估强化学习融合机制的实际贡献进行铺垫。图20：DTLC_Linear模型结构南证券整理，截至2025年11月28日其中对比学习与正交约束损失设置如下：对比学习正负样本构建方：正样本：2080%设为正样本；负样本：200%设为负样本；对比学习损失函数：正交约束损失：三空间输出编码信息的协方差矩阵非对角线元素平方和。对比学习的主要目的为通过将对比学习损失纳入监督学习整体损失函数的方式，使得三个空间编码器可以更好的区分各自空间的内部样本，而正交约束的主要目的为通过将正交约束纳入监督学习整体损失函数的方式，使得三个空间编码器之间的输出信息尽可能地趋于正交，即相关性趋低。但纳入对比学习约束与正交损失可能会对模型最终表现带来两点影响：1）模型为针对整体损失函数做梯度下降，可能对三空间编码器收益预测能力带来一定负面影响；2）因损失函数中两者的加入会带来空间之间相关性及不同空间内部相关性降低，理论上会提升模型最终表现。合（DTLC_Equal）以及线性融合（DTLC_Linear）1月，DTLC0.120234.35%，多（32.46%0.123934.44%，多头组合年化收益32.95%35.94%0.76%相对于等权求和略有提升，但两模型多头组合表现基本相当。表8：DTLC非强化学习融合方式回测结果ICICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边月均换手率DTLC_Linear0.12394.2532.95%24.39%1.3535.94%0.76DTLC_equal0.12024.0632.46%25.29%1.2840.65%0.71、恒生聚源、整理，截至2025年11月28日图21：分组测试图22：分组测试整理，截至2025年11月28日整理，截至2025年11月28日图23：对照组整体超额表现图24：对照组分年度超额表现整理，截至2025年11月28日整理，截至2025年11月28日根据多头组合超额表现来看（对比万得全A，自9年至5年1月的7年内，、2020、20232024DTLC，其中线性融模型年平均超额收益率19.02%18.84%。表9：DTLC非强化学习融合方式分年度超额对比时间因子名称年化收益率年化波动率信息比率最大回撤率2019DTLC_Equal4.97%8.37%0.598.47%DTLC_Linear6.68%8.26%0.817.24%2020DTLC_Equal11.67%10.42%1.128.44%DTLC_Linear12.57%10.49%1.208.72%时间因子名称年化收益率年化波动率信息比率最大回撤率2021DTLC_Equal38.28%14.68%2.6110.91%DTLC_Linear33.66%14.26%2.3611.14%2022DTLC_Equal27.57%12.50%2.218.98%DTLC_Linear24.82%11.85%2.107.10%2023DTLC_Equal23.80%8.33%2.866.27%DTLC_Linear27.51%7.88%3.494.99%2024DTLC_Equal1.95%23.55%0.0829.24%DTLC_Linear5.46%19.17%0.2924.17%202511DTLC_Equal23.64%12.23%1.939.94%DTLC_Linear22.87%12.58%1.8210.55%、恒生聚源、整理，截至2025年11月28日强化学习空间融合本节将探讨强化学习在空间融合中的效果，即在本文的DTLC模型的三个编码器后引入强化学习动态复权的空间融合机制，而非简单的线性层生成融合权重。该部分的核心创新点为将三个子空间编码与市场环境特征共同输入策略网络，通过近端策略优化（PPO）算法动态生成空间权重，实现自适应加权融合，最终通过预测头输出未来收益率预测，其中强化学习生成动态权重的示意如下：图25：PPO强化学习空间融合示意图南证券整理其中，强化学习PPO决策流程如下：Step1空间编码生成及权重生成：将三个解耦子空间（β/α/θ）的编码向量与当前市场环境特征进行拼接，形成综合状态表征𝑡，并状态表征𝑡输入策略网络（At，经过三层全连接网络非线性变换，并通过Softmax归一化生成三维空间权重𝑎𝑡。Sep2价值网络评估状态：同步将状态𝑡输入价值网络（itic，评估当前状态的价V(𝑠𝑡)，用于后续优势函数计算，衡量当前状态对长期累积奖励的贡献度。Step3加权融合与收益预测：3个子空间原始编码按策略网络输出权重进行加权求和得到融合特征。融合特征通过预测头网络输出个股未来收益率预测𝑦̂𝑡。Step4奖励函数计算：其中𝑅𝐼𝐶表示预测收益与实际收益相关系数，𝑅𝑠𝑡𝑎𝑏𝑙𝑒用以惩罚权𝑡 𝑡𝑡重突变，𝑅𝑑𝑖𝑣用以鼓励权重尽可能分散：𝑡𝑡𝑡𝑦𝑠𝑡𝑑𝑟𝑡=𝑅𝐼𝐶(𝑦̂,𝑦)+𝜆𝑅𝑠𝑡𝑎𝑏𝑙𝑒+𝜆𝑡𝑡𝑦𝑠𝑡𝑑

𝑅𝑑𝑖𝑣𝑡Step5经验存储：将本次交互的元组(𝑠𝑡,𝑎𝑡,𝑟𝑡,𝑠𝑡+1,logπ(𝑎𝑡|𝑠𝑡),V(𝑠𝑡))存入经验回放缓冲区，为后续策略更新提供数据样本。其中logπ(𝑎𝑡|𝑠𝑡)表示策略函数在状态𝑠𝑡下做出动作（生𝑡成权重）𝑎𝑡的概率。Step6定期PPO策略优化：当经验缓冲区积累足够样本后，随机采样批次数据，执行PPO更新：）计算AE优势估计𝑡2）计算新旧策略概率比r(θ)=𝜋𝜃(𝑎𝑡|𝑠𝑡)

(|)；⁄𝜋𝜃

𝑜𝑙𝑑

𝑎𝑡𝑠𝑡计算裁剪策略损失：𝐿𝐿𝐼𝑃=𝐸[mi𝑟̂,𝑐𝑝(𝑟,1−𝜀,1+𝜀)̂)]计算价值损失：

𝐿𝑉𝐹=𝑀𝑆𝐸(𝑉(𝑠𝑡),𝑉𝑡𝑎𝑟𝑔𝑒𝑡)反向传播更新策略网络及价值网络参数。模型（DTLC_RL）1月，DTLC_RL0.125034.77%，月均单边换。整体来看，强化学习融合下的DTLC_RL因子与线性融合下的DTLC_LinearDTLC_RLDTLC_Linear多头表现，换DTLC_LinearDTLC_Equal空间融合机制的加入虽然在方便并没有带来较为明显的增益，但却可以较为显著的提升因子多头组合表现。表10：DTLC_RL回测结果ICICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边月均换手率DTLC_RL0.12504.3834.77%25.41%1.3740.65%0.71X、恒生聚源、整理，截至2025年11月28日图26：因子表现图27：分组测试整理，截至2025年11月28日整理，截至2025年11月28日从因子分组的相对净值表现来看，对比三类不同的DTLC融合模型。可以看出三类模型128月同样出现一定幅度的超因子多头组合超额表现最为突出。图28：DTLC融合模型相对万得全A超额走势南证券整理根据因子多头组合分年度相对万得全A的超额表现来看，自2019年1月至2025年11月的近7年时间内，DTLC_RL因子多头组合均实现正超额，其中2021、2022、2023年超额表现相对较好，相对万得全A超额分别为40.85%、31.04%以及23.80%。截至2025年11月底，今年以来相对万得全A超额23.64%，超额最大回撤9.94%，该最大回撤主要发生在2025年8月。此外由于2024年1月末及0924行情，DTLC_RL因子多头组合在2024年全年超额表现较差，仅实现3.23%超额。表因子多头分年度表现（超额）图29：多头分年度超额净值年化收益率年化波动率信息比率年化收益率年化波动率信息比率最大回撤率20196.29%8.45%0.747.31%202017.32%10.85%1.608.44%202140.85%14.95%2.7310.91%202231.04%12.98%2.398.98%202323.80%8.33%2.866.27%20243.23%23.55%0.1429.24%202523.64%12.23%1.939.94%整理，截至2025年11月28日整理，截至2025年11月28日模型测试与指数增强策略沪深300指数增强在本节中，本文基于DTLC_RL模型构建沪深300指数增强策略。在构建指数增强策略之前，本文分别测试了前文中DTLC融合模型及其子模型分别在沪深300指数成分股内表现。经过回测，在沪深300成分股内，DTLC_RL因子多头组合年化收益率14.73%，最大回撤24.79%，表现优于DTLC_Equal以及DTLC_Linear。表12：DTLC_RL回测结果ICICIR年化收益率年化波动率信息比率最大回撤率年化超额收益率换手率DTLC_Equal0.05491.2212.49%21.80%0.5731.49%0.27%0.73DTLC_Linear0.05901.3713.82%21.13%0.6527.26%1.33%0.78DTLC_RL0.05831.3014.73%21.66%0.6824.79%2.21%0.74、恒生聚源、整理，截至2025年11月28日其中，本文沪深300指数增强策略回测设定如下：个股权重偏离：个股权重偏离不超过1%;3%；成分股权重限制：沪深80%；交易费率：单边千分之二；回测时间1月至今，月频调仓，调仓当日以价格成交。表13：DTLC_RL沪深300指数增强效果年化收益率年化波动率信息比率最大回撤率年化超额收益率DTLC_RL19.26%20.23%0.9526.33%13.72%、恒生聚源、整理，截至2025年11月28日以上述条件测试DTLC_RL因子沪深300指数增强策略。自2019年1月至2025年11月，DTLC_RL因子沪深300指数增强相对指数年化超额收益率13.72%。图30：沪深300指数增强表现图31：沪深300指数增强超额情况整理，截至2025年11月28日整理，截至2025年11月28日28日，DTLC_RL指数增强近一个月、三个月、一年、三年超额收益率分别为-0.87%、1.53%、14.99%以及12.58%（超过一年计算年化收益率，不足一年计算累计收益率。表14：DTLC_RL沪深300指数增强策略分区间回测结果年化收益率年化波动率信息比率最大回撤率年化超额收益率近一个月-0.87%12.34%-0.074.89%3.26%近三个月1.53%13.24%0.124.89%1.12%近一年14.99%16.90%0.8912.58%-0.30%近三年12.58%19.70%0.6424.47%6.92%、恒生聚源、整理，截至2025年7月31日图32：沪深300指数增强表现（近一月）图33：沪深300指数增强表现（近三月）整理，截至2025年11月28日整理，截至2025年11月28日图34：沪深300指数增强

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习应用系列：强化学习驱动下的解耦时序对比选股模型

文档简介

温馨提示

最新文档

评论

机器学习应用系列：强化学习驱动下的解耦时序对比选股模型

文档简介

温馨提示

最新文档

评论

相关文档