机器学习应用系列：T2RL端到端深度强化学习因子挖掘与组合优化框架

上传人：b*** IP属地：海南上传时间：2026-04-28 格式：DOCX 页数：32 大小：2.01MB 积分：22 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u组合构建新范式—深度学习与强化学习方法论融合 1Transformer深度学习模型 2强化学习方法论概述 4常见强化学习模型简介 7因子挖掘模型：融合Transformer和Actor-Critic 13融合和Actor-Critic的模型构建 13融合和结构的因子挖掘模型回测 15组合优化模型：基于Transformer的SAC模型 17基于的模型构建 18基于的强化学习组合优化策略回测 21指数成分股组合测试 23沪深300成分股组合测试 23中证1000成分股组合测试 26总结与展望 29风险提示 29图目录图1：T2RL端到端深度强化学习因子挖掘与组合优化框架 1图2：TransFormer网络结构 2图3：self-attention机制 3图4：Multi-HeadSelf-Attention结构 4图5：强化学习中的马尔可夫决策过程 6图6：策略函数与价值函数 7图7：结合学习对象与环境模型的强化学习算法分类 8图8：DDQN结构示意图 9图9：Actor-Critic示意图 11图10：SAC结构示意图 12图11：融合和Actor-Critic的模型（TFAC）示意图 14图12：Transformer_AC因子IC序列 16图13：Transformer_AC因子分组绝对收益净值 16图14：Transformer_AC因子多头分年度净值 17图15：Transformer因子多头分年度净值 17图16：基于的模型（SAC_TF）示意图 18图17：T2RL组合相对万得全A等权超额净值 22图18：T2RL组合相对组合超额净值 22图19：T2RL组合相对万得全A等权超额净值分年度 23图20：T2RL组合相对组合超额净值分年度 23图21：T2RLHS300相对沪深300超额净值 25图22：T2RLHS300相对TFAC100HS300组合超额净值 25图23：T2RLHS300相对沪深300净值分年度 26图24：T2RLHS300相对TFAC100HS300净值-分年度 26图25：T2RLZZ1000相对中证1000超额净值 27图26：T2RLZZ1000相对TFAC100ZZ1000组合超额净值 27图27：T2RLZZ1000相对中证1000超额净值分年度 28图28：T2RLZZ1000相对TFAC100ZZ1000组合超额净值分年度 28表目录表1：深度学习模型时序特征列表 15表2：TFAC因子回测结果 16表3：TFAC因子10分组表现 16表4：Transformer_AC因子多头分年度超额表现 17表5：Transformer因子多头分年度超额表现 17表6：不同调仓频次下的T2RL组合表现 21表7：不同调仓频次下的T2RL组合分年度表现—相对组合 22表8：不同调仓频次下的T2RL组合分年度表现—相对万得全A等权指数 22表9：因子沪深300指数成分股回测结果 23表10：不同调仓频次下的T2RLHS300组合表现—沪深300 24表11：不同调仓频次下的T2RLHS300组合分年度表现—相对TFAC100HS300组合 25表12：不同调仓频次下的T2RLHS300组合分年度表现—相对沪深300指数 25表13：因子中证1000指数成分股回测结果 26表14：不同调仓频次下的T2RLZZ1000组合表现—中证1000 27表15：不同调仓频次下的T2RLZZ1000分年度表现—相对TFAC100ZZ1000组合 27表16：不同调仓频次下的T2RLZZ1000分年度表现—相对中证1000指数 28组合构建新范式—深度学习与强化学习方法论融合当前，深度学习技术在量化选股领域的应用主要集中于收益率预测这一核心环节。研究者们沿着两条主流路径不断突破：一是对传统多因子模型进行非线性拓展，通过神经网络学习因子间的高阶交互，构建更具表达能力的非线性因子；二是构建端到端的时序模型，直接从量价序列中挖掘预测信号，实现从历史数据到未来收益的直接映射。这些方法显著提升了因子预测的精度，为量化投资提供了更为丰富的信号来源。然而，收益率预测本身并非投资的终点。从因子预测到最终投资组合的构建，中间仍横亘着一道鸿沟：如何将个股层面的预测信号转化为组合层面的权重配置，如何平衡收益与风险、控制换手与成本、应对市场状态的变化，这些问题在传统的预测-排序-加权流程中往往被简化处理，难以实现投资目标的全局优化。换言之，深度学习擅长从历史数据中提炼统计规律，却难以直接输出可执行的交易决策。强化学习的引入恰为这一困境提供了破局之道。作为以序贯决策为目标的机器学习范式，强化学习天然适配投资组合的动态管理场景：智能体以最终收益（或经风险调整）为优化目标，在连续动作空间中学习权重调整策略，能够将交易成本、风险约束等现实因素纳入决策闭环，提供深度学习模型所无法直接贡献的决策增量。基于上述思考，本文构建了一种预测与决策相耦合的两阶段量化选股框架（Two-stageTransformerReinforcementLearningFramework，T2RL）。第一阶段，以Transformer为骨干网络，融合Actor-Critic机制，构建具备投资信号意义的因子挖掘模型（TFAC），在时序表征学习中引入收益方向奖励，使预测目标与投资目标初步对齐；第二阶段，依据预测因子筛选优质股票池，引入基于Transformer的SoftActor-Critic模型（TFSAC），在连续动作空间中动态优化组合权重，实现从收益率预测到投资组合构建的完整闭环，为量化投资研究提供一种新的范式探索。图1：T2RL端到端深度强化学习因子挖掘与组合优化框架南证券整理TransformerTransformer是一种基于自注意力机制（Self-Attention）的深度学习模型，最初被提出用S（gShort-TermMemory）,GRU（GatedRecurrentUnit）等循环神经网络，Transformer摒弃了递归结构，转而通过自注意力机制实现了全序列并行计算，这显著提升了训练速度。此外，尽管LSTM和GRU通过门控机制缓解了梯度消失问题，但在超长序列中，这两个模型仍可能丢失早期信息；而Transformer的自注意力机制则直接建模模型中任意位置间的关联，无需依赖递归路径，因此相较于LSTM与GRU，更擅长捕捉跨周期的时序规律。图2：TransFormer网络结构南证券整理Transformer的核心模块包括多头自注意力层（Multi-HeadAttention）和前馈神经网络（FFradtk。其输入序列首先通过嵌入层转换为向量表示，并加入位置编码（PositionalEncoding）以保留时序信息。自注意力机制通过计算序列中每个元素与其他元素的相关性权重，动态调整信息聚合方式。具体计算过程如下：（1）自注意力计算给定输入矩阵𝑋，通过线性变换生成查询、键（𝐾𝑒𝑦、值）矩阵：𝑄=𝑋𝑊𝑄，𝐾=𝑋𝑊𝐾，𝑉=𝑋𝑊𝑉其中QK，V分别代表查询（Qy、键（y、值（le）矩阵对应的线性变换矩阵。此外，通过点积𝑄𝐾计算注意力得分，进而得到自注意力值𝑍：( ) 𝑄𝐾𝑇𝑍=𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛𝑄,𝐾,

=𝑠𝑜𝑓𝑡𝑚𝑎𝑥()𝑉√𝑑𝑘其中𝑑𝑘为键向量的维度，用于防止梯度消失，𝑠𝑜𝑓𝑡𝑚𝑎𝑥函数将一组数值转换为概率分布（总和为，放大高分值的相对权重，从而实现注意力得分的归一化。除了上述提及的简单的自注意力计算外，有时也会使用多头注意力机制，即在构建Transformer模型时也会将𝑄,𝐾,𝑉分割为多个子空间并行计算，从而得到数个注意力头𝑧𝑖并拼接，最后通过线性变换矩阵，将拼接结果变换为一个融合了所有注意力头信息的矩阵𝑧：𝑧=𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑(𝑄，𝐾，𝑉)=𝐶𝑜𝑛𝑐𝑎𝑡(𝑧1，……，𝑧ℎ)𝑊𝑂其中，每个注意力头𝒛𝒊独立学习不同子空间的特征表示，𝑊𝑂表示融合后的线性变换矩阵。（2）多头注意力将𝑄,𝐾,𝑉分割为多个子空间并行计算，最后拼接结果并通过线性层融合：𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑(𝑄，𝐾，𝑉)=𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1，……，ℎ𝑒𝑎𝑑ℎ)每个注意力头独立学习不同子空间的特征表示。其中，𝑊𝑂是融合后的线性变换矩阵。图3：self-attention机制南证券整理（3）前馈网络与残差连接自注意力输出经过前馈网络（含𝐿𝑈激活和层归一化（𝐿𝑒𝑁𝑜𝑚，并通过残差连接缓解梯度消失问题。算式如下，其中，𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥)指当前子层（自注意力层或前馈层）输出（如前述提及的𝑧）𝑂𝑢𝑡𝑝𝑢𝑡=𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥+𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥))上述提及的𝑅𝑒𝐿𝑈函数可以通过将负输入置零并保留正输入，提升网格的稀疏性与泛化能力，并促进计算高效性，其算式如下：𝑅𝑒𝐿𝑈(𝑥)=𝑚𝑎𝑥(0，𝑥)图4：Multi-HeadSelf-Attention结构南证券整理作为机器学习的一个重要分支，强化学习的发展是不同领域成果的交织。这其中首先包括了现代心理学。1911年，联结主义心理学建立者EdwardThorndike对生物的试错学习做出了以下概括：令生物感到满足的行为会被持续强化，令其感到不适的行为则趋于弱化。这一认识奠定了强化学习奖励驱动行为的底层逻辑。强化学习的数理基础可追溯至20世纪50年代RichardBellman的动态优化框架，其在离散随机过程中体现为马尔可夫决策过程（MDP），核心要素包括状态转移的马尔可夫性、决策影响转移概率及最大化长期回报。1989年，RichardSutton提出时序差分学习，为强化学习算法奠定核心。年代初，GeraldTD-Gammon实现自博弈学习达到专家水平；13年，Mind提出深度Q（，实现从原始像素学习人类水平的Atari双网络结构支持连续动作空间，A3CPPO算法相继问世，至今仍被广泛应用。强化学习有别于其他机器学习范式的应用情境，首先在于解决序列决策问题，强化学习处理的并非单一的输入-输出预测任务，而是跨越时间步的连续决策过程。通过智能体与环境的交互理解，智能体将能够学习如何不被单一时间截面上的收益最大化束缚，从而进行长远规划。在此基础上，强化学习能够学习探索与利用的权衡，也能处理诸如围棋这样的稀疏奖励问题。（1）模型结构强化学习的整体框架以智能体-环境（Agent-Environment）交互为核心，描述了一个智能体如何在动态环境中通过持续试错来学习最优行为策略。与监督学习的静态数据集不同，强化学习的数据本身由智能体与环境的实时交互动态生成，这使得其框架结构具有鲜明的闭环反馈特征。为了对这一交互过程进行严格的数学描述，强化学习引入了马尔可夫决策过程（MarkovDecisionProcess,MDP）作为其形式化框架，后续所有算法的设计均建立在这一基础之上。MDP用五元组(𝑆,𝐴,𝑃,𝑅,𝛾)对智能体与环境的交互过程进行完整刻画，各要素定义如下：状态空间S（StateSpace）指环境在任意时刻所处情况的完整描述。状态可以是离散的（如棋盘上棋子的位置，也可以是连续的（如市场中股票组合的收益率。MP的核心假状态与动作，与历史无关：𝑃(𝑠𝑡+1∣𝑠𝑡,𝑎𝑡,𝑠𝑡−1,𝑎𝑡−1,…)=𝑃(𝑠𝑡+1∣𝑠𝑡,𝑎𝑡)这一假设大幅简化了问题的求解复杂度，是MDP框架得以有效运作的前提。动作空间A（ActionSpace）指智能体在给定状态下可执行的所有合法动作的集合。动作空间的结构对算法选择有直接影响：离散动作空间适合基于价值的方法，而连续动作空间则更适合基于策略的方法。状态转移概率𝑃(𝑠𝑠,𝑎)（TransitionProbability）sa后转移至状态𝑠′的概率。在无模型强化学习（Model-FreeRL）中，智能体无法（Model-BasedRL）中，智能体则会尝试从交互数据中估计，用于内部模拟规划。奖励函数𝑅(𝑠,𝑎)（RewardFunction）是环境对智能体行为的即时评价信号，定义了任务的优化目标。奖励函数的设计对强化学习的性能至关重要：设计良好的奖励函数能够有效引导智能体朝目标行为收敛，而设计不当则可能导致智能体学到人类意图之外的捷径行为（dcki折扣因子𝛾∈[0,1]（DiscountFactor）用于衡量未来奖励相对于即时奖励的重要程度。智能体的优化目标是最大化从当前时刻起的折扣累积回报：𝐺𝑡==𝑟𝑡+𝛾𝑟𝑡+1+𝛾2𝑟𝑡+2+⋯=∑𝛾𝑘𝑟𝑡+𝑘当γ趋近于0时，智能体呈现短视特性，只关注即时奖励；当γ趋近于1时，智能体对长期回报给予几乎同等的重视。在实践中，γ通常取0.95至0.99之间，以在长远规划与训练稳定性之间取得平衡。图5：强化学习中的马尔可夫决策过程南证券整理在MDP框架的约束下，强化学习的交互过程可以描述为一个不断循环的四步序列：观察𝑠𝑡→

执行𝑎𝑡→

更新𝑟𝑡,𝑠𝑡+1→

改进𝜋→

𝑎𝑡+1⋯具体而言，在每个时间步t，智能体观察当前环境状态s_t，依据其策略π选择并执行动作a_t；环境接收该动作后，依照转移概率𝑃(𝑠𝑡+1∣𝑠𝑡,𝑎𝑡)生成新状态𝑠𝑡+1，并返回即时奖励𝑟𝑡；智能体利用这一反馈信号更新其内部参数，以期在未来做出更优决策。这一闭环结构持续运转，直至策略收敛至最优。（2）核心模块强化学习框架由智能体与环境两大部分构成，两者通过MDP定义的状态、动作与奖励信号相互耦合。环境（Eirmt：环境是智能体行为的承载体，负责实现MP中转移概率𝑃与奖励函数𝑅的具体逻辑。环境可以是完全可观测的，也可以是部分可观测的。后者通常被建模为部分可观测马尔可夫决策过程（PMP，需要引入如SM、rsfmer的记忆机制对历史信息进行整合以近似还原完整状态。（At块：策略（Policy）策略𝜋是智能体的行为核心，定义了从状态到动作的映射关系。策略可以是确定性的：𝑎𝑡=𝜋(𝑠𝑡)也可以是随机性的，给出在状态𝑠𝑡下采取各动作的概率分布：𝑎𝑡∼𝜋(𝑎∣𝑠𝑡)随机策略因其天然具备探索性而在实践中被广泛采用，PPO、SAC等主流算法均基于随机策略框架构建。价值函数（ValueFunction）价值函数用于评估在特定状态下、遵循某一策略所能获得的长期期望回报，是智能体进行前瞻规划的核心工具。结合MDP的五元组要素，常见的价值函数有两类：状态价值函数𝑉𝜋(𝑠)：评估从状态𝑠出发，遵循策略𝜋所能获得的期望折扣累积回报：∞𝑉𝜋(𝑠)=𝔼𝜋[∑𝛾𝑘𝑟𝑡+𝑘 ∣ 𝑠𝑡=𝑠]𝑘=0动作价值函数𝑄𝜋(𝑠,𝑎)：评估在状态𝑠下执行动作𝑎后，再遵循策略𝜋所能获得的期望折扣累积回报：∞𝑄𝜋(𝑠,𝑎)=𝔼𝜋[∑𝛾𝑘𝑟𝑡+𝑘 ∣ 𝑠𝑡=𝑠,𝑎𝑡=𝑎]𝑘=0两者通过对动作空间𝐴的边际化相互联系：𝑉𝜋(𝑠)=∑ 𝜋(𝑎∣𝑠)𝑄𝜋(𝑠,𝑎)𝑎∈𝐴而两者之差则定义了优势函数𝐴𝜋(𝑠,𝑎)=𝑄𝜋(𝑠,𝑎)−𝑉𝜋(𝑠)，优势函数可以用于衡量某一动作相对于平均水平的超额贡献。图6：策略函数与价值函数南证券整理在明确了强化学习的理论框架与核心机制之后，该部分将对主流强化学习算法进行系统梳理。不同算法在求解MDP的思路上存在根本性差异，理解这些差异不仅有助于把握算法的设计逻辑，也是在实际任务中进行算法选型的重要依据。（lBs基于策略的方法（Policy-Based）以及同时维护两者的Actor-Critic方法。基于价值的方法通过估计动作价值函数Q^π(s,a)间接导出策略；基于策略的方法则直接对策略参数θ进行梯度优化；Actor-Critic方法将两者结合，以价值函数作为策略梯度估计的基准，兼顾稳定性与效率。（MlFe（MlBs如前文所述，无模型方法直接从真实交互数据中学习，适用于环境复杂难以建模的场景；基于模型的方法则通过构建环境的内部模型进行规划，在样本效率上具有显著优势。图7：结合学习对象与环境模型的强化学习算法分类南证券整理按数据使用方式分，算法还可分为在线策略方法（On-Policy）与离线策略方法（Plicy。在线策略方法要求每次参数更新所使用的数据必须由当前策略产生，数据利但引入了数据分布偏移的风险。目前，在金融市场上较为主流的RL算法包括基于价值的DQN，基于策略的PPO和Actor-Critic范畴内的SAC。（1）DQN与DDQN网络核心机制Q网络（DeepQ-Network，DQN）DeepMind提出的一种将深度学习与强化学习相结合的算法，旨在解决高维状态空间下的强化学习问题。的核心思想是直接从原始高维输入（如图像像素、多维市场特征向量中端到端地学习状态动作价值函数通过贪婪策略𝜋(𝑠)=argmax𝑎𝑄𝜃𝑎)隐式导出最优决策。该算法优化的理论基础源于贝尔曼最优方程，最优Q函数𝑄∗(𝑠,𝑎)满足如下递推关系：′𝑄∗(𝑠𝑡,𝑎𝑡)=𝔼[𝑟𝑡+γmax𝑄∗(𝑠𝑡+1,𝑎′)]′𝑎DQN将上式转化为监督学习形式的损失函数，以贝尔曼目标𝑦𝑡=𝑟𝑡+𝛾max𝑎′𝑄𝜃−(𝑠𝑡+1,𝑎′)作为回归标签，最小化当前网络输出与目标值之间的均方误差：2′ℒ(θ)=𝔼[(𝑟𝑡+γmax𝑄θ−(𝑠𝑡+1,𝑎′)−𝑄θ(𝑠𝑡,𝑎𝑡))]′𝑎为了打破数据之间的相关性并提高样本效率，DQN引入了经验回放（ReplayBuffer）机制。智能体在与环境交互过程中，将每一步的转移样本(𝑠,𝑎,𝑟,𝑠′)存储在回放缓冲区中，训练时从中随机采样一个小批量数据进行更新。这种方式不仅减少了样本之间的时间相关性，还提升了数据的利用率，使训练过程更加稳定。尽管最大化操作，容易导致过估计，即对某些动作的价值估计偏高。为了解决这一问题，双重深度Q网络（DoubleDQN，DDQN）被提出。DDQN对目标值的计算方式进行了改进，它将动作的选择和评估解耦——使用主网络𝜃负责选择当前最优动作，再用目标网络𝜃−对该动作进行价值评估：𝑦DDQN=𝑟𝑡+γ𝑄θ−(𝑠𝑡+1,argmax𝑄θ(𝑠𝑡+1,𝑎′))𝑡 𝑎主网络选择动作这种解耦机制有效减少了过估计偏差，提升了算法的稳定性和收敛性能。同时，DDQN保留了DQN中的经验回放和目标网络等关键机制，是一种对DQN的重要改进。图8：DDQN结构示意图南证券整理应用领域DDQN、奖励函数明确、可重复训练的特征天然适合基于价值函数的强化学习。Deepmind发表于2016年的论文《ReinforcementLearningwithDoubleQ-LearningAtari260049达到或超过人类水平，平均得分是人类的约3.3倍。在智能交通信号控制领域，同样凭借其低估计偏差与高训练稳定性的Pri-DDQNlearningadaptivetrafficsignalcontrolstrategythroughahybridagent将交叉路口的实时交通状态建模为强化学习环境并引入优先经验回放机制，则基于此的Pri-DDQN方法相较于最优基线方案将路口平均排队长度降低了13.41%时优化领域，也被用于解决微电网中可再生能源随机性与负荷波动带来的在线调度难题。（2）SAC算法SA（StActCitic由nja等人在8StActCitic:PlicyMaximumEntropyDeepReinforcementLearningwithaStochasticActor》中提出，通过在Actor-Critic动作空间的复杂控制任务中表现尤为突出。Actor-Critic框架Actor-Critic方法是一类将策略优化与价值估计有机融合的算法架构。其设计动机源于对两类经典方法各自局限性的弥补：纯策略梯度方法直接优化策略参数，天然支持连续动作空间，但依赖蒙特卡洛回报估计，梯度方差极高，收敛速度慢；纯价值方法通过价值函数隐式导出策略，训练相对稳定，但难以直接处理连续动作空间。Actor-Critic方法通过引入两个协同工作的功能模块，在两者之间取得结构性平衡。Actor是框架的决策主体，负责参数化并输出策略𝜋𝜙(𝑎𝑠)，直接决定智能体在每个状态下的动作选择。Critic是框架的评估模块，负责估计当前策略下的状态价值函数𝑉𝜋(𝑠)或动作价值函数𝑄𝜋(𝑠,𝑎)，为Actor的策略梯度计算提供低方差的基准信号。Critic的参数通过最（Bootstrapping）方式构造单步目标，无题。Critic告诉Actor当前动作好不好，Actor根据这一评价调整策略，更新后的策略又产生新的交互数据供Critic修正其价值估计，如此交替迭代直至收敛。这一闭环结构是Actor-Critic系列算法（包括A3C、PPO、SAC、等）的共同基础。图9：Actor-Critic示意图南证券整理最大熵强化学习框架标准强化学习的优化目标是最大化智能体的期望累积折扣回报：∞𝐽standard(𝜋)=𝔼[∑𝛾𝑡𝑟𝑡]𝑡=0SAC在此基础上引入策略熵正则项ℋ(𝜋(⋅∣𝑠𝑡))，将优化目标修改为累积回报与策略熵的加权和：∞𝐽(𝜋)=𝔼[∑𝛾𝑡(𝑟𝑡+𝛼ℋ(𝜋(⋅∣𝑠𝑡)))]𝑡=0其中策略熵定义为：

ℋ(𝜋(⋅∣𝑠𝑡))=−𝔼𝑎𝑡∼𝜋[log𝜋(𝑎𝑡∣𝑠𝑡)]𝛼>0为温度系数（mt𝛼较大时，智能体被激励保持高度的行为多样性，探索能力更强；当𝛼趋近于零时，SAC退化为标准的期望回报最大化问题。在实践中，SAC通过对𝛼的自适应调节机制，以目标熵通常设为−dim(𝒜)，即动作空间维度的负值为约束，在训练过程中动态平衡探索与利用的权重：𝛼∗=argmin𝔼𝑎∼𝜋[−𝛼log𝜋(𝑎𝑡∣𝑠𝑡)−𝛼ℋtarget]𝛼 𝑡这一机制使SAC比重，无需人工调节，对超参数的敏感度显著低于其他主流算法。SAC的内部结构SAC在Actor-Critic框架下维护三类网络：策略网络（Actor）𝜋𝜙输出连续动作的概率分布，通常建模为以状态𝑠𝑡采样过程可微分以支持反向传播，SAC采用重参数化技巧（rmteiztinTick，将𝜙：𝑎𝑡=𝜇𝜙(𝑠𝑡)+𝜎𝜙(𝑠𝑡)⊙𝜖,𝜖∼𝒩(0,𝐼)软Q网络（Critic）𝑄𝜓用于估计在最大熵目标下的软动作价值函数。为进一步抑制价值函数高估问题，SAC借鉴了TD3算法中的双Critic机制，同时维护两个独立的Q网络𝑄𝜓1与𝑄𝜓2，在计算贝尔曼目标时取两者的最小值：𝑡=𝑡+𝛾(min𝑄−𝑡+1,𝑡+1)−𝛼log𝜋𝜙𝑡+1∣𝑡+1)𝑗=1,2 𝑗𝑗𝜋𝜙(⋅∣𝑠𝑡+1)为由当前策略采样的下一步动作，Q值中的熵项−𝛼log𝜋𝜙𝑡+1∣𝑡+1)体现了最大熵框架对未来探索价值的显式纳入。两个Q网络各自以均方误差为损失函数独立更新：𝑗2ℒ(𝜓𝑗)=𝔼[(𝑄𝜓𝑗(𝑠𝑡,𝑎𝑡)−𝑦𝑡)],𝑗=1,2与SAC同样依赖回放缓冲区（Buffer）存储历史交互数据(𝑠𝑡,𝑎𝑡,𝑟𝑡,𝑠𝑡+1)，并在每次参数更新时从中随机采样小批量数据。图10：SAC结构示意图南证券整理应用场景SAC臂操作是其典型应用领域之一，这类任务通常具有连续动作空间、环境动力学复杂、探索成Actor-Critic:Off-PolicyMaximumEntropyDeepReinforcementLearningwithaStochasticActorMuJoCo连续控制基准任务（HalfCheetah、AntWalker2d等）中，SAC在样本效率与训练稳定性方面均显著优于DDPG态输入场景，这也使得SAC成为最常见的金融领域强化学习方法之一。因子挖掘模型：融合Transformer和Transformer模型在时序这与投资决策的终极目标——实现收益最大化——存在根本性的差异。为了弥补这一鸿沟，Actor-Critic强化学习框架，奖励函数与未来的价格趋势相关，以尽可能确保预测的收益符号正确，避免错误的选择负收益的股票。若无其他说明，本文所有模型（监督学习，非强化学习）训练方式等其他模型设定如下：训练数据及数据处理：10年内的时序特征，做5天采样，预测标签为未来10个交易日的累计收益。训练集验证集比例：80%：20%。时序尺度选择：时序特征长度40天。数据处理：（与最后一个时间步比值（均值标准差。模型训练及调仓频次：一年更新，10日频调仓。模型超参数：batch=截面个股数，lr=1e-4融合和Transformer编码器和Actor-Critic在将深度时序表征与强化学习的决策优化相结合。模型整体架构如图5所示，主要由状态编码器、ActorCritic网络三个核心组件构成。图11：融合Transformer和Actor-Critic的模型（TFAC）示意图南证券整理TransformerEncoder作为强大的状态编码器，其自注意力机制能够深入挖执行者10日收益率的预测；而Critic（评价者）网络则负责评估该策略在追求收益符号正确这一目标下的价值。通过两个网络的协同优化，使得模型能够精准预测能够带来正收益的股票，为接下来的股票筛选奠定基础AC算法的奖励函数以及训练损失函数。（个体差异惩罚）高股票预测为正收益的准确度，本文设计了方向准确奖励：𝑅={1,𝑖𝑓𝑠𝑖𝑔𝑛(𝑟̂)=𝑠𝑖𝑔𝑛(𝑟)0,𝑒𝑙𝑠𝑒其中，𝑟表示真实的股票收益率，𝑟̂表示预测的股票收益率，𝑠𝑖𝑔𝑛(∙)表示数值的正负符号。上述公式要求计算预测收益率与真实收益率符号一致性，更符合投资实践中方向正确同样重要的原则，也为了接下来的投资组合的股票筛选奠定基础。（2）损失函数设计训练损失函数采用类似多任务学习框架的方式，即结合强化学习与监督学习目标，整合损失函数：𝐿=𝛼∙𝑅𝑎𝑛𝑘𝐼𝐶𝐿𝑜𝑠𝑠

1−𝛼2 ∙(𝐴𝑐𝑡𝑜𝑟𝐿𝑜𝑠𝑠+𝐶𝑟𝑖𝑡𝑖𝑐𝐿𝑜𝑠𝑠)其中𝑅𝑎𝑛𝑘𝐼𝐶𝐿𝑜𝑠𝑠=1𝑅𝑎𝑛𝑘𝐼𝐶torchsortsoft_rank函数计算的可微排名和IC𝐴𝑐𝑡𝑜𝑟𝐿𝑜𝑠𝑠和𝐶𝑟𝑖𝑡𝑖𝑐𝐿𝑜𝑠𝑠ACActorCritic网络的损失函数，目的是方向传播时根据奖励函数进行模型的参数调整。𝛼在本文实验中设置为0.9。本文训练TFAC模型采取的时序特征，包括股票每日基础盘口数据，技术指标以及Barra10大风格因子，具体如下所示：表1：深度学习模型时序特征列表序号特征中文名称特征助记符特征计算方法1开盘价open开盘价2收盘价close收盘价3最高价high最高价4最低价low最低价5成交量vol成交量6均价vwap均价7日换手率turnoverrate日换手率85日指数移动平均线ema5过去5日收盘价的指数移动平均910日指数移动平均线ema10过去10日收盘价的指数移动平均1020日指数移动平均线ema20过去20日收盘价的指数移动平均11离差值dif10_20过去10日收盘价的指数移动平均减去20日收盘价的指数移动平均12信号线dea7基于过去7日DIF值的指数移动平均13MACD指标macd10_20_72倍的DIF值与DEA值的差值14规模size股票总市值的自然对数15非线性市值no_linear_sizesize因子的三次方对size因子的正交增量16贝塔beta股票超额收益日序列和市值加权指数超额收益日序列进行WLS的回归系数，beta表示股票相对于指数涨跌的弹性大小17账面市值比book_to_price上个季度公司净资产除以公司当前的市值18盈利earning_yield0.680.2119成长growth0.180.110.24倍的长期历史净利率加上0.47倍的长期历史销售率20杠杆leverage0.38倍的市场杠杆加上0.35倍的资产负债比加上0.27倍的账面杠杆21流动性liquidity0.35倍的月度换手率加上0.35倍的季度换手率加上0.3倍的年度换手率22动量momentum长期动量减去短期动量，采用指数加权移动平均方法23残差波动率residual_volatility0.740.160.1倍的Beta回归残差年化波动率南证券整理融合和在本节中，本文主要测试了融合Transformer和Actor-Critic的预测因子模型TFAC的选股因子效果，并观察在相同特征相同超参数设定的情况下传统的Transformer模型的表现，用以判定AC结构的适用性。自2019年1月至2026年2月，TFAC因子IC（以RankIC表征）为0.1119，多头组合年化收益率为33.61%，平均单边换手率0.73X，因子整体表现显著优于传统Transformer及其单一监督学习的训练方式（传统Transformer模型因子IC0.0963，多头组合年化收益率31.32%）。（IC测试中、、分别代表参数在1%、5%、10%的显著性水平下显著，下同，不再特殊强调。）表2：TFAC因子回测结果IC年化ICIRTop10%组合年化收益率年化波动率信息比率最大回撤率单边10日平均换手率Transformer0.09634.3331.32%24.93%1.2936.05%0.65XTransformer_AC0.11195.3933.61%23.95%1.4031.61%0.73X、恒生聚源、整理，截至2026年2月27日C（31.61%；空头组合（组年化收益率-21.09%，最大回撤88.01%；多空组合（组1/组年化收69.32%12.18%，该因子整体具备一定单调性。图12：Transformer_AC因子序列图13：Transformer_AC因子分组绝对收益净值整理，截至2026年02月27日整理，截至2026年02月27日表3：TFAC因子10分组表现年份年化收益率年化波动率信息比率最大回撤率Group133.61%23.95%1.4031.61%Group232.64%23.47%1.3932.17%Group329.48%23.24%1.2732.67%Group424.72%22.91%1.0831.06%Group522.48%23.13%0.9731.84%Group618.66%23.19%0.8033.28%Group716.17%23.72%0.6830.76%Group811.88%24.38%0.4933.38%Group95.60%25.66%0.2246.33%Group10-21.09%29.02%-0.7388.01%多/空69.32%15.45%4.4912.18%、恒生聚源、整理，截至2026年02月27日20262AA28.99%11.33%；2022、2023A20%6.39%、3.79%。20262月A17.09%227日，累计超额1.10%1.49%Transformer2026年平均超额收益率.%6年初至今跑赢万得全A指数.%.%。7个完整年份内，TFAC模型因子多头组合有5年跑赢传统Transformer模型因子多头组合。因此整体来看，加入结构的Transformer模型因子表现优于传统Transformer模型。表4：Transformer_AC因子多头分年度超额表现表5：Transformer因子多头分年度超额表现年份年化收益率年份年化收益率年化波动率信息比率最大回撤率201912.84%8.45%1.525.16%202014.63%9.01%1.628.19%202128.99%15.00%1.9311.33%202224.14%11.83%2.046.39%202321.09%7.17%2.943.79%20249.68%21.13%0.4622.19%202524.21%10.76%2.258.07%20261.10%8.32%0.131.49%年份年化收益率年化波动率信息比率最大回撤率201916.55%10.05%1.657.36%20201.39%10.81%0.136.94%202125.49%16.05%1.5914.16%202222.31%10.97%2.0310.75%202319.42%9.46%2.058.49%202415.38%19.15%0.8018.15%202521.49%11.45%1.886.66%20262.99%9.79%0.311.51%整理，截至2026年2月27日整理，截至2026年2月27日图14：Transformer_AC因子多头分年度净值图15：Transformer因子多头分年度净值整理，截至2026年2月27日整理，截至2026年2月27日组合优化模型：基于Transformer的SAC模型在完成了基于TFAC模型的个股收益率预测后，我们面临的下一核心问题便是：如何将这些预测信号转化为可执行的投资组合？传统做法通常采用预测-排序-加权的简化流程——即根据预测收益率对所有股票排序，选取排名靠前的若干只，再按等权或市值加权方式构建组合。这一流程简单直观，却在两个关键环节存在明显不足：其一，权重分配与投资目标相分离，等权或市值加权并未考虑个股间的风险关联与协同效应，难以实现真正意义上的风险收益平衡；其二，决策过程缺乏动态适应性，一旦权重确定便维持至下一个调仓日，无法对市场状态的变化做出及时响应。事实上，从个股预测到组合构建，中间横亘的正是决策这一核心环节——如何根据当前持仓、市场状态及个股预期，动态调整每一只股票的权重，以实现组合层面的收益最大化和风险控制。这正是强化学习所擅长的领域。作为以序贯决策为目标的机器学习范式，强将强化学习直接应用于全市场选股面临两大挑战：一是连续动作空间的维度与股票数量成正比，全市场数千只股票将导致动作空间极度膨胀，模型难以收敛；二是离散动作空间虽可降低维度，却无法实现权重的精细化配置，与投资组合管理的现实需求相悖。基于的模型构建针对上述问题，本章构建了一种基于Transformer的SoftActor-Critic投资组合模型（SAC_TF）。模型首先依据TFAC模型预测的个股收益率进行动态筛选，构建高质量的候选股票池，将动作空间压缩至可控维度；进而以Transformer为骨干网络，利用其在捕捉时序依赖方面的优势对股票特征进行深度表征，SAC算法则在连续动作空间中学习权重分配策略，实现从预测到配置的关键跨越。通过两阶段的分工协作，TFSAC模型旨在探索一条从信号到组合的可行路径，为量化投资提供兼具理论深度与实践价值的决策工具。因此简单来说，整个模型的工作流程分为前后衔接的两个核心阶段：股票初筛与组合优化。图16：基于Transformer的SAC模型（SAC_TF）示意图南证券整理前述深度学习模型筛选模块作为投资流程的预处理环节，核心目标是从全市场动（即股票预期收益，每期据此对所有股票排序并选出排名前N只构成候选股票池。该模块具备三大功能焦优质标的以规避预期表现较差的股票，从源头控制下行风险；三是动态适应，及时捕捉市场风格变化，确保候选池始终与最新预测信号保持一致。（SAF是一个以somr为骨干网络的SAC旨在构建一个能够最大化未来收益和协调风险控制的投资组合。即该模块的训练目标是让SAC模型学会如何分配资产，使得构建的投资组合在能够实现收益的最大化和风险控制。SAC算法通过与环境（模拟真实交易市场持续交互，学习一个随机性策略。该策略函数会根据当前输入的前N的权重向量。这个权重向量即构成了最终的投资组合。（假定投资组合中包含Nt时刻投资组合向量可以描述为：𝑤𝑡

,⋯,,𝑡

𝑁],],∑𝑖,𝑡=1𝑖=1使用𝑐𝑙𝑜𝑠𝑒𝑡𝜖ℝ1×𝑚表示资产的收盘价格序列，m=40表示序列窗口大小，对应收盘价变化量p可以表示为𝑐𝑙𝑜𝑠𝑒𝑡。假设，𝑉为初始资产总价值，c为交易费比例，则经过T=10个t 𝑐𝑙𝑜𝑠𝑒𝑡−1 0 t周期后，投资组合的资产总价值𝑉𝑇可以表示为：𝑇𝑉𝑇=𝑉0∏𝑤𝑡pt(1−ct)𝑡=1（2）奖励函数设计。本文采用对数收益以及方差来设计奖励奖励函数，其平衡了最大化收益以及风险控制。令对数收益𝑟𝑡′=𝛽𝑙𝑜𝑔(𝑟𝑡×(1−ct))，取𝛽=50代表缩放因子，为了防止奖励太小，使得模型难以跳出局部最优。将𝑟𝑡′的方差𝜎2(𝑟𝑡′)定义为投资组合风险价值，则此时奖励函数表示为：1𝑇𝑅=𝑇∑[𝑟𝑡′−𝜃𝜎2(𝑟𝑡′)]𝑡=1其中𝜃可以调控风险占比，以平衡收益和风险。除此之外，强化学习组合优化需要考虑较多的调仓细节，如开盘涨停一字板无法买入，跌停无法卖出；考虑股票隔夜收益率带来的个股权重相对变化等。强化学习SAC_TF决策流程如下：Sep1定义模型结构：（AtQ（iticQ网络，温度参数𝛼（设置为可训练参数，经验缓冲区以及超参数。其中目标AC网络全部为TransformerEncoderQQQ网络。Step2与环境交互收集经验：Agent与环境交互得到经验，并存放至经验缓冲区以便后续AC网络参数更新。首先开始一个新回合，获取初始状态𝑠0，然后在状态𝑠𝑡下使用策略网络生成动作𝑎𝑡，将该动作输入环境并得到下一状态𝑠𝑡+1以及获取的即时奖励𝑟𝑡以及终止标识𝑑𝑡，从而得到多元组(𝑠𝑡,𝑎𝑡,𝑟𝑡,𝑠𝑡+1,𝑑𝑡)，并将该多元组存放至经验缓冲区，执行状态转移𝑠𝑡←𝑠𝑡+1；最后，当经验缓冲区样本量足够时，开始启动采样更新。Step3计算目标Q值：目标Q值用于监督Critic网络的更新，它基于贝尔曼最优方程，并引入最大熵项。首先获取下一状态𝑠‘的动作𝑎‘及对数概率logπ(𝑎‘|𝑠‘)；其次将(𝑠‘,𝑎‘)输入到两个目标Q网络，取输出值之间的最小值；然后结合奖励和熵得到最终目标值：y=r+γ(1−d)(𝑄𝑡𝑎𝑟𝑔𝑒𝑡(𝑠‘,𝑎‘)−𝛼logπ(𝑎‘|𝑠‘))Step4更新Q网络、策略网络及温度参数：两个Q网络通过最小化与目标值的均方误差来更新，策略网络的目标是选择动作以最大化期望回报和熵，即最大化Q(s,a)−αlogπ(a|s)；此外温度参数设置为自动调节，采用自动熵调节，其目标是将策略的熵约束在目标熵附近。Q网络损失函数：𝐿

(𝜃)=1

∑

(𝑠,𝑎)−𝑦)2𝑄𝑖

𝐵 𝜃(𝑠𝑡,𝑎𝑡,𝑟𝑡,𝑠𝑡+1,𝑑𝑡)策略网络损失函数：𝐿𝜋

(𝜙)=1∑(𝛼𝑙𝑜𝑔𝜋𝐵 𝑠

(𝑎𝜙

|𝑠)−min𝑗=1,2

𝜃𝑗

(𝑠,𝑎𝜙))温度参数损失函数，其中是预设目标熵：L(𝛼)=1∑(−𝛼(𝑙𝑜𝑔𝜋𝐵 𝜙𝑠

(𝑎𝜙

𝑠)+))Step5软更新目标网络：QQ网络的参数，而是通过Plyk平均缓慢更新，其中𝑖为目标Q网络参数，𝑖为Q网络参数：𝑖←𝜏𝑖+1−𝜏)𝑖,𝑖=,2强化学习SAC_TF环境搭建及交互流程如下：首先状态重置reset：将日计数器置0，清空历史奖励列表，设置初始状态为过去40天数据，当前持仓为0；Step1TStateActorAction并裁剪归一化并作为+1权重向量Wit（假设强化学习权重日度调仓以开盘价成交，同时获取当日的一字板掩码和涨跌方向;Step2：计算调仓成本。此处考虑是否为新一期10日的开始调仓（因子换手，不设置换手率控制阈值）10日期内的小幅调仓（N只股票内部的权重高低切，考虑双边换手率限制小于等于%，结合涨跌停限制计算交易成本；Step3：根据当日开盘价和收盘价计算每只股票的收益率，得到收盘总资产和收盘后权重；Step4：计算奖励，基于对数收益和风险厌恶系数计算风险调整奖励，即前述奖励函数，此处策略熵定义为策略概率负对数的期望；Step5：状态更新。即状态转移，滑动窗口移除最旧一天数据，加入日新的特征，的决策做准备；Step610及最后一天的持仓信息，用于下一期初始状态基于的TransformerSAC模型的权重优化组合策略（T2RL：TFAC+SAC_TFTFAC因子筛选股票池+SAC_TF权重优化构建组合）效果。具体组合构建流程分为以下两步：10日（T+0收盘）模型因子值筛选出因子值排名前0个股（即=；10日内每日（或其他调仓频次SAC_TFN只股票的调仓权重，并依此规则构建组合。1月至210%以内的情况下，模型的组合年化收益率为63.35%。但实际投资组合构建的情况下，投资者往往难以做到日频调仓且每日进行10%的双边换手，因此本文也测试了在更低频调仓频次的情况下的T2RL组合表现。2日频调仓的情况下，A等权指数年化超额43.98%；350.75%A等权36.44%；445.36%，相对A31.05%5因子预测期日1次的情况下，T2RL39.64%A等权指数年化超额收益率，且同样可以跑赢等权配置的因子的top100（下称AC0。整体来看，强化学习STF（3日调仓为103日调仓且仅调仓3次，41042表6：不同调仓频次下的T2RL组合表现年化收益率年化波动率信息比率最大回撤率相对万得全A等权年化超额收益率相对TFAC100组合年化超额收益率T2RL-单日64.67%24.91%2.6033.96%50.36%31.06%T2RL-2日58.29%24.41%2.3927.98%43.98%24.68%T2RL-3日50.75%24.45%2.0828.17%36.44%17.14%T2RL-4日45.36%24.41%1.8629.90%31.05%11.75%T2RL-5日39.64%24.72%1.6029.92%25.33%6.03%、恒生聚源、整理，截至2026年02月27日图17：组合相对万得全A等权超额净值图18：组合相对组合超额净值整理，截至2026年02月27日整理，截至2026年02月27日整体来看，T2RL组合均可以基本稳定跑赢市场基准指数以及深度学习模型模型多头等权）组合，且随着调仓频次的升高组合表现有所提升，且可以得到以下几点加入强化学习SAF动态权重优化下的组合相对于AC多头等权组合在年2月前后具备较为明显的优势；1月后跑出了较为明显的优势，而更低频次的调仓组合在等权组合；模型失效影响，11等权组合。表7：不同调仓频次下的T2RL组合分年度表现—相对TFAC100组合T2RL-单日T2RL-2日T2RL-3日T2RL-4日T2RL-5日2019年15.16%-0.43%-6.22%-9.23%-10.40%2020年7.80%5.61%-0.59%-3.94%-9.54%2021年42.74%36.93%27.26%22.13%15.50%2022年34.18%31.07%24.29%21.39%14.30%2023年24.91%26.05%20.25%15.93%11.35%2024年47.15%58.71%50.60%38.45%30.15%2025年29.37%-0.94%-7.61%-13.11%-17.47%2026年2月-1.68%-1.97%-2.36%-2.67%-2.60%、恒生聚源、整理，截至2026年02月27日表8：不同调仓频次下的T2RL组合分年度表现—相对万得全A等权指数T2RL-单日T2RL-2日T2RL-3日T2RL-4日T2RL-5日2019年39.78%24.19%18.39%15.38%14.21%2020年39.87%37.68%31.48%28.13%22.53%2021年57.93%52.12%42.45%37.32%30.69%2022年48.09%44.99%38.21%35.30%28.21%2023年27.79%28.92%23.13%18.81%14.22%2024年58.95%70.51%62.40%50.24%41.95%2025年54.44%24.12%17.45%11.96%7.60%2026年2月-0.98%-1.27%-1.67%-1.97%-1.90%、恒生聚源、整理，截至2026年02月27日年，T2RL基本均可以跑赢组合，除202320242023组合TFAC1002A等权超额收益率27.79%，略低于2日调仓下的28.92%。2024年单日调仓组合相对TFAC10047.15%258.71%A等权超额58.95%270.51%227日，T2RL普遍组合以及万得全A等权指数。图19：组合相对万得全A等权超额净值-分年度图20：组合相对组合超额净值-分年度整理，截至2026年02月27日整理，截至2026年02月27日指数成分股组合测试沪深300A成分股内测试不同调仓频次下的组合（T2RLHS300）表现。106.35%，Top10%多头组合相对8.55%ACTransformer成分股内表现优于传统因子表现。表9：因子沪深300指数成分股回测结果ICICIRTop10%年化收益率年化波动率信息比率最大回撤率Top10%年化超额收益率换手率TF3.51%1.0711.76%22.57%0.5034.16%0.20%0.66XTFAC6.35%2.2221.49%20.00%1.0723.17%8.55%0.78X、恒生聚源、整理，截至2026年02月27日本文沪深300T2RL组合构建方式设定如下：10成分股内筛选出因子值排名前的个股；股票池变动及权重调整：10SAC_TF每日/只个股的调仓权重并进行对应权重调整，10因子筛选出新的只个股；3）回测时间：2019年1月初至2026年2月末；4）交易限制：并限制单次调仓双边换手率小于等于10%；交易费率单边0.00025；10成交，只个股做权重调整以开盘价成交。涨停一字板无法买入，跌停一字板无法卖出。整体来看，随着调仓频次的升高，T2RLHS300组合年化收益率有所提升。自2019年1210%的情况下，T2RLHS300组合年化收益率为42.64%日频调仓且每日进行的双边换手，因此本文也测试在更低调仓频次的情况下表现。2日频调仓的情况下，指数年化超额收益25.74%；330.98%指数年化20.17%；426.11%指数年化超额收益率.%5L组合年化收益率.%，相对沪深0指数年化超额收益率.%AC因子的t0组合（下称A10S3。整体来看，强化学习STF模型具备一定的组合权重效果。表10：不同调仓频次下的T2RLHS300组合表现—沪深300年化收益率年化波动率信息比率最大回撤率相对沪深300年化超额收益率相对TFAC100HS300组合年化超额收益率T2RL-单日42.64%19.98%2.1319.85%30.87%20.43%T2RL-2日37.05%19.81%1.8720.84%25.74%15.71%T2RL-3日30.98%19.77%1.5722.63%20.17%10.58%T2RL-4日26.11%19.81%1.3223.45%15.70%6.47%T2RL-5日21.98%19.78%1.1124.64%11.91%2.98%、恒生聚源、整理，截至2026年02月27日图21：相对沪深300超额净值图22：相对组合超额净值整理，截至2026年02月27日整理，截至2026年02月27日表11：不同调仓频次下的T2RLHS300组合分年度表现—相对TFAC100HS300组合T2RL-单日T2RL-2日T2RL-3日T2RL-4日T2RL-5日2019年-1.20%-10.55%-14.23%-20.44%-20.81%2020年26.47%28.64%24.01%18.34%13.08%2021年32.40%26.79%17.96%12.21%7.05%2022年21.53%15.84%10.47%6.46%2.70%2023年24.97%23.36%18.21%14.32%11.66%2024年29.41%24.25%17.78%12.69%6.30%2025年19.79%9.90%4.46%2.75%-1.35%2026年2月2.62%2.00%1.63%1.53%1.31%、恒生聚源、整理，截至2026年02月27日表12：不同调仓频次下的T2RLHS300组合分年度表现—相对沪深300指数T2RL-单日T2RL-2日T2RL-3日T2RL-4日T2RL-5日2019年5.34%-4.00%-7.69%-13.89%-14.27%2020年35.10%37.27%32.65%26.98%21.72%2021年53.93%48.31%39.49%33.73%28.57%2022年31.85%26.16%20.80%16.78%13.03%2023年29.88%28.27%23.12%19.23%16.57%2024年37.51%32.34%25.88%20.79%14.40%2025年20.06%10.17%4.73%3.02%-1.08%2026年2月1.21%0.58%0.22%0.11%-0.11%、恒生聚源、整理，截至2026年02月27日2025年，T2RLHS300TFAC100HS300组T2RLHS300TFAC100HS300237.27%；相对沪35.10%237.27%2日，T2RLHS300TFAC100HS3005T2RLHS300组合跑输沪深。图23：相对沪深300净值-分年度图24：相对净值-分年度整理，截至2026年02月27日整理，截至2026年02月27日中证A成分股内测试不同调仓频次下的组合表现。109.17%，Top10%多头组合相对ACTransformer模型因子成分股内表现优于传统因子表现。表13：因子中证1000指数成分股回测结果ICICIRTop10%年化收益率年化波动率信息比率最大回撤率Top10%年化超额收益率换手率TF7.97%3.0923.78%25.90%0.9239.77%11.71%0.65TFAC9.17%3.9224.31%23.61%1.0335.50%11.85%0.75、恒生聚源、整理，截至2026年02月27日1000T2RL组合构建设定。整体来看，随着调仓频次的升高，T2RLZZ1000组合年化收益率有所提升且组合最大回撤有所降低。自201912的情况下，T2RLZZ100062.68%指数年化超额收益率48.19%top100组合（TFAC100ZZ1000）组合年

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习应用系列：T2RL端到端深度强化学习因子挖掘与组合优化框架

文档简介

温馨提示

最新文档

评论

机器学习应用系列：T2RL端到端深度强化学习因子挖掘与组合优化框架

文档简介

温馨提示

最新文档

评论

相关文档