量化研究系列报告之二十六：强化学习视角下的仓位管理框架构建与实证检验

上传人：b*** IP属地：广西上传时间：2026-06-25 格式：DOCX 页数：28 大小：1MB 积分：18 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

仓位管理问题的重新理解 4强化学习视角下的仓位管理框架 4序列决策视角下的仓位管理 4为什么选PPO算法？ 5端到端：让特征学习为决策服务 7模型实现：从多源特征到仓位决策 7从三类信息刻画市场环境：状态空间设计 8基准指数特征：刻画市场整体状态 8相关资产特征：补充外部市场环境 8风险状态特征的补充说明：CDAP及跨资产确认 9指数成分股特征：观察指数内部结构 11状态表征过程：从多源特征到统一状态向量 11离散仓位决策建模：动作空间设计 13什么算“好决策：奖励函数设计 13训练流程：从数据拆分到策略更新 15时间序列切分 15初始仓位设定：兼顾随机训练与仓位连续性 15PPO训练算法过程 16参数设置与训练控制 17调仓信号与策略表现验证 18模型是否真的学到了规律 18调仓信号：加仓和减仓是否指向未来行情？ 19“仓位延续”模式下的策略表现 21重置仓位：不同初始仓位下的适用性 22在[𝟎,𝟏]约束下：原始信号有效，但重置会削弱策略表现 23在[−𝟏,𝟏]约束下：原始调仓信号的有效性得到更充分体现 23小结：仓位延续更优，但原始调仓信号本身也具备信息量 245总结 246附录 25PPO模型涉及的主要定义与公式 25模型参数与基本设置 27风险提示： 28图表1固定调仓周期下的仓位管理流程图 5图表2强化学习在本文中的对应关系 5图表3PPO整体架构 6图表4端到端训练架构示意图 7图表5基准指数特征列表及释义 8图表6相关资产特征列表及释义 9图表7CDAP风险识别框架 9图表8CDAP风险响应框架 10图表9中证全指应用CDAP回撤框架后的减仓信号 10图表10沪深300应用CDAP回撤框架后的减仓信号 10图表个股特征列表及释义图表12状态表征过程（数据流） 12图表13策略决策与训练闭环流程图（决策流） 12图表14模型训练周期划分示意图 15图表15PPO训练算法过程 17图表16正常的奖励曲线 18图表17波动的奖励曲线 18图表18验证集得分走势 19图表19调仓统计概览 20图表20中证全指收盘价与仓位变动 20图表21大涨大跌期间的仓位择时能力 21图表22中证全指收盘价与仓位水平 21图表23“仓位延续”模式下的策略分年度表现 22图表24最大回撤与净值曲线 22图表25“仓位重置”模式下不同初始仓位下的策略表现（仓位约束：[𝟎,𝟏]) 23图表26“仓位重置”模式下不同初始仓位下的策略表现（仓位约束：[−𝟏,𝟏]) 24图表27PPO训练过程的直观理解 27图表28模型参数与基本设置 28仓位管理问题的重新理解在资产配置与指数增强实践中，择时始终是最具挑战性的核心问题之一。相较于截面选股，择时不仅要求模型对未来收益方向或风险状态作出判断，更要求这种判断能够稳定地转化为可执行的投资决策。对于单一资产指数而言，研究目标往往不止是回答“未来市场会不会涨”，还需要进一步回答“当前应配置多少仓位”。这意味着，一旦进入真实投资场景，择时问题就会自然演化为仓位管理问题。传统的监督学习方法理场景下存在明显局限。某一次判断是否正确”题，而是“在一连串决策中，能否持续做出更合理选择”的问题。正因如此，强化学习为仓位管理提供了一个更自然的建模视角。强化学习（L（vi）（icy（状态动作的基于这一认识，本文不再将仓位管理简单视为单步预测问题，而是将其建模为固定调仓周期下的动态决策过程。本文的研究重点也因此从“预测未来收益率”转向“”“指数下一期涨还是跌”，而是“”。强化学习视角下的仓位管理框架序列决策视角下的仓位管理本文研究的问题是：对于给定的单一资产指数，在每个调仓时点基于当前可观测信息，预测未来一个持有周期内的最优仓位调整动作，从而形成动态仓位管理策略。这里的“最优”并非仅指单期收益最大，而是指在综合考虑未来收益、波动风险、调仓约束与执行可行性的前提下，使策略长期风险收益表现尽可能更优的仓位决策。N日NN个tN描述为一个序列决策过程：何种仓位变动动作，并通过长期累计回报来评价策略优劣。某一时点的预测精度，而是使策略在整个样本区间内获得更优的风险调整后收益表现。图表1固定调仓周期下的仓位管理流程图整理奖励和策略。状态动作对应仓位变动水平，即本次是加仓、减仓还是保持不动，以及调整幅度；奖励对应一个持有周期内的综合表现，由收益、风险、交易成本等共同度量；策略”图表2强化学习在本文中的对应关系整理—仓位决策结果反馈策略更新为什么选PPO算法？策略学习与更新PPO（ProximalPolicyOptimization）（PPOepochPPO（clipratio）“”其次，PPO与本文的离散动作设计天然匹配。本文不直接预测目标仓位，而是4%2%。PPO“”第三，PPO的Actor-Critic结构适合“边决策、边评估”的需求。Actor负责根Critic“”ActorCriticActor“”，Actor只有Actor图表3PPO整体架构整理端到端：让特征学习为决策服务在确定了PPO的输Actor-Critic并不现实。因此，本文在PPO为紧凑的状态向量。整体模型由此形成“特征输入状态表征—PPO决策反馈训练从工程实现的角度，这四个环节对应三个核心组件：时序编码、截面交互和融合后，输出一个状态向量；AorCc（cic通过ActorCritic仓位管理环境（nvnn。三个组件通过一个端到端训练器联合优化，确保特征提取不是“先学好表示再做决策”的两阶段方式，而是直接为仓位管理目标服务。图表4端到端训练架构示意图整理这一设计的核心考虑在于：状态表征和策略决策不应该被割裂。RL（比如——“而是“。模型实现：从多源特征到仓位决策“动作——”从三类信息刻画市场环境：状态空间设计指数本身基准指数特征：刻画市场整体状态”。图表5基准指数特征列表及释义类别指标名称变量名释义日行情基准指数涨跌幅ret_ben基准指数当日涨跌幅截面动量截面收益均值mkt_mom_mean市场中个股在过去一段时间收益率的均值，用于刻画整体赚钱效应截面收益中位数mkt_mom_median市场中个股在过去一段时间收益率的中位数，刻画整体赚钱效应的中枢水平截面波动率截面收益波动率mkt_vol_cs市场中个股在过去一段时间收益率的横截面标准差，用于衡量市场分化程度强势股占比上涨个股占比mkt_breadth收益率大于0的股票在全市场中的占比，用于衡量市场广度风险状态近1个月波动率vol基准指数近1个月收益率的波动率最大回撤max_drawdown基准指数在给定区间内的最大回撤幅度CDAP指标CDAPCDAP=r*|d|^(-sgn(r))计算周期为近1个月。其中，r代表收益率，|d|是最大回撤的绝对值，sgn是符号函数（当r>0时为+1，当r<0时为-1）。CDAP五年分位CDAP_percentileCDAP指标在过去5年样本中的分位排名CDAP分位变化CDAP_percentile_changeCDAP分位排名在过去5个交易日内的变化整理CDAPCDAP𝐶𝐷𝐴𝑃=𝑟×∣𝑑∣−𝑠𝑔𝑛(𝑟)𝑟∣𝑑∣𝑠𝑔𝑛(𝑟)等于“等于收益DAP指标在相关资产特征：补充外部市场环境第二类是相关资产特征，用于补充外部市场环境信息本文将相关资产的收益与风险状态特征纳入输入，用于捕捉跨资产之间的风险传导与市场共振关系。图表6相关资产特征列表及释义类别指标名称变量名资产范围日行情其他资产涨跌幅ret_x恒生指数（HSI.HI）、标普500（SPX.GI）、日经225（N225.GI）、道琼斯美国指数（DJUS.GI）风险状态近1个月波动率vol_x最大回撤max_drawdown_xCDAP指标CDAP_xCDAP五年分位CDAP_percentile_xCDAP分位变化CDAP_percentile_change_x整理风险状态特征的补充说明：CDAP及跨资产确认CDAPCDAP的选取参考了Samir于2025年提出的研究《TheFalsePromiseofDrawdownRules:NewEvidenceandaBetterFrameworkDAPCDAP从定义上看，𝐶𝐷𝐴𝑃=𝑟×∣𝑑∣−𝑠𝑔𝑛(𝑟)，CDAP将收益率与最大回撤结合在一起“收益与回撤共同恶化”。因此，相比单纯使用收益率或波动率，CDAP能够更细致地反映市场风险状态，尤其适合用于识别那些“表面收益尚可、但回撤质量较差”的市场环境。CDAPCDAP恶化程度：结合CDAP图表7CDAP风险识别框架要素1：风险等级22天测量周期，分位计算5年（CDAP越小，分位越小）临界风险CDAP的分位<=1高风险<CDAP的分位<=5较高风险<CDAP的分位<=25正常风险<C低风险CDAP的分位>50要素2：恶化评估：CDAP百分位的变化速率CDAP百分位的五日变化率快速恶化5日内降低>15百分位点要素3：跨资产确认确认高风险相关资产为“临界风险”或者“高风险”整理在风险识别基础上，原始框架还进一步给出了分级响应机制，即根据风险严重程度及确认情况采取不同程度的减仓措施位。图表8CDAP风险响应框架响应框架临界风险+确认高风险减仓25–50（本研究设置为25）临界风险+未确认高风险减仓10–25（本研究设置为15）高风险+恶化趋势减仓1稳定/改善趋势加强监控但不立即采取行动整理为了检验这一框架的适用性，本文按照原文提出的方法在A股及海外市场上500CDAP风险区间，并在市场快速下行阶段发出具有参考价值的减仓信号。在2014年至2026年3月319-。,500,出472015,500,3574.3%。500,300,22546次减仓信号，信号胜率72%。图表9中证全指应用CDAP回撤框架后的减仓信号图表10沪深300应用CDAP回撤框架后的减仓信号进一步地，原始框架中的跨资产确认设计，对本文也有直接启发：风险识别不应只停留在单一指数本身，而应放在更广义的市场网络中理解。CDAP系。由于这套规则框架依赖预先设定的风险分位阈值、恶化速度标准和跨资产确认CDAP指数成分股特征：观察指数内部结构第三类是指数成分股的个股特征，主要用于刻画指数内部结构变化“”，另一方面，如果只使用指数层面的特征，还会面临样本量较小、信息维度有限的问题。率特征、估值特征、指数成分特征以及行业特征。图表11个股特征列表及释义类别指标名称变量名释义日行情日涨跌幅ret个股当日涨跌幅日换手率turnover个股当日换手率动量反转ev_5d个股过去5个交易日累计收益率20日收益率rev_20d个股过去20个交易日累计收益率换手率短期放量程度turnover_1m5当日换手率相对于过去5日平均换手率的变化程度，即当日换手/过去5日换手均值-1中期放量趋势turnover_5m20过去5日平均换手率相对于过去20日平均换手率的变化程度，即过去5日换手均值/过去20日换手均值-1估值单季度盈利价格比EP_Q单季度每股收益与价格之比市净率BP账面价值与市值之比（Book-to-Price）股息率DP股息与价格之比经营现金流估值OCFP_TTM滚动12个月经营现金流与价格之比指数特征个股权重w_mv个股在指数中的权重成交额占比w_amt个股成交额占指数整体成交额的比例行业特征行业代码industry_code个股所属行业代码，采用中信一级行业分类，取值范围为1–30行业涨跌幅ret_ind个股所属行业当日涨跌幅整理指数内部结构信息指数及市场整体信息+跨资产联动信息共同构成的高维状态表示。集参数进行z-score时序标准化。状态表征过程：从多源特征到统一状态向量由于输入同时包含指数成分股的高维横截面特征，以及指数本身和相关资产的时序特征，模型首先要解决的是多源异构信息的统一表示问题。为此，本文设置了状态表征网络，将原始输入映射为适合策略决策的紧凑状态向量。成分股特征（LL（M）𝑡𝑜𝑐𝑘时间维度出隐藏维度为𝐻𝑠𝑡𝑜𝑐𝑘；截面维度TransformerGRU（L𝑚𝑘𝑡路径𝐻𝑚𝑎𝑟𝑘𝑒𝑡）（𝑡𝑜𝑐𝑘+𝑚𝑡（Linear→LayerNorm→ReLU→Linear→Tanh）映射为最终的状态向量（维度为𝑜𝑡AcrCriticPPO的图表12状态表征过程（数据流）整理图表13策略决策与训练闭环流程图（决策流）整理离散仓位决策建模：动作空间设计本文将仓位决策建模为离散动作选择问题PPO新的仓位由上一期仓位+设当前仓位为𝑝𝑡∈[0,1]，动作𝑎𝑡表示本期仓位变动，则下一期仓位定义为𝑝𝑡+1=𝑐𝑙𝑖𝑝(𝑝𝑡+𝑎𝑡,0,1),其中𝑐𝑙𝑖𝑝(∙)表示将仓位限制在([0,1])区间内，以保证策略始终满足不加杠杆、不做空的约束。考虑到实盘中调仓行为通常不能无限细分，且过于频繁或过大的仓位变化会带来较高交易成本与冲击成本，本文进一步对动作空间施加如下离散化与边界约束：20%，即𝑎𝑡∈[−0.2,0.2]2%{−0.20,−0.18,…,−0.02,0,0.02,…,0.18,0.20}网络以状态向量+过三层全连接网络输出21个离散动作的logits，再通过Categorical分布采样或奖励函数是整个强化学习框架中最关键的部分。对于每一个调仓动作，模型都会生成一个对应未来𝑁日持有期的仓位，并根据该持有期内的表现对本次决策进行评价。许多强化学习资产配置框架会直接使用夏普比率或差分夏普作为单步reward5直接优化短期夏普，而是构造了一个综合型奖励函数，同时考虑区间超额收益、区间风险、调仓方向改善以及仓位行为约束。奖励函数的基本形式如下：𝑟𝑒𝑤𝑎𝑟𝑑=𝑤1⋅𝑟𝑒𝑡𝑢𝑟𝑛_𝑒𝑥+𝑤2⋅𝑖𝑚𝑝𝑟𝑜𝑣𝑒−𝑤3⋅𝑟𝑖𝑠𝑘−𝑤4⋅𝑝𝑒𝑛𝑎𝑙𝑡𝑦_𝑝𝑜𝑠其中，各部分含义如下。区间超额收益𝑟𝑒𝑡𝑢𝑟𝑛_𝑒𝑥表示策略在未来𝑁日持有期内相对于基准的累计超额收益。该项用于鼓励模型选择能够带来更高相对收益的仓位决策。为了避免个别极端样本对训练过程造成过大扰动，本文对区间超额收益进行截断处理，截断区间设为：[−5%,5%]。reward区间风险𝑟𝑖𝑠𝑘表示未来𝑁日持有期内的最大回撤，用于刻画该仓位决策在持有期内暴露的下行风险。该项作为惩罚项进入奖励函数，目的是避免模型仅追求短期收益而忽略风险控制。同样，为避免极端回撤对训练造成过度影响，本文对风险项进行截断处理，截断区间为：[−3%,3%]=0.2单步改善项单步改善𝒊𝒎𝒑𝒓𝒐𝒗𝒆用于衡量本次调仓方向是否正确，其基本形式为：𝑖𝑚𝑝𝑟𝑜𝑣𝑒=Δ𝑝×𝑅𝑏𝑒𝑛𝑐ℎ×(1−∣Δ𝑝∣×𝑓𝑒𝑒)𝑝𝑏𝑐ℎ𝑁𝑒𝑒为了控制极端行情对该项的影响，基准区间收益𝑅𝑏𝑒𝑛𝑐ℎ同样进行截断处理，截断区间为：[−5%,5%]此外，本文进一步引入与当前仓位相关的权重，用于调整单步改善项的重要性。该权重可写为：𝑤2=𝑚𝑎𝑥(0.2,0.5∗

𝑝 𝑝)=𝑚𝑎𝑥(0.2,0.5∗ )单步调仓上限

0.2例如，当仓位仅为10%时，即使调仓方向错误，对组合整体收益的影响也相对90%仓位惩罚项𝒑𝒆𝒏𝒂𝒍𝒕𝒚_𝒑𝒐𝒔用于约束模型的仓位行为，避免模型长期停留在极端低仓位或极端高仓位状态。0.7𝑝𝑒𝑛𝑎𝑙𝑡𝑦_𝑝𝑜𝑠=𝜆𝑝𝑜𝑠×(𝑝−0.7)2其中，默认系数为：𝜆𝑝𝑜𝑠=0.05。引入该项的主要目的，是避免模型陷入“低仓位懒惰模式”。在直接优化收益风rewardReward裁剪在得到原始reward“”设裁剪上下界为：𝑙𝑜𝑤=−1.5,ℎ𝑖𝑔ℎ=1.5裁剪方式如下：当reward位于正常区间内时，保持不变：𝑟𝑒𝑤𝑎𝑟𝑑𝑐𝑙𝑖𝑝=𝑟𝑒𝑤𝑎𝑟𝑑,𝑙𝑜𝑤≤𝑟𝑒𝑤𝑎𝑟𝑑≤ℎ𝑖𝑔ℎ当reward𝑟𝑒𝑤𝑎𝑟𝑑𝑐𝑙𝑖𝑝=ℎ𝑖𝑔ℎ+√𝑟𝑒𝑤𝑎𝑟𝑑−ℎ𝑖𝑔ℎreward𝑟𝑒𝑤𝑎𝑟𝑑𝑐𝑙𝑖𝑝=𝑙𝑜𝑤−√𝑙𝑜𝑤−𝑟𝑒𝑤𝑎𝑟𝑑这种处理方式相比硬截断更加平滑，既能防止极端reward对梯度更新造成过大影响，又不会完全抹去极端样本之间的强弱差异。训练流程：从数据拆分到策略更新时间序列切分由于本文采用固定持有周期的调仓框架，式随机切分，而必须考虑时间顺序和预测窗口边界。在实际训练中，本文采用季频滚动训练方式，每个季度训练一次模型。每个训练期、验证期和测试期构成一个独立模型周期。具体设定为：训练集与验证集总长9年，共36个季度，其中训练集与验证集比例为7:3；测试集为验证集之后的1至2026-03-31训练25个模型周期。图表14模型训练周期划分示意图整理初始仓位设定：兼顾随机训练与仓位连续性本文采用按季度重新训练模型的方式。每个季度模型重新初始化并从头训练，训练阶段的初始仓位统一设为0.5。1603具体而言，测试集的初始仓位沿用验证集最后一期的仓位，以模拟真实投资中30.5。这样既能保证验证阶段具有PPO训练算法过程𝑁𝑁=5型每步间隔𝑁𝑥0𝑥5𝑥10epoch1605次PPO模型训练整体沿着PPO当积累到一定长度的轨迹后，模型开始进行策略更新。具体来说，Critic先对状advantage再依据PPO的裁剪目标进行更新，以防止新旧策略变化过Actor-Critic是联图表15PPO训练算法过程整理参数设置与训练控制综合考虑显存占用、训练速度和训练效果，本文的核心参数设置见附录的图表28。成分股侧时序编码器采用单层，若预测未来5设为20，输出维度𝐻𝑠𝑡𝑜𝑐𝑘默认为16；截面编码器2GRU𝐻𝑚𝑎𝑟𝑘𝑒𝑡默认为32。MLP32。在本任务中，模型训练容易陷入局部最优，导致训练震荡不收敛。我们采CosineAnnealingWarmRestartsSGDR)在优化器设置上，状态表征网络与Actor共用一个优化器，Critic使用独立优1×10−4，Actor5学习Critic的explainedvarianceCriticActor在训练精度和防过拟合方面，本文采用混合精度训练模式，并结合以下机制控制训练稳定性：L2正则化、GRU与Transformer中的dropout机制，以及基于30个epochreward𝑠𝑐𝑜𝑟𝑒=𝑠𝑐𝑜𝑟𝑒_𝑝𝑜𝑠+𝑠𝑐𝑜𝑟𝑒_𝑖𝑚𝑝𝑟𝑜𝑣𝑒𝑠𝑐𝑜𝑟𝑒_𝑝𝑜𝑠=组合年化收益−𝜆𝑟𝑖𝑠𝑘∗组合年化下行波动𝑠𝑐𝑜𝑟𝑒_𝑖𝑚𝑝𝑟𝑜𝑣𝑒=改进曲线年化收益−𝜆𝑟𝑖𝑠𝑘/2∗改进曲线年化下行波动其中，𝜆𝑟𝑖𝑠𝑘需要根据每期验证集基准指数的收益与下行波动量纲动态调整，本文设置：基准年化收益𝜆𝑟𝑖𝑠𝑘=max(0.1,0.5∗min(年化下行波动,1.0))背后的逻辑是收益的重要性高于风险的重要性。如果收益的收益为负数，则𝜆𝑟𝑖𝑠𝑘=0.1这里不直接使用收益调仓信号与策略表现验证接下来以中证全指为例，检验模型在2020年至2026年3月31日期间的周频仓位择时能力。模型是否真的学到了规律应同时关注训练reward理想情况下，训练集reward的移动平均值应呈现整体上升并逐步收敛的趋势（图表16PPOdrewardrewardscaling图表16正常的奖励曲线图表17波动的奖励曲线其次，需要关注模型策略是否逐渐收敛，以及价值评估模块是否有效。Actor的（idvaie最后，验证集指标是判断模型是否过拟合的重要依据。若训练集reward持续上升，而验证集指标在达到高点后开始震荡下行，则说明模型可能开始过度适应训以2021年Q2reward图表18验证集得分走势整理此外，考虑到PPO训练过程本身具有较强随机性，本文在每个预测区间内使用不同随机种子重复训练三次，并对三次模型生成的仓位结果取均值。该方法相当于对多个独立训练策略进行集成，可以降低单次训练偶然性对仓位路径和回测结果的影响，使最终结果更加稳健。调仓信号：加仓和减仓是否指向未来行情？图表9整体看，模型的调仓信号是有效的，调仓偏活跃；原始“仓位变动”信号比最终落地后的“绝对仓位变化更有预测信息。9.7换手降至6.257%IC为图表19调仓统计概览仓占比年换手平均调仓幅度调仓胜率时序IC绝对仓位变动0.5475.26.210.35210.4仓位变动99.79.712.45717.5图表20展示了中证全指收盘价与仓位变动的对应关系，图表21统计了未来5阈值22整体来看，模型表现出一定的仓位择时能力：指数下行期间持续发出减仓信号，绝对仓位维持在较低水平；指数上行期间仓位中枢相应抬升，整体方向与市场走势较为吻合。510.4%行情具备较好的前瞻性捕捉能力。在未来5日出现大跌的情形下，模型平均表现为减仓，绝对仓位降至40.8%，表明模型能够在下跌前适度收缩风险暴露，具备一定的防御意识。图表20中证全指收盘价与仓位变动说明：圆圈越大说明仓位变动越大。图表21大涨大跌期间的仓位择时能力动作列事件（5）样本数平均仓位平均调仓动作加仓占比减仓占比调仓胜率未来收益均值绝对仓位变动未来5日大涨1074.97.950.020.0718.1未来5日大跌1540.8-5.226.740.060-6.8全部调仓日23254.20.046.653.4520.2仓位变动未来5日大涨1010.490.010.0908.1未来5日大跌15-4.640.060.060-6.8全部调仓日3080.254.245.8570.1图表22中证全指收盘价与仓位水平仓）仓）右轴价（位1 60000.80.60.40.2

50004000300020001000202001032020032320200103202003232020060320200813202010262021010520210323202106032021081320211101202201052022032320220607202208152022110120230111202303292023061220230822202311072024011720240402202406192024082720241113202501172025040220250618202508272025110720260120“仓位延续”模式下的策略表现首先，我们测试采用“仓位延续”模式时的模型仓位择时的表现，即测试集初始仓位沿用验证集最后一期仓位，最终仓位路径会受到前期仓位状态的影响，存在一定路径依赖。调仓成本为千二，不考虑融资和卖空的约束。整体来看，策略相对中证全指具有较明显的增强效果。9.5%；最大回撤为。2022202320242022跌20.3%19.9%风险控制能力。2020和2025年策略略跑输基准，说明在部分强上涨行情中仓位可能偏保守，存在上涨跟随不足的问题。有效性。图表23 “仓位延续”模式下的策略分年度表现组合中证全指超额收益最大回撤基准最大回撤超额最大回撤夏普比率Calmar比率波动率下行风险调仓胜率调仓超额均值调仓盈亏比2020年21.023.0-1.9-14.9-3.1-0.822.722.7-0.011.22021年8.66.22.4-7.0-11.1-4.40.311.811.88.20.011.12022年-0.4-20.319.9-8.7-27.0-11.91.910.210.27.00.090.92023年6.5-7.013.5-2.2-17.8-6.61.34.34.32.20.061.02024年23.67.416.2-17.2-13.91.117.817.88.40.060.92025年22.724.6-1.9-4.3-13.8-13.6-0.19.49.46.0-0.021.2202603312.6-1.33.9-0.4-10.6-4.81.03.83.80.90.071.1整体13.74.19.5-13.4-39.3-17.30.991.0213.89.055.00.031.1图表24最大回撤与净值曲线重置仓位：不同初始仓位下的适用性“”并且在仓位延续””模型原尤其是在[0,1]话说，边界约束会在一定程度上压缩原始仓位变动”信号，使其在最终落地仓位上的表现被部分削弱。此外，从实际应用角度看，不同客户当前的持仓水平并不相同，部分客户更关注模型给出的加减仓方向，而不是某一条固定仓位路径。因此，如果只评估“仓位延续”模式下的最终仓位表现，可能还不足以充分反映原始调仓信号本身的参考价值。基于此，本文进一步测试了“仓位重置”模式，以检验模型原始调仓信号是否具备独立的实际投资能力。具体而言，在每个季度初，将初始仓位重置为某一给定水平，再根据模型输出的调仓动作逐步更新仓位，同时仍维持仓位约束。在[𝟎𝟏]约束下：原始信号有效，但重置会削弱策略表现首先，在[𝟎,𝟏]仓位重置”信号本身是有效的，但强行重置会明显削弱策略表现。在0.0至1.07.9%—10.0%于基准的造成这一现象的一个重要原因在于，强行重置改变了模型原本对后市的仓位表在[𝟎,图表25“仓位重置”模式下不同初始仓位下的策略表现（仓位约束：[𝟎,𝟏])仓位延续仓位重置基准初始0.50.00.10.20.30.40.50.60.70.80.91.02020年23.021.00.72.74.56.48.411.814.216.719.121.42021年6.28.67.07.47.77.97.98.08.18.08.07.97.92022年-20.3-0.4-0.5-0.8-1.1-1.9-3.9-5.8-7.6-8.6-9.32023年-7.06.51.41.82.12.22.32.12.12.22.21.60.82024年7.423.632.530.028.124.921.620.619.717.715.02025年24.622.78.19.410.714.318.319.219.619.719.720260331-1.32.61.41.82.32.63.13.53.73.94.34.44.4整体4.113.77.98.28.69.19.59.79.910.010.09.89.4在[−𝟏𝟏]约束下：原始调仓信号的有效性得到更充分体现本文继续[𝟎,𝟏]扩展到[−𝟏,结果显示，在放宽仓位限制后的仓位重置”的预测信息。4.1%0.2—0.4时表现相对更优，整体年化收益约为13.3%—13.5%，已经与“仓位延续”模式下13.7%的结果较为接近。2022幅下跌阶段，低初始仓位组合表现更优，说明模型能够通过后续调仓维持较好的防202020252024相较于[𝟎,𝟏]𝟏]“连续仓位”类似的逻辑：模型不仅在判断后市方向，也隐含预留了相应的仓位调整空间。图表26“仓位重置”模式下不同初始仓位下的策略表现（仓位约束：[−𝟏,𝟏])仓位延续仓位重置基准初始0.50.00.10.20.30.40.50.60.70.80.91.02020年23.021.0-0.81.63.96.08.19.911.714.216.719.121.42021年6.28.69.09.49.79.49.08.98.88.68.48.17.92022年-0.414.012.611.08.96.53.91.4-1.0-3.6-5.0-6.02023年-7.06.58.78.37.76.96.25.34.43.32.21.10.02024年7.423.636.836.335.333.431.329.026.624.622.820.217.12025年24.622.75.07.29.511.714.116.418.519.620.020.120.120260331-1.32.66.46.56.56.56.66.66.56.46.15.95.6整体4.113.712.613.113.513.513.313.012.712.211.711.110.5小结：仓位延续更优，但原始调仓信号本身也具备信息量总体来看，“仓位延续”模式整体优于强行“重置仓位”的设定，并且在不同市场环境下表现相对更稳定，说明仓位管理本身具有较强的路径依赖，延续前期模型给出的仓位状态本身就具有预测价值。与此同时，“仓位重置”模式的测试结果也表明，模型输出的原始“仓位变动”信号本身确实包含较强的预测信息，只是在较强的仓位边界约束下，这部分信息会被部分压缩。”总结本文将指数仓位管理从传统的“收益预测问题”重新定义为固定调仓周期下的“动态决策问题赖监督学习预测涨跌或收益率，难以完整刻画仓位管理中的路径依赖和连续决策特征。基于这一认识，本文构建了基于PPO征、成分股结构特征和跨资产风险状态特征共同刻画市场环境Actor-Critic性之间取得平衡。中证全指上的实证结果表明，模型输出的原始仓位变动”信号并非随机噪声，57%，IC590%在更贴近真实投资过程的仓位延续模式下，策略表现较为突出：全区间年化收益达到13.7%4.1%9.5%2022—202420.3%19.9%20202025进一步的仓位重置[−1,1]后，附录PPO模型涉及的主要定义与公式PPOActorLossLoss、熵正则项EntropyLoss。ActorTDError：价值函数误差在PPO𝑠𝑡策略𝜋TDErrorCritic(γ·)=+𝛾𝑉(𝑠𝑡+1)）−𝑉(𝑠𝑡)其中：𝑟𝑡是当前时点获得的reward；𝛾是未来reward的折现因子；𝑉(𝑠𝑡)是当前状态价值；𝑉(𝑠𝑡+1)是下一状态价值。直观理解，TDError表示：当前动作带来的实际回报是否高于Critic原本的预期。GAE：优势函数AdvantageGeneralizedAdvantageGAE∞𝐴𝑡=∑(𝛾𝜆)𝑙𝛿𝑡+𝑙𝑙=0展开后为：

𝐴𝑡=𝛿𝑡+𝛾𝜆𝛿𝑡+1+(𝛾𝜆)2𝛿𝑡+2+⋯𝐴𝑡𝑡是DE𝛾是未来wd𝜆GAE𝛾𝜆Advantage𝜆𝜆实际训练中，通常需要对Advantage做标准化。金融场景下reward噪声较PPO中的概率比率和loss容易出现剧烈̂𝑡

=𝐴𝑡−𝑚𝑒𝑎𝑛(𝐴)𝑠𝑡𝑑(𝐴)+𝜖Return的学习目标有了Advantage之后，可以构造Critic的学习目标：𝑅𝑡=𝐴𝑡+𝑉(𝑠𝑡)Critic𝑅𝑡=𝐴𝑡+𝑉𝑜𝑙𝑑(𝑠𝑡)PPOActorLossPPO𝑡𝜌(𝜃)=𝜋𝜃(𝑎𝑡∣𝑠𝑡)𝑡𝜋𝜃𝑜𝑙𝑑

(𝑎𝑡∣𝑠𝑡)其中：𝜋𝜃(𝑎𝑡∣𝑠𝑡)是当前新策略选择动作𝑎𝑡的概率；𝜋𝜃𝑜𝑙𝑑(𝑎𝑡∣𝑠𝑡)是旧策略选择动作𝑎𝑡的概率；𝜌𝑡(𝜃)则表示新旧策略概率比率。PPO的clippedobjective为：𝐿𝐶𝐿𝐼𝑃(𝜃)=𝔼𝑡[min⁡(𝜌𝑡(𝜃)𝐴𝑡,clip(𝜌𝑡(𝜃),1−𝜖,1+𝜖)𝐴𝑡)]其中，𝜖0.1到0.3，常用值为0.2ActorLoss写为：𝐿𝑜𝑠𝑠𝑎𝑐𝑡𝑜𝑟=−𝐿𝐶𝐿𝐼𝑃(𝜃)Loss：Critic损失CriticReturn

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

量化研究系列报告之二十六：强化学习视角下的仓位管理框架构建与实证检验

文档简介

温馨提示

最新文档

评论

量化研究系列报告之二十六：强化学习视角下的仓位管理框架构建与实证检验

文档简介

温馨提示

最新文档

评论

相关文档