银河金工组合优化系列报告：时序截面三层深度学习模型预测收益风险信号

上传人：b*** IP属地：广西上传时间：2026-06-27 格式：DOCX 页数：32 大小：1.93MB 积分：22 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录Catalog一、基于深度学习三层预测的策略框架 3（一）指数增强框架：基于收益风险的有效预测进行组合优化 3（二）总体策略框架与流程图 3二、特征工程与预测标签构建 4（一）数据来源 4（二）特征工程：个股K线的信息 4（三）特征工程：特征形态指标说明 5（四）特征工程：分组标准化 7（五）预测标签构建 7三、深度学习预测：时序截面三层特征提取模型 8（一）时序编码层：TimeEncoder 8（二）截面图网络层：GraphSAGE模型 9（三）模型：参数详解与改进 11（四）模型：基于中证1000的不同规模股票样本的图结构示例 14（五）输出层：MLP模型与多标签机制 17（六）深度学习模型训练与预测：模型设置 18（七）深度学习模型训练与预测：结果分析 20四、模型应用实例：指数增强策略 23（一）指数增强组合优化框架 23（二）沪深300指数增强策略 24（三）科创50指数增强策略 26五、风险提示 29六、附录 29（一）特征工程指标列表 29（二）可调参数列表 30图1：总体策略框架与流程图

一、基于深度学习三层预测的策略框架（一）指数增强框架：基于收益风险的有效预测进行组合优化传统因子选股与指数增强方法一般遵循因子挖掘、因子打分、组合优化的框架，其优势在于逻辑清晰、可解释性较强，但在权益市场中，当面临风格切换、因子交易拥挤等情况时，仅采用静态因子可能面临因子失效问题，甚至可能导致更大幅度的回撤。因此，本报告中我们不再采用传统方法，从量价、基本面等侧面角度挖掘因子并证明其与未来收益率的相关性，而是直接预测个股的收益风险特征，以期用最直观的方式捕捉Alpha、同时进行风险控制。本报告基于深度学习构建了指数增强新框架，分为信号预测与组合优化两大环节。第一层信号预测由深度学习模型完成，从K线序列中学习未来收益与风险的映射关系，并根据验证集RankIC门槛筛选可用模型，保证收益风险信号预测质量；第二层将深度学习模型对收益风险信号的预测结果输入优化算法计算个股权重，在传统均值-方差优化基础上，加入个股仓位、跟踪误差、集中度等硬约束，同时在目标函数中加入风险中性惩罚项等软惩罚，将预测信号转化为动态权重，最终完成指数增强策略的回测与评价。（二）总体策略框架与流程图从整体逻辑看，本报告将指数增强问题拆分为连续衔接的八个环节：原始数据输入、数据清洗与标签构造、K线衍生特征工程、时序编码、截面图网络聚合、多标签预测、组合优化、回测执行与评估。其中，深度学习部分以K线数据通过滑动窗口构建特征工程TimeEncoder-GraphSAGE-MLP三重特征提取模型，在时间维度上通过TimeEncoder提取趋势和波动模式，在截面维度上通过GraphSAGE模型识别股票间的联动关系，并最终通过MLP模型对超额收益、Sharpe比率、最大回撤等多个收益风险指标进行了预测，形成未来收益风险的预测信号。训练完成后，系统进一步根据验证集RankIC进行质量筛选，避免低质量预测直接进入后续组合优化。在完成收益风险预测后，我们将预测信号输入优化函数，同时设置个股仓位、换手率、跟踪误差、集中度等约束条件，使组合调仓决策尽可能贴近真实投资情境，最终根据输出权重构建组合、计算回测净值并评估策略效果。二、特征工程与预测标签构建（一）数据来源本报告主要采用量价数据，来源为数据库，核心数据主要包含以下三类：指数权重历史数据：包括主流宽基指数成分股及其权重变化。指数成分股数据将用于确定股票池、构建基准组合和计算跟踪误差；其中，权重数据为月频/不定期调仓，需向前填充至日频/小时频。指数K线：用于计算市场收益基准index_return。个股K使用前复权价格，包含开盘价OpenHighLowClose、交易量olume、交易额Amount。（二）特征工程：个股K线的信息K线信息丰富、时效性强、更新频率高，在特征工程中具有极强的展开能力，适合作为指数增强的底层输入数据。首先，K线形态中包含丰富的信息。例如，价格的开高低收可以还原单根K线的形态结构；收益率与均线关系可以反映趋势延续与价格拥挤度；收益率的滚动标准差、下行波动与最大回撤可以刻画路径风险；成交量、成交额与价格的联合变化则能补充交易活跃度、量价配合与资金方向。由K线既包含价格信息，也隐含市场情绪与资金行为的投影：实体大小、上下影线位置、连续阳阴、放量缩量等现象，实际上反映了市场中多空力量的变化。K线数据时效性强、其预测的结果短期内可快速兑现，这恰恰使深度学习适用于深度学习模型。如果采用宏观行业信息、公司基本面数据等作为输入值，低频数据在股价上的兑现周期是不确定的；而K线直接从价格行为本身入手，交易信号构建过程基于市场实时信息，股价可快速兑现这一特征使得K线数据适用于深度学习模型的训练。最后，相比财务基本面、文本或另类数据，K线的更新频率更高、跨标的可比性更好，海量数据更适合用于深度学习网络的滚动训练和持续回测。本报告基于单日K线数据可刻画13种蜡烛图形态，同时引入量价指标、技术指标、相对基准强弱指标和风险回撤指标等，并进一步构造成滚动窗口序列输入深度学习模型。一方面，后续深度学习预测步骤中输入的第一个模型是TransformerTransformer更适合读取连续的时序张量；另一方面，我们最终构建的是指数增强策略，在进行投资决策时，需要综合考量未来一段时间内的超额收益、路径风险与风险收益比，因此在构建输入特征时也加入了风险度量指标。图2：K线蜡烛图形态（三）特征工程：特征形态指标说明我们在选择特征指标时遵循以下原则：首先，仅使用个股与指数的K线数据即可计算；其次，窗口与K线频率应适配。最终，我们将构造的特征形态指标按价格、风险、量价分为三大类，详情如下。特征组一：价格行为、趋势与相对强弱第一组特征主要围绕价格行为本身展开，其逻辑可以分为以下四个子方向：1）K线形态分解。我们构造了body（实体）、range（）、upper_shadow（上影线）、lowe_shadow（下影线）与bod_ratio（实体振幅占比）等变量，把K线识别转化为可计算、可比较的连续数值。多尺度动量与趋势特征。我们围绕收益率构造了return、mom_3、mom_6、mom_12、mom_24、mom_48等变量，用以分别描述极短期、短期和中期的趋势延续情况。此外，构建了差值变量mom_diff_6_24，以捕捉趋势加速或趋势衰减。均线偏离与技术状态。对于技术指标，我们选择了已被市场长期实践验证、且与价格行为紧密相关的核心状态变量。ma_gap_5ma_gap_20以对数形式刻画价格相对于短中期均线的偏离，反映价格是否处于均线之上、偏离程度大小，从而补充趋势拥挤与回归压力的判断；同时保留了rsi_14与kdj_j等经典技术指标，表征短期的超买超卖与拐点状态。相对基准强弱。指数增强关注“相对跑赢”，因此我们进一步计算了个股相对指数的超额收益与Beta，构造了excess_ret_1excess_mom_6excess_mom_24以及beta_24beta_80等变量，这样模型可以学习个股相对于市场的超额收益与系统风险暴露。特征组二：风险波动与路径刻画第二组特征重点刻画个股的风险与回撤表现。指数增强策略在捕捉Alpha的同时，也需控制跟踪误差不能过大，策略相对基准的波动与回撤应在可接受范围内，因此我们单独保留了一组风险特征作为输入变量。在具体实现上，我们构造了ret_std_6、ret_std_12、ret_std_24等滚动波动率特征，以不同观察窗口描述收益率的离散程度；同时加入了下行波动率downvol_24，使模型能够区分“上涨过程中的高活跃度”和“下跌过程中波动失控”这两种性质不同的波动。mdd_24为最近24个计算周期内的最大回撤；ret_min_24与ret_max_24为最近24个计算周期内单期收益率的最小值与最大值，用于识别高弹性股票和潜在的尾部风险暴露。此外，我们还引入了特质波动率idvol_24，具体而言：𝑟𝑒𝑡𝑢𝑟𝑛=𝛼+𝛽×𝑖𝑛𝑑𝑒𝑥𝑟𝑒𝑡𝑢𝑟𝑛+𝜀其中𝛽为前文中定义的Beta；而残差项𝜀的标准差即为特质波动率idvol_24、idvol_80，用以衡量剔除基准影响后的非系统性风险。这一点对于指数增强较为重要，在指数增强策略中，我们需要特别关注超出系统性波动之外的特质性噪声与不稳定性。表1：特征组及代表向量

特征组三：量价资金信息第三组特征主要用交易量补充价格之外的信息。在现实市场中，趋势的形成往往是量价共同演化的结果。换手放大、成交额抬升、价量背离、资金流向集中等现象，会显著影响趋势持续性与策略的可执行性。在具体特征构造上，我们首先对vol与amount做对数变换，形成logvol与log_amount，以缓解交易量级的长尾分布问题；并构造rv_6rv_24，用成交量相对滚动均值的比值刻画量能变化速度，以体现“当前是否突然放量”这一信息。在量价关系上，我们计算滚动相关系数vpr_6与vpr_24，用于衡量收益率与成交量变化之间的相关程度。若价格上涨伴随成交量同步抬升，这属于较为健康的趋势；若价格上涨而成交量并不配合，或者价格下跌伴随放量，则可能意味着趋势质量较差。此外，flo_24根据收益方向对成交额做符号调整，再进行滚动累计，形成近似的资金净流动刻画。所有特征如下表所示。特征组代表变量含义概括主要研究用途G1形态bod,an,ehao,eha,btioK识别多空拉锯、冲高回落与弱反弹G1/动量et,o,o,o,o,o8,4刻画不同尺度的趋势延续与动量强弱识别趋势跟随与加速/衰减G1相对强弱a_,a_,eet,so,eso,bta_4,eta刻画相对均线与相对指数的偏离情况衡量超额属性与系统性暴露G1技术指标si,补充超买超卖与短期拐点信息强化短周期状态识别G2风险波动etst,ett,ett,owl4描述不同窗口的整体与下行波动辅助风险标签预测G2路径风险,eti,etax,l4,il0从极值与特质波动角度补充风险画像识别潜在高回撤与高噪声股票G3量价资金lol,ogat,r,r,v,v,lo4描述交易活跃度、量价协同与资金流变化补充价格之外的行为信息（四）特征工程：分组标准化在预处理过程中，我们对不同特征组采取了差异化处理。G1组特征在窗口内不强制做Z-score，只做缺失值与异常值处理；G2、G3两组特征则在每个滚动窗口内部做Z-score标准化。这样，一方面保留指标方向性信息，令趋势与相对强弱类特征保留经济含义；另一方面可提高特征的可比性，使不同股票之间更容易进行横截面对比。G1组中的特征本身已经具有清晰的方向含义，因此只做缺失值与异常值处理。例如动量大于0通常对应上行惯性，均线偏离为正通常意味着价格处在均线之上，excess_ret为正意味着相对基准更强。若对这类特征做过度标准化，虽然量纲被统一，但其原始方向信息和金融解释会被部分削弱。G1组保留原始尺度与方向：K线形态指标直接输入，最大程度保留投资者熟悉的形态信号；动量、技术形态指标在50期滚动窗口内进行Z-score标准化：𝑥−𝜇𝑤𝜎𝑧=𝜎𝑤

+10−8其中𝜇𝑤、𝜎𝑤为窗口内均值与标准差，分母加10−8调整项以避免标准差为0的情况。Z-score标准化可消除不同股票量纲差异对注意力机制的干扰，同时保留了相对强弱关系。G2与G3组在每个滚动窗口内部进行Z-score标准化。风险波动类和量价资金类特征往往存在明显的个股尺度差异与分布长尾。例如，同样的成交额水平，对大市值股票和小市值股票含义不同；同样的波动率大小，在高弹性和低弹性个股上也不适合直接横向比较。因此，我们对G2和G3组在滚动窗口内做Z-score标准化，即指标值表示“当前状态相对该股票自身历史均值偏离了多少”。综上，本文特征工程可以概括为两步：第一步，从K线本身出发，并按照金融意义分组，构建K线形态、动量趋势、相对基准强弱、风险波动和量价等多维特征；第二步，在输入模型前针对不同分组采用差异化预处理。这种做法使得模型输入既保持了足够丰富的信息密度，又消除了量纲差异、保持特征值的截面可比性，避免因量纲不一致或过度标准化而带来的训练噪声。这样，在下一步输入Transformer模型时，注意力权重会更稳定。（五）预测标签构建预测值的选取涵盖收益与风险两个方向。我们分别选取alpha_label、sharpe_ratio_label作为代表收益的标签，选取max_drawdown_label作为代表风险的标签（具体如下），其中alpha与sharpe标签的预测窗口为22max_drawdown标签的风险观察窗口为66个交易日，使收益信号更偏向短期交易周期，回撤信号更偏向中期尾部风险。选取三个预测目标更符合人类投资者的决策过程从投资决策角度，投资者在做出买入决策时，需要同时考虑未来涨幅空间、上涨过程是否稳健、可能的下跌幅度等问题，而非只关注收益率这个单一目标。因此我们采用多任务模型，通过共享底层网络（sharedbackbone），让每个任务从其他任务中获得正则化效果，提升泛化能力，以此来模拟人类投资者做决策时同时考虑收益、风险和回撤的思维过程。表2：预测标签名称与含义预测标签名称预测窗口预测标签含义alpha_label未来22个交易日衡量股票在预测窗口内相对指数的超额收益sharpe_ratio_label未来22个交易日衡量股票在预测窗口内收益率与波动率的比率axwabl未来66个交易日最大回撤，衡量价格在预测窗口内最大的下跌的幅度三、深度学习预测：时序截面三层特征提取模型深度学习预测模型是一个多任务时序图网络，整体架构分为三层：时序编码层→截面图网络层→多任务预测头。时序编码层（TimeEThcoder）：包含线性投影、位置编码、TransformerEncoder和注意力池化。其中Transformer负责捕捉时间步之间的长距离依赖；注意力池化对时间维度做加权聚W个时间步压缩为单个向量表征。截面图网络层（GraphSAGE）：GraphSAGE在股票截面维度上通过聚合邻居节点的特征来更新每个节点的表示，其中“邻居”指同一指数成分股集合内的其他股票。同一指数内的股票往往具有行业/风格关联，通过图传播可以利用其他股票的信息来增强对当前股票的预测（如行业龙头上涨可能带动整个板块）。多任务预测头（Multi-taskHeads）共同的输入值分别经过三个独立的MLPSharpe比率和最大回撤的预测值。每个头有自己的损失函数，通过加权合并为总损失。（一）时序编码层：iThoder深度学习模型首先学习个股自身在时间序列上的特征关系，这一步主体是TraThsformer模型。Transformer是一种基于自注意力机制（Self-Attention）的深度学习模型，它摒弃了传统的循环和卷积结构，通过编码器-解码器架构并行处理序列数据。其核心在于利用多头注意力（Multi-HeadAttention）捕捉长距离依赖关系，并用位置编码保留序列顺序信息。具体而言，TimeEThcoder包含四个部分：线性投影、位置编码、TraThsformerEThcoder和注意力池化。线性投影和位置编码是对原始输入特征的预处理，二者构成Transformer的输入层：（FeatureEmbedding将每个时刻的原始特征映射到低维向量空间，便于神经网络处理。时间位置嵌入（TimePositionalEmbedding）采用可学习的位置编码（而非固定正弦函数），使模型能够适应K线数据的非均匀性。Transformer模型用于捕捉个股在时间序列上的特征关系，最终注意力池化（AttentionPooling）将Transformer的结果在时间维度上进行加权聚合，得到每只股票的紧凑时序表示。TraThsformer模型可以通过其核心的自注意力机制，有效捕捉个股量价数据在时间序列上的复杂相关关系。对于逐日或逐笔的量价序列，模型能直接计算任意两个时间步长（5天和当前交易日）之间的关联权重，从而识别出长期依赖模式。不同于循环神经网络逐步传递信息的局图：aner

限性，Transformer能并行处理整个时间窗口，每个注意力头关注不同的时序模式，可实现同时关注短期波动与长期趋势，为收益风险指标预测提供更全面的特征表示。在Transformer结构中，前馈网络可进行逐位置的非线性变换，增强特征表达能力；残差连接与层归一化可保证训练稳定性，避免梯度消失。将K线数据生成的特征输入TraThsformer，可捕捉个股在时间序列上的特征关系。时序层的输入张量维度为[B,N,,F]，其中B为批量大小，N为股票数，W为时间窗口长度，F为输入特征数。模型先将每只股票的50期特征序列展开为[B×N,,F]，再通过线性层完成特征嵌入，并叠加可学习的位置嵌入。随后，TransformerEncoder通过自注意力机制在整个窗口上建立任意时点之间的联系，使模型能够同时看到短期波动与中期结构，最终经过注意力池化将结果压缩为特征向量。与LSTM、GRU等模型相比，TimeEncoder结构更适合高维、长窗口的小时级输入：一方面，自注意力可以直接捕捉跨时段的依赖；另一方面，Transformer能并行处理时间维度，在样本量较大时训练效率更高。（二）截面图网络层：GraphSAGE模型GraphSAGE是一种归纳式学习模型。图卷积网络（GCN）是一种在图中结合拓扑结构和顶点属性信息学习顶点的嵌入（embedding）表示的方法。然而GCN要求在一个确定的图中去学习顶点的embedding，无法直接泛化到在训练过程没有出现过的顶点，属于一种直推式（transductive）的学习。本报告所采用的GraphSAGE模型是在GCN模型的基础上发展出来的改进算法，是一种能够利用顶点的属性信息高效产生未知顶点embedding的一种归纳式（inductive）学习的框架。其核心思想是通过学习一个对邻居顶点进行聚合表示的函数来产生目标顶点的embedding向量。图4：GraphSAGE算法原理GraphSAGE是Graph、Sample和Aggregate三个单词的缩写，其运行流程如上图所示，可以分为三个步骤：第一步：对图中每个节点的邻居顶点进行采样（Sample）传统图卷积网络（GCN）在每层都要聚合所有邻居的信息。在社交网络、知识图谱等真实场景中，节点度（邻居数量）可能成千上万，直接全邻居聚合会导致计算量爆炸、内存溢出。GraphSAGE通过固定大小随机采样巧妙解决了这个问题。具体而言，对于每个目标节点𝑣，在第𝑘层，从其一阶邻居集合𝒩(𝑣)中均匀随机采样固定数量个邻居。如果实际邻居数少于𝑆𝑘，则重复采样或补零；如果多，则随机丢弃部分。第2层不仅采样1-hop邻居，还会继续对这些邻居的邻居进行采样，形成2-hop乃至K-hop的“计算树”（ComputationTree但实际只加载采样子图，避免全图计算。对于节点𝑣，第𝑘层采样的邻居集合记为)⊆𝒩(𝑣)，其中=𝑆𝑘。第二步：通过聚合函数聚合邻居顶点蕴含的信息（Aggregate）聚合过程中，输入值为中心节点的上一层表示𝐡(𝑘−1)和采样邻居的上一层表示集合{𝐡(𝑘−1)∣𝑢∈𝑣 𝑢𝒩(𝑣)}，输入值通过指定的聚合函数后，即可得到输出值邻居聚合向量𝐡(𝑘)。其中，常见的聚合函数𝑠有以下三种：

𝒩(𝑣)10表3：GraphSAGE常用的聚合函数函数名称公式说明MeanAggregator均值聚合𝐡(𝑘)= 1 ∑𝐡(𝑘−1)𝒩(𝑣) 𝑢𝑢∈𝒩𝑠(𝑣)oliggeaor𝐡(𝑘)=max(𝜎(𝐖 ⋅𝐡(𝑘−1)+𝐛))+（a-pg）池化聚合𝒩(𝑣) 𝑝𝑜𝑜𝑙 𝑢或取平均。这一聚合函数引入了非线性，表达能力更强。LSTMAggregator𝐡(𝑘)=𝜎(𝐖(𝑘)⋅𝐶𝑂𝑁𝐶𝐴𝑇(𝐡(𝑘−1),𝐡(𝑘)))𝑣 𝑣 𝒩(𝑣)将邻居视为一个随机序列，输入LSTM（长短期记忆神经网络模型），LSTM聚合其中𝜎通常为ReLU函数，𝑊(𝑘)是可学习权重矩乱（shuffle）邻居顺序。聚合完成后，将中心节点自身信息与邻居聚阵（不同层独立参数）。合信息拼接，再通过线性变换+非线性激活生成新表示。第三步：得到图中各顶点的向量表示供下游任务使用（GeTherateEmbeddiThg）经过K层（通常2~3层）迭代后，每个节点获得最终表示𝐡(𝐾)。在本报告中，𝐡(𝐾)即为在截面上整合股票间的联动关系得到的特征值。

𝑣 𝑣GraphSAGE模型的向量伪代码如下图所示。其中𝑥𝑣（TimeEncoder的输出结果），经过K层（通常2~3层）迭代后得到𝒉𝑘，然后均值聚合𝒉𝑘/‖𝒉𝑘‖获𝑣得最终表示𝒉𝐾。𝑣

𝑣

𝑣2图5：GraphSAGE生成向量伪代码（三）GraphSAGE模型：参数详解与改进聚合函数的选择：均值聚合在GraphSAGE层的设计中，本报告最终选择了MeaThAggregato（均值聚合）作为邻居特1111征的聚合函数。具体实现为对邻居节点特征向量进行加权平均，随后通过门控机制与自身特征进行动态融合。一方面，均值聚合结构简单、参数高效，且符合真实市场逻辑。在股票关系图网络中，均值聚合更符合金融市场的本质特征：股票间的联动关系本质上体现的是“群体平均效应”（如同行业资金共振、风格轮动、产业链传导），而非个别极端邻居的支配作用。采用均值聚合能够有效平滑单个股票的异常波动，如黑天鹅事件，避免噪声对截面信号的过度干扰，这对最大回撤和夏普比率等风险类标签的预测尤为重要。另一方面，均值聚合计算复杂度低，仅需一次矩阵乘法与归一化操作，具有明显的训练效率优势。与池化聚合和LSTM聚合相比，均值聚合在保证稳定性的同时，更易与本模型后续引入的门控机制（Gating）和残差连接（ResidualConnection）形成良好协同：门控机制可动态决定“信任自身还是信任邻居平均信息”，残差连接则进一步缓解多层聚合后的过平滑问题。图网络邻接矩阵构造：市场统计驱动、门控机制与残差连接图网络的构造基于市场统计驱动。图网络的构造一般有两种逻辑，一种是市场统计驱动，一种是基本面驱动。前者以各股票之间市场行情的相关度作为网络构建基础，后者以较为固定的基本面信息（如股票的行业信息）作为网络构建基础。前者每个窗口单独计算，计算量大，着力于捕捉短期趋势；后者为固定网络，计算量小，着力于刻画长期结构性关系。我们主要捕捉短中期价格联动趋势，所以在经过尝试后最终选择市场统计驱动的图网络构建模式。这种构造方式使模型不仅能学习个股自身走势，也能学习“相关股票群体如何影响某一只股票”。在科创50这类行业风格特征集中的指数中，这种截面关系往往对应产业链联动、资金共振或风格扩散。邻接矩阵由滚动窗口内的收益率相关系数生成，设置阈值选择邻居节点。先将所有股票在同一时间轴上的收益率透视为[T,N]矩阵，再在长度为50的滚动窗口内计算股票之间的相关系数。当两只股票的相关系数不低于阈值φ=0.6时，视作候选邻居；若候选数超过top_k=15，则仅保留相关系数最大的15只。截面层的核心目标是把股票之间的联动关系纳入模型。GraphSAGE将每只股票视作图中的一个节点，邻居表示来自与其相关的其他股票。模型分别对自身特征和邻居聚合特征做线性映射，再通过门控机制动态决定“更信任自己”还是“更信任邻居”。在此基础上，模型额外加入残差连接，用于缓解多层聚合后的过平滑问题；同时使用GELU激活，以提升对金融数据非线性关系的拟合能力。具体而言，GraphSAGE的输入数据为每只股票在某一时段的时间特征selffeature，该数据来自前面TimeEncoder的输出结果；股票之间的关系网图neighbouraggregate可表示为𝐺=(𝑉,𝐸，V表示节点（个股）E（股票之间的关联关系）GraphSAGE的公式为我们对该公式进行了两点改进：一是门控机制（GatiThgMechaThism），金融数据中存在极端值或短期异常（如黑天鹅事件、公告日暴涨暴跌）二是残差连接（ResidualCoThThectioTh），多层聚合容易“过平滑”（不同股票的特征被拉得太像，区分度下降），因此我们使用了残差连接，使每一层的输出保留上一层的特征。图模型结构图的一个简单例子具体而言，GraphSAGE图的生成过程如下：第一步：获取特征矩阵：先按时间把股票的alpha_label转换为矩阵，每一行对应一个时间点（小时），每一列对应一只股票，最终得到一个形状为[,N]的矩阵，其中T为时N为股票个数。第二步：滚动计算相关系数：对返回的截面矩阵按窗口长度 o_size做滚动，每窗口内计算一次邻接矩阵，每个窗口内用协方差/标准差得到相关系数。第三步：根据阈值选定top_k邻居：找出与股票j的相关系数≥φ的其他节点，阈值φ默0.6。如果候选邻居个数超过top_k，取相关系数最大的top_k。第四步：自身特征聚合邻居特征，更新节点表示：进行两路线性变换，即“既看自己、又看邻居”，对每个节点、每个隐藏维度学习“信任自己”与“信任邻居”的权重。7是一个简单的例子。假设有两个股票AB、分别有两个特征closevol，二者互相连接，A和B互相聚合对方的特征，然后根据门控系数加权自身特征和邻居特征，加上原始节点特征（残差）并经过激活函数，得到最终更新后的节点表示。从图7中可以明显看出，A股票的第一维close0.50.88，更新结果更依赖自身；第二维vol0.20.52B股票影响较大。B股票的第一维closeA股票拉动（0.10.4）vol更多取决于自身特征值（0.61.0）。这样，我们对每只股票实现了更加个性化的处理，可反映出哪些股票走势比较独立，哪些股票收益与邻居相关性较强。参数学习：有监督学习在GraphSAGE中，当定义好聚合函数以及更新节点的拼接与线性变换方式后，最关键的一步是对模型中的所有可学习参数进行优化。GraphSAGE支持无监督学习和监督学习两种形式。无监督学习形式无监督学习是GraphSAGE最经典的训练方式之一，其核心思想是基于图的上下文（graphcoThtext）来学习节点表示，目标是让图中相邻的顶点具有相似的向量表示，同时让距离较远的顶点表示尽可能区分开来。这种方式不需要人工标注标签，适合大规模图数据预训练或冷启动场景。目标损失函数可表示为：𝐽𝒢(𝒛𝑢)=−𝑙𝑜𝑔(𝜎(𝒛⊤𝒛))−𝑄⋅𝔼𝑣∼𝑃(𝑣)𝑙𝑜𝑔(𝜎(−𝒛⊤𝒛))𝑢𝑣

𝑛𝑛

𝑢𝑣𝑛𝑢𝑣其中，𝑢,𝑣分别是节点𝑢和节点𝑣的最终向量表示（embedding；第一项−𝑜𝑔(𝜎(𝒛⊤𝒛为正样𝑢𝑣本损失，该项希望正样本对的内积尽量大，即相连或上下文相近的节点之间相似度尽量高；第二项−𝑄⋅𝔼𝑣∼𝑃(𝑣)𝑙𝑜𝑔(𝜎(−𝒛⊤𝒛

))为负样本损失，该项希望负样本对的内积尽量小，即不相连的节点之间𝑛𝑛

𝑢𝑣𝑛相似度尽量低。整体损失是对所有节点𝑢求平均后进行梯度下降优化。监督学习形式当图数据带有标签时，可以直接使用监督学习方式训练GraphSAGE监督学习形式非常灵活，根据具体下游任务直接定义损失函数即可。最常见的节点分类任务使用交叉熵损失函数（Cross-EntropyLoss）：𝑁1ℒ=−𝑁∑[𝑖𝑜𝑔(𝑖)+1−𝑖)𝑜𝑔(1−𝑖]𝑖=1其中，𝑦是节点𝑖的真实标签。是模型预测概率，通常在GraphSAGE最后一层输出𝐡(𝐾)后，接𝑖 𝑖 𝑣一个小型MLP得到。在本报告深度学习预测中，我们以超额收益、Sharpe比例和最大回撤作为监督信号，采用有监督学习。有监督方式能够让GraphSAGE的所有参数（包括线性变换权重与门控参数）直接朝着“更有利于多标签预测”的方向优化。通过端到端训练，梯度可从损失层高效反向传播至MLP输出层、GraphSAGE聚合层，直至TimeEncoder的时序编码层，使时序特征提取与截面关系建模形成联合优化，提升了模型对未来超额收益、最大回撤及夏普比率的联合刻画能力。（四）GraphSAGE模型：基于中证1000的不同规模股票样本的图结构示例为直观展示GraphSAGE1000指数成分股范围内，在同一套构图口径下，分别选取指数成分权重前100300500只股票构造相关网络，并比较网络密度、平均度、平均边权重、连通子图个数等指标，同时结合节点度分布、边权重分布以及标签示意图，对图网络是否能够刻画股票间联动关系、标签设计是否具有经济解释力等问题进行讨论。作图时，首先在滚动窗口内计算股票收益率相关系数；当两只股票的相关系数不低于0.55时，将其视为候选邻居；若候选邻居超过10个，则只保留相关性最大的10条边。以下展示了中证1000指数成分股权重前100、300、500只股票的关系图网络可视化结果。图8：中证1000股票关系图网络（100只股票）图9：中证1000股票关系图网络（300只股票）图10：中证1000股票关系图网络（500只股票）从结果看，不同样本规模下构建的图网络均呈现出较为清晰的结构特征，说明图方法能够捕捉到市场中的有效横截面关系。在节点层面，大多数股票的连接数处于较低水平，而少数股票具有更高的连接度和更强的邻域覆盖能力，这意味着市场中的关系网络并不是均匀分布的，而是存在典型的“核心节点—边缘节点”分层结构，高中心性节点往往对应在指数中权重较高、流动性较强、主题风格代表性更突出的个股。不同样本规模下的图结构对比：信息广度与密度的权衡从不同样本规模下构建的股票关系图网络结果来看，图规模的扩大并不意味着网络质量必然同步提升，而是体现为信息覆盖与结构稳定性之间的权衡。具体而言，在节点数由100只扩展至300只和500只的过程中，网络边数分别由84条增至691条、1557条，平均度由1.68提升至4.61、，表明随着样本范围扩大，单个节点能够聚合到的邻域信息明显增多，图结构表达出的局部关系更加丰富。然而，随着样本规模上升，网络密度由0.0170下降至0.0154、0.0125，说明边数增加的同时强连接的占比在持续下降，网络整体呈现出一定的稀疏化特征；连通子图数量则由48个增加至108个、149个，表明随着股票池扩张，图结构内部的碎片化程度也在提高。这说明大样本图在提供了更多邻域信息的同时，逐步向“覆盖更广、结构更松”的方向演化。从边权重来看，三类图的平均边权重始终稳定在0.66附近，边权重标准差在0.05-0.06之间，说明在当前阈值和筛边规则下，保留下来的连接关系整体仍具有较强的相关性，样本扩张并未使边的质量显著降低；其中300只股票图的平均边权重最高，表明该规模下筛选得到的边在强度上最具样本规模节点数边数样本规模节点数边数网络密度平均度连通子图个数平均边权重边权重标准差100只股票图100840.01701.6800480.65620.0506300只股票图3006910.01544.60671080.66870.0595500只股票图50015570.01256.22801490.66600.0559综合考虑邻域信息丰富度、边质量以及网络稀疏化与碎片化程度，300只股票构建的图网络在三种方案中表现出更优的平衡性：相较于100只图，其平均度显著提高，能够为图模型提供更充分的结构信息；相较于500只图，其密度下降幅度和碎片化程度又相对可控，避免了样本过度扩张所带来的密度稀释。因此，从邻域信息丰富度、图结构稳定性与边质量等方面综合考虑，300只股票图更适合作为主分析样本和后续图神经网络建模的核心图结构。高中心性节点的示例为更直观地展示网络中的“枢纽股票”，下表展示了不同样本规模下按节点度排序的前5个节点。由下表可见，当样本规模扩大时，少数节点的度和加权度显著上升，说明它们在更大市场范围内与更多股票形成了联动关系。这类节点往往是图网络在邻居聚合过程中最能传递横截面信息的对象。表5：高中心性节点的示例样本规模股票代码股票简称度加权度100603005.SH晶方科技127.67100603236.SH移远通信106.48100002245.SZ蔚蓝锂芯95.65100002139.SZ拓邦股份74.67100300088.SZ长信科技63.94300300184.SZ力源信息3221.11300603005.SH晶方科技2617.05300002747.SZ埃斯顿2517.23300603236.SH移远通信2415.73300002139.SZ拓邦股份2315.5500300031.SZ宝通科技4328.64500002649.SZ博彦科技4027.49500300184.SZ力源信息3724.52500603005.SH晶方科技3221.1500002747.SZ埃斯顿3121.77（五）输出层：MLP模型与多标签机制MLP输出层承担“统一表示到下游预测目标”的转换。GraphSAGE模型输出结果之后，深度学习模型再接两层MLP，以得到最终的输出结果：先把图表示从gsage_hidden=16映射到mlp_hidden=16，经GELU激活后，再映射到output_dim=1。设置两层MLP可提升模型的非线MLP的作用是特征重组、避免直接从高维到低维的信息丢失，而第二层MLP则将特征维度压缩到1，完成最终预测。当前我们在训练预测过程中，超额收益、Sharpe比率和最大回撤分别对应三套独立训练的模型，因此多标签思想体现在“同一套输入框架下对三类标签分别建模”，而不是单一网络中的共享多头输出。图11：MLP模型结构图12：完整网络模型结构阶段数据维度输出维度原始输入[,,,]多股票、多时点、多特征BNWF阶段数据维度输出维度原始输入[,,,]多股票、多时点、多特征BNWFoer输入[×,,]按股票展开后的时序序列TiEnoer输出/GhE输入[,,tii]tii=/输入[,,se]结合邻居关系后的截面表示，默认gsage_hidden=16第一层MLP输出[,,den]deMLP[,,]→[,]每个时间批次、每只股票对应一个预测值（六）深度学习模型训练与预测：模型设置损失函数与模型筛选训练集目标函数是在最小化点对点误差基础上，优先优化横截面排序能力。如前文定义，我们选取超额收益、Sharpe比率、最大回撤3Sharpe比率的计算窗口为22个交易日，最大回撤的计算窗口为66个交易日。我们当前采用的损失函数为横截面Spearman相关系数损失与MSE加权，其中相关系数损失权重为0.85，MSE权重为0.15。这样既保留IC导向的排序能力，又避免纯相关损失导致预测尺度漂移，用公式可表达为：𝐶𝑜𝑚𝑏𝑖𝑛𝑒𝑑𝐿𝑜𝑠𝑠=0.85×[−𝑅𝑎𝑛𝑘𝐼𝐶(𝑝𝑟𝑒𝑑,𝑙𝑎𝑏𝑒𝑙)]+0.15×𝑀𝑆𝐸(𝑝𝑟𝑒𝑑,𝑙𝑎𝑏𝑒𝑙)其中𝑝𝑟𝑒𝑑指对标签的预测值，𝑙𝑎𝑏𝑒𝑙指标签的真实值，RankIC为同一截面内预测排序与真实标签之间的Spearman相关系数，MSE用于约束预测值尺度。在训练过程中，如果尚未达到最大训练轮次，当前模型在验证集上的表现也没有触发早停，则通过反向传播更新参数继续进行训练。根据验证集RaThkIC保存最优模型。每完成一轮训练之后，在验证集上计算预测值与真实值的RankIC，用于观察模型在截面排序上的稳健性。当训练轮次达到最大值或触发早停时，保存验证集RankIC最大的模型结果，并用于后续预测。训练模式在训练过程中，我们采用以下方法改善模型训练的效率与效果：梯度裁剪：为防止梯度爆炸，训练过程设置了4.0的梯度裁剪上限。学习率调整：设置学习率调整器，在损失连续多步不发生显著下降时缩小学习率，加速收敛。我们采用的优化器为Adam初始学习率为0.001；当验证集损失连续15个观测周期未明显改进时，学习率乘以0.5。早停机制：在验证集上采用早停机制，当验证集损失连续8步未达到最小改善阈值时停止训练，防止过拟合。滚动训练与数据集划分：采用滚动3年训练窗口，按时间顺序划分数据集，模型训练每年进行一次，避免前视偏差。例如训练2023年模型时，使用2021-01-01至2023-12-31的数据，前80%为训练集，后20%为验证集（即验证集全部为2023年的数据），最终模型用于预测2024年的结果。滚动3年窗口一方面可以使得模型不断学习最近一段时间的市场规律，另一方面3年窗口一般可以同时覆盖牛熊市的市场表现，使模型能更好地适应不同市场环境。图13：深度学习模型训练流程：早停机制滚动预测与预测后处理预测阶段同样遵循滚动原则。例如，使用2021年模型预测2022年结果，2022年模型预测2023年结果，以此类推。每个预测窗口内，模型每天（或每小时）对股票池内所有股票做前向传播，输出超额收益、Sharpe比率和最大回撤三维度预测值。训练完成后，预测值先在每个截面进行去极值，再做横截面标准化。首先在截面上对预测值进行上下5%分位数的缩尾处理，以剔除极端值影响；其次在截面上进行Z-score标准化，使不同截面的预测值具有可比性。最后，对于最大回撤预测值，我们进行了取负绝对值处理，使得最大回撤预测值的方向与超额收益、Sharpe比率保持一致，即数值越大越好。预处理后的三个特征值分别定义为alpha_z、sharpe_z和max_drawdown_z。19（七）深度学习模型训练与预测：结果分析以沪深300指数成分股为例，我们对深度学习模型的训练效果进行了统计分析。由于超额收益Alpha指标的预测效果一般，在下文结果分析以及后续策略构建回测中我们暂时不对Alpha指标进行分析。从训练过程来看，模型能够在有限轮次内完成训练，训练集、验证集损失与RaThkIC随训练次数增加基本可收敛至稳定水平。本报告设置最大训练轮次为30次，Sharpe比率和最大回撤的深度学习模型训练轮次平均分别为13次、18次。若达到最大训练轮次30次，则最后一轮结果即为最终保存的模型，反之在30次之前触发早停，保存的模型为某一中间模型。从结果来看，Sharpe比率模型仅在2021年训练达到30次，最大回撤模型仅在2022、2024年训练达到30次；绝大部分训练轮次均低于20次。图14：模型训练轮次与最优验证集RankIC出现轮次：Sharpe比率图15：模型训练轮次与最优验证集RankIC出现轮次：最大回撤总训练轮次验证集RankIC最高的轮次4030201002019 2020 2021 2022 2023 2024 2025

总训练轮次验证集RankIC最高的轮次353025201510502019 2020 2021 2022 2023 2024 2025观察训练过程中损失函数与RankIC的变化，对于触发早停的模型，训练集损失与验证集损失均随训练次数增加逐渐收敛至稳定水平，验证集RankIC上升至一定水平后也保持稳定、或略有下降；对于训练达到30次的模型，虽然训练集损失与验证集损失已经稳定，但验证集RankIC仍在随训练次数增加而上升，至30次时尚未收敛。值得注意的是，Sharpe比率2021年模型前期训练集与验证集损失已有收敛趋势，但从训练第26次开始，训练集损失进一步下降、验证集损失上升，同时验证集RankIC也快速上升，说明模型或有过拟合风险，因此我们设置最多训练30次是合理的。图16：训练过程中损失与RankIC变化：Sharpe比率2021年模型图17：训练过程中损失与RankIC变化：Sharpe比率2022年模型3.43.33.23.1

训练集loss 验证集loss 验证集RankIC（右轴）0.080.060.040.020-0.02-0.041357911131517192123252729训练轮次

3.23.132.92.82.7

训练集loss 验证集loss 验证集RankIC（右轴）0.20.10-0.1-0.21234567891011121314151617181920训练轮次图18：训练过程中损与RankIC变：最大回撤2022年模型图19：训练过程中损与RankIC变：最大回撤2021年模型0.02

训练集loss 验证集loss 右轴0.1

0.015

训练集loss 验证集loss 验证集RankIC（右轴）0.20.0150.010.005

0.050

0.010.005

0.10013579111315171921232527训练轮次

-0.05

01234567891011121314151617181920212223训练轮次

-0.1从训练结果来看，模型整体效果较优，能够在验证集上获得显著RaThkIC结果。以0.05为验证集最优RankIC的阈值，最大回撤每年的验证集RankIC均超过0.05，平均验证集RankIC为0.1792，其中2024年模型验证集RankIC最高，达到0.3229；而Sharpe比率平均验证集RankIC为0.0679，其中2020、2023年验证集RankIC低于0.05，其他年份均超过阈值，这可能源于沪深300在2020年底持续上涨、在2023年底持续下跌，模型在预测强市场趋势中的收益相关指标时效果相对较弱。图20：最优验证集RankIC：Sharpe比率图21：最优验证集RankIC：最大回撤最大回撤预测效果整体优于Sharpe比率。2021已经可以看出，最大回撤模型验证RankICSharpe比率。从损失函数来看，Sharpe模型训练集最后一轮损失的平均值为3.4821、最小验证集损失的平均值为3.2561，而最大回撤模型训练集与验证集的平均损失分别为预测指标训练模型数量预测指标训练模型数量RankIC0.05的模型数量最优验证集RankIC平均值最优验证集RankIC最大值RankIC平均训练轮次Sharpe比率750.06790.14370.038213最大回撤770.17920.32290.156418图22：训练集与验证集损：Sharpe比率图23：训练集与验证集损：最大回撤5.04.03.02.01.00.0

最后一轮训练集损失最后一轮验证集损失最小验证集损失2019 2020 2021 2022 2023 2024

0.0350.0300.0250.0200.0150.0100.0050.000

最后一轮训练集损失最后一轮验证集损失最小验证集损失2019 2020 2021 2022 2023 2024 更进一步，定义损失衰减率的计算公式为𝐿𝑜𝑠𝑠1−𝐿𝑜𝑠𝑠𝑇1𝐷𝑒𝑐𝑎𝑦𝑟𝑎𝑡𝑒=|𝐿𝑜𝑠𝑠|+10−41其中𝐿𝑜𝑠𝑠1为第一轮损失函数值，𝐿𝑜𝑠𝑠𝑇为最后一轮损失函数值。从结果来看，Sharpe比率与最大回撤模型的训练集损失衰减率均大于0Sharpe比率模型的平均衰减率为6.36%，最大回撤模型的平均衰减率为68.99%；Sharpe比率模型验证集损失衰减率存在小于0的情况，整体衰减率在0上下波动，而最大回撤模型验证集平均衰减率为39.58%。这也说明了Sharpe比率模型平均训练轮次较少的原因之一是，深度学习模型在预测Sharpe比率上的能力较弱，训练次数过多反而导致过拟合，因此Sharpe比率模型更快触发了早停。收益预测本身难度比风险预测更高，Sharpe模型的训练效果在可接受范围内。不考虑是否使用深度学习模型，收益预测这一问题本身一直以来都比风险预测更加难以捉摸。在衍生品定价等问题中，我们常常假设股票收益率服从随机游走，这意味着收益率未来的方向与幅度主要受到新信息的驱动，而新信息的冲击是难以预测的。但风险指标，包括波动率、最大回撤等具有较强的自相关性，市场的微观结构在短期内，尤其是在本模型所采用的日频、小时频级别上不易发生剧变，因此最大回撤模型的训练效果在各方面均表现更好。图24：训练集与验证集损衰减率：Sharpe比率图25：训练集与验证集损衰减率：大回撤20%

训练集损失衰减率验证集损失衰减率

100%

训练集损失衰减率验证集损失衰减率10% 80%0% 60%-0% 0%-0%-0%

2019 2020 2021 2022 2023 2024 2025

20%

2019 2020 2021 2022 2023 2024 2025Sharpe比率作为风险收益比，一方面受分子的收益率拖累，模型训练效果不如最大回撤；另一方面又受分母的波动率影响，模型训练效果比超额收益Alpha有所改善。总体而言，Sharpe比率的验证集RankIC全部超过了0.03，若将其视作选股因子仍属于显著有效的范畴，因此Sharpe比率模型的训练效果可以说是差强人意，后文中我们也将使用训练好的模型预测指数成分股的Sharpe比率并进行组合优化。四、模型应用实例：指数增强策略前文中我们已搭建了一个完善的时序截面三层深度学习模型，用于预测个股的超额收益、Sharpe比率与最大回撤等收益风险指标，并以沪深300指数成分股示例验证了Sharpe比率模型与最大回撤模型的训练效果良好，可用于生成有效的选股与风控信号。基于此，我们将深度学习模型分别应用于沪深300指数与科创50指数成分股，并根据预测结果进行组合优化和回测，以验证深度学习模型在投资实践中的效果。（一）指数增强组合优化框架本报告中沪深300和科创50指数增强策略均遵循统一的框架进行信号预测、组合优化与回测。具体而言，以指数成分股为基础股票池，获取股票与指数的日线/小时线数据输入深度学习模型，逐年进行模型训练，并预测未来一年的Sharpe比率、最大回撤信号；在组合构建时，在跟踪误差、换手率等约束下采用凸优化方法计算个股超配权重，并按照下一交易日收盘价将目标权重换算为持仓股数、生成买卖订单，最终进行回测净值计算与业绩评价。以沪深300为例，指数增强策略流程图如下。图26：沪深300指数增强策略回测流程图其中，凸优化方法采用"硬约束+软惩罚"双层体系，硬约束确保策略的可交易性，软惩罚引导优化方向。用公式可表示为max𝑤𝑝

𝛼𝑇𝑤−𝜆𝑟𝑖𝑠𝑘𝑤𝑇Σ𝑤+𝑠𝑜𝑓𝑡_𝑝𝑒𝑛𝑎𝑙𝑡𝑦𝑠.𝑡.𝛼=𝑍𝑠𝑐𝑜𝑟𝑒(𝑓𝑎𝑐𝑡𝑜𝑟𝑡)𝑤=𝑤𝑝−𝑤𝑏∑𝑤𝑖,𝑝=1𝑖0≤𝑤𝑝≤0.2−𝑤𝑏‖2≤0.25∑𝑡𝑜𝑝_𝑤𝑖,𝑝≤0.5𝑖=1𝑤𝑖,𝑝=0,𝑖∉𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑒2𝑠𝑜𝑓𝑡_𝑝𝑒𝑛𝑎𝑙𝑡𝑦=−𝜆𝑎𝑢𝑥[∑(𝑟̃𝑖𝑠𝑘∙𝑤)]

−

‖𝑤

−𝑤 ‖−

∙𝑝𝑒𝑛𝑎𝑙𝑡𝑦(𝑡𝑜𝑝_𝑤)𝑖 𝑖

𝑡𝑢𝑟𝑛

𝑝𝑟𝑒𝑣1

𝑖,𝑝优化目标函数参考马科维茨均值-方差优化，其中𝛼为根据深度学习模型结果合成的收益预测信号本报告中可表示为𝛼=𝑎𝑝𝑎𝑧+𝑠𝑎𝑟𝑝_𝑧Alpha模型预测质量不足，𝛼自动回退为sharpe_z，以避免低质量Alpha预测值对优化结果的污染。此外，𝜆𝑟𝑖𝑠𝑘为风险厌恶系数，本报告取值为1；Σ为历史收益方差协方差矩阵，在估计方差协方差矩阵时我们采用了目标收缩法，令矩阵向等方差矩阵收缩20%，保留了80%的样本结构信息，同时注入先验平滑，在保持矩阵正定的同时降低了方差协方差矩阵的估计噪声。硬约束包括权重之和为1，单只股票不可做空且仓位不超过20%，前5大重仓股总仓位不超过50%，跟踪误差不超过10%，换手率不超过20%，非当前成分股权重为0。同时，我们在目标函数中加入了软惩罚项𝑠𝑜𝑓𝑡_𝑝𝑒𝑛𝑎𝑙𝑡𝑦引导优化方向，其中具体项的设置可根据实际情况进行选择。后文回测中，我们仅加入了风险中性惩罚项与换手率惩罚项，暂未加入集中度惩罚项，即𝜆𝑐𝑜𝑛𝑐=0。具体而言：2风险中性惩罚项−𝜆 [∑∙𝑤)]中，𝑟𝑖𝑠𝑘即为深度学习模型预测的最大回撤信号，即𝑎𝑢𝑥𝑖 𝑖 𝑖 𝑖𝑟𝑖𝑠𝑘𝑖=𝑚𝑎𝑥_𝑑𝑟𝑎𝑤𝑑𝑜𝑤𝑛_𝑧，而𝑟̃𝑖𝑠𝑘𝑖表示个股相对于指数平均的风险暴露，即𝑟̃𝑖𝑠𝑘=𝑟𝑖𝑠𝑘−𝑤𝑇𝑟𝑖𝑠𝑘𝑖 𝑖 𝑏 𝑖𝑖𝑖则∑𝑖(𝑟̃𝑖𝑠𝑘∙𝑤)为组合的风险暴露水平，对此项求平方加入目标函数中，可在优化时使组合𝑖𝑖风险暴露尽可能趋近于0，且求平方可对最大回撤较大的个股施加更大的惩罚。风险中性惩罚项系数𝜆𝑎𝑢𝑥默认取值为2。1 换手率惩罚项−𝜆𝑡𝑢𝑟𝑛‖𝑤𝑝−𝑤𝑝𝑟𝑒𝑣‖𝑤𝑝𝑟𝑒𝑣为调仓前个股权重，‖𝑤𝑝−𝑤𝑝𝑟𝑒𝑣‖表示本次调仓的1 数𝜆𝑡𝑢𝑟𝑛默认取值为0.01。（二）沪深300指数增强策略沪深300增强策略的原始数据取值区间为2019年1月1日至2026年5月29日，采用小时线数据，每年重新训练一次模型，共训练2020-2025年6个模型，除2020年模型由于数据不足仅采用2019-2020两年数据进行训练以外，其他模型均为滚动最近三年数据训练。回测区间为2020年7月31日至2026年5月29日，每月最后一个交易日调仓，股票单边交易成本0.05%。2020年7月31日至2026年5月29日，沪深300指数增强策略回测累计收益率为44.00%，年化收益率为6.73%，相比沪深300指数实现年化超额收益5.92%；策略Sharpe比率和Calmar比率分别为0.4496、0.1923，最大回撤为-34.99%；策略超额收益的Sharpe比率和Calmar比率分别1.4123、1.6809，最大回撤为-3.52%。同时，从策略与沪深300指数的最大回撤对比来看，在回测区间内增强策略的最大回撤始终没有超过指数本身，表明深度学习模型预测收益风险信号在稳健增强了收益表现的同时，有效实现了组合的风险控制。图27：沪深300指数增强策略回测净值与超额收益1.61.51.41.31.21.110.90.80.72020/7/312020/9/302020/7/312020/9/302020/11/302021/1/312021/3/312021/5/312021/7/312021/9/302021/11/302022/1/312022/3/312022/5/312022/7/312022/9/302022/11/302023/1/312023/3/312023/5/312023/7/312023/9/302023/11/302024/1/312024/3/312024/5/312024/7/312024/9/302024/11/302025/1/312025/3/312025/5/312025/7/312025/9/302025/11/302026/1/312026/3/31

沪深300指数增强策略沪深300 超额收益（右轴）

1.51.41.31.21.110.9图28：沪深300指数增强策略回撤表现表8：沪深300指数增强策略回测业绩指标对比组合名称累计收益率年化收益率年化波动率Sharpe比率alar最大回撤月度胜率沪深300指数增强策略44.00%6.73%18.16%0.44960.1923-%55.71%沪深3004.20%0.74%17.83%0.13030.0162-%50.00%超额收益39.80%5.92%4.14%1.41231.6809-%62.86%从分年度业绩表现来看，在整个回测区间内，每一年沪深300增强策略在收益率、Sharpe比率等指标的表现上均优于沪深300指数，表现出熊市防守回撤较小，牛市进攻收益更高的特征。表9：沪深300指数增强策略回测分年度业绩表现组合名称年份年化收益率年化波动率Sharpe比率alar最大回撤策略换手率沪深300指数增强策略202032.28%16.53%1.79155.1316-%197.57%20212.21%19.41%0.20940.1345-%316.64%2022-%20.01%-0.9752-0.7449-%304.62%2023-%13.09%-0.3241-0.2911-%280.64%202423.39%22.33%1.05171.7990-%312.33%202524.85%16.19%1.45282.1590-%305.87%202619.73%15.48%1.24053.5652-%156.78%沪深300202028.76%16.61%1.61914.9544-%-2021-%18.59%-0.2050-0.2961-%-2022-%20.41%-1.1416-0.7736-%-2023-%13.50%-0.8643-0.5494-%-202415.33%21.39%0.77271.0645-%-202518.37%15.26%1.18221.7513-%-202615.73%15.93%0.99622.0223-%-图29：沪深300指数增强策略基准比：分年度年化收率图30：沪深300指数增强策略基准比：分年度Sharpe比率40%30%20%10%-0%-0%-0%

沪深300指数增强策略沪深3002020 2021 2022 2023 2024 2025 2026

沪深300指数增强策略沪深3002020 2021 2022 2023 2024 2025 2026（三）科创50指数增强策略科创50增强策略的原始数据取值区间为2019年12月31日至2026年5月29日，采用小时线数据，每年重新训练一次模型，共训练2021-20255个模型，除2021年模型由于数据不足仅采用2020-2021两年数据进行训练以外，其他模型均为滚动最近三年数据训练。回测区间为2021年7月30日至2026年5月29日，每月最后一个交易日调仓，股票单边交易成本0.05%。2021年7月30日至2026年5月29日，科创50指数增强策略回测累计收益率为41.17%化收益率为7.72%，相比沪深300指数实现年化超额收益5.24%；策略Sharpe比率和Calmar比率分别为0.3949、0.1419，最大回撤为-54.42%；策略超额收益的Sharpe比率和Calmar比率分别为0.8813、0.6909，最大回撤为-7.59%。同时，从策略与科创50指数的最大回撤对比来看，在回测区间内除20212022上半年策略最大回撤略高于指数以外，增强策略的最大回撤均低于指数本身，表明深度学习模型对科创50指数同样具有捕捉超额收益、同时控制风险的作用。图31：科创50指数增强策略回测净值与超额收益1.61.41.210.80.60.42021/7/302021/9/302021/7/302021/9/302021/11/302022/1/312022/3/312022/5/312022/7/312022/9/302022/11/302023/1/312023/3/312023/5/312023/7/312023/9/302023/11/302024/1/312024/3/312024/5/312024/7/312024/9/302024/11/302025/1/312025/3/312025/5/312025/7/312025/9/302025/11/302026/1/312026/3/31

科创50指数增强策略科创50 超额收益（右轴）

1.51.41.31.21.110.9图32：科创50指数增强策略回撤表现表10：科创50指数增强策略回测业绩指标对比组合名称累计收益率年化收益率年化波动率Sharpe比率alar最大回撤月度胜率科创50指数增强策略41.17%7.72%30.03%0.39490.1419-%41.38%科创5010.06%2.09%30.28%0.21680.0349-%41.38%超额收益31.10%5.24%6.01%0.88130.6909-%53.45%从分年度业绩表现来看，科创50指数增强策略在2021年、2023年、今年以来表现略弱于科创50指数，2022、2024、2025年在收益率、Sharpe比率等指标上均优于科创50。2021年表现较弱或源于数据不足、模型训练效果较差；2023年策略主要在2-3月科创50放量快速上涨时跑输，之后4-12月指数走熊时超额收益整体呈震荡走势，可能由于训练集中缺乏类似样本导致没有获得显著超额收益，但策略回撤改善，说明深度学习模型仍发挥了一定作用。今年以来策略在1-2月无显著超额，3月以来超额收益与指数走势反向变动，尤其5月策略超额收益回撤较大，或与近期市场资金抱团科技股有关，但总体而言回撤尚在可控范围内，5月底伴随市场回调科创50增强策略再次获得超额。与沪深300指数增强策略相比，科创50增强策略的超额收益不够稳健，但考虑到科创50成分股数量少、权重高度集中在电子行业，样本池本身增强难度更高，本策略能获得5.24%的超额收益、0.8813的超额Sharpe比率亦足以验证深度学习模型预测收益风险信号的有效性。表11：科创50指数增强策略回测分年度业绩表现组合名称年份年化收益率年化波动率Sharpe比率alar最大回撤策略换手率科创50指数增强策略2021-%19.65%-1.5838-1.5164-%215.64%2022-%28.03%-0.7930-0.6013-%401.24%2023-%19.35%-0.6039-0.4567-%361.68%202424.45%40.55%0.73191.0755-%272.49%202552.41%30.21%1.54582.9181-%321.24%202691.38%34.30%2.06355.0353-%135.69%科创502021-%21.22%-1.3849-1.5078-%-2022-%27.37%-1.2933-0.8547-%-2023-%20.26%-0.5119-0.4005-%-202416.79%40.38%0.57590.6845-%-202537.48%29.80%1.21702.0840-%-2026101.74%37.18%2.07325.2810-%-图33：科创50指数增强策与基准比：分年度年化收率图34：科创50指数增强策与基准比：分年度Sharpe比率50%

科创50指数增强策略科创50

3.002.001.000.00-1.00

科创50指数增强策略科创50-0%

2021 2022 2023 2024 2025 2026

-2.00

2021 2022 2023 2024 2025 2026五、风险提示报告结论基于历史价格信息和统计规律，但二级市场受各种即时性政策影响易出现统计规律之外的走势，所以报告结论有可能无法正确预测市场发展，报告阅读者需审慎参考报告结论。基金历史收益不代表未来业绩表现，文中观点仅供参考，不构成投资建议。表12：特征工程指标列表

六、附录（一）特征工程指标列表特征工程中所有指标的计算方法与说明如下表所示。其中mult为频率调整系数，若原始数据为日线，则mult=1；若原始数据为小时线，则mult=4。类别特征名计算方式窗口（日线）频率调整说明G1形态body(close-open)/close1期—实体幅度range(hih-w)loe1期—价格区间upper_shadow(hih-x(opelse)le1期—上影线loehaw(ioelse)lw)lse1期—下影线body_ratio(loe-oe(hg-lw)1期—实体占比returnclose.pct_change()1期×mult当期收益率G1收益/动量mom_3etolig()s()3日×mult3日动量mom_6etolig()s()6日×mult6日动量mom_12etolig(s()12日×mult12日动量mom_24etolig(s()24日×mult24日动量mom_48etolig(s()48日×mult48日动量mom_80etolig(s()80日×mult80日动量oiff4mom_6-mom_24——短长期动量差G1相对强弱ma_gap_5log(sea_)1期—偏离5日均线ma_gap_20log(sea_1期—偏离20日均线excess_ret_1etn-iexen1期—当期超额收益exssoexsstllig()s()6日×mult6日超额动量exsso4exsstllig(s()24日×mult24日超额动量exsso0exsstllig(s()80日×mult80日超额动量beta_2

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

银河金工组合优化系列报告：时序截面三层深度学习模型预测收益风险信号

文档简介

温馨提示

最新文档

评论

银河金工组合优化系列报告：时序截面三层深度学习模型预测收益风险信号

文档简介

温馨提示

最新文档

评论

相关文档