因子布阵手册:从“盲打”到“精准”的分域选股实战_第1页
因子布阵手册:从“盲打”到“精准”的分域选股实战_第2页
因子布阵手册:从“盲打”到“精准”的分域选股实战_第3页
因子布阵手册:从“盲打”到“精准”的分域选股实战_第4页
因子布阵手册:从“盲打”到“精准”的分域选股实战_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1不同定价环境下,同一因子的有效性可能天差地别。本文构建了一套从"分域是否有效"到"如何分域"再到"如何应用"的完整研究框架,系统探索因子定价的横截面异质性及其在选股中的实践价值。分域有效性检验:将事后回测前移为事前诊断。本文提出"置换检验+BH校正"的因子分域异质性检验框架,直接回答"给定的分域方式是否真正区分了因子的定价能力",而非仅仅依赖最终回测表现进行倒推。置换检验构造因子跨域差异的零假设分布,评估观测到的域间差异是否显著偏离随机情况;BH校正则在多因子同时检验时控制假发现率,避免为分而分的数据挖掘。以板块分域为例,每年约30.8%的因子通过显著性检验,说明该框架能够客观量化分域方式的有效性,为分域变量的选择提供统计依据,而非依赖经验判断。如何分域:从静态属性到有目标的定价环境识别。本文提出DS快变量分域与监督学习分域方法,分别解决传统分域的两个核心缺陷。传统行业、市值等静态标签变化缓慢,与因子收益波动存在频率错配——DS快变量分域以股票相对同行在波动率、振幅、换手率等量价维度的短期偏离程度作为分域依据,能够及时捕捉交易行为偏差所引发的定价异质性。传统分域还存在另一个根本缺陷:没有明确的选股目标,无法直接回答"哪类股票当前更适合哪类定价逻辑"——监督学习分域正是为此而设计,以代表性均值回复因子与趋势因子的定价误差为目标标签,直接学习"哪类股票更适合反转定价、哪类更适合趋势定价",使分域边界围绕未来Alpha差异动态学习。实证结果显示,监督学习分域的异质性覆盖度高达97.5%,远超所有传统分域方式,且绝大多数因子的匹配稳定性Spearman系数均为1.00,说明这一框架能够准确、稳定地刻画因子与定价环境之间的关联。如何应用:域内训练+域间组合,缺一不可。本文提出"取消域内二次标准化+叠加域Alpha动量信号"的两步法,解决常规分域复合因域内标准化而丢失跨域配置能力的问题。分域的价值不只体现在域内因子筛选更精准,也在于能否将域与域之间的收益差异转化为组合配置收益。实证显示,三个域的长期累计超额收益分化显著,趋势域累计超额达60%,均值回复域则跑输基准约110%,这一信息若被域内标准化抹平,模型将损失大量配置收益。两步法改进直接保留域间Alpha差异,改进后效果显著提升——以中证500为例,分域增强策略年化超额收益由全域的5.2%提升至8.8%,信息比由1.02升至1.74,相对回撤由-9.2%收窄至-5.9%。风险提示:量化结论基于历史统计,如若未来市场环境发生变化不排除失效可能;分域标签漂移与域结构突变风险;域Alpha动量信号的滞后性与反转风险;模型假设与工程实现风险。量化专题研究量化专题研究21因子分域:系统化Alpha捕捉的必由之路 31.1传统选股模型的困境 31.2分域选股的理论依据与价值 51.3分域选股模型的核心三要素 62如何量化评估分域有效性? 72.1分域有效性评估 82.2基于投资者行为偏差的快分域体系 212.3基于有监督学习的多维分域体系构建 283细节决定成败:域内如何训练? 3.1域内训练的目标与流程 343.2如何保留域间Alpha差异 353.3模型效果对比 374分域模型在指数增强策略中的应用 4.1中证500增强 404.2中证1000增强 425总结与思考 446附录 477风险提示 49插图目录 表格目录 31因子分域:系统化Alpha捕捉的必由之路不同类型股票在行业属性、生命周期、商业模式及投资者结构等方面的差异性较大,传统模型会不可避免地“平均化”掉不同股票子集中存在的关键局部结构。其使得模型只能捕捉最粗粒度的共性信号,而错失精细化的定价机会。同时指数增强策略超额收益逐年衰减的趋势也要求我们更加关注因子收益在横截面的结构性分化问题。以我们跟踪的线性多因子中证500增强策略为例,其超额收益在时序上呈现显著衰减。策略自2016年以来年化超额收益达13.3%、信息比2.78,整体表现优异,但2020年之后超额中枢明显下移,尤其在2024年9月24日前后的极端行情中遭遇了较大的相对回撤,2025年以来更是几乎与基准持平。这一现象背后的深层原因,并非简单的市场有效性提升或因子拥挤,而是因子收益在横截面层面的结构性分化日趋加剧——因子在股票横截面上的有效性并非均匀分布,而是高度依赖于股票所处的“域”。图1:线性多因子中证500增强策略历史净值资料来源:wind,图2:线性多因子中证500增强策略分年度表现年份基准策略超额收益信息比相对回撤跟踪误差2016-17.8%4.3%22.0%-1.2%4.1%2017-0.2%-1.4%2018-33.3%-19.7%-1.5%4.1%201926.4%44.8%4.08-3.4%4.5%202020.9%30.9%2.03-1.9%202127.3%2.11-4.2%2022-20.3%-7.2%-1.3%4.0%2023-7.4%0.0%7.4%-2.4%4.1%20246.6%-9.7%6.5%202530.4%30.5%0.1%0.02-4.8%202604174.8%0.67-2.9%7.2%汇总0.8%2.78-9.7%4.8%资料来源:wind,比如动量因子与反转因子在不同市值域中的表现差异,是跨域定价效率差异的典型体现。在机构覆盖率较高、信息竞争更充分的大盘股域中,价格对信息的反映相对连续,趋势延续性更强,因而动量效应更为显著;而在散户交易占比更高、覆盖不足且换手活跃的小盘股域中,价格更容易受到短期情绪驱动而出现过度反应,随后产生均值回复机会,反转效应因此更为突出。4图3:动量因子在不同宽基指数域内多空净值图4:反转因子在不同宽基指数域内多空净值资料来源:wind,分域的本质即引入因子的"条件变量"以提升预测精度。通过识别并剥离因子与域之间的稳定定价关系,我们得以隔离不同域间的相互干扰,在特定股票池中更精准地释放因子的预测能力。这一逻辑看似直观,但落地并非易事——分域选股需要回答的,不仅是"如何找到有效的分域特征"这一技术问题,更需要厘清其背后的理论依据。5行为金融学视角:不同股票域往往聚集着不同类型的投资者群体(如机构与散户、成长型与价值型投资者其认知偏差与交易模式存在显著的系统性差异(Barberis,Shleifer,Vishny,1998)。例如,机构主导的大盘股对信息反应更充分,动量效应突出;而散户主导的小盘股则更容易出现过度反应,为反转因子提供土壤。因此,因子有效性天然地依赖于其所处的投资者行为环境。资产定价理论视角:Merton(1973)的跨期资本资产定价模型(ICAPM)指出,不同资产面临的风险来源(风险敞口)各异。分域实质上是对“异质性风险”或“非系统风险定价差异”的结构化建模——不同域的股票可能对宏观经济变量、流动性冲击等具有不同的敏感度,导致同一因子在不同域中承担的风险收益特征计量经济学视角:参数结构性断点(Struct表明,经济关系可能随环境变化而发生突变。在因子投资语境下,市场机制、流动性环境等因素的变化可能使因子有效性在不同股票域中呈现非同步的演变。分域可视为应对这种结构性断点的一种近似,通过局部建模捕捉因子与域的稳定关系。分域选股的核心价值在于其“精细化”的建模思路有望实现三重提升:第一,在Alpha层面,通过横截面切割使因子的预测能力具有显著的异质性,从而优化因子合成权重,缓解因子收益的时序波动;第二,在Beta层面,能够针对性捕捉特定风格(如红利低波、超预期策略)的结构性机会,为风格配置提供工具化支撑;第三,在产品业务层面,分域研究天然服务于指数增强、行业主题基金等特定产品需求,宽基增强本身也是一种基于成分股的分域应用。6基于上述理论逻辑,分域选股需要一套系统性的方法框架,将“因子-域”的稳定关系转化为可执行的策略。这一框架围绕三个核心步骤展开:横截面分域、域内训练与域间组合。第一,横截面分域:如何量化预评估分域的有效性?如何分域能显著区分Alpha预测能力?分域的第一步是确定将股票按照何种特征划分成不同的子集,然而并非任意分域都能带来价值。我们需要科学的检验框架来判断:对于给定的因子库,该分域方式是否能显著区分因子的预测能力?为此,我们引入因子跨域异质性检验,结合置换检验与多重校正,回答"什么样的分域是有效的"这一基础问题。第二,域内训练:如何在各域中构建有效的预测模型?确定分域后,每个域内将独立进行因子筛选与模型训练。但分域训练可能带来新的问题:各域样本量差异、域间收益水平不一致、以及因子在域内的加权方式等。我们需要一套通用的域内训练逻辑,既能充分利用因子在特定域的异质性表现,又能避免因样本减少而导致的估计偏差。第三,域间组合:如何将各域的预测结果融合为最终的投资信号?各域独立训练后,我们得到每个股票的得分。简单的等权拼接可能抹杀域本身的Alpha,而过度复杂的加权又可能引入过拟合。我们需要在域间组合中平衡域内选股收益与域间配置收益,最终在指数增强策略中实现风险可控的收益增强。图5:分域核心三要素全流程图资料来源:绘制上述三个要素构成了分域选股模型的完整闭环。后续章节将逐一深入探讨:第二章聚焦于分域有效性的量化评估,介绍置换检验框架及其实证结论;第三章系统阐述域内训练的技术细节,包括因子预处理、筛选加权及域间补偿方法;第四章则将模型应用于指数增强场景,检验其实际效果并进行归因分析。通过系统性阐述这三个环节,我们试图为分域选股提供一套可复制、可验证的实践指南。72如何量化评估分域有效性?如何科学地检验因子在不同域内的表现差异?这不仅是验证分域逻辑是否成立的基础,更是后续决定每个域内使用哪些因子的依据。然而,在实际操作中,这一检验过程会遭遇一系列棘手的问题:•差异的显著性:因子的RankIC在不同域之间呈现出数值上的差异,但这种差异在多大程度上超越了随机波动?如果差异不具备统计显著性,据此进行分域训练只会引入“噪声”。•域间的可比性:不同域之间的IC是否可以直接比较?某些域本身可能就是“因子选股黑洞”,几乎所有因子的IC都偏低;另一些域则天然有利于因子表现。我们应该关注IC的绝对水平,还是因子在域内的相对排名?•覆盖度与增量价值:分域方式对既定因子库的覆盖度有多广?即有多少因子表现出显著的跨域异质性?这直接关系到分域能带来多少潜在的增量收益——如果只有极少数因子存在异质性,那么即使这些因子在域内得到优化,对整体组合的贡献也可能微乎其微。•关系的稳定性:域与因子之间的对应有效性关系是否经得起时间检验?如果这种关系只在特定市场阶段成立,那么基于历史数据构建的分域模型就可能在未来失效。上述问题直接关系到分域策略的有效性和可靠性。若不能科学地回答这些问题,分域就可能沦为一种“为分而分”的数据挖掘,不仅无益于提升模型表现,反而可能因样本分割引入额外的估计误差。因此,建立一套严谨的因子分域异质性评估框架,是分域选股研究十分重要的一步。8为什么不直接比较全域模型和分域模型的最终表现,而要单独建立一套因子层面的评估框架?原因在于,直接比较全域模型与分域模型的最终表现,并不是评估分域有效性的可靠方式。复合因子的最终表现由分域方式、因子筛选、加权方法等多个环节共同决定,一旦模型效果不佳,我们无从判断问题出在哪一环;若回测恰好覆盖了分域有效的历史窗口,也容易产生过拟合错觉,且也难以指导后续的优化。因此,我们需要在模型构建之前,建立一套科学的评估框架,对分域方式与因子之间的关系进行预检验。这个框架的作用是:•覆盖度扫描:判断有多大比例的因子表现出显著的跨域差异,评估分域方式对因子库的整体适配性。•显著性把关:通过严格统计检验,确保观察到的域间差异并非随机波动,避免被噪声误导。•因子筛选:识别真正具有异质性的因子,为后续域内差异化训练提供依据。评估的核心问题是:对于某个因子,它在不同域中的表现是否存在显著差异?这里的“表现”我们通常用RankIC来衡量。我们需要一个不依赖于数据分布假设、能够处理多个域比较的方法——置换检验正是理想的选择。置换检验是一类基于数据重排的非参数假设检验方法,Bonninietal.(2024)在ReviewaboutthePermutationApproachinHypothesisTesting中对其理论与应用进统综述,其核心优势在于无需对数据分布作任何先验假设,仅通过随机打乱标签构造零假设分布,即可对任意统计量进行推断。假设我们将股票按行业板块分为大金融、医药、科技等若干域,想知道某因子在不同行业中的RankIC是否存在差异。置换检验的具体做法如下:1、在每个月末分别计算该因子在各域内的RankIC,得到一个"月份×域"的IC矩阵,每个元素对应某月某域的IC值。2、保持每个月份的各域IC值不变,随机打乱这些IC值与域标签的对应关系——即将某月各域的IC值随机重新分配给各个域,生成一组"伪域IC序列"。对每个伪域,计算其跨时序的平均IC,再以各域均值的方差作为"域间差异"统计量。重复上述过程1000次,即可得到零假设下域间差异的分布。需要说明的是,这里打乱的是已计算好的域IC值与域标签的对应关系,而非对股票的域归属重新随机分9配。从理论上看,后者(随机重分配股票域标签后重新计算IC)构造的零假设更为纯粹,直接破坏了域结构本身。但实践中,重新分配股票域标签还面临一个没有标准答案的问题:每次置换时各域应分配多少股票?若按原始域规模分配,则需要对不规则的域边界做额外假设;若等分,则改变了原有域的规模结构。相比之下,IC序列置换保留了各域的样本量信息,计算成本也更低,是工程上合理的近似方案。在各域样本量差异不悬殊的情况下,两种方式的结论通常一致。3、将真实IC矩阵中各域IC序列的时序均值所构成的域间方差与1000次置换得到的方差进行比较:统计1000次置换中,域间方差超过真实方差的次数占总次数的比例,即为该因子的p值。若p值小于0.05(即不足5%的置换样本产生了比真实观测更大的域间差异则认为该因子的跨域差异具有统计显著性,不太可能由随机分配产生。图6:置换检验示意图资料来源:wind,这个方法的优点在于:•无需分布假设:传统参数检验(如t检验、F检验)要求IC服从正态分布,但因子IC在不同市场环境下分布形态往往不规则,正态假设难以满足;置换检验完全基于数据本身构造零分布,无需对IC的分布形式做任何假定。例如,某因子在科技域的月度IC序列呈右偏且存在尖峰,若强行用t检验判断其是否显著高于金融域,p值会因分布假设不满足而失真;置换检验则直接用这组真实IC数据构造零分布,结论更可靠。•零分布自然内含样本量信息:样本量较小的域,其IC估计本身就更不稳定,置换后该域的伪IC波动也相应更大,这一不确定性已自动体现在零分布中,无需对不同规模的域做额外修正。例如,金融域股票数量较少,科技域股票数相对较多,金融域IC的估计误差天然更大、波动更高。在构造零分布时,这些高波动的IC值会被随机分配到各个域,使得零分布本身就包含了较多的极端值,检验因此不会轻易将金融域偶发的IC偏高判定为显著;若改用参数检验并假设各域方差相同,则会忽略这种规模差异,可能高估小样本域差异的显著性。当我们同时对多个因子做置换检验时,每个因子都会得到一个p值,衡量其跨域差异是否显著。然而,同时检验的因子越多,仅凭偶然就出现低p值因子的概率就越高——即使所有因子实际上都没有跨域差异,在检验100个因子时,也预期有约5个因子的p值低于0.05。这就是多重检验问题。解决思路是控制错误发现率(FalseDiscoveryRate,FDR与其要求"所有判定显著的因子都是真阳性",不如允许其中有一个可接受比例的假阳性,从而在控制误判风险的同时保留更多真实信号。Benjamini-Hochberg(BH)方法正是基于这一思路:1.将所有因子的p值从小到大排序:p1≤p2≤…≤pm。2.对每个排名i计算对应临界值:qi=×FDRlevel,其中FDRlevel设为0.05。3.找到最大的k,使得pk≤qk,则前k个因子被判定为显著。BH方法能剔除假阳性的原理在于:它对排名靠后(p值较大)的因子适用更宽松的阈值,对排名靠前的因子则要求更严格。若某因子的p值虽然低于0.05,但相对于其排名而言仍然"不够小",就会被剔除。整体上,它从数学上保证了最终判定为显著的因子中,假阳性的期望比例不超过预设的FDR水平。图7:BH校正步骤示意图资料来源:绘制为更直观地理解上述检验流程,我们以大类行业板块作为分域方式,进行一次完整的异质性检验。我们将申万一级行业合并为六大板块:周期、制造、消费、科技、金融、医药。这一分域方式既保留了行业间的经济逻辑差异,又避免了单个行业样本量过小的困扰。表1:申万一级行业和大类板块映射大类板块周期有色金属、石油石化、煤炭、钢铁、基础化工、交通运输、公用事业建筑装饰、建筑材料、机械设备、汽车、国防军工、轻工制造、环保、纺织家用电器、食品饮料、商贸零售、社会服务、美容护理、农林金融银行、非银金融、房地产、综合资料来源:wind,我们从价值、成长、盈利、另类、反转、低波、流动性等维度选取了30个常见的选股因子,覆盖了A股市场主流的定价逻辑。检验步骤的具体步骤如下:1、因子预处理:全市场内进行缺失值填充、缩尾、中性化处理,之后在全域和分域进行后续标准化处理。2、异质性检验(置换检验每年末,对每个因子,利用过去10年的月度分域RankIC数据,计算六个板块IC均值的跨域方差作为观测统计量。-------其中(IC)k为因子在第k个板块的10年平均RankIC。该统计量越大,说明因子在不同板块间的长期表现差异越大。随后进行1000次置换:每次随机打乱各月六个板块的IC值与板块标签的对应关系,重新计算T值,得到零假设下的统计量分布。将真实的T值与该零分布比较,计算p值(即置换样本中T值超过真实值的比例)。3、多重检验校正:对30个因子的p值进行BH校正,控制FDR=0.05,筛选出具有显著跨域异质性的因子。表2:选股因子明细账面市值比1股息率11现市率1单季度营业收入/总市值1季度盈市率11JUMP_OPEN盈余公告动量成长1成长1成长1成长1成长1成长1盈余超预期成长1成长11111111111资料来源:Wind,表3展示了2018年至2025年滚动检验的逐年结果。从长期平均看,每年识别出的显著因子比例约为30.8%(平均9.3/30个因子),表明板块分域对因子预测能力的差异具有一定的解释力,但仍有近七成因子在各板块间表现相对一致。值得关注的是显著比例的时序波动:2020年达到峰值,这与当年结构性行情高度吻合;而近三年显著比例呈下降趋势,2025年降至10.0%,反映出板块间的定价分化在近期有所收敛,可能与市场风格趋同化、主题轮动加速有关。表3:板块分域下异质性检验结果8573资料来源:wind,图8和图9展示的热力图与出现频率排序揭示了因子跨域异质性的结构特征:盈利成长类因子的跨域差异最为稳定:OCFP(现金流市值比)和NetProfit_Q_YoY(季度净利润同比)在全部8个检验年度均通过显著性检验,SUE0和ROE_Q_YoY紧随其后,其异质性贯穿市场周期。这表明不同板块对盈利信息的定价效率差异最为根本——科技和医药板块的高成长预期使得盈利超预期因子的边际信息量显著高于金融和消费板块。部分量价类因子同样表现突出:RET240(长期动量)出现6次,HSIGMA_FF3(特质波动率)出现5次,但在个别年份有所缺失,其跨域差异受市场环境的阶段性影响。估值类因子在板块间的预测力差异则不大:BP和SP_Q仅出现2次,EP和DP各出现1次,仅在个别年份偶发显著,证实传统估值因子的定价逻辑在板块间的分化并不显著。图8:因子×年份显著性热力图资料来源:wind,图9:各因子在板块分域异质性检验中的显著次数(2018—2025年)资料来源:wind,上述检验直接使用各域的RankIC绝对值衡量跨域差异,隐含假设不同域的因子整体有效性水平大致相当。然而在实践中,某些域可能对所有因子都更为"友好",导致IC普遍偏高,反之亦然。表4显示,不同板块的因子整体有效性水平存在系统性差异:制造板块因子表现最为突出(IC均值4.8%,ICIR2.02金融板块最弱(IC均值3.8%,ICIR1.34两者IC相差约1个百分点。这种系统性的域间差异会干扰对因子-域特定关系的判断——即使因子本身没有板块偏好,也可能因为域的整体效应而被误判为表4:各板块内因子的平均RankIC均值和RankICIR(2008.12-2026.3)周期金融资料来源:wind,为解决这一可比性问题,我们在检验前对每个时间点、每个域内的IC值进行域内排名转换。对于每个月份和每个域,将该域内所有因子的IC值从大到小排序,赋予排名。经过转换后,因子的IC绝对值高低不再重要,重要的是它在域内众多因子中的相对排位。如果某因子在域A和域B的排名都靠前,那么即使两域的IC绝对值差异很大,它也会被判定为没有异质性。随后,对排名后的数据矩阵进行同样的置换检验。排名检验与IC绝对值检验的结果整体接近,但在近年出现显著分化。排名检验的长期平均显著因子比例为34.6%,略高于IC绝对值检验(30.8%两者在多数年份的波动趋势一致:均在2019—2020年前后达到峰值——排名检验在2019年和2020年显著比例均达50.0%,IC绝对值检验在2020年达到56.7%。这表明2020年的因子跨域差异并非仅源于板块因子整体有效性水平的系统性分化,而是反映了因子在不同板块中的定价逻辑存在实质性差异。值得关注的是,2025年两种检验出现显著分化:IC绝对值检验的显著比例降至10.0%,而排名检验仍有36.7%,说明尽管近年板块间IC绝对差异明显收窄,各板块对不同因子的相对偏好排序仍然存在——板块分域对因子筛选的价值并未完全消失。图10:RankICvsRankIC相对排序异质性检验结果比较按RankIC检验按RankIC相对排序检验检验日期显著比例平均p值平均校正后p值显著比例平均p值平均校正后p值2018-12-2826.7%0.15920.200430.0%0.18760.23392019-12-3140.0%0.15640.183150.0%0.16070.19552020-12-3156.7%0.14200.161350.0%0.12870.15052021-12-3140.0%0.18620.223643.3%0.16410.19232022-12-3033.3%0.21860.274216.7%0.17170.21122023-12-2916.7%0.29340.387626.7%0.19430.24442024-12-3123.3%0.27260.363623.3%0.20680.25962025-12-3110.0%0.30540.399836.7%0.21430.2605平均30.8%0.21670.274234.6%0.17850.2185资料来源:wind,从因子层面看,排名检验下的显著因子结论整体与IC绝对值检验一致,但个别因子出现明显变化。NetProfit_Q_YoY、RET240和HSIGMA_FF3在8个检验年份中均显著,MOM60_TR(7次)和SUE0(6次)紧随其后,与IC绝对值检验中的核心因子结论大致吻合,说明这些因子的跨域差异确实源于因子本身而非域的整体效应。然而,OCFP在IC绝对值检验的8个年份中均显著,但在排名检验中降至仅1次,表明OCFP可能在因子整体有效性水平较高的域中IC绝对值更高,但其在各域内的相对排名并无显著差异——其跨域差异主要反映的是域的整体效应,而非因子本身的域偏好。两种检验方式各有侧重,建议结合使用。需要注意的是,域内排名转换也引入了新的偏差:它隐含假设不同因子在域内的IC可比。然而,量价因子的IC通常天然高于基本面因子,这意味着即使量价因子在某个域表现显著弱于其他域,从排名来看它仍可能是该域的头部因子,从而掩盖其真实的跨域差异。因此,IC绝对值检验度量"因子在不同域的表现是否有差异",排名检验度量"不同域对因子的偏好排序是否不同"。实际应用中,建议以IC绝对值检验为主,排名检验为辅——两种方法下均显著的因子可视为最具可信度的跨域异质性因子。如无额外说明,后文仍采用IC绝对值作为异质性检验标准。图11:因子×年份显著性热力图(按RankIC相对排序检验)资料来源:wind,异质性检验回答了"差异是否存在",但实际模型构建更需要追问:这种差异的方向是否随时间保持稳定?异质性检验衡量的是因子在所有域之间的整体差异程度——只要差异存在,无论方向如何变化,检验都会判定为显著。然而,如果某因子在2018—2020年科技板块表现最强、金融板块最弱,而在2023—2025年恰好反转,异质性检验仍会判定该因子"跨域差异显著"。对于模型使用者而言,这种匹配关系的翻转意味着无法根据历史统计预判因子在各域的未来表现方向。为此,我们引入因子-域匹配关系稳定性检验,度量因子在不同域的相对强弱排序是否具有跨期一致性。具体做法是:将每个检验窗口(10年)一分为二,分别计算前5年和后5年中因子在各域的平均IC向量,再计算两段时期IC向量之间的Spearman秩相关系数:•相关系数接近1:因子在各域的相对强弱在前后5年保持一致,匹配关系稳定,可据此指导域内因子配置;•相关系数接近0:前后匹配关系随机化,历史规律不具有外推性;•相关系数为负:匹配关系发生翻转,原来强势的域变弱、弱势的域反而从检验结果看,因子可按稳定性分为三个层级:弱排序高度一致且持久——例如SUE0在科技板块的预测力始终强于金融板块,过去10年中未发生翻转。这类因子是分域模型最可信赖的差异化信号来源。MOM20(0.40)等。这些因子的域间匹配关系总体正向但存在阶段性波动,在某些年度可能出现短暂的排序变化。在使用时需要结合近期表现进行动态调整。低稳定性/漂移因子(平均相关系数<0.1JUMP_OPEN(-0.22)、GrossMargin_Q(-0.14)、ROE_Q(-0.13)等。这些因子在前后半段的域间排序不一致甚至翻转,说明其与特定板块的关系受市场环境影响较大,不宜作为分域差异化配置的依据。图12:行业板块分域下的因子-域匹配关系稳定性资料来源:wind,匹配关系稳定性检验是对异质性检验的重要补充。异质性检验筛选出“在哪些因子上分域有意义”,稳定性检验进一步回答“分域的方向是否可预测”。在后续的域内训练中,对于高稳定性因子可以放心使用较长历史窗口进行域内权重估计,对于低稳定性因子则应当缩短训练窗口或引入自适应加权机制,以应对匹配关系的综上,本文构建的异质性检验框架从三个维度为分域模型提供了统计依据:跨域差异的存在性(基于IC绝对值的置换检验)、跨域差异的纯度(基于域内排名的排除域效应检验)、以及跨域差异的稳定性(前后半段匹配关系检验)。下一节我们将在此基础上,探讨不同分域方式的选择与对比。图13:因子分域异质性检验完整流程示意图资料来源:绘制分域变量的选择,本质上是寻找能够刻画因子跨股票定价差异的维度。常见的分域变量包括行业归属、市值规模、估值水平等,这些变量具有清晰的经济学含义,能将股票划分为内部相对同质、彼此差异显著的子集。此外,分域效果与样本量密切相关——子集越小,域内股票同质性越高,越能凸显因子在该域内的特异性信号,但也更容易受到统计噪声的干扰。因此,分域设计需要在"样本代表性"与"信号特异性"之间寻求平衡。早期分域研究大多基于股票的固有属性,这些属性在月度甚至季度间变化有限,我们称之为"慢分域"。其核心逻辑是:股票的某些长期特征(如行业、市值、成长性)决定了其对特定因子的敏感度。常见的慢分域方式包括:•行业板块:将股票按申万一级行业合并为大类板块(周期、制造、消费、科技、金融、医药)划分。行业是基本面差异最直接的体现,不同行业在盈利模式、周期属性、政策环境等方面存在天然区别。•市值:根据累计市值占比划分为大盘、中盘、小盘,反映公司规模、流动性与机构关注度的差异。•价值/成长:参考晨星风格箱方法,综合估值与成长指标划分为价值、混合、成长三类,捕捉两种主流投资逻辑的轮动规律。•生命周期:根据经营性现金流、投资现金流、融资现金流的正负号组合,将股票划分为初创期、成长期、成熟期、衰退期等阶段,反映企业不同发展阶段的财务特征。•分析师覆盖:根据覆盖分析师数量划分。分析师关注度高的股票信息透明度高、定价效率高,反之则可能存在信息不对称。我们对五种慢分域方式进行异质性检验,考察其对因子库的"覆盖度"——即经置换检验与BH校正后,被判定为具有显著跨域差异的因子占全部因子的比例,覆盖度越高说明该分域方式的区分能力越强。结果显示,各慢分域方式的覆盖度整体处于中等水平且年度波动较大。从长期和行业板块(30.8%生命周期最低(12.1%)。分析师覆盖度表现突出,可能与其本身蕴含了规模、流动性等多维信息有关。从时序演变看,行业板块和分析师覆盖度在2019—2020年前后达到峰值(分别为56.7%和50.0%但行业板块此后整体持续下降,2025年末仅为10.0%,反映出近年板块间定价差异的收窄。市值和价值/成长则呈现后发优势:市值在2022—2025年间稳定在43—47%,价值/成长在2023年跃升至70.0%,与近年价值-成长风格轮动加剧的市场特征吻合。图14:“慢分域”异质性覆盖度时序变化情况图15:“慢分域”异质性平均覆盖度对比资料来源:wind,总体而言,慢分域能在一定程度上解释因子表现的差异,但存在两个核心局限,根本原因在于其变化频率与因子收益波动存在错配。一是整体覆盖度不高,即使表现最好的分析师覆盖度,长期平均也仅40.4%,超过半数的因子在该分域下不具有显著跨域差异;二是覆盖度年度波动较大,缺乏跨周期稳定性。慢分域反映的是股票的长期固有属性,而因子有效性往往随市场情绪、流动性环境等短期因素快速切换,当因子定价逻辑发生变化时,慢分域难以同步调整——慢分域的"慢"与因子收益波动的"快"之间,存在天然的频率错配。为解决慢分域与因子收益波动之间的频率错配,我们引入能够快速响应市场状态变化的分域方式。这类"快分域"的核心思想是:股票短期的量价交易行为——如波动率、换手率、振幅等——往往反映了投资者的行为偏差,而这些行为偏差正是许多因子有效性的微观基础。DS指标的构建来自对股票偏离同行程度的量化。Chen,Y.,H.Wang,andJ.离显著性"(DeviationSignificance,DS)概念,其定义如下:其中,xi为个股的指标值,xpeer为其同行的代理指标值中位数。DS取值介于0到1之间,值越大表示个股与同行的偏离越显著;分母采用绝对值相加的归一化形式,使DS在不同量纲和绝对值水平的变量之间可比。DS的逻辑基础源于行为金融学的显著性理论(SalienceTheory)。Bordalo,Gennaioli&Shleifer(2012)在SalienceTheoryofChoiceUnderRisk中提出,决策者对显著性刺激会系统性地赋予更高权重;这一框架后续被扩展至资产定在此框架下,当某只股票在量价层面(如收益率、振幅、换手率)与同行出现极大偏离时,这种偏差本身即具有"显著性",容易吸引投资者的过度关注,使其对偏离同行幅度越大的股票赋予更多非理性权重,导致短期价格超调,随后出现均值回复。因此,高DS股票更适合价值、低波、反转等均值回复型因子;低DS股票信息扩散相对充分,则更适合动量、超预期等趋势型因子。DS指标的构建涉及基础变量与peers两个关键要素。我们尝试了三类基础变量、各取三种回溯窗口,共9个DS指标:•波动率(VOL过去10日、20日和60日的波动率。•换手率(TO过去10日、20日和60日的换手率。•振幅(ATR过去10日、20日和60日的振幅。peers采用申万一级行业分类,取行业内股票指标值的中位数作为同行代理值。相较于原文献采用分析师共同覆盖网络的做法,行业分类简单易行,且能有效控制基本面差异。图16汇总了DS指标自身的选股效果。9个DS指标整体呈现负向选股能力,且收益主要来自空头端。RankIC均值在-1.9%至-3.7%之间,年化ICIR在-1.55至-3.23之间,即DS值越高(与同行偏离越大)的股票未来表现越差,与过度反应假说一致。从多空结构看,收益主要来自高DS股票的空头贡献,低DS股票的多头超额收益相对有限。因此,DS更适合作为刻画股票偏离程度的“分域标签”,用于辅助识别不同定价环境,而不宜直接作为独立选股因子使用。图16:DS因子有效性汇总(2016.1.1-2026.3.31)因子简称年化ICIRIC月胜率多空年化最大回撤多头年化超额多头信息比多头相对回撤ATR10_DS -3.17150.71200.7120ATR20_DS -2.42720.5036ATR60_DS-1.79320.5%0.1330TO10_DS -2.5429 0.4329TO20_DS -2.11540.3073 TO60_DS-1.54730.3%0.0744VOL10_DS -3.226882.9%82.9%0.70210.7021VOL20_DS -2.2868 0.3889VOL60_DS-1.7918 0.3592资料来源:wind,基于上述DS指标,在每个月末按DS值以30%/40%/30%的比例将全市场股票分为低DS、中DS、高DS三组,用于因子异质性检验。图17将慢分域与快分域的检验结果进行对比,快分域在四个维度上表现出明显优势:第一,快分域的异质性覆盖度大幅超越慢分域。以20日窗口为代表,TO20_DS的长期平均显著因子比例达63.3%,ATR20_DS为58.3%,VOL20_DS为44.2%,均显著高于慢分域中表现最优的分析师覆盖度(40.4%)和市值(37.5%)。第二,快分域的跨周期稳定性更强。慢分域的覆盖度年度间波动剧烈——行业板块从2020年的56.7%骤降至2025年的10.0%。相比之下,快分域波动幅度明显更小:TO20_DS在8个检验年度中有7个年度显著比例达到或超过50%,ATR20_DS近5年稳定在50%—74%区间。这种稳定性源于量价指标的高频更新特性——即使市场风格切换,短期交易行为仍能及时反映新的行为偏差格局。图17:快分域下异质性检验结果:显著因子比例慢分域快分域检验日期行业板块价值/成长生命周期分析师覆盖度TO20_DSATR20_DSVOL20_DS2018-12-2840.0%46.7%2019-12-3140.0%46.7%40.0%2020-12-3146.7%2021-12-3140.0%46.7%46.7%2022-12-3043.3%46.7%2023-12-2943.3%2024-12-3146.7%2025-12-3143.3%40.0%平均40.4%44.2%资料来源:wind,第三,快分域对因子的影响方向与行为金融学逻辑高度一致。图18以ATR20_DS为例展示代表性因子在不同DS域的表现差异:估值类因子呈现出最显著的单调递增模式:BP因子在低DS域RankIC仅为2.7%(ICIR1.18在高DS域跃升至7.0%(ICIR2.24多头年化IR从-0.10提升至0.68;DP因子同样从2.6%/1.69升至6.4%/2.44。这意味着在量价偏离程度更大的股票中,价值因子的预测能力被显著放大——这些股票可能因投资者过度反应而产生了更大的估值折价,为价值因子提供了更丰富的均值回复空间。短期反转与长期动量两类机制在不同DS域中的适用性存在差异。短期反转因子RET20呈现出显著的单调递增模式:在低DS域IC仅为3.5%,多头IR为-0.21,而在高DS域跃升至9.3%,多头IR升至1.02,说明与同行偏离越大的股票,短期过度反应后的修正越明显,反转效应越强。相比之下,长期动量因子RET240呈现相反的单调递减模式:在低DS域IC为1.0%(ICIR0.39而在高DS域转为-3.4%(ICIR-1.03多头IR也从-0.56降至-0.84。这表明高DS股票的价格偏离更多体现为短期情绪冲击,而非可持续的长期趋势,因此更有利于反转因子发挥作用,却削弱了长期动量因子的有效性。3.9%和2.3%,高DS域反而有所下降,说明超预期信息的定价效率受短期交易状态的影响有限——基本面信息传导主要依赖公司长期特征而非短期交易行为。图18:ATR20DS分域下代表性因子选股有效性(2008.12-2026.3)测试域因子简称年化ICIR多头月均超额收益多头年化IR低DS-0.1%-0.10410.1%高DS2.23532.23530.5%0.6833低DS-0.2%-高DS2.43642.43640.4%低DSSUE02.62472.62470.1%0.25882.75772.75770.6%0.6%2.16462.1646高DS0.5%0.5%低DS-0.1%-0.214高DS9.3%9.3%2.50512.5051 0.7% 低DS0.3888-0.3%-0.5638-0.56380.2%70.0%-0.0961高DS-3.4%3-0.7%-0.7%-0.8417-0.8417低DSTO20_STD8.6%2.06922.0692高DS资料来源:wind,第四,快分域与慢分域在因子匹配稳定性上形成互补。图19展示了ATR20_DS分域下因子-域匹配关系的稳定性检验结果,与行业板块分域(图12)对比:量价类因子在快分域下表现出极高的匹配稳定性:TO20_STD、MOM20_TO、RET20的平均Spearman相关系数均达到1.00,DP和HSIGMA_FF3为0.94,RET240为0.94。这些因子在不同DS域中的相对强弱排序,在前后半段几乎完全一致。估值类因子中,EP_PERCENTILE(0.81)、SUG0和SP_Q(0.75)也保持了较好的稳定性。然而,部分盈利类因子在快分域下的匹配关系却不稳定甚至翻转:ROE_Q的平均相关系数为-0.56,ROE_TTM为-0.50,GrossMargin_Q为-0.25。而在行业分域下,ROE_Q_YoY的稳定性为0.45,表现更好。_图19:ATR20DS分域下因子-域匹配关系稳定性_资料来源:wind,这一现象的根源在于DS公式采用绝对值归一化,只衡量偏离程度而不区分偏离方向,导致"高DS域"的底层成分随时间漂移。逐月追踪高DS域中原始ATR20的z-score均值发现:2007—2015年间,高DS域以低振幅股票(偏低同行)为主;2019年至今则以高振幅股票为主,方向完全翻转。由于低振幅股票通常以成熟期大盘蓝筹为主,高振幅股票多为成长期中小盘,高DS域的成分切换直接导致ROE等基本面因子在域内的有效性方向发生翻转,最终表现为匹配关系不稳定。因此,快分域模型应优先配置量价类因子作为域内差异化信号,对基本面因子则适宜采用全域统一权重或缩短训练窗口;慢分域模型中则相反,盈利成长类因子的匹配关系更稳定,可使用较长历史数据进行域内估计。图20:ATR20DS高低域的月振幅差__资料来源:wind,综合来看,快分域相较于慢分域的优势体现在覆盖度、跨周期稳定性以及因子的匹配稳定性。但快分域对基本面因子的匹配稳定性不足,且仍然依赖于单一维度的特征,无法捕捉多个特征之间更复杂的交互关系。为了进一步提升分域的精确度,我们需要从“单特征、无监督”的分域范式,迈向“多特征、有监督”的下一阶段。前两节的分域方法——无论是基于行业/市值/生命周期的慢分域,还是基于 DS偏离显著性的快分域都是"无监督"的:我们先设定划分规则,然后事后检验因 子在域间是否存在差异。这种方法的局限在于,分域的构建过程与因子的差异化应 用之间存在脱节。我们真正关心的是:能否让分域本身就以“最大化因子域间差异”为目标?所谓“有目标”的分域,是指分域不再仅追求“域间因子表现存在统计差异”,而是让每个域对应一种明确的投资逻辑——使域标签本身具有可操作的经济含义。为此,我们在本节中提出因子定价误差这一概念,构建了一个有监督的多维分域体根据因子的收益模式,我们将主流选股因子分为两大类:1、均值回复型因子(Rev捕捉价格偏离后的回归效应,包括估值类(BP、EP)、反转类(短期收益率反转)、低波类(历史波动率低)等。2、趋势型因子(Mom捕捉趋势的延续,包括动量类(过去12个月收益率)、业绩动量类(超预期、盈利增长)等。我们从每类中选取典型因子进行等权合成:(月波动率,取反•趋势类(MomRET240(年度动量)、SUE0(标准化预期外盈利)、每月末,将方向校正后的因子值等权合成为两个大类因子Rev和Mom。方向校正确保所有种子因子在合成前已统一为“值越高、预期收益越高”的正向口径。对于每个股票,我们在每月末计算其在大类因子上的定价误差,步骤如下:第一步,数据预处理:对上月末因子值与当月收益率分别进行MAD去极值、Z-score标准化和行业市值中性化。第二步,计算定价误差:在当月横截面上,分别计算每只股票的Rev因子值、Mom因子值(取上月末值)以及当月收益率的百分位排名(取值0~1记为QRev、QMom、Qret。定价误差定义为因子排名与收益排名的绝对差值:errorRev=IQRev-QretI,errorMom=IQMom-QretI误差越小,说明该类因子对该股票的定价越准确——因子排序高的股票确实获得了高收益。由于所有种子因子已在合成前进行了方向校正,因此排名差值可以直接反映预测精度。第三步,定义目标域:基于两类定价误差,按当月截面的分位数阈值(默认30%将股票划分为三类:•均值回复域(标签0Rev误差处于当月最低的30%(Rev定价准确且Mom误差不处于最低的30%(Mom定价不准确)。•趋势域(标签2Mom误差处于当月最低的30%,且Rev误差不处于最低的30%。•均衡域(标签1其余情况,包括两类因子都准、都不准或居中。这样,我们将连续的定价误差转化为一个三分类问题,目标变量y∈{0,1,2},反映了股票在定价逻辑上的倾向性。图21展示了理想标签下的因子域内表现——即假设我们在每个月末都能"完美预知"每只股票应归属的域,各因子在三个域中的差异有多大。结果显示,均值回复因子BP在均值回复域中的RankIC高达47.2%,ICIR18.38,而在趋势域中IC降至-23.7%,ICIR为-8.28;反转因子RET20在均值回复域IC为54.7%,趋势域中降至-15.1%。趋势因子SUE0在趋势域IC为54.3%,在均值回复域反转为-19.4%;动量因子RET240在趋势域IC为48.2%,在均值回复域降至-26.7%。理想标签下因子的域间差异极为显著,这为有监督学习模型设定了理论上限。-3.115-图21:理想标签分域代表性因子选股有效性-3.115-测试域因子简称RankIC均值年化ICIR多头月均超额收益多头年化IR均值回复域4 418.3765 7.4%8.5982均衡域.9701-1.1%1.8614趋势域--3.5% -5.8131均值回复域8.38462.7%4251均衡域 .-0.4%.8133趋势域-7.3%-.1081-1.3%.6227均值回复域TO20_STD 4.6456 6.5%55068均衡域-0.2%.3035趋势域-10.9%3.1225-1.6% .0441均值回复域RET2054.7%7.25876.2%均衡域-5.2% -1.6550-1.2% 2.1107趋势域-15.1%3.6300-1.4%2.2046均值回复域SUE0 - 0.875-2.3% .0698均衡域-6.1%.0181-1.4%.1667趋势域27 7 8.2%.0933均值回复域RET240.7%.7939 -6.3562均衡域8.3%.1585趋势域8.2%17 78.2%9.4496资料来源:wind,为了预测股票未来的快分域标签,我们构建了涵盖多个维度的特征集。特征来源包括三部分:第一部分:量价与基本特征(72个涵盖量价行为和基本面两大类:量价类:短/中/长期动量、波动率、换手率及其波动、振幅、流动性变化、盈余跳空、量价相关性、最大涨幅等;基本面类:盈利能力、成长性、估值、业绩超预期等。第二部分:K线技术特征(Alpha158基于日频K线数据构建的技术指标集,包括价格关系、成交量形态、K线组合模式等多维度的短周期技术信号,能够捕捉个股在微观交易层面的行为特征。第三部分:DS衍生特征,对上述特征逐个计算其DS偏离显著性指标(计算方式见2.2节生成对应的DS衍生特征。DS特征捕捉个股在特定维度上与行业同行的偏离程度,为模型提供额外的截面相对位置信息。所有特征在每个截面上经过缺失值行业中位数填充、MAD去极值(3倍MAD)和Z-score标准化处理,确保量纲一致。各特征的完整列表及释义参见附录。我们采用XGBoost分类模型进行训练。模型以特征集为输入,以三分类标签为目标,输出每只股票属于三个域的概率,取概率最高的类别作为最终分域标签。模型参数设置为:最大深度6、学习率0.05、子采样率0.8、列采样率0.7、最小子节点权重10、L1正则化15、L2正则化20、树数量100棵。为处理类别不均衡问题,训练时对样本进行自动均衡加权。为避免未来信息,采用扩展窗口的季度滚动训练方式:•每个季度末(3月、6月、9月、12月使用截至该季末的全部历史数据训练模型。•训练完成后,用该模型预测下一季度每个月末的截面数据,生成3个月的分域标签。•每季度更新一次模型,既避免了月度更新的计算负担,也保证了模型能较快响应市场风格的变化。我们使用异质性测试框架检验有监督分域的效果,结果表明:第一,因子异质性覆盖度大幅提升。图22展示了各类分域方法在因子异质性检验中的显著因子比例。有监督学习分域的平均覆盖度达到97.5%,2022-2024年甚至达到100%,且因子和域的匹配关系非常稳定。相比之下,行业板块分域平均仅30.8%,市值分域37.5%,最好的快分域TO20_DS也只有63.3%。这说明有监督方法通过引入多维特征和明确的优化目标,捕捉到了更丰富的因子异质性来源。图22:有监督学习分域因子异质性:显著因子比例检验日期行业板块市值价值/成长生命周期分析师覆盖度TO20_DSATR20_DSVOL20_DS监督学习分域2018-12-28 26.7%26.7%0.0%10.0%33.3%40.0%46.7% 20.0%96.7%96.7%2019-12-3140.0%26.7%6.7%6.7%46.7%46.7%50.0%53.3%53.3%40.0%40.0%96.7%96.7%2020-12-3156.7%56.7%33.3% 23.3%6.7%50.0%50.0%60.0%60.0%53.3%53.3%46.7%46.7%96.7%96.7%2021-12-3140.0%36.7% 23.3%13.3%46.7%46.7%73.3%73.3%50.0%50.0%46.7%46.7%96.7%96.7%2022-12-3033.3%43.3%33.3%10.0%36.7%36.7%73.3%73.3%56.7%56.7%46.7%46.7%100.0%100.0%2023-12-29 16.7%43.3%70.0%70.0%20.0%20.0%33.3%66.7%66.7%66.7%66.7%50.0%50.0%100.0%100.0%2024-12-3123.3%46.7%56.7%56.7%10.0%36.7%36.7%70.0%70.0%66.7%66.7%50.0%50.0%100.0%100.0%2025-12-3110.0%43.3%50.0%50.0%20.0%20.0%40.0%40.0%73.3%73.3%73.3%73.3%53.3%53.3%93.3%93.3%平均30.8%37.5%32.9%12.1%40.4%40.4%63.3%63.3%58.3%58.3%44.2%44.2%97.5%97.5%资料来源:wind,图23:有监督学习分域因子-域匹配关系资料来源:wind,第二,均值回复型因子的域间分化清晰。图24展示了样本外各因子在三个域中的表现。估值因子BP在均值回复域的RankIC为4.8%、ICIR为2.18,均衡域IC为3.1%、ICIR为1.76,趋势域IC仅2.0%、ICIR0.55,呈现从均值回复域到趋势域的单调递减。反转因子RET20的分化更为显著:均值回复域IC9.7%,趋势域仅1.6%。流动性波动因子TO20_STD同样在均值回复域表现最强:IC13.1%,趋势域降至5.1%。这些结果表明,模型成功识别出了一批适合均值回复逻辑定价第三,趋势型因子呈现"均衡域最优"的特征。SUE0在均衡域的IC为6.5%,高于趋势域的3.1%,也高于均值回复域的-1.8%。ROE_Q_YoY同样在均衡域表现最强:IC为6.1%,高于趋势域的3.4%。年度动量RET240在均值回复域为负(IC-5.4%在趋势域接近零,在均衡域微正。上述测试结果反映了两方面信息:一是当前模型对趋势域的预测精度尚有提升空间,模型更擅长识别"均值回复特征鲜明"的股票,对"趋势特征鲜明"的股票识别能力相对弱一些;二是均衡域实际上包含了一部分"两类因子都有效"的高质量股票,这些股票本身就是Alpha来源丰富的标的,因子表现自然较强。0图24:有监督学习分域下代表性因子选股有效性(2008.12-2026.3)0测试域因子简称年化ICIR多头月均超额收益多头年化IR均值回复域4.8%4.8%0.6007均衡域0.97060.9706趋势域0.55090.0704均值回复域0.44030.4403均衡域0.1%0.1%0.26460.2646趋势域 0.1326均值回复域均衡域0.2032趋势域 0.3473均值回复域TO20_STD均衡域趋势域均值回复域均衡域66-0.4%-0.4%趋势域-0.0857均值回复域均衡域趋势域均值回复域ROE_Q_YoY0.0245均衡域趋势域资料来源:wind,第四,各域成分股的市值分布和数量保持稳定。图25显示,趋势域在中小市值股票中的占比更高(中证500占17.3%、中证1000占28.7%而均衡域的"其它"股票占比最高(62.5%说明均衡域偏向于非宽基成分股的小盘股。图25:各域成分股在不同宽基指数内的数量占比(2014.10-2026.2)域名沪深300中证500中证1000其它均值回复域9.8%23.2%56.6%均衡域%9.6%62.5%趋势域8.2%28.7%资料来源:wind,图26显示三个域的成分股数量在时间序列上保持相对稳定,均衡域规模略大于另外两域。以2026年2月末为例,均衡域包含2113只股票,趋势域1均值回复域1616只。图26:各域成分股数量变化(只)资料来源:wind,3细节决定成败:域内如何训练?分域本身只是起点,域内如何训练以及如何整合各域信号,同样至关重要。前两章分别解决了“如何分域”和“分域是否有效”的问题:通过异质性检验确认了因子在不同域中确实存在显著的表现差异,并基于监督学习分域方式找到了覆盖度高、匹配关系稳定的分域变量。本章将围绕“域内训练”这一核心环节,探讨一套通用的训练逻辑,并回答一个关键问题:为什么分域能够揭示因子的异质性,但最终合成的复合因子却往往未能显著超越全域模型?在此基础上,我们提出两项改进措施,使分域模型重新获得跨域配置的能力。域内训练的目标是:在每个子集中充分利用因子在该域内的表现特征,构建对域内股票预测能力最强的复合因子。其核心流程如下:1、数据预处理。在全市场范围内对原始因子进行缺失值填充,异常值缩尾,Z-score标准化及行业市值中性化。2、因子异质性筛选:每年末,使用过去10年的RankIC数据,通过置换检验框架,识别出对当前分域方式具有显著异质性的因子,纳入后续的训练。剔除不显著的因子。若剩余因子之间的平均相关性超过0.5,则按RankICIR从高到低排序,依次剔除与已保留因子高度相关的冗余因子,避免信息重叠。4、因子加权。每月末,对筛选后的因子计算其过去36个月的RankICIR,将负值归零后归一化,作为当月的因子权重。5、得分合成:•全域模型:使用全市场数据,按照上述流程得到每只股票的复合因子得分,并在全市场范围内进行标准化。•分域模型:在每个域内独立执行上述筛选与加权流程,得到域内的复合因子得分。分域模型设计的核心挑战在于:域内标准化会抹平域与域之间的Alpha差异,从而丢失跨域配置所携带的收益信息。如图27所示,三个域的长期累计超额收益存在显著分化:趋势域累计超额稳步攀升至约60%,均衡域相对走平,均值回复域则持续跑输基准,累计超额降至约-110%。域间如此悬殊的Alpha差异,意味着“将哪个域的股票配置更多”本身就包含了丰富的信息量。若在域内独立标准化后直接拼接,每个域的得分均值被强制归零,这一信息将完全丧失。图28和图29印证了这一点:全域模型的多头组合明显高配趋势域、低配均值回复域,说明其收益不只来自域内个股排序,还包含了对不同定价环境的主动配置;而若采用域内因子标准化后对各域股票得分简单拼接,多头组合将在三个域之间趋于均衡,基本丧失跨域配置能力。图27:不同域的累计超额收益资料来源:wind,图28:全域复合因子多头组合分域数量占比图29:分域复合因子多头组合分域数量占比资料来源:wind,为此,我们采用两项关键设计,在保留域内预测精度的同时,重新赋予模型域间配置的能力:设计一:取消域内二次标准化直接使用域内模型计算出的原始得分进行跨域拼接,不再对各域得分单独做Z-score标准化。原始得分保留了因子在全域标准化阶段的尺度信息——得分整体较高的域在拼接后自然获得更高的组合权重,从而保留域本身的Alpha水位信息。设计二:叠加域Alpha动量信号在原始得分基础上,主动为每只股票叠加其所在域的近期表现信号,使模型能够动态感知域间的Alpha强弱变化。具体做法:每月末计算各域过去12个月相对全市场等权基准的超额收益夏普比,在横截面上进行Z-score标准化,得到当月的域Alpha值;随后将其叠加至股票得分:si{final}=si{raw}+λ*si{domain}其中λ取0.25。调整后的得分既包含域内因子的预测信息,又融入了域本身的动量效应,两项设计相辅相成:取消域内标准化保留域间的整体水位差异,域Alpha调整则进一步在边际上放大近期表现优异的域的信号强度。两步法改进后,分域模型在全市场及主要宽基指数上的表现优于全域模型,收益端改善尤为显著。全市场层面,改进后的分域复合整体优于全域复合。RankIC均值由10.8%小幅提升至11.0%,年化ICIR由3.9370升至4.0259;收益端改善更为明显,多空年化收益从31.9%提高至34.7%,多头年化超额由10.7%提升至12.8%,多头信息比也升至2.7433。这说明两步法在保留原始Alpha选股能力的同时,能够进一步补充分域层面的配置信息。分指数来看,改进效果最突出的是中证500。改进后分域复合的RankIC均值达到8.1%,年化ICIR升至2.9031;多头年化超额由全域的6.1%提高至9.2%,信息比从1.3767提升至2.1017,相对回撤也由-4.4%收窄至-2.7%。这表明在中盘股票池中,域间Alpha差异与域内选股能力具有较强互补性,分域信息能够较稳定地转化为组合收益。中证1000中,改进后分域复合同样带来了收益改善。尽管RankIC均值和ICIR仅小幅领先全域,多头年化超额仍由9.9%提升至12.2%,信息比升至1.8645,相对回撤由-8.8%改善至-6.1%。不过,IC月胜率略低于全域,说明小盘股票池中的分域信号虽能抬升收益中枢,但波动性仍然更高。沪深300中的改善相对有限。多头年化超额从4.0%增至4.7%,但多头信息比略有回落,相对回撤扩大至-8.4%,风险调整后的优势并不稳定,可能与大盘股样本量较少、定价效率更高以及域间Alpha差异有限有关。综合来看,两步改进的核心价值在于:通过保留域间得分差异并叠加域Alpha动量信号,分域模型重新获得了域间配置的能力,不再仅仅依赖域内因子的预测精度,还能够利用域本身的历史Alpha趋势。这一机制在中小盘股票中效果尤为显著,因为中小盘的域间Alpha分化更为明显,域择时信号的边际贡献更大。图30:基于两步法改进后的分域复合因子在不同指数域内的有效性汇总(2018.12.28-2026.3.31)年化ICIR-10.1%-10.1%年化ICIR年化ICIR 年化ICIR资料来源:wind,4分域模型在指数增强策略中的应用为更客观地考察复合因子对多因子模型的贡献,后文将通过更贴近实战的方式考察因子的有效性,主要结合沪深300、中证500和中证1000指数增强模型进行判断。对分域复合因子和全域复合因子构建指数增强组合,具体细节如下:表5:组合优化参数参数项约束条件股票池天的股票调仓频率权重约束成交价格位调仓策略以复合因子作为Alpha得分,在风股票的最优权重资料来源:绘制优化模型如下所示:maxαTwstylel≤X(w-wb)≤styleh风格约束Indl≤Ind(w-wb)≤Indh行业约束wl≤w-wb≤wh个股权重偏离约束从总体表现来看,截至2026年3月31日,中证500分域增强策略年化超额收益达到8.8%,信息比为1.74,相对回撤为-5.9%,全面优于全域增强策略;在年化超额方面相对全域策略提升3.6%。净值走势显示,分域策略长期位于全域策略之上,尤其在2024年9月以来的修复行情中净值弹性更强,说明域内Alpha与域间配置信号结合后,在中盘股票池中能够提供稳定的增量收益。分年度来看,中证500分域策略在2019、2020、2021、2023、2024、2025以及2026年一季度均跑赢全域增强策略,仅2022年略低0.7个百分点。2020年和2024年的优势最为明显,分域策略超额收益分别领先全域策略10.9%和6.3%。图31:中证500指数增强策略历史净值走势(2018.12.28-2026.3.31)资料来源:wind,图32:中证500指数增强策略分年度表现对比中证500分域增强策略中证500全域增强策略分域策略-全域策略年份超额收益信息比相对回撤超额收益信息比相对回撤超额收益信息比相对回撤0.61270.2%2.69310.65802.03512.28828.9%0.7212-0.04244.3%0.70050.2%2.43548.2%0.98070.6%-0.2150-0.29410.4%0.0790202603310.31180.9%0.11070.20110.9%汇总8.8%0.7251资料来源:wind,从总体表现来看,截至2026年3月31日,中证1000分域增强策略年化超额收益达到11.4%,信息比为2.17,相对1.7682和-8.1%;相对全域策略分别提升1.8个百分点、0.4015和0.8个百分点。净值走势显示,两类增强策略均显著跑赢指数本身,但分域策略自2020年以来整体保持领先,说明在小盘股票池中,分域模型对超额收益中枢和收益稳定性仍有增分年度来看,中证1000分域策略在2019、2020、2022、2023、2024和2025年优于全域增强策略,2021年和2026年一季度略弱。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论