“学海拾珠”系列之二百七十五:基于大语言模型的语义引导搜索Alpha因子_第1页
“学海拾珠”系列之二百七十五:基于大语言模型的语义引导搜索Alpha因子_第2页
“学海拾珠”系列之二百七十五:基于大语言模型的语义引导搜索Alpha因子_第3页
“学海拾珠”系列之二百七十五:基于大语言模型的语义引导搜索Alpha因子_第4页
“学海拾珠”系列之二百七十五:基于大语言模型的语义引导搜索Alpha因子_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引言 4模型框架与算法设计 5模型框架 5算法流程 6LLM提示词设计 7变异提示词 7交叉提示词 8多轮迭代下的因子趋势 9不同稀疏度与市场条件下的投资组合优化对比 106 结论 117 附录 12提示词 12ALPHA158因子 14风险提示: 15图表1文章框架 4图表2EA因子搜索框架 5图表3算子表达式:交叉和变异 6图表4EA算法流程 7图表5各轮最优变异因子 8图表6典型交叉因子 8图表7静态搜索实验的样本内指标演化 9图表8静态搜索实验的样本外指标演化 10图表9LLM驱动的投资组合跨市场性能评估 11图表10完整的提示词 12图表ALPHA158因子(K线和价格) 14图表12ALPHA158因子(滚动) 15引言图表1文章框架整理Alpha其庞大(算子种类、参数组合、嵌套深度可以产生近乎无穷的表达式)传统遗传规划虽然能自动化地在这个空间中搜索,但它的变异和交叉操作是纯粹的语法层面随机拼接——把一棵表达式树的某个节点随机替换或与另一棵树交换子树,完全不理解"这个因子在金融上是否有意义",因此大量生成的候选要么语法错误、要么金融逻辑荒谬,有效搜索效率低。大语言模型(LLM)提供了一条新的解题路径。现代LLM研究证明LLM可用于生成具备竞争性预测能力的新型Alpha因子,并出现了人机交互范式和基于蒙特卡洛树搜索的结构化搜索方案。然而,现有方法多为单次生进化算法(EA)天然具备平衡探索与利用的能力,通过变异(Mutation)和交叉(Crossover)维持多样性候选池,并与反馈闭环高度兼容,是弥补上述不足的理想载体。作者由此提出EvoAlpha,一个将LLM嵌入进化迭代过程的因子发现框架。核心思路是让LLM同时扮演生成器与自适应算子的双重角色——池的同时,让LLM接收当前候选因子及其历史表现描述,通过结构化提示词(prompt)执行变异(对表达式做局部修改)与交叉(将不同因子的子表达式组合)操作。并将每轮评估结果注入下一轮提示,形成持续进化的闭环。模型框架与算法设计模型框架我们框架的核心思想是将进化操作直接嵌入到LLM提示词中。每个提示词包含三个要素:。图表2EA因子搜索框架EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》LLMN1020日版本,或改变标准化算子;交叉则是将多个父代因子中互补的组成部分进行组合,例如在基于动量的信号中嵌入波动率调整项。这些操作在局部精细优化和更广泛的搜索空间探索之间取得平衡。在LLM进化操作算子设置专门的智能体,将变异和交叉明确拆分到不同的提示词模板中。另一种方法是使用单一的统一智能体,由LLM根据上下文和给定指令自行决定执行变异还是交叉。两种设计都保留了进化搜索的探索能力,同时确保生成的因子在语义上连贯,并且具有金融可解释性。图表3算子表达式:交叉和变异EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》算法流程完整的算法流程如下:阶段一:初始化。用Alpha158因子库(详见附录7.2)作为起点,对池中所ICRankICICIRIC阶段二:因子种子选择与提示词构建。每轮迭代开始时,从当前的因子池中抽取排名最靠前的若干因子作为种子集合S。这些种子在封装后每条都包含因子名LLMNμγ阶段三:利用LLM其中变异将种子集合S连同变异提示词一起发送给LLM。提示词指示模型对种子因子做局部小幅改动,生成变异候选𝑀𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠。而交叉将种子集S连同交叉提示词一起发送给LLM。提示词要求模型识别不同种子因子中各自承担不同功能的子表达式,并将互补部分重组为新因子,生成交叉候选𝐶𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠。阶段四:合并、去重与评估。将变异候选种子和交叉候选种子合并为完整候选集𝐶=𝑀𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠∪𝐶𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑠API对CICRankIC、ICIR阶段五:更新记录。CIC降序取前K(最高IC、平均IC)阶段六:迭代输出。R规模为K的最终因子池、初始基准IC,以及完整的进化历史记录。图表4EA算法流程EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》LLM提示词设计每次调用LLM7.110)任务定义候选因子IC、RankIC、ICIR操作示例演示LLM习得操作。在LLM引导的设计中,进化操作可通过两种方式实现:其一是为每种算子设置专用智能体,将变异和交叉显式分离为不同的提示词模板;其二是采用单一统一智能体,由LLM自身根据上下文和所提供的指令决定执行变异还是交叉。两种设计均保留了进化搜索的探索能力,同时确保生成的因子在语义上连贯、在金融上可解释。本文作者选择了前者,即为每种算子设置不同的提示词模板。变异提示词变异提示词限定了允许模型使用的算子集合以及合法的Qlib表达式语法,并指示模型对种子因子做局部小幅改动,具体包括以下三类扰动:510日或20日。(动量//)(MAD)(RANK)。③在分母加入数值稳定项——向易产生除零错误的分母中插入小常数,提升因子在极端行情下的数值稳定性。图表5各轮最优变异因子轮数IC公式数学含义(过去7日收盘价上涨天数)除以过去14日每日涨跌幅绝对值的均值(加极小稳定项)10.026短期胜率/短期平均波幅,衡量动量的持续性与相对强度。分子统计近期上涨频率,分母用平均真实波动幅度归一化。(过去5日收盘价上涨天数/过去10日涨跌幅绝对值之和)除以当日高低价之差(加极小稳50.035定项)在第1轮基础上增加了一层以日内价格区间归一化的操作。外层分母用高低价差代理当日波动率,使信号同时对截面波动率和时序振幅双重标准化。(对过去27日每日上涨标记的累计值在截面排名,再对该排名做3日移动平均,再对该均值做5日移动平均)除以当日高低价之差的平方根(加极小稳定项)150.043在第5轮基础上进一步引入截面排名(Rank)消除量纲差异,并用双层时序平滑(3日+5日均值)压缩噪声;分母改为对高低价差取平方根,相比线性区间更能压缩极端波动的影响。EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》交叉提示词交叉提示词要求模型将每个因子分解为承担不同角色的子表达式,最后从多个种子中提取互补子链并重组为新因子。提示词定义了四类功能角色:①核心信号(CoreSignal):捕捉价格趋势或均值回复的主体部分。②归一化项(Normalizer):抑制量纲效应,并保证数值稳定。③成交量/状态分量(Volume/RegimeComponent):引入流动性信息或市场状态判断,增强因子在不同市场环境下的适应性。④平滑器(Smoother):对信号做时序平滑,降低高频噪声对因子值的干扰。图表6典型交叉因子示例因子A因子B交叉逻辑说明110日收盘价变化均值(短期价格动量)当日成交量/60日均量(相对成交量)因子A1012B60期成交量水平归一化。2日内高低价之差的截面排名(日内价格振幅)收盘价日变化/30日收盘价标准差(波动率标准化收益)因子A的高低价差作为分子,因子B的30日波动率标准差作分母。3过去21日收盘价上涨天数(胜率计数)当日高低价差×14日EMA低价(区间×趋势乘积归一化)以21日胜率为分子,以高低价差与14日EMA低价的乘积为分母。EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》多轮迭代下的因子趋势QlibAlpha158因子库包含Kbar,Price,Rolling38个因子300152023-2024年为2024-2025ICRankIC及ICIRμ为0.7为0.3307(2023-2024年运行15IC(IC、RankIC、ICIR)15LLM15轮,IC0.0100.033,RankIC从约0.100.20LLM610IC80.020,RankIC和ICIR"15IC和RankIC150.24图表7静态搜索实验的样本内指标演化EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》8(2024-2025年运行15IC13-0.0348915真正优秀的因子。图表8静态搜索实验的样本外指标演化EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》不同稀疏度与市场条件下的投资组合优化对比在US50HSI45、CSI300LLMm(CW)(SR)、最大回撤(MDD)。基准方法分为两组:第一组为非稀疏策略,包含三种方法:等权组合(1/N)将资金平均分配至所有资产,不依赖任何预测信号;Min-CVaR以最小化条件风险价值为目标,侧重极端损失控制;Max-Sharpe则在均值-方差框架下寻找风险调整收益最优的组合权重。第二组为稀疏策略,共五种方法,均在持仓数量上施加约束。SSPO(短期稀)XGBoost与LGBM图表9 LLM驱动的投组合跨市场性能评估EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》LLM方法(DeepSeek-V3与GPT4.1)在累积财富(CW)上相对所有基准的优势幅度,远超风险指标的差异幅度。LLM方法在夏普比率和回撤控制方面同样领先。实验结果表明,将LLM引导的因子搜索与进化式探索相结合,能够在不同市场和稀疏度设置下,稳健地提升组合层面的收益,同时保持风险的稳定性。US50、m=10的CW10.259,而DeepSeek-V325.1012.41/NCW4.562,LLM5.5US50(LLMm=10时DeepSeek-V3的CW(25.101)GPT4.1(22.905)0.288,GPT4.10.260GPT4.1(0.130)LLM方法在US50上实LLM的超CSI300(Am=10时,GPT4.1CW(4.962)DeepSeek-V3ALLMA结论作者通过将大语言模型作为进化搜索引擎,应用于Alpha因子发现与稀疏组合优化。由LLM在量化反馈的驱动下执行变异与交叉操作,以演化出可解释的因(1)LLM(2)LLM驱动的因子搜索在累计财富与风险调整后收益方面均显著优于传统基准。LLM未来工作将在以下方向对该框架加以拓展:引入多模态信号(如新闻、基本面数据)、改进提示词策略以增强鲁棒性,以及探索轻量化蒸馏方法以降低对大规模LLM的依赖,从而推动构建可解释、自适应的因子驱动投资策略。LLM的APIAST附录提示词图表10 完整的提示词EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》Alpha158因子图表Alpha158因子(K线和价格)EvoAlpha:AnLLM-EnhancedEvolutionaryFrameworkforFormulaicAlphaMining》图表12 Alpha15

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论