如何拆分国债利率的趋势和波动_第1页
如何拆分国债利率的趋势和波动_第2页
如何拆分国债利率的趋势和波动_第3页
如何拆分国债利率的趋势和波动_第4页
如何拆分国债利率的趋势和波动_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

债市研究中,未来利率的定量预测是一个重要的话题。简单的利率预测主要通过挖掘一些简单的相关性因子,并等权打完。但这种简单的利率定量预测有因子选择不明确准确性不高等问。另外影响债市利率的主逻辑往往有长短期之分如3年后短期偏积极长期偏谨慎其中短期波动长期趋势主要影响因子可能大有不同为了解决这些问题帮助投资者拆分和预测利率债的长趋势和短波动我们尝试建立一个结合滤波-因子筛选-R模型预测的方法导图搭建如图1所示。图1:滤因子筛选预测模型搭建思维导图滤波拆分趋势项波动项10滤波拆分趋势项波动项10年国债利率序列Q参数选择滤波变量选择方法相关性排,最距离分步回归,固定模块趋势变量池生产、需、交P、PPI波动变量池资金预期利差谱、场情绪、机构行为、技术分析模型训练、估计评价评价方法基于预测胜率打分训练方法K-fold交叉验证估计方法VAR模型数据来源:

用卡尔曼滤拆分长期波段在金融时间序列要素拆解分析中常见做法是对构成可观测时间序列的各个不可观测组成成分进行假设。一般而言,长期趋势成分(如股价中的有效长期价格成分)在经济学的微观基础理论上被假设为随机漫步过程,而短期波动(暂时性成分)被假定为一个一阶自回归过程,多个长期成分之间往往还受到长期协整关系的约束市场有对股价、比特币价格、石油价格等市场时间序列进行微观成分拆分的研究。事实上对市场多种时间序列的拆解都获得了相近的成分长期趋势和短期波动并且各项研究对时间序列的拆解后分析都得到了较好的拟合与预测表现从债券长期存在长短期逻辑不一致的现象看我们认为国债收益率同样适用于长短期双成分的拆分。卡尔曼滤波的原理和基本计算步骤我们尝试使用卡尔曼滤波对长短期进行拆分。卡尔曼滤波在经济学领域的应用主要包括:时间序列模型中的波动信息拆分和不可观测成分的参数拟合,前者如利用卡尔曼滤波和R方法结合分离出限价订单中的暂时性波动和信息性波动后者如基于带有H扰动的时间序列不可观测成分模型的参数拟合。相似的,我们认为利率序列可以进行长期趋势和短期波动的成分拆分,并且卡尔曼滤波可以被用于拆分和拟合不可观测的序列成分。基于应用优先的原则,我们并未求解相应的组成成分动态模型的解析解,而是通过机器学习的方式找到了可以获得良好模型效果的卡尔曼滤波超参数和数值解,但学术界对多种时间序列探索的共同性拆分结果保证了我们“模糊计算”背后的可靠经济基础。卡尔曼滤波的实质是根据上一刻“预测值当前“测量值“误差”来计算得到当前的最优量,进而再预测下一刻的量,主要遵循的是“预—实—修正”这样一个逆推顺序。第一步以K1次迭代的最优状态估计值ˆ 估计K次迭代的值ˆ:k1 ˆˆ ˆ

ˆAX BkAX B

(0.0.1)k第二步:计算新的误差协方差矩阵P:kPAP PAP k k1

(0.0.2)第三步:计算预测误差增益矩阵Kk(卡尔曼增益:PHTK k

(0.0.3)kk HPHTRkk第四步:计算在K次迭代的最优状态估计值ˆ:kˆ ˆKk ˆ

kZ

Hˆˆ

(0.0.4)kk第五步对上述得到的误差协方差矩阵P进行更新为下次迭代循环做准备:kkPk kIKHPPk k

(0.0.5)在上面的式子中,各量说明如下:A:状态转移矩阵,B:控制矩阵,Uk1:控制向量,Pk1:上一次迭代的误差协方差矩阵,Q预测噪声协方差矩阵H测量矩阵,R:测量噪声协方差矩阵,Zk:K时刻的实际观测值。卡尔曼滤波的参数选择影响滤波结果的参数是R/Q(测量噪声协方差/预测噪声协方差,这个值反映了我们对于预测和观测值的信任程度;其值越大则越相信预测结果,滤波结果平滑性越好;反之则越相信观测结果,滤波结果越偏向于观测值。在权益波动的学术研究中,一般通过分析流动性成分和信息成分在促使股指价格发生变动的程度比例,构建协方差矩阵,通过对角元素的取值比例获得R/Q。而我们通过穷举法和实际验证的方法获得该参数的取值区间。通过验证0年期国债到期收益率2020.01.13-2023.03.06的数(当然也可以替换为10年期国开债或其他活跃利率债进行滤波参数验。结果证明R/Q数值为500以下的R/Q值会导致序列拆分后波动项中无关信息含量过高,影响后续的预测分析工作;而R/Q值为10000以上会导致波动项中对利率预测有用的信息含量过低,即其中掺杂了许多短期波动和长期趋势对债市的影响。因此我们选择了500,10000的R/Q区间,根据经验选取步长为100进行了离散化遍历,最终结果显示参数R/Q为10000、5000、1000和00这四个参数的滤波效果比较理想,可以做到波动项中有用信息占比达到理想效果。图2:滤波参数验证(R/Q=10000、5000、1000、500)数据来源:对十年国债收益率分别使用四个比率进行卡尔曼滤波,每一个滤波参数都能对应获得趋势和波动两条序列,两条序列是利率的完整分离:(1.2.1)趋势Trnd)和波动Fuctuton)这两条序列是本文的核心,不同的滤波参数决定了获得的波动序列中包含的信息量,滤波参数验证如图2所示,在后文我们会根据训练集的验证胜率来决定最佳的滤波参数和最佳的两条分离序列。变量池的构和模块类滤波完成后,我们将10年期国债到期收益率的趋势项和波动项分别作为被预测变量进入模型,当然后续也可以将国开或者其他期限利率债作为被解释变量。待选因子也被分为趋势类和波动类。趋势类中,我们从生产、需求、交运PI、PPI五个维度出发,筛选了33个经济变量作为解释变量;波动类中,我们从资金预期、利差图谱、市场情绪、机构行为、技术分析五个维度出发筛选了21个经济变量作为解释变量变量的具体选择见表1:表1:变量的具体选择数据来源:

预测利率模型搭建预训练我们采用向量自回归模ctorutorgrsson,)对使用滤波器分离出的利率趋势项与利率波动项分别进行估计与预测,通过四种不同的方法来训练获得最佳因组合分别为相关性排序法最远距离法、分步回归法和模块固定法。并通过-fod方法进行模型训练。预测模型:VAR模型考虑到长端利率和宏因、市场情绪、技指标等变量的内生关系,我们倾向于采用向量自回归模ctorutorgrsson,)对使用滤波器分离出的利率趋势项与利率波动项分别进行估计与预测。R模型的基本形式和参数选择本文的应用中,考虑到模型后期变量筛选对算力的大需求,我们仅做基础的非限制性向量自回归模型。模型的基本形式是弱平稳过程的自回归表达式,描述的是在同一样本期间内的若干变量可以作为它们过去值的线性函数:其中,

(3.1.1) t表示k维内生变量列向量t-i为滞后的内生变量p是滞后阶数,T为样本数目𝜙i为待估矩阵ε为k维白噪声向量。当使用R模型进行估计时,我们需要做两个决定。第个是需要选择将哪些变量放入R模型中,这将交给模型训练去解决。第二个决定是需要选择滞后阶数我们用IC准则进行滞后阶数的确定综合考虑4种滤波参数下分离出来的趋势和波动序列与252种排列组合后的变量组合,在训练集中R模型估计的IC检验情况,我们最终采用统一的p=3作为我们R模型的滞后阶数。R模型的预测观察方3.1.1的形式我们可以知道R模型中的因变量是由其本身和其他内生变量的滞后历史值共同决定的,使用滞后历史值意味着我们可以使用R模型本身对t进行样本外预测值的迭代推导。故我们采用的是固定起点的滚动一步预测。如图3所示每日预测完下一日的利率后,在第二天更新样本历史值至当日,再进行下一日的预测,在时间序列的高(日/周度预测情况下这一步的处理很有必而如果进行较为长期预测,则可考虑使用周频或者月频的数,在此不展开讨论。图3:R模型的预测预测VAR估计->得到估计系数tT+1预测VAR估计->得到估计系数tT+1t0t1………tTVAR估计->VAR估计->得到估计系数tT+2t=tT+1

t0t0t1…………tT+1VAR估计->得到估计系数tVAR估计->得到估计系数tT+n+1t0t1……t0t1………………tT+n更新实际值数据来源:模型训练:K-Fold交叉验证在机器学习建模过程中,涉及到超参数的确定时,通行的做法通常是将数据分为训练集和验证集。本研究的超参数主要是变量池中变量的选定和组合。我们构建的变量池受制于二级交易和市场情绪等数据,历史数据长度只能从2020年1月1日开,考虑到样本期间较短的情况,我们应用-Fod交叉验ross-dton的方法来最大限度利用有限的数据集。将原始数据分成K组(-Fod),将每个子集数据分别做一次验证集,其余的-1组子集数据作为训练集。这样可以得到K个模型。这K个模型分别在验证集中评估结果。评估结果可以采用均方误差,也可以根据应用情景设置一个检验准则。图4:-old交叉验证(=10) K-Fold交叉验证(K=10) 训练集12345678traintraintraintraintraintraintrainvaild训练集12345678traintraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintrainvaildtraintraintraintraintraintraintrain9 10predpredpredpredpredpredpredpredpredpredpredpredpredpredpredpredwinrate2winrate3winrate4 winratewinrate5winrate6winrate7winrate8数据来源:本研究中,在第1节分离获得两条序列(趋势波动)后在第2节中构建好的趋势与波动两个变量池。我们对两条序列和两个变量池分别进行一一对应的操作,将其中的数据分别进行0等分=10,按照8:1的比例划分样本为训练集验证集预测(后续为了验证模型稳定性,我们调整了预测集占比。排除最后的预测集,我们将剩下的8份样本依次取一份作为验证集其余7份为模型的估计训练集使用R模型估计得到参数并在验证集中使用参数计算预测值。通过预测值与实际值的比较得到胜率,即在这里我们用K组检验的平均预测利率多空方向胜手率作为交叉验证的结果。当8份样本都作为验证集被训练验证过一次后我们计算当前变量组合的8次训练验证集的平均胜(以此作为本变量组合的训练集效果(3.2.1)其中comb为训练中的变量组合,等式右手边变量的第二个下标参数为作为验证集的训练集编号分别循环完成对应滤波参数的252个趋/波动变量组合并且得到-Fod训练对应的平均胜率后我们比较252个变量组合的平均胜率,选择平均胜率最大的一个变量组合作为对应的趋/波动变量选择方案。图5:排列组合+-old验证

数据来源:

变量筛选利用-fod方法训练模型时每组模型中的变量筛选方法也是非常重要的,我们计划使用以下4种方法进行筛选,并在样本期间利用3.2中的训练方法测算胜率,进行比较,筛选出最好的模型。相关性排序法该方法通过最基本的直觉相关性高的变量更有可能是真实的决定因素,来寻找最佳的变量组合。在第1节分离获得两条序列(趋势波动)后我们使用在第2节中构建好的趋势与波动两个变量池分别对两条序列进行相关性分t时期的趋/波动序列与t-1期的经济变量分析相关性)和排序,可以分别得到与趋势和波动序列相关性(相关性绝对值)最大的前十经济变量。我们分别对两组潜在解释变量按照其与对应分离序列的相关性大小按照排序行标号由此我们完成了初次的变量筛选获得0个潜在经济变量,如图6所示。图6:相关性排序发法量筛选十年国债收益率卡尔曼滤波分离利率趋势项 利率波动项趋势变量总池(33个)x1x2x3………x30x31x32x33趋势潜在变量x1x2x3x4x5x6x7x8x9x10波动潜在变量z1z2趋势变量总池(33个)x1x2x3………x30x31x32x33趋势潜在变量x1x2x3x4x5x6x7x8x9x10波动潜在变量z1z2z3z4z5z6z7z8z9z10波动变量总池(21个)z1z2z3………z18z19z20z21数据来源:

相关性排序

相关性排序趋势与波动各自获得了10个潜在的变量但10个变量相对我们样本量而言还是略显臃肿为了进一步精简变量我们分两步进行1排列组合:对于变量的选择,我们将已经标号好的1-10个潜在变量进行10选5的排列组( 获得总计252个变量组合2参数训练这里我们应用在4.2中介绍的-Fod训练方法,对252个变量进行训练和比较,得到最好的变量组合。最远距离法相关性排序法根据相关性从高到低的原则选择变量,该方法在经济意义层面上有不错的表。但在多变量回归中,这种方法所筛选出来的变量组合很有可能因为解释变量之间的高相关而导致多重共线性问题。为解决此问题,我们尝试最远距离法,该法主要考解决变量间的线性关系,保证了回归模型系数的稳定性,详细方法如下:与相关性排序法相同我们首先根据滞后一天的相关性绝对值从高到低排序,但之后,我们只选取相关性最高的一个“最佳变量”作为趋势/波动项的核心解释变量。之后我们进行第二次相关性分析这次相关分析我们会对上一步选出“最佳变量和趋/波动变量池中剔“最佳变量后的剩余变量进行同期的相关性分析,并选出与这个“最佳变量”距离最远(相关性最低)的其他9个变量这9个变量与“最佳变量就组成了与相关性分析法一样的10个变量为一组的初步筛选变量组合(见图7本方法是相关性分析法的拓展,仅仅改变了相关性分析法中第一次变量筛选的方法不改变第二部变量筛(即变量组合10选5的具体流程。图7:最远距离法变量筛选过程十年国债收益率卡尔曼滤波分离分离 利率趋势项 利率波动项 相关性分析:Trend&x相关性分析:相关性分析:Trend&x趋势变量总池(33个)x1 x2 趋势变量总池(33个)x1 x2 x3 … … … x30 x31 x32 x33趋势潜在变量x x1 x2 x3 x4 x5 x6 x7 x8 x9波动潜在变量z z1 z2 z3 z4 z5 z6 z7 z8 z9波动变量总池(21个z1 z2 z3 … … … z18 z19 z20 z21与“最佳变量”最远变量相关性分析:与“最佳变量”最远变量相关性分析:x&x x6 x7 x8 x9 x1 x2 x3 x4 x5趋势“最佳变量”x x30 x31 x32 x32趋势变量剩余池(32个)x1 x2 x3 … … …与“最佳变量”最远变量相关性分析:x&x z6 z7 z8 z9 z1 z2 z3 z4 z5 z18 z19 z20 z21波动变剩余池(20个)z1 z2 z3 … … …波动“最佳变量”z数据来源:分步回归法最远距离法的变量选择思路解决了相关性排序法的多重共线性问题,但同时,相关性排序法计量模型经济意义明确的优点受到削,最远距离法选出的变量没法解释剩余的四“距离最远变量与趋/波动项本身的关系。因此,我们更进一步采纳逐步回归的思维,发展分回归法。该方法整合了相关性排序法和最远距离法两个方法的优点,通过使用最远距离法的变量选择思路,修改最远距离法的回归方法,即解决了回归模型多重共线性的问题,又保留了模型的经济学解释力,具体构建思路如下:第一步的变量筛选过程与最远距离法相同我们可得到1个一期滞后相关性最大的“最优变量”和其他9个与“最优变量距离最远变量组合成的10潜在变量池。第二步的10选5排列组合步骤也与前两种方法相同3在最后的训练验证过程我们采用了逐步回归的R模型也即分两次回归第一次回归如方程3.3.1)所示,用“最佳变量”解释趋/波动本身。(3.3.1)第二次回归如方程3.3.2)所示用剩下的4个“最远距离变量来回归第一次归的残差项。 (3.3.2)需要注意的是方3.3.1和方(3.3.2均为R模型我们假设两部回归的变量均为因变量的内生变量,每一个方程中的解释变量都还有对应的方程来描述所有其余变量与其本身的动态关系,此由篇幅限制未将所有方程都写出,但应注意描述方程本身的存在具体的方程组构建可以查看3.1小节。分步回归法保留了最远距离法的变量选择优势,消除了模型的共线性,又通过分回归提供了模型很好的经济解释力最佳变量是对趋/波动项的解释,而其他相对于“最佳变量”距离最远的变量可以用来解释在第一步回归中用“最佳变量”解释不了的残差部分,由此模型得到的各个回归系数都有其对应的经济现实含义。模块固定法前面介绍的三种方法全都是完全建立在相关性高低的基础上进行变量的选择,我们无法控制变量池中的哪一类的经济变量进入模型,这可能会造成“唯相关性”的问题。例如,市场情绪有多个高相关的变量在池中,上述模型可能会选择5个市场情绪相关的变量进入模型这种情况下模型认为市场利率是完全由市场情决定的,较令人信服。为此,我们修改变量的选择方法,让这个过程一定程度上可控,让程序在在模型搭建者的经济理论框架指导下进行相关性选择,防止模型出现“唯相关性”问题。这个方法可以根据使用者的经济框架不同而相应的进行改变,本文仅在这里阐述我们根据第三章节的变量模块分类进行的模型搭建流程,详细步骤如下我们不再使用趋/波动变量池的二分池而是使“五模块变量池(详见本文第三章节对趋/波动分别和各个模块中的变量进行滞后一期的相关性分析在每个模块中选出与趋/波动序列一期滞后相关性最高的变量,由此我们通过五个模块的提前划分而得到五个模块各自最相关的变量组合。图8:模块固定法变量筛选过程十年国债收益率卡尔曼滤波分离利率趋势项 利率波动项相关性分析:Trendt&xt-1 相关性分析:Fluctuationt&zt-1数据来源:

相关性排序趋势变量总池(33个)模块1趋势变量总池(33个)模块1x1_1…x1_10模块2x2_1…x2_6模块3x3_1…x3_5模块4x4_1…x4_7模块5x5_1…x5_5趋势变量组x1_bestx2_bestx3_bestx4_bestx5_best

相关性排序波动潜在变量z1_bestz2_bestz3_bestz4_bestz5_best波动潜在变量z1_bestz2_bestz3_bestz4_bestz5_best波动变量总池(21个)z1_1模块1…z1_5z2_1模块2…z2_4z3_1模块3…z3_3z4_1模块4…z4_5z5_1模块5…z5_4这种方法一定程度上控制了变量的进入,我们固定了五大经济模块,各个模块都必然会有一个变量进入模型,这在分步回归法的基础上更进一步加强了模型的经济解释能力利率的趋/波动两部分分别是由非常完整的五个经济层面的变量来驱动变化的。但是这种方法没有进行变量的排列组合筛选,已经在第一步变量筛选就确定下了根据相关性排序的最佳变量组合这也意味着我们没有进行-Fod分样本训练模型的必要这在一定程度上降低了模型的稳定性和结果的可靠性。并且,模型预测的表现力会很大程度上取决于模型搭建者的经济框架有效性,因为模型不再是完全依靠相关性大小,在这之前会先受到变量模块划分的限制,所以不准确或不合适的经济理论划分模块下,模型的预测表现反而会不如前三种“唯相关性”的方法,其中存在着模型解释力和模型预测准确度的权衡取舍。模型回测结果模型回测结果和启示模型回测结(在预测集中进行以实现完全样本外如表2所示可以看到其预测准确率大大高于等权因子得分的方法且可以在日频预测中获取较高的准确度从日频预测中我们可以看几个比较的事实:滤波参数对于模型的结果有很大的影响且主要影响分离波动序列的表现。在四种方法中,四种不同滤波参数训练出来的最佳变量预测效果差距很大相关性排序法和分布回归法的四种参数表现甚至能有15%的胜率差距。最远距离法“下限相较于其他三种基于相关性的方法更高即便是预测表现最差的滤波分离序列也能有51.52%的多空预测胜率。预测利率的胜(表2最后一列很大程度上取决于波动序列的预测胜(表2从右起第二列而且不同的滤波参数主要影响波动序列的预测表现,对于趋势序列的影响不显著同时在合理的滤波范围内,更强的滤波分离能够呈现更好的预测准确度,因为分离出的波动序列可以更好的被波动变量池中的变量拟合解释。基于相关性的方法在预测表现上更好解释力更好的模型预测表现竞争力不高,其中存在“准确率”和“解释力”的权衡。我们的四种方法预测胜率表现上有一定一致性,但前三种基于相关性的变量选择方法都选出了胜率高达55-60%的变量组合而受制于经济理论模型的模块固定法预测表现也在预期内低于其他三种方法。提升验证集和训练长度可以提升模型极限性能可能降低模型表现稳定性。我们比较90%与95%训练集&验证集比例设当我们拉长训练集,让模型包含更新的市场变化信息后,除最远距离法外,其余方法的模型最佳预测胜率提高了约1-8%不等另一方面更短的预测集让模型胜率的可统计观察点减少不稳定性相较于90%设中的结果有所增加,以模块固定发最为明显。表2:日频模型回测和结果滤波参数【90训练集;10预测集】预测胜率()【95训练集;5预测集】预测胜率()Kalman滤波器R/Q比趋势序列预测胜率波动序列预测胜率合成预测利率胜率趋势序列预测胜率波动序列预测胜率合成预测利率胜率相关性排序法100096.9765.1554.55100.0057.8960.53500093.9451.5251.52100.0055.2652.631000092.4250.0048.48100.0052.6347.3750087.8851.5248.48100.0047.3747.37最远距离法100087.8854.5557.58100.0057.8955.261000093.9457.5853.0397.3757.8955.2650086.3653.0353.03100.0060.5352.63500084.8554.5551.52100.0050.0052.63模块固定法100096.9748.4850.0074.1954.8451.6150093.9450.0050.0080.6545.1641.94500077.2748.4846.9787.1038.7135.481000086.3642.4240.9190.3235.4829.03分步回归法500092.4253.0353.0374.1960.9760.97100096.9757.5853.0383.8758.0654.841000089.3953.0351.5293.5558.0651.6150095.4550.0048.4896.7751.6148.39,Dta我们利用日度数据可以进行日频的预测如果将日度数据转换为周度,则可进行周频预测周度模型的预测精度有所提高最优预测胜率甚至可以达到0%以上其预测准确率大大高于等权因子得分的方周度预测的波动序列的准确率大大提高当使用95%训练集包含最新市场短期信息后,波动序列的预测胜率甚至能达到85.71%。但需要注意的是由于数据可得性一些解释变量最早只能从2020年1月开始统计,我们的周度数据长度不足,导致回测结果中模型稳定性表现相较于日度模型更差。仅从周度模型来考虑,分步回归从胜率和稳定性角度来讲更有优势。表3:周频模型回测和结果滤波参数【90训练集;10预测集】预测胜率()【95训练集;5预测集】预测胜率()Kalman滤波器R/Q比趋势序列预测胜率波动序列预测胜率合成预测利率胜率趋势序列预测胜率波动序列预测胜率合成预测利率胜率相关性排序法100093.3340.0040.0057.1442.8642.8650093.3340.0040.00100.0028.5742.86500060.0040.0033.3371.4314.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论