版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基金销售端流动性风险评测计算分析案例目录TOC\o"1-3"\h\u3533基金销售端流动性风险评测计算分析案例 167481.1相关理论知识 1298881.1.1随机森林&支持向量回归 1203011.1.2XGBOOST 211911.1.3模型评价方法 5202351.2目标变量选择 5174671.3特征变量选择及处理 8277811.4建模与分析结果 934001.4.1建模及算法简述 927021.4.2算法对比 10119661.4.3基于XGBOOST的申购和赎回金额变化预测 10目前学术界已经有一些货币基金流动性风险的评测模型,主要采用线性回归方式,用来证明整体货币基金流动性风险的影响因素,而这类线性模型对于具体预测未来申购赎回数值效果不佳。本章节探讨预测单个产品未来申赎情况的模型,希望对投资经理控制产品流动性风险提供帮助。为了获取到每日申赎变动情况,本文以H公司货币基金为数据样本研究。1.1相关理论知识本章中通过随机森林,支持向量回归,XGBOOST三种常用的回归分析模型预测销售端流动性风险。其中,随机森林和支持向量回归预测结果相对较差,本文只做简单介绍。1.1.1随机森林&支持向量回归在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想。而集成学习基于这样的思想:对于一个复杂任务,将多个专家的判断进行适当的组合所得出的判断,要比其中任何一个专家单独判断好。方法简单来说就是组合多个弱监督模型以期得到一个更好更全面的强监督模型。集成学习主要有两个派系,一个是boosting,另一种是bagging流派。Boosting的特点是各个弱学习器之间有依赖关系,而bagging各个弱学习器之间没有依赖关系,可以并行拟合。而随机森林就是bagging派系中的一种。随机森林使用了CART决策树作为弱学习器,并且,随机森林对决策树的建立做了改进,对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是随机森林通过随机选择节点上的一部分样本特征,这个数字小于n,假设为nsub,然后在这些随机选择的nsub个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。如果nsub=n,则此时随机森林的CART决策树和普通的CART决策树没有区别。nsub越小,则模型约健壮,当然此时对于训练集的拟合程度会变差。也就是说nsub越小,模型的方差会减小,但是偏倚会增大。在实际案例中,一般会通过交叉验证调参获取一个合适的nsub的值。支持向量机是一种二类分类模型,用于问题的支持向量机为支持向量回归。对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与y之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。因此SVR问题可转化为:1.1.2XGBOOST如前面章节介绍,集成算法主要有Boosting和bagging两个流派,而XGBOOST则属于Boosting流派。XGBOOST(ExtremeGradientBoosting)主要用于解决监督学习问题,包括分类问题和回归问题。其基本思想与GBDT一样,都是以损失函数的负梯度方向提升,不同的是,XGBOOST进行了泰勒二阶展开并引入了正则项。下面是对XGBOOST方法的简要介绍。对于数据集,,,XGBOOST最终目标是为了学习到一个形式如下的加法模型:,这里表示基学习器的集合,其中,基学习器为CART树,T表示基学习器的叶子结点数;每个基学习器对应一个树结构;表示叶子结点的分数向量,即为第i个叶子结点对应的分数;表示基学习器对样本的预测值。根据上面所示的加法模型,最终模型的预测值即为每个基学习器预测值的加和。为得到最终的加法模型,先定义一个目标函数:,。上述目标函数中,第一项为损失函数,用于度量模型的预测准确性;第二项为正则项,对每一个基学习器的复杂度进行惩罚,用于降低模型的复杂度。由前向分布算法,在给定前t-1棵回归树的情况下,第t棵回归树可表示为则第t步的目标函数为:。那么,第t步变成了求解找到使得上式最小的回归树。对第t步的目标函数进行二阶泰勒展开:,其中,,。去掉常数项,可简化为。根据一元二次方程性质,令,代入上式,得:,给定树结构,每个叶子结点的分数的解,即最优叶结点分数式为。则其对应的最小损失值为。由上述可知,当回归树的结构确定时,可以推导出最优的叶结点分数式和其对应的最小损失值式。本文使用贪心算法确定XGBOOST的树结构。在每次选择分裂一个叶结点时,会计算分裂该叶结点前后的增益,将增益最大的叶结点作为本次的分裂结点。可以用来表示叶子结点j对总体损失的贡献,则对于一个叶子结点,其分裂前后的增益为:。遍历所有的特征及其可能的分裂点,计算gain值,选取gain值即增益值最大的特征作为分裂结点。对每个特征,本文通过从候选切分点集中选择切分点来减少计算复杂度。而对于候选切分点的选择,XGBOOST采用一种以二阶梯度h为权重的分位数算法。对特征k,,其中表示样本i的特征k的取值,表示相应的二阶梯度。定义一个rank函数用来表示第k个特征小于z的样本比例,类比于分位数。。候选切分点则需要:,即让相邻两个候选切分点的差值不超过给定阈值,所以上述总共可以将特征k分为份。那么目标函数可写成如下形式:。由上式,可以看出对损失函数有加权的作用。1.1.3模型评价方法本文主要采用拟合优度和均方误差来评判模型。拟合优度是指预测模型的预测值对真实值的拟合程度,可以用来衡量预测模型的特征自变量对预测目标变量的解释程度。度量拟合优度的统计量是可决系数(又称确定系数)。设y是预测目标变量的真实值,其均值为,预测模型对y的预测值为,则:总平方和:,回归平方和:,残差平方和:,决定系数:。均方误差可以反映真实值与预测值之间的差异程度。设y是预测目标变量的真实值,预测模型对y的预测值为,则:1.2目标变量选择从概念上讲,销售端流动性风险主要关注的是产品的净赎回。但从实际货币基金注册登记管理来看,需要分别关注申购及赎回情况。原因在于,大多渠道与基金公司的申赎金额并未采用轧差交收,而是采用申购款与赎回款双向交收方式。而不同渠道的申购和赎回资金虽然都是同日清算,但清算效率也存在差异,例如:直销申购款由于在T日已经到公司直销账户,可以在T+1日大早转入的产品托管户,因此在T就可以做需要T+1上午清算的交易;券商赎回款在T+1上午很早就要给到券商,因此难以通过T日融资到账资金支付。因此,在实际产品流动性管理角度,需要对申购和赎回分别预测。销售端流动性问题研究的是申购赎回问题,目标变量可以是申购/赎回金额,也可以申购/赎回变化率,还可以是申购/赎回变化金额。理论上目标变量分布越接近正态分布,模型训练效果越好。取一段时间的货币基金申赎数据,分别观察三类指标的数据分布。图1.1申购/赎回金额分布图1.2申购/赎回金额变化率分布
图1.3申购/赎回金额变动分布从图1.1和图1.2可以看出,申购/赎回金额和申购/赎回变化率两个指标数据分布并不规则,且都存在向左偏离问题,两个指标相比,申购/赎回变化率更加不规则,分布偏左也更为严重。而图1.3可以看到,申购/赎回变动金额分布近似正态分布。由此,我们选择金额变化为目标变量,将流动性风险预测问题转换为金额波动预测问题。而从图1.3申购和赎回变化金额分布来看,可以判断申购和赎回金额短期内保持稳定。1.3特征变量选择及处理为实现货币基金申购金额、赎回金额的预测,可先对货币基金下一日的申购变化金额、赎回变化金额预测。考虑销售渠道、节假日、互联网购物节、申购客户数、赎回客户数、申购笔数、赎回笔数、申购金额、赎回金额、万份收益、年化收益率、上证指数变动、上证指数交易量、深圳成指变动、深圳成指交易量、中证全债指数变动、中证全债指数交易量、中证综合债指数变动、中证综合债指数交易量、深交所质押式回购利率变动、深交所质押式回购交易量、上交所质押式国债回购利率变动、上交所质押式国债回购交易量、存款准备金率调整、机构占比、持仓集中度、渠道特殊事件等可能会对货币基金下一日的申购变化、赎回变化金额产生影响,本文从以上方面确定了共计65个初始特征变量。对于一些定性变量需转化为0-1变量。例如对于特征变量“是否节假日”,转化为0-1变量:观察到初始特征变量中的当日赎回金额变化、当日赎回金额变化率、当日申购金额变化、当日申购金额变化率、当日赎回金额、当日申购金额趋势变动较大,图1.4为当日赎回金额变化趋势。为防止不规则变动的影响,引入移动平均变量。移动平均法通过逐项递进,将时间序列数据中的若干数据进行算术平均,从而得到原始数据的移动平均数。设x1。对于当日赎回金额变化、当日赎回金额变化率、当日申购金额变化、当日申购金额变化率,分别引入2日移动平均和5日移动平均;对于当日赎回金额、当日申购金额分别引入2日移动平均、3日移动平均和5日移动平均。图1.4当日赎回金额变化趋势1.4建模与分析结果1.4.1建模及算法简述目前学术界看到的货币基金销售端流动性风险模型多是线性模型。笔者通过实证检验方式构造线性模型,发现线性回归模型对于检测指标对流动性风险的相关性是有效的,但对于预测具体销售端申购赎回量的准确性及稳定性都不理想。本文研究采用随机森林、XGBOOST两种集成算法,以及支持向量回归算法和神经网络等多种主流回归机器学习算法预测申赎情况。如1.2节所述,根据影响分析,已为模型筛选了65个特征变量来预测申赎情况。以预测赎回变化规模为例,T+1赎回规模变动,其中C表示销售渠道,X1~X64为销售渠道以外的其他特征变量。从第二章销售端流动性风险影响分析来看,销售渠道是影响申赎变化的最主要因素,不同销售渠道申赎影响因素(特征变量)或影响因素的强弱差别较大。如果将渠道作为特征变量会极大的增加模型复杂度,从而降低预测效果。因此,我们将预测T+1赎回规模变动模型调整为各渠道T+1赎回规模变动的叠加:。从而可以得到:‘T+1赎回金额’=‘T+1赎回规模变动预测值’+‘T日赎回金额’。各个渠道的建模与分析过程类似,而货币基金在大型互联网渠道规模最大,因此,本文仅以某货币基金在互联网京东渠道为例来分析预测T+1日规模变动需要用到的是T日因子,而预测T+N日规模变动则需要使用T+N-1日因子。剔除因子中不可预测部分,如万分收益、客户数、申赎笔数等,就可以进一步得到T+N日赎回规模变动预测模型。而‘T+N赎回金额’=‘T+N赎回规模变动预测值’+‘T+N-1日赎回金额’。针对受未来不可预测部分影响较小的渠道,可以进一步预测T+N赎回情况。1.4.2算法对比本文采用随机森林、XGBOOST、支持向量回归算法和反向传播神经网络4种流行的机器学习算法。对特征变量做相同处理,使用相同的训练集以及测试集来训练和评测模型,结果如下:表1.1四种算法比较算法结果随机森林MSE:419.691
R2:0.728XGBOOSTMSE:288.558
R2:0.779支持向量回归算法MSE:708.45
R2:0.69反向传播神经网络无效从比较结果可以看到,反向传播神经网络对于预测无效。其他三种算法的优劣比较为:XGBOOST〉随机森林〉支持向量回归算法。下一节,我们详细介绍基于XGBOOST的申赎金额变动预测。1.4.3基于XGBOOST的申购和赎回金额变化预测XGBOOST提供并行树提升,解决数据问题更加高效、灵活、便携,这里使用XGBOOST方法建立申购、赎回金额变化的预测模型。模型建立由于申购金额变化的预测模型与赎回金额变化的预测模型的建模过程相同,所以这里仅对赎回金额变化的预测模型的建模过程进行阐述,对于申购金额变化的预测模型不做过多赘述。将货币基金下一日的赎回金额变化作为因变量Y,前述的64个初始特征变量以及当日赎回金额变化、当日赎回金额变化率、当日申购金额变化、当日申购金额变化率、当日赎回金额、当日申购金额的移动平均变量作为预测模型的自变量。将处理好的数据以4:1的比例随机分为训练集和测试集,使用训练集对预测模型进行训练。为了使得到的预测模型更加稳定可靠,在训练模型中,采用十折交叉验证法,将训练集随机切分为10个互不相交且大小相同的子集,利用其中9个子集训练模型,1个子集验证模型,重复验证10次保证每个子集都会进行一次验证。所训练的预测模型一的特征重要性结果如图1.5所示。图1.5XGBOOST模型一特征重要性说明由于特征变量较多,有一些特征变量对于目标变量的预测影响较小,所以将图1.5重要性前30的特征作为特征变量重新训练XGBOOST预测模型,得到XGBOOST模型二,图1.6展示了XGBOOST模型二的特征重要性。图1.6XGBOOST模型二特征重要性图示从图1.6中可以看出,模型二中前三个特征变量对于预测目标变量的重要性很高,但仍存在很多变量对于预测目标变量的影响较小,去除一些影响较小的特征变量后再次训练预测模型得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高考化学天津卷试题(附答案)
- 2026年北京市高职单招职业适应性测试试题解析及答案
- 2026年湖南湘潭市中小学教师招聘考试卷附答案
- 2025年辽宁铁岭市中考数学试题(附答案)
- 高中政治 (道德与法治)人教统编版必修1 中国特色社会主义实现中华民族伟大复兴的中国梦公开课教案
- 初中人教版 (新课标)第一节 呼吸道对空气的处理教学设计
- 初中第一节 人体泌尿系统的组成教案及反思
- 代金券置换协议书范本
- 人教版《道德与法治》八年级下册2.1《坚持依宪治国》教学设计
- 吉林省松原市前郭三中2025-2026学年度下学期第一次学识大练兵 九年级物理(含答题卡、答案)
- (二模)乌鲁木齐地区2026年高三年级第二次质量监测语文试卷(含答案)
- 话题作文拟题训练与素材积累指导文档
- 2025年校园安保招聘考试试题及答案
- 互联网平台用户服务与纠纷处理手册(标准版)
- 企业研发准备金内部制度
- 第6课 少让父母操心 第1课时 课件+视频 2025-2026学年道德与法治三年级下册统编版
- 华鲁恒升招聘笔试题库
- 物联网技术在小学环境教育中的应用效果课题报告教学研究课题报告
- 装备维护保养规范制度
- 新能源汽车高压系统检修课件 任务二新能源汽车高压电控总成故障检修 学习活动1 电机控制器故障检修
- (2025)精索静脉曲张中西医结合诊断治疗指南解读课件
评论
0/150
提交评论