余额宝资金流动规模预测及影响因素_第1页
余额宝资金流动规模预测及影响因素_第2页
余额宝资金流动规模预测及影响因素_第3页
余额宝资金流动规模预测及影响因素_第4页
余额宝资金流动规模预测及影响因素_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着金融经济与科学技术的发展,网络支付和互联网理财的形式也日渐多样化。余额宝作为全国规模最大的单支货币基金,在国民经济中扮演着十分重要的角色。本文以余额宝资金流量为研究对象,使用近3万用户一年的余额宝资金申购赎回数据,通过建立ARIMA模型对资金流动情况做出预测。并结合余额宝收益率情况、上海银行间同业拆放利率情况、沪深300指数对申购赎回数据进行结构分析建模,旨在通过建立优良的模型,对余额宝资金流动情况进行稳定的预测,并分析资金变动的原因。在多元线性回归的过程中,为了优化结构分析效果,本文在此基础上加入LASSO回归和逐步回归进行变量选择,并通过相关性检验来进一步简化得到最终模型。上述模型都通过模型适用性检验,并且拟合结果显示对余额宝资金流量的解释度很高,且多数变量都很显著,能够很好地用于趋势预测和结构性分析。本文运用上百万条数据,多种方法,进行多次回归,提供了互联网金融平台风险预测有效模型。可以有效促进互联网金融平台健康发展,防范互联网金融泡沫,有效进行风险防范,符合国家“互联网+”战略建设方向。关键词:资金流量,ARIMA,多元回归,LASSO回归,逐步回归AbstractWiththedevelopmentofthefinancialeconomyandscienceandtechnology,theformsofonlinepaymentandInternetfinancialmanagementarealsoincreasinglydiversified.Asthelargestsinglecurrencyfundinthecountry,Yu'ebaoplaysaveryimportantroleinthenationaleconomy.ThisarticletakesthebalanceofYu'ebao'scapitalflowastheresearchobject,usesnearly30,000users'one-yearbalanceofYu'ebao'scapitalpurchaseandredemptiondata,andestablishestheARIMAmodeltopredicttheflowoffunds.CombinedwiththeYu'ebaoyieldrate,theShanghaiinterbankrate,andtheShanghaiandShenzhen300Index,thestructuralanalysisandmodelingofthepurchaseandredemptiondataareaimedatestablishingastablemodeltopredicttheYubeibao'scapitalflow.Andanalyzethereasonsforthechangeinfunds.Intheprocessofmultiplelinearregression,inordertooptimizetheeffectofstructuralanalysis,thispaperaddsLASSOregressionandstepwiseregressionforvariableselection,andfurthersimplifiesthefinalmodelthroughcorrelationtesting.Theabovemodelshavepassedthemodelsuitabilitytest,andthefittingresultsshowthattheinterpretationofthebalanceofYu'ebao'scapitalflowisveryhigh,andmostofthevariablesaresignificant,whichcanbewellusedfortrendpredictionandstructuralanalysis.ThisarticleusesmillionsofdataandmultiplemethodstoperformmultipleregressionstoprovideaneffectivemodelforInternetfinancialplatformriskprediction.ItcaneffectivelypromotethehealthydevelopmentofInternetfinancialplatforms,preventInternetfinancialbubbles,andeffectivelycarryoutriskprevention,inlinewiththenational"Internet+"strategicconstructiondirection.Keywords:ARIMA,multipleregression,LASSOregression,stepwiseregression1绪论1.1研究背景近年来,在互联网+这一概念的引领下,推进了一系列新兴技术如大数据、物联网、云计算与传统产业相结合。互联网金融顺应这一大势迎来井喷式发展。而阿里巴巴则是最早涉足互联网金融行业的企业之一。其在2004年就建立了支付宝这一第三方支付平台。2013年,支付宝与天弘基金这一基金管理公司合作推出余额宝这一货币基金,彻底使互联网金融爆发,使天弘基金一举成为国内最大的基金管理公司。余额宝至今仍是全国规模最大的单支货币基金。据天弘基金公布的数据来看,截止2019年年末,余额宝资金规模为1.09万亿元,已用用户超6亿人,足以称为国民理财产品。2018年9月,余额宝7日年化收益率跌破3%关口,每万份收益仅0.797元。近年来,余额宝资金规模也面临着缩水的风险。此外,由于其本身资金规模之大,涉及用户之广等特点,已成为系统性风险的潜在来源,成为风险监管关注的焦点。因此,余额宝面临着市场利率风险和竞争对手威胁风险。如何为广大用户提供更加稳定安全,同时收益率相对较高的资金管理产品成为余额宝重点工作之一。对其每日资金流量进行预测显得十分重要。同时,探究资金流量的影响因素,对资金流量做结构分析,对余额宝根据流量做出相应调整的决策很关键。1.2研究意义通过对余额宝每日资金流量规模的预测及结构分析,其意义至少有以下两点。其一,控制资金流动性风险,预防金融系统性风险。虽然余额宝作为货币基金风险较低,但其风险不能被忽略。客户赎回的数量和时间具有随机性将造成资金变现的风险。蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,资金流入和流出也会受事件影响造成较大波动,例如传统节假日,双十一等线上大型购物节等,面对如此庞大的用户群和资金流量波动,管理压力会非常大,如何保证流动性风险最小显得十分重要。其二,余额宝说到底作为一款理财产品,必然追求较高收益才能吸引更多的用户,增加用户粘性。在满足资金日常流动需求下,如何高效率利用资金满足日常业务运转,进行更加合理投资,精准预测资金流量对投资决策显得十分重要。1.3研究思路与研究方法1.3.1研究思路本文的研究对象是余额宝资金流动规模预测及其影响因素分析,需要分别找到对应的研究方法来进行预测和结构分析。首先,要解决预测的问题,观察到余额宝资金流动规模是一个连续的时间序列,因此对其采用时间序列的相关预测方法,本文采用ARIMA模型对余额宝资金流入流出序列分别建模。第二步确定影响因素分析的研究方法,在查阅相关文献后,本文采用多元线性回归作为基本模型。根据资金流动的相关理论及现有数据,确定可能的影响因素大致有哪些,并与余额宝每日资金流动,即申购量、赎回量做匹配。对数据做好处理之后,我们需要测试初始方法对资金流动规模的预测及结果分析效果,并在此基础上进行改良。当结果显示效果良好时,我们可以应用方法对余额宝资金流动做出解释并得出相关结论。具体流程图如下所示:确定研究对象确定研究对象 查阅相关文献与研究方法查阅相关文献与研究方法数据预处理数据预处理观察数据特征观察数据特征建立回归模型建立建立回归模型建立ARIMA模型改良模型改良模型评估评估模型结果得出结论得出结论1.3.2研究方法第一,文献研究法。首先在各类学术网站及数据库中,查阅相关文献及研究成果,完成研究对象相关的机理分析。对相关研究方法及研究过程进行深入了解,充分了解各类方法的优点与不足,找出适合研究对象的模型方法,并找出评估效果指标及改进办法。除此之外,还需要通过文献阅读对资金流动量影响因素的相关理论进行了解,为确定影响因素及影响原因打下理论基础。通过筛选和整理提取出与本文相关的课题与文献,拓宽思路并增强相关专业知识。第二,定性分析法。本文结合图像可视化对资金流动规模进行了一个定性的分析判断,观察了余额宝自2013年7月1日至2014年7月31日的资金流入流出的规模及趋势。通过定性分析,我们能够确定数据的大致特征,做出基本假设,并通过之后的建模求解验证猜想,为定量分析打下基础。此外,本文还通过可视化手段将拟合结果与原数据进行了直观的对比,以检测评估拟合效果。第三,定量研究法。定量方法包括建立量化模型分析,并计算相关指标评估模型。本文分别采用ARIMA模型和回归模型分别进行资金流出流出量的预测和结构分析。并采用相关模型评价指标,以及改良模型方法,如LASSO回归、逐步回归等解决问题。评估指标本文使用了BIC准则来筛选最优的ARIMA模型,使用了可决系数、F统计量来评价回归模型的拟合效果。还使用了VIF、相关系数等指标进行效果评估。

3数据处理3.1数据来源本研究利用近3万余额宝用户在2013年7月到2014年7月申购(purchase)和赎回(redeem)的历史数据。用户的申购赎回数据包括申购、赎回信息和所有的子类目信息。数据具体包括操作时间和操作记录,其中操作记录包括申购(purchase)和赎回(redeem)两个部分。收益表为余额宝在14个月内的收益率表,银行间拆借利率表是

14

个月期间银行之间的拆借利率(皆为年化利率)。上述的数据都已经过脱敏处理。具体数据如下表所示:表3-1用户申购赎回数据列名类型含义示例user_idbigint用户

id1234report_datestring日期20140407tBalancebigint今日余额109004yBalancebigint昨日余额97389total_purchase_amtbigint今日总购买量

=

直接购买

+

收益21876direct_purchase_amtbigint今日直接购买量21863purchase_bal_amtbigint今日支付宝余额购买量0purchase_bank_amtbigint今日银行卡购买量21863total_redeem_amtbigint今日总赎回量

=

消费

+

转出10261consume_amtbigint今日消费总量0transfer_amtbigint今日转出总量10261tftobal_amtbigint今日转出到支付宝余额总量0tftocard_amtbigint今日转出到银行卡总量10261share_amtbigint今日收益13表3-2

收益率表列名类型含义示例mfd_datestring日期20140102mfd_daily_yielddouble万份收益,即

1

万块钱的收益。1.5787mfd_7daily_yielddouble七日年化收益率(

%

)6.307表3-3

银行间拆借利率表列名类型含义示例mfd_dateString日期20140102Interest_O_NDouble隔夜利率(%)2.8Interest_1_WDouble1周利率(%)4.25Interest_2_WDouble2周利率(%)4.9Interest_1_MDouble1个月利率(%)5.04Interest_3_MDouble3个月利率(%)4.91Interest_6_MDouble6个月利率(%)4.79Interest_9_MDouble9个月利率(%)4.76Interest_1_YDouble1年利率(%)4.78表3-4沪深300数据表列名类型含义示例spjDouble当日收盘价2213.32kpjDouble当日开盘价2187.09jylDouble当日交易量57.733.2数据存在的问题经过对原始五个数据集中两百多万条数据的观察,发现该数据集中存在以下问题:1.数据完整性本文选取的五个数据集中存在不同程度的数据缺失问题,如:用户申购赎回信息表中存在数据空缺、上海银行间同业拆放利率表中日期对应交易数据日期存在空缺、沪深300数据由于数据性质问题,在周末时间上不存在数据。2.数据唯一性用户申购赎回信息表、收益率表、上海银行同业拆放利率表、沪深300信息表中都含有日期属性。但表达方式不同,如report_date、mfd_date。即出现了数据冗余问题。3.数据一致性经分析发现,收益率表与上海银行同业拆放利率表都对余额宝每日申购与赎回总额产生的影响更大。二用户申购赎回信息表中包含的数据为用户个人的交易信息。3.3数据清洗1.预处理阶段将四个数据集中的数据导入Python中,将其中所有日期属性重命名为date,并按从小到大的顺序进行排列。将所有数据集按照日期date属性进行数据归并。且将每日所有用户的申购与赎回金额进行加总,得到余额宝每日的申购与赎回总金额。2.缺失值清洗由于股市的性质,对于沪深300周末的数据采用非固定值填充,即为本周周五的数据进行填充。对于上海银行间同业拆放利率和沪深300数据与原始数据进行合并后产生的由于日期不全二形成的缺失值,采用前一周的对应数据均值进行填充。3.去除不需要的数据(1)去除了交易次数小于10次的用户数据。通过对原始数据的观察,发现有些会员的活动量仅限于几天,另外还存在一些会员的余额一直为零,这些会员的行为对于整体资金的流动产生的影响是几乎可以忽略不计的,所以这里将这一类的客户信息进行过滤。具体方式为删除活动量小于10天,余额一直为零的用户。(2)在数据分析处理与建模的过程中,不断删除分析过程中不需要的属性,如对对研究无意义的属性、变量间存在共线性的属性等。4变量设定表4-1变量符号及解释符号设定变量解释Y单天总购买量(total_purchase_amt)Z单天总赎回(total_redeem_amt)X余额宝的万份收益X余额宝的七日年收益率X银行间隔夜利率(%)X1周利率(%)X2周利率(%)X1个月利率(%)X3个月利率(%)X6个月利率(%)X9个月利率(%)X1年利率(%)X沪深300收盘价X沪深300开盘价X沪深300交易量X昨日总余额X昨日总申购X昨日总赎回5模型建立5.1ARIMA模型5.1.1序列转换首先,对时间序列进行建模之前,需要对序列进行白噪声检验,来测试序列是否包含有效信息。如果序列检验结果为白噪声,则说明该序列为随机扰动的白噪声,相关性极低,没有有效信息可提取,没有建立模型的必要。如果序列检验结果为非白噪声,再进行接下来的建模分析。其次,对一个时间序列进行ARIMA(p,d,q)模型建模,需要判断样本的平稳性,需要对时间序列进行平稳性检验。对于非平稳的时间序列,需要进行一次或者多次的差分转换、对数转换等一系列操作,使其转换为平稳的时间序列,这样的序列才有稳定的特征,如恒定均值、同方差、相关系数只与时间间隔有关。转换为平稳的序列之后,才能对差分平稳后的序列建立ARMA(p,q)模型,从而进行预测。(1)时序图特征首先,用时序图对单日总申购和单日总赎回数据进行可视化,观察其数据特征如下图所示,可以看出申购数据与赎回数据的均值都不稳定,呈现不平稳的状态:为了更直观地表现两序列水平的变化,将单日总申购和单日总赎回分别对时间进行回归,并在画出回归直线。可以看出单日总申购和单日总赎回随着时间增加,其水平大致呈现一个波动上升的状态。对单日总申购和单日总赎回分别进行一阶差分,并绘出时序图。可以看出申购数据和赎回数据差分后的序列均值都趋于平稳。由时序图结果我们可以假设单日总申购和单日总申购的时间序列数据不平稳,但其一阶差分后的序列平稳。白噪声检验与平稳性检验本文采用Ljung-Box(LB)统计量进行白噪声检验,衡量序列的信息包含度。如果序列检验为白噪声序列,则说明序列中有用的信息已被提取完毕,剩余为随机扰动,该部分没有预测的必要。同时采用ADF检验(AugmentedDickey-FullerTest)分别对原序列和变换后的序列进行平稳性检验。从定量角度来测定时间序列的平稳性。如果是平稳非白噪声序列,则可以对其进行建模分析,并通过差分达到平稳的次数确定ARIMA模型的差分阶数。首先,分别对总申购序列、总赎回序列做白噪声检验和平稳性检验。结果如下表所示:表5-1总申购数据白噪声检验Ljung-BoxStatisticsp-value291.22174935(Upper)0.0000289.18523362(Lower)0.0000表5-2总申购数据平稳性检验StatisticsValueTestStatistic-1.599809p-value0.483689LagsUsed18.000000NumberofObservationsUsed366.000000CriticalValue(1%)-3.446480CriticalValue(5%)-2.868650CriticalValue(10%)-2.570557表5-3总赎回数据白噪声检验Ljung-BoxStatisticsp-value279.05439369(Upper)0.0000277.10296437(Lower)0.0000表5-4总赎回数据平稳性检验StatisticsValueTestStatistic-1.373718p-value0.594809LagsUsed13.000000NumberofObservationsUsed366.000000CriticalValue(1%)-3.446283CriticalValue(5%)-2.868564CriticalValue(10%)-2.570511结果显示总申购序列总申购数据和总赎回数据都是非白噪声,进一步做平稳性检验,发现总申购序列和总赎回序列都不平稳。因此,我们需要对序列进行进一步的变换。首先尝试一阶差分变换,并对序列做白噪声检验测试差分变换是否去除了有效信息。表5-5总申购一阶差分数据白噪声检验Ljung-BoxStatisticsp-value(Upper)1.489725310.22225908(Lower)1.479283310.22388669表5-6总赎回一阶差分数据白噪声检验Ljung-BoxStatisticsp-value(Upper)32.329598320.0000(Lower)32.102988990.0000结果显示一阶差分后的总申购序列是白噪声,而一阶差分后的总赎回序列不是白噪声。这说明一阶差分变换去除了总申购序列中的有效信息。因此考虑结合对数变换对申购序列进行处理。即先对申购序列进行对数变换,再进行一阶差分。具体结果如下所示。表5-7总申购对数一阶差分数据白噪声检验Ljung-BoxStatisticsp-value(Upper)10.071389180.00150589(Lower)10.000795930.00156473结果显示总申购对数一阶差分不是白噪声序列。在此基础上进一步对上述差分平稳后的序列进行平稳性检验。即对总申购对数一阶差分数据、总赎回一阶差分数据进行平稳性检验。表5-8总赎回一阶差分数据平稳性检验StatisticsValueTestStatistic-11.689989p-value0.0000LagsUsed12NumberofObservationsUsed366CriticalValue(1%)-3.446283CriticalValue(5%)-2.868564CriticalValue(10%)-2.570567表5-9总申购对数一阶差分数据平稳性检验StatisticsValueTestStatistic-7.459526p-value0.0000LagsUsed18NumberofObservationsUsed366CriticalValue(1%)-3.446520CriticalValue(5%)-2.868668CriticalValue(10%)-2.570567综合以上结果,可以得出总申购对数一阶差分,和总赎回一阶差分都是平稳非白噪声序列。具有有效信息且有稳定的特征可供分析。因此我们对总赎回数据建立ARIMA(p,1,q)模型,对对数总申购数据建立ARIMA(p,1,q)模型。5.1.2模型识别与参数估计上述分析已经得出总申购与总赎回的变换后的平稳非白噪声序列,在此基础上选择合适的ARIMA模型去拟合。首先,在参数估计之前我们需要进行模型识别,需要确定ARIMA(p,d,q)模型的三个参数。由上一步我们可以确定d=1。为了确定ARIMA自回归部分和移动平均部分的阶数,我们首先观测数据的自相关系数(acf)和偏自相关系数(pacf)的特征。图5-1总申购数据自相关系数图5-2总申购数据偏自相关系数图5-3总赎回数据自相关系数图5-4总赎回数据偏自相关系数上述结果并没有显示出明显的截尾特征,总申购与总赎回的自相关系数和偏自相关系数都呈现拖尾状态,但无法明确判断自回归部分和滑动平均部分的阶数。因此借助模型评价准则来选择模型,进一步用BIC准则进行模型定阶,选出最小BIC值得出的模型,从而寻找包含参数少且对数据解释度高的最优模型。根据先前的结果,我们使用d等于1,p、q分别等于0至6的多个ARIMA模型对总赎回数据和对数总申购数据进行拟合。并比较拟合后各个模型的BIC值,最终识别得出总赎回预测模型与对数总申购预测模型都是ARIMA(5,1,4)。表5-10拟合模型BIC值序列名BIC值对数总申购16561.077316总赎回335.154279使用ARIMA(5,1,4)模型,代入数据值,通过r语言进行拟合,经过参数估计后,得到的拟合结果为:总申购模型:∆(2)总赎回模型:∆5.1.3模型检验经参数估计得到上述模型后,需要对模型拟合效果进行检验。如果检验通过,那么说明该模型能够较好的刻画序列信息,可以使用该模型对序列进行预测,如果检验不通过,则说明该模型不能很好的刻画序列信息,应采用其他模型重新建模。本文采取对模型残差进行白噪声检验的方式来对模型拟合效果进行检验。结合DW相关检验和LB检验判定残差序列是否为白噪声。(1)DW相关检验表5-11DW相关检验序列名DW统计量对数总申购残差2.0990总赎回残差2.1648结果显示两个模型残差的DW统计量都接近2,这表示残差序列无自相关,可以认为是随机扰动。Ljung-Box检验表5-12LB检验序列名Ljung-BoxStatisticsp-value对数总申购残差1.083266310.297968011.075673320.29966748总赎回残差2.963347130.085171462.942576010.08627305结果显示两个模型残差的Ljung-Box检验都不显著,不拒绝原假设,即认为两模型的残差序列是白噪声。因此,上述模型都通过了白噪声检验,能够很好的提取序列中包含的有效信息,可用于趋势预测。异方差检验来检测是否存在ARCH效应。所谓ARCH效应,简单说就是用均值方程的残差的平方来近似波动率,看其自相关函数是否显著,若显著不为0则可以认为其存在ARCH效应。因此我们对残差的平方进行LB检验来测定模型是否存在异方差。结果显示用R语言对对数总申购模型做ARCH异方差检验,得到检验p值为0.3497,对总赎回模型检验得到p值为0.2979。因此,都不拒绝同方差假设。这表明两个模型都能通过异方差检验,符合经典假设,不存在ARCH效应,可用于趋势预测。表SEQ表\*ARABIC1ARCH检验序列名p值对数总申购模型0.3497总赎回模型0.2979

5.2回归模型5.2.1初始模型由于单个用户数据变化趋势不明显,本文将采用单日总申购与单日总赎回作为被解释变量。根据已有数据和相关理论分析,将余额宝收益率数据、银行同行拆解利率数据、沪深300数据、以及昨日余额、昨日申购量、昨日赎回量作为解释变量。基于对申购和赎回数据的分析,根据不同类型数据的散点图,为了消除量纲的影响,我们考虑对设定变量数据进行取对数处理减少多重共线性,建立对数多元回归模型。回归结果如下:总申购模型lnY总赎回模型lnZ将数据代入R,得出回归结果如下:总申购模型表SEQ表\*ARABIC2总申购初始模型回归结果变量系数标准差T统计量P值显著性(Intercept)21.807969.709322.2460.02527*lnx11.942640.687382.8260.00496**lnx2-0.389950.73374-0.5310.59541lnx30.238410.174071.3700.17162lnx4-0.023500.26119-0.0900.92836lnx5-0.160510.21585-0.7440.45756lnx6-0.010290.26078-0.0390.96855lnx70.044571.004380.0440.96463lnx8-13.4668212.91800-1.0420.29785lnx914.5703525.543030.5700.56873lnx10-2.7948519.71031-0.1420.88732lnx11-1.376701.98838-0.6920.48913lnx12-1.030191.86652-0.5520.58132lnx130.212710.082532.5770.01033*lnx140.297290.064344.6210.0000***lnx150.435040.052728.2510.0000***lnx160.126800.050412.5160.01230*MultipleR-squared:0.8532AdjustedR-squared:0.847F-statistic:137.7p-value:0.0000总赎回模型表2总赎回初始模型回归结果变量系数标准差T统计量P值显著性(Intercept)5.4884811.201930.4900.624447lnx13.097270.793053.9060.000111***lnx2-3.791840.84653-4.4790.0000***lnx3-0.186220.20083-0.9270.354389lnx4-0.314480.30134-1.0440.297324lnx5-0.040680.24903-0.1630.870321lnx60.905200.300873.0090.002800**lnx70.577171.158780.4980.618711lnx8-4.6073614.90389-0.3090.757386lnx95.5897629.469760.1900.849663lnx10-1.4130722.74037-0.0620.950485lnx11-1.849522.29405-0.8060.420620lnx121.242642.153460.5770.564251lnx130.154340.095221.6210.105853lnx140.566820.074237.6360.0000***lnx150.147180.060832.4200.016007*lnx160.299950.058155.1580.0000***MultipleR-squared:0.8875AdjustedR-squared:0.8827F-statistic:186.9p-value:0.0000根据回归结果,发现上述两个模型都通过F检验,且可决系数都很高,分别达到85.3%和88.8%,说明两个初始模型对被解释变量的解释程度很高。但回归结果同时表现出很多解释变量的t检验都不显著,解释变量之间可能存在高度的多重共线性,进一步对模型的解释变量进行VIF检验,测试变量间多重共线性程度。表5-13解释变量VIF检验变量名VIF值lnx122.56lnx226.01lnx34.32lnx47.58lnx56.51lnx65.67lnx717.52lnx83079.97lnx910833.01lnx104330.50lnx1124.80lnx1222.37lnx131.72lnx1418.06lnx157.13lnx1611.26检验结果发现很多对数变量的VIF值仍然大于10,变量之间仍然存在多重共线性,这会导致尽管模型的可决系数很高、对被解释变量的解释程度大,但可能过拟合,有一些冗余的解释变量与其他解释变量高度相关,导致模型过于复杂,这些变量可以通过合理的方法被筛除掉。本文将采用LASSO回归模型和逐步回归模型综合选择出最能刻画总申购和总赎回的解释变量。5.2.2变量选择LASSO回归为了消除变量间的多重共线性,首先采用LASSO模型进行变量选择。LASSO回归的基本思想是对回归系数进行L1范数约束,使得残差平方和最小,从而使得某些自变量的回归系数精准地压缩到零,达到变量选择的目的,得到可解释的模型使用LASSO回归时,为消除不同指标量纲的影响,需要将观测数据标准化、正则化,即:iii总申购与总赎回的回归系数的LASSO估计分别如下:在以上约束下将原模型中的被解释变量和全部解释变量的数据代入进行LASSO回归估计。本文将基于R语言调用lars程序包求解LASSO回归来选择变量。首先分别将上述申购与赎回模型分别进行LASSO回归估计后,返回被LASSO回归处理后的回归系数,如果观察到部分变量的回归系数被压缩到0,那么剔除这些变量后,再进行线性回归,得出筛选变量之后的回归估计。首先对上述两模型分别进行LASSO回归,得到LASSO回归系数如下。并且我们可以借助R语言输出上述两模型LASSO回归的系数压缩的过程,并将其可视化,结果如下所示:表SEQ表\*ARABIC3LASSO回归结果变量总申购模型系数总赎回模型系数lnx11.066041e+000.9584950lnx20-0.2618265lnx38.164743e-02-0.0082971lnx4-2.445062e-020lnx500lnx61.142738e-020.1356201lnx7-1.048089e-010lnx800lnx900lnx1000lnx1100lnx1200.0011577lnx131.570710e-030lnx142.657454e-116.455166e-11lnx154.518995e-010.1570929lnx161.942983e-010.4813941图SEQ图\*ARABIC1申购模型回归系数压缩过程图SEQ图\*ARABIC2赎回模型回归系数压缩过程根据上述结果,总申购模型中,应该保留的解释变量为余额宝的万份收益(x1)、银行间隔夜利率(x3)、1周利率(x4)、1个月利率(x6)、3个月利率(x7)、沪深300收盘价交易量(x13)、昨日总余额(x14)、昨日总申购(x15)、昨日总赎回(x16)。总赎回模型中,应该保留的解释变量为余额宝的万份收益(x1)、余额宝的七日年收益率(x2)、银行间隔夜利率(x3)、1个月利率(x6)、沪深300收盘价开盘价(x12)、昨日总余额(x14)、昨日总申购(x15)、昨日总赎回(x16)。经过初步变量筛选后,我们将筛选后的解释变量重新代入模型,进行最小二乘线性回归。结果如下所示:表SEQ表\*ARABIC4总申购初步筛选回归结果变量系数标准差T统计量P值显著性(Intercept)2.086911.031132.0240.04367*lnx11.180550.356663.3100.00102**lnx30.201260.169031.1910.23452lnx4-0.165950.20400-0.8130.41644lnx6-0.036830.21691-0.1700.86528lnx7-0.266060.63321-0.4200.67460lnx130.116640.067881.7180.08657.lnx140.242050.044265.4690.0000***lnx150.460870.051578.9370.0000***lnx160.120600.049092.4570.01447*MultipleR-squared:0.85AdjustedR-squared:0.8465F-statistic:243p-value:0.0000表SEQ表\*ARABIC5总赎回初步筛选回归结果变量系数标准差T统计量P值显著性(Intercept)0.432945.322300.0810.935210x12.804610.769893.6430.000306***x2-3.474240.75929-4.5760.0000***x3-0.404990.15341-2.6400.008627**x60.751710.221103.4000.000744***x120.121900.620150.1970.844268x140.553290.0483011.4550.0000***x150.156090.059642.6170.009216**x160.303260.057325.2900.0000***MultipleR-squared:0.886AdjustedR-squared:0.8837F-statistic:376.1p-value:0.0000(2)逐步回归由于通过LASSO模型选出的变量进行回归后,结果仍然存在不显著的变量,因此再使用逐步回归的方式进行进一步变量筛选和修正,通过R语言逐步回归结果见下表:总申购每一步筛选变量过程:表SEQ表\*ARABIC6总申购逐步回归过程初始AIC=-779.21y1~x1+x3+x4+x6+x7+x13+x14+x15+x16第一步AIC=-781.18y1~x1+x3+x4+x7+x13+x14+x15+x16第二步AIC=-783.03y1~x1+x3+x4+x13+x14+x15+x16第三步AIC=-783.76y1~x1+x3+x13+x14+x15+x16第四步AIC=-784.97y1~x1+x13+x14+x15+x16对筛选后余下变量再做VIF检验,得到当前解释变量的VIF值均小于10,表明当前解释变量的多重共线性较低,因此对总申购模型不再重复筛选变量。检验结果如下所示:表5-13解释变量VIF检验变量名VIF值lnx11.410661lnx131.120368lnx146.817089lnx156.653153lnx169.906594总赎回每一步筛选变量过程:表SEQ表\*ARABIC7总赎回逐步回归过程初始AIC=-671.5y2~x1+x2+x3+x6+x12+x14+x15+x16第一步AIC=-673.46y2~x1+x2+x3+x6+x14+x15+x16表5-14解释变量VIF检验变量名VIF值lnx120.609701lnx220.323870lnx32.513505lnx62.962790lnx147.283023lnx156.827450lnx169.952445对筛选后余下变量再做VIF检验,发现此时总赎回模型中x1和x2的VIF值依然较大,均超过10,为了找出多重共线性原因,我们对当前模型中的变量计算出相关系数矩阵,反映变量间的相关关系。结果发现变量余额宝的万份收益(x1)和余额宝的七日年收益率(x2)具有高度正相关关系,相关系数高达0.97,这表明这两个变量具有高度一致性,可以相互替代。该结果也与理论实际契合。因此我们去除其中一个解释变量。本文选择去除余额宝的七日年收益率(x2),保留余额宝的万份收益(x1),再将去除x2后的模型做VIF检验并代入程序进行回归。结果显示余下解释变量的多重共线性都已经降到较低水平。此时我们不再进行变量筛选。表5-14解释变量VIF检验变量名VIF值lnx12.203883lnx32.425717lnx62.939131lnx147.198808lnx156.175670lnx169.5611535.2.3模型检验残差自相关检验表5-12LB检验序列名LB统计量p值对数总申购模型2.50660.1134总赎回模型2.25210.1334结果显示两个模型残差的Ljung-Box检验都不显著,不拒绝原假设,即认为两模型的残差序列是白噪声。因此,上述模型都通过了白噪声检验,能够很好的提取序列中包含的有效信息。异方差检验用R语言分别总申购回归模型和总赎回回归模型做BP异方差检验(Breusch–Pagantest),得到总申购回归模型检验p值为0.5011,对总赎回模型检验得到p值为0.1957。因此,都不拒绝同方差假设。这表明两个模型都能通过异方差检验,符合经典假设。表SEQ表\*ARABIC8回归模型异方差检验序列名BP统计量dfp值对数总申购模型8.578450.5011总赎回模型12.863860.1957协整检验首先,通过上述分析我们观察到余额宝的总申购和总赎回,对数总申购和对数总赎回是一阶差分平稳的。接着我们将上述两个回归模型的解释变量分别进行平稳性检验,并将其一阶差分进行平稳性检验。检验得到,余额宝的万份收益(x1)、银行间隔夜利率(x3)、1个月利率(x6)、沪深300收盘价交易量(x13)、昨日总余额(x14)、昨日总申购(x15)、昨日总赎回(x16)这七个变量及其对数后的数据都是一阶单整的。这符合协整检验的前提。接下来对两回归模型进行残差的平稳性检验,此处仍然使用adf单位根检验,结果显示两模型残差都不具有单位根,即残差是平稳的。因此,我们认为,该模型能够通过协整检验。这同时说明,总申购模型与总赎回模型中,被解释变量与解释变量有着长期均衡的关系。因此该模型不是伪回归,我们可以用此模型进行预测及结构分析。表SEQ表\*ARABIC9变量单整情况序列名差分平稳阶数总申购(Y)一阶单整总赎回(Z)一阶单整余额宝的万份收益(x1)一阶单整银行间隔夜利率(x3)零阶单整(平稳)1个月利率(x6)一阶单整沪深300收盘价交易量(x13)零阶单整(平稳)昨日总余额(x14)一阶单整昨日总申购(x15)一阶单整昨日总赎回(x16)零阶单整(平稳)表SEQ表\*ARABIC10残差单位根检验序列名Dickey-Fuller统计量p值对数总申购模型残差-5.22370.00总赎回模型残差-5.42510.005.2.4最终回归模型通过上述变量选择及模型检验后,我们得到简化后的总申购及总赎回模型。总申购模型ln表SEQ表\*ARABIC11总申购最终回归结果变量系数标准差T统计量P值显著性(Intercept)1.903170.609693.1220.00193**lnx10.966160.171815.6230.0000***lnx130.117320.066621.7610.07900.lnx140.230780.039505.8421.09e-08***lnx150.465660.050909.1490.0000***lnx160.116260.047262.4600.01432*MultipleR-squared:0.8491AdjustedR-squared:0.8472F-statistic:439p-value:0.0000总赎回模型ln表SEQ表\*ARABIC12总赎回最终回归结果变量系数标准差T统计量P值显著性(Intercept)2.471460.593524.1640.0000***lnx10.994920.215674.6130.0000***lnx30.106660.131000.8140.41604lnx6-0.062960.18853-0.3340.73857lnx140.218300.040775.3550.0000***lnx150.462260.051628.9540.0000***lny160.129270.049002.6380.00867**MultipleR-squared:0.8482AdjustedR-squared:0.8459F-statistic:362.3p-value:0.0000从结果来看,两模型都通过F检验,并且可决系数达到85%左右,说明模型对被解释变量总申购、总赎回的解释程度仍然很高,模型用于结构分析的效果是比较好的,因此用LASSO回归和逐步回归筛选出的变量仍然能够很好的解释总申购与总赎回数据,在剔除变量的过程中几乎没有丧失太多被解释变量的信息,同时印证了变量筛选的效果是非常好的。此外,各个解释变量的VIF值都较小,多重共线性不高,且多数解释变量都非常显著,与被解释变量的相关程度都较高,能够很好地反应被解释变量与解释变量之间的直接相关关系。因此这两个模型用于结构分析是非常好的,不仅模型对被解释变量的解释程度很高,而且解释变量之间相关性低,没有过拟合,模型精简,不存在冗余。这对我们分析余额宝资金流出流出的影响因素是非常有利的。

6结果分析6.1预测结果余额宝每日资金流入:通过上述分析,本文最终得到余额宝每日总申购的预测模型为对数处理后的ARIMA(5,1,4)模型,经参数估计后得到模型如下:∆本文将余额宝每日总申购的历史数据代入该模型,得出模型预测结果的对数时间序列,并将此序列进行对数还原,然后与原始数据进行对比。图SEQ图\*ARABIC3总申购模型预测结果从余额宝每日总申购量的历史数据的拟合图来看,模型的预测数据与实际数据基本吻合。并且该模型的残差能够通过白噪声检验。这表明预测效果良好,用该模型进行预测是合理的。余额宝每日资金流出:本文最终得到余额宝每日总赎回的预测模型为ARIMA(5,1,4)模型,经参数估计后得到模型如下:∆本文将余额宝每日总赎回的历史数据代入该模型,得出模型预测结果的时间序列,并将预测结果与原始数据进行对比。图SEQ图\*ARABIC4总赎回模型预测结果从上面余额宝每日总赎回量的历史数据的拟合图来看,模型的预测数据与实际数据基本吻合。并且该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论