基于TipDM数据挖掘建模平台实现金融服务机构资金流量预测_第1页
基于TipDM数据挖掘建模平台实现金融服务机构资金流量预测_第2页
基于TipDM数据挖掘建模平台实现金融服务机构资金流量预测_第3页
基于TipDM数据挖掘建模平台实现金融服务机构资金流量预测_第4页
基于TipDM数据挖掘建模平台实现金融服务机构资金流量预测_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于TipDM数据挖掘平台实现金融服务机构资金流量预测1快速构建金融服务机构资金流量预测工程目录平台简介2TipDM大数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发,面向大数据挖掘项目的工具。平台使用Java语言开发,采用B/S结构,用户不需要下载客户端,可通过浏览器进行访问。平台提供了基于Python、R以及Hadoop/Spark分布式引擎的大数据分析功能。平台支持工作流,用户可在没有Java、Scala、Python、R等编程语言基础的情况下,通过拖拽的方式进行操作,以流程化的方式将数据输入输出、统计分析,数据预处理、分析与建模等环节进行连接,从而达成大数据分析的目的。TipDM大数据挖掘建模平台平台的界面如图所示。TipDM大数据挖掘建模平台读者可通过关注微信公众号“泰迪学院”,获取平台的访问方式,具体步骤如下。微信搜索公众号“泰迪学院”或“TipDataMining”,关注公众号。关注公众号后,回复“建模平台”,获取平台访问方式TipDM大数据挖掘建模平台以金融服务机构资金流量预测案例为例,介绍如何使用平台实现案例的流程。在介绍之前,需要引入平台的几个概念。组件:将建模过程涉及的输入/输出、数据探索及预处理、建模、模型评估等算法分别进行封装,每一个封装好的算法模块称之为组件。工程:为实现某一数据分析目标,将各组件通过流程化的方式进行连接,整个数据分析流程称为一个工程。模板:用户可以将配置好的工程,通过模板的方式,分享给其他用户,其他用户可以使用改模板,创建一个无需配置组件便可运行的工程。TipDM大数据挖掘建模平台TipDM大数据挖掘建模平台主要有以下几个特点。平台算法基于Python、R以及Hadoop/Spark分布式引擎,用于数据分析。Python、R以及Hadoop/Spark分布式是目前最为流行的用于数据分析的语言,高度契合行业需求。用户可在没有Python、R或者Hadoop/Spark编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程。提供公开可用的数据分析示例工程,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。Python算法包提供60种算法,分为11大类:统计分析、数据预处理、脚本类组件、分类、聚类、回归、时间序列、关联规则、文本挖掘、深度学习、画图。同时还提供Python脚本和R脚本,快速粘贴代码即可运行。Spark算法包提供38种算法,分为7大类:数据预处理、统计分析,分类、聚类、回归、智能推荐、关联规则。R语言算法包提供52种算法,分为8大类:统计分析、数据预处理、分类、聚类、回归、时间序列、关联规则、文本挖掘。TipDM大数据挖掘建模平台登录平台后,用户即可看到【模板】模块系统提供的示例工程(模板),如图所示。【模板】模块主要用于标准大数据分析案例的快速创建和展示。通过【模板】模块,用户可以创建一个无须导入数据及配置参数就能够快速运行的工程。同时,每一个模板的创建者都具有模板的所有权,能够对模板进行管理。用户可以将自己搭建的数据分析工程生成为模板,显示在【模板】模块,供其他用户一键创建。模板【数据空间】模块主要用于数据分析工程的数据导入与管理,根据情况用户可选择数据来源于【文件】或者【数据库】。【文件】支持从本地导入任意类型数据,如图所示。数据空间【数据库】支持从DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用关系型数据库导入数据,如图所示。数据空间【我的项目】模块主要用于数据分析流程化的创建与管理,如图所示,通过【工程】模块,用户可以创建空白工程,进行数据分析工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据分析的目的。对于完成度优秀的工程,可以将其保存为模板,让其他使用者学习和借鉴。我的项目【系统组件】模块主要用于大数据分析内置常用算法组件的管理,提供Python、R语言、Spark三种算法包,如图所示。系统组件Python算法包包含统计分析、预处理、脚本、分类、回归、聚类、时间序列、关联规则、文本分析和绘图,共十大类,具体如下。【统计分析】类提供对数据整体情况进行统计的常用组件,包括:因子分析、全表统计、正态性检验、相关性分析、卡方检验、主成分分析和频数统计。【预处理】类提供对数据进行清洗的组件,包括:数据标准化、缺失值处理、表堆叠、数据筛选、行列转置、修改列名、衍生变量、数据拆分、主键合并、新增序列、数据排序、记录去重和分组聚合。【脚本】类提供一个Python代码编辑框。用户可以在代码编辑框中粘贴已经写好的程序代码并直接运行,无须再额外配置成组件。【分类】类提供常用的分类算法组件,包括:朴素贝叶斯、支持向量机、CART分类树、逻辑回归、神经网络和K最近邻。系统组件【聚类】类提供常用的聚类算法组件,包括:层次聚类、DBSCAN密度聚类和KMeans。【回归】类提供常用的回归算法组件,包括:CART回归树、线性回归、支持向量回归和K最近邻回归。【时间序列】类提供常用的时间序列算法组件,包括:ARIMA。【关联规则】类提供常用的关联规则算法组件,包括:Apriori和FP-Growth。【文本分析】类提供对文本数据进行清洗、特征提取与分析的常用组件,包括:TextCNN、seq2seq、jieba分词、HanLP分词与词性、TF-IDF、doc2vec、word2vec、过滤停用词、LDA、TextRank、分句、正则匹配和HanLP实体提取。【绘图】类提供常用的画图组件,包括:柱形图、折线图、散点图、饼图和词云图。系统组件Spark算法包包含预处理、统计分析、分类、聚类、回归和协同过滤,共六大类,具体如下。【预处理】类提供对数据进行清洗的组件,包括:数据去重、数据过滤、数据映射、数据反映射、数据拆分、数据排序、缺失值处理、数据标准化、衍生变量、表连接、表堆叠、哑变量和数据离散化。【统计分析】类提供对数据整体情况进行统计的常用组件,包括:行列统计、全表统计、相关性分析和卡方检验。【分类】类提供常用的分类算法组件,包括:逻辑回归、决策树、梯度提升树、朴素贝叶斯、随机森林、线性支持向量机和多层感知神经网络。【聚类】类提供常用的聚类算法组件,包括:KMeans聚类、二分K均值聚类和混合高斯模型。【回归】类提供常用的回归算法组件,包括:线性回归、广义线性回归、决策树回归、梯度提升树回归、随机森林回归和保序回归。【协同过滤】类提供常用的智能推荐算法组件,包括:ALS算法。系统组件R语言算法包包括统计分析、预处理、脚本、分类、聚类、回归、时间序列和关联分析、共八大类,具体如下。【统计分析】类提供对数据整体情况进行统计的常用组件,包括:卡方检验、因子分析、主成分分析、相关性分析、正态性检验和全表统计。【预处理】类提供对数据进行清洗的组件,包括:缺失值处理、异常值处理、表连接、表堆叠、数据标准化、记录去重、数据离散化、排序、数据拆分、频数统计、新增序列、字符串拆分、字符串拼接、修改列名和衍生变量。【脚本】类提供一个R语言代码编辑框。用户可以在代码编辑框中粘贴已经写好的程序代码并直接运行,无须再额外配置成组件。【分类】类提供常用的分类算法组件,包括:朴素贝叶斯、CART分类树、C4.5分类树、BP神经网络、KNN、SVM和逻辑回归。系统组件【聚类】类提供常用的聚类算法组件,包括:KMeans、DBSCAN和系统聚类。【回归】类提供常用的回归算法组件,包括:CART回归树、C4.5回归树、线性回归、岭回归和KNN回归。【时间序列】类提供常用的时间序列算法组件,包括:ARIMA、GM(1,1)和指数平滑。【关联分析】类提供常用的关联规则算法组件,包括:Apriori。系统组件【个人组件】主要为了满足用户的个性化需求。在用户使用过程中,可根据自己的需求定制算法,方便使用。目前个人组件支持通过Python和R语言进行个人组件的定制,如图所示。个人组件1快速构建金融服务机构资金流量预测工程目录平台简介2本小节以金融服务机构资金流量预测案例为例,在TipDM数据挖掘建模平台上配置对应工程,展示几个主要流程的配置过程。在TipDM数据挖掘建模平台上配置金融服务机构资金流量预测工程的总体流程如图所示。总体流程主要包括以下4个步骤。导入金融服务机构2013年7月1日至2014年8月31日的资金流量数据到TipDM数据挖掘建模平台。对数据进行属性构造、数据筛选、周期性差分和序列检验等操作。构建ARIMA模型并进行模型检验。对ARIMA模型进行预测和评价。总体流程在平台上配置得到的最终流程如图所示。总体流程本章的数据为一份资金流数据CSV文件,使用TipDM数据挖掘建模平台导入数据的步骤如下。单击【数据空间】,在【我的数据集】中选择【新增数据集】,如图所示。数据源配置随意选择一张封面图片,在【名称】中填入“purchase_amt”,【有效期】项选择【永久】,【描述】中填入“资金流数据”,【数据来源来源】项选择【文件】,【访问权限】项选择【私有】,单击【点此上传】选择purchase_amt.csv文件,如图所示。等待合并成功后,单击【确定】按钮,即可上传。数据源配置数据上传完成后,新建一个命名为【资金流预测】的空白工程,配置一个【输入源】组件,步骤如下。单击【工程】栏中的“+”按钮,启动新建工程窗口。在【名称】中输入“资金流量预测”,【分类】选择我的工程,【描述】中输入“时间序列”,如图1112所示。数据源配置在【工程】左下方的【组件】栏中,找到【系统组件】→【内置组件】下的【输入/输出】类,拖曳【输入源】组件至工程画布中。单击画布中的【输入源】组件,在右边单击工程画布右侧【参数设置】栏,在【数据集】框中输入“purchase_amt”,在弹出的下拉框中选择【purchase_amt】,如图所示。数据源配置原始数据是以单个用户每天的信息作为一条记录。而时间序列预测输入的数据形式是每天的总资金流入量,因此将原始数据进行式所示的转换。其中,表示第天的用户数量。公式的转换过程如图所示。属性构造1.分组聚合在TipDM数据挖掘建模平台上,可通过分组聚合组件实现如图1114所示的转换过程,步骤如下。拖曳【系统组件】→【Python算法】→【预处理】中的【分组聚合】组件至工程画布中,并与【输入源】组件相连接。字段和参数设置。单击画布中的【分组聚合】组件,在工程画布右侧【字段属性】栏中,单击【特征】项下的图标,勾选【report_date】和【total_purchase_amt】字段,如图所示;单击【分组主键】项下的图标,勾选【report_date】字段。属性构造参数设置。在工程画布右侧【参数设置】栏中,【聚合方法】选择“求和”,如图所示。右键单击【分组聚合】组件,选择【运行该节点】。属性构造通过绘制折线图,查看经过分组聚合后的数据总体的分布情况,步骤如下。拖曳【系统组件】→【Python算法】→【绘图】中的【折线图】组件至工程画布中,并与【分组聚合】组件相连接。输入设置。单击画布中的【分组聚合】组件,在工程画布右侧【输入设置】栏中,单击【选择x轴刻度字段】项下的图标,选择“report_date”字段;单击【选择绘图字段】项下的图标,选择“total_purchase_amt”字段,其余保留默认设置。属性构造2.折线图输入设置如图所示。属性构造右键单击【折线图】组件,选择【运行该节点】。运行完成后,右键单击【折线图】组件,选择【查看报告】,如图所示。有图可以看出,前半部分的数据处于增长期。结合该企业的发展历程,这段时间正处于余额宝的推广期。由于新用户的不断增加,每日资金申购量也在随之增加。中间有段时期,资金申购量急剧降低;后半部分用户数量稳定下来,资金申购量在一定的范围内稳定地来回波动。根据时序图检验平稳序列的特点,该序列并未全部在一个常数值附近随机波动,判断该序列属于非平稳随机序列。属性构造通过绘制自相关图,查看经过分组聚合后的数据的平稳性情况,步骤如下。拖曳【系统组件】→【Python算法】→【绘图】→【时序图】组件至工程画布中,并与【分组聚合】组件相连接。重命名组件。右键单击画布中的【时序图】组件,选择图所示的【重命名】,输入“自相关图”。属性构造3.自相关图字段和参数设置。单击画布中的【自相关图】组件,在工程画布右侧【字段设置】栏中,单击【绘图特征列】项下的图标,选择“total_purchase_amt”字段;在【参数设置】栏中,选择【时序图类型】为“acf”,如图所示。属性构造右键单击【自相关图】组件,选择【运行该节点】。运行完成后,右键单击【自相关图】组件,选择【查看日志】,如图所示。由图可以看出序列自相关系数长期位于零轴的一边,这是具有单调趋势序列的典型特征。同时自相关图呈现出明显的正弦波动规律,这是具有周期变化规律的非平稳序列的典型特征。属性构造通过图可以看出,2014年3月后的数据在一个值附近随机波动。本案例的目标是预测资金申购量,前期的资金申购量受新用户人数影响,处于增长状态,后期的数据由于用户数量稳定,表现得更加平稳,有规律。基于探索结果,决定选取2014年3月至7月的数据作为模型训练数据,选取2014年8月的数据作为模型测试数据。数据筛选截取数据的步骤如下。拖曳【系统组件】→【Python算法】→【预处理】中的【数据筛选】组件至工程画布中,并与【分组聚合】组件相连接。字段设置。在右侧【字段设置】栏中,单击【特征】项下的图标,勾选全部字段。数据筛选过滤条件设置。在右侧【过滤条件1】栏中,单击【过滤的列】项下的图标,选择【过滤的列】为“report_date”,【表达式】为“大于”,【过滤条件的比较值】为“2014-03-00”;设置【过滤条件2】的【逻辑运算符】为“and”,【表达式】为“小于”,【过滤条件的比较值】为“2014-07-32”,如图所示。运行【数据筛选】组件。数据筛选查看经过筛选后的数据的总体分布情况,需要绘制折线图和自相关图。拖拽【折线图】组件和【时序图】组件至工程画布中,并与【数据筛选】组件相连接,如图所示。数据筛选具体设置步骤可参考属性构建的步骤流程,运行结果如图所示。由图可以看出,数据具有较明显的周期性,以7天为周期,数据稳定的上下波动。所以需要对数据进行差分处理,进一步消除周期性。数据筛选对资金申购量以7天为周期做一次差分,步骤如下。拖曳【系统组件】→【Python算法】→【预处理】中的【差分】组件至工程画布中,并与【数据筛选】组件相连接。字段和参数设置。单击画布中的【差分】组件,在工程画布右侧【字段设置】栏中,单击【差分列】项下的图标,选择“total_purchase_amt”字段;在【参数设置】栏中,设置【差分周期】为“7”,如图所示。右键单击【差分】组件,选择【运行该节点】。周期性差分查看经过差分后的数据总体的分布情况,需要绘制折线图和自相关图。拖拽【折线图】组件和【时序图】组件至工程画布中,并与【差分】组件相连接,如图所示。周期性差分具体设置步骤可参考属性构造的步骤流程,运行结果如图所示。由图可看出,数据的周期性已消失,自相关系数多数控制在2倍的标准差范围内,可以认为该数据自始至终都在零轴附近波动,属于平稳序列。周期性差分为了确定原始数据序列中没有随机趋势或确定趋势,需要对数据进行平稳性检验,否则将会产生“伪回归”的现象,对2014年3月1日后的资金申购采用单位根检验(ADF)的方法进行平稳性检验。序列检验1.平稳性检验平稳性检验步骤如下。拖曳【系统组件】→【Python算法】→【统计分析】中的【时序检验】组件至工程画布中,并与【差分】组件相连接。重命名组件。右键单击画布中的【时序检验】组件,选择属性构造中重命名组件中的【重命名】并输入“平稳性检验”,如图所示。序列检验字段和参数设置。单击画布中的【平稳性检验】组件,在工程画布右侧【字段设置】栏中,单击【进行检验的列】项下的图标,选择“total_purchase_amt”字段;在【参数设置】栏中,选择【检验类型】为“平稳性检验”,如图所示。序列检验右键单击【平稳性检验】组件,选择【运行该节点】。运行完成后,右键单击【平稳性检验】组件,选择【查看日志】,如图所示。序列检验为了验证序列中有用的信息是否已被提取完毕,需要对序列进行白噪声检验。如果序列检验为白噪声序列,就说明序列中有用的信息已经被提取完毕了,剩下的全是随机扰动,无法进行预测和使用。对2014年3月1日后申购的资金数据进行白噪声检验,步骤如下。拖曳【系统组件】→【Python算法】→【统计分析】中的【时序检验】组件至工程画布中,并与【差分】组件相连接。重命名组件。右键单击画布中的【时序检验】组件,选择属性构造中重命名组件中的【重命名】并输入“白噪声检验”。序列检验2.白噪声检验字段和参数设置。单击画布中的【白噪声检验】组件,在工程画布右侧【字段设置】栏中,单击【进行检验的列】项下的图标,选择“total_purchase_amt”字段;在【参数设置】栏中,选择【检验类型】为“白噪声检验”,如图所示。序列检验右键单击【白噪声检验】组件,选择【运行该节点】。运行完成后,右键单击【白噪声检验】组件,选择【查看日志】,如图所示。由平稳性检验和白噪声检验的结果可以看出,序列同时通过了平稳性检验和白噪声检验,可用于时间序列模型的构建。序列检验在建立ARIMA模型之前,需要确定模型的阶数,即p、q的值,使最终拟合的模型达到相对最优。目前常用的定阶方式有AIC准则定阶与BIC准则定阶。对通过平稳性检验和白噪声检验的数据建立ARIMA模型,需要先识别模型的阶数。采用BIC准则进行定阶。分析与建模1.模型定阶模型定阶的步骤如下。拖曳【系统组件】→【Python算法】→【时序模型】中的【模型定阶】组件至工程画布中,并与【差分】组件相连接。字段和参数设置。单击画布中的【模型定阶】组件,在工程画布右侧【字段设置】栏中,单击【模型数据列】项下的图标,选择“total_purchase_amt”字段;在【参数设置】栏中,设置【ar阶数】和【ma阶数】均为“3”,如图所示。分析与建模右键单击【模型定阶】组件,选择【运行该节点】。运行完成后,右键单击【模型定阶】组件,选择【查看日志】,如图所示。由模型定阶的代码结果p、q参数确定为1、0,故选用ARIMA(1,1,0)模型。分析与建模对时间序列模型的残差进行检验,步骤如下。拖曳【系统组件】→【Python算法】→【时序模型】中的【模型残差检验】组件至工程画布中,并与【差分】组件相连接。字段和参数设置。单击画布中的【模型残差检验】组件,在工程画布右侧【字段设置】栏中,单击【模型数据列】项下的图标,选择“total_purchase_amt”字段;在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论