版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融科技学第六讲金融大数据与机器学习原理本讲导读大数据概论二一机器学习原理三一、本讲导读金融大数据分析方法四本讲导读明确学习目标01熟悉本讲结构与主要内容02梳理本讲与其他各讲的联系03推荐参考文献0401明确学习目标一、本讲导读可以掌握大数据的特征;了解大数据可视化、大数据分布式并行计算、大数据软件工具;掌握金融大数据的数据获取方式、预处理方法以及关联分析初步知识;掌握机器学习、监督学习、非监督学习的概念及种类,了解强化学习的概念;机器学习的挑战与原则机器学习介绍金融大数据时代一、本讲导读大数据与机器学习原理金融大数据分析方法大数据概论机器学习原理可视化、分布式并行处理和工具软件金融大数据的获取机器学习分类金融大数据的预处理02熟悉本讲结构与主要内容金融大数据的关联分析6大数据特征一、本讲导读本讲需要识记的基本概念大数据大数据技术监督学习非监督学习决策树支撑向量机人工神经网络贝叶斯方法机器学习集成学习流形学习半监督学习聚类降维强化学习04推荐参考文献一、本讲导读段永朝.北大讲义:互联网思想十讲.北京:商务印书馆,2014.任昱衡,李倩星,米晓飞.数据挖掘:你必须知道的32个经典案例.北京:电子工业出版社,2016.周志华.机器学习.北京:清华大学出版社,2016.大数据概论金融迎来大数据时代01大数据特征02可视化、分布式并行处理和工具软件0301金融迎来大数据时代二、大数据概述时代机遇-数据2940亿封邮件/天800万像素摄像头3.6GB/小时飞机引擎传感器20TB/小时,1%燃油效率节省20亿美元银联系统发卡量40亿张,600亿次交易/天微博数十亿访问/天微信300TB数据/天淘宝日交易数据>50TB北京师范大学赵亮版权所有请勿扩散大数据发展的历程11起源于2008年9月的《Nature》刊登的一组专题文章,BigData字面上,巨大的数据?JamesManyika(麦肯锡):大数据是指数据的集合,其大小超出了现有典型数据库获取、存储管理和分析数据的能力。《大数据时代》:大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的定义12研究机构Gartner:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据的定义13海量的大数据多样的洞察力决策力流程优化能力02大数据特征二、大数据概述超大规模数据Volume种类和来源多样化Variety数据增长速度快Velocity数据准确度可靠性Veracity价值密度低Value《中国金融科技创新发展指数报告》对大数据的定义,该定义从知识经济角度进行定义:大数据是数据积累到一定阶段并成为知识经济体系中核心资源过程中的一系列技术层面、资源层面以及思想层面的变革的总称,在技术层面体现为数据存储、分析以及管理的创新和变革。大数据的定义与本质15张宁等,《中国金融科技创新发展指数报告》03大数据概述-可视化、分布式处理与工具二、大数据概述数据生产数据采集/数据初级表示数据探索、质量分析数据预处理/数据表示数据存储(分布式生态系统)数据分析/数据高级表示(分析工具)数据服务数据应用/数据解释/数据表达(数据可视化)数据价值生态闭环03大数据概述-可视化、分布式处理与工具可视化二、大数据概述数据可视化是艺术也是科学高维度数据可视化图数据可视化可视化软件或模块R语言中的可视化工具包很多,例如:强大功能的Gephi,具有不错的可视化效果;可以简单进行预处理数据的Citespace,它本身支持多种数据格式转换,但作图效果一般,可视化效果一般;傻瓜式操作的VOSviewer,作图美观,适合后期的可视化图像生成展示等。Python中的可视化工具包也很多,例如:常用的数据处理模块Pandas,本身就有不错的可视化能力;大名鼎鼎的Matplotlib,许多著名的模块都是使用它进行可视化03大数据概述-可视化、分布式处理与工具分布式处理生态系统二、大数据概述03大数据概述-可视化、分布式处理与工具工具软件——分析软件二、大数据概述传统数据分析工具开源分析工具数据分析云平台人工智能平台专业金融数据分析平台金融大数据分析方法金融大数据的获取01金融大数据的预处理02金融大数据的关联分析0301金融大数据的获取三、金融大数据分析公开数据方式数据接口与数据模块爬虫技术02金融大数据的预处理三、金融大数据分析绝大多数的传统数据预处理方法都可以用于金融大数据的预处理,例如数据统计描述、数据对象关系描述等。但这些传统方法在应用于金融大数据分析时需要考虑其在大规模数据上的效率。02金融大数据的预处理(Preprocessing)三、金融大数据分析数据和特征是上限,算法和训练是逼近这个上限数据清洗(datacleaning)数据集成(dataintegration)数据表示/结构化数据规约特征工程(广义)
数据转换(transform)
变量选择(featureselection)
特征工程
新的模式!机器学习原理机器学习介绍01监督学习02无监督学习03半监督学习04强化学习0501机器学习介绍四、机器学习原理机器学习是仿照人类学习的经验,让机器在数据中获得一定程度的“智能”。这里的数据实际上就是类似于人类学习的“经验”。这样看来,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即学习算法。在获得学习算法后,我们可以把经验数据提供给它,这样机器就可以基于这些数据产生模型,该模型就可以被使用。例如将新的环境或者情况中的数据输入该模型,然后得到一个结果,这个结果可以是判断也可以是预测。01概念对比四、机器学习原理机器学习vs大数据大数据在更多时候是商业概念,是宣传所用,不应成为学术用语大数据有的大,数据量大为复杂算法带来可能,b>N使得部分算法得到重视机器学习vs人工智能人工智能的概念范畴要比机器学习更大,机器学习只是一种实现方式类似的“实践经验”,靠谱的人工智能都有了更落地的名字机器学习vs统计学二者关系相当复杂,这里面又有频率学派、贝叶斯学派的恩怨纠葛机器学习相当多的理论基础、算法基于统计学,但机器学习始终在统计学的绳子上起伏机器学习vs计量经济学从技术而言,计量经济学大部分方法是机器学习中的一小部分从目的上讲,机器学习的终极目标在于模拟数据生成模式,做出预测,实现操作上的“大一统”。计量经济学的目的在于衡量因果、衡量影响,单纯的预测不足以满足。计量应是对理论结果的验证而非DM02以训练目标为分类四、机器学习原理有标签的数据:有监督学习有部分数据带标签:半监督学习无标签的数据:无监督数据理论上无法给出标签&实践上无法给出标签聚类问题;密度估计;异常检测有部分/隐含的标签:强化学习02以输出结果为分类四、机器学习原理输出空间为离散:二分类、多分类输出空间为连续:回归输出结果为结构化:结构学习(文本树)输出结果为输入02以训练过程为分类四、机器学习原理一次性喂所有数据:Batch批处理一个个喂数据:online上面二者的结合:mini-batch让算法自己吃自助:Active
Learning02监督学习四、机器学习原理线性模型决策树与随机森林贝叶斯方法支撑向量机人工神经网络集成学习02监督学习
四、机器学习原理02监督学习四、机器学习原理02监督学习
四、机器学习原理01监督学习四、机器学习原理02监督学习四、机器学习原理03无监督学习四、机器学习原理关联分析聚类方法降维方法异常值检测分割算法去噪算法链接预测生成模型03金融大数据的关联分析三、金融大数据分析所谓关联分析,就是发现大数据背景下对象之间的隐含关系以及相互影响,从而确定是否存在一个或者多个事件的发生引发了另外一个或者多个反应。金融中应用关联分析技术可以预测银行客户需求从而改善自身营销方案:
金融机构通过关联分析来发现一个业务、一次促销、一次活动对所期望提升的业务的影响;银行通过关联分析可以更精准的在自己的ATM机器或者网上银行、手机银行捆绑客户感兴趣的本行产品信息;保险公司可以通过客户的登记地址变化或者车险信息变化发现客户的隐藏需求等。03金融大数据的关联分析三、金融大数据分析数据库D扫描DC1L1L2C2C2扫描DC3L3扫描Dminsup=104半监督学习四、机器学习原理半监督学习针对的训练数据既包括标注数据也包括未标注数据。所谓半监督学习就是让算法不依赖于外部交互、自动利用未标记样本来提升“标注样本”训练的模型效果。05强化学习四、机器学习原理强化学习(reinforcementlearnin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校代课教师合同范本
- 承包教育机构合同范本
- 四年级语文上册卡罗纳教案人教新课标版(2025-2026学年)
- 四年级语文上学期《观潮》教案
- 幼儿园大班《青蛙卖泥塘》教案
- 数学二次根式单元复习浙教版八年级上全国示范课微课金奖教案
- 幼儿园大班体育课《丰收的桔子》教案
- 圆圆的位置关系新人教A版必修教案
- 幼儿园中班社会教案诚实的孩子(2025-2026学年)
- 二年级数学下册有余数除法竖式计算教案(2025-2026学年)
- 2025年及未来5年市场数据中国别墅电梯市场发展前景预测及投资战略咨询报告
- 2025年融资融券业务模拟考试题库及答案
- 初二历史上册期末真题试卷附答案解析
- 湖南省长郡二十校联盟2025-2026学年高三上学期12月考试数学试卷
- 教育培训机构招生方案设计与落地执行
- 小流浪猫知识题库及答案
- 中建商务经理述职报
- 2025年大学《科学社会主义-中国特色社会主义理论体系》考试备考题库及答案解析
- 2025年国家开放大学《刑事诉讼法》期末考试复习题库及答案解析
- Unit 6 Find your way 第1课时 Get ready Start up 课件 2025-2026学年外研版(三起)英语四年级上册
- 2025年人教版三年级上册道德与法治全册知识点(新教材)
评论
0/150
提交评论