版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据在证券行业中的应用兴业证券股份有限公司
邱华勇2015年10月22日DRAGONBOATFESTIVAL邱华勇个人介绍公司职位:兴业证券信息科技部高级经理项目经历:2001-2003核心交易系统资金管理等程序开发2002-2007营业部CRM开发(支持敏捷功能开发)2005-至今数据仓库、大数据平台规划与建设个人微信曾获奖项:行业科技进步奖二等奖(2009)分类项目获行业专业评价(2011)公众号服务内容:专家深度解析金融数据分析动向,实时更新数据指标,专业解答证券投资疑问.为客户提供证券投资的贴身服务.金融大数据分析服务目录认识大数据证券行业大数据应用场景兴业证券大数据实践交流与讨论我认识的大数据数据探索时代已经来临,缘何会有大数据,如何拥抱大数据.数据探索时代今天:数据密集型科学(理论、试验和模拟的统一)过去几十年:计算科学,模拟复杂现象过去几百年:理论科学,牛顿定律,麦克斯维尔方程式之类几千年前:试验科学,描述自然现象.图灵奖得主Jim
Gray在“科学的第四个范型
”,人类步入第四个阶段,数据探索。数据密集型科学--案例生物工程----数字化模拟生物细胞
斯坦福教授及J.Craig
Venter研究所128个节点服务器集群+900份科学论文+1900次科学试验的数据。海洋勘察----数据捕捉海洋活动不少国家发射了海洋监视卫星,用以发现和跟踪海上军用舰船,探测海洋的各种特性。采集数据:海浪高度、方向、海面风向、温度、含盐量等。运动科学----奥运选手借助尖端设备提高成绩案例:使用运动员的睡眠数据来提高竞赛表现。如;发现自行车运动的最强劲表现和深度睡眠的长度有关。人们日常工作、生活中离不开电子设备,且通过电子资料的形式被大量记录PC、智能手机、各类监视摄像头、各类传感器等设备产生大量的图像、视频、音频、地理位置等数据Google公司通过大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据大数据定义7一般意义上,大数据是指所涉及的资料量规模非常巨大,已经无
法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的有用信息,此时这些资料达到大
数据的级别。大数据特征Volume数量数据体量大(据估计2015年全球信息量8万亿GB)对传统数据存储与处理能力提出巨大挑战速度快Variety样性大
多ty
Value价值大数据产生/更新频率高,高度实时Veloci数据形式、类型多(结构化、
半结构、非结构,文本、视频、图像、语音、位置信息……),非关系型数据库等得以快速发
展,日趋成熟。化的处理要求,催生如流式处理、实时计算、内存计算等技术。数据价值密度低,但蕴含总体价值总量大。大数据让海量数据产生价值,让数据成为宝贵的资产。大数据大数据改变思维方式采样的目的在于用最少的数据得到最多的信息,但在样本分析过程中不可避免会有一部分信息
丢失,在可以获得海量数据的情况下,对全体
数据进行挖掘和分析可以获得更多信息。过去,数据获取难,在分析处理数据时倾向于使用抽样数据并通过不断改进方法以提升样本的精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系现在,数据获取容易,数据处理思维方式正逐步向全体性、混沌性以及相关性演变过去
现在只有5%的数据是结构化且能适用于传统数据化的,接受不精确性能使更多的非结构化数据得到利用。建设在相关关系分析法基础上的预测是大数据的核心。抽样数据精确数据因果关系相关关系混杂数据全体数据9金融行业案例美国知名征信所Equifax的大数据盈利之道财务数据涵盖:1)所有美国成年人3)全球5亿消费者2)16个国家公民4)8100万企业家风险管理欺诈检测市场营销······交叉分析索引处理10建模大数据改变数据处理技术由于大数据本身的特性,使用传统的数据分析技术和工具已经无法在合理的时间内实现数据处理和分析,大数据分析通过分布式存储数据库、分布式并行处理技术、流处理技术、大规模的数据分析与可视化平台等全新技术的支持。监控工具Mahout数据挖掘工具MapReduce
分布式计算框架Storm流式处理框架Pig数据流处理语言Hive
sql化的mapreduceNOSQL数据库(HBase或Mongodb等)实时、分布式、高维数据库HDFS分布式文件系统大数据分析的主流整体框架11大数据技术的领域支撑大数据的技术云计算技术分布式数据处理技术,如:Hadoop非结构化数据库,如:NoSQL流数据处理(实时数据处理)复杂事件处理机器学习、统计分析自然语言处理……12技术平台案例分享某农商行采用
Hadoop架构进行大数据平台建设,一起来学习下吧大数据平台系统架构图14集群物理架构ETL和上层应用:(AppNode)>=4个应用节点考虑到集群规划容量在600TB+,
并且未来还会增长,以平均30TB/节点算:(DataNode)>=20个计算节点为了保证集群高可用(HA):(NameNode)
>=2个管理节点15详细实施方案-结构化数据接入关系型结构化数据16针对HDS,ODS,EDW等关系型结构化数据的批量导入和导出支持导入全量/增量数据到HDFS/Hive/Hbase支持导出Hive/HBase的数据到关系型数据库对于实时性要求高的场景,可借助HBase达到实时增量数据同步详细实施方案-结构化数据处理结构化数据SQL勾兑、统计、汇总等为目的的密集计算类型HiveHBaseHDFS主键检索、纬度检索等目的的随机查找类型A:面向汇总统计和勾兑的结构化数据ETL过程进行格式转换、数据标准化、数据清洗选择Parquet/Orcfile等性能表现优异的列式存储针对数据查询的特点,进行数据分区、分桶的优化设置B:面向随机查询的结构化数据ETL过程进行格式转换、数据标准化、数据清洗进行必要的数据关联,如查找字段、属性字段等设计合适的HBaseschema,建立必要的二级索引AB17详细实施方案-非结构化数据接入非结构化数据FlumeKafkaHDFSHBaseHiveFTP、JavaAPI实时日志导入18批量日志或网页导入大数据平台消息队列日志采集对于实时性有要求的场景,通过Flume和Kafka搭建日志采集系统,实时导入日志数据到大数据平台对于非实时性的日志或网页等数据,采取FTP或JavaAPI的形式上传到大数据平台详细实施方案-非结构化数据处理非结构化数据统计、汇总计算为主的密集计算类型HiveElasticSearchHDFS数据搜索、模糊检索为主的搜索类型A:面向统计、汇总的非结构化数据:针对数据格式进行转换,尽可能格式化数据,以便能够关联为Hive表进行数据统计对于不能转化为结构化数据的,应对常用的聚合列数据进行聚簇处理,提高MapReduce性能B:面向搜索、模糊匹配的非结构化数据:针对半结构化的日志数据,应对其进行数据的格式化,使用类似
JSON的格式进行存储整合开源搜索引擎如ElasticSearch,方便后续搭建数据检索服务AB19详细实施方案-数据存储合理的目录结构规划。可按照一定规则构建目录结构,如网站类型、日期、时间等进行分级目录存储可以对小文件进行合并存储,并将索引数据存储于HBase以便查询,或者使用HDFS
Archive方案进行归档存储数据应进行压缩,文本数据的压缩比相对较高HDFSHive尽可能使用Parquet格式进行存储,以便在Hive/Impala/SparkSQL等多种查询引擎下都表现出优异的性能按日期等查询字段进行分区设置,减少查询数据的扫描按常用的聚合字段如ID等进行聚簇和分桶设置,该设置能够使得扫描更加均匀,能够优化Partition
Join,支持抽样查询等HBase开启HBase数据压缩(如LZO压缩算法),能够大量减少HBase的数据占用空间合理的主键设定,避免冗余的主键结构。合理的主键对数据查询速度有着决定性的影响HFile中块大小的设定。根据读请求的类型来区分,如果是顺序读居多,应采用较大的设定。如果是随机读居多,应采用较小的设定详细实施方案-数据工作流Shell脚本Hive
SQLOozie工作流调度成功开始失败主流的大数据平台都会采用Oozie工作流调度引擎,通过Oozie提供的工作流和协调器等功能,实现基于时间驱动和数据驱动的数据作业流程:数据传输作业–主要基于Sqoop,FTP,Java来构建数据传输工作作业数据处理作业–主要基于Hive、Shell、Java、MapReduce、HDFS等来构建数据处理作业数据加载作业–主要创建面向Hive、HBase的数据加载作业数据归档作业–主要基于MapReduce、HDFS
tar等来构建归档作业详细实施方案-数据接口大数据平台各组件自身会提供各类接口,如HDFS的JavaAPI,Hive的JDBC,HBase的Shell和Thrift等。实施阶段我们也会开发更多且更为灵活的接口,以REST为主,部分总结如下:文件管理接口包含文件/目录的创建、删除、移动、复制、权限修改等接口包含文件上传、下载、回收等接口元数据管理接口包含Hive数据库建立、查看、列举表、删除接口包含Hive表的建立、查看、删除、修改、样本数据、导出数据等接口包含HBase表的建立、查看、删除等接口工作流管理接口包含新建、修改、删除工作流等接口包含提交、查看状态、停止、重启工作流任务等接口Hive接口包含Hive提交查询、获取结果、取消查询、解释语句等接口HBase接口提供HBase查询、修改等接口算法名称算法来源Logistic
Regression逻辑回归Spark
MLLIB\MahoutNaive
Bayes贝叶斯Spark
MLLIB\MahoutSVM支持向量机Spark
MLLIB\MahoutHMM时间序列算法MahoutK-Means聚类算法Spark
MLLIB\MahoutLinear
Regression线性回归Spark
MLLIB\MahoutCollaborative
Filtering协同过滤Spark
MLLIB\MahoutGeneralized
Linear
Models广义线性模型Spark
MLLIB\MahoutDecision
Tree决策树(随机森林决策树)Spark
MLLIB\Mahout社团发现算法近邻传播AP自有算法FastUnfold算法自有算法关系发现算子Spark
MLLIB\Mahout轨迹停留点算法自有算法轨迹相似性算法Mahout轨迹匹配算法Mahout聚类算法DBScan自有算法ALS推荐算法支持增量计算Spark
MLLIB\Mahout详细实施方案-数据挖掘算法库大数据平台的数据挖掘算法库提供了大量的数据挖掘算法,不仅包含了SparkMlLib和mahout中的并行数据挖掘算法,还开发了大量基于Spark的并行化算法。允许用户可以直接调用
SparkMllib和mahout库中的并行算法,也可以用算法封装的函数调用平台开发的数据挖掘算法。提供多种模型和算法组件,方便建模。目前平台支持的常用数据挖掘算法如右表所示:详细实施方案-资源管理基于YARN的资源管理ResourceManager中的调度器负责资源的分配。NodeManager则负责资源的供给和隔离。基于YARN的资源隔离内存资源隔离,保证任务的进程树使用的总物理内存或者总虚拟内存量不超过预先设置值。CPU隔离,限制任务使用的总的虚拟CPU个数。详细实施方案-安全控制YARN资源和安全控制节点1节点2…LDAP用户/用户组管理节点nKerberos服务大数据平台应用程序基于YARN实现队列访问控制列表基于YARN实现应用程序访问控制列表基于YARN实现服务访问控制列表基于Kerberos协议实现机器和服务之间的安全认证未通过认证的用户或机器无法访问集群资源基于角色权限模型管理应用程序和非系统的用户在应用逻辑层实现权限管理,如某个hdfs目录,hive表等的访问控制应用剖析-历史数据查询HDFSHiveSpark/Impala实时查询查询格式固定随机查询查询格式灵活批量查询时效性低HBase321①ETL过程,从HDS,ODS等历史业务系统抽取数据,源数据保存至
HDFS和Hive②数据勾兑、清洗过程,基于Hive和MapReduce任务加工和关联生成查询汇总表等③基于业务场景设计HBase的Schema并把Hive表通过bulkload的形式导入HBase供实时查询26应用剖析-日志查询分析其他日志运维日志网银日志日志数据源查询和建模引擎实时日志导入FLUME+KafkaHBase建模平台日志查询分析批量日志导入FTP
、JavaAPIElastiSearch日志搜索模糊匹配日志统计报表系统日志挖掘结果可视化12327①基于日志数据建立分析规则和挖掘模型,同时把结果保存在Base中。②对于日志数据建立MapReduce任务,统计并汇总相关指标,结果保存于Hbase。③对于特定有明细查看需求的日志建立索引,供用户进行关键词搜索和模糊匹配。视频欣赏其他材料\能源行业:IBM大数据助Vestas
将气候转化为资本_
标清.f
l
v目录认识大数据证券行业大数据应用场景兴业证券大数据实践交流与讨论证券行业主要参与方证券市场格局交易所证券/期货公司登记结算公司上市公司监
管
机
构其
他
市
场
服
务
机
构其他发行人个人投资者机构投资者资金存管银行30证券行业大数据应用成功案例32国外应用案例单位产品内容DerwentCapitalMarkets公司社交媒体对冲基金将Twitter作为观察大众情绪的窗口,量化投资者情绪,获得超额收益纳斯达克交易所市场回放服务基于云平台的数据服务,供广大用户回放和分析证券市场活动纽约证券交易所Global
IndexFeed高速实时指数行情,用于指数和ETF产品的估值计算德意志交易集团MNI
Bullets提供分钟级的、全球外汇、固定收益和信贷市场的市场简报,包括交易量、订单量级和市场情况The
StockSonar网站情感分析利用大数据检索、读取和分析来自文章、博客、新闻稿公共信息等广泛的在线资源,为用户提供第三方实时美股文本情感分析服务33国内应用案例单位产品内容光大证券中文云系统以股票论坛、个股新闻、研究报告作为数据源,利用大数据挖掘技术进行证券分析的智能文本分析系统南方基金、新浪财经、深圳证券信息公司南方-新浪大数据100指数在传统指数编制方法中加入大数据因子计算综合得分选取初始样本股S网站市场情绪指数基于每天收集的20多万条实名微博,利用大数据挖掘技术识别和量化文本中的看涨和看跌情绪百度百度股市通基于百度每日实时抓取的数百万新闻资讯和数亿
次的股票、政经相关搜索大数据,通过技术建模、人工智能,帮助用户快速获知全网关注的投资热点应用案例南方-新浪大数据系列指数基于大数编制的指据与互联网挖掘技术数个股热度得分个股新闻得分个股微博得分市盈率净资产收益率收入同比增长率利润同比增长率股票换手率波动率价格变化率34应用案例光大证券“中文云”系统以证券分析为目的的智能文本分析系统文本挖掘Lucene检索框架个股新闻股票论坛研究报告35交易所应用场景交易所证券交易所市场运行的“主引擎”,汇聚市场信息完整高效的数据交换体系证券交易所大数据信息产品交易数据交易所关联数据外部数据市场情绪分析市场数据分析新闻资讯产品大数据云服务平台宏观信息汇聚互联网文本分析类产品37交易所应用场景(例)信息化产品研发利用交易所特有高频数据,开发专有信息产品结合交易所自有数据以及第三方数据,建立统一信息收集、整理和发布渠道交易数据持仓数据自有资讯统计指标类产品实时市场情绪实时买卖方力量对比投资者收益分布第三方资讯商数据大数据分析国家机构发布数据新闻资讯类产品机器可读新闻市场行情38交易所应用场景满足市场对信息产品的需求利用大数据技术研发信息产品满足市场需求激发大数据信息产品需求投资分析39风险管理自动化交易事件交易宏观产业、公司信息、市场分析、情感倾向证券公司应用场景证券公司大数据积累了海量数据宝藏,更多种类数据急剧增长,数据价值尚待挖掘已有数据41快速增长的数据场景一:了解客户,认识客户了解客户,认识客户(KYC)应用于客户全生命周期管理:客户潜在价值挖掘适当性管理客户全景图精准营销关键时刻服务(
MOT
)……42场景一:了解客户,认识客户(二)场景一:了解客户,认识客户(KYC)潜在客户挖掘
客户潜在价值挖掘通过大量的行为数据分析
进一步了解客户的潜在需求通过满足客户的潜在需求
提升客户的价值量43场景一:了解客户,认识客户(三)产品偏好时机偏好盈利能力风险偏好客户分类场景一:了解客户,认识客户(KYC)客户适当性管理主观数据客观数据资产规模操作风格分析逻辑更明确分析依据更客观分析维度更多元分析方法更先进分析过程更动态访谈测评问卷44场景一:了解客户,认识客户(四)场景一:了解客户,认识客户(KYC)精准营销45场景二:证券市场量化研究场景二:证券市场量化研究量化投资决策(市场预测)投资服务(关键时刻服务)投资者情绪指数宏观数据行业数据公司数据市场行情研究报告策略数据自媒体数据网络社区工具/算法优化投资组合应用投资时机海量数据挖掘复杂事件处理投资策略模型46数据源场景三:全面风险管理体系场景三:全面风险管理体系47场景四:信息安全管理场景四:信息安全管理48目录认识大数据证券行业大数据应用场景兴业证券大数据实践交流与讨论50数据系统应用发展历程2013年-至今,大数据技术研究、POC测试、生产应用2011年-至今,基于大数据分析和复杂事件处理的金融信息服务平台20010年-2013年,金融量化研究及知识管理平台,科技奖三等奖2009年-2011年,适当性管理中的客户分类方法创新,通过行业专业评价2009年12月,“客户综合分析系统”荣获行业科技奖”二等奖2009年6月,二期成果通过由福建省信息产业厅组织的科技成果鉴定;2009年1月开始,客户精准营销活动、流失挽留、稽核审计等应用;2008年02月-2008年12月,携手吉贝克进行数据仓库二期工程建设,上线应用;2002年4月-2008年,推广应用效果显著;福建省科技厅成果鉴定(02-08);2000年11月-2001年7月,Sybase公司合作一期工程建设数据仓库一期工程;大数据平台规划行业、股票等金融量化指标库和策略库,通过互联网媒渠道为客户提供服务。阶段一2015-2016年:在POC测试基础上构建满足海量客户级访问的大数据平台;加强校企合作,在金融大数据投资分析服务方面取2017年-2018年:大数据基础平台扩容;继续完善市场、行业、股票等金融量化指标库得初步进展;初步建立市场、
和策略库,达到能够实现流量变现及收费的服务质量标准。阶段二2019年-2020年:根据市场环境变化及运营需要,持续进行大数据采集及模型开发;加强用户分析,协助营销部门及时调整产品推荐策略,加快大数据价值变现速度。阶段三建设目标:建立基于分布式计算、支持海量用户访问的大数据处理平台。通过互联网舆情数据采集与建模分析,为公司及客户提供有价值的服务内容。实现用户分析及精准营销。基于大数据分析和复杂事件处理的金融信息服务平台第1
章一、项目概况大数据技术等支持服务创新,能够更好的实现“以客户为中心”的服务模式运用新技术创新金融信息服务,是催生金融新业态、新服务的重要手段数据是企业核心资产,数据洞察力成为金融企业核心竞争力金融信息服务数据洞察创新服务创新技术53一、项目概况金融信息服务平台54信息发布时间不确定、渠道多样化、数量巨大传统工作模式效率低下人工筛选难以获取有价值的信息传统服务缺乏关联性分析个性化信息服务的需要机构舆情监测的需要一、项目概况大数据技术复杂事件处理技术实现多源异构金融数据的获取、清洗、分析及应用55搭建实时复杂事件引擎构建个性化服务模型一、项目概况56二、关键技术多源异构金融数据的获取与清洗多通道主动采集网页统一抽取数据标准化多源异构金融数据可定制采集增量式采集无缝扩展57浅层语义统一抽取多记录网页抽取长文本网页抽取XML统一表示定义规范与语义二、关键技术多源异构金融数据的分析与应用金融数据提升数据价值58网络观点分析金融领域特征异构图网络金融应用用户观点用户行为二、关键技术基于复杂事件处理技术,构建实时个性化推荐引擎复杂事件处理技术实时流数据分析个性化服务实时流事件关联59多输入多输出二、关键技术基于SOA理念,构建金融信息服务发布平台客户应用员工操作PC终端投顾平台移动终端中台网上商城机构CRM研究平台秉承SOA理念与公司规划,通过企业服务总线与公司各信息系统整合在一起经营管理平台60三、项目特色金融信息服务金融文本量化准确全网采集,数据全面实时处理,缩短响应周期差异化服务新模式,提升服务预测分析模型,提升数据价值利用开源技术,项目自主可控61四、应用情况服务内容证券投资者证券从业者证券公司基础资讯个性化资讯关注股通用量化资讯行为提示资讯推荐持仓股行情预警62四、应用情况_举例应用一:投资服务63四、应用情况_举例应用二:资讯服务64四、应用情况_举例应用三:互联网信息服务65金融量化研究及知识管理平台第2
章行业研究服务的发展行业背景基本面研究着眼于政策,经营状况判断未来业绩服务对象为机构投资者股评:技术面分析为主无差别资讯服务通道服务综合研究的特点方向:不再局限于上市公司,更着眼于宏观、行业、理财产品、投资策略、风险分析、全球市场等金融行业各个领域。方法:由原来研究员经验判断为主发展到定性与定量相结合,逻辑与数据相结合。成果:面向机构客户、私人客户、产业投资者等对象,实现为证券行业各条业务线提供全方位专业研究支持。营销服务财富管理67项目目标如何实现海量数据的统一管理?如何解决研究员和投资顾问不同的资讯需求?如何使研究方法得以沉淀、继承和延续?如何把研究成果转化为专业服务?面临的问题项目的目标68资讯终端网站数据数据支持全文检索模型管理研究方法管理研究成果管理资讯产品管理数据源策略交易投顾工作平台网上交易终端手机终端网上商城研究管理呼叫中心投资管理兴业证券解决方案企业级金融数据中心第三方数据…量化研究知识管理集证券量化研究和知识管理于一体的专业研究服务支撑平台其他系统数据及应用支撑清洗校验分类69基于大数据应用的全文检索引擎,通过智能分词技术实现搜搜索的精准,高效、灵活。结合金融行业特点,由专业人员收集、整理的金融词库,使应用更贴近金融行业各类业务。语义分析技术及专业金融词库的应用建设了企业级研究知识积累体系,实现研究过程管理以及研究方法沉淀。解决了研究员流动对研究实力及研究服务延续性带来的影响。将各类研究模型、金融数据、研究底稿进行统一管理,实现研究报告贯穿。对研究方法和研究模型的统一知识管理
集成了各类采集解析工具,实现各功能模块的松耦合;同时应用在线电子表格工具优化采集过程。整合各类金融数据源数据解析技术,实现各类数据源、采集任务的集成。采集技术优化整合将各类结构化和非结构化数据进行了梳理、整合、分类形成面向证券业务应用的数据库,并以此提供数据支撑服务。基于SOA架构,数据中心向各类应用系统提供大量的、以业务应用为单元的数据服务。面向业务的金融数据支撑服务把研究成果及时有效地推向客户服务业务线,以此解决行业普遍存在的研究与客户服务协作不畅的问题。基于公司统一的企业服务总线,任何应用系统都可以方便高效地订阅各类金融资讯服务。企业级专业服务协作架构项目创新点70关键技术4712351关键技术多数据源自动解析及验证技术金融行业垂直语义分析技术海量数据处理技术统一的模型管理技术非结构化数据自动抽取技术IT系统金融量化研究及知识管理平台专业研究各业务线证券研究人员机构服务客户服务个人理财机构客户私人客户研究服务研究报告投资组合证券产品研究热点分析
股票池投资策略行业分析经营分析委托课题资讯产品咨询服务理财规划投资建议全流程信息化支撑:丰富的功能应用及过程管理整体业务架构数据及量化工具知识管理72工具ESB客户经理投资顾问运维分析产品经理合规风控专员分析师系统管理员市场营销专员应用系统研究分析支持统一搜索知识库金融数据中心数集成数据采集管理数据源系统架构73整合目前分散的不同数据源建设具有兴业证券特色的金融数据中心发布标准的数据服务接口为不同业务提供数据支持第三方数据终端第三方数据库行业网站公告网站各类媒体券商研究员整理基础数据库Internet终端Email自定义数据源结构化数据整合非结构化数据缓冲非结构化数据抽取及校验上市公司资讯行情数据行业数据宏观数据策略数据中观数据研究报告金融数据中心数据模型研究报告股票池投资组合资讯产品数据模型投资建议理财建议各类产品数据采集模块74金融数据中心模块行业特色的海量数据管理采集并整合各类数据源,形成经分类规整的金融数据中心。历史数据起于A股发行日,总数据量达10TB。75据应用的探索,本系统采用了智能分词算法进行全文检索近四万条专业金融词汇所构建的专业金融词库文档分类算法为资讯报告分类提供了新的方向。证券行业内首次应用,并取得显著的效果统一搜索模块检索应用信息控制资源整合统一检索知识门户与关联系统进行整合不同资源的权限控制新闻资讯研究报告内部文档市场公告公司知识库金融数据76研究方法管理研究过程管理研究模型管理研究成果管理研究成果管理研究模型管理研究过程管理研究流程系统化研究步骤标准化考核结果数量化估值模型计算基金评价模型计算研究数据管理研究报告管理研究底稿管理委托课题管理研究分析支持模块77传统的数据交换架构面向业务应用的数据支撑架构应用系统A应用系统B应用系统D应用系统CESB金融数据中心数据采集模块面向业务的数据服务企业服务总线数据支撑服务架构78关键技术总结海量数据处理技术多数据源自动解析及验证技术非结构化数据自动抽取技术统一的模型管理技术金融行业垂直语义分析技术关键技术79多数据源智能解析网站多格式的自动识别数百个网站采集的支持非结构化数据采集Html各类网站第三方金融终端EmailFTP自定义数据ExcelWordPdfTxt多数据源支持多种类格式解析多数据源自动解析及验证技术80该技术荣获上海市科学技术委员会
2008年技术创新基金项目,项目编号0801H132900,国家科技部2009年首批技术创新基金支持项目,项目代码:09C26213100826:中科院专家评价:该技术国内独创,国际先进非结构化数据自动抽取技术81采用独创的SGRID作为清洗/校验的载体多种填充方式的支持,适应不同的数据采集内容简单易配置的数据更新规则内置多种清洗/校验机制;公式引用/if/Vlookup函数/填充函数/条件格式ETL调度分布式运算框数据分析&挖掘数据应用关系型+非关系型数据库协同内存数据库技术分布式运算框架海量数据处理技术82研究方法及过程统一管理在线、离线多格式兼容统一的模型管理技术83统一搜索平台内容源管理文档输入索引管理分词管理专业词库通用词库同义词管理搜索结果展现索引合并技术文档打分测试案例金融行业垂直语义分析技术84估值模型量化研究全文检索核心算法及模型核心算法及模型85一、收入和成本及预测营业收入(百万元)20122013E2014E2015E2016E光学膜片607.50716.85824.38989.251,187.10同比增长率35.00%18.00%15.00%20.00%20.00%毛利率18.00%18.00%18.00%18.00%19.00%胶粘类制品580.00719.20863.04992.501,141.37同比增长率45.00%24.00%20.00%15.00%15.00%毛利率27.00%26.00%26.00%25.00%25.00%绝缘类制品188.50233.74280.49322.57370.96同比增长率45.00%24.00%20.00%15.00%15.00%毛利率22.00%21.00%20.00%20.00%20.00%主营业务其他产品(设备、泡棉等70.5088.13105.75111.04116.59同比增长率50.00%25.00%20.00%5.00%5.00%毛利率36.00%35.00%35.00%20.00%20.00%I﹑利润表假设营业收入营业成本营业税金及附加营业费用管理费用资产减值损失公允价值变动净收益投资净收益营业外收入营业外支出20072008管理费用的销售百分比(%)0.000.000.000.000.000.000.000.000.000.00户用算法营业收入增长率(%)营业成本的销售百分比(%)缺省取值用户自定义用户自定义营业税金及附加/营业收入(%)自定义营业费用/营业收入(%)用户自定义管理费用/营业收入(%)用户自定义用户自定义用户自定义用户自定义用户自定义用户自定义主要财务指标会计年度20112012E2013E2014E营业收入(百万元)347374481610同比增长(%)20.6%7.9%28.5%26.9%净利润(百万元)80354654同比增长(%)23.1%-55.9%28.8%18.5%毛利率(%)36.2%25.6%24.8%23.3%净利润率(%)23.1%9.4%9.5%8.8%每股收益(元)1.000.440.570.67每股经营现金流(元0.650.390.260.18市盈率26594639市净率7.992.682.532.38使用VSTO(
VisualStudio
Tools
forOffice)技术,实现以插件形式的估值模型管理工具估值模型管理86基金评价研究多因子量化选股模型实现因子表现的动态监控和多因子模型的数据及模型支持事件驱动策略分析研究为基金评价以及基金组合分析研究提供数据及模型支撑实现分析事件冲击研究及模拟投资模型金融工程量化研究87训练集向量测试文档向量分类器分类结果测试结果相似度计算相似度值列表与超过阀值的文档集合训练集测试文档VSM相似度计算文本文档VSMN维向量搜索结果主流搜索引擎检索本系统的全文检索关键字模糊搜索包含该关键字的文字传统的内容搜索结构化数据无序、低效、精度低金融专业用词搜索精度低基于文本分类算法相似度计算模型为证券金融行业量身定制88核心算法分类器新增样本训练效率准确度KNN0.07s83.8%SVM(支
持向量机)69s85.9%BN贝叶斯1.3s71%89研究支撑服务支持知识管理:解决了业内普遍的证券研究及客户服务间的信息障碍,实现研究知识成果的沉淀和共享,提升了专业服务能力量化研究:通过固化研究流程以及量化支持工具,实现了研究模型与研究数据的统一管理,提高了
整体研究效率和质量数据服务:为公司各部门提供统一、完整的金融数据支持,降低第三方数据采购成本的同时,提高数据服务的质量和效率金融量化研究及知识管理平台应用效果数据沉淀2013年新财富机构服务第二名2013年新财富研究实力第七名2012年资管产品收益排名第一应用效果90精细化营销案例--卓越二号第3
章系统简介结合三者优势IT系统以商业智能为核心的IT系统商业智能是数据仓库之上的查询、报表和多维数据分析的技术和应用,它是以业务应用为导向、以应用绩效为衡量标准的。——Gartner
2007年峰会分析报告给你后见之明(Hindsight);统计分析给你先机(Foresight);数据挖掘给你洞察力(Insight)。兴业证券客户综合分析系统推进投资者适当性管理推进投资者适当性管理向适当的客户推荐适当的产品超越销售目标超额完成销售任务30%提升客户识别有效性4%的客户产品认购率67%兴业卓越2号集合资产管理计划投资者适当性管理实例数据仓库+数据挖掘目标客户产品销售售后分析持续跟踪服务销售跟踪数据分析与挖掘在卓越2号销售过程中的应用客户生命周期客户衰退客户提升客户成熟客户流失7
流失赢回销户1年后、休眠客户激活等回流程客户获取客户开发12客户服务客户营销3优理宝积分计划45
流失预警挽留针对销户用户的流程销户挽留6主动关怀(全程)呼叫中心服务、金牛资讯服务、财富平台服务、人文关怀、VIP客户经理服务等8卓越2号销售过程数据挖掘技术支持客户细分实现企业和客户双赢的目标数据分析与挖掘在卓越2号销售过程中的应用卓越2号销售过程核心客户2万非核心客户15万1万数据分析应用点产品销售过程典型客户群寻找最适当的客户群特征周转率低盈利能力差……应用结果示例销售结果分析提供已认购客户相关指标目标客户产品销售售后分析持续跟踪服务销售跟踪提供
客户群信息定位客户服务范围销售目标产品定位适当性管理中的客户分类方法创新第4
章97该项目对投资者适当性管理工作中的客户分类方法进行研究,形成了将客户风险承受能力的问卷测试结果与风险偏好的行为分析结果进行比对,从而确定其综合风险特征的客户分类方法。(以下称为“综合风险特征分类方法”)项目启动初次申报 优化完善2008年起,启动客户风险偏好数据建模,同期在网站开展客户风险测试工作投入应用2009年项目投入应用,面向部分客户试运行。期间在应用中继续探索和优化2009年尝试在专业销售中进行应用。年底参加协会专业评价项目申报。2010年根据初次参评专业评价的反馈意见进行优化完善,狠抓落实与推广本项目2010年初次参加协会专业评价项目申报即获专家肯定和鼓励,并对方法的推广提出了进一步的期望。我司根据专家反馈意见,一年来做了大量优化完善工作,并在项目推广方面取得了一定成效.实践一:适当性管理中的客户分类方法创新-是证券市场良性健康发展的重要基础;是构建多层次市场体系建设的重要基
础-在投资者教育、投资咨询服务、投资管理服务等方面有积极的现实作用客户分类98是落实《关于加强证券经纪业务管理的规定》、《证券投资顾问业务暂行规定》等重要规章制度的核心内容-是创业板、融资融券、股指期货、国际板等创新业务的重要基础证监会及自律机构领导曾在不同场合提起,落实了解客户、向客户提供适当产品和服务的要求,建立完善客户分类和金融产品风险评估制度,是当前和今后一个时期,证券公司要着力抓好的工作重点。项目的重要性科学的客户分类方法是开展投资者适当性管理的基础以客户风险特征识别作为客户分类工作的切入点客户分类具有多个角度风险特征分类服务分级
客户价值挖掘适当性管理成本贡献率分类客户忠诚度分类生命周期分类…与投资者适当性管理关系最为紧密的是客户的风险特征,因此我们将客户的风险特征作为进行客户分类的切入点99以客户为中心以业务为中心综合风险特征分类方法定义本项目采用的客户分类方法定义–
综合风险特征分类方法是指将客户风险承受能力的问卷测试结果与风险偏好的行为分析结果进行比对,从而确定其综合风险特征的方法该方法是一种过程化分类方法问卷测试交易数据分析综合风险特征认定100项目创新点方法创新基于客户风险偏好和风险承受能力,创新性的提出“综合风险特征”概念业务流程创新多方法、多角度评估客户风险特征,建立“综合风险特征认定”的标准化流程技术应用创新2008年即将数据挖掘技术应用于客户分类工作,在业内领先(注:传统统计分析方法多数以假设检验的方法来验证已知的规律,而数据挖掘方法则通过模型自主学习来发现未知的规律)准确的进行客户风险特征识别是一项艰难的工作101关键业务流程102从客观数据中获取客户风险偏好商业目标定义原数据分析算法选择训练与检验结果分析反复试算生成聚类模型模型部署交易数据根据模型测算风险偏好分类更新最高风险偏好较高风险偏好中等风险偏好较低风险偏好最低风险偏好103多点触发综合风险特征的持续认定综合风险特征认定是一个动态过程,多种因素的变化都可能导致客户综合风险的重新认定,如:客户交易行为变化客户重新进行问卷测试客户经理日常服务风险偏好调整(每季度更新)客户财务状况变化(及时跟踪)风险承受能力调整(实时更新)系统比对与提醒再次沟通认定识别、认定、再识别、再认定…1041、利用数据仓库技术建立基础指标体系建立了包括资产、资金、市值、交易量、佣金、
客户自然属性、客户交
易频率、总资产分段指
标、资产周转率、客户
资产贡献及佣金费率、
客户群市场份额、客户
潜力指标、客户盈利能
力、资金资产流向等多
项指标在内的基础指标
体系。2、引入国际领先的商业智能技术,建立客户偏好细分模型在海量客户实际交易行
为数据基础上,引入国
际领先的商业智能技术,采用主成分分析方法处理变量及K-means聚类算法建立了客户产品、交易时机、操作风格及盈利能力等多角度的偏好细分模型。3、建立客户风险偏好识别模型在客户偏好细分模型基础上,着重从客户的风险偏好特征角度进行二次划分,建立了客户风险偏好识别模型,包含以下五种类型
“最高风险偏好”
“较高风险偏好”
“中等风险偏好”
“较低风险偏好”
“最低风险偏好”将上述真实客观的客户分类数据导入营业部客户经理日常使用的工作平台——客户经理工作平台总体思路105荣获“2009年度证券期货业科学技术奖励”二等奖风险偏好分析的技术应用创新106模型指标选取产品偏好分析输入原始变量有23个,如表所示,经过主成分分析方法进行处理后,可以用10个综合性指标涵盖了原有信息的95%,起到了很好的降维作用。107产品分群—产品偏好细分模型群体群名产品配置特征Class-1偏好新股申购客户平均约70%以上资产用于新股申购运作Class-2偏好A股+B股混合客户平均约41%的A股,30%的B股Class-3A股+ST股票投资客户平均约53%A股及28%ST股票Class-4B股客户平均约87%的B股持仓比Class-5场内基金投资客户平均约50%场内基金投资Class-6偏好ST股票投资客户平均约78%的ST股票占比Class-7配置型客户平均约30%A股,31%场内基金,15股票型开放基金Class-8偏好创业板客户平均约67%的创业板占比,19%的A股占比Class-9股票型基金客户平均约90%投资股票型基金Class-10A股+权证客户平均约67%的A股市值占比,47%的权证交易量,19%的权证市值占比Class-11混合型客户平均约A股占比25%,开放式基金14%,新股申购8%,货币2%Class-12A股客户平均约82%的A股市值占比Class-13权证客户+A股票投资权证平均市值占比为34%,权证交易量占比61%,A股票平均持仓度35%Class-14权证客户平均市值占比为71%,交易量占比83%Class-15场内基金投资客户平均约90%场内基金投资Class-16偏A股客户平均约53的A股配比,24的创业板股票投资,3%新股申购Class-17A股客户平均约60%投资A股,15%的场内基金配比,3%股票型开放式基金Class-18债券投资为主平均债券型基金80%,股票型基金8%注意:以上产品配置特征以样本统计,仅供群体命名参考,不作为判断分群的具体依据。108交易时机偏好细分模型群群体平均特征数目相对风险偏好Class_3平均买入价格高于昨日收盘7%高于5日线8.3%高于10日线13.6%高于20日线18.5%8012最高Class_4平均买入价格高于昨日收盘2.9%高于5日线3.9%高于10日线6.3%高于20日线8.9%51899较高Class_2平均买入价格高于昨日收盘1.4%高于5日线1.9%高于10日线3.1%高于20日线4.5%112599中等Class_1平均买入价格高于昨日收盘0.3%高于5日线0.28%高于10日线0.42%高于20日线0.696%126618较低注意:以上特征以样本统计,仅供群体命名参考,不作为判断分群的具体依据。109操作风格及赢利能力分析模型群群体平均特征数目相对风险偏好Class_1波动高,换手率稍高,仓位中等152高Class_2波动稍高,换手率稍高,仓位稍高4199高Class_3波动中等,换手率高,仓位高21206较高Class_4波动中等,换手率中等,仓位高252746中等Class_5波动低,换手率低,仓位低116164低注意:以上特征以样本统计,仅供群体命名参考,不作为判断分群的具体依据。本项目的应用成为客户经理的重要工作内容培养了客户经理以客户为中心,主动了解客户、关注客户的意识,促进了客户经理良好工作习惯的养成。自觉应用客户分类方法创新的成果,将其作为适当性管理的起点和重要环节。1105.5.2客户服务环节客户经理在其工作平台上进行
持续的日常资讯跟踪服务。其中风险变动跟踪和动态的综合风险特征认定在日常服务中的重要性日益提升。截至日期111营业部员工总数2010.12.3119638894724532011.01.3119889574454822011.02.28200010135045072011.03.31202311010775442011.04.3020341174476577平台累计登录次数人均登录次数1综合风险特征的持续认定首页相关服务提醒↑客户综合风险特征认定理由→客户风险承受能力后续评估↓风12风险偏好
险承受能力注重风险提示服务2010/10/3154722010/11/30116422010/12/3116509风险提示服务
2011/1/31186512011/2/28236812011/3/3125690113记录数量
2011/4/30
27285日常咨询服务中的应用1145.5.3产品营销服务产品营销案例:
1、金麒麟2号(原卓越2号)销售:模型提升率达276%2、兴业合润分级基金:模型提升率达220%115产品销售服务案例客户经理在产品销售中将客户综合风险特征作为重要参考因素,据此开展适当性服务。1165.6
在融资融券业务中的应用1175.7为开展证券投资顾问业务奠定坚实的基础1185.7.1客户分类在投资顾问业务中的应用结果市场收益预期客户识别结果综合风险特征持续的充分沟通兴业证券资产配置模型1196
项目未来展望120证券公司非现场稽核分析系统第5
章外部环境审计署要求加强审计信息化建设。证券业创新发展趋势要求券商风险管理能力与创新能力并重。面对众多的信息系统和海量的数据,如何分析查找有效的审计线索?业务规模越来越大,品种、网点越来越多,有限的审计资源如何保证覆盖面?项目背景内部需求项目目标兴业证券审计需求数据仓库技术实现海量异构数据集成深入研究稽核数据分析方法构建稽核分析模型设计灵活的展现框架支持配置扩展稽核分析系统非现场审计业务架构证券公司审计常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南活动策划方案公司(3篇)
- 班级服务与安全管理制度(3篇)
- 病理科试剂管理制度(3篇)
- 美国非税收入管理制度(3篇)
- 设备创新工作管理制度(3篇)
- 《GA 814-2009警用约束带》专题研究报告:技术创新、应用深化与未来展望
- 纳税评估培训
- 中学学生社团活动风险管理制度
- 养老院消防通道及疏散预案制度
- 2026河北省定向长安大学选调生招录考试备考题库附答案
- 2026年年长租公寓市场分析
- 生态环境监测数据分析报告
- 金融机构衍生品交易操作规范
- 医院检查、检验结果互认制度
- 学堂在线 雨课堂 学堂云 实绳结技术 章节测试答案
- 110kV线路运维方案
- 智能化弱电工程常见质量通病的避免方法
- 《中国古代文学通识读本》pdf
- 罐区加温操作规程
- 昆明医科大学第二附属医院进修医师申请表
- 国有企业干部选拔任用工作系列表格优质资料
评论
0/150
提交评论