




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
海量非结构化数据处理技术在运营管理中的运用,大数据很有价值,但数据获取很关键,目录,2,银行数据全生命周期管理探讨,1,海量非结构化数据特点及使用,2,规划、设计、线上、近线、离线、下线、调阅、销毁?结构化数据是哪些,非结构化数据是哪些,如何获取?,海量非结构化数据技术要点与实现,3,3,银行数据全生命周期管理-系统数据、业务数据,设计阶段落实数据管理:,投产前明确数据管控手段:,生产数据管理备份与归档:,历史数据调用分析使用:,提出应用系统数据管理规范定义应用系统数据管理协议明确不同类型数据的管控手段,定义,控制,维护,使用,明确各类数据的特性确定各类数据的存在环境系统及业务数据的采集方式设计各类数据的备份与恢复,生产数据性能及容量管理生产数据的备份与归档数据在线、近线、下线管理备份数据有效性验证与管理,系统数据监控与分析业务数据的调用与登记业务数据的翻新与备份,4,银行数据全生命周期管理目标,科技服务之一:结构化/非结构化数据的全生命周期管理与使用,数据管理如何实现哪些是结构化数据哪些是非结构化数据,银行各类数据的产生、分布、状态、用途.,基础运行产生技术相关数据,业务执行产生动态与静态数据,信息,操作,安全,账务,银行单笔业务的执行,引起整体架构各层面产生各类关联性数据,接入,网络,服务器,存储,规范,发展,变更管理,虚拟化,安全,应用,分析哪里存在数据、什么形式、特征如何、如何管理、如何使用,7,应用系统数据管理协议、日志输出标准化.,有效运用各类数据的基础是对其进行全程管理与控制,8,业务标识设计:为业务全程分析埋下“线索”、染色,请求:请求发起端,超时、成功率,连接网络转发、动态分配,后端状态,转换快速转接、转换,是否有堵塞,服务业务服务原子交易,速度、可靠,短连接:资源共用、容量大、连接耗时,关注异常波动,长连接:资源专用、效率高,关注超时及挂起状态,系统间会话,业务流程,单系统交易,业务标识:可用于故障定位、容量系数、业务分析.,9,9,银行数据生命周期管理:从源头控制与实施,日志标准化日志分类:应用系统,应将交易流水日志、系统debug日志,系统报错日志日志分级:各类日志应设置级别控制,通过动态开关,控制日志写出的粒度日志格式:各类应用日志,尤其是系统报错日志,应遵守统一的格式要求日志传输:日志写出并传输的方式,应采用全行统一的传输方式交易报文标准化统一交易标识:全行统一的交易标识,在多系统中传输,便于监控和故障诊断报文加密策略:对中间件、应用服务器的报文加密进行统一规定,数据管理基础:结构化/非结构化数据可采集、可加工、可分析利用,数据管理如何实现哪些是结构化数据哪些是非结构化数据,ACompositeWebApplication,InvolvingJ2EE,IntegrationMiddlewareandLegacySystems,结构化数据及其采集使用:交易流水.,数据管理如何实现哪些是结构化数据哪些是非结构化数据,13,非结构化数据:运行产生的各类日志【静态】,运行过程中产生的各类日志为非结构化特性,数据输入,日志的结构化程度很低日志的字段标示等非标准化跨日志关联性高,但搜索线索难以自动化日志生成的形式多种多样(文件名不定),难以采集、归档、查询非标准日志难以定期清理难以保证日志的完整性难以做上下文关联分析,XX系统应用协议分析:WTC+SOP是基本结构,SOP内还封装其他协议封装XML、封装|分隔的key-valuepair,非结构化数据:运行产生的网络报文【动态】,生产环境中的各类数据的关联性、多样性、复杂性,短会话连接情况(标准输出)网络报文系统日志(SYSLOG),WEB-SERVER日志(文本/XML)用户打开页面详细记录(文本)系统日志(SYSLOG),中间件日志(文本,每台服务器每个服务一个)交易日志(group文件,每台服务器50个)程序报错日志(XML)系统日志(SYSLOG),数据库日志(多个文本)系统日志(SYSLOG)数据库表,系统间会话网络报文、交易报文、文本日志、数据库流水,目录,16,银行数据全生命周期管理探讨,1,海量非结构化数据特点及使用,2,动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析,海量非结构化数据技术要点与实现,3,数据分类及采集日志类采集及使用报文类采集及使用,18,根据不同类型数据的特点,采取不同的技术手段,利用Hadoop、Storm等主流大数据技术,采集归档并分析海量非结构化日志,可完成跨层面跨节点的多维度查询与分析;,网络报文为动态瞬时存在数据,采集、解读、处理难度大,但数据为强客观性,分析与利用价值高;,利用GoldenGate等数据库同步技术采集结构化数据,实现离线状态下实时交易性能分析;,监控预警运营分析业务支持,19,采集方式,适用场景,根据不同类型数据的特点,采取不同的技术手段,数据分类及采集日志类采集及使用报文类采集及使用,日志类数据采集:生产日志分析与监控的需求,日志类数据采集:日志关键字分析使用样例,日志类数据采集:非结构数据结构化的使用,数据分类及采集日志类采集及使用报文类采集及使用,25,25,网络交换机,流量交换机,探针,监控服务器,将流量通过网络交换机镜像端口镜像到流量交换机,流量过滤,报文拆分不影响网络运行,将二进制流转换为可读的Pcap包,按照通讯协议和报文格式解包,网络交易报文采集分析实现原理,26,通过网络报文分析、提前预警故障隐患,通过网络报文分析、观察关键业务会话状态,28,业务分析、创新支持,数据归档、查询服务,运行采集、容量管理,估值预警、隐患分析,综合监控、聚焦定位,综合采集使用,日志+报文+数据库,29,运行状态综合展现:观测发现、聚焦定位、诊断分析,服务台视图,告警中心视图,告警大屏视图,交易视图,应用关联性视图,交易详情视图,交易路径视图,资源使用视图,告警热度图,会话性能视图,一线视图,二线视图,通过各种视图有效运用,能够把监控系统采集到的各类数据,展示给不同角色的用户,在日常运维、重保值守,故障影响分析、故障定向定位等方面发挥重要作用。,系统容量数据采集:系统数据、应用数据、交易数据,31,历史数据综合查询:海量归档、转结构化、多维查询,32,业务运行状态分析:业务类型分布、业务类型趋势,用户行为分析:操作行为、过程行为、结果选择,目录,34,银行数据全生命周期管理探讨,1,海量非结构化数据特点及使用,2,采集与传输、归档与处理、查询与统计、分析与展现、集成与运用采集的复杂性、传输的可靠性、处理的高效性、结构化能力.,海量非结构化数据技术要点与实现,3,35,技术要点与实现架构:明确数据对象、设计技术手段,日志类采集技术要点网络报文采集技术要点数据整体管理与展现,采集与传输:采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计性等要求,采集各技术层面、各类生产环境、各中类型的生产日志;传输:能够将采集到的各类日志,按照要求(是否可丢失),安全、稳定、可靠的进行传输,传送到日志采集服务器;归档与查询:归档:将采集到的各类日志,按照系统、模块、节点等架构规则,采集时间、保存周期等周期规则,业务、系统等属性规则,进行多维度归档与备份;查询:按照归档的多维度属性,能够进行跨系统、跨节点、跨文件综合查询;分析与使用:分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发生次数、比例等)使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提供业务运行状态实时数据及分析结果,提供业务运行特征分析结果;,日志类数据采集关键技术要点,38,虚拟设备VS管道程序,开发和移植方面:管道兼容普通LINUX及类UNIX系统,而设备方式除了linux通用外,每一个UNIX都是一套新的设备程序。日志采集能力方面:设备方式可以采集任何写入文件的日志,而管道方式只能采集”a+”(无文件则创建,有文件则追加)文件。日志采集范围方面:设备方式是一个设备可以采集该操作系统上所有应用日志,而管道方式,每多一个日志文件,必须对应多增加一个进程或线程来采集。,在不修改应用系统的情况下,采集各类日志:固定文件名、时间变量文件、名称变量、路径变化、目录下新增日志.,虚拟设备日志采集方式,开始,记录日志,系统VFS,日志文件,设备控制信息,拦截write,日志输出,设置拦截路径,开启/关闭采集,应用,虚拟设备,配置控制程序,拦截,syslog,控制,其他相关设置,管道程序采集日志方式,开始,打开日志文件(管道文件),写入日志(管道文件),建立日志文件(管道文件),读取日志文件(管道文件),日志输出,应用,管道程序,读取管道,syslog,采集系统,Data-IP:日志文件全路径,Ip+地址,Ip+地址,Mapping,Hadoop,块,块,块,块,App标识,块,块,块,块,App标识,块,块,块,块,App标识,HDFS,mr(),NameNode,/,应用1,应用2,应用3,.,日志的归档与索引,42,大数据平台-逻辑架构,Flume:是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。,43,大数据平台-逻辑架构,Kafka是由LinkedIn开发,主要是用来处理LinkedIn的大面积活跃数据流处理(activitystream)1.可持久化消息2目标是高流量处理3消费状态信息并不保存在服务端,而是保存在消费端4支持分布式。,44,大数据平台-逻辑架构,Storm:是一套分布式的、可靠的,可容错的用于处理流式数据的系统。处理工作会被委派给不同的任务处理组件,每个组件负责一项简单的、特定的处理任务。,45,大数据平台-逻辑架构,Hadoop:是一种可靠、高效、可伸缩的数据处理平台。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于普通的服务器,因此它的成本比较低。,日志类采集技术要点网络报文采集技术要点数据整体管理与展现,47,开发解码程序,SOA中广泛使用的协议:XML、SOAP、XML_over_TCP、Java序列化传输(RMI、Socket、EJB、JMS)、JSON、BSON等金融行业常用协议:8583类、IFXforATM/POS、SNA、CICS(http封装)、WAS(soap/jms)、WESB/WMB(soap/jms)、DB2_DRDA、OracleTNS、CUPS、VISA、Mastercard、AE、JCB、三大运营商短信、Flexcube(核心银行)、TATABancs(核心银行)、FiServe(核心银行)、先进数通前置、天源迪科ESB、上交所新一代等,网络报文分析:应用协议及交易,48,应用报文,SOP/XML报文,报文解析过程,读取交易代码、返回码。计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲方竞选发言稿
- 协会发言稿范文
- 合理膳食知识培训
- 蝴蝶儿童舞蹈课件
- 愿望体验动力课件
- 二零二五年度宾馆会议室租赁合同书-商务会议室租赁及多媒体服务合同
- 二零二五版特种光纤光缆采购合同范本
- 二零二五年抵押车借款及车辆检测服务合同样本
- 2025拆除违章建筑与安全风险评估合同
- 二零二五年电商代运营产品上架与销售策略合同
- 2022版数学新课程标准高中数学新课程标准2022
- 浙江省食品快检项目名单(2024年版)、检测信息公布要求、检测室设备设施配置参考清单、结果验证规范、能力评价表、操作指南
- 黄瓜栽培技术及病虫害防治
- GA 2094-2023公安机关警务辅助人员工作证卡套技术规范
- 早餐配送方案
- 教师如何应对学生的行为问题
- ICU常见导管护理课件
- 良性滑膜瘤(腱鞘巨细胞瘤)
- 农用地管理知识讲座
- 宫颈癌的教学查房
- 高考语文考试评价体系的创新与优化
评论
0/150
提交评论