版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、海量非结构化数据处理技术 在运营管理中的运用 目录 2 银行数据全生命周期管理探讨1 海量非结构化数据特点及使用 2 规划、设计、线上、近线、离线、下线、调阅、销毁? 结构化数据是哪些,非结构化数据是哪些,如何获取? 海量非结构化数据技术要点与实现 3 银行数据全生命周期管理-系统数据、业务数据 设计阶段落实数据管理: 投产前明确数据管控手段: 生产数据管理备份与归档: 历史数据调用分析使用: 提出应用系统数据管理规范 定义应用系统数据管理协议 明确不同类型数据的管控手段 定义 控制 维护 使用 明确各类数据的特性 确定各类数据的存在环境 系统及业务数据的采集方式 设计各类数据的备份与恢复 生
2、产数据性能及容量管理 生产数据的备份与归档 数据在线、近线、下线管理 备份数据有效性验证与管理 系统数据监控与分析 业务数据的调用与登记 业务数据的翻新与备份 3 银行数据全生命周期管理目标 数据规划数据生产 数据管理 数据使用 - 数据特性识别 - 使用规划设计 - 备份需求确认 - 使用周期确定 - 技术手段落实 -生产状态监控 -运行趋势分析 -整体容量管理 -历史数据调阅 -运营情况分析 -业务创新支持 数据 管理 - 在线生产数据监控采集 - 近线查询数据归档处理 - 离线归档数据备份分析 - 数据分析结果综合运用 -数据采集管理 -数据加工处理 -备份计划管理 -备份操作执行 -介
3、质归档管理 -备份周期管理 4 数据管理如何实现 哪些是结构化数据 哪些是非结构化数据 银行各类数据的产生、分布、状态、用途. 基础运行产生 技术相关数据 业务执行产生 动态与静态数据 信息 操作 安全 账务 银行单笔业务的执行,引起整体架构各层面产生各类关联性数据 审计 安全事故 故障单 接入 网络 服务器 存储 规范 发展 变更 管理 虚拟化 安全 应用 应用系统数据管理协议、日志输出标准化. 7 业务标识设计:为业务全程分析埋下“线索”、染 色 请求: 请求发起端, 超时、成功 率 连接 网络转发、 动态分配, 后端状态 转换 快速转接、 转换,是否 有堵塞 服务 业务服务原 子交易,速
4、 度、可靠 短连接: 资源共用、容 量大、连接耗 时,关注异常 波动 长连接: 资源专用、效 率高,关注超 时及挂起状态 系统间会话 业务流程 单系统交易 业务标识:可用于故障定位、容量系数、业务分析. 8 9 银行数据生命周期管理:从源头控制与实施 q日志标准化 l日志分类:应用系统,应将交易流水日志、系统debug日志,系统 报错日志 l日志分级:各类日志应设置级别控制,通过动态开关,控制日志写 出的粒度 l日志格式:各类应用日志,尤其是系统报错日志,应遵守统一的格 式要求 l日志传输:日志写出并传输的方式,应采用全行统一的传输方式 q 交易报文标准化 l 统一交易标识:全行统一的交易标识
5、,在多系统中传输,便于监控 和故障诊断 l 报文加密策略:对中间件、应用服务器的报文加密进行统一规定 9 数据管理如何实现 哪些是结构化数据 哪些是非结构化数据 A Composite Web Application, Involving J2EE, Integration Middleware and Legacy Systems 系统名称系统名称 是否含有下列内容是否含有下列内容 交易流水表交易流水表交易代码交易代码交易日期交易日期交易时间交易时间交易状态交易状态分类统计分类统计 图形化前端管理系统图形化前端管理系统(GTS)(GTS)有有有有有有有有有有分行号分行号 理财产品销售系统(理
6、财产品销售系统(FUNDFUND)有有有有有有有有有有有有 电子支付平台(电子支付平台(EPAYEPAY)有有有有有有有有有有无无 外汇买卖系统(外汇买卖系统(EXCHEXCH)有有有有有有有有有有无无 动态口令集中认证管理平台动态口令集中认证管理平台(OPT)(OPT)有有有有有有有有有有渠道渠道 现金管理系统(现金管理系统(CaMSCaMS)有有有有有有有有有有有有 手机银行(手机银行(CEMBCEMB)有有有有有有有有有有登录方式登录方式 短信平台系统短信平台系统(MSG)(MSG)有有有有在同一字段内在同一字段内有有运营商运营商 贵金属交易系统贵金属交易系统(GOLD)(GOLD)有有
7、有有有有有有有有无无 核心业务系统(核心业务系统(ECASECAS)有有有有有有有有有有业务种类业务种类 Call-CenterCall-Center系统系统(CCS)(CCS)有有有有有有有有有有交易种类交易种类 总行大前置系统(总行大前置系统(EBIPEBIP)前置二期监控实施中前置二期监控实施中 总行中间业务平台(总行中间业务平台(EBMPEBMP)有有有有有有有有有有无无 新网络银行系统(新网络银行系统(NBANKNBANK)有有有有有有有有有有交易渠道交易渠道 基金托管系统基金托管系统(FTS)(FTS)有有有有有有有有有有有有 第三方存管系统第三方存管系统(IFTS)(IFTS)有
8、有有有有有有有有有交易渠道交易渠道 企业年金系统(企业年金系统(EPAMSEPAMS)有有有有有有有有改造后有改造后有交易渠道交易渠道 客户信息统一管理系统客户信息统一管理系统(ECIF)(ECIF)有有有有有有有有有有无无 信贷风险流程管理系统(信贷风险流程管理系统(CECMCECM)有有有有有有无无有有无无 市场风险管理系统市场风险管理系统(SUMMIT)(SUMMIT)有有有有有有有有有有无无 结构化数据及其采集使用:交易流水. 数据管理如何实现 哪些是结构化数据 哪些是非结构化数据 非结构化数据:运行产生的各类日志【静态】 运行过程中产生的各类日志为非结构化特性 数据输入 日志的结构化
9、程度很低 日志的字段标示等非标准化 跨日志关联性高,但搜索线索难以自动化 日志生成的形式多种多样(文件名不定) 难以采集、归档、查询 非标准日志难以定期清理 难以保证日志的完整性 难以做上下文关联分析 网络端口 监听所有端口 TCP/UDP syslog, SNMP, IMAP, POP3, JMS 计算机文件 监测运行的文件 批量上传文件 网络,应用,服 务器和设备日志 自定义脚本与APIs 可设定测试 WMI, perfmon, AD, LDAP, SQL/DBI, OPSEC, LEA, JMX, VMware, Powershell 文件系统 监测系统的变化 配置 密码文件 关键性脚本
10、与代 码 13 q XX系统应用协议分析: WTC+SOP是基本结构,SOP内还封装其他协议 封装XML、封装|分隔的key-value pair 非结构化数据:运行产生的网络报文【动态】 生产环境中的各类数据的关联性、多样性、复杂性 目录 16 银行数据全生命周期管理探讨1 海量非结构化数据特点及使用 2 动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关 运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析 海量非结构化数据技术要点与实现 3 数据分类及采集 日志类采集及使用 报文类采集及使用 根据不同类型数据的特点,采取不同的技术手段 l利用利用Hadoop、Storm 等主
11、流大数据技术,采等主流大数据技术,采 集归档并分析海量非结集归档并分析海量非结 构化日志,可完成跨层构化日志,可完成跨层 面跨节点的多维度查询面跨节点的多维度查询 与分析;与分析; l网络报文为动态瞬时 存在数据,采集、解读、 处理难度大,但数据为 强客观性,分析与利用 价值高; 网络交易报文 l利用GoldenGate等数据 库同步技术采集结构化数据, 实现离线状态下实时交易性 能分析; 非结构化日志 离线交易流水 监控预警 运营分析 业务支持 18 网络交易报 文采集 u 交易协议标准、规范 u 协议非加密 u 网络镜像流量获取方便 u 网络节点间交易监控 应用交易日 志采集 u 交易日志
12、保存在文本文件中 u 日志格式标准、规范 u 对交易日志有归档查询、故障 诊断分析的需求 交易流水镜 像采集 u 交易流水内容丰富 u 交易流水信息保存在数据库中 u交易流水表以Inset操作为主 采集方式采集方式适用场景适用场景 根据不同类型数据的特点,采取不同的技术手段 19 数据分类及采集 日志类采集及使用 报文类采集及使用 日志类数据采集:生产日志分析与监控的需求 日志类数据采集:日志关键字分析使用样例 日志类数据采集:非结构数据结构化的使用 数据分类及采集 日志类采集及使用 报文类采集及使用 25 网络交换 机 流量交换 机 探 针 监控服务器 将流量通过 网络交换机 镜像端口镜 像
13、到流量交 换机 流量过滤, 报文拆分 不影响网 络运行 将二进制流 转换为可读 的Pcap包 按照通讯协 议和报文格 式解包 网络交易报文采集分析实现原理 25 通过网络报文分析、提前预警故障隐患 q前置前置-Connex上海上海 前置前置-connex北京北京 26 通过网络报文分析、观察关键业务会话状态 业务分析、创新支持 数据归档、查询服务 运行采集、容量管理 估值预警、隐患分析 综合监控、聚焦定位 综 合 采 集 使 用 日志+报文+数据库 28 运行状态综合展现:观测发现、聚焦定位、诊断分析 服 务 台 视 图 告警中心视图告警大屏视图 交易视图 应用关联性视图交易详情视图 交易路径
14、视图资源使用视图 告警热度图 会话性能视图 一 线 视 图 二 线 视 图 通过各种视图有效运用,能够把监控系统采集到的各类数据,展示给不同角色的 用户,在日常运维、重保值守,故障影响分析、故障定向定位等方面发挥重要作用。 29 系统容量数据采集:系统数据、应用数据、交易数据 31 历史数据综合查询:海量归档、转结构化、多维查询 32 业务运行状态分析:业务类型分布、业务类型趋势 用户行为分析:操作行为、过程行为、结果选择 目录 34 银行数据全生命周期管理探讨1 海量非结构化数据特点及使用 2 采集与传输、归档与处理、查询与统计、分析与展现、集成与运用 采集的复杂性、传输的可靠性、处理的高效
15、性、结构化能力. 海量非结构化数据技术要点与实现 3 35 类型采集方式日志来源管理目标归档周期过期处理备注 syslog syslogTCP syslogUDP 网络 采集,查询,归档6个月销毁 记录采集时间,日 志发生时间。 加工采集数据。 防火墙 webServer APP服务器 DBServer Oracle-tracetailDB 采集,查询,归档 ,实时监控 6个月销毁 文本tail webServer 采集,查询,归档 ,实时监控 12个月留存中间件 应用日志 性能tail OVO 采集,查询, 实时监控 1个月销毁 ITM 事件tailOMNIBUS 采集,查询, 实时监控,归
16、 档 6个月销毁 资产tail 交易流水采集,查询, 实时监控,归 档 12个月留存 统一监控平台 网络报文tail BPC采集,查询, 实时监控,归 档 6个月销毁 WRT 技术要点与实现架构:明确数据对象、设计技术手段明确数据对象、设计技术手段 日志类采集技术要点 网络报文采集技术要点 数据整体管理与展现 p采集与传输: p采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计 性等要求,采集各技术层面、各类生产环境、各中类型的生产日志; p传输:能够将采集到的各类日志,按照要求(是否可丢失),安全、稳定、可 靠的进行传输,传送到日志采集服务器; p归档与查询: p归档:将采
17、集到的各类日志,按照系统、模块、节点等架构规则,采集时间、 保存周期等周期规则,业务、系统等属性规则,进行多维度归档与备份; p查询:按照归档的多维度属性,能够进行跨系统、跨节点、跨文件综合查询; p分析与使用: p分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发 生次数、比例等) p使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提 供业务运行状态实时数据及分析结果,提供业务运行特征分析结果; 日志类数据采集关键技术要点 虚拟设备VS 管道程序 v开发和移植方面:管道兼容普通LINUX 及类UNIX 系统,而设备方式除了linux 通用外,每 一个UNI
18、X都是一套新的设备程序。 v日志采集能力方面:设备方式可以采集任何写入文件的日志,而管道方式只能采 集 ”a+”(无文件则创建,有文件则追加) 文件。 v日志采集范围方面:设备方式是一个设备可以采集该操作系统上所有应用日志,而管道方式, 每多一个日志文件,必须对应多增加一个进程或线程来采集。 在不修改应用系统的情况下,采集各类日志: 固定文件名、时间变量文件、名称变量、路径变化、目录下新增 日志. 38 虚拟设备日志采集方式 开始 记录日志 系统VFS 日志文件 设备控制信 息 拦截write 日志输出 设置拦截路 径 开启/关闭采 集 应用虚拟设备 配置控制程 序 拦截 syslog 控制
19、其他相关设 置 管道程序采集日志方式 开始 打开日志文 件(管道文件) 写入日志 (管道文件) 建立日志文 件(管道文件) 读取日志文 件(管道文件) 日志输出 应用管道程序 读取 管道 syslog 采集系统 Data-IPData-IP:日志文件全路径:日志文件全路径 Ip+地址 Ip+地址 Mapping Hadoop 块块 块块 App标识 块块 块块 App标识 块块 块块 App标识 HDFS mr() NameNode / 应用1应用2应用3. 日志的归档与索引 大数据平台-逻辑架构 Flume:是Cloudera提供的一个高可用的、高可 靠的、分布式的海量日志采集、聚合和传输的
20、系统, Flume支持在日志系统中定制各类数据发送方,用 于收集数据;同时,Flume提供对数据进行简单处 理,并写到各种数据接受方(可定制)的能力。 42 大数据平台-逻辑架构 Kafka 是由 LinkedIn 开发,主要是用来处理 LinkedIn的 大面积活跃数据流处理(activity stream)1. 可持久化消息 2目标是高流量处理3消费状态信息并不保存在服务端, 而是保存在消费端 4支持分布式。 43 大数据平台-逻辑架构 Storm :是一套分布式的、可靠的,可容错的用于处理流 式数据的系统。处理工作会被委派给不同的任务处理组件, 每个组件负责一项简单的、特定的处理任务。
21、44 大数据平台-逻辑架构 Hadoop :是一种可靠、高效、可伸缩的数据处理平台。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工 作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是 高效的,因为它以并行的方式工作,通过并行处理加快处理速度。 Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop依 赖于普通的服务器,因此它的成本比较低。 45 日志类采集技术要点 网络报文采集技术要点 数据整体管理与展现 确认应用 协议类型 暂未支持的协议 获取协议规范 理解应用报文编 码和封装方式等 获取样本数据包 逐一比对和验证 解码 已支持的协议修改配置文件实施 开发解码 程序 SOA中广泛使用的协议: XML、SOAP、XML_over_TCP、Java序列化传输(RMI、Socket、EJB、JMS)、JSON、BSON等 金融行业常用协议: 8583类、IFX for ATM/POS、SNA、CICS(http封装)、WAS(soap/jms)、WESB/WMB(soap/jms)、 DB2_DRDA、Oracle TNS、CUPS、VISA、Mastercard、AE、JCB、三大运营商短信、Flexcube(核心银 行)、TATA Bancs(核心银行)、FiS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省黄冈市宝塔中学2026届学业水平考试化学试题模拟卷(十一)含解析
- 2026届山东省临沂市临沭县第五初级中学中考模拟试卷(4)生物试题含解析
- 内蒙古呼和浩特市实验教育集团2026年初三下学期期中试卷化学试题含解析
- 2026年劳动防护用品配备发放与报废标准
- 2026年幸福房来宝等试点产品条款设计与领取方式详解
- 2026年农村集体经营性建设用地入市收益分配机制设计方案
- 2026年北京等地康养机构批量引入第五代大头阿亮机器人
- 2026年可信数据空间架构实现医疗数据资产流通基础
- 2025年临床执业《外科》专项练
- 传媒教育机构行政总监助理如何处理公关问题研究分析报告
- 2025年数字经济行业数字经济发展与互联网经济研究报告
- 2025年中国派对聚酯薄膜铝箔气球行业市场全景分析及前景机遇研判报告
- 化工企业产品质量抽检规程
- 《传感器原理及应用》课件-第1章+概述
- 蒸汽管道安装竣工资料
- 团组织活动台账与档案管理模板
- 旅游接待业服务技术创新
- 呼吸衰竭病人的观察和护理
- 《无人机基础概论》无人机专业全套教学课件
- 2025年新福建省通管局安全员b证考试题库及答案
- 2025年黑龙江护理高等专科学校单招职业技能考试题库及答案
评论
0/150
提交评论