版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
/口J.或平台解决方数据治理平台Dstream•兼收并蓄各类数据来源,丰富数据资产,实现优
势互补,打通数据流向。•通过多源融合、多路择优、自主计算、网络爬虫等技术手段,大幅提升资讯数据及时性、准确性、
全面性。•构建灵活多样的数据服务体系,满足下游系统多种数据需求,支持不同业务场景。数据生态•针对共性需求、热点需求,打造资讯业务专题,
使资讯触手可及数据治理核心需求数据服务数据资产数据质量打造自主品牌的资讯终端丰富
数据服务形式与能力提升
数据质量监控与择优降低
对单一数据源的依赖打通
内外部各系统数据流统一
资讯数据模型与标准避免
重复的数据资源投入节约20%以上资源重复投入主动发现和优化数据错误有效解决资讯数据繁杂难用充分融合和挖掘数据价值全面支持各类业务系统需求避免因数据源变化影响业务建立可持续的资讯数据资产】数据治理实现目标第三代数据中心平台FinDigI最闻数据治理发展(
2
010
年
)
第
二
代
数
据
中
心
平
台(
2
0
07
年
)
第
一
代
数
据
中
心
库(
2
018
年
)
最
闻
科
技2007年之前数据应用:建立灵活高效的数据发布服务管理系统,打造自主品牌和高可控的资讯数据服务终端平台。数据融合:采集和融合各种渠道和形态的数据来源,打造统一模型标准和质量监控机制的数据仓库体系。最闻数据治理平台解决方案I最闻数据治理方案数据源支持广泛完整的产品体系数据处理流式化数据加工套件库分布式调度平台增加大数据特性融合大数据平台数据治理平台(Dstream)••真正的分布式调度集群架构实现服务集群和任务分片2层维度分解•支持对作业进行CPU\内存资源细粒度控制,确保高效稳定••支持批量数据定时处理支持增量数据实时跟踪处理•通过CDC技术实现数据源变动的零延时监控••结构化数据和非结构化数据、厂商数据和自产数据、传统关系型数据、海量大数据多种形式数据处理•网站、邮件、文件(PDF)、图片、终端、接口智能化采集处理能力
上海最闻信息科技有限公司数据库跟踪、服务器状态、作业运行与负载压力监控数据质量跟踪校验预警监控多源融合比对择优异常提醒与运维监控I
最闻数据治理平台优势结构化\非结构化批流一体模式分布式集群架构数据库\作业\血缘高可用多形式全监控高时效••••金融资讯数据有二进制文件、文本等大字段,这
些大字段不适合推送到Kafka等消息总线•金融资讯数据的处理经常需要用到关联查询,如果采用纯流式,每条数据在处理时需要单独去查询,这样效率非常低。•
同样,数据处理完成后需要写入到数据库时,也
需要批量插入这样效率最高•
资讯数据模型众多,数据清洗逻辑复杂,运维易操作要求高,大量硬编码模式,可操作性低•数据的批\流处理能力•具备实时窗口统计能力•
F
link•
Beam高可用集群体系架构大数据集群框架金融资讯数据不适合于类似框架框架主要能力•JobSchduler•JobExecutor于
h
开源框架Apac
e•
Mesos•
ElasticJob•
Mesos-master•
Mesos-slaveI
高可用集群体系架构分布式弹性资源管理分布式作业调度管理基ElasticJob
分布式作业调度框架I
高可用集群体系架构Mesos:分布式资源管理框架作业资源按需配置作业失败自动重试集群资源弹性扩容作业服务器动态分配I
作业分布式集群运行充分利用集群资源大幅提升处理效率业务数据顺序保证多分片高并发模式I
作业分片高并发运行Dstream产品集群架构1
、CDC服务监听数据源变动2
、变动数据推入kafka对应topic3
、转换作业监听kafka对应Topic变动数据记录4
、转换作业执行数据清洗逻辑5
、转换作业推送每条数据成功/失败状态到Kafka6
、数据处理结果回写到Mysql数据库,提供管理支持
ETL•每一行记录的处理都是并行的,不是串行
的,不需要等待•一行记录处理完成,会通过putRow方法,直接送到下一个处理组件•整个处理过程中,不需要序列化,不需要
内存复制,没有效率损失•所有执行过程是可重复执行•资讯数据除了新增,还有大量更新和删除操
作•同一张表同一条记录的多次变动,处理过
程要保持顺序。•多次执行,结果冥等(多次执行结果一致)基于并行架构的ETL技术实现资讯
据金融
数
特点并行处理的批模式•DSTREAM基于KETTLE的组件模式
,
定制开发适用于金融数据处理的组件
。提供了提高处理效率的组件。•DSTREAM还优化
了部分KETTLE原生组件。•
金融资讯数据转换过程中,业务逻辑复杂,如果纯编码方式进行处理
,开发效率低
,测试周期长
,成本高
。需要图形化工具来设计转换业务逻辑。•
对于ETL任务
的运行
,
DSTREAM平
台使用
了
KETTLE的组件模
型
,但是接管
了任务所有其它工作。DSTREAM提供
了大量
ETL组件ETL业务逻辑的图形化设计工具一个ETL任务数据流程模式的应用kettle在Dstream中的应用⚫1000万条数据初始化完成清洗转换8分钟完成⚫单个作业平均数据吞吐量可以达到120万条/分钟高效数据处理能力—初始化100万增量数据变动-10个分片并发,每秒处理1500~2000条数据-10分钟左右完成整个数据清洗处理高效数据处理能力一增量变动制定中长期方向明确中短期目标资讯数据中心技术平台建立数据源梳理•厂商数据库•内部业务库•行业网站•文件文档•电子邮件•数据终端•插件终端ETL设计与运行•设计工具•源数据跟踪•作业调度•数据转换数据模型设计•业务分类•数据编码•逻辑关联•数据冗余•数据扩展数据校验比对•数据校验•多源比对•异常预警•运维管理运营分析•流量分析•业务分类•多维统计应用服务•搜索引擎•专题服务•指标服务•文件服务•数据推送I
金融资讯数据治理方法论启动数据源清洗转换开发实施启动多源数据比对策略配置发布数据库表同步推送数据接口
数据应用分析
金融数据模型设计金融资讯数据中心筛选和确定数据源数据源内部数据外部数据集
成OCR识别数据清洗系统某券商数据治理应用平台架构图数据校验App移动端
数据接口服务数据订阅推送服务数据静态化中心库采集服务数据表同步服务PC终端小程序业务审计平台系统资管风控系统固定收益系统投顾平台系统大投行系统优理宝App信用评级系统财务核算系统基金评价系统服务产品中心非结构化数据解析交易所网站分布式存储产品中心巨潮数据天天基金基金发行研究报告聚源数据港澳短信万得数据支持各种资讯源接入兼容银行文件接口规范支持多应用灵活接入高效稳定的技术平台I某银行金融数据治理平台应用察例治理平台服务数据采集融合--高质量模型化数据仓库基础数据行情数据资讯公司数据宏观行业新三板证券分类金融机构国内港股美股新闻公告研究报告舆情基本资料股东和管理层财务数据宏观经济行业数据行情财务股票基金债券理财产品银行证券公募保险Level2资金流向高频数据新闻分类公告类别盈利预测标签正负面信息变更记录行业与板块股本与限售财务附注I领城数据模型产业上下游I领城数据模型•
oracle•
ms
SQL
server•
mysql•
postressql•关系型数据库分布式数据库•
greenplum...•
oracle•ms
SQL
server•
mysql•postressql•greenplum
••网站服务接口•excel插件/
终端接
口等•
xml/
json/
文本•pdf/word/图片•
hadoop/
hdfs/
mongo/
redis/
kafaka•各种应用服务接口大数据平台文件类各种数据库多样化数据源......数据binlog方式数据库CDC方式数据库自有日志跟踪表扫描方式•
。。。•
各类型数据库】
数据库数据采集•
oracle•
mssql
server•
。。。•
万得金融数据库•
聚源金融数据库•
mysqlBloomberg数据采集Excel插件数据采集I
网络网站一爬虫采集lI
文件文档—内容采集a
数据清洗转换(ETL)图形化拖拽式设计系统网络爬虫组件自然语言组件OCR组件大数据处理组件满足行业数据处理的定制化组件I数据治理平台一数据清洗融合ETLlI
最闻ETL特色功能I
主体/常量编码转换Redis缓存编码对照转换数据库加速编码对照转换自然语言分析(NLP)一应用转换I
网页验证码自动识别抓取验证码识别验证码AI应用组件I
大数据平台交互能力•
单源数据量校验•
双源数据量校验•
单源数据内容校验•
多源数据内容校验•
单源数据验证•
多源交叉验证•
黄金拷贝I
数据校验系统事后校验事前校验I
数据验支持多种校验类型数据校验任务可以的配置丰富•
校验周期•
校验后控制•
资源配置•
检验目标•
检验规则数据校验功能全面I数据校验系统—校验结果I数据验系统—校验结果—检验结果详细信息I数据比对泵统多源链路比对规则支持入库优先级策略
支持整表单一来源策略支持数据值浮动偏差策略
支持字段单一来源策略支持数据源权重策略支持数据选举算法策略支持人工运营处理支持差异高亮提醒支持一键切换来源支持手工修改数据所有操作留痕可追溯I
数据比x对处理数据比对运营处理I
新增多源比对作业I
设置多源比对第略I
运营监空比对结果I
处理数据比对结果数据服务应用--平台化响应式数据服务体系o数据管理系统(DMS)中心库模型对象的建立与管理数据分类数据展示的定义与管理指标与统计报表管理系统各种常量的管理系统应用服务的管理I数据治理平台功能一数据管理系统最闻数据治理平台功能—数据管理系统数据接口服务•
高效的数据模型设计工具
,
无需编码,快速实现接口的开发和上线发布•
基于微服务架构体系
,支持弹性扩展
,随时调整服务承载能力•两级数据加速设计,大幅提高数据服务效率,减小对数据存储层的压力•全面账户管理中心体系,从业务和功能接口实现分级和隔离•内置全文搜索引擎功能服务,快速提供全文搜索服务能力数据服务数据中心库数据治理工具ESHTTPSOCKETRedis账户中心应用库BAS
JOB(
基础数据服务
)数据源、专题、资讯、检索令牌验证RedisA
t
C
t用户、产品、权限、支付ccounenerMO
N
G
OSCANI数据接口服务AP说明采用浏览器风格,用户体验更好采用QT/
C++开发,性能更好大数据、人工智能新技
术支持特色和独家的数据开放式终端客户定制终端
Q
数据服务应用OracleMysqlDStream数据库同步程序MssqlPostgres•支持基于CDC实时跟踪来源数据库增量变化•实时跟踪数据插入、更新、删除•实时跟踪数据库表结构变动•
支持异构数据库同步(Oracle、Mysql、Mssql、
Postgres)•支持1对多个目标库的数据并发同步•支持不同目标库,同步不同表•支持异常自动提醒和故障恢复能力•无人值守、故障自动恢复•断点续传•使用配置简单方便,资源占用少数据库同步系统来源库•支实时的数据分发功能,数据量多新频率为每分钟。•
支持各种流行的数据库
:oracle,sqlserver,postgressql,mysql等•支持历史数据修补,保证数据完整性•数据采用二进制的压缩方式传输,效率高,节省带宽
上海最闻信息科技有限公司互联网数据分发系统数据还原ISAPI通讯服务客户端通讯程
序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年零售业门店管理岗位面试题及答案
- AI技术应用于高中化学有机合成路径模拟实验课题报告教学研究课题报告
- 2026年体育教练员职业的面试技巧与问题解答
- 2026年城市规划师面试题及城市设计案例分析含答案
- 2025年智慧农业无人机植保作业效果评估报告
- 2026年社交媒体开发工程师的常见问题与答案
- 2025年地热供暖市场十年分析:浅层地热能利用与节能政策影响报告
- 2026年图书出版物流配送员考试题集
- 中小型企业网络规划设计和实施方案
- 2025-2030中国钢铁冶炼行业发展循环经济与资源综合利用中国网络游戏平台用户黏性与运营策略研究
- 2025年全国高校辅导员素质能力大赛基础知识测试题(附答案)
- n2级护士理论考试试题附答案
- 空管面试高分技巧
- 2025版煤矿安全规程新增变化条款考试题库
- 亚马逊知识产权培训计划
- 院感消毒隔离培训课件教学
- 物业小区大门建造方案(3篇)
- 累计预扣法工资表模板-自动计算
- 2025-2030肉牛养殖产业草原载畜量评估及草畜平衡政策与生态补偿机制报告
- 天祝村文书考试题及答案
- 企业诉讼应对策略培训
评论
0/150
提交评论