版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于Hadoop/HBase的一淘搜索离线系统,莫 问,个人简介,花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系 毕业后加入阿里巴巴集团 雅虎中国 - 垂直搜索团队 阿里云 - 计算服务团队 淘宝/一淘 - 网页抓取团队 技术方向:分布式系统和大数据处理,提 纲,一淘搜索系统架构 基于HBase的分布式存储系统 基于Hadoop的分布式计算平台 一淘全网商品离线处理系统,抓取系统,存储系统,业务处理流程,索引构建,搜索引擎,Web,搜索前端,淘宝商品,一淘搜索系统架构,淘宝商品导入,基于HBase的分布式存储系统,HBase集群概述 HBase主要数据 HBase扩展开发 基于HBa
2、se的分布式消息队列,HBase集群概述,集群版本:0.94.x+扩展优化 集群规模:300台+ 存储量:300TB+ 每日更新量:10% 监控:Ganglia + JMX,HBase主要数据,电子商务网页库(几十亿) 全网B2C商品 全网导购信息(资讯、问答、论坛、点评等) 淘宝+天猫商品(40%) 精选优质商品 淘客返利商品,HBase扩展开发,定制Load Balance插件 定制Region Split/Merge插件和工具 扩展ThriftServer API 增强的MapReduce Lib支持 丰富更多的Metrics指标 多种Coprocessor插件,RegionServer
3、,RegionServer,RegionServer,.,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,RS-Level Balance,RegionServer,RegionServer,RegionServer,.,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,regio
4、n,region,region,Table-Level Balance,RegionServer,RegionServer,RegionServer,.,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,region,Both RS & Table Level Balance,Queue,Partition 1,Message 1,Message 2,Message 3,.,Partition 2,Message 1,Mes
5、sage 2,Message3,.,.,Column,Timesatamp,Rowkey,基于HBase的分布式消息队列(HQueue),Value,Partition ID + Message ID,Topic,Timestamp,Value,Queue is a HBase Table Partition is a HBase Region Message is a HBase KeyValue,RegionServer,Timestamp,Sequence ID,Topic,Value,Partition ID,RowKey,HQueue Writer,HTable Put API Wr
6、apper,C O P R O C E S S O r,2. Locate By Partition ID,Sort By TS,P A R T I T I O n,Message,Message,Message,Message,1. Create Message KV,3. Set MessageID By TS and SeqID,4. Append To Partition,RegionServer,C O P R O C E S S O r,P A R T I T I O n,Message,Message,Message,Message,MessageID,Message写入流程,R
7、egionServer ,HQueue Reader,HTable Scan API Wrapper,2. Locate By Partition ID,1. Create Message Scan,Partition ID MessageID(TS) Range Message Topic,Message读取流程,RegionServer,P A R T I T I O n,Message,Message,Message,Message,3. Scan Sequencially,Sort By TS,4. Return By Order,P A R T I T I O n,Message,M
8、essage,Message,Message,Sort By TS,HQueue特性,支持持久化压缩存储(继承HBase) 支持自动Failover(继承HBase) 支持动态负载均衡(继承HBase) 支持TTL设定,自动清理过期消息(继承HBase) 支持多语言客户端(扩展HBase ThriftServer) 可与HBase统一运维(本质都是HBase) 可与Hadoop MR无缝对接(开发HQueue MR Lib),电商网页库,URL选取,URL队列,抓取系统,Page队列,抽取系统,提链事件队列,Dump事件队列,图片、JS事件队列,提链系统,Dump系统,图片、JS处理系统,HQ
9、ueue应用场景,基于Hadoop的分布式计算平台,Hadoop集群介绍 Hadoop集群业务流程 Hadoop-2.0 基于Hadoop YARN的定制计算服务,集群版本:2.0.X 集群规模:300台+ 存储量:1PB+ 每日运行Job数:2万+ 监控:Ganglia + JMX,Hadoop集群介绍,网页调度与选取 网页链接提取 网页内容抽取 全网商品各维度数据挖掘 一淘全网商品搜索数据Dump 一淘全网商品搜索Index Build,Hadoop集群业务流程,NameNode HA HDFS所有环节无单点 支持HDFS在线升级 YARN 引入二级调度,Not Only MR,可定制计算
10、模型 Cgroups资源隔离方案更彻底,让系统更稳定,Hadoop-2.0,MapReduce-1.0,MapReduce-2.0(YARN),Resource Manager,Node Manager,App Worker,App Master,Node Manager,App Worker,Node Manager,App Worker,App Worker,App Master,Client,Node Status,Resource Request,App Status,Client,Service Submission,Fork / Monitor,Lanch,Service Work
11、er,流式数据源(HQueue, MySQL DRC, TimeTunel),中转队列,Service Workers,InputFormat,InputFormat,OutputFormat,Service Master,Metrics,Service Worker,Service Worker,Service Worker,Service Workers,Service Worker,Service Worker,zookeeper,register,基于YARN的流式计算服务,Progress Checkpoint,Metrics,InputSplit,InputSplit,Servic
12、e Worker,ServiceMaster,1. Metrics(包括进度),InputSplit,InputSplit,Service Worker,Service Worker,2. 发现Worker处理进度太慢,3.分裂Worker,动态分裂计算Worker,ServiceMaster,InputSplit,InputSplit,Service Worker,Service Worker,Service Worker,InputSplit,InputSplit,1. Metrics(包括进度),2. 发现两个Worker比较空闲,3. 合并Worker,动态合并计算Worker,一淘全
13、网商品离线处理系统,全网商品接入(淘宝+外网) 全网商品存储(HBase) 全网商品Dump(业务逻辑计算) 全网商品Index Build,HBase(全网商品库),一淘 抓取系统,Import Job,淘宝搜索 Hadoop/HBase集群,淘宝商品,外网商品,eHarmony API Service,前端运营工具,人工修正,修正商品 状态属性,Import Service,全量,增量,一淘全网商品接入,HBase(全网商品库),Dump Service,Dump Job,Index Build Job,HQueue,XML文件,问天搜索引擎,索引文件,实时消息,定期增量XML文件,全量XML文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 7956.24-2025消防车第24部分:自装卸式消防车
- 2025年大学公共事业管理(公共组织学)试题及答案
- 2025年大学专科(石油化工技术)油品分析试题及答案
- 2025年大学大二(环境工程)专业分流选拔测试卷
- 2025年高职物业管理(物业管理基础)试题及答案
- 2025年中职冶金技术(冶金操作实操)试题及答案
- 2025年中职历史学(世界古代史)试题及答案
- 2025年大学大一(材料科学)金属材料学阶段测试题及答案
- 2025年高职环境工程技术(环保设备运行与维护)试题及答案
- 2026年注册消防工程师(一级消防安全技术实务)试题及答案
- 全球AI应用平台市场全景图与趋势洞察报告
- 2026.05.01施行的中华人民共和国渔业法(2025修订)课件
- 维持性血液透析患者管理
- 2025年大学大四(临床诊断学)症状鉴别诊断试题及答案
- 2026液态氧储罐泄漏事故应急处置方案
- 直肠解剖课件
- 2025年消控员初级证试题及答案
- 辽宁省丹东市凤城市2024-2025学年八年级上学期1月期末语文试题
- 楼宇智能弱电系统培训资料
- 人力资源调研报告
- 下水箱液位控制系统设计
评论
0/150
提交评论