1.已上传 任春德 - 基于Hadoop生态技术构建阿里搜索离线系统_第1页
1.已上传 任春德 - 基于Hadoop生态技术构建阿里搜索离线系统_第2页
1.已上传 任春德 - 基于Hadoop生态技术构建阿里搜索离线系统_第3页
1.已上传 任春德 - 基于Hadoop生态技术构建阿里搜索离线系统_第4页
1.已上传 任春德 - 基于Hadoop生态技术构建阿里搜索离线系统_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Hadoop生态技术构建阿里搜索离线系统阿里巴巴一淘及搜索技术部——任春德/瓦力个人简介任春德,花名瓦力阿里巴巴一淘及搜索事业部曾就职于阿里集团雅虎中国、阿里云、淘宝子公司,关注于Hadoop及其生态圈、云计算相关技术目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来阿里搜索业务简介搜索技术体系算法排序搜索引擎离线系统(计算+存储)数据获取目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来离线系统—架构HDFSHBaseYARNZookeeperHistoryServer&HStatsPhoenix(SQL)OpenTSDB(metrics)MapReduce(Batch)iStream(Streaming)Hive(SQL)Ganglia&MonitorOtherHQueue(Queue)Application

Framework离线系统—集群概况开展主要阶段1.x2010.08Hadoop-0.20.2+HBase-0.20.51.x~2.x2012.12HDFS-2.0+MR-1

+

HBase-0.922013.07MR-1

+

iStream

on

YARN

+

HQueue2.x2013.08YARN(MR

+

iStream)

+

HBase-0.94.102014.08Hadoop-2.4

+

HBase-0.98离线系统—集群概况集群规模:1k+

nodes(Hadop/HBase)数据规模:数十亿全网商品数据数百亿全网电商网页每日更新数十亿商品和网页数据处理:4w+

Apps(MR,Hive,iStream,…)

On

YARN

/

Day商品数据已实现秒极更新离线系统—数据流程搜索引擎抓取系统阿里云存储商品数据库离线处理MapReduceiStream实时增量全量&增量HBaseHQueueWebQueryStatsiStream业务逻辑辅表Join字段Merge目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来实时计算方案阿里搜索统一的实时计算方案实时数据同步实时商品处理实时个性化推荐技术方案:流式计算模型:iStream消息队列:HQueue实时计算方案-iStreamiStream

TopologyStreamSourceStreamRoleStreamSourceStreamRoleStreamRoleStreamSink/SourceStreamSink/SourceStreamSinkStreamRole实时计算方案-

iStream主要特点运行在YARN上:可与MapReduce等计算模型统一调度管理消息队列可插件化数据Locality,计算靠近数据弹性调度,根据进度动态调整worker数量动态负载均衡,动态调整Worker的位置自动Failover,checkpoint,无数据丧失Metrics可同步到OpenTSDBStream

Source实时计算方案-

iStreamsplitsplitsplitRoleWorkerWorkerApplicationMasterStreamSinkPartitionPartitionWorkerZookeeper实时计算方案-HQueueHQueue:分布式消息队列KeyValueSchema特殊设计利用HBaseCoprocessor开发基于HBaseClient定制HQueueClient仿照HBase开发HQueue部署和管理工具主要特点消息持久化存储,不丧失〔MemStore+HFile+HLog〕消息支持TTL设定,自动清理过期消息消息支持Pull和Subscription两种模式效劳支持自动Failover可复用HBase集群,无需异构硬件实时计算方案-HQueue实时计算方案—比照iStreamStormSparkStreaming消息HQueue,多流程复用消息Pull/Subscriptionmicro-secondsCheckPoint(Zk)不支持事务ZeroMQTuple/BatchTuplesub

secondAckTask/CoordinatorTaskTransactionalTopologyBuildermini

batchesseconds保证处理1次计算API:Java&otherLocality基于Message时间进度管理、报警对计算资源数量进行动态调整Java&other无人工调整workerprocessor和executor的个数Java&scala无目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来集群优化与管理面临的挑战存储(HBase)和计算(YARN)共用集群集群资源有限集群优化难题牵一发动全身全面的衡量指标高吞吐(Job)和低延迟(实时)的平衡优化和改进YARNResourceSchedulerslavenode上的计算资源的隔离HBase的读写限流集群优化与管理YARNResourceManagerScheduler存在问题:业务线优先级集群计算资源利用率和调度延时的平衡MR大Job和实时iStream之间资源竞争改进:基于FairScheduler扩展,fix局部bug按照业务线层级配置queue按照业务线(queue.weight)的抢占(Preemption)规那么按照AppPriority在queue内部优先分配资源集群优化与管理Slave

Node计算资源的隔离rootgroup:DataNode

group:RegionServergroup:NodeManagergroup:container1......group:containerNgroup:others

cgroups

system:cpu,blkio,net_priocpu.shareblkio.weightcpu.share:vcorememory

monitorprocess

user:

yarn集群优化与管理集群管理多业务线,多种计算类型,大量的计算任务系统metrics和ganglia的局限应用指标的监控系统优化效果的全面评估外围系统NewHistoryServerHStatsOpenTSDB集群优化与管理MapReduceHistoryServer问题只支持单一App类型MR只支持简单查询条件只支持有限的数据量性能较差NewHistoryServer主要特点兼容社区版本不同类型的application历史信息查询多种查询条件,id、queue、user、开始结束时间等及其组合大数据量,查询信息:app配置,taskmetrics、log,资源消耗性能优化:cache,效劳器端按条件查询和过滤集群优化与管理NewHistoryServerHStatsHistoryServerAppMasterHDFSHBasePhoenix集群优化与管理HStats资源统计计算资源统计:Job、iStream、SchedulerQueue〔业务线〕的CPU和Memory用量存储资源统计:HBaseTable、Namespace的存储空间和IOPS详细查询:了解计算/存储资源统计对象在一段时间的资源占用状况与变化趋势每日的Top榜单集群优化与管理Top

Job展望未来多元化的计算模型TezSpark更

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论