百度第三代Spider背后万亿量级实时处理系统

上传人：5*** IP属地：湖北上传时间：2022-04-30 格式：PPTX 页数：25 大小：1.69MB 积分：30 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、百度第三代Spider背后的万亿量级实时数据处理系统大纲搜索引擎与Spider3.0Tera的模型与架构系统构建中的经验与教训未来工作演讲题目姓名搜索引擎互联网与搜索引擎Internet搜索引擎SpiderPageRank正排计算正排计算倒排计算倒排计算检索系统检索系统搜索引擎与SpiderInternet快速、全面地采集全网数据中文互联网与百度Spider Spider每天处理提链: 100亿 * 120 = 1.2万亿条万亿条网页总数:100万亿有价值网页: 10万亿每天新增: 100亿超链接数: 120 条/网页Hadoop时代的百度Spider超链库(HDFS)挖掘

2、(MR)调度(MR)回灌(MR)入库(MR)抓取页面解析网页库Hadoop的问题线性扩展问题时效性问题近10轮MR过程，耗时两天解决：必须流式处理 1000亿链接处理 - 500台服务器 10万亿链接处理 - 5万台解决：必须增量处理百度第三代Spider流式计算系统海量数据库Tera（超链、网页、DNS、策略词典）抓取页面解析调度链接打分挖掘实时处理的核心数据是本质来源是数据产出也是数据中间状态一条新链接的价值谁说了算? 站点&路径深度前链&锚文本一张网页变化触发上百条链接属性更新Spider3.0的实时数据处理全量数据 10万亿条 100PB 每

3、一条随时都可能更新每天新抓网页 100亿触发1万亿条链接更新每秒属性更新 1亿次随机读&随机写全局调度站点&主域压力受控虚拟主机运营商压力受控我们的解决方案海量实时数据库Tera 分布式、可扩展万亿万亿记录数，百百PB容量，亿级亿级QPS读写全局有序表支持区间访问，方便统计自动负载均衡互联网热点频发，业务迭代迅速多版本、表格快照历史数据分析、业务数据回滚其他特性列存储、分布式事务1471016241t21471018236t41471019766t6天宫二号t4神州十一t631t51471018372t214710193827t81471020

4、1432t10G20峰会t2金砖会议t1020t731t12Tera的表是三维的TimeRowcom.abc.www/com.def.www/CrawlTimePageColumnWeight1471016241t21471018236t41471019766t6天宫二号t4神州十一t631t51471018372t214710193827t814710201432t10G20峰会t2金砖会议t1020t731t12按行行切分成多区间(Tablet)TimeColumnRowcom.abc.www/com.def.www/CrawlTimePageWeightTablet2Tablet3Ta

5、blet1MasterBFSSSTLOGSSTSSTLOGSSTMasterMasterTabletServerTabletCache创建、更新表Tera架构Client/SDK数据读写TabletServerTabletCache 先写内存再写Log，文件全部持久化在分布式文件系统上。 LOG: Write-ahead log，正常情况下只写不读，用于容灾。 SST: 内存Dump或Compaction产生的静态文件，只读不改。Tera给我们带来了什么? 海量数据随时、随处可用 PB级的内存，统一的地址空间百PB级存储，不用担心持久化亿级QPS的吞吐承载毫秒级的延迟对比HBase 相同

6、点 Bigtable数据模型开源不同点可用性解决了区间热点问题 99.9% - 99.99% 性能、延迟 C+实现，没有GC问题 Locality Group支持扩展性数百台-数千台快速负载均衡分裂快 50ms 通过文件引用实现敢分裂很好地处理碎片问题热点过后，快速合并回来Tablet0Tablet1Tablet2Tablet4Tablet3Tablet5能快速合并，才敢分裂区间快速迁移 50ms Powered by BFS 区间快速合并仅元数据变更代价小, 时间短(200ms) 全自动无人工干预热点问题根本解决分布式文件系统表面上：实现了快速分裂与迁移本质

7、是：天然将请求打散到数千节点连续区间1SST1SST2SST3SST N.DataNode1DataNode2DataNode3DataNode N.百度文件系统百度文件系统连续区间N.面向实时应用的百度文件系统元数据可用性无NameNode单点基于Raft的分布式集群文件可用性多数据中心副本放置快速副本恢复高吞吐、低延迟 C+实现针对读写长尾优化单机 1.1GB/S读写吞吐网络通信框架Sofa-pbrpc集群调度系统Galaxy分布式数据库Tera分布式文件系统BFS分布式计算框架Shuttle分布式协调服务Nexus工业实践分层设计分工、复用问题最好解决一次一处解

8、决多处受益The Baidu StackApps(Spider/Index/Search)工业实践可用性设计硬件&软件故障不可避免假设有MTBF是30年的机器搭建一个1万台的集群每12天坏一台降低故障恢复时间可用性 = (总时间 - 故障数 * 恢复时间) / 总时间 HBase 几分钟 Tera 几秒钟工业实践低延迟设计 Backup Requests 2ms后发送备份读请求到第二个副本如果一个被响应了，Cancel掉另外一个 99.9分位延迟降低80% 慎用自动GC的语言实时处理, 大量小请求,频繁触发STW 服务无响应不必要的failoverTera在百度发展2013.7原型系统2014.1V1.0DNS缓存2015.6V2.0超链数据库2016.8V2.5全量网页数据存储场景描述数据规模天级读写DNS信息存储站点I

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

百度第三代Spider背后万亿量级实时处理系统

文档简介

温馨提示

最新文档

评论

百度第三代Spider背后万亿量级实时处理系统

文档简介

温馨提示

最新文档

评论

相关文档