搜索引擎和淘宝搜索不得不说的故事.pptx_第1页
搜索引擎和淘宝搜索不得不说的故事.pptx_第2页
搜索引擎和淘宝搜索不得不说的故事.pptx_第3页
搜索引擎和淘宝搜索不得不说的故事.pptx_第4页
搜索引擎和淘宝搜索不得不说的故事.pptx_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎与宝贝搜索不得不 说的故事 认识淘宝宝贝搜索 买个iphone5! 送女朋友什么 裙子好呢? 手机大甩卖! ! 连衣裙包邮! ! 牛仔裤清仓买 一送一! 宝宝贝贝贝贝搜索搜索 数据量大: 8亿 数据更新量大: 2亿天 查询量大: 3-4亿PV天 查询准确率要求高对买家负责,降低查找成本 查询召回率要求高对卖家负责,让每个宝贝搜 索可达 业务逻辑复杂:属性信息远大于倒排信息 宝贝搜索的特点 宝贝搜发展史数据量 宝贝搜发展史查询量 淘宝网 2003年 商城 2008年 一淘网 2012年 未来 宝贝搜索发展史大事记 C2CC2C宝贝宝贝C2CC2C宝贝宝贝 B2CB2C宝贝宝贝 C2CC2C宝贝宝贝 B2CB2C宝贝宝贝 全网购物搜索全网购物搜索 一站式购物体验一站式购物体验 发现发现 比较比较 优惠券优惠券 C2CC2C宝贝宝贝 B2CB2C宝贝宝贝 全网购物搜索全网购物搜索 一站式购物体验一站式购物体验 发现发现 比较比较 优惠券优惠券 个性化个性化 协同搜索协同搜索 淘宝搜索架构演变 引擎平台统一 业务引擎分 离 业务逻辑 分 离 解决容量速度 解决搜索功能 不断增长的搜索 复杂多变的业务 数据量日益增长 庞大的属性信息 频繁地数据更新 灵活的运帷平台 每年痛并快乐着的大促(1111/1212) 爆发式流量增长和更新量增长 搜索引擎面临的技术挑战 关联非引擎服务(UPS、QP、Forest etc.) 多路数据混排(同构数据、异构数据) 搜索结果Rerank 其他各种“异想天开”的业务逻辑 统一服务入口 解决之道数据聚合层(SP/Agg) Build插件:允许对建索引的原始文档进行加工 分词插件: 控制检索粒度 QRS插件:改写Query定制业务逻辑、改写结果满 足业务需求 属性信息定制化:直接使用Attr(price)、简单表达 式(price+postage)、插件化(lib.so) Scorer插件:特殊的属性信息定制化功能 丰富的配置接口 解决之道灵活的配置插件接口 高召回率、低响应延时 内存引擎 数据量的增长、属性信息的增多带来挑战 根据业务需求不断对引擎进行瘦身 倒排信息压缩(P4Delta等) 正排信息精确存储(xBits, int8, int16, int32, ) 正排信息压缩(GroupVariInt等) 正排信息去重(偏移存储) 属性信息编码压缩 解决之道减肥是永恒的主题 神级性能优化之道Cache 奇迹般近乎无损的截断深入理解业务 对付频繁更新带来的性能衰减UPI(运维支撑) 商品搜索性能杀手正排信息的访问(L1/L2 Cache与RAM的博弈) 业务发展永远都是粗旷型的定期Review业务实 现常常会有意想不到的收获 数据分层 解决之道性能优化 伟大的Admin集中式管理 故障自动恢复 多集群管理 按需索引分发 索引自动切换和更新 集群拓扑动态发现 解决之道一体化运维体系 解决中小商业搜索 应用 大量小应用运维 Search as a service 自助式使用搜索 在线修改schema 全流程索引自描述 核心技术 HBase Free schema Rank formular 解决之道OpenSearch 业务的发展让一起问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论