下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ElasticSearch是什么以及应场景ElasticSearch是个分布式,性能、可、可伸缩的搜索和分析系统看了上这段话,估计很多都懵了,这个是啥。我们先从搜索说起,先介绍下点1、什么是搜索百度、Google:我们想寻找个我们喜欢的电影或者书籍就会去百度或者Google搜索下。互联搜索:电商搜索商品,招聘站搜索简历或者岗位IT系统的搜索:员管理搜索,会议管理搜索2、如果数据库做搜索会怎么样在软件开发,数据都是存储在数据库的,如电商站的商品信息,员的信息等等,如果从员度去做搜索功能,我们会这么设计以上会存在个问题:1.如果表记录上千万上亿了这个性能问题,另外个如果有个本字段要在模糊配置,这个
2、就会出现严重的性能问题2.还不能将搜索词拆分开来,如上这个只能搜索名字是“张三”开头的员,如果想搜出“张三”那是搜索不出来的。总体来说,数据库来实现搜索,是不太靠谱的,通常性能也会很差3、什么是全检索、倒排索引和Lucene举个简单的例:如最近上映的热剧(碟中谍6:全解),我们想搜索下全解这个电视剧,可是在输的过程,不输了”全解”,我们看看百度这个返回了什么,百度返回的结果确实是我想要找到的内容,现在我们介绍下全检索和倒排索引是什么我们看看下这个图,假如我们有很多数据”全解电影,全解海报,全解评论,全解章”等等信息,从数据到构建倒排索引的过程我们图中标记为“1”,通俗点讲就是,倒排索引就是讲数
3、据中的词拆分构建个表,将关键字拆出来,后带上这个章的documentid号,例如中间这个就是倒排索引了。全检索就较好理解的,就是当我们输“全解”,会被拆分成”全”,“解”2个此,2个词去倒排索引去检索数据,检索到的数据返回。整个过程就叫做全检索如果这个数据库的思维来做的话,假如共100W的记录,按照之前的思路就是扫描100W次,且每次扫描,都需要匹配那个本所有的字符,确认是否包含搜索的关键词,且还不能将搜索词拆解来进检索如果是利倒排索引的话,假设还是100W,拆分出来的词语,假设有1000W个词语,那么在倒排索引中,就有1000W。我们可能不需要检索1000W词,有可能检索1次,就能找到我们需
4、要的数据,也有可能是100W次,也有可能是1000W次lucene:就是个jar包,包含了封装好的各种建倒排索引,以及进搜索的代码,包括各种算法。我们就java开发的时候3、ElasticSearch是什么Lucene是单机的模式,如果你的数据量超过了台物理机的容量,你需要扩容,将数据拆分成2份放在不同的集群,这个就是典型的分布式计算了。需要拷贝容错,机器宕机,数据致性等复杂的场景,这个实现就较复杂了。ES解决了这些问题1、动维护数据的分布到多个节点的索引的建,还有搜索请求分布到多个节点的执2、动维护数据的冗余副本,保证了旦机器宕机,不会丢失数据3、封装了更多级的功能,例如聚合分析的功能,基于
5、地理位置的搜索ElasticSearch的功能1. 分布式的搜索引擎和数据分析引擎搜索:站的站内搜索,IT系统的检索数据分析:电商站,统计销售排名前10的商家2. 全检索,结构化检索,数据分析全检索:我想搜索商品名称包含某个关键字的商品结构化检索:我想搜索商品分类为化品的商品都有哪些数据分析:我们分析每个商品分类下有多少个商品3. 对海量数据进近实时的处理分布式:ES动可以将海量数据分散到多台服务器上去存储和检索海联数据的处理:分布式以后,就可以采量的服务器去存储和检索数据,然然就可以实现海量数据的处理了近实时:检索数据要花费1时(这就不要近实时,离线批处理,batch-processing);在秒级别对数据进搜索和分析ElasticSearch的应场景1. 维基百科2. The Guardian(国外新闻站)3. Stack Overflow(国外的程序异常讨论论坛)4. GitHub(开源代码管理)5. 电商站6. 志数据分析7. 商品价格监控站8. BI系统9. 站内搜索ElasticSearch的特点1. 可以作为个型分布式集群(数百台服务器)技术,处理PB级数据,服务公司;也可以运在单机上,服务公司2. Elasticsearch不是什么新技术,主要是将全检索、数据分析以及分布式技术,合并在了起3. 对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东依顿电子科技股份有限公司招聘食堂主管等岗位测试笔试历年参考题库附带答案详解
- 2026山东青岛检测认证集团有限公司招聘3人笔试历年参考题库附带答案详解
- 2026安徽蚌埠新城数智科技有限公司招聘7人笔试历年参考题库附带答案详解
- 2026天津津旅泊泰投资发展有限公司招聘6人笔试历年参考题库附带答案详解
- 2026四川绵阳爱创科技有限公司产品研发部招聘结构设计师岗位测试笔试历年参考题库附带答案详解
- 2026四川广安经开区恒畅产业发展集团有限公司第一次人才招聘笔试历年参考题库附带答案详解
- 2026内蒙古包头墨川人力资源有限公司招聘项目服务人员4人笔试历年参考题库附带答案详解
- 2026中建港航局集团有限公司春季校园招聘笔试历年参考题库附带答案详解
- 2025福建宁德市福安市盛泰汽车管理有限公司招聘驾驶员人员笔试历年参考题库附带答案详解
- 2025浙江绍兴镜湖城市湿地公园有限公司招聘2人笔试历年参考题库附带答案详解
- 2025中联重科校园招聘笔试历年参考题库附带答案详解
- 天津市2024年七年级下学期数学期中试卷4套(附答案)
- 避雷器的结构及试验原理
- 档案实体管理概论课件
- 管道压力试验记录表
- 企业职业卫生知识培训66张课件
- 《为未知而教 为未来而学》读书笔记思维导图
- 小升初六级下册英语阅读理解专项训练人教精通版
- 国家开放大学《高等数学基础》形考任务1-4参考答案
- 光伏组件安装技术交底
- 2023年《高等教育学》考点速记速练300题(详细解析)
评论
0/150
提交评论