全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据检索引擎1、 大数据检索引擎的背景 奥巴马政府投资2亿美元启动“大数据研究和发展计划”,重要性堪比当年“信息高速公路”,希望增强收集海量数据、分析萃取信息的能力。大数据已经上升到一场国家战略,欧盟、中国等国家必将跟进,出台相应政策。中国政府已经启动的核高基项目非结构化数据管理系统”是大数据研究和发展计划的前身,必将进一步推进大数据研究和发展。大数据平台将在生物及医疗卫生、电网、地理地质、交通、能源、气象、基础研究、电子商务、社交网络、移动互联网和物联网等领域拥有海量数据的大数据行业应用中,发挥平台性的支撑作用。 大数据平台包括大数据采集软件、大数据管理系统、大数据分析系统,构成企业级大数据管理和分析的三套件; 大数据管理系统是非结构化数据管理系统的升级换代产品, 大数据管理系统的核心是大数据检索引擎, 或者说融合检索引擎技术的大数据管理系统。检索引擎是大数据高效管理和智能分析的基础,同时需要针对大数据特点(海量、数据异构多样性、应用需求多样性)进行设计,开发面向大数据的高效、可靠、智能的检索引擎。 2、 大数据检索引擎的总体特性及架构图1. 针对大数据特点(海量、数据多样性、应用需求多样性)进行设计的高效、可靠、智能的检索引擎2. 分布式并行计算、多副本机制、对等节点机制、没有单点的高可靠体系架构,与Hadoop无缝集成3. 支持结构化、半结构化、非结构化数据的统一管理和搜索4. 为实时及用户行为数据的高效管理和分析, 提供支撑5. 支持PB级的海量数据管理6. 支持海量用户的高并发访问(千万级用户、万级并发)7. 充分释放现代计算机硬件的潜力(多核、大内存等)8. 大规模部署的自动化和运行状态监控9. 创新的柔性多引擎机制,提供开放的二次开发接口3、 大数据检索引擎的功能指标1. 扁平化设计,弹性扩展:系统采取扁平化设计,节点之间完全对等,都可以对外提供服务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。2. 异常感知、自动恢复:大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。3. 柔性多引擎技术:大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服务,用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。4. 高效分区索引机制:可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。5. 多副本机制:一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。6. 混合索引方式:提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查全和查准的不同需求, 满足100%查全需求的应用场景。7. 内存表与列存储:支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。8. 异步检索:支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题。9. 多层次、多粒度的分布式CACHE:系统既有单节点的检索缓存,又有合并后的整体检索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并发下的检索节点压力,从而大幅度提高系统在高并发情况下的数据检索能力。10. 可扩展的检索模式:同根词检索,算法和词典结合的英文词根检索,准确率达到99.9%。支持基于同义词、主题词的扩展检索。11. 与Hadoop无缝集成:大数据检索引擎和Haboop无缝集成,可以充分利用HDFS的可靠性,MapReduce的引入也大大扩展了Hybase在数据分析方面的扩展能力。4、 大数据检索引擎的性能指标1. 新闻数据(1000万/3000万)分别在1/3台Dell R710的集群环境下的查询速度数据量Dell R710台数检索速度(秒)1000万1关键词检索0.06逻辑表达式0.283000万3关键词检索0.08逻辑表达式0.302. 高检索并发场景下, 每个节点可加载的数据量每节点数据量检索并发数短语检索速度(“大于等于4个汉字的关键词”定义为短语)新闻1000万记录500并发1.0秒微博1亿记录500并发0.8秒 *也可以增加每节点数据量、同时增加副本数的方式,达到同样的检索并发数;更高的检索并发数,通过进一步增加副本数, 或者多个集群实现。每个节点指每台PC服务器, PC服务器配置为流行的高性价比配置(2颗四核CPU、32G内存、15K RPM SAS),下同。3. 少量检索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年航天器记录设备行业企业战略风险管理报告
- 半导体板块2023年年报及2024年一季报总结:多板块业绩复苏AI有望拉动半导体景气持续向上
- 某某公司某年内部审计报告模板
- 2024年家电配线组件项目创业投资方案
- 2024届中卫市重点中学高一物理第二学期期末达标测试试题含解析
- 2024年汽车传动轴项目招商引资报告
- 2024年净水及净水设备行业企业战略风险管理报告
- 2024年超临界CO2萃取装置膜生物反应器及其他行业企业战略风险管理报告
- 2024届延边市重点中学高一物理第二学期期末经典试题含解析
- 2024届四川省凉山物理高一第二学期期末检测模拟试题含解析
- 2023辅警招聘考试题库及参考答案(通用版)
- YS/T 555.1-2009钼精矿化学分析方法钼量的测定钼酸铅重量法
- GB/T 7826-1987系统可靠性分析技术失效模式和效应分析(FMEA)程序
- GB/T 3810.7-1999陶瓷砖试验方法第7部分:有釉砖表面耐磨性的测定
- GB/T 11017.3-2014额定电压110 kV(Um=126 kV)交联聚乙烯绝缘电力电缆及其附件第3部分:电缆附件
- 新闻报纸编辑编后写作
- 朗读技巧题-中考语文一轮复习
- 酒店环保管理制度范文
- 公司新员工座谈会课件
- 农村常用法律法规知识讲座(适用村干部)专题培训课课件
- 规范使用国家通用语言课件
评论
0/150
提交评论