数据库全文检索方案建议书_第1页
数据库全文检索方案建议书_第2页
数据库全文检索方案建议书_第3页
数据库全文检索方案建议书_第4页
数据库全文检索方案建议书_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门巨龙软件工程公司数据库全文检索系统工程建议书百度在线网络技术〔北京〕Baidu(Beijing)Co.,Ltd.2023年百度公司版权全部,2023本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进展复制或传播 10 百度在线网络技术〔北京〕深圳分公司目 录\l“_TOC_250017“概述 3\l“_TOC_250016“现状分析 3\l“_TOC_250015“供给检索效劳的必要性 3\l“_TOC_250014“搜寻技术需求说明 4解决方案建议 5\l“_TOC_250013“建设目标 5\l“_TOC_250012“系统建设原则 5\l“_TOC_250011“系统构造 6\l“_TOC_250010“信息导入子系统 7\l“_TOC_250009“信息索引子系统 8\l“_TOC_250008“信息检索效劳子系统 8\l“_TOC_250007“信息治理子系统 10\l“_TOC_250006“开发接口 10\l“_TOC_250005“核心技术 11\l“_TOC_250004“2.5性能 13系统运行平台 13\l“_TOC_250003“网络运行环境 15\l“_TOC_250002“硬件运行平台 15\l“_TOC_250001“软件运行平台 15\l“_TOC_250000“效劳体系 15概述现状分析厦门巨龙软件工程公司是一家专业从事软件开发、系统集成、询问效劳和技术效劳各个系统数据繁多,构造化数据和非构造化数据都有,是一个综合信息平台。信息存储在多个数据库中,随着业务量增长,信息量持续高速增长,数据量浩大〔百万级数据治理的简洁度大幅增加,特别是对数据库检索提出了更高要求,仅由商业数据库自身带有的检索功能,随着数据量的增加是远远不能满足用户需求的。目前数据库检索的存在问题如下:数据库自身技术存在缺陷不擅长文本字段检索,不支持两个以上单词复合检索数据库系统性能限制在大数据量,多用户进展查询操作时,效率格外低下检索恳求占用数据库大量资源,产生雪崩效应,数据库性能急剧下降对中文分词处理商业数据库本身不具备分词的技术,在检索的准确性方面难以保障。数据库检索不能针对大对象检索。非构造化数据不支持检索。稳定性强,效率高,数据实时同步,能很好为用户供给性能优异的检索效劳。供给检索效劳的必要性用环节。数据整合进展整合后,供给检索功能,以确保用户在最短的时间能找到他想要的信息提高用户检索体验,最大限度便利用户个专业的检索,这些苦恼就可迎刃而解。搜寻技术需求说明1、良好的可扩展性。将来扩展所查询的数据库的内容时,代价最小。2、能够供给自定义的输出把握,如结果读取条数、摘要类型等。3、供给同义词的自定义接口和格式。4Word,Excel,PPT,PDF,txt,HTML等。5、供给相关开发接口。6、多种数据源:多数据库,用户检索时以统一的形式表达。7、数据同步方式,要求数据可以实时索引;即数据变化发送到检索系统后,检索系统可以马上反映出来。8、检索响应速度:1秒内返回搜寻结果。9大数据量,大并发用户数22解决方案建议建设目标息检索平台,供给一个集中、灵敏的信息检索入口。该软件设计上遵循开放、兼容、高扩展性、高安全性的原则。从而使整个系统构造对软件的投资要考虑到今后的进展,不能使用落后的产品与技术,避开投资的铺张长期的先进性。检索便利易用,符合用户搜寻习惯支持千万级数据量保证检索信息全面,准时,准确检索速度快,响应时间短检索系统稳定,支持大并发用户系统建设原则准确、准时的内容检索系统。整个系统在总体设计上遵循开放、可扩展、经济、安全的原则,从而使整个系统构造合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期进展的需要。处理,减轻用户效劳器压力。平。兼容性原则:本系统在产品选型与开发技术上都选择了完全支持 JAVA案中的其他子系统在数据处理和网络的稳定性上没有任何影响。开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。易维护性原则:整套系统的数据维护简洁,简洁操作,完全通过WEB方式完成。降低维护的技术难度,也削减了人为隐患的发生。系统构造全文检索系统建立在多层〔Multi-Tier〕开放式的架构上。需要检索系统能够实现实时监控数据库等系统的数据库中的数据变化,并猎取变化信息,对猎取到的数据进展分词后建立索引,供给高效的检索效劳。并整合到系统治理平台中,协作治理员的权限安排和治理来实现用户的分权限检索。系统架构图如下:和系统治理子系统,如以以以下图所示:系统作为厦门巨龙软件工程公司内外网信息交互共享平台的作用。信息导入子系统Kernel 全文检索系统XMLKernel 全文检索系统XML多文档处理插件DB1DB1DB2DB3采集模块附件传送采集模块修改等操作反映到搜寻系统后,可以马上表到达检索结果上。数据导入模块有两个工作模式:一个是初始化模式,这种模式下将历史数据全部〔UPDATE/INSERT/DELET在数据库的信息变化后,检索系统的索引数据也对应变化。信息索引子系统信息索引子系统负责对信息进展智能分词,并建立索引库。支持对数据更的多种操作,如:增加、修改和删除,进展增量索引。支持千万量级数据索引。信息检索效劳子系统结果显示以及检索结果到具体内容页面的连接。系统构造图:Kernel 全Kernel 全文检索系统XMLXML检索模块恳求结果本系统供给了两个接口,XML接口和JAVAAPI接口。B/Sjavaapi接口。检索条件和检索结果页面可以嵌入到b/s系统中。C/Sxmlc/s系统中。简洁检索页面呈现息。高级检索页面呈现组合检索组合检索,用户可以灵敏地选择自己的查询条件,把握检索结果的显示风格,如每页显示结果记录数。检索结果页面呈现检索结果页面例如显示结果排序:相关度,时间升降序。〔高亮的友好。。信息治理子系统治理并依据实际状况进展本地政策的设置,包括:系统重启把握,同义词配置等。开发接口统的平稳运行。百度供给XMLJDBCJavaAPI接口。便于应用的快速构建和二次开发的高效进展。核心技术检索子系统承受了百度的先进中文分词技术,充分保证检索的正确性。分词是专案。高效的内存索引技术索引,使用户在检索时能够马上得到最信息。大规模数据支持检索子系统承受先进的算法,建立高效索引库,用户在提交检索恳求后,系统能够以的速度返回检索结果,即使在千万级数据量的状况下,检索子系统的特有处理内核,照旧可以供给抱负的高性能和高处理效率,能够保证一分钟内返回检索结果。大访问量支持50个,在抱负的测试环境中,系统支持的并发检索200个。灵敏的检索排序方式相关度依据关键词在文献中消灭的位置,频率等综合计算出来,算法先进。检索结果动态摘要技术以反显。支持多种字符集编码支持中英文混合检索信息,检索子系统照旧能够正确的对检索词进展处理,并返回正确的检索结果。支持模糊检索选择模糊查询。支持渐进式检索可以帮助用户渐渐缩小检索范围,准确定位所要查找的信息。支持多条件组合检索多种条件进展组合条件检索。支持检索词规律表达式的与、或、非等规律表达式。性能量50各并发检索恳求,亚秒级响应。在目前200万次/天的检索访问力气〔包括增加、删除、更〕机中。索引膨胀率小系统特点1、检索速度快,极大提高工作效率。1秒内返回,大大节约了用户等待的时间。2、准确率高。先进的分词技术,切词准确,能准确快速定位到用户要查找的信息。3、稳定性强。破坏后不行修复。对高并发访问的承受力气强。4、将反病毒信息系统,综合信息系统,行长专页系统数据分别建立索引库,便于数据的治理维护。5、支持非构造化数据,比方解析力气强。6、数据库中信息变化,响应快,能分钟级同步到索引库中,保证数据实时更7、分担目前数据库压力,独立担当了最消耗系统资源的检索局部。8特有的检索日志功能,便利用户统计维护,既可以有关键字的排行榜,又可以对每个时段的检索量做统计。可以了解使用者意图,了解用户检索动态。可以了解使用者意图,了解用户检索动态。系统运行平台网络运行环境搜寻引擎系统所在的网络要能够支持TCP/IP协议。硬件运行平台PC级的效劳器上即可表现优秀的性能,效劳器标准配置如下:《百度网事通全文检索系统》效劳器根本配置:CPUCPU硬盘IntelPentiumIV2.0G2GB73GB,SCSICPU,内存和硬盘等资源即可。软件运行平台操作系统:RedHatLinux7.3效劳体系百度具有大工程的实施力气与阅历:余家。照软件工程工程治理标准、结合用户的需求、时间要求、有组织,有打算的进展。百度工程组长负责依照软件工程工程治理标准、结合用户的需求、时间要求、制的实施或效劳不满足时可以向百度工程监视投诉。图中每个角色都是百度的一组工程师技术支持和维护效劳内容故障排解技术询问版本升级软件更效劳方式支持电子邮件技术支持、信件技术支持网络远程技术支持现场技术支持案例介绍kernel方家园以及中国人民银行总行等建立了专业的全文检索系统。中国人民银行案例分析以中国人民银行总行为例,简洁介绍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论