数据库全文检索方案建议书_第1页
数据库全文检索方案建议书_第2页
数据库全文检索方案建议书_第3页
数据库全文检索方案建议书_第4页
数据库全文检索方案建议书_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.厦门巨龙软件工程公司数据库全文检索系统项目建议书百度在线网络技术(北京)有限公司B (Beijing) Co., Ltd.2005年百度公司版权所有, 2005本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进行复制或传播目 录1概述31.1现状分析31.2提供检索服务的必要性31.3搜索技术需求说明42解决方案建议52.1建设目标52.2系统建设原则52.3系统结构62.3.1信息导入子系统72.3.2信息索引子系统82.3.3信息检索服务子系统82.3.4信息管理子系统102.3.5开发接口102.4核心技术112.5性能133 系统运行平台133.1网络运行环境153.2硬件运行平台153.3软件运行平台154 服务体系151概述1.1现状分析厦门巨龙软件工程公司是一家专业从事软件开发、系统集成、咨询服务和技术服务的国家级重点高新技术企业;致力于政府信息化、公安信息化、企业信息化建设;。各个系统数据繁多,结构化数据和非结构化数据都有,是一个综合信息平台。信息存储在多个数据库中,随着业务量增长,信息量持续高速增长,数据量庞大(百万级),数据管理的复杂度大幅增加,特别是对数据库检索提出了更高要求,仅由商业数据库自身带有的检索功能,随着数据量的增加是远远不能满足用户需求的。目前数据库检索的存在问题如下:1. 数据库自身技术存在缺陷不擅长文本字段检索,不支持两个以上单词复合检索2. 数据库系统性能限制在大数据量,多用户进行查询操作时,效率非常低下检索请求占用数据库大量资源,产生雪崩效应,数据库性能急剧下降3. 对中文分词处理商业数据库本身不具备分词的技术,在检索的准确性方面难以保障。4. 数据库检索不能针对大对象检索。对于数据库中存储的BLOB字段的二进制流的文件,数据库没有检索功能。即对非结构化数据不支持检索。百度全文检索系统采用先进的中文分词技术,支持数据量大,访问量高,性能高,稳定性强,效率高,数据实时同步,能很好为用户提供性能优异的检索服务。1.2提供检索服务的必要性信息只有成功的传递到使用者手中,才能真是体现其价值。因此信息开发和利用包括两个重要环节:信息的积累和有效传递,二者缺一不可。所以在注重信息积累的同时,也要提供查找信息的便利手段,实现信息有效传递,从而完善信息的开发和利用环节。 数据整合信息的不断积累造成信息量庞大,并且,信息类型种类繁多。所有各种信息都要为用户服务。所以作为信息传递之最有效的方式检索系统,要能对多重信息源进行整合后,提供检索功能,以确保用户在最短的时间能找到他想要的信息 提高用户检索体验,最大限度方便用户信息量总在不断增长,日常工作繁忙,事务众多,在浩瀚的数据中,你是否曾为找不到某个文件而耗费了大量时间?又或者因为查找速度太慢,而放弃?只需一个专业的检索,这些烦恼就可迎刃而解。1.3搜索技术需求说明1、 良好的可扩展性。未来扩展所查询的数据库的内容时,代价最小。2、 能够提供自定义的输出控制,如结果读取条数、摘要类型等。3、 提供同义词的自定义接口和格式。4、 提供对多文档的支持,包括Word, Excel, PPT, PDF, txt, HTML等。5、 提供相关开发接口。6、 多种数据源:多数据库,用户检索时以统一的形式体现。7、 数据同步方式,要求数据可以实时索引;即数据变化发送到检索系统后,检索系统可以立即反映出来。8、 检索响应速度:1秒内返回搜索结果。9、 大数据量,大并发用户数 2解决方案建议2.1建设目标为了提高用户查检信息的速度与效率,建议采用先进的搜索引擎技术建设业务信息检索平台,提供一个集中、灵活的信息检索入口。该软件设计上遵循开放、兼容、高扩展性、高安全性的原则。从而使整个系统结构合理,技术先进,易于扩展,既能满足目前的信息服务需求,又能符合发展的要求。 对软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;百度作为世界一流的信息检索与传递技术公司,可以保证全文检索系统在技术上长期的先进性。l 检索方便易用,符合用户搜索习惯l 支持千万级数据量l 保证检索信息全面,及时,准确l 检索速度快,响应时间短l 检索系统稳定,支持大并发用户2.2系统建设原则搜索引擎系统,采用先进的数学模型和智能化的检索方式,建立一个安全、稳定、准确、及时的内容检索系统。整个系统在总体设计上遵循开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。l 外挂式原则:系统采用外挂式模式,信息获取功能由全网内容搜索引擎系统处理,减轻用户服务器压力。l 先进性原则:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水平。l 兼容性原则:本系统在产品选型与开发技术上都选择了完全支持JAVA或JAVA产品和技术,在兼容性上好过同类产品的性能和技术。同时,对整个方案中的其他子系统在数据处理和网络的稳定性上没有任何影响。l 经济性原则:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。l 易维护性原则:整套系统的数据维护简单,容易操作,完全通过WEB方式完成。降低维护的技术难度,也减少了人为隐患的发生。2.3系统结构 全文检索系统建立在多层(Multi-Tier)开放式的架构上。需要检索系统能够实现实时监控数据库等系统的数据库中的数据变化,并获取变化信息,对获取到的数据进行分词后建立索引,提供高效的检索服务。并整合到系统管理平台中,配合管理员的权限分配和管理来实现用户的分权限检索。系统架构图如下: 主要有四个子系统组成:信息导入系统、信息索引子系统、信息检索服务子系统和系统管理子系统,如下图所示:通过百度网事通全文检索系统解决方案,为厦门巨龙软件工程公司综合信息服务系统的多类型海量信息数据提供了高速和准确的响应,数据实时更新,完美实现了该系统作为厦门巨龙软件工程公司内外网信息交互共享平台的作用。2.3.1信息导入子系统附件传送XMLKernel 全文检索系统JAVA API采集模块(a) sybase(b) Sql server(c) notes多文档处理插件信息导入子系统处理数据库中数据,信息导入模块将这些数据读取出来,调用检索系统API交给检索核心模块。DB1DB2DB3本系统可以实时同步索引数据,当源数据发生变化时,比如数据的增加、删除和修改等操作反映到搜索系统后,可以立即体现到检索结果上。数据导入模块有两个工作模式:一个是初始化模式,这种模式下将历史数据全部导入搜索系统;另一个模式是监控模式,这种模式下扫描数据变化(UPDATE/INSERT/DELETE),将这些变化的信息读取后送给搜索核心处理。就是说在数据库的信息变化后,检索系统的索引数据也对应变化。2.3.2信息索引子系统信息索引子系统负责对信息进行智能分词,并建立索引库。信息索引子系统支持智能分词,高效索引。按照检索要求灵活定制索引库数据结构,支持对数据更新的多种操作,如:增加、修改和删除,进行增量索引。支持数据更新的实时索引。支持千万量级数据索引。2.3.3信息检索服务子系统信息检索服务子系统提供检索服务,它接受用户的查询请求,并根据高效的优化算法从索引库中提取出符合条件的记录。本系统包括检索页面,检索处理模块、检索结果显示以及检索结果到详细内容页面的连接。 系统结构图:检索模块XML请求结果XMLKernel 全文检索系统JAVA API本系统提供了两个接口,XML接口和JAVA API接口。当为B/S结构时,可以调用java api接口。检索条件和检索结果页面可以嵌入到b/s系统中。当为C/S结构时,直接调用xml接口,检索条件和检索结果页面可以嵌入到c/s系统中。 简单检索页面展示普通检索页面提供便捷的查询方式,这种检索在标题和内容中查找符合条件的信息。 高级检索页面展示组合检索组合检索,用户可以灵活地选择自己的查询条件,控制检索结果的显示风格,如每页显示结果记录数。 检索结果页面展示检索结果页面示例显示结果需要显示字段:标题,相关度,摘要,时间。显示结果排序:相关度,时间升降序。关键词的反显(高亮):查询关键词在标题中以特殊颜色显示,进一步帮助增加界面的友好。可以选择模糊查询,比如配置两个或多个词为同义词,检索任一词时,查到含有所有这些同义词的信息。2.3.4信息管理子系统百度网事通提供功能强大的灵活的管理模块,管理员能够方便地对整个系统进行管理并根据实际情况进行本地政策的设置,包括:系统重启控制,同义词配置等。2.3.5开发接口本系统提供了以下的接口模式,以方便与各类客户系统的无缝连接,保证检索系统的平稳运行。n 百度提供 XML标准输入输出,方便用户对原始数据的操作。n 百度提供基于JDBC模式的Java API接口。便于应用的快速构建和二次开发的高效进行。2.4核心技术检索子系统采用了百度的先进中文分词技术,充分保证检索的正确性。分词是专对汉语语言的一种处理,和英语不同,汉语是基于词的,例如检索“民主”不应返回含有“江泽民主席”的结果。单机即可支持每秒上百次的并发请求,同时支持多机方案。 高效的内存索引技术检索子系统采用了内存索引技术,能够将最新采集到的信息,立即在系统内存中建立索引,使用户在检索时能够立即得到最新信息。 大规模数据支持检索子系统采用先进的算法,建立高效索引库,用户在提交检索请求后,系统能够以亚秒级的速度返回检索结果,即使在千万级数据量的情况下,检索子系统的特有处理内核,依然可以提供理想的高性能和高处理效率,能够保证一分钟内返回检索结果。 大访问量支持检索子系统采用了分布式响应技术,能够支持高并发的检索请求,在实际使用环境中,系统支持的并发检索请求不低于50个,在理想的测试环境中,系统支持的并发检索请求不低于200个。 灵活的检索排序方式检索子系统支持多种检索结果排序方式,可按抓取时间排序,或按相关度排序等等。相关度根据关键词在文献中出现的位置,频率等综合计算出来,算法先进。 检索结果动态摘要技术检索子系统采用动态摘要技术,即检索结果能够根据用户提交的关键词在标题和正文中出现的位置和频率,自动的为每条检索结果生成摘要信息,并且关键词在摘要中可以反显。 支持多种字符集编码检索子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等。 支持中英文混合检索检索子系统支持对中文或英文检索词的单独检索,对于用户输入的中文和英文的混合信息,检索子系统依然能够正确的对检索词进行处理,并返回正确的检索结果。 支持模糊检索检索子系统支持模糊功能,即同义词检索。可以在系统字典中定义若干同义词,可以选择模糊查询。 支持渐进式检索渐进式检索即“在结果中检索”。用户可以在检索结果中继续输入检索词进行检索,可以帮助用户逐渐缩小检索范围,精确定位所要查找的信息。 支持多条件组合检索检索子系统提供多种检索条件可供用户选择,包括:在标题中检索、在正文中检索,以及按照时间范围检索等。用户可以选择单一条件输入检索词检索,也可以按照上述多种条件进行组合条件检索。 支持检索词逻辑表达式用户输入的检索词可以是一个词,也可以是多个词。多个检索词之间可以组成复杂的与、或、非等逻辑表达式。2.5性能1 大规模数据:检索系统支持百万级数据量,并且可以扩展到支持千万级的数据量2 大访问量:百万级数据量,可支持50各并发检索请求,亚秒级响应。在目前客户应用中,系统提供200万次/天的检索访问能力3 数据的同步实时能力:通过独创的实施数据同步(包括增加、删除、更新)机制,检索系统能够保证在分级时间内将数据库的数据变化信息体现在检索系统中。4 索引膨胀率小3 系统特点1、 检索速度快,极大提高工作效率。目前几百万数据量,能做到1秒内返回,大大节省了用户等待的时间。2、 准确率高。先进的分词技术,切词精确,能准确快速定位到用户要查找的信息。3、 稳定性强。对系统异常终止的数据保护和修复能力,异常终止索引模块后不会导致索引数据破坏后不可修复。对高并发访问的承受能力强。4、 将反病毒信息系统,综合信息系统,行长专页系统数据分别建立索引库,便于数据的管理维护。5、 支持非结构化数据,比如解析能力强。6、 数据库中信息变化,响应快,能分钟级同步到索引库中,保证数据实时更新7、 分担目前数据库压力,独立承担了最消耗系统资源的检索部分。8、 特有的检索日志功能,方便用户统计维护,既可以有关键字的排行榜,又可以对每个时段的检索量做统计。 可以了解使用者意图,了解用户检索动态。系统运行平台3.1网络运行环境搜索引擎系统所在的网络要能够支持TCP/IP协议。3.2硬件运行平台系统运行在PC级的服务器上即可表现优秀的性能,服务器标准配置如下:百度网事通全文检索系统服务器基本配置:CPUIntel Pentium IV 2.0G 内存2GB硬盘73GB,SCSI接口根据实际情况增加CPU,内存和硬盘等资源即可。3.3软件运行平台操作系统:RedHat Linux 7.34 服务体系 百度具有大项目的实施能力与经验:百度的项目实施服务部门负责项目实施,目前已实施过各种类型企业级客户四百余家。根据系统建设的目标与实施规划,我们的系统建设采用整体规划,分步实施,依照软件工程项目管理规范、结合用户的需求、时间要求、有组织,有计划的进行。百度项目组长负责依照软件工程项目管理规范、结合用户的需求、时间要求、制定项目实施计划书,项目组长还负责与客户的沟通,并向客户汇报项目进展情况,协调项目组成员工作。百度的实施工程师负责按照项目实施计划书进行系统实施,包括软件安装、设置、调试、二次开发。培训讲师负责客户应用管理的培训工作。百度项目组内部建立项目汇报机制,项目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论