TRS全文检索系统文档_第1页
TRS全文检索系统文档_第2页
TRS全文检索系统文档_第3页
TRS全文检索系统文档_第4页
TRS全文检索系统文档_第5页
免费预览已结束,剩余7页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1.1全文检索系统结构根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRSDatabaseServer)TRS全文检索网关(TRSGateway)TRS信息发布应用服务器系统(TRSWAS)TRS全文数据库系统(TRSDatabaseServe解用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。主要特点包括:异构海量数据统一管理,非结构化和结构化数据联合检索NativeXML内核, 实现全息检索智能辅助检索, 支持知识挖掘精确计算,检索速度和准确性共达最

2、优动态索引实时更新,面向事务处理支持Unicode编码,提供多语种查询引擎多级机制保障,信息采集和检索高度安全集群检索,保证高可靠性,随需轻松扩展规模TRS全文数据库系统(TRSDatabaseServe阻过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。全文检索系统架构图如下所示:全文检索系统架构图1.1.2全文检索网关TRS全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现

3、检索, 利用TRSGateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。TRS全文数据库是TRS公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索需求,并为表现层提供检索服务。这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS擅

4、长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有出色的管理和检索功能。为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。这种方式的采集不需人工干预,完全采用自动化采集方式。为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRSGateway)实现关系型数据库数据全文检索功能。TRS全文检索网关(TRSGateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、旧M、Informix、Mi

5、crosoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQLServer、OracleSybase、DB2Informix数据之间进行数据迁移的工具。该工具实现了RDBMSTTRSr文数据库之间数据共享,使用户在享有RDBMSS越的数据处理功能的同时,拥有TRS优秀的全文检索功能。关系数据Web用户DBCfA口口接口应用服务器,如:TRSWASMicrosoftIISIBMWebsphereBEAWebLoigcOracleiAS等检索遗辑TRSRDBMSGateway关系数据库TRSADOTRSJmvabeans接口全文索引系统特点:TRSGateway采用可视化的管理与配置工具

6、使系统简单易用,轻松实现信息管理。 用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管:可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS据库表中数据的修改向TRS文数据库中进行一次索引的更新。高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。实时查看和修改任务的各种属性:对任何一个创建好的任务,用户可以查看应用向导配置连接关系数据库及TRSa据库1盘对圣话与日弃对量字片的涧异啰翌思审

7、牒据皤系震耳理己,匹配采用施国的邠苴,如果两字段不匹则J光标源数据库宇段目标豹据库宇段rnJir字段名_J类型出5IUIU字段名J类全11Siid1T2瞿3u_3.niam.v盯ch”4lT353au_fndfriA例&14HphoqiaickurI:T5-5叱事 WWVATcjlAT4lS3TJau_idBI7*T2au2lnwaCK1U1S3T3au-fnamACJUJL飘14phsuftCK1UI箭T5w&ir.备*CKlUiSBcityw列ISCityCHAASTTTtataCKAA宛TOzipCHU制T9cotntractHUHBERTIQrowiJCKU115Tci

8、tAfT0旦日sip5T95mibi11Jd_LL1按目标皿11上一番里”下一步也)”取消I应用向导配置源表和目标表以及字段对应关系关系数据库与TRS全文数据库之间的数据更新方式支持:完全更新执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。适用第一次迁移数据。数据追加执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。适用一段时间向目标数据库追加一批数据时。增量更新执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。可以通过设定定时方式由

9、系统自动执行,适用每天有数据更新情况。上 f 年)|下一步如I|HliH砧勖送挥振作对期雷嬲厂视圉速择期微格库:新建也反I修好Nurxicl遇置规圉主表二ICLLxLrilavitLan工其属性,并可修改属性。器度裾市话适*有*圉设对靓果整如siJtsiJtl l对主,作的报应驾对作如S S举血的蓑遽库和和B11313需r可至定库尸1.1.3TRSWebApplicationServer(TRSWAS)主要由管理控制台及应用端两部分组成,它主要有以下特点:完全基于 WebWeb 的管理方式管理控制台完全基于 Web 方式,使管理更加的灵活,真正实现了远程管理。应用端部分同样是完全基于 Web

10、方式实现。这种架构可以灵活的满足用户的需求,特别是 ASP 供应商。跨平台的支持由于 TRSWAS4.0 完全采用了基于 Java 的技术实现,也就完全继承了 Java 跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。灵活性及安全性的提高TRSWAS4.0 的开发是完全基于 TRSTagLib 基础上的。在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM 方式),将所有的业务逻辑封装在 Servlet 中,完成请求的处理后,将请求转发到包含了 TRSTagLib 的 JSP 模板页面中,由此页面完成最终内容的格式化显示。这种开发方式最大的

11、优点就是灵活性。在页面表现方面,最终页面的表现控制由 TRSTagLib 完成,表现为在 JSP 页面中插入 TRS 置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的 Servlet 进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。支持对 TRSTRS 数据库记录的增、删、改操作TRSWAS4.0 实现了在 Web 上对 TRS 数据库中记录信息的增、删、改功能。目前修改 TRS 数据库记录只适用于非二进制字段,增加及删除则没有这方面的限制。支持记录间相关性

12、的连接,实现相关新闻的功能TRSWAS4.0 实现了相关新闻的功能,通过相关字段,实现了在细览记录时获得与此记录相关联的记录,并显示这些关联记录的连接。支持对记录被阅读次数的记录,实现热门新闻的功能实现了对记录阅读次数的记录功能,当记录被细览一次时,自动将其的阅读次数字段加1,通过对阅读次数字段的排序,可以实现当前最热门记录的功能。提供 TRSTagLibTRSTagLib 二次开发接口,保证项目快速灵活的实现提供一套 TRSTagLib 置标,以此为开发接口,可以很迅速灵活的开发其他应用程序,在开发过程中,显示部分由嵌入了 TRSTagLib 的 JSP 模板文件来完成,而业务逻辑部分可以单

13、独进行开发,这样既减少了开发的复杂程度,保证任务的顺利完成,又同时确保了客户各种灵活性的需求得到了保证,最终的开发及维护工作量都将得到很好的控制。1.1.4TRS 全文检索系统特点TRS全文检索以TRS全文数据库系统(TRSDatabaseServer)为核心, 提供功能全面、智能、高性能的全文检索服务保证。在当今信息爆炸时代,正确的决策依赖于及时、准确和有效的信息,TRS全文数据库系统突破了传统全文检索和网页搜索引擎的种种局限,是真正基于知识的智能内容检索系统。TRSr文数据库系统主要特点如下:大型数据的存储和管理功能支持中文(简、繁体)、英文和中英文混合数据;支持多种索引策略,包括按词、按

14、字、按用户自定义关键词等索引策略,能够根据文档对象的结构属性建立不同的索引结构以实现面向不同结构文档的检索要求;同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型);支持常用格式文件的入库和检索,如TEXTHTMLRTFMSOffice、PDFS2/PS2/PSMARCISO2709等);支持多媒体数据的管理;支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放,并且数据还可以存放在其他数据库或应用系统中;高效的数据和索引压缩,实现了低空间膨胀率(-0.21.0);支持字段的唯一(Unique)特性;支持数据库纪录的增删改操作;不同操作

15、系统平台之间,库结构自由拷贝,方便管理员操作;管理员可设置“定时优化”的时间,降低系统管理的成本;修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全;可以方便地对各种词典进行管理和维护;在32位系统中使用64位文件系统以支持超大规模的数据库;方便的数据备份和恢复功能;多种格式的数据导出功能,可以导出XMLTR弥数据类型文件。体系结构分布式体系结构,可以建立多个TRSDatabaseServer的集群结构,并在应用层实现透明访问;支持数据库一对多的单向镜像;多线程设计,支持SM林系结构,支持大量并发用户访问;支持三层结构(DataServer、Applic

16、ationServer和Webserver)应用,每一层均可扩展。跨平台支持支持多种硬件平台:如大型机/小型机/服务器/PC机;支持多种操作系统:如64位和32位的Unix、Linux、WindowsNT/2000;客户机可以运行在Windows9X、WindowsNTWindows2000、主流WebU览器上;应用层接口和系统支持EJB,采用Java技术开发,同一套代码可以运行在异构的设备和操作系统环境中。对标准化和开放性的支持同时支持Client/Server结构和WebBrowser/WebServer结构;支持ANSI主题词典结构标准;支持ISO2709XML据格式的输入、输出;支持A

17、pacheServerNetscapeEnterpriseServer和MicrosoftIIS等主流Web服务器;支持J2EE/EJB,Web应用服务器支持主流中间件产品,如IBMWebsphereBEAWeblogic、OracleApplicationServer、Tomcat等;支持NetscapeNavigator和MicrosoftInternetExplorer等主流浏览器;支持和主流的五大关系型数据库管理系统无缝集成,提供分布式和跨平台的灵活配置方案,支持对关系型数据库的文本数据和大对象类型数据的检索能力;支持多语种:简体(GBKGB2312GB18030繁体(BIG5)、西文

18、(ASCII)、国际统一码(Unicode);实时性支持系统能支持对数据的增量更新,支持实时的数据添加、修改和删除。中文自然语言处理内嵌汉语自动分词系统,并统计建立了大量歧义排除规则,有效提高了分词准确性。支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;全文检索功能同时支持Client/Server和WebBrowser/WebServer两种检索方式;支持中英文混合检索;允许使用文中的任意字、词、句和片段进行检索;全方位检索手段:提供了多达48种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同旬、相差几个字以及前后次序有关等) 、二次

19、检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排序等,支持分类查询,针对不同的栏目和子栏目,允许用户在指定的栏目下查询,以便获得更准确的检索结果;对数值、日期等特征字段可以进行比较和范围检索;支持任意一致的通配符检索(模糊检索);基于成本优化的查询算法(索引分区技术、多线程并行运算技术、Bigram技术等),使得G级数据库查询速度达到亚秒级;完善的Cache技术(包括检索词、短语、表达式的一级、二级缓存技术),从而支持更多的并发用户访问,并大大提高综合查询速度;支持跨库和跨服务器的检索;LIFO:后进先出的快速排序;支持对检索结果的各

20、种排序;可以对检索结果进行浏览、存贮、打印、报表输出以及电子邮件发送等操作,浏览时具有命中点定位和高亮度显示功能;可以限制每个用户一次存取检索结果的信息量;智能检索功能TRS独创的智能检索技术,在查全和查准方面比一般检索系统高得多。TRS智能检索技术包括智能中文分词、广义同义词检索、主题词典控制检索、禁用词典、英文词根检索等。智能中文分词:TRS采用先进的自动分词系统,根据大量的语料统计和分析,建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。广义同义t检索:TRS虫创的广义同义词检索技术能够大大提高检索系统的查全率,比如检索“中央电视台,TRS能够自动把包含“中央电视台、“央视”、“CCTV等文章全部检索出来,检索“电脑”会把包含“计算机”Computer”的文章全部检索出来。在TRS系统中同义词库是用户自己可以维护的。主题词典控制:TRS支持ANSI标准和汉语主题词表标准,比如在主题词典中,有一个主题词为“民间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论