全文检索系统整体方案设计方案_第1页
全文检索系统整体方案设计方案_第2页
全文检索系统整体方案设计方案_第3页
全文检索系统整体方案设计方案_第4页
全文检索系统整体方案设计方案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全文检索系统整体方案设计方案全文检索系统整体方案设计方案33优选文档全文检索系统方案全文检索需求索、跨库检索等多种检索路子;支持字索引和词索引;检索条件拥有完满的要点词布尔规律运算AND、OR、NOT力气,支持复点词盘问优先级的设置;结果集;/繁体、英文、日语、韩语内容实现要点字检索;口以支持特别文档格式的全文检索;最,即支持增量索引体系;用户可自行设准时间,让系统自动准时进展更索引;10供给跨数据源、数据格式的找寻;同过相关性找寻,能够把和找寻条件相关系的信息找寻出来;不仅能够对图片的描述信息进展找寻,还能够对图片内容的检索;供给COM与SOAP的找寻接口(Interface)可让其他应用程序或盘问网合要点词消灭的内容片断;地址;件进展排序;时,不在标记过的文件中进展盘问;全文检索系统整体方案系统将承受以下全文检索流程。FuzzySearchSynonymPhraseWild-CardMulti-fieldFilter

IRMS

TermExtractTermIndex

Folder/ShareFolderwithDocumentsIRMS.SearchEngine IRMS.Indexer AdapterComposerFileExtractorpplitin((rIIttrf))

WebSiteRobot/SpiderByURLEntryRDBMS(ODBC/OLEDB/JDBC)FileNET

LotusDominoR5,R6(NSF)针对企业内部的信息,包括文件效劳器上的文件、网站网页、ERP相对构造化的数据虚假层;本系统的索引引擎〔Indexer〕对构造化的数据虚假会在索引库中进展找寻,并将吻合找寻条件的找寻结果返回给使用者;使用者〔user〕可于盘问结果页面,进一步链接到信息原文查察具体内容。环境及设置文件;并经过索引引擎〔Indexer.exe〕实时或准时创办索引,更索引数据库的内容,使检索信息保持在最状态。全文检索系统带来的效益高效率的整合找寻,大幅削减组织成员在猎取信息时开销的时间!实时地把握企业内外全部信息,不用再消耗大量时间的找寻信息!信息过分不会造成企业成员的信息忧愁!/找寻力气,大量的信息也可在刹时过滤出吻合使用者条件的信息,不用担忧迷失在漫漫的信息大水之中!非构造/非组织的信息,不再是学问治理的盲点!文件/档案以及非经过分类治理的信息,由于附加信息罕见,常常成为学问类信息同样可让使用者以检索方式,快速优选利用!整合简洁,使用简洁,导入快速,易于承受!本钱为企业创办信息流通、充分共享的学问环境。全文检索系统平台架构本系统基于组件化和松弛耦合架构和设计,系统平台架构表示图以下:整个系统主要分为信息整合、信息萃取和效劳、应用整合三个局部。信息整合一个相对构造化的数据虚假层,以备后期信息萃取和效劳。信息萃取和效劳信息。应用整合SDK口,便利应用整合和应用扩展。信息整合此局部主要供给对企业内外面非构造性数据信息源建立自动化数PDF、MHT、AutoCAD〔如电影的文件名或大纲、图片的文件名或大纲、及文字〕同时用户能够选择导入数据库数据如、MS 等。其他和Notes系统也已经有了无缝整合,可挂载NotesComposer对nsf库〔如递归、巢状等〕的多功能设计,以便利信息检索与治理。以e-mail含附件为例,e-mailAdaptere-mail内文,而中选购officeAdaptere-mailAdapteroffice相关的附件文配使用。搭配使用本系统的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mailFileMetaMicrosoft、文件名或大纲、及文字等格式,包括繁体中文、简体中文、英文Unicode使用数据库数据适配器,将可支持数据库数据汇入办理如Oracle、Informix、Sybase、MSSQL信息萃取和效劳此局部须供给对数据提取的内容所包括的信息,进展数据办理解析,包括:分类模式建立自动分类功能。库。自动分类体系与专业词库须具备自动学习与修正之功能以提升数据办理正确度。不同样样级供给不同样权限的盘问功能接口。应用本系全都系列内容解析与索引核心组件群,将汇整的内容进展断词、索者需求。全文检索系统整体方案设计方案正确、完满、实时、有效地找寻到吻合自己找寻条件的信息。应用整合及权限的导入与检查工作。全文检索系统功能特点根本检索功能支持FileServer在一次找寻条件下,整合找寻出来。能够对近线数据、在线数据和离线数据进展找寻;优选文档 6全文检索系统整体方案设计方案支持「万用字符〔*、?〕*(代表多到【ChinaChineChinese】等等。输入要点词【Chin到【China找寻条件拥有完满的布尔规律运算AND、OR、NOT力气,支持复合式布问优先级的设定,便利盘问者输入布尔组合之盘问条件;内建「智能型快速响应模式」(Smartcache)体系,能够供给同一种盘问条件之重复使用率,提升系统资源的效益。Cache可重复使用第一次盘问结果;支持/多字段/AND/AND/OR/NOT优选文档 7全文检索系统整体方案设计方案全文检索系统整体方案设计方案99优选文档词索引与盘问功能功能以下:中词句子将透过智能型自动断词技术以到达词索引的收效,自动解析与断词,并建立词索引;词索引功能经过开关灵敏设置;检索字串第一经过自动断词,将其断词结果进展组合检索;文切分词更吻合使用者的行业特点,提升盘问的速度和正确度。该功能优势以下:Memory检干脆能更高:协作高效算法,词索引的找寻性能相对字索引平均高出3多国语系数据索引与盘问系统基于Unicode设计。Unicode〕混杂的文件的建置与盘问。Big5、GB2312、Unicode、UTF-8、Unicode寻。KoreanKoreanJapaneseSimplifiedChineseTraditionalChinese同个数据表或一条数据库记录中能够支持多国语言混排内容;一个索引数据库能够存在多国语言的不同样数据;能够输入多国语言的检索条件,并使用AND、OR、NOT规律关系;检索结果中能够同时显示多国语言记录;果;中英文模糊找寻盘问功能内建「中英文容错〔Fuzzy」盘问功能。基于文字特点,很多专知名词及词汇依模糊不明确的意象,使用者期望只要要输入一个要点词,就能一并盘问性质近似或相关之信息。比方:输入「MobileNetwork」可查到「MobileApplianceNetwork」等特定距离的词句、输入「产业争论」近似看法词库关心盘问功能$Computer$算机」为同义词,则使用者可找寻“电脑”时,可同时查到含有“Computer”或“计算机”的信息。全文检索系统整体方案设计方案并可提口供库治理工具,使用户可自行改正词库内容。其他检索功能找寻出以“网络”为要点字的记录;英文字根(Stemming)computing以“computer”为要点字的记录;英文错误字提示功能;点字的记录;优选文档 10全文检索系统整体方案设计方案找寻结果显示页阅读。支持二次找寻功能。让找寻结果按找寻者的妄图显示。下一层名目,以减小盘问范围。字型….等属性。优选文档 11全文检索系统整体方案设计方案以加快使用者的盘问速度。SDK自己开发特定形式和显示风格的找寻结果页面。自然语言应用组件关内容一次性的找寻出来。相关文件盘问文章自动大纲优选文档 12全文检索系统整体方案设计方案自动分类应用组件寻组件进展整合,即可逐一依种类筛检过滤资料,并显示种类内吻合资料。导览式分类自动分类优选文档 13全文检索系统整体方案设计方案高效数据同步功能〔增量索引〕实时的更。高可用性本全文检索效劳能够经过负载均衡,提升效劳效能。假设某台主机因不明缘由无法对外服务,则可实时以另一台主机对外进展正常效劳。索引库可存放于网络贮存设使全文检索效劳能够正常运行。

全文检索效劳器

…网络存储设备优选文档 14全文检索系统整体方案设计方案可扩大性:本系统可依不同样需求扩大,分类,自然语言,数据适配器等组件,更可置SDK,可取代原来之分类应用组件,且不会影响原来效劳体系。大数据量全文检索解决方案当需要建立索引的数据量到达上千万条时〔G,单个效劳器检多台检索效劳器机群来推行分布式检索成为当务之急!大数据量全文检索构架图SOAP寻央求的效劳器会去到索引库中把找寻者所需资料查找出来并且把全部盘问结优选文档 15全文检索系统整体方案设计方案全文检索系统整体方案设计方案1919优选文档给闲适的效劳器,充分利用整个系统的每一分资源。分布式技术优势数据源进展任何改动;支持T级总量数据,每天G级的增量数据实现秒级数据检索,并且索引T整个系统拥有灵敏的扩展性,在系统应用过程中,随着用户需检索数据级,已经索引过的数据和原有系统的结实性不受影响;高并发用户接见量支持;找寻的权限把握IRMS录是不会被找寻出来的。IRMS保证存守信息的安全性有该文件读取权的人或群组,才有可能盘问到此一文件无该文件读取权的人或群组,不会知道有哪些无权读取的文件存在假设是每个人或群组文件的读取权不同样,盘问结果集就会不同样找寻系统和应用系统权限整合方法IRMS和应用系统的权限整合。主要方法包括:用的用户组创办不同样的索引库,分别放置于Group_for_企业领导、一般员工。找寻时,第一推断用户所索。过滤最终的找寻结果。3并将吻合该用户权限范围内的信息显示给找寻者。权限过滤后再反响给找寻者。户将应用系统的权限规章标准化后,经过找寻系统的API导入到找寻系法

适用环境

优点部署简洁

缺点适用范围小统中。用户提交找寻央求,找寻系统经过权限过滤后再反响给找寻者。各种方法的比较:过滤法过滤法

推断用户权限的状况少

部署简洁 适用范围小部署简洁 应用系统权限规章简洁时找寻结果权很花时间,致使找寻结果显示速度慢规章法规章法

大多数应用系统权限系统内嵌在找度和显示速度快大多数应用系统权限系统内嵌在找

治理员需要为找寻系统索引库中的每作简洁需要将应用系统权限规章导出为特定支持批量导入体系式,则可重复使用权限整合方法。IRMS任何改动;XMLExportImport口;支持权限信息导出为XML文件后,再批量XML文件导入的功能;SDK,可单独操作权限组件进展不同样的权限系统整合;利用XML进展权限整合描述,和其他系统的权限架构做整合。整合后,不同样的权限使用者使用找寻引擎、自然语言等应用组件时,将猎取吻合各自权限的数据;权限规章与IRMS能够完总分值别,增加可重用性。IRMSDominoDomino索引,实现全文检索。NSFViewDomino创办索引。IRMSPlatform…..Notes…..

LotusNotes(Client)LotusNotesComponentInterfacesInthesamephysicalmachineSearch Indexer LAN…..IndexDB

Disk/Storage

(DataSource)DominoNSFForm/View

…..DominoDominoIRMSSDKXMLDomino是不会被找寻出来的。NotesNotesNames.NSFMasterIndex(DataSource)DominoNSFACLIndexSetOption(nOpt,vCmd)Search( )+7,”LambertLin”8,”MKT_Dep”TheresultsetalreadymaskoutrecordsbyACLindex.SearchFormXML

(UserUserIDmodeorGroupNamemode)<?xmlversion=“1.0“encoding=“UTF-16“?><Authority><Item><DocumentNo>1</DocumentNo><DocumentKey>4570</DocumentKey><ValidationList><AllowPerson>CN=Peter/O=tornado</AllowPerson><AllowPerson>CN=Boirs/O=tornado</AllowPerson><AllowGroup>CN=jessie/O=tornado</AllowGroup><DenyPerson>CN=hello/O=tornado</DenyPerson><DenyGroup>CN=badboy/O=tornado</DenyGroup></ValidationList></Item><Item><DocumentNo>2</DocumentNo><DocumentKey>6174</DocumentKey><ValidationList><AllowPerson>-Default-</AllowPerson><AllowPerson>CN=Boirs/O=tornado</AllowPerson></ValidationList></Item></Authority>IRMSAPIIRMSAllowPerson

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论