TRS企业搜索引擎白皮书_第1页
TRS企业搜索引擎白皮书_第2页
TRS企业搜索引擎白皮书_第3页
TRS企业搜索引擎白皮书_第4页
TRS企业搜索引擎白皮书_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 TRS企业搜索引擎白皮书 据统计, 企业(企业级组织机构的统称)每年的数据增长超过 100%,其中 80%以文件、邮件、图片等 非结构化数据 形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。有数字表明,企业 98%以上的信息存储在企业内部,而发布到互联网的信息仅占信息总量的 1%-2%。 自从有了信息,那么“搜索”就会成为人们永远避不开的宿命。因此,如何方便、快捷、安全地获取企业内部的信息,造就了一个新的,但实际上非常传统的应用 企业搜索引擎 。 TRS公司推出的企 业搜索引擎解决方案,利用 TRS公司多年来自主开发的 TRS Database Server 作为企业搜索引擎服务的平台,辅以各种数据索引工具,配套数据内容分发服务模块,提供完整的、智能的、安全的、个性丰富的企业搜索引擎服务。 北京拓尔思信息技术有限公司 Beijing TRS Information Technology Limited 2 目 录 一、 搜索引擎面面观 3 二、 企业搜索引擎不同于互联网搜索引擎 5 三、 企业搜索平台构建企业搜索引擎应用 8 四、 TRS 企业搜索引擎架构 10 五、 TRS 企业搜索引擎核心优势 15 “安全”的搜索引擎 全息搜索 更高的搜索准确性和智能性 个性化的搜索体验 实时资源整合搜索 强壮可靠的系统、低成本按需扩展 基于内容的自动分类和聚类技术 优异的全文检索性能 六、 TRS 企业搜索引擎应用实例 17 政府政府某部搜索引擎系统 政府深圳信息资源决策服务系统 媒体新华社多媒体数据库搜索引擎服务 企业广东移动搜索引擎服务 3 一、搜索引擎面面观 互联网,这个时代的宠儿,注意力的焦点,在出现短短的 10 年来,演绎着 IT 领域的传奇,在诠释注意力经济的同时,互联网本身也一直成为这个时代人们的注意力焦点,并且我们也毫不吝啬地把我们这个时代称之为“互联网时代”。 互联网的出现,信息的高速膨胀,搜索成为互联网上信息获取的主要手段。自 1994 年YAHOO 推出了 超级目录索引, 从而 成功地使搜索引擎的概念深入人心。 如今, 搜索引擎进入了高速发展时期 , 目前互联网上的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的 Google,其数据库中存放的网页已达 30 亿之巨! “搜索引擎”这个词也成为流行词语,媒体、大众、资本也狂热得无搜不欢。并且,业界又大胆地提出“ 互联网已经从注意力经济过渡到搜索力经济”了。 在互联网上搜索引擎服务热潮一浪高过一浪的同时,我们也注意到另外一个现象,就是组织机构内部信息化浪潮,催生了大量的信息内容。据统计, 企业数据 每年以 200%的速度增长,其中 80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。有数字表明,企业发布到互联网的信息只占到信息量的 1%-2%,而 98%以上的信息是存储在企业内部的。自从有了信息和内容,那么“搜索”就会成为人们永远避不开的宿命。由此,如何方便、快捷、安全地获取企业内部的信息内容,造就了一个新的,但实际上非常传统的应用 “企业搜索引擎”。似乎业界也看到未来企业级搜索引擎的庞大技术市场,各大 IT 巨头都纷纷推出了其相对应的软件产品和技术。 同样,因为信息的越来越多,人们使用计算机,使用信息的频度也越来越高。而在个人电脑中也就积累了大量的个人信息,如邮件、文档、下载的各种网页。对于个人桌面的信息搜索诉求,我们把她总结成为“个人搜索引擎”。 我们可以从下表直观地对搜索引擎有全方位的理解: 4 互联网搜索引擎 个人 桌面搜索 引擎 企业级搜索 引擎 搜索范围 整个 Internet 网络。 个人电脑 企业内部所有的信息资源,以及部分外部资源。 搜索对象 网页、图像及 MP3 等部分类型的多媒体文件。 PC 内部的所有文档信息。 企 业资料库、目录、帮助文本、源代码信息库、新闻 组 等。 如: 网页、电子邮件、 Office 文件、 PDF文件、图片、音视频多媒体文件、图表、公文、研究报告等。 应用特点 大而全,旨在为用户提供更丰富的搜索结果。 面向个人文档管理的智能化搜索工具。 专业、定向的搜索,注重结果的准确性和高度匹配性 ,并且是一种信息安全的搜索。 从上表可以看到,三类搜索引擎有着截然不同的搜索目标和应用特点。因此,其在实现技术机制和手段上也存在着极大的差异。长期以来,因为传媒关注的总是热点,造成市场上混淆了这三者的区别。一提 到搜索引擎,就自然联想到互联网搜索引擎,再加上一些厂商刻意的推波助澜,造成了互联网搜索引擎取代所有搜索引擎的概念。而实际上我们可以看到不同搜索引擎之间的差别很大。 5 二、企业搜索引擎不同于互联网搜索引擎 首先,我们所说的 企业搜索引擎( Enterprise Search Engine,简称 ESE) 中的企业 并非 指单纯的 企业 , 政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求 , 这里 的“ 企业 ” 可以理解为 “ 企业级 ” ,即企业级搜索引擎。那么, 对于 企业级搜索,我们 对“搜索”的诉求又是什么呢 ? 和互联网搜索引擎 相比,它又有哪些不同呢? 实际上,搜索引擎服务是内容管理技术的一个典型应用。我们不妨从内容管理的框架来看搜索引擎的各个环节,即从信息内容的采集,加工,管理,到服务,以至到信息内容的“发现”来比对一下企业级搜索引擎的不同。 *SEO:搜索引擎优化,利用工具或其他手法夺取较好的网络排名。 1、复杂结构 数据的搜索 互联网 上 搜索 的数据一般都是网页形式的, 尽管这几年网上丰富起来的图片、 MP3 等信息形式,但其组织形式仍是基于 HTML 组成的网页。 而企业级用户需要搜索的数据既有互联网 站上的,也有内部网站上的 ; 既有网页形式的,又有各种数据库形式的,如 SQL Server、Oracle 数据库等;既有结构化数据, 又更多的是 各种电子文件格式的非结构化 及半结构化 数 6 据,如 Word、 Excel、 Lotus Notes、 PDF、 XML 等;既有文本形式的数据, 又 有多媒体形式的数据;而且,同一机构的数据还可能分布在不同 介质 的 载体上。 然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。 并且,互联网 搜索内容对于用户来说都是未知的 , 而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、帮助文本、源代码信息库、新闻组等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列 。 2、 严格的安全 搜索 在企业内部, 安全的问题 是 无法回避 的 。 因为企业内部的信息不象“人人平等”的互联网信息,其信息内 容带有明显的“等级”安全特性。所以, 当搜索技术变得无所不能,人们反而开始担心,如果搜索的结果泄漏了企业的机密怎么办?如果企业原有的安全架构对新的搜索技术失效了怎么办?这些疑问都让用户感到如鲠在喉, 岌岌小心 。 很多业内人士在谈到搜索安全的话题 就 忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多 的 变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的 魔爪 还能透过授权的索引文档来 搜索 它们。 因此,针对 企业网中不同的用户对不同的资源,其使用 权限都可能不一样,需要 企业搜索引擎能够 对用户、资源、权限分级管理和控制,确保系统的安全。 3、高可靠的查全和查准 作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的 查全 率和 查准率有着非常高的要求 。因此,需要利用各种手段来提高搜索引擎的查准率和 查全率。 从查全率来看,互联网搜索引擎无从谈起查全率,因为互联网上的信息如此泛滥无边,任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而在企业级的某些应用中,是不允许有所遗漏的检索。必须对企业内部每个需要提供服务的信息进行索引。在检索机制上必须保障 效率的前提下达到全面搜索的要求。 7 同样的道理,在互联网上因为信息自由的特点,决定了搜索只能通过“关键词匹配”这种核心检索手段去实现。而在企业内部,信息的组织复杂了许多。企业级搜索引擎有完善的信息分类体系,元数据,对象数据多层逻辑的组织形式,在查询上满足基于对象数据内容和元数据标引体系的精确查询要求。 4、智能化的检索服务 企业内部的搜索服务,带有鲜明的业务特性,不像互联网搜索引擎仅提供信息参考。在企业内部的搜索结果将直接参与到企业的运营、决策中。所以,对于搜索的结果处理,搜索过程中采用相关智能技术以达到迅速 、准确、全面定位目标信息非常重要。例如 采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息 ; 构造强大的语义 规则库 ,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询 ;支持 完善的 信息 分类体系,对检索结果自动分类 或者信息聚类;提供智能化的概念扩展查询等,都将有利于企业对信息资源的高效利用。 5、 企业搜索引擎通常都和企业其他的 IT 应用有机结合 以 内容管理技术为框架, 搜索技术为支撑,企业搜索引擎通常与数 据管理、内容管理、记录管理、竞争情报、团队协同、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知识资产的完整而又灵活的体系。知识 内容 管理对搜索引擎技术提出了更高的要求,而先进的搜索引擎技术则为知识 内容 管理提供了工具和保障。 在市场上我们也可以看到 ,国内外 企业级搜索引擎厂商,有许多也是知识 内容 管理解决方案的提供商。 6、实时的信息搜索服务 正如前所叙,企业内部的搜索服务,具备业务特性,需要将搜索结果参与企业的运营和决策。所以通过搜索引擎提供的服务,必须能够动态地反应实际情况,即当内部的信息发生变化 时,必须能够实时反应。在企业,不允许出现像互联网搜索引擎服务那样信息滞后更新的现象。 8 三、企业搜索平台构建企业搜索引擎应用 综上所述,企业搜索引擎和互联网搜索引擎有着明显的差异。而且正因为企业搜索引擎从应用角度来看,对于技术供应商来说是个更加宽阔的市场。由此,进入 2004 年以来,市场上相继出现了一些热点。 搜索厂商们开始 摩拳擦掌 ,准备在这场 企业搜索 战役中抢占先机了。最近,越来越多来自于企业级搜索的消息在我们耳边围绕: Google 的专用搜索设备不断出新,意在 将其在互联网搜索引擎霸主地位延续到企业搜索引擎市场中 来。 IBM DB2 Information Integrator、 Oracle Files 10g 相继推出,数据库厂商领土扩张的雄心显露无疑;Yahoo 通过合作与并购的方式连连出招; Microsoft 将搜索产品的发布时钟与 Longhorn 正式看齐 . 从技术的走向来看, 分两种流派:一是数据库厂商在自身的关系型数据库中增强检索服务能力,以期多个应用系统都部署各自的搜索服务,而通过一个联合搜索的方式实现企业内的搜索引擎服务。 二是更多的从事传统的内容管理厂商,在认真分析了企业搜索引擎服务的特点后,提出了 企业搜索平台( Enterprise Search Platform,简称 ESP) 的提法。这一“ 技术 流派”的支持者以国内企业搜索引擎市场第一占有的 TRS 为代表,还有国外的 AUTONOMY、 VERITY等公司。 9 现实情况是, 企业内部的信息存储在各个应用系统中,并且采用不同的系统进行管理并提供各自的搜索服务。例如: 一个在内容管理系统中,另一个在 Microsoft Office 环境中,还有一个在电子邮件程序中 ,采用 ESP 架构需要各个 数据库中 的数据进行统一的、关联的索引。 并且还能在搜索之前对查询语句进行语法 翻译,以及拼写检查、短语检测等语言处理。在 执行搜索步骤后, ESP 会把从原始 将对应的各个数据库中内容进行用户要求的封装后 返回给用户。这样,用户就可以借助结果页面中的类别链接逐级缩小查询范围,提炼出想要的结果了。 10 四、 TRS 企业搜索引擎架构 国内信息检索和内容管理软件的领导厂商 TRS 公司在企业搜索引擎领域占据着国内企业级搜索引擎市场的 80%,并且一直是该领域的技术领导者和理念先行者。公司已从成立之初提供基于中文的信息搜索软件,发展到今天成为基于内容管理技术提供丰富的全面的企业搜索引擎产品和解决方案的中国最具实 力的软件开发商之一。在实践中积累了丰富的业务经验,在技术、产品和实践方面具有独特优势。 TRS 公司推出的企业搜索引擎解决方案,利用 TRS 公司多年来自主开发的 TRS Database Server 作为企业搜索引擎服务的平台。辅以各种数据索引工具,配套数据内容分发服务模块,构建成一个完整的,能够索引企业内部全面的信息内容,提供安全分级授权的、个性丰富的检索体验的企业搜索引擎服务。其框架如图: 从图中可以看到,要实现一个完整的企业搜索引擎服务,首先需要将存储在企业组织内部的各类信息通过对应的手段索引到企业搜 索引擎服务平台服务器中。在 TRS 提供的解决 11 方案中,即将各类信息索引到 TRS Database Server( TRS 企业搜索引擎基础平台),然后通过有效的信息分发服务模块实现定制化的企业搜索引擎服务。 从技术角度来看, TRS 搜索引擎框架中,很好地利用模块化的软件解决了企业搜索引擎应用中的三个核心环节: 内容实时发现索引、内容海量安全管理、内容智能个性搜索 。并且 TRS 搜索引擎方案突破了纯粹的“搜索”概念,在搜索后处理方面, TRS 出色地解决了 “内容挖掘分析利用” 这个课题。 内容实时发现索引 在企业搜索引擎服务中 ,首先需要解决的一个问题就是如何将多种格式、多种介质形态、多种存储方式的内容信息,以实时的方式将这些信息进行索引。并且在索引的过程中力求能够做到准确,并配合以相关智能语言技术做信息的去重、自动标引等能力。 TRS 公司针对各种信息的来源和形态提供了一系列的辅助处理工具: TRS 网络信息雷达系统( TRS InfoRadar) 针对企业搜索引擎服务中,需要对部分互联网网站的信息进行收集,并作为企业搜索引擎的重要内容来源。为满足此类需求, TRS 提供的网络信息雷达系统,采用高效的网络搜索技术,监控和采集互联网信息,支持 智能分类、自动排重和灵活发布,实现海量网络信息的高效采集、组织。将采集和分析处理好的数据实时提交到企业搜索引擎平台服务器( TRS DATABASE SERVER)中。 TRS 数据检索网关( TRS Gateway for RDBMS) 在企业内部,许多信息内容的创建和生产都分散在各个应用系统中,而这些应用系统的数据存储基本上都是采用关系型数据库或者 NOTES 系统中。在企业搜索引擎应用中,一个核心明显的需求就是,当这些应用系统的数据产生和变化时,希望实时地通过企业搜索引擎服务迅速查找到。这就需要有相关技术能够实 时发现新数据,并在发现的同时索引到企业搜索引擎平台服务器中。 TRS 公司提供了针对系列的主流关系型数据库和 NOTES 的检索网关模块,能够将应用中的数据实时地反映到企业搜索引擎平台服务器中( TRS Database Server)。 TRS 数据处理工具( TRS Data Processor) 12 在实际应用中,企业搜索引擎还需要面对企业内部各种类型的数据进行加工、标引、加载到 TRS 数据库中,通过 TRS Data Processor 可以优化后续的检索、发布服务。 TRS Data Processor 对已经进入 TRS 数 据库中的数据进行深层次的联机加工,将信息及时索引到 TRS企业搜索引擎平台服务器( TRS Database Server)中。 内容海量安全管理 在企业搜索引擎应用中,海量信息的管理完全不同于互联网搜索引擎。首先在信息总量上,因为企业搜索引擎应用是分散在各个企业内部,所以单个的企业搜索引擎应用的数据量和互联网上的信息是不可同日而语的。但是从企业级应用来看,因为任何一个机构组织在实施其企业搜索引擎应用时,不可能象互联网搜索引擎服务商那样投资大批的机器设备。所以,在企业级应用中,单位设备数据量(单位设备数据量 =存储管理的数据量 机器设备数)则远远高过互联网搜索引擎服务。如何在单台或者数台机器中实现企业内部海量数据的管理是企业搜索引擎平台服务器需要直接响应的问题。 同时,企业搜索引擎服务中的安全问题,也涉及到多个层面。一是系统的安全,因为企业搜索引擎的服务结果生产性特质,不允许服务系统出现错失现象。所以在系统架构上,集群技术的应用、分布式的支持都是企业搜索引擎平台服务器需要解决的问题。另一个更为重要的安全问题就是信息本身的安全。企业搜索引擎服务必须保障信息是按秩序、按组织规则授权方式的搜索。而不象互联网搜索引擎上 的人人搜索。 TRS 企业搜索引擎平台服务器( TRS Database Server)则很好地解决了上面提及的各种问题。 TRS 企业搜索引擎平台服务器( TRS Database Server)除了采用得到业界广泛使用全文检索的全部功能和性能,针对企业信息内容搜索引擎服务的管理和资源建设的新需求,发展了包括 Native XML, 集群, Unicode, 自然语言处理及智能检索等众多新功能,结合 TRS领先的结构化和非结构化联合查询技术,从而满足了用户对企业搜索引擎的广泛需求。更为重要的是, TRS 企业搜索引擎平台服 务器提供了多种安全机制的管理,涉及到系统安全和内容安全各个方面。为安全的搜索奠定坚实基础。 Native XML: 能够为更精确的检索提供存储和检索手段。 集群:满足海量信息处理和负载均衡的苛刻需求。 Unicode: 以中文为主,提供多语言支持,实现了国际化。 自然语言及智能检索:实现更加人性化和达到更好的检索效果。 13 异构:结构化和非结构化异构信息联合查询。 内容智能个性搜索 企业搜索引擎在提供搜索服务方面,要满足高效的同时,更重要的是查全率和查准率,同时需要提供智能化的概念扩展搜索。还有,在企业搜索引 擎应用中,搜索体验上的需求和互联网搜索也有很大的不同。即搜索的提交和结果的呈现都具有个性化特性。 TRS 企业搜索引擎平台服务器熔炼了 TRS 公司多年在中文智能处理方面的研究成果,并结合十多年来的企业及搜索引擎的应用经验。多种中文智能处理技术的应用,如智能分词,字词索引结合、主题词表概念扩展等技术的应用,使得查全率和查准率都得到极大的保障。 同时,在 TRS 企业搜索引擎解决方案中。采用了模块化的内容分发服务模块。让用户可以方便地通过页面设计模板封装等方式来实现个性化的搜索提交,结果个性呈现。并且系统结合多种信 息分发机制,将搜索、浏览、订阅等功能有机集成。而对于信息发现和评估,系统也提供了很好的支持,并可以根据搜索的统计,来评估信息内容的使用情况及信息用户的搜索习惯。 内容挖掘分析利用 企业搜索引擎提供搜索服务仅仅是企业内容利用的开始,以企业搜索引擎整合的内容基础为起点,企业需要进行再组织、再分发,特别是应用智能的知识挖掘技术进行内容的挖掘和分析,从而高效地获取新的知识发现和利用价值。企业搜索引擎将组织中分散管理的信息整合在一起,再在组织层面实现新的增值,并共享给组织相关方面,从而有效实现组织内容利用的最优目标 。 TRS CKM 中文知识挖掘基础件 以信息智能过滤和分析的文本挖掘技术,应用统计学、自然语言处理和人工智能的最新研究成果,实现自动分类、摘要、排重、聚类、敏感词过滤分析等功能,提供 C+/Java 开发接口和 SOAP/Web Service 应用集成接口。 14 五、 TRS 企业搜索引擎核心优势 TRS 企业搜索引擎产品和技术占有国内市场的 80%,一方面因为 TRS 公司 10 多年来专注此领域,更主要的是通过 10 多年的努力, TRS 企业搜索引擎已经具备了其核心竞争能力,可以在众多大型企业搜索引擎应用项目中和国际巨头竞争角 逐。 “安全”的搜索引擎 TRS 搜索引擎技术支持内容安全性控制,可以通过域、 IP 段、 URL 等广域网范围的控制,实现授权搜索采集,不乱采集。同时, TRS 对查询内容进行分级控制,特定的人只能搜索和查询特定的内容。 在 TRS 搜索引擎技术中提供了信息智能过滤和禁用词典设置,通过这些技术,保障搜索引擎在提供便捷的搜索服务的同时,也保证对不良信息搜索的过滤。 另一方面, TRS 搜索引擎技术在安全模块设计上提供了对 PKI/PMI 体系支持的开放接口,可以保障将 TRS 搜索引擎集成在企业内整体的信息安全保障体系之中。 全息搜索 TRS 企业搜索引擎平台服务器支持 Native XML 的存储和搜索。实现了从全文到元数据的多种联合搜索,为企业搜索引擎应用提供了全息检索机制。 更高的搜索准确性和智能性 TRS 搜索引擎技术支持按词索引、按字索引、按关键词索引,字词混合索引,适应不同应用环境的需求,同时 TRS 搜索引擎内嵌中文自动分词系统 -检索 “北大 ”,检索不出 “东北大学 ”。 内嵌歧义处理实例规则库,正确识别歧义片断,提高分词准确性分词系统要达到一定的准确率,需要和人一样不断积累知识,也就是不断积累分词规则。 TRS 公司从 80 年代末就开始积累 分词规则,这些规则从大量的语料中统计产生,如果语料的数量不够则产生的规则往往带有片面性, TRS 积累了 2030GB 的文本语料,且这些语料能反应现中文语言的特点。如果一个语句切分时有歧义片段,则按适合的规则切分歧义片段,提高了查准率。 15 在查询方面, TRS 提供了基于词典的智能扩展查询,可以按同义词、行业主题词等词典进行智能扩展查询,例如,在查询“锐器”时,系统将自动将包括“匕首”、“刀”等内容提供给信息搜索人员。 在查询中,对自动聚类技术进行充分利用,可以实现各类信息自动相关等功能,为内容比对分析提供了有利工具 。 个性化的搜索体验 TRS 搜索引擎内容分发服务模块充分考虑了信息搜索过程中工作繁忙、对信息的时效性要求高等工作特点。提供了任务定制查询、专栏预设查询、个性化排序等功能。例如:使用者可以定制查询任务,比如“专项斗争”、“专题文件”等单项任务,又如可以定制查询更新时间,查询系统将根据定制的任务,定期进行相关信息查询,定期将查询结果推送到用户的工作界面,方便信息需求者。 另外,系统还提供了个人检索历史记录、个性化界面设置等等功能,不同的使用者可以选择适合自己的工作查询界面,提升系统的易用性和灵活性。 实时资 源整合搜索 TRS 搜索引擎技术能将各种 RDBMS、文件系统、网页信息等实时发现,创建索引,为搜索服务提供基本的保障。 标准、开放的系统 标准、开放是一个应用系统得以发展和壮大的基础,通过标准开放的模式,可以保证用户更多地采用先进的技术搭建个性化的应用。 随着技术的发展,各个软件供应商越来越在某一领域具有专利或优势技术,但是用户的需求是全方位的,因此,最好的解决方案就是采用统一规范标准的接口进行应用集成,这也是国际化软件发展趋势。 16 TRS 公司设计的搜索引擎解决方案在很多方面为应用集成提供了保证,如支持系统三层体系结构,支持 J2EE 标准中间件,支持 XML 数据交换规范,提供底层数据库的各种平台的完善的开发接口,提供模块组件,支持二次开发,开放底层数据存储格式等。 强壮可靠的系统、低成本按需扩展 TRS 搜索引擎平台服务器采用了 TRS 集群服务器技术,实现了 TRS 全文检索数据库的集群和负载均衡应用,在采集方面利用分布式采集和任务集中控制模式可以进行大规模采集,在未来可以通过增加硬件的方式,就能提高系统的处理能力。 另外,随着未来负载和访问量的增加,可以分步建立镜像中心,满足大规模应用需要。 基于内容的自动分类和聚类 技术 TRS 搜索引擎中嵌入式的内容分类技术和聚类技术,不但可以先按内容、地区、来源等多种方式快速标引各类信息,而且可以基于内容对信息进行自动、准确的分类,这两种分类方法有机结合为 TRS 搜索引擎提供全面的、准确的、快速的、智能的分类服务。 优异的全文检索性能 TRS 全文检索系统在行业里具有领先的性能,是中文全文检索的事实上的标准,众多的全文检索厂商都以 TRS 的性能指标作为自己软件评测的标准和系统发展方向。 目前国内唯一的商用千万级数据库 新华社多媒体数据库就是采用 TRS 作为底层检索平台,目前,该系统已有 将近 8T 数据量,检索(包括简单检索和复杂检索)的平均响应时间是秒级。并且, TRS 的检索性能随着数据的增加不会呈线性下降,可以在一个非常广的数据规模范围内保证用户的实际应用。 17 六、 TRS 企业搜索引擎应用实例 政府政府某部搜索引擎系统 政府某部搜索引擎系统是垂直信息搜索的典型,该系统依托于中国某部信息网,是电子政务“金”字工程的有机组成部分。 中国某部信息网是某部机关内部管理使用的专网,是全国各级该部机关内部传播和交流业务信息、队伍建设信息、办公信息的重要渠道。某部信息网上具有丰富的信息资源,网上已建立 了数千个网站,网站上发布的各类网页文件已达数百万个;已建成的全国该业务应用系统、数据库都已连入网内,各地该机关的应用系统、数据库正在逐步连入网内;网上信息涵盖了该机关各事务的基本情况和动态。并且随着发展,该信息网的网站数量、网页数量和浏览网上信息数量都呈现着迅速上升的发展趋势。 在某部信息网中发布的数据具有资源比较分散的特性,在搜索引擎建设前,工作人员查找信息时需要访问大量、不同的区域性站点,甚至有时要访问到站点很深的层次中寻找信息,另外,很多信息又会被相关职能部门的网站刊登,造成大量重复信息。 基于这样一 个背景,并且为了充分发挥某信息网网上信息的作用,通过 TRS 企业搜索引擎建设的某搜索引擎系统有效提高了信息资源整合组织和利用的效率。该系统针对网页信息和应用定位提供相关的搜索引擎解决方案,对网页信息资源共享提供支持与服务,同时,为该部和各地该部部门在该网上查找相关应用系统的定位信息提供服务 某部搜索引擎系统包括了系统数据库支持平台,采集、处理、存储系统,信息智能分析和系统管理等多方面应用。 18 深圳信息资源决策服务系统 深圳信息资源决策服务系统是 TRS公司和深圳市政府于 2004年合作建设的重点企业级搜索引 擎服务系统,是深圳市机关电子政务的重要组成部分。决策信息网 主要为市级领导提供信息服务,包括了政务信息、领导个人信息、视频信息、统计信息、文件法规等丰富的内容资源。 决策信息网采用“统一平台、分级授权”的方式进行用户管理,将权限下放给各个部门,通过这种方式实现对普通工作人员、市管领导、市常委委员不同角色的授权,各部门按统一要求更新各自网站信息。 通过决策信息网,建立连接决策网数据中心和市局单位的网络传输平台,建立包括图文信息和视频信息的数据中心,建立统一安全的管理平台。 深圳 信息资源决策服务系统 是深圳市 机关电子政务系统的重要组成部分。它利用先进的信息网络技术,整合政务网和因特网各种信息资源,为市领导决策提供全面、准确、最新的一站式信息服务。 19 媒体新华社多媒体数据库搜索引擎服务 新华通讯社作为国家通讯社,信息管理应用服务系统担负着采集、发布、管理各类文字及图片信息的重大任务。其采集的信息涉及政治、外交、经济、文教、科技、法律等各个领域并具有信息量大、权威、准确、及时、丰富等特点。不仅为国内外的新闻机构和企事业单位提供大量的新闻素材,同时也承担国家重大活动的新闻报道工作。 新华社多媒体数据库始建于 1999 年,采用 TRS 全文检索的核心技术, 2002 年, TRS公司与新华社技术局再次合作实施了新华社多媒体数据库英文检索引擎的提速改造,提速后的系统对于多媒体数据库的全文检索能够达到 35 秒左右响应。目前,多媒体数据库中已经存储了数千万条多媒体信息,数据容量接近 8T,内容涵盖中、英、法、西、阿、俄等 9 大主流语种,以文字信息为主,包含图片、图表和音视频信息。 新华社多媒体数据库底层采用 TRS 和 Oracle 协同工作的解决方式,由 TRS 完成千万级数据的索引检索服务,由 Oracle 完成 信息制作流程,检索方式分为本 地联机检索和远程网络检索两种方式,可进行精确检索、模糊检索、全文检索、对各检索入口项实行任意联合组配检索;可实现多级检索,逐级细化检索条件,直至命中满意的检索结果;能够对检索结果排序。提供中英文全文检索功能,中文按词进行全文检索,具有智能词库机制。对图片可按分类号、作者、拍摄时间、拍摄地点、照片文字说明等项检索,其中文字说明项可实现中文 20 按词全文检索。支持逻辑库功能、跨库检索,支持文字资料和图片资料的系统链接。 新华社多媒体数据库作为新华社核心存储的地位也在不断加强,从以前分散的存储逐步向统一存储、统一管理、 统一服务方向发展。在这个过程中,新建设的其他应用系统中,TRS 也积极的参与了广泛的应用研究,并在很多系统中直接集成了 TRS 全文检索的核心功能,以保证数据的检索性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论