微软针对广东移动企业搜索项目技术方案Version_第1页
微软针对广东移动企业搜索项目技术方案Version_第2页
微软针对广东移动企业搜索项目技术方案Version_第3页
微软针对广东移动企业搜索项目技术方案Version_第4页
微软针对广东移动企业搜索项目技术方案Version_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广东移动企业搜索项目POC报告和技术方案微软(中国)有限公司2007-3-201 POC实施情况报告21.1 广东移动企业搜索项目POC情况分析51.1.1 用户视图61.1.2 系统视图91.2 附加项:微软搜索特色部分162 技术方案及建议192.1 项目范畴192.2 技术原理192.2.1 体系架构系统物理、逻辑架构功能模块划分部署方案搜索引擎关键技术2权限实现模型2相关度模型3系统集成312.3 关键技术指标322.4 附加项:微软方案优势以及企业搜索最佳实践建议3

2、52.4.1 完整的企业级搜索平台方案352.4.2 快速构建支持企业信息安全的搜索方案382.4.3 易于扩展的开发接口支持客户化灵活定制需求392.4.4 丰富的搜索报表支持企业不断实现搜索技术的优化392.4.5 提高企业搜索中心相关度的一些最佳实践建议401 POC实施情况报告广东移动是微软公司在中国的重要客户,非常感谢广东移动过去对微软公司的支持。为推动中国移动广东移动知识管理进程,加快企业搜索在企业内的应用,广东移动正准备实施企业搜索项目。为降低本项目的实施风险,为保证我们能够不断给广东移动带来新的价值,在广东移动IT信息部门的配合下,我们从2006年/9/12日起开始对广东移动企

3、业搜索项目进行POC(概念验证)的工作。 前期POC主要验证了微软公司企业搜索产品可以搜索不同数据源的能力, 具体数据源包括: Notes,文件共享目录,Web站点,SQL数据库,Oracle数据库等数据源。经过POC,已经验证通过全部数据源的搜索工作。本次POC也是按照广东移动公司企业搜索引擎建设分阶段进行的精神进行。第一阶段主要实现对全省OA应用的搜索功能,其中POC阶段将以江门市公司OA应用为对象,实现一阶段主要功能要求,然后在此基础上形成项目技术方案,作为选项的一个依据。因此,后期POC微软公司主要验证了其企业搜索产品在Notes OA的搜索能力,搜索源定在江门公司实际Notes OA

4、数据源,在POC阶段微软公司也验证了基于权限的搜索和属性搜索,相关性搜索等功能。写本文档的主要目的是:l 汇总POC结果及问题。l 面向客户的业务目标,充分了解广东移动各部门和企业整体的信息搜索、信息展示和知识协作等方面的实施需求.l 根据广东移动之前提供的需求整理企业搜索的目标、方向.l 给出适应当前要求和未来发展需要的总体功能架构,并对重点课题进行技术可行性分析;l 结合广东移动企业搜索项目及客户现阶段情况, 提出阶段建设目标。通过我们的工作,希望能够满足广东移动构建一流的企业搜索引擎项目目标。到目前止,我们对POC的结果进行了分析,结合我们以往的经验给出这篇POC报告,并给出我们对广东移

5、动企业搜索项目的建议。我们期望这个报告能作为广东移动搜索项目的参考,用于后续的项目实践。在此篇报告中,我们根据POC中碰到的问题和结果,对于广东移动搜索引擎的定位和建设方向提出了看法;对于企业搜索项目的投资回报,进行了定性和定量的分析。并且,我们对广东移动搜索项目中的一些主要技术难点进行了初步的方案探讨,并给出了广东移动搜索的技术框架。我们对于广东移动搜索项目的阶段计划,建设内容,给出了具体可行的分阶段建设范围建议。包括:l 第一阶段(2007年) 根据本文所述广东移动搜索的发展方向建议,我们建议广东移动搜索引擎项目第一阶段的重点放在以下几个方面: 全面部署桌面端搜索工具Windows Des

6、ktop Search; 尽量利用现有产品功能实施企业搜索引擎,根据业务优先级规划好内容源。通过配置和简单客户化定制完成企业搜索中心的部署。本期建设的另一个重点是通过对用户使用搜索引擎情况的分析,更加深入地了解用户对于搜索的要求,不断掌握提升搜索结果相关度的方法,提升企业搜索服务的建设经验; 实现基于Notes OA系统权限的搜索过滤功能; 建立信息关联搜索; 实现搜索引擎网站与门户,OA系统的单点登陆; 实现信息分类检索,关键字的简单及高级检索;通过以上几方面的建设,可以全面提升广东移动的企业级信息搜索能力,对提升最终用户的用户体验和用户满意度,获得立竿见影的效果。并为企业信息协同框架的形成

7、以及发展奠定良好的基础。l 第二阶段(2008年) 建立企业级搜索服务,完善企业搜索框架设计,深化搜索服务与信息系统集成以及基于信息的协同和重用 建立企业搜索规则引擎 建立完整信息权限设计模型 建立企业搜索服务,为其他应用系统提供搜索服务建立企业级别的知识管理系统,逐步实现业务系统的信息整合,提供知识积累的技术手段和平台,完成知识管理平台框架的建设。微软公司非常感谢广东移动给予我们此次参与贵司企业搜索平台方案选型的机会,并很希望可以就进一步的项目需求以及实施计划与广东移动展开更加深入的探讨。1.1 广东移动企业搜索项目POC情况分析本次POC微软针对广东移动江门公司的Notes OA系统,进行

8、了POC测试。测试功能可从用户和系统两个角度进行描述。1.1.1 用户视图1. 关键字检索l 简单检索:通过定制化的搜索中心网站,输入关键字后,可以查询到相关Notes OA的内容信息。如下图:l 高级检索:进入搜索中心网站的高级搜索页面,可以选择不同的Notes OA数据库进行关键字查询,也可以结合收文库和发文库中不同的文档属性进行组合条件的查询。如下图:2. 关联推荐l 专家推荐:通过在网站中定义关键字,系统会自动出现专家推荐的搜索信息。例如输入“广东移动”,即可在网站的右边看到专家推荐的搜索信息,如下图:定制关键字的设置可以直接在网站设置中找到,所以设置起来非常方便。如下图:l 上下文关

9、联推荐:通过用户输入的关键字,自动查找本站点内经常出现的搜索关键字并显示出来,如下图:l 用户行为关联:可以自动显示该网站其他用户经常搜索排名前十位的关键字并自动显示给当前用户做直接的搜索,如下图:3. 分类检索 提供基于Notes OA文档库的分类树形结构树的分类检索功能,让用户可以按照使用OA文档的习惯去搜索结果。如下图:1.1.2 系统视图1. 权限控制采用江门公司“韦伟”账号进入搜索中心,在搜索中心中输入广东移动,返回的数据一共有2048条。可以对比其他用户同样搜索“广东移动”返回的数据量即可验证到权限控制的搜索结果。2. 性能指标微软官方基于SharePoint Search Ser

10、ver进行过性能的测试。具体可以参考如下连接:/Office/en-us/library/5465aa2b-aec3-4b87-bce0-8601ff20615e1033.mspx#section1性能测试是基于以下环境进行的:Computer roleHardware Hard disk capacityQuery servers4 dual-core Intel Xeon 2.66 gigahertz (GHz) processors32 gigabytes (GB) RAM40 GB for the operating system

11、 (Redundant Array of Independent Disks (RAID) 5)956 GB for the content index and the operating system paging file (RAID 10)Index server4 dual-core Intel Xeon 2.66 GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the content index and the operating system paging file (RAID 10)

12、Database server4 dual-core Intel Xeon 2.66 GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the SharedServices_Search_DB database with dedicated small computer system interface (SCSI) controller (RAID 10)The following disks shared a SCSI controller:273 GB for the SharedServic

13、es_DB database (RAID 10)273 GB for the TempDb database (RAID 10)273 GB for log files (RAID 10)136 GB for the SharePoint_Config database (RAID 10)l 响应时间(首字节、末字节响应时间)按照微软官方的测试结果,系统响应时间是与所索引的文档数量呈正比的,具体数字请参考下图:详细数据可参考:/Office/en-us/library/186a8171-2204-4d55-bdf4-c5df8e6dec.

14、mspx?mfr=truel 索引压缩比在POC环境中,Index文件大概是占用了2G的空间,如果按照原OA数据库的文件大小是110G来计算,压缩比大概为:1/55。可以使用下面的公式对索引压缩效果进行计算:Index size = Average size of document * number of documents * 4 x 10-10 GB在测试环境中,爬取数据源的文档大小平均是10 kilobytes (KB) 到100 KB。具体爬取数据如下:Type of documentNumber of documentsContent on SharePoint sites10 mi

15、llion items, including the following:420 site collections4,000 sites24,200 lists47,780 document librariesContent on file shares15 million itemsHTTP content15 million itemsPeople profiles2.5 millionStitch (in-memory test tool that generates documents in memory)7.5 millionProperties (metadata)1 millio

16、n针对以上数据量,位于不同服务器中的磁盘空间占有率为:Type of usageVolumeIndex size on query server100 GB*Index size on index server100 GB*Search database size600 GBl 建立索引时间和对OA性能消耗在以上测试环境中,微软Search Server可平均每秒索引15篇文档。在做索引的Index Server上,CPU的占有率为:Number of processorsPercentage of improvement in crawl speed1 0.002 10.894 19.778

17、 30.773. 精准度l 准确性:首先确保关键字匹配的信息能检索到,比如搜索“SOX法案”,系统自动返回65项结果。第一页10条结果均为包含“SOX法案”关键字的结果。l 相关性:对检索结果能根据相关性进行排序、过滤按照结果相关度排序的结果:按照结果修改日期排序的结果对比:4. 实时性l 内容实时性:OA系统更新的信息能在较短时间内检索到(最低要求是一天)在SharePoint搜索中心,POC阶段已经根据具体实施阶段对内容实时性的要求,设置了增量爬网计划任务。计划任务会在每天晚上的9点左右开始对Notes OA数据库进行内容的爬取,每个内容源启动的时间均间隔1小时左右,避免了在爬网过程中对N

18、otes OA数据库造成太高的数据压力。具体设置可参考如下图:l 权限实时性:跟OA权限保持同步,OA系统权限信息变化能在较短实际内作用于检索结果(最低要求是一天)与OA权限同步的程序,大概会在每天晚上12点左右通过计划任务运行。所有权限信息会在几个小时内完成更新。5. 系统集成用户登陆网站后,在工作台左边的应用系统连接中,直接点击“微软搜索中心程序Microsoft”会打开新窗口,连入 网站。本场景实现了从Portal到搜索中心的单点登陆。在搜索中心中,输入关键字“移动”,即可搜索出相关结果。点

19、击搜索结果,系统会打开一个新窗口。该窗口直接连入Notes OA界面,直接实现了从搜索中心到Notes OA的单点登陆。1.2 附加项:微软特色实现部分具有行业标准查询语法的简单、整洁并强大的用户界面。查询范围与内容来源分离,使得用户能够容易地拓宽或收缩内容搜索范围。搜索可以基于任意内容属性,例如 URL、类型和作者。可操作的搜索结果可容易地进行筛选和排序、使用和共享。警报和 RSS Feed 轻松地为常见查询提供了更新的结果。微软企业搜索引擎目前可支持超过200种以上的文档格式的全文索引,包括Office文档,PDF文档,HTML文档,zip文档,rar文档等。并且提供Web Service

20、s接口,让其他应用可以直接集成搜索引擎的搜索结果。可以构建一个独立企业搜索应用,为员工提供一站式搜索,也可以将微软企业搜索作为一项平台服务,为各个独立应用如知识管理服务,提供检索其中数据的服务。微软搜索解决方案提供了企业搜索数据统计功能,企业搜索中心管理员可以根据企业搜索数据统计进行搜索结果专家推荐的定制。POC具体数据统计界面如下:2 技术方案及建议2.1 项目范畴本次企业搜索项目包括全省OA系统(省公司和21个市公司)公文和其他应用功能。广东移动公司企业搜索引擎建设会分阶段进行。第一阶段主要实现对全省OA应用的搜索功能,接下来会实现其他应用的搜索功能。2.2 技术原理2.2.1 体系架构2

21、.2.1.1 系统物理、逻辑架构在物理架构上,微软Search服务器场主要按照服务器功能分为4大角色,分别包括:Web前端服务器,Query查询服务器,Index索引服务器,数据库服务器。Web前端服务器担当Web网站服务功能,搜索中心网站的部署服务器,另外多台Web前端可以配置网络负载均衡,应对大用户量的访问需求;Query查询服务器主要担当查询指令的执行。从Web前端用户输入的关键字会被发送到Query服务器再执行,然后从后台数据库服务器返回查询的数据结果,再返回Web前端。所以,Query服务器也可以配置网络负载均衡以应对大用户量请求的环境;Index索引服务器主要担当搜索外部数据源,把

22、这些数据爬取并保存到本地的操作;SQL数据库服务器主要提供了数据存取的功能;按照这些服务器分别担当的角色,我们可以把这些服务器分别部署到同一个服务器场中,其物理架构图可参照如下:按照微软搜索引擎的工作机理,其逻辑架构为:在上图中,内容源表示各种存储着信息资料的IT系统,索引引擎模块会根据不同的协议和接口从内容源中爬取信息转换为内容索引。微软企业搜索默认支持多种常见的内容源(见图中所示),也提供了接口以扩展到更多的内容源。索引引擎负责爬取内容源的内容,并针对内容源获得的不同格式的文件/数据将其中需要索引的部分提取出来,再使用不同语言(内置对19种语言的支持)处理模块对其进行处理和标准化,生成内容

23、索引。查询引擎为使用者提供检索服务,它从查询接口(Web页面或Web Services)获得用户提交的搜索请求,到内容索引中进行查找,并按照搜索管理配置模块提供的配置将结果进行优化后再返回给使用者。搜索管理配置模块提供对整个搜索引擎的控制功能,包括管理内容源的更新,关键词,排序算法等等。 功能模块划分1. 用户界面具有行业标准查询语法的简单、整洁并强大的用户界面。查询范围与内容来源分离,使得用户能够容易地拓宽或收缩内容搜索范围。搜索可以基于任意内容属性,例如 URL、类型和作者。可操作的搜索结果可容易地进行筛选和排序、使用和共享。警报和 RSS Feed 轻松地为常见查询提供了更

24、新的结果。2. 搜索结果 搜索结果呈现得更清楚。结果进行了安全调整,使得用户只能看到他们能够访问的内容。结果包括用户友好的功能,包括高亮显示关键词、重复项折叠和同义词建议。与实时通信工具的可选集成使用户可以容易地联系内容作者和专家。3. 企业内容源对许多企业内容源中的 200 多种文件类型执行搜索,包括现成的文件共享、网站、SharePoint 站点、Exchange 公共文件夹和 Lotus Notes 数据库,以及通过使用协议处理(Protocol Handler)程序和 iFilter 来扩展到其他第三方存储库和文件类型的能力。4. 管理和维护改进的管理用户界面和管理 API 提供了对各

25、种搜索和索引方案的广泛支持、对资源密集的操作的集中控制以及用于管理和报告的工具。5. 索引控制用于轻松包含和排除所搜索内容以及立即删除任何站点或项的细粒度索引控制。连续的索引传播以使信息保持最新。改进的爬网规则和爬网日志、每个内容源的多个开始地址、新的可浏览、可筛选索引日志提供了优化搜索所必需的信息。6. 安全性爬行程序不再需要管理员权限。索引内容爬行权限仅由 ACL 控制,以便实现遵从性、隐私和 IP 保护。经过安全调整的搜索结果仅允许用户看到他们有权访问的内容。7. 人员搜索人员搜索功能不仅允许用户按部门或职别查找人员,而且还允许按专业技术、社会距离和共同兴趣查找人员。8. 知识网络增强的

26、人员搜索工具允许用户搜索和联系关键内部和外部联系人和专家、搜索没有文档记录的知识和关系,同时保护个人信息隐私。充分利用社会网络的强大功能。9. 业务数据搜索使用 Business Data Catalog 来搜索驻留在行业应用程序中的数据。可通过 Web 服务或 ADO.NET 来访问的结构化内容源以及 LOB 应用程序数据和报告可以通过 Business Data Catalog 来建立索引,并作为搜索结果检索到 SharePoint 列表中。 部署方案按照广东移动搜索项目目前的情况,我们推荐可以采用分功能,分角色在搜索服务器场中部署微软SharePoint Search Se

27、rver。部署图如下:Web前端服务器 3 台配置: 硬件描述备注CPUIntel Pentinum 2G以上(2CPU)内存2G Memory硬盘20G以上空间Query服务器 2 台配置: 硬件描述备注CPUIntel Pentinum 2G以上(2CPU)内存2G Memory以上硬盘20G以上空间Index服务器 1 台配置: 硬件描述备注CPUIntel Pentinum 2G以上(4CPU)内存4G Memory以上硬盘200G以上空间SQL数据库服务器 2 台配置: 硬件描述备注CPUIntel Pentinum 2G以上(2CPU)内存2G Memory以上硬盘200G空间以上

28、 搜索引擎关键技术1. 用户交互界面关键技术 结果相关度技术搜索结果相关度主要是如何把用户搜索关键字最相关的连接放在搜索结果页面的第一页的技术。在这项技术中,最关键的技术是Ranking技术。在微软企业搜索引擎中,Ranking可以分为动态Ranking和静态Ranking两类。动态Ranking技术是内置在搜索引擎中的,自动根据企业内部对搜索引擎使用得最多的关键字和搜索命令,还有搜索中数据源的属性信息等,对搜索结果的Ranking进行修改。另外还有点击频率、元数据提取等等都会影响这些权重。如果不对搜索引擎做任何调整,系统会自动按照内置的机制对Ranking在索引阶段进行调整。用

29、户也可以根据自己需要,调用搜索引擎提供的接口来自己定义不同内容的Ranking的权重。从而调整企业搜索结果的展现相关度。静态Ranking技术是跟搜索引擎被查询的过程无关的,只发生于搜索引擎索引数据源过程中的Ranking权重定义。比如企业可以根据企业具体的情况,对文件类型的Ranking进行定义。把Word文档的Ranking权重定义为最高。这样在搜索引擎爬网时,系统会自动把Word文档的Ranking提高。用户在搜索时,就会在搜索结果首页中看到与搜索关键字相关的Word文档。另外在索引时,URL深度(按照的数量,连接的关系,超链接锚点文本等参数来定义)也会自动加入Ranking权重。 人员

30、和专家搜索这些用户界面同样包括了在你企业内部搜索人员和专家的能力。你可以搜索到与一个已知客户或联系人相关的人员,或者搜索到知道你想要的信息的人例如,搜索公司的社会网络,找到具有正确信息的正确的人;搜索返回的结果是可直接操作的,并且包含了丰富的信息(例如与即时通讯技术同时使用时,可直接看到专家的在线状态),因此你可以非常容易的联系和定位到你所感兴趣的相关信息的拥有者。2. 系统管理关键技术 企业快速自定义搜索搜索是一个平台,通过该索引平台企业可以把需要搜索展现内容并被查询的属性映射为搜索引擎需要搜索的属性。这个MetaData映射技术,可以让企业更有针对性地来定义企业所关心的,具有企业自身特点的

31、搜索功能。比如,可以根据广东移动OA现有公文文档属性定义高级搜索时的查询属性,让企业用户更有针对性地查找OA的信息。可参考POC汇总报告部分的高级搜索功能说明。另外,微软搜索中心被集成到微软SharePoint服务器产品中,利用SharePoint的WebPart技术,企业用户可以快速定制具有企业特点的搜索应用。比如POC中的上下文相关搜索,拼音检查搜索等功能,均采用了SharePoint的WebPart技术进行搭建。而且用户还可以通过简单的拖拽完成搜索中心的界面定制。在查询页面中,微软提供了大量跟搜索相关的WebPart供客户使用,客户也可以通过编写XSLT对搜索结果的展现方式进行定制。所以

32、企业在定制这些客户交互界面时,可以非常快速地对用户交互界面进行个性化定制。另外,对每个跟搜索相关的功能,微软均通过对象模型向企业提供二次编程接口。 搜索结果更新方式和更新时间策略定制企业用户可以根据需要,针对不同数据源的结果更新采用不同的方式进行更新。搜索中心一般应该提供完全更新和增量更新两种方式。并且,可以分别对这两种更新方式配置不同的更新时间计划。管理员可以根据需要,对不同数据源采用不同的结果更新方式和时间计划策略。比如:在OA中,对于一些历史归档库,一般变化都不大,可以采用一次爬取的方式对这部分文档进行索引;对于一些经常变化的公文库,可以采用定时增量爬取的方式进行爬取。通过这些设置,可以

33、充分发挥机器的性能,同时也可以减轻被爬网服务器的负担。 权限实现模型系统直接继承OA现有权限,直接在搜索结果中实现了只有用户有权限操作的内容才能检索到的功能。与OA集成方式的详细说明如下:广东移动OA现有权限系统是在Sun One Identity Server的基础上开发,并与Domino进行了整合。在POC过程中,微软实现了与该系统的单点登陆配置。此外,广东移动OA系统中的实际权限是由Notes文档中的Readers域进行控制的。微软的企业搜索产品在爬网过程中将该Readers域读入索引,并建立安全信息库。在用户搜索时系统首先检查当前登录的用户名(OA系统用户),与搜索结果中

34、Readers域中包含该用户名的项目进行匹配,从而得到该用户有权限看到的搜索结果集并展现在搜索结果页面上。其具体的流程如下: 相关度模型为企业内容而优化的新的和改进的搜索算法,与使用相关性和评级因素(如点击频率、超链接锚点文本、URL 深度和元数据提取)相结合,可以为企业内容产生最佳结果。对于初始部署,我们建议根据信息体系结构确定出与组织最为相关的概念和业务流程,并基于这些概念和业务流程使用爬网规则最大化爬网内容的相关性。因为爬网内容会消耗大量资源和带宽,因此最好在爬网时只包含较少的高相关性内容,而不要包含大量可能不相关的内容。初始部署完成后,您可以查阅查询和爬网日志,调整内容源

35、和爬网规则,以提高相关性和包括更多内容。 系统集成1. 从Portal到搜索中心的单点登陆通过调用移动提供的Portal认证的Web Service(:9999/uipservice2/uipservice?WSDL)中的ValidateToken方法,把用户登录到Portal后的Cookie提供到该Web Service进行用户身份验证,在微软Search中心网站实现了从Portal到搜索中心的单点登陆。所有用户数据均保存在Search中心服务器的一个CSV文件中,通过定期更新该CSV文件,即可实现组织用户数据的同步。2. 从搜

36、索中心到Notes OA系统的单点登陆另外,通过使用Portal中提供的“/oaproxy/portaloabridge?appname=OA&goto=”这个前缀,在搜索结果URL前加入该连接,直接实现了从搜索中心到Notes OA系统的单点登陆。这样的实现方式充分利用了原有portal的单点登陆功能,而且对搜索中心没任何性能负担。2.3 关键技术指标1. 可扩展性通过增加对应角色的服务器,企业可以轻松横向扩展搜索中心的处理能力。另外,微软的Web前端服务器还可以部署在64位服务器上,系统性能可获得更大的提升。通过在微软测试中心做的测试,对以

37、下服务器场的测试结果为:Computer roleHardware Hard disk capacityQuery servers4 dual-core Intel Xeon 2.66 gigahertz (GHz) processors32 gigabytes (GB) RAM40 GB for the operating system (Redundant Array of Independent Disks (RAID) 5)956 GB for the content index and the operating system paging file (RAID 10)Index s

38、erver4 dual-core Intel Xeon 2.66 GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the content index and the operating system paging file (RAID 10)Database server4 dual-core Intel Xeon 2.66 GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the SharedServ

39、ices_Search_DB database with dedicated small computer system interface (SCSI) controller (RAID 10)The following disks shared a SCSI controller:273 GB for the SharedServices_DB database (RAID 10)273 GB for the TempDb database (RAID 10)273 GB for log files (RAID 10)136 GB for the SharePoint_Config dat

40、abase (RAID 10)针对这种配置的服务器,进行横向扩展,测试的结果为:服务器场大小每秒响应请求Query server CPU利用率Index server CPU 利用率Database server CPU 利用率Database server 平均磁盘读写/秒1x1x124.01 99.49 1.98 7.23 6.11 2x1x148.04 96.98 3.95 13.02 2.66 3x1x171.07 94.73 5.61 20.56 2.29 4x1x193.11 91.77 8.81 29.21 2.41 5x1x1114.95 90.50 10.27 39.38 2

41、.45 6x1x1133.34 87.29 11.91 52.94 2.83 7x1x1148.52 80.20 15.24 63.72 3.14 8x1x1146.94 65.65 15.15 69.15 2.87 l 系统支持容量通过定义调整Index索引服务器的索引规则,企业可以按照需求,设置Index索引一次打开多少个Index进程。用户可以选择的同时发生的请求数为:1, 2, 4, 8, 16, 32, 64。不同请求数对CPU的负载如下表:请求数量Index server CPU 利用率Database server CPU 利用率4 35128 4015124515166020l

42、 处理能力和性能通过横向扩展Web前端服务器,可以获得的处理能力如下图:通过横向扩展Query查询服务器,可以获得的处理能力如下图:2. 稳定性及可用性通过增加Web前端服务器,Query服务器和数据库服务器的数量,不但可以增加系统处理能力,还有一定的维持系统稳定性的作用。两台以上同一个角色的服务器,可互为备份,任意一台机器出问题,其他机器会自动接管其功能,提供了724小时的系统服务。另外,微软SharePoint Search服务器提供了管理中心和搜索中心网站模板的功能。无论管理员还是普通用户,均可以使用IE浏览器对服务器进行配置和修改。搜索中心网站的修改,也可以直接通过IE浏览器进行。而且

43、,微软SharePoint Search服务器还提供了Web Services接口,为用户以后实现SOA奠定了使用基础。突出了搜索平台的概念,也让系统的可用性得到很大提高。2.4 附加项:微软方案优势以及企业搜索最佳实践建议2.4.1 完整的企业级搜索平台方案无论是在个人桌面、企业互联网还是Internet,Microsoft在搜索领域进行了大量的研发投资,这些投资可以概括为以下三个方面:l 集成搜索体验l 商业数据和领域专家搜索l 满足企业信息搜索的特点每一个投资领域都具有众多的使商业及商业用户得益的特色和功能。包括: 集成搜索体验 Microsoft搜索为用户提供全面的集成体验; 在用户工

44、作的任何时候都可以使用到搜索无论是在浏览器(在团队和门户站点上搜索,MSN搜索工具条总是出现在浏览器上部可以随时使用搜索);在桌面端(Windows桌面搜索总是出现在任务栏上);或者是在熟悉的应用程序中(例如在Outlook中搜索邮件); Windows桌面搜索能够轻易的扩展到包括“企业内部互联网”位置源,从而你可以从Windows桌面搜索程序界面中搜索到来自SharePoint门户服务器站点上的信息; Windows桌面搜索当用户在输入每一个关键字时同步缩小搜索结果范围。它总是允许你从搜索结果界面中预览普通文档类型,以使你确保找到了正确的文档; 开启商业数据和领域专家 评估报告指出大多数企业

45、内的数据20%为非结构化数据(例如邮件、Word文档等),还有80%为结构化数据(例如存储在业务线应用和数据库中的数据)。访问和利用这些结构化数据是非常困难的需要单独登录到这些额外的系统中,使用该应用特别提供的搜索界面进行信息查找,等等。 Microsoft搜索方案能允许你像搜索非结构化数据源一样简单的搜索结构化数据库并且能够在熟悉的、友好的用户界面中将这些数据源的搜索结果共同显示出来; 这些用户界面同样包括了在你企业内部搜索人员和专家的能力。你可以搜索到与一个已知客户或联系人相关的人员,或者搜索到知道某人有你想要的信息的人例如,搜索公司的社会网络,找到具有正确信息的正确的人; 搜索返回的结果

46、是可操作的并且包含了已存在的信息(与即时通讯技术同时使用时,例如Live Communication Server),因此你可以非常容易的联系和定位到你所感兴趣的相关信息的作者。 专为企业而建立 企业数据与Internet数据不同,搜索必须考虑到这一因素。Microsoft提供了真正的用户技术的企业级搜索引擎,例如文件类型偏向(具有较高适用性也就是相关文件类型偏向。例如,相对于TXT文件,将Word文档类型评为较高级别),元数据抽取,和URL深度,从而实现最大化相关性的商业数据结果; 更多的来自元数据抽取、URL深度和其它评级因素的详细信息描述; Microsoft搜索解决方案只是单个索引文件

47、即可以索引和搜索超过5000万份文档; 安全性剪裁指搜索结果只会显示那些具有访问权限的用户条目因此确保遵守和保护知识财产和隐私因此,微软搜索产品能够为企业提供平台级别的完整搜索解决方案。2.4.2 快速构建支持企业信息安全的搜索方案企业搜索的一个突出需求就是要满足企业信息安全的要求。在组织内部,提供给使用者拥有大量信息的简单搜索是很重要的,确信他们不能看到受限制的搜索结果以及内容也是很重要的。此外,公司需要坚持保密制度以及实行保护敏感的信息,举个例子,雇员个人的身份信息。微软的解决方案从两个方面满足企业客户在信息安全方面的要求: 对于通用以及标准的用户权限系统,微软产品提供了内建的产品功能支持

48、信息搜索安全,保障用户只能看到其权限范围内的信息搜索结果。这些权限系统包括:Windows文件共享(File Share);Lotus Notes;Microsoft Exchange邮件服务器;SharePoint站点;基于Cookie认证的某些企业内网。对于这些内容源的搜索,仅需要通过管理界面进行系统的部署和配置,避免了额外的开发,并保障搜索系统的性能。 对于用户商业应用系统,微软平台提供了可供客户化的安全剪裁接口(Customer Security Trimmer Interface),以为客户或合作伙伴提供权限的客户化定制。2.4.3 易于扩展的开发接口支持客户化灵活定制需求微软搜索平台建立在可扩展的体系架构上,支持Web Services以及行业互操作标准,包括XML以及SOAP。微软搜索平台提供了丰富的网格部件(Web Parts)帮助您快速构建各类的搜索应用,使搜索技术能够快速部署于不同的应用场景。微软搜索平台更提供了开放的应用开发接口(API),使得搜索技术可以更易于实现与其他信息系统的集成,并提供广东移动业务所需的灵活要求。2.4.4 丰富的搜索报表支持企业不断实现搜索技术的优化搜索的一个重要指标是相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论