微软企业级网站搜索解决方案参考架构_第1页
微软企业级网站搜索解决方案参考架构_第2页
微软企业级网站搜索解决方案参考架构_第3页
微软企业级网站搜索解决方案参考架构_第4页
微软企业级网站搜索解决方案参考架构_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、专业解决方案部微软(中国)有限公司2007年8月微软企业级网站搜索解决方案参考架构指南变更记录日期作者版本变更说明2007.9Aleck Su1.0目录1.概述42.解决方案应用架构指南42.1.解决方案软件模块42.2.1 微软企业级网站搜索解决方案功能架构图如下:42.2.2微软企业级网站搜索解决方案实现流程说明图如下:62.2.3微软企业级网站搜索解决方案模块实现的技术关键:62.2.应用扩展开发73.部署场景及参考部署架构指南73.1.部署前考虑的因素73.2.开发部署83.3.终端用户部署94.附录131. 概述微软企业级网站搜索解决方案是一个基于Sharepoint Server

2、2007搜索引擎的解决方案。该解决方案的目的是向使用Microsoft Sharepoint2007的企业用户以及合作伙伴演示基于Sharepoint2007如何爬取基于Form认证的网站、基于图片数字认证的网站以及包含Ajax网站和大量Javascript生成链接的网站的解决方案,最终为企业门户加入一个强大的,适应各种Web环境的搜索引擎。2. 解决方案应用架构指南2.1. 解决方案软件模块2.2.1 微软企业级网站搜索解决方案功能架构图如下:Crawling Result.2.2.2微软企业级网站搜索解决方案实现流程说明图如下:1、 通过“爬网设置”WebPart页面可以:设置及修改爬网参

3、数、查看爬网日止、启动及停止爬网任务2、 爬网引擎监测爬网任务数据库(基于SQL Server 2005),一旦监测到任务则启动爬网模块。3、 爬网模块将根据目标网站的配置信息登录网站4、 爬网模块抓取到目标网站的页面后存放到SharePoint Document Lib中,系统会根据不同的网站配置创建相应的SharePoint Folder存放页面的内容。5、 通过SharePoint 2007自身的爬网引擎,设置对服务器场中的SharePoint Server进行爬网,同时将会对微软企业级网站搜索解决方案爬取的网页内容完成索引6、 通过SharePoint2007的“搜索中心”将可以搜索到

4、爬取的网页内容2.2.3微软企业级网站搜索解决方案模块实现的技术关键:爬网模块WinForm + .NET2.0 Webbrowser Control+MSHTML Controll 使用基于WinForm能充分利用windows的消息循环及其多线程机制。l 使用.NET2.0 Webbrowser Control获取网页,可以利用IE内核快速实现高效爬网l 网页分析基于IE内核的MSHTML 控件数字图片认证模块l 采用“Otsu阈值算法”二值化图片预处理l 采用“欧氏最小距离法”聚类分析识别图片数字爬网配置模块WebPart开发及数据库的读取l 使用WebPart开发模板控件,快速开发We

5、bPartl 使用MenuTemplate、SPGridView类实现与SharePoint Search Service的无缝集成l 在wss_minimaltrust.config文件中添加节点实现对数据库的读写模板控件下载地址:/Lists/List2/Attachments/24/VSeWSS-new%20version.zip2.2. 应用扩展开发l 通过扩展数字图片识别模块,可以实现爬取“变形字体”、“中文字”认证的网站l 通过扩展页面认证模块,可以实现多选项认证的网站l 通过开源方式实现完全的用户自定义扩展3. 部署场景及参考部署

6、架构指南3.1. 部署前考虑的因素l 微软企业级网站搜索解决方案依赖于包含有.NET FrameWork 2.0的Windows环境l 微软企业级网站搜索解决方案的部署环境运行有Microsoft SQLServer 2005以及Microsoft SharePoint Server 2007l 在Microsoft SharePoint Server 2007中创建共享服务器3.2. 开发部署1、 安装Visual Studio .NET 2005(选项须包括C#开发语言)。2、 安装webpart开发模板:此模板必须运行于Windows SharePoint Service 3.0或以上,

7、模板控件下载地址:/Lists/List2/Attachments/24/VSeWSS-new%20version.zip3、 创建开发数据库:使用文件夹下的CrawlConfigDB.dat数据库备份文件创建CrawlConfig开发数据库。4、 设置数据库连接:修改crawlconfig.xml文件,并将文件复制到%Windir%system32下,如图:5、 打开CrawlNet.sln解决方案:6、 编译CrawlInstall的准备首先编译CrawlSetting项目,复制其binDebug目录下CrawlSetting.dll至CAB目录,然后运行CAB目录下build_cab.bat文件,生成CrawlWebPart.CAB,如图:3.3. 终端用户部署1、 运行setup.exe文件,如图:2、 配置数据库连接,如图:3、 选择安装文件夹4、 设置服务登录帐号及密码,如图:5、 打开SharePoint2007的“共享服务管理: S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论