网站全文检索方案.doc

上传人：奇*** IP属地：河北上传时间：2020-03-19 格式：DOC 页数：25 大小：2.63MB 积分：15 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江天宇信息技术有限公司政务公众网全文检索系统技术方案浙江天宇信息技术有限公司第一部分对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网，方便公众网上办事，提高了政府机关的办事效率。但是，随着网站内容的不断丰富，网页数量也呈几何式增长，由此也带来了一个问题：政府门户网站或网站群信息量巨大，缺乏一条有效的信息快速获取的途径，导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容，查询所需要的信息却变得越来越困难，于是很快就失去耐心，离开这个网站。借鉴门户网站的经验，通过搜索引擎的方式，建立基于网站内部页面的导航系统网站全文检索系统，就成为解决以上问题的主要措施。然而，政务公众网全文检索系统还不同于一般的搜索引擎系统，它需要对网站上几乎所有的内容都需要采集下来，包括各种格式的页面信息，采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统，考虑到应用的需要，没有对动态数据库中的内容进行采集（是否具备此类功能是未知的）。而许多政府网站的页面，很多是通过程序动态生成的，或者是存储在后台数据库中的，格式多样。浙江天宇的采集系统考虑到实际的应用需要，除了具备搜索引擎系统具备的采集功能外，还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。本方案中采用浙江天宇信息技术有限公司开发的新一代智能化的互联网天信息采集系统作为应用核心，海量非结构化全文数据库系统作为后台WEB页面的管理平台，提供一站式的全文检索服务。这将有效地解决上述问题。1.2需求分析1.2.1应用目标通过建立政务公众网全文检索系统，实现对以XX市政务网为核心，涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集，建立搜索引擎库，在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统，公众只需要登录到XX政务网，通过检索系统，便可以查询到所有XX各级政府部门的门户网站上所需要的政务信息，提高公众的查询与使用政务信息的效率，从而真正体现XX市政府部门便民服务的核心与宗旨。1.2.2功能需求根据应用目标和招标书建设内容的要求，在认真阅读分析招标书和了解XX市政务网应用现状基础上，我们理解，XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设：采集子系统、管理子系统、检索子系统。采集子系统：实现对各级政务网站WEB页面的批量采集的系统工具，支持对各类格式信息的采集。管理子系统：实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。检索子系统：实现对采集的WEB页面的智能化全文检索，支持各类检索方式。另外，系统应具备良好的稳定性与安全性，保证系统与采集的数据内容的安全。1.3 方案综述1.3.1内容安排与概要首先，对政务公众网全文检索系统的需求进行了分析，明确了建设目标和内容；然后进行了总体技术方案的功能设计，从应用软件的选择、系统功能模块等方面进行了设计；在系统功能模块的设计和实现方面，对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次，就应用系统的安全方面进行了详细的描述及功能设计。最后，就招标书中应用系统功能需求条款进行逐个应答。1.3.2方案特点l 采用了业界主流和开放的技术标准和设计模式，提供开放的、平台级的应用编程接口和管理工具，可根据业务需要进行扩展；l 系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索平台，保证了系统具备了先进性与良好的开放性。l 智能化采集系统具备强大的采集功能，能够采集几乎所有类型的数据内容，支持ROBOTS协议。l 采用统一身份认证、权限控制、用户操作审计等安全措施，使得整个系统具有较强的安全性。第二部分技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例，针对XX市政府政务公众网全文检索系统的实际需求及未来的发展需要，提供一整套解决方案与成熟的具有自主知识产权的系列软件产品政务公众网全文检索系统。从应用实现的角度，政务公众网全文检索系统选择基于：浏览器与客户端相结合来实现目标系统的应用功能。基于用户方的硬件环境及操作系统环境，我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。XX市政务公众网全文检索系统应用软件平台网站搜索引擎系统全文检索系统CGRS 5.1智能互联网信息采集系统CGRS搜索引擎库CGRS全文数据库数据库平台UNIX / LINUX / WINDOWS 2000/2003操作系统2.1.2 系统功能结构政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台，以智能化网络机器人技术及全文检索技术作为应用核心，通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索，构建XX市政务公众网全文检索系统。2.2 系统功能及技术指标2.2.1采集子系统功能及技术指标采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集，通过内容过滤，加载到CGRS搜索引擎库，进行管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个部分：1、确定采集目标网站，建立采集工程；2、对采集工程进行搜索策略的定义及过滤条件等内容的设定；3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重；4、采集的内容自动加载到CGRS搜索引擎库，交由CGRS全文数据库管理系统进行统一管理。采集子系统工作流程图功能描述（1）建立采集工程在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。政务网采集工程http:/www. XX政务网.定义采集的入口，可以自行根据需要进行设定。完成采集工程新建工作后，可以立即进入工程的参数配置确定需要采集的目标对象:“XX政务网（http:/www. XX政务网.），建立页面批量采集工程。起始URL中可以含有日期通配符，如$year、$month、$day或是循环变量loop，对于带有日期信息的入口网站地址URL，可以使用日期通配符；对于一些数字或字符串的URL，则可以使用LOOP循环变量进行设置。通过这些通配符，可以方便地设定具有一定规则的URL的多个采集入口，方便地进行多入口分类进行采集。提高采集效率与采集质量。对于“XX政务网”网站，需要分频道分栏目检索功能，系统采用建立多个采集工程的方式，实现分栏目分频道采集，统一的全文检索的目标。对于一些不需要分频道检索的其他网站，则可以通过建立一个采集工程的方式实现整个网站信息的的全部采集。（2）采集工程参数设置URL选项对于主机地址的限定，系统提供四种参数设置规则：地址不限。用户选中后，系统会无限制进行采集，可以通过XX政务网内的所有链接，进行WEB页面的采集。本站内。对本站内搜索的WEB页面进行批量采集，对于其他网站上的友情连接网站，则不进行采集。本站内限定的目录。通过对采集路径进行限定，实现了分栏目分频道进行采集，为分频道进行全文检索奠定基础。通过这个参数的设定，可以定位到某个栏目或某几个栏目的批量采集。自定义。用户可以根据需要，自己定义采集的范围，这个设置的灵活性非常高，自由度大。对于“XX政务网”自身的页面内容的采集，则选择通过限定目录的方式进行采集，便于进行分频道检索；对于采集其他网站群，则选择自定义方式在目标网站群中进行无限制采集。URL过滤。对于采集的页面，可以允许采集那些带有一定URL规则的页面，也可以排除某些带有一定URL规则的页面，提高采集的效率。采集“XX政务网”自身，需要考虑使用URL过滤方式，便于精确采集频道内容，其他的网站采集则无须考虑URL过滤。搜索限定支持robots协议，另外，系统也可以不遵循此协议支持脚本语言解析，采集通过程序动态生成的页面。搜索限定主要是设置定义采集目标网站的深度和文件类型。采集目标网站的深度设置，通过层的方式进行控制。采集“XX政务网”时，根据前面URL采集规则的设定，需要进行分频道分栏目进行采集，那么在这里层数设置为“1”，也就是对目标URL下面的页面进行采集，这样就可以精确的采集到某个或某些频道或栏目下的页面了，不会出现采集其他信息的可能。对于采集其他网站群，则选择“-1”，表示无限制采集URL规则下面的所有WEB页面。当然，用户可以根据实际需要，采集需要的层数。对于有些网站的层数是通过脚本语言控制动态生成的，我们可以选择本系统中“脚本语言解析器”进行脚本解析，这将有效地解决通过脚本语言动态生成的页面，做到100%的目标网页内容的采集。采集的文件类型。系统支持对页面内容（htm、html、xml、shtml、asp、php、jsp、notes等）、网页附件（doc、xls、ppt、txt、pdf等）、图片（jpg、gif、jpeg、bmp等）、音频（MP3等）、视频（AVI、RM、MPEG等）、JAVA（由JAVASCRIPT程序生成的页面）等内容的采集。对于页面内联图片的采集，可以做到保持原样不变的进行采集。根据本项目的实际需要，我们选择“总是下载内联图片、全部格式”进行页面内容的批量采集，这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集，实现用户方的功能需求，其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库，并在网页入库前做一些预处理的操作流程：选择数据库、数据预处理、网页内容提取。支持各类码集及各类码集的转换可以设定过滤条件，过滤含有黄色信息的页面发送数据库，是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进行统一的管理。数据预备处理，可以支持各类字符集编码，如GBK、GB2312、BIG5等，并可以实现采集页面内容的时候，自动进行识别，将BIG5码集的内容转换为GB2312码集。自动分类，主要是实现对采集的内容按需要进行分频道分类采集，便于用户分频道进行检索。排除URL是根据分频道采集的时候进行URL上载到数据库前的二次过滤，提高分频道采集的准确性（后面进行如何进行分类进行详细的描述）。网页内容过滤是在采集的时候，可以设置过滤条件，将含有黄色信息的页面进行采集过滤。在本项目中，数据预处理各类参数我们都需要进行细致的设置，便可达到用户的功能需求。网页内容提取，是实现对采集的WEB页面进行内容的过滤提取，并进行格式化。在本项目中根据实际情况，可以不需对这项参数进行具体的设置。分类规则及实现根据青岛政务网的栏目，设置分类规则分类采集主要是根据网站栏目的URL特征进行采集的分类分析青岛政务网的栏目的URL特征，生成匹配规则只要采集的页面URL满足匹配规则，则归到相关的分类对于搜索引擎库的各个字段，采集子系统根据采集的需要均可进行个性化的设定。高级属性设置配置网页下载的一些高级属性，主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站，可以预先填入用户名和密码来访问该网站等功能。支持采集客户端通过代理服务器进行采集，选中进行通用配置支持对需要身份校验的网站进行采集配置代理服务器支持对硬盘进行管理，用户可以设定硬盘资源不足停止下载及警告根据目标网站的实际情况，用户可以设置扫描间隔建库方式：选择脱机浏览还是上载入库方式。应选择上载入库的方式。代理服务器：如果用户需要通过代理，才能上网，就需要在通用配置里设置代理服务器的信息。系统支持通过代理服务器进行采集。下载配置：用户可以自行配置扫描与下载的时间间隔，以达到最佳的采集效果。用户根据需要设定采集扫描间隔，进行增量式采集。系统会根据设定，自动进行扫描与采集。在通用配置里，用户可以设置硬盘资源不足的时候进行警告及停止页面的下载。至此，完成这个采集子系统的配置工作，可以通过天宇的下载调度中心自动控制工程进行增量式下载更新。技术参数指标页面采集内容的完整性。适应网站内容格式的多变性，能完整地获取需要采集的页面。提取内容的深度与精确性。能方便将网页中的结构化字段信息提取出来，如日期，标题，作者，栏目等等内容，过滤网页中如广告等无用信息。内容自动去重。用户选择几种去重标准：如标题、作者一样，正文字节数一样即认为是重稿，或者内容一模一样，认为是重稿；或者80、90相似认为是重稿等标准，可供用户选择。网站采集范围的精确定义。通过起始URL地址、URL范围表达式（可包含正则表达式）、搜索深度、文件类型控制的定义来精确描述需要采集的网站范围，可以精确到整个网站、特定栏目、特定页面；过滤掉无用的链接。主题词过滤网页。在采集过程中，可以定义主题词的逻辑关系(与、或、非)，对网页内容进行过滤，精确地获取与采集主题相关的网页内容。网站动态数据库抓取。能方便抓取网站上后台数据库的内容(JSP, ASP, CGI)，和抓取需要通过用户身份校验的网站内容。网站历史数据的批量下载。方便地成批抓取网站上的历史数据。对于URL中带日期变量的网站，只需要设定一个规则，就可以任意下载指定一段时间范围内的网站历史数据。自动分类和个性化分类的结合。即可以通过计算机学习的自动分类规则，对获取的内容进行自动分类；也可以使用主题词分类方法，对下载的内容进行人工批量分类（机检分类）。支持简繁体网站、中英文网站的搜索。可靠的下载中心调度，可以设置采集间隔，支持多个下载任务同时高速下载，每个任务可以设定多个线程同时下载。2.2.2管理子系统功能及技术指标管理子系统主要是实现对采集下来的各类WEB页面、附件等非结构化资源通过CGRS全文数据库进行统一管理。另外，实现对采集过程及用户进行有效地管理。管理子系统操作系统 UNIX / LINUX / WINDOWS NT/2000内容管理多码集： GBK、BIG5、 GB2312CGRS全文数据库WEB页面、附件等数据库新建、维护等采集工程管理超链接管理系统运行管理系统管理员、数据库管理员与一般检索用户三级用户管理用户使用及操作权限管理，用户使用检索统计分析等采集管理用户管理CGRS全文数据库采集系统参数配置等用户身份认证同义词典、过滤词典管理、日志管理管理子系统结构示意图内容管理（1）功能概述内容管理是以CGRS全文数据库作为后台管理系统，是对WEB页面、文本、电子文档、图像、声音、映像等页面附件提供强大的数据库管理和检索功能的全文数据库平台。系统内嵌高可用性的索引机制，可以使用文中的任意字、词、短语、句和片段进行检索。系统具有强大数据库管理及维护功能，如搜索引擎数据库定义、建立、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录查重等功能。管理子系统支持对整个系统（采集子系统、管理子系统、检索子系统）进行总体的控制，包括采集系统的启动、检索子系统的启动与停止，已经对这两个子系统的运行状态进行有效的监视。如采集子系统的采集状况、完成比率等，检索子系统检索用户情况等。系统支持对采集的站点进行定义，如配置站点的起始URL、URL过滤规则、抓取深度、设置扫描间隔、采集频道分类等。关于采集管理，详见采集子系统功能概述。用户可以选择一定的时间段（日、周、月）来统计检索量和关键词检索频度系统具备用户分析统计功能，用户可以根据需要进行用户检索情况统计，用户检索用词统计，按天、周、月、年等进行用户使用情况统计，用户词频统计等等。系统具有独立于操作系统的身份验证机制；用户使用信息资源的授权机制；用户使用操作限制等。同义词典的管理与维护。用户可以在记事本里编辑同义词典，也可以直接在管理子系统中编辑同义词典，并可以对编辑好的同义词典进行修改、删除与维护等操作。直接编辑同义词典，并方便进行维护与管理 API接口。系统提供标准的二次开发接口API，用户可以根据实际需要，定制个性化的应用系统。具体接口包括：标准的C+管理与检索接口（支持Windows和Unix下的通用开发工具）；Javabeans类库应用程序开发接口(支持J2EE环境下的开发工具)；C#类库应用程序开发接口（支持.NET平台下的开发工具）。通过这些接口，可以和其他系统集成。（2）技术指标开放和可扩展的体系结构s 分布式体系架构，支持多域分布和集群分布；s 支持所有主流的操作系统和各种Web应用服务器及Web服务器；s 支持J2EE及.NET体系架构；s 32位平台支持64位数据库文件，即支持大于4G的数据库；s 支持OFFICE文档和PDF文档的自动过滤索引；s 支持Web自动提取内容的管理和检索。中文自然语言处理功能s 字元检索策略，在保证检索性能的同时达到100%查全率，保障了查准率；s 提供自动分类技术、自动摘要功能、文本相似性比较功能；s 支持按词索引、按字索引、字词混合索引；s 支持文本自动提取和模式提取；s 字段重复内容自动去重和计数。完备的数据管理s 支持中英文、多语种混合检索；s 支持GBK、GB2312、BIG5内码集，内核支持unicode码集；s 支持多种数据类型（日期、数值、大数值、文本、二进制）；s 并行索引技术, 对于多CPU机器能大幅度提高索引性能；s 支持唯一性字段；s 支持字段内容自动去重；s 支持数据库记录的增删改操作；s 支持多媒体数据的关联管理和检索；s 支持数据批量标引；基于主题词表的批量分类；s 支持对检索数据集进行批量管理的功能；s 数据库优化重组；s 支持Web站点镜像检索和内容自动提取；s 数据库分类导航树的管理。开放性s 系统支持XML标准交换协议，保证了系统具有良好的开放性。（3）性能指标l 数据库容量：每个搜索引擎数据库最多可存贮存42亿篇文献；l 每个服务器允许建立数据库可达936个；采集管理对采集进行管理主要包括：采集工程管理、运行管理、超链接管理等几个部分。采集工程管理，包括采集工程定义、工程参数设置管理等，详细的采集工程定义与管理见采集子系统的功能概述部分。运行管理，包括对系统的启动、停止及运行状态的监视等运行管理。对于采集系统的启动无须手工进行启动或停止，可以通过下载中心自动设置运行时间间隔进行自动运行或停止，同时进行运行状态的监视，系统出现运行故障，会自动进行提示。详细的运行管理见采集子系统相关的功能概述部分。超链接管理，主要是对一些网页死链或过期的网页链接进行管理，包括死链的删除、修改等管理。在管理子系统中可以直接进行相关操作。直接删除或修复死链过滤词典的管理与维护：用户定义过滤词典，可以直接通过记事本进行编辑，编辑完成后直接导入采集子系统中，用户在设定采集工程时调用过滤词典，系统会自动根据过滤词典进行采集页面过滤，如过滤含有黄色信息、反动信息的页面。用户管理（1）功能设计用户管理。系统提供独立于操作系统的用户权限管理，用户操作审计、分析与统计，日志分析与统计等功能。系统允许最多管理30000个用户，用户根据实际需要可以自定义用户数。对于无须通过身份验证的普通检索用户，则通过访客用户可以直接访问，共用一个检索帐号。用户权限管理。系统允许用户对不同的操作用户定义不同的操作权限，并对用户的操作进行审计，提高系统的安全性。（2）技术指标s 内置的用户权限管理体系、多级用户管理；s 灵活的用户数据库授权机制；s 数据库管理、数据维护、系统管理、检索各种权限分开，可以按需分配；s 用户分组管理；s 数据库检索频度统计、检索词频统计；s 检索日志和数据库维护日志的管理。2.2.3 检索子系统功能及技术指标功能描述（1）通用全文检索功能。系统提供全方位的全文检索手段，支持多种检索运算符，包括外部特征与正文内容的各种逻辑组合检索，逻辑或、与非的检索，符合通用搜索引擎使用习惯；多字段复合检索、历史检索、相关词扩展检索、分类导航检索、中英文（字符）混合检索，支持前方一致检索、短语与句子检索功能等。检索子系统符合通用搜索引擎的使用习惯，支持搜索引擎搜索的绝大部分功能，并更适合与贴切政府部门政务内网、政务公众网检索的需要。系统实现了采集与检索分频道处理，网页标题与内容摘要的自动提取与动态生成，用户通过关键词检索后，会在标题和摘要中以高亮显示，搜索结果分别按照标题、摘要、内容进行类聚，并剔除重复性的内容，并支持对检索结果按模版显示及网页原样进行显示；用户需要查看所检索的信息在网页中所在的位置，可以通过存储在搜索引擎库中的网页快照进行浏览；对于网页附件（DOC、XLS、TXT、PDF），存储在网页的可查询附件字段中，系统自动建立索引，可以进行全文检索；系统实现了对中文、英文、中英文、德文、法文等西文进行单独检索与混合检索，并具有100%的查全率与极高的查准率。支持逻辑组合检索，符合搜索引擎使用习惯检索关键词在标题和摘要中高亮显示网页检索动态摘要自动生成检索结果按标题、内容进行类聚，网页标题自动提取模糊检索、距离检索（2）智能全文检索功能。系统提供基于知识或同

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网站全文检索方案.doc

文档简介

温馨提示

最新文档

评论

网站全文检索方案.doc

文档简介

温馨提示

最新文档

评论

相关文档