




已阅读5页,还剩59页未读, 继续免费阅读
(系统工程专业论文)专业服务网站搜索引擎的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两要 随着互联网的迅速发展,各种各样的网站乜层出不穷。为了满足人们对获得 信息的时效性、针对性等方面的新要求,出现了专业服务网站。专业服务网站是 以行业或领域为服务对象的特殊网站。它主要针对某一特定领域、某一特定人群 或某一特定需求,提供内容集中而深入的信息与服务。 如何有效利用i n t e r n e t 上的大量信息资源,从中快速发掘出所需要的信息 是搜索引擎要解决的迫切问题。目前搜索引擎的研究和应用已经取得了巨大的进 步和发展,但是对于专业服务网站信息工作者来说,仍然存在下述几个问题有待 去进一步研究:搜索引擎对实时信息的搜索困难;无法对动态网站信息进行搜索; 无法满足特定用户的个性化搜索。 针对以上存在的问题本论文主要研究工作如下: 1 应用宽度优先算法对专业服务网站进行实时信息搜索。 2 研究了动态网站的信息搜索问题。 3 实现了用户定时、用户定制、自动搜索信息的个性化服务。 4 实现了网页信息的自动提取功能和相应的信息管理功能。 5 采用面向对象技术来设计系统,使用v c h 6 0 实现了系统。 本论文对专业搜索引擎的技术基础、设计思想、应用系统的结构和实现都 做了有益的研究和探索,具有广泛的应用价值和学术价值。 关键词:专业服务网站搜索引擎:搜索算法:信息萃取 a b s t r a c t w i t ht h ef a s td e v e l o p m e n to fi n t e m e t al a r g ea m o u n to fv a r i o u sw e b s i t e sa p p e a r e v e r ym o m e n t 。a m o n g t h e mt h e r ea r es o m es p e c i a l i z e dw e b s i t es e r v i n gf o rm e e t i n g t h en e e do f s p e c i a li n f o r m a t i o no fs p e c i a lf i e l df o rs p e c i a lb r o w s e r s i t se m e r g e n c yf o rs e a r c h i n ge n g i n et os o l v et h ep r o b l e mo fh o w t of i n dt h en e e d e d i n f o r m a t i o nf r o mt h eg r e a td e a li n f o r m a t i o nd a t a b a s ea sq u i c ka sp o s s i b l e a l t h o u g h t h e r ea r eg r e a tp r o g r e s si nt h er e s e a r c ha n da p p l i c a t i o no f t h es e a r c h i n ge n g i n e f o rt h e s t a f r0 ft h es p e c i a l i z e dw e b s i t e st h e r ea r es e v e r a li s s u e st ob er e s e a r c h e di nd e t a i l , s u c ha st h ed i f f i c u l t d u r i n gs e a r c h i n g t h ei n s t a n ti n f o r m a t i o n ,t h ed i s a b i l i t yo f s e a r c h i n gt h ed y n a m i ci n f o r m a t i o no nt h ew e b s i t ea n dt h eh e l p l e s s n e s so fm e e tt h e i n d i v i d u a ls e a r c ho f s p e c i a lu s e k t h i st h e s i ss e to u tb a s e do nt h ea i ma ts o l v i n gt h ep r o b l e m sm e n t i o n e da b o v e : 1 、t h e a p p l i c a t i o n o ft h eb r e a d t h f i r s ts e a r c hi n s e a r c h i n g t h e d y n a m i c i n f o r m a t i o no nt h es p e c i a l i z e dw e b s i t ei n s t a n t l y 2 、t h es t r a t e g yo f s e a r c h i n g i nt h ed y n a m i cw e b s i t e 3 、t h ei m p l e m e n t a r yo fs p e c i a l i z e ds e r v i c eo fa u t os e a r c h i n go nu s e rd e f i n e d t i m ea n di nu s e rd e f i n e df o r m 4 、t h ei m p l e m e n t a r yo fa u t op i c k i n g - u po fi n f o r m a t i o na n dt h em a n a g e m e n to f w e b s i t e t h es y s t e mi sa c h i e v e db yu t i l i z i n gv c + + 6 0f o l l o w i n gt h ed e v e l o p m e n t w i t ht h ec o n c e p to f o b j e c t o r i e n t e dt e c h n o l o g y t h i si n t e l l i g e n c es e a r c he n g i n eh a st h e e x t e n s i v ea p p l i c a t i o nv a l u e k e y w o r d s :p r o f e s s i o n a ls e r v i c ew e bs i t e s e a r c he n g i n e ;s e a r c ha l g o r i t h m ; i n f o r m a t i o np u b l i c a t l o n i i 专业服务网站搜索引擎的设汁与实现 1 引言 1 1 问题的提出 从2 0 世纪9 0 年代中期开始,互联网在我国迅猛发展,网上中文信息资源快 速增长。根据中国互联网信息中心( c n n i c ) 发布的中国互联网用户调查结果, 截止到2 0 0 2 年1 2 月3 1 日,全国域名数为9 4 0 3 2 9 个,全国网站数为3 7 1 6 0 0 个, 共1 6 0 万个网页,3 1 6 0 g 数据量。网上政府信息、行业和企业信息、科技教育信 息、文化娱乐信息、新闻信息、旅游信息、区域特色信息等均已形成一定规模【”。 这无疑为网络的经营、开发奠定了用户基础。 进入2 l 世纪,i n t e m e t 已成为计算机领域中最热门的一项技术,它的普及使 人们可以突破空间、地域的限制,方便地共享资源。网络技术已日益成为各行业 进步与发展的基础,从网上进行信息搜集与发布,也日益受到人们的重视。正如 英语作为一种世界性语言在国际商务活动中的基本作用一样,网上信息交流也变 得越来越不可缺少。随着社会的发展和信息技术水平的提高,信息需求也在不断 的演变和发展。现在人们已经越来越认识到网络信息资源的重要性,认识到信息 服务的真正价值最终体现在所提供的信息内容之中。随着人们信息意识的增强, 人们对获得信息的时效性、针对性、多媒体性等方面有了新的要求,这样对网站 的要求也随之提高。综合性网站很明显无法切实满足这些不同群体的需要,网络 的发展客观上就需要一批能够满足某一特定领域,某一特定人群或者说是某一特 定需求的网站,其表象上是内容集中却比较深入【2 儿”,于是出现了所谓的专业服 务网站。 专业服务网站。是以行业或领域为服务对象的特殊网站。如面向机械、化工、 电力、计算机等行业的服务网站。它是针对某一特定领域、某一特定人群或某一 特定需求,提供内容集中而深入的信息与服务的网站【4 】。它们一般是由科研所、 科技公司、协会组织、学会组织、政府相关部门等建设的网站。这类网站数量庞 大,且绝大多数为免费开放。广大科技工作者通过浏览与自己专业相关的此类网 站,可以了解同行的科研动态、产品、发表的文章等信息,还可以寻找合作伙伴、 交流信息等【5 】。例如:大连科技信息网【6 】,沈阳科技信息网【7 1 等。 专业服务网站针对专业领域中的特定的用户群,可以为他们提供专业的、度 专业服务网站搜索引擎的设计与实现 身量造的服务,它能够限制用户查找类别信息的范围,使用户快速找到他们需要 的信息。这种信息的附加值明显增加,是普通内容网站所不能及的。作为提供专 业、集中的内容服务网站,必须首先考虑到为用户提供争业的信息及围绕专业展 开的服务。网上信息发布应简捷、明快。网上信息,毕竟不同于纸面印刷的信息, 人们在阅读、浏览时,一般希望简洁、明了,同时,文字风格应尽量清新明快, 以减少人们的阅读疲劳。由此看到,要保证一个专业网站的生命力,还应为信 息工作者考虑到如何确保在尽可能短的时间内找到最需要的信息内容,并对信息 进行专业处理、深度加工,及时更新内容。 专业网站现在主要存在以下四个问题【s j : 1 没有为用户和信息人员提供一个合适的专业检索服务、专业搜索引擎, 查找所需的信息很不方便。常常是用户找了几千甚至上万条记录出来,根本无法 从中再细找。或者找到的内容和要找的内容不是一个专业领域内的内容,因而信 息无效。 2 信息工作者不得不花费大量时间在收集、编辑和发布信息上,工作枯燥 且大多属于重复性劳动,还有较高的技术要求,而对信息内容的关注反而少了。 3 信息更新不够及时,或者提供一些过时、不适当的信息。 4 虽然已有足够大的信息量,但由于存储或管理不适当,难以去检索所需 信息,更加无法分析、挖掘数据,从中提炼规则或做出判断、预测。 专业网站的信息工作者是如何获得信息呢? 这些信息主要来源于i n t e m e t 。 i n t e m e t 是一个开放、分布的信息空间,但它本身所固有的三个特点已经明显地 阻碍了人们充分地使用i n t e m e t 上的信息资源【9 】: 1 i n t e m e t 上可利用的信息是无组织的,多种结构形式的,并且分布在全世 界的各个站点上。 2 数据和服务的类型以及数量每天都在大量增加,因而信息可利用性和可 靠性也在不断地变化。 3 由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常 是模糊的,有时甚至是错误的。 由于上述原因,在i n t e m e t 上进行信息搜索经常会出现“信息过载”,即网上 的信息是海量和无组织的,易发生“资源迷向”,即用户不知道如何更加有效地 获得有用的资源、利用资源等问题。 信息工作者也面临这个问题:如何快速、准确的获得自己需要的信息,并发 布在网站上。一般,信息工作者部是通过人工浏览网站或者通过搜索引擎软件在 专业服务网站搜索引擎的设计与实现 网上获得相关的信息。人工浏览网站需要大量的时间和精力。通过搜索引擎软件 可以快速的获得相关信息f l 。常用的搜索引擎有诸如y a h o o 、g o o g l e 、b a i d u 等 w e b 搜索引擎( s e a r c he n g i n e ) 。但是通过传统的搜索引擎获得的信息比较杂乱, 同时,搜索到的相关信息在网页上是以超链接的形式给出,信息工作者想要获得 信息,还要将搜索到的各个链接网页打开,然后手工提取有价值的信息。例如: 信息工作者用g o o g l e 进行关键字“非典”的搜索,将共有l ,9 3 0 ,0 0 0 项查询结果 。用b a i d u 进行搜索,百度找到相关网页约6 ,1 9 0 ,0 0 0 篇【12 1 。信息工作者要在 这么多的信息中找到自己需要的信息是十分费力的,要从这么多的杂乱信息中获 得自己有用的信息,他们还需要做很多的工作。 对于专业服务网站的信息工作者,他们主要是从已知的和自己工作相关的网 站上获取信息。网站信息工作者负责信息的发布,这就要求发布的信息尽可能及 时、准确。所以他们希望在网上获得最及时、最新的信息。信息工作者在网站上 发布的信息是以标题、内容的形式发布的,不是以网页链接的形式表示。所以他 们希望直接搜索到的信息不仅仅是网页链接,而是网页内容的主体和标题等有用 信息。这些需求通过常用的搜索引擎是无法完成的。这就需要通过专用的搜索引 擎软件来解决这些问题,使得信息工作者从枯燥、单调、杂乱的工作中得以解脱。 本文主要实现了专业服务网站的搜索引擎系统,解决了信息工作者面临的“资源 迷向”问题,对专用搜索引擘的功能、技术上的实现等各个方面进行了分析和设 计。 1 2 搜索引擎研究综述 1 2 ,1 国外搜索引擎的研究现状 从1 9 6 9 年美国国防部的计算机网络a r p a n e t 起步【i3 1 ,i n t e r n e t 不断发 展壮大,至今已快有4 0 年历史。随蓿i n t e r n e t 的飞速发展,网上的信息量越 来越多,目前i n t e r n e t 已经成为世界上最大的信息宝库+ 它已成为全球范围内 传播科研、教育、商业和社会信息的主要渠道。其中w w w ( w o r l dw i d ew e b ) 的发展速度更是惊人。据统计,自从1 9 9 1 年诞生以来,w w w 已经发展成为拥有 约l 亿用户,近千万个站点,6 0 0 g 信息容量的巨大分布式信息空间,而且这个数 字仍以每4 到6 个月翻一番的速度增加【l “。 w w w 是建立在客户机服务器模式上,以h t m l 语言和h t t p 协议为基础, 专业服务网站搜索引警的设计与实现 能够提供面向各种i n t e r n e t 服务的、一致用户界面的信息浏览系统【1 5 】。w w w 所具有的超文本和超媒体的特殊结构,带来了信息出版和传播的一场革命。 w w w 上存储着大量有价值的信息,从电子期刊、电子工具书、商业信息、新闻 报道、大学和专业机构介绍、软件数据霹、图书馆资源、国际组织和政府出版 物、统计资料、教学大纲、专家背景介绍,到娱乐信息等等,吸引了大量的用户 去使用和开发它,w w w 已展现出良好的应用和发展前景。 w w w 是一个开放性的全球分布式网络,资源分布在全球不同的地域,而且 网上的资源没有统一的管理和结构,导致了信息搜寻的困难,如何快速准确地从 浩瀚的信息资源中寻找到所需要的信息已成为困扰网络用户的一大难题,这就 是所谓的 r i c hd a t ap o o ri n f o r m a t i o n ”问题【l 。美国l y c o s 公司最近的一项调 查显示8 0 被调查者认为互联网非常有用,但他们同时为查询所需信息花费了 大量的时间精力而抱怨。为解决这个问题,各种网络信息检索工具应运而生f ” 。 在1 9 9 1 年,x w a i s 提供了一个有着友好界面的信息搜索系统,这就是搜索引 擎的早期雏形,同一年还出现了另外一个信息搜索系统,即我们所称之为 g o p h e r 的搜索软件【i 。而最早的真正意义上的搜索引擎是l y e o s ,创建于1 9 9 4 年的春天,l y - c o s 是m i c h a e l m a u l d i n 将j o h n l e a v i t t 的s p i d e r 程序接入到其索引程 序中形成的【1 9 1 1 2 0 1 。著名的搜索站点y a h o o 也是在当年成立的【2 2 1 ,n e t s c a p e 也出 现在1 9 9 4 年【2 3 】【2 4 1 。如今,搜索引擎的核,i i , 是网络导航服务。搜索引擎已成为一 个网络门户,它们提供新闻、在线图书馆、词典,以及其它网络资源,它们提供了 不仅仅是网站搜索的服务,它们的涉及面越来越广,也越来越有用f 2 ”。比 如,y a h o o 注重地是网站分类汇总服务,而如a l t a v i s t a 、e x c i t e 等则注重提供庞大 的搜索数据库 26 】【2 ”。一些网络导航服务并不提供搜索功能,他们侧重的是其它服 务,但不论如何,搜索引擎为我们的网络生活带来了极大的便利,而且是免费服 务。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前 不可同目而语。比如最近风头正劲的g o o g t e ,其数据库中存放的网页己达3 0 亿 之巨! 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目 前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索 引翠技术和搜索数据库服务提供商。像国外的l n k t o m i ,它本身并不是直接面向 用户的搜索引擎,但像包括o v e r t u r e ( 原g o t o ) 、l o o k s m a r t 、m s n h o t b o t 等 在内的其它搜索引擎则提供全文网页搜索服务。国内的百度也属于这一类,搜狐 和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎即 专业服务网站搜索引擘的瑷1 1 与实现 元搜索引擎( m e t a s e a r c he n g i n e ) 1 2 8 、【32 1 。 国外的搜索引擎主要有: y a h o o ( h t t p :w w w y a h o o c o r n ) w w w 上最流行的搜索工具之一,是一种典型的目录式搜索引鼙。1 9 9 4 年4 月由s t a n f o r d 大学的两位博士创建,将信息分为1 2 大类,每一类又分为多个专 题,只要单击这些链接点就可以逐级深入目录最终达到所需网页,同时也提供 关键字检索方式【3 3 】。 a l t a v i s t a ( h t t p :w w w a l t a v i s t a d i g i t a l c o r n ) 由d i g i t a le q u i p m e n tc o o p e r a t i o n 公司的a l t op o l a 研究实验室开发,其最大 的特点是在检索语句上与传统的联机检索语言相似。它可以对返回结果的格式进 行控制,分为标准、压缩和详细三种格式。它还能提供简单搜索和高级搜索。高 级搜索包括了简单搜索的所有特性,还允许使用布尔运算符、接近操作符和括号 等。 最近a l t a v i s t a 推出了新一代搜索引擎,它具有简单易懂、全菜单式的界面, 还能够让用户通过日期、时间、国家和语言等参数进行搜索,同时用户也可以自 定义搜索范围和结果。 i n f o s e e k ( h t t p :w w w i n f o s e e k c o r n ) 1 9 9 5 年由i n f o s e e k 公司推出,特点是采用了调频统计方法来确定词语的重 要性和相关性,可按次序检索。它的优点在于速度快和使用方便3 5 】。 w e b c r a w l e r ( h t t p :w w w i n f o s e e k c o r n ) 现在由a m e r i c a o n l i n e 公司赞助的w e b c r a w l e r 是一个杰出的搜索引擎,它 支持“自然语言搜索”。同时它还提供了一些特殊的服务,如“反向搜索网络” ( 可以看谁连到了你的网页上) 和网络统计功能等1 3 6 】。 l y c o s ( h t t p :w w w 1 y c o s c o m ) 卡耐基梅隆大学的著名查询工具,是最早出现的搜索引擎之一。它最大的 特点是采用了一种可以大大加速数据搜索速度的技术,称为c e n t i s p e e d ,另个 特色是建立了一个l y c o s 数据库,含有最常用主页的主题目录。它的优点在于速 度快、使用简便、索引很大【3 7 。 e x c i t e ( h t t p :w w w e x c i t e c o r n ) 由a r c h i t e x t s o f t w a r e 公司开发,e x c i t e 最大的特点是采用了一个称为“智能 概念抽象”的专用查询软件,允许用户用自然语言提问,目前本服务只能处理简 单的布尔逻辑检索,还不能处理高级查询服务,具有一定的按例查询功能p 8 j 。 孥业服务罔站搜索引擎的设计与实现 g o o g l e 的搜索引擎( h t t p :i w w w g o o g l e c o m ) 由斯坦福大学学生创建的风险公司开发,具有先进的技术实力,多家著名网 站纷纷升级到g o o g l e 的搜索引擎。当使用g o o g l e 搜索引擎搜索网站时,一般都 在o 5 秒以内完成搜索任务。g o o g l e 搜索引擎的特点在于使用了数据挖掘( d a t a m i n i n g ) 的技术和网站评级方法。数据挖掘技术是寻找所要搜寻数据的技术, g o o g l e 的网站评级方法则是通过分析重要网站如何插入链接以及分析其结构来 作为判断网站重要性的依据【3 9 】【删。 此外,常用的国外搜索引擎还有: h o t b o t ( h t i p :w w w h o t b o t c o r n ) o p e n t e x t ( h t t p :w w w o p e n t e x t c o r n ) h i g h w a y 6 1 ( h t t p :t w w w h i g h w a y 6 1 c o m ) d i g i s e a r c h ( h t t p :w w w d i g i w a y c o m d i g i s e a r c h ) w o r l dw i d ew e b w a r m ( h t t p :w w w w w w w c o m ) 等。 1 2 2 国内搜索引擎的研究现状 随着互联网络在中国的迅猛发展和普及,互联网络上的中文信息资源和以 中文为母语的网上用户也急剧增加,现有的外文搜索引擎不能适应中文双字节 的特殊要求。于是许多中文搜索引擎应运而生,包括大陆、香港、台湾在内的 许多以中文为母语的地区都开发出了各种各样的中文搜索引擎。 1 9 9 6 年2 月台湾的“番薯藤”中文搜索引擎正式启动,是较早的中文搜索 引擎。9 7 年5 月“悠游”公司在香港建立了“悠游”中文搜索引擎。9 7 年5 月 4 日y a h o o 发布了“雅虎”中文搜索引擎。国内的搜索引擎的建立基本是在9 7 年底及9 8 年初起步。“网易”搜索引擎于9 7 年5 月开始建设,“北极星”中文 站点信息检索系统于9 7 年1 2 月开通,9 8 年5 月“搜狐”搜索引擎建立。此后 一大批中文搜索引擎相继建立,如“常青藤”、“华好”、“搜索客”等。虽然大 陆中文搜索引擎发展的起步较晚,但发展的速度很快,许多信息公司或机构都 先后开发出了各自的中文搜索引擎【4 ”。 但总体上来讲国内搜索引擎仍处于国外搜索引擎发展的“容量建设期”,大 部分搜索引擎网页搜集不超过百万。而且不论大小都是综合型搜索引擎,没有 很好的专业型搜索引擎,搜索引辇的查询范围较窄,匹配精度不高。但也应看 到,国内在搜索引擎的发展上有许多超过国外搜索引擎的优势,比如在中文词 专业服务网站搜索引翠的堤计与实现 语切分、自然语言处理、全文信息检索方面有很强的技术实力。 中文网站搜索引擎主要有: 援狐( h t t p :w w s o h u c o i l t c l q ) 搜狐( s o h u ) 是由爱特信( i t c ) 公司于1 9 9 8 年2 月2 5 日在北京隆重推出的 有“中文网路神探”之称的大型网上中文查找工具,其技术是由麻省理工学院支 持。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础, 与日常应用习惯相结合,由编辑人员分类,因而分类质量较高。它的信息抓取范 围较其它中文搜索引擎的范围要广,不仅有国内站点,还包含国外的中文站点, 日访问率达上万人次。搜狐还提供新闻导读、娱乐天地、企业集锦和网猴等服务 项目。进入新闻导读栏耳可阅读由i t c 整理的新华社环球新闻,包括业界动态、 i n t e r n e t 、i n t r a n e t 和电子商务四个栏目的新闻。企业集锦是将国内的企业分类集 中提供给用户,为用户查询提供方便,更重要的是为企业宣传提供了一条有力的 渠道【”1 。 百度搜索引擎( h t t p :l l w w w b a i d u c o r n ) 由百度在线网络技术( 北京) 有限公司开发的商业化搜索引擎,也是全球更 新最快的中文搜索引擎,搜索可在1 秒钟内完成。百度搜索引擎在充分考虑了中 华文化特点的基础上,采用具有国际先进水平的计算机技术和搜索技术,全面解 决了当前中文搜索引擎存在的弊端。百度搜索引擎的核心技术主要是由以下六方 面组成:( 1 ) 百度“东方之蛛”网页高速收集技术( 2 ) 百度智能化中文语言处 理技术( 3 ) 百度智能化相关性算法及搜索结果排序技术( 4 ) 百度高可配置性技 术( 5 ) 百度智能化分布式结构与容错设计技术( 6 ) 百度高效的搜索查法和高反 应速度的整体设计体系【4 3 1 o 新浪( h t t p :w w w s i n a t o m c a ) 新浪( s i n a ) 是最大的中文门户网站,收录了全球资讯逾万的中文网址,并 分成娱乐休闲、商业经济、社会科学、教育就业、社会文化、参考资料、政法军 事、体育健身、科学技术、新闻媒体、文学艺术、电脑网络、医疗健康、生活服 务、参考资料、国家地域等1 5 大类,其下又细分多个小类,并提供了中文关键 词的搜索功能h 1 。 网易( h t t p :w w w y e a h n e t ) 网易( y e a h ) 搜索工具由广州网易计算机系统有限公司开发研制。它提供了类 目浏览和关键词检索两种方式,类目浏览中有商业、教育、电脑、运动、政治、 科学、娱乐等1 2 个大类各大类下又细分为若干小类。关键词检索支持全文检 专业服务网站搜索引擎的设汁与实现 索,反馈信息包括网址、提要、长度、最近修改时间和相关度等。该工具还设有 热门站点、新到站点和登录站点等栏目,并提供了与江苏接入网、国讯网络、厦 门新华信息网、瑞得在线、金华热线等网络站点的链接 4 5 】。 赛迪网推出垂直搜索引擎“i t 罗盘”( h t t p :h w w w c c i d n e t c o m ) “i t 罗盘”是国内第一个新一代基于i t 行业的垂直搜索引擎,由国内领先 的基于互联网的l t 服务集成商赛迪网( c c i d n e t c o m ) 推出。垂直搜索引擎 是面向某一领域、信息收录齐全、更新及时的垂直类搜索引擎。塞迪网的“i t 罗盘”,垂直定位于i t ,其中收录了大量经过严格过滤和人工加工的网站,结合 了网站的分类检索、网址检索和网页精确检索等方面的优势。全面、精确地提供 有关i t 行业领域的信息资源和服务,更贴切地满足用户需求。“i t 罗盘”充分 融入了个性化的设计,它为用户提供开放的接口,允许用户参与网站评价,同时 允许用户定制自己的搜索需求【4 6 】。 天网( h t t p :b i n g l e p k u e d u c n ) 由北大计算机系网络研究室设计开发,中国教育与科研计算机网示范工程应 用课题之一,并被列入c e r n e t 九五攻关项目。它提供一种检索w e b 资源及f t p 、 n e w s g r o u p 的手段。查询界面分为简单查询和复杂查询两种。由于该系统是基于 分词的,因而人名和词库中没有的专业名词将查不到或查询效果较差1 4 7 】。 悠游( h t t p :g o y o y o t o m ) 由香港优联克公司和北京优联克科技开发有限责任公司菸同开发。在北京和 重庆设有镜像站点。悠游搜索引擎智能系统能对网上新网页和每日更新的信息进 行自动搜索、识别,其中的关联性信息索引功能可自动在网页信息中搜索关键字, 并将有关联性信息的网页一并找出。悠游能自动转化简繁字体、自动搜集英文、 中文国际码和大五码的网页j 。 1 2 3 通用搜索引擎存在的问题和研究热点 搜索引擎的出现确实为人们在互联网上查找信息提供了有利的手段,然而现 有的通用搜索引擎在搜索效率、信息维护、信息重复、专业化等方面还存在着一 些问题和困难。 i 大规模的分布式数据源 基于w e b 的自身特点,大量的数据分布在数以亿计的计算机互联网上,检 索起来困难重重。单个搜索引擎的索引数据库的覆盖率一般部低于3 0 ,很难索 争、i p 服务网站搜索引擘的设计与实现 引所有w e b 资源【4 9 1 。 2 网络信息的质量问题 互联网上的信息无论从数量和类型来看部呈指数增长,大量信息的存活期却 缩短,索引数据库存储的文档和链接信息很有可能已经改变了位置或已经被删 除。当用户沿着链接到远程站点访问这些信息时,便无法浏览到该网页。这个问 题通常是通过使用一种称为链接机器人( l i n kr o b o t ) 的方法来解决的。目前, 最常用的解决办法是该机器人定期对搜索树的一部分重新漫游,或重建整个搜索 树,由于许多没修改的文档和站点也要重建,所以这并不是一个好的解决方案。 另外,网上大重的镜像站点和简单重复拷贝使得搜索引擎返回大量无用信 息,搜索返回的结果成千上万,良莠不齐,造成“信息爆炸,资源库匮乏”。 3 大量的动态网页无法检索 目前越来越多的w e b 网站使用了数据库和动态网页生成技术,而传统的搜 索引擎无法检索到这些页面。 4 异构数据源问题 1 网上检索要处理大量的多媒体信息,即使是文本信息也存在大量不同的文本 格式。同时网上信息还存在多语种问题,亚洲语言字符的检索一直是信息检索界 的一大难点。另外,w e b 可访问多种格式的数据和多种类型的i n t e m e t 站点,包 括f t p 、h t t p 、g o p h e r 以及w a i s 等。网络搜索机器人和搜索引擎必须决定它 将访问和检索哪些类型的i n t e m e t 站点和哪些数据格式。 5 忠实表达的问题 经典的信息检索界认为用户很难简单地用关键字来忠实表达他所真正需要 检索的内容。表达的困难将导致检索结果的不理想,而且如何将结果表达成用户 容易理解和使用的方式也是一个难题。 6 搜索引擎的数据重复 常用的搜索引擎很少能够与其它的搜索引擎共享数据,其结果就是多个搜索 引擎检索相同的资源和文档,多个机器人搜索访问同样的w e b 站点,这无疑带 来了不必要的网络和服务器负载。 由于现有的搜索引擎有上述很多的缺陷,因此搜索引擎仍是网络和情报检索 的研究热点,当前主要的研究热点有: 1 能充分表达用户查询要求的查询语言 现有的搜索引擎的奁询语言睡至比成熟的商业性的情报俭索系统的查洵语 言还要简单。当然这是由搜索引擎所处的网络环境所决定的。一套能充分表达用 争业服务网站搜索引挚的设计与实现 户要求但叉不增加网络负载的查询语言是搜索引擎给用户的第一个良好的印象。 2 索引数据库的组织和管理 与情报检索系统不周,搜索引擎的索引数据库是网络信息的一个轨迹。它要 随网络信息的变化而变化,因此它除了数据增加以外还需要有数据的删除和修改 功能。如何对大容量的、非结构化的信息进行增、删、改操作也是一个值得研究 的问题。 3 信息的自动加工 在传统的情报检索中,数据源基本上是人工加工且有标准的用词( 词表) , 查全率和查准率都比较高。而搜索引擎对网上收集到的信息一般是采用自动加 工,因此如何对信息进行准确的分类和标引是搜索引擎要研究的主要问题。 4 提高检索的查准率 网上的信息相当丰富,现有搜索引擎的问题不再是能找到多少文献,而是找 到了太多的文献,且许多文献不一定与用户要求非常相关。因此提高查准率是搜 索引擎查找效率的主要体现。 5 w e b 信息的挖掘 信息挖掘是研究如何迅速发现和收集网上新加入的信息和被删除的信息,以 及如何利用信息之间的各种关系等。网络搜索引擎对网络研究人员和情报检索研 究人员都是一个值得研究的课题。 1 2 4 专业搜索引擎的研究现状 通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难,但 是目前通用搜索引擎在使用上面临上面提到的许多问题。随着信息社会的进一步 发展,人们对信息的需求又有了新的趋势。近些年来,科学技术对于国民经济发 展的带动作用越来越明显。高科技企业层出不穷,个个产业的科技成分也越来越 高。如何为科技工作者搜集最新的科技信息,如何为商业决策者提供最新的业内 新闻,对科技的发展和企业的经营都是至关重要的。 面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,人们提出了对 搜索引擎新的要求: 1 运行在常规的软硬件设备之上。 2 只搜索某一特定学科或特定专题的i n t e m e t 信息资源。 3 能够方便地对专题和学科进行配置。 专业服务弼站搜索引擎的设计与实现 为了满足这些新的要求,专业搜索引擎应运而生。 所谓专业搜索引擎就是以构筑某一专题或学科领域的i n t e r n e t 网络信息资源 库为目标,智能地在互联网上搜集符合这一专业或学科需要的信息资源,能够为 包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等 在内的信息用户,提供整套的网络信息资源开发方案。 专业搜索引擎与普通搜索引擎存在着很大的差别: 1 服务目的不同 普通搜索引擎面向任何用户提供对任何信息的查询。而专业搜索引擎则面向 专业用户向他们提供对其所在专业的信息检索。 2 搜索方式不同 普通搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。而专业搜索引擎 则采用一定的策略预测相关网页的位置,动态的调整网页爬行方向,使系统尽可 能的在与主题相关的网页集中的地方爬行,这节约了大量的网络资源。 3 对硬件和网络的要求不同 普通搜索引擎需求过大,而专业搜索引擎由于没有遍历整个w e b 节约了大 量的网络资源,并且没有自己的大型索引数据库,所以硬件要求也比较低。 目前,专业搜索引擎大都处于研究和试验阶段,利用它搜索的结果再经过专 业人士的加工而形成的面向某一学科、领域的网络垂直门户网站也已经出现。本 文所论述的搜索引擎系统就是属于这一类。 1 3 本文的研究思路及所作的主要工作 专业服务网站搜索引擎的设计与实现属信息技术研究领域,课题来源于 大连科技局建设大连国际化软件示范城市综合服务平台构建的子项目知 识信息服务功能。 本系统以大连科技网为具体应用实例,实现了对一些专业科技网的信息搜索 及信息萃取。该系统以网络机器人的方式搜索信息,具有个性化、自动化的特点。 研究了动态网站中由于链接不能直接打开而无法搜索到信息的问题。本文以大连 科技网为例,分析了该系统开发的需求、可行性、功能和体系结构,然后对该系 统进行了设计和实现。 系统开发所用的工具有: 操作系统:w i n d o w s 3 f x 、w i n d o w s 9 5 、w i n d o w sn t ; 号业服务网站搜索引肇豹设计与实现 实现软件:v c + + 6 0 数据库:a c c e s s2 0 0 0 支持浏览器:m si n t e r a c te x p l o r e r4 x 以上 本文的结构大致是这样的: 1 专业服务网站搜索引擎系统分析 这部分着重讲述实际项目的背景和该系统开发的可能性和必要性以及功能 和体系结构。具体描述见第二章。 2 专业服务网站搜索引擎系统设计 这部分的研究工作主要包括该系统中各个模块的设计。具体工作详见第三 童。 3 专业服务网站搜索引擎系统的实现 在分析和设计的基础上,对该系统的实现进行了描述。具体内容为本文第四 誊。 专业搬筹隔站搜索引擎的设汁与安现 2 专业服务网站搜索引擎系统分析 2 1 系统背景 本文设计并实现的专业服务网络搜索引擎系统来源于大连国际化软件示范 城市综合服务平台构建的子项目知识信息服务功能。 大连软件园1 9 9 9 年7 月被国家科技部认定为“国家火炬计划软件产业基地” 2 0 0 1 年4 月国家科技部正式批准大连市率先建设软件产业国际化示范城市,大 连软件园以其鲜明的国际化特色,被国家计委、信息产业部联合命名为“国家软 件产业基地”,成为东北地区唯一的国家软件产业基地。这标志着国家对大连软 件园已有成绩的肯定和大连软件园在未来中国软件产业发展布局中的定位。 大连软件园的发展主要以成为“软件产业国际化示范园区”为指导,以建设 “中曰软件产业合作战略门户”为突破,将目标定位在两个主要方面软件出 口基地和软件人才培训基地。并形成面向国内外市场具有突出产品特色的发展方 向。为了促进软件产业基地的发展,大连市将建成以软件园和高薪圃区七贤岭产 业基地为核心的沿旅顺南路的软件产业基地,其服务范围辐射市内四区的软件企 业。 随着大连软件产业基地基础设施不断建设及其功能的不断完善与硬件设施 相适应的服务体系的建设现阶段显得尤为重要。在网络技术高速发展和广泛应用 的今天,构建一个基于因特网的开放式、互动的“大连市软件产业示范城市终合 信息服务平台”对于完善服务功能、扩大软件园的影响、整合、培植软件发展的 资源( 人才、技术、知识和管理) 有着极其重要的意义。深度开发网上资源,以 大连市软件园内及全国软件企业为服务对象,向企业提供技术、管理、市场、人 才等各种信息,帮助软件企业解决各种问题。 本综合信息服务平台功能之一是知识信息服务功能。目的是采集、整理、 存储有关的基础性和专业领域的知识,有关的政策法规、标准与协议,国内外软 件行业发展动态,提供有效的检索工具,使政府部门、企业和软件人员易于获得 相关的知识和信息。我们从大连科技网的信息工作者获得信息的工作角度出发, 引出了专业服务网站搜索引擎的课题; 专业服务网站搜索引擎的设计每实现 2 2 系统需求分析 本论文研究的重点是设计并实现出一个用于支持“大连国际化软件示范城市 综合服务平台”构建的子项目知识信息服务功能的系统。这个系统主要面 对想要在网络上获得专业领域信息的人员。以大连科技信息网站为例,该系统解 决了大连科技信息网站的信息工作者对专业信息的采集、整理工作。信息工作者 通过该搜索引擎搜索和科技网相关的网站,获得需要的信息。对于搜索到的信息, 搜索引擎程序不仅仅是给出相关内容的链接。还要进行信息萃取,提取出信息的 主体内容,并存入后台数据库。这样可以更有目的性、更高效的获得信息,并自 动完成整理工作,减轻了信息工作者豹工作强度。 针对专业信息服务网站,该搜索引擎系统主要需求如下: 1 比较全面的功能 实时搜索信息 能对指定的专业网站进行实时搜索。可以搜索d r e a m w e a v e r 、 f r o n t p a g e 、h t m l 生成的静态网页,还可以搜索常用的搜索引擎作为“死 链”处理的动态链接网页。可以对多个关键词进行实时搜索。 定时搜索信息 用户可以设定搜索时间,当设定的时间到达时,搜索功能自动启动进 行搜索并能自动的萃取信息。 用户定制搜索 1 ) 用户可以锁定内容搜索。如想要搜索新闻,则锁定新闻网址进行搜 索。想要搜索体育新闻,则可以锁定体育网址进行搜索。 2 ) 用户可以锁定目标搜索。如锁定目标为某个网站,或者为某些网站。 3 ) 用户可以设定搜索深度,如设定搜索为一级搜索,或者为二级搜索, 这样可以降低搜索范围,提高搜索效率。 4 ) 用户可以设定搜索算法,如设定搜索方法为深度优先搜索,或者设 定为宽度优先搜索。 信息萃取及信息管理 i ) 可以对搜索到的信息进行自动提取。将网页上的主体信息及用户关 心的信息从网页中提取出来,存入数据库。例如:提取新闻标题、内容、 出处、发布时闻等。 2 ) 可以对数据库中的信息进行有效的管理。例如:信息的删除、信息 专业服务网站搜索引擎的数计与实现 的修改、重复信息的查找等。 2 安全可靠性 搜索到的信息存入数据库,该数据库的信息不容许其它人任意改动。 这要求该系统有良好的安全可靠性,需要加入身份验证的功能。 3 友好、个性化的界面 与用户交流的界面友好,操作方便,具有个性化,方便用户学习使用, 具有使用方便的帮助功能。 2 3 系统可行性分析 i n t e r a c t 上资源是巨大的,可利用的信息是无组织的,并且信息每一天都在 增加,更新。如何从i n t e m e t 上如此众多的信息中获得自己想要的信息,是每一 个信息工作者面对的难题。为了解决这个问题,有必要设计并实现一个专用服务 网站的搜索引擎。我们在设计该软件项目之前,应该进行可行性分析。国家计 算机软件开发规范中指出,可行性分析的主要任务是“了解用户的需求及现实 环境,从技术、经济和社会因素三个方面分析并论证软件项目的可行性,编写可 行性研究报告,制定初步的项目开发方案 ,【”j 。 2 3 1 系统经济可行性 现今,专业网站的信息工作者一般都是使用通用搜索引擎获得信息,例如: 大连科技网的信息工作者想获得国内新闻“龙芯2 号”的相关信息,通过百度搜 索引擎搜索,搜索结果为找到相关网页约2 0 ,6 0 0 篇,用时o 0 0 0 1 秒。信息工 作者还要打开百度搜索给出的链接,一个一个的查找信息。信息工作者要从这么 多相关信息中找到自己想用的信息,需要花费很多时间。由于信息工作者每天需 要很多信息发布,所以花费在获得信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供电设施运维服务合同
- 2025公务员求职面试题及答案
- 刑法专业面试题及答案
- 酒店专业英语试题及答案
- 建筑设计院年中工作总结
- 2025至2030中国商用组合炉行业项目调研及市场前景预测评估报告
- 四肢骨折病人的护理
- 品质转正工作总结
- 贴片车间年度工作总结
- 科研合作合同:量子通信技术研究与应用
- 重点人口管理工作规定
- 公司股权转让协议法人股权转让
- 2025年人教版七年级下册英语入学考试试卷(含答案无听力原文及音频)
- 港口码头建设与运营合作协议
- 电梯故障维修应急预案
- 农产品电商知识培训课件
- 认识数字123幼儿园课件
- 【MOOC期末】《创新创业与管理基础》(东南大学)中国大学慕课答案
- 主动脉疾病介入治疗
- 出纳培训课件
- 车辆维修延保协议书(2篇)
评论
0/150
提交评论