(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf_第1页
(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf_第2页
(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf_第3页
(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf_第4页
(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(图书馆学专业论文)中文搜索引擎的发展现状、问题与对策.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 中文搜索引擎是计算机网络、人工智能、数据库和数字图书馆 等技术的有机结合,是互联网上最重要的中文检索工具之一。深入 地研究中文搜索引擎,不仅对中文搜索引擎的用户,还对中文搜索 引擎的研究哲和设计者都具有重要意义。 国内外有关搜索引擎的研究比较多。目前,国内外学术界侧重 于对搜索引擎的介绍和比较研究,而很少对搜索引擎进行系统的研 究,对搜索引擎发展对策的研究更少。本文在吸收国内外对搜索引 擎研究成果的基础上,通过分析互联网搜索引擎及中文搜索引擎的 发展现状与问题,对中文搜索引擎的发展对策进行了比较系统地探 讨。 关键词:中文搜索引擎互联网 信息资源数据库 a b s t r a c t c h i n e s es e a r c he n g i n ei sf l e x i b l yc o m b i n ga l lk i n d so f t e c h n o l o g y o f c o m p u t e rn e t w o r k ,a r t i f i c i a li n t e l l i g e n c e ,d i g i t a ll i b r a r ya n d s oo n i t i so n eo ft h em o s ti m p o r t a n tc h i n e s er e t r i e v a lt o o l so f i n t e m e t m a k i n g at h o r o u g hs t u d yt oc h i n e s es e a r c he n g i n ei sn o to n l yi m p o r t a n tf o r u s e r s ,b u ta l s os i g n i f i c a n c ef o rr e s e a r c h e r s a n d d e s i g n e r s t h e r ei sal o to fs t u d yo i ls e a r c he n g i n e sb o t hi nc h i n aa n d o v e r s e a sc o u n t r i e s t h ea c a d e m i cc i r c l e ss t u d yi t ,p a y i n gap a r t i c u l a r a t t e n t i o nt oi n t r o d u c t i o na n dc o m p a r i s o na m o n gt h e s es e a r c he n g i n e s b u ts y s t e m a t i cs t u d yo nc h i n e s es e a r c he n g i n e si sf e w , l e ta l o n et h e d e v e l o p i n gc o u n t e r m e a s u r e s t h i s a r t i c l ei sb a s e do nt h ea c h i e v e m e n to f t h ed o m e s t i ca n d f o r e i g n a c a d e m i cc i r c l e s s t u d yt os e a r c h e n g i n e t h r o u g ha n a l y z i n gi n t e r n e ts e a r c he n g i n ea n d t h ec u r r e n ts i t u a t i o na n d i s s u e so fc h i n e s es e a r c he n g i n e ,t h et h e s i sg i v e ss y s t e m a t i cr e s e a r c ho n t h ed e v e l o p i n gc o u n t e r m e a s u r e so fc h i n e s es e a r c he n g i n e s k e y w o r d s :c h i n e s e s e a r c h e n g i n e s i n f o r m a t i o nr e s o u r c e s i n t e r n e t d a t a b a s e 中文搜索引擎发展现状、问题与对策 引言 早在工业时代以前,许多专家、学者就开始致力于信息整序的 研究,并积累了丰富的经验。进入信息时代以后,人们加深了对信 息资源的认识,把信息资源的重要性提升到前所未有的高度,将之 与物质和能源相提并论,称之为现代社会的三大支柱之一。国际互 联网的诞生和发展,给信息资源的建设提供了一个无限的空间。网 上信息资源的迅速增长,为信息的开发与利用提供了便利条件。然 而,网络信息微观上的有序性和宏观上的分散性、无序性、动态变 化性给人们在搜集与利用信息时带来了种种障碍。为了能从网络上 找到用户所需要的特定信息,为了更加有效的开发利用互联网上的 数字金矿,中文搜索引擎应运而生了。 中文搜索引擎的出现,既是前人理论探讨与实践研究的结晶, 又是计算机网络,人工智能、数据库、数字图书馆、分布式处理等 技术的有机结合。在了解搜索引擎现状、问题的同时,有必要探讨 中文搜索引擎的发展对策。 第一章互联网搜索引擎分析 第一节搜索引擎的产生和发展 在1 9 9 3 年以前,w w w 用户在互联网上查找信息时,通常是从 某一删服务器的某个u r l ( 统一资源管理器) 出发,沿着一个 个超级链接( h y p e r l i n k ) 去访问其他网页。这种穷举式的浏览方法 在w v c w 站点很少时还可以勉强凑合,但随着w w w 站点的日益增多, 穷举式的查询使浏览者如同置身于一个无穷无尽的迷宫之中。这时, 手工查找既费时又费力,并且难以找到令人满意的内容。于是,有 的服务站点为了方便用户浏览,将手工搜集到的信息编制成h t m l 文 件,按照某种顺序组织提供给用户查询,或将搜集到的网页地址记 录_ f 来,然后按照一定的顺序( 如主题、地域、时间等) 排列以供 用户使用。 随着w w w 信息量爆炸性增长,在信息的海洋中,单纯依靠人 力搜集与组织信息,效率非常低而且难免挂一漏万。另外,为了有 效的查找网络信息资源,人们迫切需求一种信息服务系统,这种信 息服务系统能够在较短的时间内自动地扫描指定区域内的w e b 网 站,进行分析后建成有序文档,并按一定的周期更新所覆盖的内容。 用户查询时,能快速、准确而又全面的得到所需要的信息。为了满 足这种需求,人们开发了网络检索工具,用户只需在诸如网络蜘蛛 ( s p i d e r ) 、机器人( r o b o t ) 的计算机程序中输入关键词,在其内部 的数据库中查询与关键词相匹配的信息,按照一定的规则处理后通 过网络提供给用户。这样的检索工具就称之为搜索引擎。 一般来说,人们通常把搜索引擎对结果排序的依据不同而分为 两代:第一代搜索引擎是以1 9 9 5 年出现的y a h o o 、a l t a v i s t a 和i n f o s e e k 为代表。它们根据相关程度对结果进行排序。这种相关程度主要是 以匹配到的关键词的多少、关键词在页面上出现的位置及关键词在 页面上出现的频率来加权和计分。因此,这种相关程度排序仅仅是 系统对检索结果的一种判断,并不一定符合用户的客观需求。第二 代搜索引擎是以1 9 9 8 年出的g o o g l e 和d i r e c t h i t 为代表。它们是“根 据以往用户实际访问一个网站并在该网站上所花费的时间来确定一 个网站的重要性,或者根据一个网站被其他网站链接的数量来确定 网站的重要性”,“这种根据用户忠诚度的评判方法更具备客观性, 因而,用户所获得的信息也就更准确”。【2 j 如d i r e c t h i t 以被大多数用 户访问的情况认定一个网站的重要性;g o o g l e 以被其他网站链接的 情况认定一个网站的重要程度。第二代搜索引擎在发展过程中更强 调了人的因素,主要表现在以下三个方面: ( 1 ) 能利用自然语言查找信息。第二代搜索引擎可以将自然语 言自动翻译成系统能理解的专业术语,进行精确查找。 ( 2 ) 有判断地收集信息,根据众多网络用户行为特征来取舍 信息。 ( 3 ) 人工分类。在第一代搜索引擎中,人们对y a h o o 和s o h u 的分类评价比较高,那是因为它们有大量的人工对信息进行分类。 第二代搜索引擎同样继承了这个优点,并且继续强调人工分类的重 要性。 第二节搜索引擎的分类 搜索引擎又称之为检索引擎,是从英文“s e a r c he n g i n e ”直译 过来的。对搜索引擎概念的理解主要有两种不同的看法,如在1 0 个w w w 搜索引擎的比较研究一文中认为:w v q v v 资源检索工具通 常有两种类型:主题指南与搜索引擎。主题指南是按等级排列的主 题类目索引。排列方法有字母顺序法、时序法、地序法、主题法等。 主题指南也称为浏览工具,能够使用户通过主题浏览w e b 站点列表, 检索有关信息。而搜索引擎则强调它的检索功能,一般称为关键词 检索工具。搜索引擎的数据库是由机器人自动建立的,与主题指南 数据库的建立不同,它不需要人工参与。p 1 若按照上文中的标准衡 量y a h o o ,则y a h o o 就不是搜索引擎。尽管它也提供关键词检索,但 在其关键词检索中并不提供全文( 网页) 信息,而是一些w e b 站点 的介绍。另外一种比较有代表性的看法则把主题指南与搜索引擎统 称为搜索引擎。如搜索引擎y a h o o 的分类体系及性能评价 文 把y a h o o 定性为等级式主题指南类搜索引擎,它是人工编制等级式 主题目录和计算机检索软件提供的关键词相结合的搜索引擎的代 表,由此而将搜索引擎分为分类式搜索引擎和机器人搜索引擎。 4 】 随着人们对网络信息检索工具使用的逐步深入,对搜索引擎的 理解也逐渐成熟,一般把搜索引擎认为是对网络信息资源管理和检 索的一系列软件,是一种在互联网上查找信息的检索工具。 因此,根据搜索机制的不同,我们可以将搜索引擎分为三种类 型: 1 、主题目录型搜索引擎 主题目录型搜索引擎一般是由专家根据网站内容来描述网站。 其优点是检索准确率高,检索明确,但由于检索范围小,提供的资 料比较少。如雅虎中国。 2 、关键词型搜索引擎 关键词型搜索引擎是依靠机器人,在w e b 页顽上进行不断的搜 索,建成庞大的索引数据库。其优点是提供的资料比较丰富,可以 进行全文检索,但误检率高,用户仍需要对检索结果进一步筛选。 3 、搜索引擎之上的搜索引擎 搜索引擎之上的搜索引擎本身并没有检索库,它主要是调用其 他独立搜索引擎来提供信息服务。搜索引擎之上的搜索引擎可以分 为搜索引擎目录和元搜索引擎。 当然,习惯上还根据搜索引擎信息覆盖的范围来将搜索引擎分 为综合型搜索引擎、专业或专题搜索引擎和专用搜索引擎。 综合型搜索引擎信息覆盖面1 ,它不仅提供多学科、多专业的 w e b 信息,有的还支持特殊信息的查询,如新浪搜索引擎提供商品 信息检索。 专业或专题性搜索引擎一般覆盖某个专业或专题的内容,如医 药搜索引擎、法律搜索引擎等。 专用搜索引擎能针对某一个特定领域进行搜索。如图像搜索引 擎、找人搜索引擎、电话搜索引擎等。 第三节搜索引擎的工作原理 不同类型的搜索引擎其工作原理也不同。目录分类型搜索引擎 的上作原理相对简单,它主要按照分类的原则( 学科分类或主题分 类) 将各种w e b 资源的地址集中在一起,甩户直接浏览即可获得所 需的网站信息。而关键词型的搜索引擎的工作原理复杂得多,它主 要是由搜索软件、索引软件和检索软件组成。搜索软件是运行于互 联网e 特定的搜索程序,如r o b o t ( 机器人) 、s p i d e r ( 蜘蛛) 、 w e b c r a w l e r ( w e b 爬行者) w o r m ( 蠕虫) 、w e b w a n d e r e d ( 漫游者) 等,按照一定的搜索规则,定期自动地搜集w w w 站点,送回收集 到的信息;索引软件对收集的网页信息进行自动标引,并建立庞大 的索引数据库;检索软件将用户的检索提问与索引数据库相匹配, 返回相一致的结果。( 如下图) 表示检索过程 表示页面的搜索与更新 表示页面浏览 w 1 w 2 - w n - 表示w e b 网站 l 、搜索软件收集信息的方法 搜索软件对网络信息的收集主要有两种方式:一一是w w w 站点 通过网站登录直接将网页信息加入到搜索引擎的索引数据库中;二 是搜索软件按一定的搜索算法( 如广度搜索与深度搜索) 在互联网 上漫游。有的搜索引擎有选择的收集信息,而有的搜索引擎则不加 选择,无限制地采集。这些网页信息主要由w w w 文本正文、题名、 摘要、关键词和u r l 组成。 2 、索引数据库的建立 索引软件对搜索软件采集到的信息进行自动标引,建立可供查 询的数据库。各搜索引擎由于索引算法的不同,对网页信息标引的 方式也不同。有的对w w w 的页面内容进行全文索引,即对页面中 出现的每个单词进行标引,如a l t a v i s t a ;有的根据网页的标题、人 名、地名及网页前2 5 到1 0 0 个词进行标引,如l y c o s 。 3 、检索软件的功能 检索软件负责将用户的检索请求与索引数据库相匹配,然后按 照一定的排序方法返回相一致的结果。大多数搜索引擎既提供分类 浏览,也提供关键词全文检索,很多搜索引擎还提供高级检索或进 阶检索功能,如布尔逻辑检索、词组检索、位置检索、同义词检索 等。检索结果一般按与主题的相关性或网站的重要性排序,对于新 闻检索则按时间排序等。 对于搜索引擎之上的搜索引擎来说,其原理相对简单。搜索引 擎目录将各种在物理上分散的独立搜索引擎集中在一起,放置在统 一的界面上,而元搜索引擎主要由检索提问机制、检索接口代理机 制与检索结果处理机制组成,在下面的章节中将细述。 第四节搜索引擎的性能评价指标体系 随着搜索引擎层出不穷,给用户带来方便的同时,也给用户带 来了一团困惑,不清楚究竟哪一个搜索引擎能满足自己的需求。于 是,对搜索引擎的性能指标进行评价也非常重要。 1 、用户界面的友好性 很多搜索引擎的用户界面都是在其网页上提供一个文本输入 框,在旁边提供几个检索范围的选项,有关检索规则的网页则通过 “h e l p ”或“帮助”来链接。虽然各个搜索引擎的界面大同小异,但 由于不同的搜索引擎的检索风格各不相同,有的搜索引擎还具有其 独特的检索功能,因而用户检索时所采用的检索指令也具有差异性。 如对空格、引号、逗号等特殊符号的含义的理解及其处理;所采用 的逻辑运算符、位置运算的检索规则及表示方法;支持网页( 全文) 级检索还是支持网站级检索;是否支持中文汉字的各种内码检索等。 有的搜索引擎还支持多种语言检索,如雅虎、天网等。用户检索较 为复杂的概念时,必须仔细的阅读帮助文档,熟练掌握其检索规则, 以便在最短的时间内获得比较理想的检索结果。 2 、搜索引擎信息资源的评价 互联网上信息内容良莠不齐,信息污染严重,因此,只有对网 络信息进行评价,才能去粗取精、去伪存真。对于分类目录搜索引 擎来讲,其资源都是由一些领域专家精心筛选而成,质量一般都比 较高,而对于由机器人自动搜索的搜索引擎来说,搜索过程依靠机 器人识别,其搜索算法和搜索规则决定了它对网络信息资源的取舍。 于是,我们可以通过对搜索引擎信息资源的鉴别来评价一个搜索引 擎的质量。目前,比较全面评价网页信息资源的标准是:信息来源 的权威性、信息的准确性、提供信息的广度与深度、信息的独特性 和信息的时效性等。 3 、数据库性能评价 评价搜索引擎数据库的性能主要是从以下几个方面: ( 1 ) 数据库的规模和覆盖范围 搜索引擎数据库的容量一般以g b 作为数量级。它收录的页面 一般以千万或亿作为收录页面的数量级,由此可知搜索引擎所搜集 的页面在整个互联网页面内容中所占的比重。 ( 2 ) 数据库的质量 数据库是由人工索引还是自动索引,提取的索引词是否能揭示 该网页的内容,是否符合人们的检索习惯等,索引的质量在很大程 度上影响到数据库的性能。 ( 3 ) 数据库的更新周期 有的网页已经删除,而数据库仍旧保留了对该网页的链接,形 成了所谓的无效链接。无效链接的多少严重影响了数据库的质量。 搜索引擎的数据库更新周期一般为三个月。 ( 4 ) 数据库的响应速度 数据库的响应速度也是衡量数据库性能的一个重要指标。响应 速度的快慢在一定程度反映了数据库信息组织的合理性。没有一个 用户乐意于长久地等待。影响数据库响应速度的因素有很多,如数 据库的记录的结构、索引的生成方法以及数据库的容量等。 4 、检索能力的评价 检全率和检准率是评价检索能力的重要指标。一般的搜索引擎 都能返回大量的结果以供用户选择,可在这些检索结果中,符合用 户需要的却非常少,严重影响用户使用搜索引擎的情绪。另外,单 一检索功能的搜索引擎不具有长久的生命力,搜索引擎应不断地改 进检索技术,完善高级检索功能,才能在众多的搜索引擎竞争中立 于不败之地,如提供布尔逻辑检索、位置检索、精确检索、相关检 索等。 5 、检索结果的输出形式 大多数搜索引擎的输出结果是根据与输入的检索词的相关程度 进行排序的。不同的搜索引擎对相关程度的判定标准不同,有的根 据检索词出现的频率,有的根据检索词出现的先后位置等。也有部 分搜索引擎是根据网页内容的重要性来进行排列的。对于新闻来说, 一般是采用时间顺序排列。检索结果的排列在很大程度上决定了用 户最终的情报行为。换句话说,不管前面所实现的检索功能如何有 效,用户是否利用检索结果在相当程度上受制于检索结果的输出形 式。无序的输出会使用户忽视重要信息。最好的解决办法是提供多 种输出形式以供用户选择,以避免单一输出形式中存在的集中与分 散的矛盾。 第二章中文搜索引擎的发展现状与问题 从中文搜索引擎导航上的简体与繁体搜索引擎列表来看,比较 有影响的简体中文搜索引擎有11 3 个,繁体搜索引擎有2 1 4 个。当 然,这些还不包括一些开展信息服务的图书馆和其他信息服务网站。 在这些中文搜索引擎中,用户经常使用的搜索引擎有新浪、搜狐、 雅虎中文、北极星、中国人、悠游、天网、常青藤、2 6 3 、若比邻等。 我们根据搜索引擎提供商的变化,可以将大陆中文搜索引擎的 发展分为三个阶段。 第一阶段为中文搜索引擎的引进阶段。国际互联网在大陆联通 的前几年,国内各大门户网站基本上是从国外买来英文搜索软件的 汉化版或台湾软件商的产品。在引进这些产品时,由于缺乏统一的 规划和协调,存在重复引进的现象,如当时2 6 3 与中华网使用的都 是台湾“龙卷风”搜索软件。 第二阶段为中文搜索引擎百家争鸣时期。由于引进的搜索引擎 产存在各种各样的缺陷,从1 9 9 7 年开始,一些颇有实力的公司、大 学或机构开始设计中文搜索引擎。如搜狐由北京爱特信( i t c ) 公司 开发;广卅i 视窗由广州网易公司开发;天网由北京大学开发:北极 星由中国科技信息所和万方数据( 集团) 公司共同研制开发;若比 邻由中国科学院计算机网络信息中心与中国互联网络信息中心 ( c n n i c ) 共同开发等。 第三阶段为中文搜索引擎两家争霸时期。进入2 0 0 1 年以后,国 内一些门户网站纷纷更换搜索引擎。2 0 0 1 年8 月,搜狐宣布与百度 公司合作。11 月,新浪正式对外宣布与互联网技术提供商百度建立 合作伙伴。我们从两家搜索引擎的检索结果中可以看到“p o w e r e db y b a i d u ”的字样。至今为止,百度公司开发的搜索引擎已分别被新浪、 搜狐、广州视窗、中国人、硅谷动力等网站采用,约占中文搜索引 擎市场份额的8 0 。而另外一家搜索引擎服务提供商是g o o g l e ,它 主要提供给y a h o o ! 和网易。 许多中文搜索引擎都拥有自身的优势与特色,如中国人不仅可 用传统的关键词搜索方式,还率先采用了提问式搜索技术;天网偏 重于学术信息;台湾蕃薯藤是台湾资格最老的一个搜索引擎,也是 资料最齐全、最具有权威性的搜索引擎。另外,还出现了一些特殊 的搜索引擎,如宽带多媒体搜索引擎、中文数码图像搜索引擎、万 纬多元搜索引擎等。 第一节主要中文搜索引擎分析 1 、新浪:h t t p :s e a r c h s i n a t o m c n 新浪网搜索引擎是面向全球华人的网上资源查询系统,是互联 网上规模最大的中文搜索引擎之一,主要提供网站、网页、新闻、 软件、游戏等查询服务。新浪搜索引擎具有以下特点: ( 1 ) 分类目录质量比较高 分类目录规范细致,遵循中文用户习惯。目前共有1 6 个大类目 录,一万多个细目和二十余万个网站。 ( 2 ) 检索功能强大 除提供分类检索和关键词检索这两种一般检索功能外,新浪搜 索引擎还提供高级检索功能。用户可选标题或网址查询,可限时间 范围查询。关键词查询支持“且( a n d ) ”、“或( o r ) ”等检索,新浪 搜索引擎还支持多个数据库查询。 ( 3 ) 返回结果丰富 在关键词的综合查询反馈结果中,同一页面上包含目录、网站、 新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中 文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,能最 大限度地满足用户的检索需要,使用户得到最全面的信息。 ( 4 ) 提供多样化的搜索服务 除了资源查询外,新浪网搜索引擎推出了更多的内容和服务, 包括:新浪酷站、本周新站、引擎世界、少儿搜索、w a p 搜索、搜 索沦坛等。 ( 5 ) 检索结果精确度不高 尽管新浪搜索引擎的返回结果比较丰富,但检准率比较低,大 多为不相关信息,需要在众多返回结果继续筛选。 ( 6 ) 不能实现g b 与b i g 5 之间的自由转换 虽然新浪搜索引擎在其高级检索中支持简体与繁体检索,但它 并不能实现这两种汉字编码的自由转换。 2 、搜狐:h t t p :d i r s o h u c o m 搜狐公司于1 9 9 8 年推出中国首家大型分类查询搜索引擎,经过 数年的发展,每日浏览量超过8 0 0 万,到现在已经发展成为中国影 响力最大的分类搜索引擎。累计收录中文网站达1 5 0 多万,每日页 面浏览量超过8 0 0 万,每天收到2 0 0 0 多个网站登录请求。搜狐搜索 引擎具有以下特点: ( 1 ) 分类质量比较高 搜狐由一些领域专家来编制分类目录,采用树型结构对网络信 息进行层次分类。根据网页内容,将所有的网页分为1 8 个大类,然 后在1 8 个大类下面又分成几百个小类。分类搜索符合人们认识事物 的过程,比较科学。 ( 2 ) 检索功能比较完善 搜狐提供普通检索和高级检索。另外,搜狐还提供热门关键词 排名列表。通过“网站直通车”,用户可以看到搜狐系列排行榜,如 根据其2 0 0 2 年4 月2 日的统计数据,排前6 位的热门关键词为:考 研、音乐、星星音乐谷、电影、1 6 3 、雅虎。 ( 3 ) 分类目录与关键词检索不能有机结合 虽然搜狐的分类质量比较高,但其分类目录与关键词检索却是 相互独立的,并不能在某一类目下直接运用关键词进行检索,以提 高检索的效率。 ( 4 ) 不能实现g b 与b i g 5 的自由转换 搜狐支持简体与繁体检索,但不能实现简体与繁体的自由转换。 3 、天网中英文搜索:h t t p :h e p k u e d u o n 由北京大学计算机系网络与分布式系统研究室研制开发的“天 网”中英文搜索引擎系统,是国家“九五”重点科技攻关项目“中文编 码和分布式中英文信息发现”的研究成果,于1 9 9 7 年1 0 月2 9 日正 式在c e r n e t 上向广大i n t e m e t 用户提供w e b 信息导航服务。天网 搜索引擎具有以下特点: ( 1 ) 功能比较强大 天网支持电子邮件查询,支持中英文搜索,另提供北京大学、 中国科院等f t p 站点的检索。它将f t p 文件分成电影和动画片、 r a p 3 音乐、程序下载、开发资源四大类。用户可以像目录导航式搜 索引擎那样逐层点击查找所需要的f t p 文件。 ( 2 ) 反馈内容完整 反馈内容完整,包括网页标题、日期、长度和代码。 ( 3 ) 收录范围比较小 天网搜索引擎主要收录教育网上的信息,覆盖面比较窄。 ( 4 ) 不支持目录检索途径 天网搜索引擎不具有其他搜索引擎所提供的分类目录,不提供 分类查找途径。 4 、台湾蕃薯藤:h t t p :w w w y a m c o m g b y a m 于1 9 9 5 年8 月开设的“蕃薯藤台湾网际网路索引”是台湾最知 名的查询站点,它是由g o o g l e 驱动。该站点的特点是: ( 1 ) 分类合理 网页分类合理、完善,共分为1 4 大类,包括生活资讯、影视娱 乐、休闲旅游、投资理财、社会文化、电脑网络等,各大类下细分 出若干小类。 ( 2 ) 关键词检索功能强大 特别设计的关键词检索功能十分强大,除了可选择查询范围、 支持空格、“+ ”、“一”和交并集外,还可用通配符“”来进行模 糊检索。该站点还开设了新站、热门和推荐等栏目以供用户选择。 ( 3 ) 提供本地化信息服务 2 0 0 0 年底蕃薯藤推出的“有机式复合搜寻”服务中,对文化区 隔或地域区隔的用户提供本地化的信息服务。 ( 4 ) 分类检索与关键词检索有机结合 蕃薯藤中的分类检索与关键词检索有机结合,用户可以在某一 类下利用关键词进行检索,以提高检索效率。 ( 5 ) 收录范围比较小 蕃薯藤丰要收录了一些台湾、香港、大陆的繁体网站,约2 0 万 个。 5 、雅虎中国:h t t p :w w w y a h o o c o r n c r l y a h o o ! 是由大卫费罗( d a v i df i l o ) 和杨致远( j e r r yy a n g ) 仓o 建。雅 虎在全球共有2 4 个网站,1 2 种语言版本,其中雅虎中国网站于1 9 9 9 年9 月正式开通。雅虎中国的特点: ( 1 ) 检索功能强大 为用户提供了强大的搜索功能,包括分类检索和关键词检索。 通过其1 4 类简单易用、手工分类的简体中文网站目录及强大的搜索 引擎,用户可以搜索到政治、经济、文化、科技、房地产、教育、 艺术、娱乐、体育等各方面的信息。其关键词检索也支持简体和繁 体检索。当所输入的关键字一定是一个完整词组而不能被分开时, 可用“”号来加以限定,如“中文搜索引擎”。当希望某些字词一定 要显示在搜索结果中,可在该字词的前面加上“+ ”,如“中文搜索 引擎+ 商业化”。当希望某些字词不会出现在搜索结果中,可在该字 词前面加上“”,如“中文搜索引擎繁体”。 ( 2 ) 主题目录与检索软件有机结合 采用分面分析的方法,由信息管理专家编制主题目录,充分发 挥了专家选择和组织信息的智慧,克服了单纯由搜索引擎自动完成 分类的无条理性的缺陷,提高了目录编制的质量。同时,嵌入相应 的关键词工具,提供高质量、高效率的检索服务。 ( 3 ) 人工消耗大 网络信息资源发展迅速,为了能及时反映网络信息资源,保证 提供高质量的主题目录,需要大量的人力来维护,这样导致人工消 耗非常大。 ( 4 ) 数据库规模小 由于网络信息资源发展迅速,采集信息的速度远远落后于信息 增长的速度,更不必说主题目录的编制速度。这就造成所建立的数 据库规模比较小,在某些类目下收集的信息数量有限,满足不了用 户的需求。 第二节中文搜索引擎存在的问题 自从国际互联网延伸到中国大陆以来,随着中文网站的疯狂建 设,各类中文搜索引擎发展迅猛,出现了一些收录丰富、分类科学、 功能齐全、质量较高的中文搜索弓i 擎,但无论是管理、技术还是服 务,中文搜索引擎还很不完善。笔者认为,中文搜索引擎目前主要 存在以下问题。 1 、缺乏统一的规划、协调与合作 目前,大陆的中文搜索引擎主要由百度与g o o g l e 提供,这两家 的搜索引擎在w e b 数据库建设过程基本上是各自为政。而在各家搜 索引擎内部,功i l 去l l i 差不大( 如利用检索词在几个搜索引擎中检 索时,其结果大同小异) ,不能看出各个搜索引擎的特色。而且,由 于网站建设和网页设计缺乏统一的标准,使搜索引擎对网站和网页 的理解能力差,不能准确的揭示网站和网页的内容。另外,由于历 史与政治的原因,目前的中文搜索引擎在中文语言的使用上存在较 大的差别。中国大陆、新加坡使用的是简体,台湾、香港、澳门使 用的是繁体。体现在计算机处理上最重要的区别是采用了不同的字 符集和内码体系,大陆是国标码( g b ) ,台湾用的是大五码( b i g 5 ) 。 尽管目前有的中文搜索引擎提供编码选择,允许用户采用简体、繁 体或简体及繁体检索中文信息,但这仅仅解决了信息检索问题,而 最为重要的是如何实现两种编码的自动转换,以方便用户利用中文 网络信息资源。 2 、中文搜索弓1 擎网站商业效益低 中文搜索引擎网站商业效益低已经成为不争的事实。中国互联 网门户网站三国鼎立的局面随着网易被纳斯达克停牌( 网易在2 0 0 1 年9 月4 曰被停牌) 而演变为新浪和搜狐两大巨头争霸的新格局。 新浪作为中国互联网市场的龙头老大,其经营业绩并不令人满 意。2 0 0 1 年前两个季度的收入一直以两位数下滑,其内部管理不善 也带来很多负面影响。从该网站公布的2 0 0 2 年第一财季( 2 0 0 1 年 第三季度) 财务报告来看,它仅仅止住了下滑的趋势。新浪网本季 度的净营收额为6 1 0 万美元,比第二季度的5 8 0 万元增长了4 9 , 与第一季度的6 1 0 万美元持平。净亏损额为5 3 0 万元,比第二季度 的8 2 0 万美元减少r3 5 6 ( 应为3 5 4 ) ,比第季度的9 0 0 万美 元减少了4 1 1 。目前新浪网的现金与短期投资额为9 7 1 0 万美元, 若以后的季度中继续保持5 3 0 万美元的净亏损额,其可亏损的时间 为1 8 个季度。 搜狐作为中国互联网另一大门户网站,其经营业绩也不理想。 搜狐的股价由2 0 0 0 年7 月刚刚挂牌上市时的1 3 1 3 美元狂跌到现在 的1 美元左右。从2 0 0 1 年1 月份开始,搜狐就面临着摘牌的危险, 因为根据纳斯达克的规定,如果一个公司在1 个月内持续低于l 美 元,那么纳斯达克将对其进行审查甚至取消其在纳斯达克进行股票 交易的权利。自9 月2 0 日以来,该股就围绕1 美元上下波动。在“9 1 1 恐怖事件之后,纳斯达克延长上述摘牌规定一个月,使搜狐获得了 喘息的机会。1 0 月3 0 日,搜狐公布了本年度第三季度的财务报告, 其收入逆势蹿升,从第一一季度的2 5 0 万美元到第二季度的2 8 8 万美 元,再到第三季度的3 5 6 万美元,连续三个季度保持两位数的增长。 而令人尴尬的是其亏损仍然居高不下,高达2 7 0 万美元。目前,搜 狐的净现金总储备为4 9 0 0 万美元,按每季平均亏损2 7 0 万美元,其 可连续亏损的时间也为1 8 个季度。 无论是新浪、搜狐,还是其他的搜索引擎网站,如果不能出台 新的收入模式,不能制定和实施一套有效的盈利方案,不能在人们 所预测的时间实现扭亏为盈,对于中文搜索引擎或互联网络的发展 都将蒙上一层阴影。 3 、质量良莠不齐,功能不够齐全 在众多的中文搜索引擎中,只有少数的几个质量较高,功能较 为完善,大多质量比较低,功能也比较单一。 ( 1 ) 分类不合理 尽管像雅虎中国、搜狐这样的搜索引擎分类质量比较高,但有 的搜索引擎的分类质量并不令人满意,如在2 6 3 搜索引擎分类目录 的1 0 个一级类目中,没有一个类目是与政治、军事和法律相关的。 ( 2 ) 收录范围小 一般来说,大陆的搜索引擎以收集大陆的信息资源为主,而台 湾的搜索引擎则以收录台湾的为主,并且在各自的收录范围中,还 不能有效地覆盖其收录范围。大多数搜索引擎在其帮助文件中也未 提及其具体的收录范围。 ( 3 ) 更新速度慢 网上中文信息资源与外文信息资源相比,只占千分之一左右, 就是在中文网络信息资源相对缺乏的情况下,中文搜索引擎也不注 意更新,一些已过期或失效的网页链接仍然放在上面;有的虽然在 检索时问上提供的是最新收录的信息,但其内容却相当陈旧。 ( 4 ) 查准率低 误检率高几乎是所有中文搜索引擎的通病。用户通过某一关键 词检索时,往往返回大量的无关信息,前几条记录也许还有点符合, 但后面的结果太多是风马牛不相及。当然,这与搜索引擎的技术和 用户的检索策略有关。 ( 5 ) 信息服务的特色化水平比较低 除了最基本的浏览和检索查询以外,中文搜索引擎开始尝试一 些特殊的信息服务。如北京大学的“天网”可提供电子邮件来函查 询信息服务;尤里卡的“问一问”搜索可以集大家的智慧以解决用 户的问题,并将结果发送到电子邮件箱( 不过,我曾经提过有关搜 索引擎的问题,至今尚无回音) ;“中国人”的“孙悟空”提供智能化 搜索等。但这些特殊信息服务仍处在初级阶段,水平还比较低。而 一些用户迫切需要的特色服务则基本上还处于沉寂状态,如个性化 信息服务等。 4 、综合搜索引擎和专题搜索引擎发展不平衡 综合搜索引擎和专题搜索引擎发展不平衡主要表现在:综合搜 索引擎与专题搜索引擎发展不平衡、综合搜索引擎之间发展不平衡 及专题搜索引擎之间发展不平衡。 ( 1 ) 综合搜索引擎和专题搜索引擎发展不平衡 从中文搜索引擎的影响来看,综合搜索引擎比专题搜索引擎的 影响大得多,其实力也较为雄厚。在c n a z 推出的于2 0 0 1 年3 月5 日结束的中文网站专项功能排名调查第一部分搜索引擎排名调查 中,排列前1 0 位的搜索引擎没有一个是专题搜索引擎。 ( 2 ) 综合搜索引擎之问发展不平衡 调查数据表明,只有少数的几个中文综合搜索引擎为用户经常 使用,其他的访问量很低,这种不平衡的发展状况导致一些中文综 合搜索引擎出现了一些新的变化,要么引进技术以提高搜索引擎质 量,要么在激烈的竞争过程中被淘汰。 ( 3 ) 专题搜索引擎之间发展不平衡 在专题搜索引擎之间,也存在相当严重的不平衡现象,面向某 一特定对象的搜索引擎比较多,如“东方星”专为少年儿童提供娱 乐和知识信息;“i r o s e ”专为女性设置。而在某些领域内的专题搜索 引擎比较少,如专门提供高校信息资源检索的搜索引擎至今尚无。 这种不平衡状态严重影响了这些信息资源的开发与利用。 5 、汉字的切分技术相对落后 对词的切分主要体现在对网络信息资源的标引和对用户检索词 的切分。由于西文字符之间用空格分隔,这很利于计算机处理,方 便计算机标引与检索,而中文的字词之间没有明显的分隔符,这成 为汉字切分的一大障碍。以前有的学者探讨利用某些虚词作为分隔 符来对汉字切分,但汉字比较复杂,在不同的地方具有不同的含义, 一些虚词在某些位置又具有实际的意义,如“地方”的“地”,“目 的”的“的”,“了解”的“了”等。因此,利用虚词对汉字进行简 单地区分,误差相当大。目前有两种处理方法,一是按单汉字检索, 将文章中的单个汉字都录入索引库中,用户按单汉字的匹配原则进 行检索。这虽然能够保证很高的检全率,但同时也会出现很多的虚 假组配,返回大量的无关结果,误检率相当高。随后又提出了位置 检索的方法,对字与字之间的位置进行限定,这种方法可以减少 些虚假组配,提高检准率,但基于单汉字的检索仍然会带来很多的 垃圾信息。另一种是根据一定的原则与方法对文章进行自动分词, 然后按词组或短语建库,对用户的检索输入也需进行汉字切分,然 后再与库中的词组匹配,返回相一致的结果。 6 、网络知识产权立法滞后 2 0 0 0 年1 2 月1 9 日,最高人民法院出台了关于审理涉及计算 机网络著作权纠纷案件适用法律若干问题的解释,全面解释了网络 著作权纠纷应当如何准确适用民法通则、著作权法以及民事诉讼法 等法律,但我国目前尚无成型的法律明文规定网络知识产权问题, 对于种种网络侵权案,更多的是借助著作权法来解决,如电 脑商情报被诉侵权案、“瑞得诉东方案”及“王蒙等六作家诉北京 在线案”等,而在搜索引擎界最为引人注目的是法制日报1 月2 日报导的( 记者李明霞) 北京市海淀区人民法院判决一起因提供搜 索引擎服务引发的网络知识产权侵权案。 案件的原告叶延滨于2 0 0 0 年7 月在天津新薯出版社出版了署名 为叶延滨的路上的感觉一书。随后叶延滨以通过新浪网站的搜 索引擎可榆索到其他网站的该作品为由而状告新浪网侵权。被告“新 浪”认为,他们并未将原告作品直接上载,搜索引擎的工具性、公 共性决定了法律不应该对其提供的链接承担责任。对有关技术问题 进行现场勘验后,法院认为:使用被告的搜索引擎检索到原告的作 品,但页面中并不包括作品本身,仅仅提供临时链接的检索服务, 并不构成侵权。因此,法院判决驳回原告的全部诉讼请求。 尽管最终以新浪网胜诉,但在此案发生以前,法律并未对提供 这种临时链接的检索服务是否侵权做出明确的规定,而前些时候在 美国发生r 一起由链接引起的法律诉讼。新闻周刊未经许可将华 盛顿邮报的新闻链接到自己的w w w 网页,被对方请上法庭,结 果法院判新闻周刊败诉。传统的著作权法在网络信息资源这一 特殊媒体所留下的真空给网络侵权案的判定带来巨大的困难。 第三章中文搜索引擎的发展对策 针对中文搜索引擎存在的种种问题,结合国外搜索引擎发展过 程中的经验,笔者认为中文搜索引擎可采用以下发展对策。 第一节建立搜索引擎协调机制,制定网站的有关标准 随着中文搜索引擎的日益增多,各类搜索引擎开发与资源建设 的重复现象也越来越严重。因此,建立统一的机构,协调各搜索引 擎网站之间的开发设计与资源建设也就提上了日程,如成立中文搜 索引擎协会或中文搜索引擎联盟,这一组织主要负责以下事务。 l 、组织全国各大搜索引擎网站,集中开发中文搜索引擎 目前,各中文搜索引擎的功能相差不大,检索效果也大同小异, 检索结果中“重复性”、“不一致性”问题非常严重。百度公司在发 展搜索引擎技术,提高搜索引擎性能方面取得了不少的成就,其总 裁李彦宏最先创建了e s p 技术,并将它成功的应用于i n f o s e e k 的 搜索引擎中。1 9 9 6 年,他首先解决了如何将基于网页质量的排序与 基于相关性排序完美结合的问题,并因此获得了美国专利。百度公 司为中文搜索引擎的发展注入了一笔新鲜血液,使中文搜索引擎出 现了新的生机。但要使中文搜索引擎的质量有一个较大飞跃,必须 依靠计算机、数据库技术、人工智能、自然语言的处理、分布式处 理等领域技术的综合发展,对于这样一个庞大的工程,不仅刚成立 不久的百度公司不堪重负,即使是一些老字号的中文搜索引擎网站 也同样心有余而力不足,它需要众多的专家共同攻关。而各大中文 搜索引擎在发展过程中,不仅积累了丰富的开发经验,而且培养了 一大批中文搜索引擎界的高素质人才,组织这些精英,形成各种科 研群体,各个团体之间分工合作,围绕各自的科研课题集中研究制 约中文搜索引擎发展的关键技术。在关键技术得以解决后,各大中 文搜索引擎网站结合本网站的特点,了解各自顾客群的需求动态, 开发具有本站特色的中文搜索引擎。 2 、协调各中文搜索引擎网站w e b 数据库的建设,实现信息资 源的共建共享 检索库所覆盖的范围能反映搜索引擎提供信息的能力,是衡量 搜索引擎性能的重要指标。高质量、大容量的检索库能为用户检索 提供坚强的信息保障。目前,还没有一种能覆盖整个因特网信息资 源的搜索引擎。美国科学杂志的研究报告表明,即使功能最完 善的搜索引擎也只能找到w e b 上大约1 3 的网页。根据美国n e c 研 究院研究员的报告,截止于2 0 0 0 年2 月,因特网一共有1 0 亿可搜 索的网页,当时世界上最大的搜索引擎f a s t 含3 亿个网页,略少 于全球可搜索网页的1 3 。但对于中文搜索引擎而言,其状况却不相 同,与外文网页相比,中文网页只占千分之一左右,中文搜索引擎 完全有可能搜索到w e b 网页上的绝大部分中文网页。由于种种条件 的限制,一个中文搜索引擎也许不能将所有的中文网页纳入检索库 的控制之中,即使能够纳入,它也会疲于对检索库的更新。因此, 这必须建立在协调共建的基础上。各中文搜索引擎网站在中文网页 的搜索过程中,进行合理分工,如( 按地区或i p 地址) ,然后采用 优化算法去除重复网页,建成检索库。 共建是共享的基础,共享是共建的目的,建立搜索引擎网站信 息资源的共享机制,促进网络信息服务。搜索引擎网站之间的检索 库共享可通过两种途径。( 1 ) 与其他网站互换检索库,将其他网站 的检索库作为备用数据库,当用户在检索本地搜索引擎检索库不能 达到目的时,可以选择备用数据库以扩检。( 2 ) 不将其他网站检索 库纳入本地数据库,当用户对本搜索引擎检索效果不满意时,将用 户检索请求直接发送至其他搜索引擎以扩大检索。 3 、与港、澳、台及国外中文搜索引擎网站合作,共同研究汉字 内码转换技术,实现汉字各内码之间的无缝切换 汉字内码的问题,一直困扰了许多用户,两种不同的内码,给 用户利用中文网络信息源带来了诸多不便。为了兼顾各种用户的需 要,很多中文网站都提供网页的简体版与繁体版以供用户选择,这 虽然能满足用户的需求,但对网站来说,同样内容的网页需要提供 两种版本,网页的建设与维护需消耗双倍劳力,网页的存贮需要双 倍的存贮空间,浪费了大量的人力与资源。而汉字的两种编码,完 全是基于计算机内部的编码问题,其语法和语义都无差别。尽管很 多搜索引擎也提供简体、繁体与简体及繁体三种检索方式,但这只 是表明搜索引擎支持简体与繁体检索,能够搜索到简体和繁体的网 页,并不能实现汉字各内码之间的无缝切换。这种切换不仅仅是指 能够显示简体和繁体这两种内码的网页,还包括各种内码之问的任 意切换。在用户搜索提问列表中设置一项:编码结果显示,提供简 体、繁体和简体及繁体选项,其默认设置为简体及繁体显示,即以 所搜索网页的原貌显示。如用户希耀所有的中文网页都以简体中文 显示,则繁体网页也能自动转换成简体中文显示,以供用户阅读。 当然,对于同时提供简体和繁体的中文网站,搜索引擎应具有识别 能力,自动过滤重复的网页。因此,这需要与港、澳、台及国外中 文搜索引擎网站合作,共同研究汉字内码无缝切换技术。 4 、规范中文网页的制作标准和格式 中文搜索引擎信息服务的效率,一方面取决于搜索引擎技术的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论