浅析中文搜索引擎分类体系.docx_第1页
浅析中文搜索引擎分类体系.docx_第2页
浅析中文搜索引擎分类体系.docx_第3页
浅析中文搜索引擎分类体系.docx_第4页
浅析中文搜索引擎分类体系.docx_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅析中文搜索引擎分类体系摘要 分类法在搜索引擎中的应用极大的提高了搜索效率与查准率,当前各中文搜索引擎都在建立自己的分类体系。本文对中文搜索引擎分类的特点和评价标准进行研究,在找出当前分类体系存在问题的基础上,提出一些改进建议。关键词 搜索引擎 分类体系 分类法1. 引言随着互联网的飞速发展,网络信息资源成爆炸式增长,如何从海量的、种类繁多、内容繁杂的网络信息资源获取想要信息资源是网络信息组织及检索亟待解决的问题。搜索引擎作为浏览和获取网络信息资源的工具,它的分类体系就显得尤为重要。当前大多中文搜索引擎采用关键词检索有着查全率高、检索方便等特点,但也不可避免的存在查准率低的缺点,增加我们获得所需信息的难度。由于分类法限定了检索范围,可以提高查准率,分类等级结构可能提供检索词的上下文,当检索目的不明确或检索词不确定时,分类浏览方式更有效率,因此许多搜索引擎采用自编分类系统进行信息组织 朱咫渝. 谈中文搜索引擎对网络信息的分类J. 大学图书情报学刊,2003,01:71-72.。但是目前中文搜索引擎分类体系多为自编,没有统一的标准,都不同程度的存在着这样那样的问题,因此有必要对中文搜索引擎进行探究,找出问题并提出一些改进建议。2. 中文搜索引擎分类体系介绍2.1 种类(1)等级分类体系。搜索引擎对所收录的信息或网站的内容进行逻辑划分和系统排列而形成等级分类体系。一般分为十到二十个左右的大类,每个大类下又细分为不同层次的子类,类的层次越深,专指度越高。等级分类体系还又细分为主题分类体系和学科分类体系。(2)分面组配分类体系。将网页信息内容按照某种标准进行分面,划分出来的若干特征概念,即类目,每一分面的类目与其它分面的类目进行组配,形成许多组配类目,达到细分的目的。(3)体系一组配分类体系。它的特点是在等级分类体系的基础上大量采用分面组配方法,以达到细分复杂主题的目的,以满足信息查询或检索的多重需要,现在一些著名的中文搜索引擎如新浪、搜狐、网易等均采用这种分类体系谭宇红,胡德华,柳晓春. 中文搜索引擎分类体系研究J. 情报科学,2001,06:635-638.。2.2 特点(1)实用性强。搜索引擎主要是面向用户需求,以学科分类的传统分类法不能满足海量、日益变化的网络信息资源,因此分类更加要求实用性。(2)易用性。搜索引擎是方便用户查询信息的工具,而大多数用户缺乏基本的检索知识,因此中文搜索引擎的分类体系比较简明,操作快捷简单。(3)多维化。中文搜索引擎是根据网状的和立体的网络信息而建立起来的,并且采用了超文本链接技术,把类目与类目之间、类目与主题之间都链接了起来,形成了网状结构,因此,其分类体系具有很高的多维性刘延章,谢琳惠. 中文搜索引擎分类体系的特点、问题及其改进J. 郑州大学学报(哲学社会科学版),2002,06:146-148.。2.3 评价标准评价标准说明知识覆盖程度覆盖人类知识领域的大小,如学科、行业、专业等类目组织程度类目划分的层次、类目的排列等类名规范程度是否简洁、规范、清晰等结构完善程度是否具备完善结构,如大纲、主表、次表等界面友好程度布局是否合理、界面是否雅观等王亚南. 中文搜索引擎分类体系的评价标准J. 河南师范大学学报(哲学社会科学版),2005,05:210-212.3. 当前中文搜索引擎分类体系存在的问题3.1 知识覆盖领域不全一般说一个中文搜索引擎分类体系质量不高,一般都是说它的知识覆盖率不高,很多搜索引擎网站在分类时总是或多或少的缺乏某个知识领域,这几乎是现有分类体系的通病。一个完整的综合性分类体系在划分基本大类时应该将所涉及到的知识领域全部涵盖进去, 而目前一些搜索引擎在划分类目时往往只从商业角度考虑如何吸引用户, 并未真正从知识领域、知识体系的角度来分类,因而使得分类体系遗漏掉了许多重要的知识领域,同时又有重复列类的现象, 体系的系统性和完整性受到很大影响吴丹. 网络信息分类体系设计J. 图书情报知识,2002,05:37-39.。3.2 类目体系混乱,结构不完善一般来说,搜索引擎分类体系都有严格的等级体系,但网络信息资源纷繁芜杂、种类多样, 所以往往在一些类下同时采用两个或多个标准, 以便减少类目展开的层次和增加类表的直接性王小平,刘波. 网络信息分类体系研究J. 现代情报,2008,01:64-65+68.。3.3 划分标准不唯一,归类不科学中文搜索引擎分类体系的类目没有统一的划分标准,主要表现在划分过宽、划分过窄、划分出的子类级别过高或过低,划分出来的子类仍相交等余义芳. 中文搜索引擎分类体系存在的问题及对传统分类法的借鉴J. 图书与情报,2004,03:52-54.。还有许多中文搜索引擎的分类体系都未能严格地按照类目的内涵和外延进行科学地归属类目,只是简单的随意堆集。3.4 类名不规范统一,排列随意许多中文搜索引擎在分类过程中采用了自然语言作为类目名称,这虽然符合实用性的原则,但由于缺乏规范化处理,并且缺少类目解释,这在无形中增加了网民的理解负担。此外,类名表达的外延不清,这就使得在划分过程中使得分类体系混乱,有失将分类法引入搜索引擎的初衷。同位类的排列有多种标准, 不少网络分类体系的同位类展开时都采用这些不同标准,这就使使得排列处于无序状态,让人摸不清头脑。4. 对策建议4.1 构建统一的分类体系由于网络信息资源和用户需求的不断变化,用户在获取所需信息时可能会采用不同的搜索引擎进行检索,各搜索引擎为了凸显自己的特显都有自己的分类体系和覆盖面,如果没有统一的分类体系,即便类名相同的话,外延也会不一样。因此有必要构建一套标准的中文搜索引擎分类体系,包括分类的标准和基础、类目的划分及设置等等,以实用性、易用性和多维化为原则,制定统一的分类体系。4.2 分类主题一体化分类语言能满足族性检索的需要,系统性较强,符合人们的思维与检索习惯,但查全率低;主题语言能满足特性检索的需求,具有直观性、灵活性等特点,但查准率低。随着网络技术的发展,用户对网络信息的组织与揭示提出了更高的要求,即将分类检索语言与主题检索语言融为一体,即在同一检索中,可同时进行分类检索和主题检索,实现优势互补。4.3 类目体系优化在类目体系设置以主题立类为主, 学科立类为辅, 主题与学科相结合的原则,还可以借鉴传统分类法;大类一般设置在1418个左右,类的层次划分应该控制在四级左右,过多过少都会增加检索的难度;类的排序方面,可先按照逻辑方式分为几个方面,然后再按照字顺、重要性或相关性进行排列;类名是检索入口,它的重要性可想而知。这对用户把握一个特定的分类系统是十分必要的,对于一时难以规范的流行语、缩写语、网络语等, 可象传统分类法那样通过类目注释加以说明 王韬. 网络分类体系探析J. 图书馆,2004,02:58-59.。4.4 分类人员的培训建立一个良构的中文搜索引擎是一项庞大复杂的系统工程,除了在技术和财力上的支持,人员方面也有很大的要求。目前大多数分类体系都采用了人工分类标引,如“新浪搜索”的开发,仅人员就投入了四、五十人,对大量的网络资源进行人工分类。因此要增加分类人员的培训,建立更加完善、实用的分类体系。5. 结论通过以上分析对中文搜索引擎有了大致的了解,可以知道它的建立时一个循序渐进的过程,将分类法运用到搜索引擎中已经显示其优势,但仍存在很多问题,只有不断的改进才能形成更加完善的分类体系。参考文献1 朱咫渝. 谈中文搜索引擎对网络信息的分类J. 大学图书情报学刊,2003,01:71-72.2 谭宇红,胡德华,柳晓春. 中文搜索引擎分类体系研究J. 情报科学,2001,06:635-638.3 刘延章,谢琳惠. 中文搜索引擎分类体系的特点、问题及其改进J. 郑州大学学报(哲学社会科学版),2002,06:146-148.4 王亚南. 中文搜索引擎分类体系的评价标准J. 河南师范大学学报(哲学社会科学版),2005,05:210-212.5 吴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论