已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络信息资源的分类组织与检索的发展趋向贺 定 安(湖北省图书馆,武汉,430060)摘 要:Internet的飞速发展,网络信息资源的剧增,使网络信息资源的组织与检索利用,显得更为重要和迫切,根据我国广大用户的检索习惯,网络信息资源的分类组织与检索利用,将呈现规范化和标准化、采用自动分类与检索系统及分类、主题、自然语言一体化搜索引擎等发展趋势。关键词:网络信息 信息资源 自动分类 搜索引擎 随着Internet的飞速发展,网络信息资源呈爆炸性增长。据中国互联网信息中心的统计,截止2002年7月,我国域名总数已达692490个,在cn下注册的域名为126146个,WWW站点数约293213个,全国共有网页数15946万个,在线数据库总数45598个,上网用户总数已达到4580万人。因而,对庞大的网络信息资源进行有效的组织,并提供快捷、方便的检索利用,就显得尤为重要。根据我国广大用户的检索习惯,以及分类检索具有:(1)浏览方式直观,易于检索;(2)限定检索范围,有较高的查准率;(3)适合于不确定的检索;(4)能较好的满足按学科检索的需求等方面的优势,网络信息资源的分类组织与检索利用将呈现以下发展趋势。1 网络信息资源的分类组织趋于规范化和标准化 网络信息资源的分类组织作为探询网络信息资源宝库的一把钥匙,有着十分重要的意义。因而许多门户网站,如“搜狐”、“雅虎”、“网易”、“新浪网”等,为了满足网络信息分类组织的需求,纷纷推出了各自的分类体系。然而,分析当前网络信息分类体系,我们不难看出其存在着许多问题:(1)缺乏严谨的科学分类、知识分类,大类设置不全,分类体系不严密,很多网络信息难以归类;(2)类目划分标准比较模糊,类目关系缺乏科学性, 类目划分混乱, 随意性太大;(3)类目设置不够合理,不能反映类目之间的逻辑关系;(4) 类目名称不规范,缺乏科学的定义;(5)对类目处理上缺乏整体性和一致性,部分类目体系的下位类目超出其外延;(6)类目之间的排列随意,不够严谨,既不按字顺,也不按拼音,更无逻辑性。 由于网络信息分类,普遍存在着一系列的问题,给用户的使用带来诸多不便。首先,用户按常规的分类体系和方法,无法查找到所需要的网络信息;其次,用户在使用各类不同网站时,必须熟悉各种不同的分类体系才能较快检索到所需信息。由此可见,统一我国网络信息组织与检索分类体系,已是迫切需要解决的新课题,它将实现我国网络信息资源分类组织与检索的规范化和标准化。 网络信息资源的分类组织应该是:(1)能够满足网络资源组织的需要,结构清晰、层次简明并能涵盖各学科知识领域;(2)类目划分与类目次序的排列体现较严密的逻辑性,从整体上考虑类目学科体系的平衡问题,以最大限度地反映当代社会科学与自然科学发展状况,扩大信息的涵盖面;(3)其一级类目应相对保持稳定,它代表知识框架,也称知识分类大纲,同时在保证知识领域的完整性外,还应考虑用户兴趣及某些信息的重要性;(4)类目划分一般以三至四级为好,不宜太细。 网络信息资源分类组织与检索利用应具有以下特征:(1)多维性。网络信息资源的分类由于不涉及排架问题,其主要用于网络信息资源的分类检索,因而它可以按照学科之间的交叉与渗透的多元关系,采用多视角、多途径揭示,充分反映学科发展的多维构架,用多元划分的方式,构建多维的分类体系,一个子类可以隶属于多个母类,一个类目可以重复列举在多个所属学科体系中,并通过超文本链接,实现有效的跳转,使整个类目体系形成一个多角度,有多重入口的网状结构。(2)词语标记。网络信息资源的分类标记主要作用是用户检索,因而直观性、表达性是网络信息分类法的重点,而最具有表达性和直观性的标记就是词语,词语即是类名又是标记符号,用户在检索网络信息时,直接用词语来检索,标记符号(类号)基本上已没有实际意义。(3)多重列类。网络信息资源的分类对类目的划分,可以选择多个划分标准,建立多个分类体系,这多个分类体系可以是“主一从分类体系”,也可以是“双表列类”或“多表列类”,“主一从分类体系”主要区别是繁简不同,取舍不同;“双表列类”或“多表列类”是由于划分标准不同,而形成的不同的分类体系。网站在使用网络信息分类法多重分类体系时,可以只用一个分类体系,也可以同时使用多个分类体系,这将给用户的检索带来极大的方便。 (4)动态性。由于网络信息资源处于一种动态的环境中,各种信息都在不断更新、淘汰,因而网络信息资源的分类也应是一种动态的。网络信息资源分类的动态性,表现在类目及多重分类体系的选择上,即网络信息分类法的每一个类目,门户网站在使用时,都可以根据网络信息的需求进行选择,有信息即可以选用,无信息就可不列类。同样,对多重分类体系,门户网站在使用时,也可以选用最适合的分类体系,采用一个或采用多个。这样在网络上所看到的网络信息分类法,将是一个动态的,即都是依据其网络信息的不同,产生的不同偏重的网络信息分类法。(5)兼容性。网络信息资源的分类,采用的是学科与主题相结合的兼容模式,以学科为中心,学科、主题、事物有机结合的立类方式,增强了主题立类,打破了传统分类法以学科立类的束缚,使用户检索更加直观。同时,集综合类表与专业类表于一体,由于网络信息资源的分类具有多分类体系,专业网站可以选择网络信息分类法的某一类目体系作为其专业分类体系,即把某一类目体系作为专业分类法来使用。2 网络信息资源的组织广泛采用自动分类与检索系统网络信息资源自动分类与检索系统是以分类法为工具的网络资源组织、利用与检索系统,它不仅包含有网络信息分类体系,而是融自动分类标引、分类检索于一体的网络信息资源加工、处理、存储、利用的软件系统。目前,网络信息的分类组织主要只是针对于网站,而对于拥有大量信息的网页,却没能进行有效的分类组织。据中国互联网信息中心的统计,全国共有网页数15946万个,信息量达3158TB字节,这样庞大的信息量,采用手工的方式是无法实现全面、有效的分类组织,应用自动分类与检索系统组织网络信息资源就显得尤为必要,它是网络信息资源组织的发展趋势。网络信息资源自动分类与检索系统的职能是有效的对网络信息资源进行分类组织,并提供便捷、高效的检索利用。一般网站可用它来组织本网站的网络信息资源,为用户提供分类检索;门户网站可以用它组织分类搜索引擎,为用户提供全文信息分类搜索。网络信息资源自动分类与检索系统由三个部分构成:一是,网络信息资源自动分类系统;二是,网络信息资源分类检索系统;三是,分类知识库。网络信息资源自动分类系统是计算机自动分类系统在网络信息方面的应用,它是计算机对网页信息资源进行自动分析,采用分词技术和词频分析技术,自动提取关键词,并通过权重评价和相似度分析,依据分类知识库,将其归入所采用的分类体系中。对网络信息资源的自动分类可采用以下步骤:(1)自动搜取网站上的网页信息资源,并进行分析、加工,根据HTML标识分析网页信息资源的各个组成部分,判断信息资源属于那一类信息,如,标题、文摘、栏目等,并删除无意义的标识;(2)利用自动切分词软件,对分析、加工后的信息进行分词,提取表达网页信息资源的语词;(3)对所提取的语词,进行词频统计,根据语词的来源成分,赋予相应的权值,在词频及权值的基础上,确定网页信息资源的特征关键词;(4)将特征关键词与分类知识库进行相似性匹配,依据相似度分析,将能涵盖各特征的关键词的类目,确定为主要类目,将涵盖其他特征的关键词的类目,确定为次要类目;(5) 按主要类目和次要类目,对网页信息资源建立分类索引数据库,供用户检索使用。网络信息资源分类检索系统是面向网络用户的网络信息资源分类检索工具,它是在Web浏览器的环境下,网络用户对Web服务器数据库进行有效检索的专用系统软件。网络信息资源分类检索系统的主框架界面应包括:菜单栏、工具栏、类目树框、检索栏、结果浏览框和结果显示框。分类知识库是一个分类、主题、自然语言一体化的术语系统,是一个分类、主题与自然语言互维控制的语料库。分类知识库是在对用户提问、检索词、文献、主题词表、分类体系及专家经验等进行分析的基础上产生的,它是大量学科领域的真实语言材料的集合。它采用离散的、分层的知识存储结构,反映了一种分类、主题、自然语言的相互关系,是网络信息资源分类的依据。它作为唯一的分类信息源,能支持网络信息的自动分类标引,并能从中获取所有的知识信息资源。网络信息资源自动分类与检索系统具有以下特征:(1)安装在Web服务器上的,采用浏览器在网络环境下使用的分类体系;(2)学科体系化的全文网络信息搜索引擎;(3)采用组配化的检索方式;(4)具有词语表达的类目树体系;(5)融自动分类标引与联机检索一体化。3 网络信息资源的主要搜索工具为分类、主题、自然语言一体化搜索引擎搜索引擎(Search engine)也称检索引擎、查询引擎,广义上是指一种基于Internet上的信息查询系统,包括信息存取、信息管理和信息检索;狭义上是指一种为搜索Internet上的网页而设计的检索软件。搜索引擎是适应网络信息资源迅猛发展及网络用户的迫切检索需求而产生的新型检索工具,就搜索引擎的类型可分为以下几种:(1)目录式分类搜索引擎;(2)独立搜索引擎;(3)基于客户的搜索引擎;(4)元搜索引擎;(5)分布式搜索引擎。综合分析各类搜索引擎,主要存在下列问题:(1)搜索引擎对网络信息的揭示缺乏深度。(2)搜索引擎检索查准率较低。(3)检索功能单一、缺乏灵活性。(4)从学科及专业的角度检索信息难度很大。(5)搜索引擎缺乏对自然语言的控制。搜索引擎存在的上述问题,主要在于检索语言的应用及控制上。首先,目前的搜索引擎忽略了对自然语言的控制,自然语言是搜索引擎的主要的检索语言,自然语言的无控制的特点,无法避免的降低检索质量;其次,搜索引擎没有充分考虑分类语言、主题语言和自然语言的各自的特点,采取综合应用取长补短。因此,十分有必要研制、开发分类、主题及自然语言为一体的搜索引擎,彻底改变采用各种检索工具,只能得到的是成千上万条似是而非的网站名称的局面,使网络信息资源能够得到广泛的检索利用。 分类、主题、自然语言一体化搜索引擎是融分类检索、主题检索、自然语言检索于一体的搜索引擎。它的构成与其他搜索引擎基本相同,其主要区别就在于:建立索引时采用自动分类标引系统,建立一个分类索引库;检索时采用了一体化词表加以控制。一般搜索引擎的工作机理是由信息采集器、索引数据库和检索软件三部分组成。信息采集器的功能是信息采集,主要负责访问各类网站,取回Web主页的信息,信息采集器运行时,除了会将网页上的信息读回以外,还将沿着网页上的超文本链接,自动访问网页链接的其它网页,直至采遍整个网站。索引数据库是利用索引器建立,索引器功能是对信息进行组织和标引,它将信息采集器收回的信息,进行语词切分及分析,对网页的地址、篇名、特定段落或全文进行自动标引,建立一个包含关键词的索引数据库,以备用户查询。检索软件的功能是网络信息资源的检索,主要负责提供用户使用搜索引擎的接口。通常是一个Web应用程序,它包括:接收、解释用户的搜索请求;查询索引库;计算网页与搜索请求的关联度;提供排序后的搜索结果反馈给用户。分类、主题、自然语言一体化搜索引擎只需对一般搜索引擎的工作机理做两个方面的改进:一是,在索引器建立索引数据库时,既建立关键词索引数据库,又建立分类索引数据库。其方法是在索引器对网页的地址、篇名、特定段落或全文进行采集,建立关键词索引数据库的同时,采用网络信息资源自动分类系统,建立分类索引数据库。二是在检索软件增加分类、主题、自然语言一体化词表控制过程。当接收到用户的搜索请求后,首先判断检索的类型,如果是主题检索或关键词检索,将用户提供的关键词通过分类主题一体化词表进行控制,转换为正式主题词,并用这一正式主题词和所有入口词,检索关键词索引库,把检索得到的计算网页与搜索请求的关联度匹配,最后将排序后的搜索结果反馈给用户;如果是分类检索,则将用户提供的关键词通过分类主题一体化词表转换为分类号,用这些分类号检索分类索引库,把检索得到的计算网页与搜索请求的关联度匹配,最后将排序后的搜索结果反馈给用户;如果是分类主题一体化检索,则将上述两个结果经过删除重复后,排序反馈给用户。 分类、主题、自然语言一体化搜索引擎具有以下功能特征,它将为网络信息资源的主要搜索工具:(1)全文的搜索引擎。一般目录式分类搜索引擎是将网站的有关信息,记录成一个个摘要信息,划分到自己数据库中的某个类目下,属网站级的,因而不可能是全文型的。分类、主题、自然语言一体化搜索引擎是将网站上的所有网页全部获取下来,记录到数据库中,并自动建立关键词和分类索引,因而它是一种提供最全面、最广泛的全文搜索结果。(2)全自动的搜索引擎。目录式分类搜索引擎的数据库是依靠编辑人员人工撰写摘要,并归入某一个类目中。因而是一种手工式的组织过程。一体化引擎采用的是自动切分词软件,对网页进行分词和词性处理,并自动提取关键词,再通过分类主题一体化词表转换为分类号,建立起关键词和分类索引库,是一种全自动的搜索引擎。(3)词语控制的引擎。一体化引擎在建立数据库及检索方面都采用了一体化词表进行词语控制,特别是在检索时,采用的后控制的方法,既方便了用户的使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全承诺书【15篇】
- 年产20万台汽车灯具技改项目可行性研究报告模板-立项备案
- 信用减值损失试题及答案
- 全球视野下的律师责任-洞察与解读
- 2025年工艺师岗位招聘面试参考题库及参考答案
- 2025年产品市场分析师岗位招聘面试参考题库及参考答案
- 2025年异地开发经理岗位招聘面试参考题库及参考答案
- 2025年补贴政策专员岗位招聘面试参考试题及参考答案
- 2025年资本市场专员岗位招聘面试参考试题及参考答案
- 2025年营运管理专员岗位招聘面试参考题库及参考答案
- 2025年《中华人民共和国行政复议法》试题及答案
- 2025至2030中国机电设备行业项目调研及市场前景预测评估报告
- 2025至2030票据服务行业项目调研及市场前景预测评估报告
- 2025年云南交投集团校园招聘管理人员86人笔试参考题库附带答案详解
- 《渔歌子》课件教学课件
- 一国两制方针课件
- 销售人员形象培训
- 2025年超声产前筛查试题及答案
- 电气火灾事故应急演练方案
- 公路护栏安装标准与规范解析
- 湖南省凤凰县2026届九年级物理第一学期期中学业水平测试模拟试题含解析
评论
0/150
提交评论