(图书馆学专业论文)网络环境下信息检索语言研究.pdf_第1页
(图书馆学专业论文)网络环境下信息检索语言研究.pdf_第2页
(图书馆学专业论文)网络环境下信息检索语言研究.pdf_第3页
(图书馆学专业论文)网络环境下信息检索语言研究.pdf_第4页
(图书馆学专业论文)网络环境下信息检索语言研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州大学硕士学位论文:网 络环境下信息检索语言研究 中 文 摘 要 y . 幻王 奋 6 5 信息 检索语言 是表达一系 列概括文献情报内 容的 概念及 其相互关系的 概念标 识系统, 其职能 是 作为 信息 检 索系统的 语言 保证, 检索语言的 质量 直接影响 着检索系统的 效率。 目 前, 网 络 信 息 检 索 工 具 主 要是 基 于 范 畴 层 次( l i s t- b as e d s e a r c h e n g in e s ) 的 搜 索 引 擎和 基 于 语 词层 次( w o r d s - b as e d s e a r c h e n g in e s ) 的 搜 索引 擎。 著 名 的 浏 览 型网 络 信 息 检 索 工 具 如、 a h o o . e b l a s t , g a l a x y 和 大 部 分 综 合 型 搜 索引 擎 实 际 上 都 是自 觉 或 不自 觉 地 借 鉴了 传 统清 报 检 索 语 言 组 织和 揭示 信息的 思 想, a l t a v i s ta 集成的a s k j ee v e s 就 是自 然 语言 搜索引 擎。 传 统检索 语言 经过网 、络适 应性改造后, 能够 成为目 前及将来相当时期内 最主 要、 最重要、 最有效的网 络信息资源组织 的 方法, 依然能为网 络信息检索提供语言保证。 在手工检索、 机检条件下形成的受控语言从标引到检索两方 面都已基本成熟, 网 络信息资源的 组织与检索涉及到自 然语言如何与受控语言兼容并蓄问 题。 受控语言与自 然语言相结合, 共同 用 于 组织和 检索网 络信息 应该 是 未来信 息 检索语言的 发展 方向 。 本文力图 通过对 近年 来国 内 外 针 对 网 络环境下信息检索语言理论及应用性成果的研究,展望这一领域研究前沿与发展趋势。 本文主要研究网 络环境下信息 检索语言的发展, 主要内 容包括五部分: 第一部分分析了网 络环境对信息检索语言的 影响; 第二部分是网 络环境下分类检索语言的 应用, 包括传统分类法电 子化及在网 络上的 应用, 网 络信息检索工具中的 应用; 第三部分是网 络 环 境下主 题 检索 语言的 应 用, 包 括 传统叙词 表电 子 化及 在网 络上的 应用, 在网 绍 信r 捡索工 具中 的 应用; 第四 部分是自 然语言处理与自 然语言 检索, 包括自 然语言处理的 基本原理及在信息 检索 中的 应用, 国内 外自 然语言检索 进展; 作者在论文最后指出, 在网 络环境下信息检索 语言新 发展 有: 元数据研究; 分类- 主 题一 自 然语言一体化, 分析国 外一体化系 统实 例: 一 体化医 学语言系统 i j ml s ,国内 一体化系统实例: 中国 财经报刊数 据库 检索系统;并指出 学科一 事 物概念组 配 型检索语言是理想发展模式。 关键词 信息检索语言 网络信息检索自 然语言检索 搜索引擎 人工语言 分类法 主题法 因特网 分类号g 2 5 4 g 3 5 4 郑州大学硕士学位论文:网络环境下信息检索语言研究 r e s e a r c h o n i n f o r ma t i o n r e t r i e v a l l a n g u a g e un d e r t he co n d i t i o n s o f ne t wo r k abs t ract n o w a d a y s , t h e n e t w o r k i n f o r m a t i o n s e a r c h t o o l s 。 m a i n l y o f t w o k i n d s : l i s t - b a s e d s e a r c h e n g in e s a n d w o r d s - b a s e d s e a r c h e n g in e s .s o m e f a m o u s b ro w s e n e t w o r k i n f o r m a t i o n s e a r c h t o o l s , s u c h a s y a h o o , e x c i t e , g a l a x y a n d m o s t c o m p re h e n s i v e s e a r c h t o o l s a c t u a l l y d r a w l e s s o n s fr o m t h e i d e a o f o r g a n i z i n g a n d r e v e a l i n g i n f o r m a t i o n b y t r a d i t i o n a l i n f o r m a t i o n r e t r i e v a l l a n g u a g e c o n s c i o u s l y o r u n c o n s c i o u s l y . f o r e x a m p l e , a s k j e e v e s i s a k i n d o f n a t u r e l a n g u a g e s e a r c h e n g in e s . a ft e r r e f o r m e d f o r a d a p t i n g t o n e t w o r k , t h e t r a d i t i o n a l r e t r i e v a l l a n g u a g e c a n b e c o m e t h e m o s t im p o r t a n t a n d e f fi c i e n t w a y t o o r g a n i z in g i n t e r n e t i n f o r m a t i o n re s o u r c e s f o r t h e p r e s e n t a n d f u t u r e p e r i o d . i t c a n s t i l l s u p p l y l a n g u a g e g u a r a n t e e f o r i n t e r n e t in f o r m a t i o n r e t r i e v a l . t h e a r ti fi c i a l l a n g u a g e f o r m e d u n d e r t h e c o n d i t io n s o f t h e h a n d r e t r i e v a l a n d t h e m a c h i n e r e t r i e v a l h a s b e c o m e m a t u re i n o r g a n i z a t i o n a n d r e t r i e v a l . we m u s t s o l v e t h e p ro b l e m h o w t o c o m b i n e n a t u r a l l a n g u a g e a n d a rt i fi c i a l l a n g u a g e w h e n w e t a l k a b o u t o r g a n i z i n g a n d r e t r i e v i n g i n t e r n e t i n f o r m a t i o n re s o u r c e s . u s e d f o r o r g a n i z in g a n d re t r i e v in g i n t e rn e t i n f o r m a t i o n , t h e c o m b i n a t i o n o f t h e n a t u r a l l a n g u a g e a n d t h e a r ti f i c i a l l a n g u a g e s h o u l d b e t h e d e v e l o p i n g d i r e c t i o n t o t h e f u t u r e i n f o r m a t i o n re t r i e v a l l a n g u a g e . t h e a u t h o r w a n t s t o l o o k f o r w a r d t o t h e l a t e s t t r e n d o f d e v e l o p m e n t i n t h i s fi e ld b y s t u d 如 n g t h e t h e o re t i c a n d p r a c t i c a l a c h i e v e m e n t i n i n f o r m a t i o n r e t r i e v a l l a n g u a g e b o t h a t h o me a n d a b r o a d i n t h e t i me o f i n t e rne t . t h i s p a p e r i s m a d e u p o f f i v e p a r t s . t h e fi r s t p a r t a n a l y s e s t h e e f f e c t s o f i n f o r m a t i o n r e t r i e v a l l a n g u a g e i n n e t w o r k c o n d it i o n ; t h e s e c o n d p a r t i n t r o d u c e s th e a c h i e v e m e n t s i n e l e c t r o n i c t r a d i t i o n a l c l a s s i fi c a t i o n a n d t h e u s i n g o f t r a d i t i o n a l c l a s s i fi c a t i o n i n n e t w o r k a n d i n in f o r m a t i o n re t r i e v a l t o o l ; t h e t h i r d p a rt i n t ro d u c e s t h e a c h i e v e m e n t s i n e l e c tr o n i c t r a d i t i o n a l s u b j e c t a n d t h e u s i n g o f t r a d i t i o n a l s u b j e c t i n n e t w o r k a n d i n i n f o r m a t i o n re t r i e v a l t o o l ; t h e f o r th p a rt i s a b o u t n a t u r a l l a n g u a g e p r o c e s s i n g a n d n a t u r a l l a n g u a g e r e t r i e v a l w h i c h i n c l u d e s b a s i c p r i n c i p l e s o f n a t u r a l l a n g u a g e p r o c e s s i n g a n d t h e u s i n g o f i n f o r m a t i o n r e t r i e v a l; fi n a l ly , t h e a u t h o r p o i n t s o u t t h a t t h e n e w d e v e l o p m e n t o f i n f o r m a t i o n r e t r i e v a l l a n g u a g e i n c lu d e s m e t a d a t a a n d t h e i n t e g r a t i o n o f t h e c l a s s i fi c a t i o n - s u b j e c t - n a t u r a l l a n g u a g e . k e y wo r d s i n f o r m a t i o n r e t r i e v a l l a n g u a g e n e t w o r k n a t u r a l l a n g u a g e r e t r i e v a l s e a r c h e n g i n e a r t i fi c i a l la n g u a g e r e t r i e v a l c l a s s i fi c a t i o n s u b j e c t i n t e rn e t cl as s numb e r g2 5 4 g3 5 4 郑州大学硕士学位论文:网络环境下信息检索语言研究 网 络 环 境 下 信 息 检 索 语 言.研 究 引言 信 息 检 索 语 言 是 表 达 一 系 列 概 括 文 献 情 报 内 容 的 概 念 a 其 相 互 关 系 的 概 乡 标 识 系 统 , 其 职 能 是 作 为 信 息 检 索 系 统 的 语 言 保 证 , 检 索 语 言 的 乒 量 直 接 影 响 着 检 索 系 统 的 效 率 网 络 环 境 下 , 信 息 检 索 语 言 面 临 的 信 息 环 境 已 发 生 了 深 刻 的 变 化 : 数 据 库 数 量 急 剧 膨 胀 , 信 息 资 源 娄 裂 冥 超 , 4 4 , 广 大 网 络 终 端 用 户 直 接 w 41 检 索 语言。 这 就 要 求 情 报 语 言 学 要 突 破 传统的 束缚, 开 拓研究 思 路, 适 应大 信息 环 境 -f m 报 检 索 的 语 言 要 求 。 近 年 来 国 内 苏 的 碱分 析 表 明 , 情 报 语 言 在 网 蝙 j息 环境下又有了其发展的新领域、新热点,蕴育着新的生机。 回 顾信息检索产生、 发展的历史, 从基子印 刷型文献的 手工检索护 基于数据 库的计算机检索到基于网络的信息检索,检索语言经历了以受控语言飞 分类法、 主 题 法 ) 为 主 、 受 控 语 言 和 自 然 语 言 m 合 , 以 及 以 自 然 语 言 为 主 三 个 阶 段 可 检 索 语 言 的 基 本 功 能 : ( 1 ) 对 情 报 信 息 的 内 容 加 以 标 抓 揭 示 a 外 表 特 征 和 内 在内 容; ( l ) 对内 容 相同 及 相关的 情报 加以 集中 或 揭 示 其 相 关 性断 ( 3 ) 对大 量 信 息加以系统化或组织化;( 4 ) 便于将标引用语和检索用语进行相符性比较:( 5 ) 便于检索用户从无序的 信息中 获取有用信息 , 网 络信息 检索工具主 要是基于范畴层次 ( l i s t - b a s e d s e a r c h e n g in e s )的 搜索 引 擎 和 基 于 语 词 层次( w o r d s - b a s e d s e a r c h e n g in e s ) 的 搜 索引 擎。 著名的 浏 览 型 网 络 信 息 检索 工 具如y a h o o , e b la s t , g a la x y 和太 部 分 给 令型 搜 索引 擎实 际 上 都 是自 觉或不自 觉地借鉴了 传统情报检索语言组织和揭示信息的思想, a l t a v i s t a 集 成 的a s k j e e v e s 就 是自 然 语 言 搜 索 引 擎 。 传 缤 检 索 语 言 经 过 网 络 适 应 性 改 造 后 能够成为目 前及将来相当时期内 最主要、 最重要、 最有效的网络信息资源组织的 方 法 , 依 然 能 为 网 络 信 息 检 索 提 供 语 言 保 证 。 拼 一 叹 目 前 , 信 息 检 索 领 域 在 手 于 检 索 、 ,机 检 耕万 形 成 的 受 控 语 言 从 标 ” 到 检 索 两方面都已 基本成熟. 网 络信息资源的 组织与检索涉及到自 然语言如何与受控语 言兼容并蓄问题。 受控语言与自 然语言相结合, 共同 用于组织和检索网络信息应 该是未来信息检索语言的发展方向。 张琪玉. 情报语言学基础 增订二版) .武汉: 武汉大学出版社,1 9 9 7 . 9 郑州大学硕士学位论文:网络环境下信息 检索语言研究 1网络环境对信息检索语言的影响 1 . 1网 络环境特点 1 . 1 . 1 网络信息的 特点 ( 1 ) 数量巨 大而庞杂。 工 n t e r n e t 是一个基于t c p / i p 协议连接世界各国数以百万计算机网 络的通讯网,是一个集各种信息资源为一体的信息资源网。 政府、机构、企业、个人等都可以 在网上发布信息,因此它已成为无所不包的庞杂信息源, 并具有跨地区、分布广、多语种、高 度资源共享的特点。 ( 2 )内容范围广泛。网上的信息源几乎涵盖了人类知识的全部领域,既有人文科学、社 会科学、自 然科学、工程技术信息,也有大量生活服务、娱乐消遣等方面的信息。 ( 3 ) 信息类型丰富。 其主要形式有网络出版, 包括电子期刊、网上图书、电子工具书等; 各种动态信息主要包括新闻、 广告、 股市行情、 天气、 交通、 会议等; 还有大量的书目 数据库、 联机数据库、 软件资源以 及个人主页、电子邮件等。 这些信息都是数字式、多媒体,既有文本 的信息,也有大量的图形、图像、音频、视频信息。 ( 4 ) 动态性强。网上信息具有高度动态性,各种信息处在不断生产、更新淘汰的状态, 同时连接在一起的各网络、网站、网页都时时刻刻在变化。网络信息还具有交互式特点,如 b b s 、 聊天、 游戏等。 ( 5 ) 信息组织特殊、 控制性差。因 特网 上信息的组织以 超文本技术链接, 构成立体网 状文 献链,把不同国 家地区、 不同 服务器、 各种网页、 各类不同 文献的 相关信息都通过节点链接起来, 使得检索相关文献、相关信息非常方便, 加强了信息间的关联度,形成了一个网状结构。 ( 6 ) 有序与无序,集中与分散并存。互联网上的信息没有统一控制,虽然从局部来说某 个网站、某个数据库是有控制的、 相对集中的、 有序和规范的, 但总的来说互联网的信息没有 统一的控制, 信息质量良 荞不齐,信息也处于分散、无序、不规范的 状态之中。 1 . 1 . 2 网 络信息用户特点 由于职业和专业的不同, 以及受教育程度的高低差异, 使得用户个体的认识和认知特征、 知 识储备和知识结构各不相同 , 对知识体系的了解也不尽相同。同时,对同一概念、同一事物的 内 涵和外延的理解也会存在差异, 对网 络信息需求的目 的 和需求信息的种类也不同。正是由 于 种种不同,致使网 络信息用户呈现差异性、复杂性等特征。 ( 1 )用户范围广泛,层次不同。互联网的用户从院士到小学生、从科学家到工人、从企 业家到农民、 从音乐爱好者到球迷, 包括家庭主妇、 老人、儿童等等,我国网络用户主要群体 是青年人,学生占很大比 例。 ( 2 )受教育程度差别大。从初等教育程度到博士教育, 用户个体的认知特征、知识储备 和知识结构都有很大的不同;工作岗位、职业、专业不同,对同一概念、同一事物的内涵和外 郑州大学硕士学位论文:网 络环境下信息 检索语言研究 延的理解不尽相同。目 前我国网络用户7 0 %以 上具有大专学历, 随着网 络的普及, 这一比 例正 在降低,这也说明网络对专业知识的要求越来越低。 ( 3 ) 用户需求多样化和复杂化。为进行科学研究, 收集经济信息, 接发邮件,下载软件, 听音乐,参与讨论, 看新闻,学习课程,了解信息, 学习知识,娱乐消遣, 购物等等,都可以 利用网络, 这导致用户查询和利用信息的视角不同、方法不同、 类型不同、 深浅程度也不同。 ( 4 ) 使用网络信息服务项目 不同。用户最常使用的网络服务是:电 子邮 箱有 7 4 .9 %, 搜 索引擎有5 1 .3 % , 其他如软件上传或下载, 各类信息查询, 聊天也都是经常使用的信息服务类 型。 搜索引擎和信息咨询服务是用户利用网络信息资源最重要的工具,网络信息资源的有效组 织决定了对其利用程度及便捷性。 1 . 1 . 3 网络信息资源组织与揭示 ( 1 )自 由 文本组织方式。自 由 文本以 全文数据库存储为基础。 它将一个信息源的全部内 容( 而不是信息的线索) , 转化为计算机可以 识别、处理的信息单元而形成数据集合, 适应了对 w e b 网页中非结构化信息处理的需要。 它必须对全文数据库进行词( 字) 、 句、 段落等深层编辑、 加工, 允许用户用自 然语言表述、 检索, 直至直接查看一次信息。 由 于自 由 文本组织方式占 用的 空间大, 系统响应速度慢, 因而关于全文数据库压缩技术的 研究, 关于超高密度磁盘、光盘及芯 片技术的研究, 以及关于自 然语言后控机制的研究和给标引短句加权的研究等, 将是自由 文本 组织方式中需要解决的问题。 ( 2 ) 超维组织方式。 这是一种基于知识单元的 新型信息组织与揭示方式, 它 借助超文本技 术来实现。 超文本技术将文本信息存储在无数节点( n o d e ) 上, 一个节点就是一个相对独立的“ 信 息块”, 节点之间用 “ 链”( l i n k ) 联接, 由此组成信息网络; 它也可以链接声音、图像( 形) 、影 视等多媒体信息, 构成超维检索点。 在这种超维系统中, 用自 然语言分析、 抽取知识单元, 不仅 减轻了专业标引人员的负担, 而且打破了传统系统线性序列的局限性, 允许用户按个人兴趣和 熟悉的语言浏览、查询信息。 1 . 1 . 4 网络技术环境特点 ( 1 )现代计算机技术、网络技术、通讯技术使分布在全球的信息设备和各种信息资源跨 越时空联系在一起,为人们发布、利用信息提供了巨大的便利。 ( 2 ) 数字技术、多媒体技术把不同 载体、不同 形式的 信息放在互连网上, 只需一台计算 机,不用借助更多专门 设备接可以 上网 浏览文本、图 形、图 像、声音、动画等信息。 ( 3 ) 超文本和w w w 技术实现工 n t e r n e t 上客户机与服务器的 集合, 将全部的w e b 站连在一 起,将全部相关信息链接在一起,通过它可以存取世界各地的超媒体文件。 ( 4 ) 人工智能 技术、自 然语言理 解技术、自 动索引技术、 数据库技术以 及相 应的 硬件, 使得快速将浩如烟海的动态信息进行过滤、 筛选、 整序、 建库成为可能,同时为网络信息快速 查询提供技术支持. 郑州大学硕士学位论文:网络环境下 信息检索语言研究 1 . 2 信息检索语言的类型 信息检索语言是用于标引和检索文献的标识系统, 各种信息检索语言的 基本原理是一致 的。由于它们在表达各种概念及其相互关系时和在解决对它们提出的那些共同要求时所采用 的方法不同,因而形成了不同的类型。按传统的分类方法,信息检索语言的种类有: ( 1 ) 按构成原理分为:分类检索语言、主题检索语言、代码检索语言: ( 2 ) 按学科或专业范围分为:综合性语言和专业性语言; ( 3 )按语种分为:单语种语言和多语种语言; ( 4 ) 按标识和组合使用方法分为: 先组式语言和后组式语言。 z 将表示各种知识领域 ( 学科及其研究问题)的类目 按知识分类原理进行系统排列并以 代 表类目 的数字、字母符号 ( 分类号)作为文献主题标识的一类情报检索语言,亦称分类法。 使用分类检索语言建立的文献情报检索系统能够使检索者鸟瞰全貌、 触类旁通,对系统地掌 握和利用一个学科或专业范围的知识和情报十分方便、有效。 分类检索语言可分为等级体系分类语言( 等级列举式分类法) 和分析一综合分类语言( 分 面组配式分类法)两种。等级体系分类语言属于先组式语言,分类体系明显,容易理解,但 因其采用列举式列类方法和类目的单线排列方式,所以存在着不能无限容纳概念的局限性和 集中与分散的矛盾. 分析 一综合分类语言就本质而言属于后组式语言, 不过通常采取先组散 组式的使用方式,它基本克服了等级体系分类语言的缺点,但分类体系不够明显,较不易理 解。 使用语词标识的一类情报检索语言, 亦称主题法。其基本的、共同的特点是: 用自 然语言中的 名词术语经过规范化后直接作为文献主题标识, 直观性好; 按字顺序 列排列标识, 检索者较易使用; 具有按文献主题 ( 文献所论述的事物) 集中 文献情报的功能, 对有关某一事物的检索效率较高;用参照系统及其他方法间接显示文献主题概念之间的关 系, 其系统性不及分类检索语言, 对一学科或一专业文献作全面、 系统的检索比 较困难; 较 接近自 然语言, 所以较易与自 然语言结合使用。 主题检索语言根据其发展的历史可分为标题法、 单元词法、叙词法和关键词法等。 自 然语言从广义上说,指人们日 常说话、写文章和交流思想所使用的语言。 有人将自 然 语言定义为文献作者所使用的书面用语。 在信息检索中包括关键词、自由 词和出现在文献题 名、 摘要、正文或参考文献中的具有一定实质意义的词语。自 然语言检索在机检系统中, 尤 其在网络检索中得到了 广泛应用。 1 . 3网络环境对信息检索语言的影响 自2 0 世纪9 0 年代以 来, 以i n t e r n e t 为核心联接起来的全球计算机网 络, 使传统的相对 z 张琪玉, 情报语言 学 基础 增订 二 版)武汉: 武汉大学出 版 社. 1 9 9 7 , 郑州大学硕士学位论文:网络环境下信息 检索语言 研究 集中 和规范的文献数据库及其检索系统面临挑战。 在网 络环境中, 传统的“ 提问 一检索” 模 式已逐步被 “ 浏览一查询”模式所取代。与此同时, 网络环境中信息检索的理论与实践研究 也都围绕这一模式展开。 1 . 3 . 1 自 然语言与受控语言的比 较 自 然语言和受控语言是当前信息资源标引和检索中两大语言类型, 在性能上各有其优点 和不足之处。 受控语言与自 然语言相比,有许多不可替代的优势: ( 1 )通过词形控制和词义控制,使同义词、近义词的联系得到揭示,可以检出同一概念 的对象, 增加查全率:同时,对同形异义词的含义做出限制, 使得检索结果更加准确,提高 检准率。 ( 2 ) 把语义相关的词联系起来, 对词间关系进行结构化处理, 建立语意关系网。 在计算 机检索系统中可以多种方式显示,能引导用户进行相关信息查询, 减轻用户智力负担, 便于 扩检和缩检,满足不同检索需求。 ( 3 )压缩词汇数量,使得词汇所占空间或篇幅较小,便于进行各种处理。 ( 4 ) 受控语言如分类语言,具有对信息资源集合系统组织和管理的功能。 人工语言 ( 即情报检索语言)的不足主要有: 标引速度慢、处理时差大、 对标引人员要 求高、 标引成本高、一般用户使用困难:一部严格控制词表的编制和维护,需要花费巨大的 人力物力和财力,增加系统的费用;在新概念接受方面显然不如自 然语言,不能及时更新。 采用自 然语言检索较受控语言检索有许多优点: ( 1 ) 可以降低标引难度及成本,从而提高标引速度,缩短时差: ( 2 ) 直接使用文献用语和作者用语检索能更好地体现文献本体内容,可以改善标引的专 指性和一致性,从而提高检索的效率: ( 3 )各学科的用户在进行检索时一定会感到使用本学科领域的自 然语言要比使用受控词 表方便得多; ( 4 ) 用自 然语言标引和检索文献,它可以 使用在文摘、 索引 或文献正文中出现的任何一 个有实际意义的词, 不仅可以 指定检索的两个词必须在同一段落或同一个句子中出现, 甚至 还可以 指定两个词间不超过多少个间隔词,因而保证较高的检准率; ( 5 )采用用户熟悉的自 然语言,符合用户检索习惯, 减少了 概念转换中产生的失真; ( 6 )由 于自 然语言标引或无标引检索多采用自 动处理方式,省略编制词表和词汇的智力 负担; ( 7 ) 符合客观需求,不受限 制,随时输入新词语, 可以 紧跟科学的 发展, 及时反映新事 物、新概念; ( 8 )自 然语言标引 检索入口 词多, 有利于提高 检全率; 操作简单方便, 灵 活,比 较适 合 郑州大学硕士学位论文:网 络环境下信息检索语言研究 没有专业知识的广大网络用户使用等。 1 . 3 . 2自 然语言与受控语言结合的 趋势 从网上自 然语言使用的情况看, 问题并不那么简单. 如选词不加严格控制, 会导致词语量 过大, 过多占 用磁盘空间, 从而影响主题的 集中, 降 低查准率。 同时, 由 于自 然语言对多义词也 基本不加控制, 往往使相关主题内 容的文献分散, 从而造成漏检. 受控语言与自 然语言存在的 这种互逆相关性, 恰好说明它们在网络环境中兼容、整合的必要性。 结合人工语言和自 然语言使用的不同 特点,作者建议采用以 下模式: 简略的 人工语言标引十 自 然语言检索十 较完善的后控技术进行控制,简述如下: ( 1 ) 简略标引。 检索语言学家 f w l a n c a s t e r提出: “ 当 今的 趋势, 显然是朝着简化 情报系统的方向 发展” ; “ 我们可以 通过一种控制不太严格的词汇, 在标引 上少花些时间, 以 及 将较多的功夫下在输出阶段的检索和筛选上” ; “ 人们可以用一种粗略的小型词表进行花费很 小的简易标引, 来辅助一个用可检文摘形式组成的机读数据库” 。 比如用简单的分类或主题索 引将文献粗加归类, 如目 前的许多数据库所做的那样, 如中国学术期刊光盘( 网 ) , 就分为政治 经济法律、电 子科学、文史哲、 教育与社科综合等类: 而许多网上数据库或搜索引 擎是按主 题归类, 如y a h o o , s o h u 等。 这样, 在查询时先选择大致类目 或主题, 然后再查, 应能减少发生 词义混同的现象。 还可加上简单的地理、时间、 文种等方面的限 制, 使检出 文献的专指度达 到一定程度。现在的问题是如何使这样的简单标引能好用而又准确,于是元数据应运而生, 尤其是都柏林核心集因在网 络信息资源组织方面的显著优势,受到人们广泛关注。 ( 2 ) 采用自 然语言检索, 不受人工词表限制。 科学编制检索表达式, 尽量充分、 准确表 达用户的检索要求,大量编制入口 词表有尤为重要。 ( 3 ) 较完善的后控技术由人工智能系统或后控词表系统对用户的检索需求加以 分析、 综 合、归纳,转化为系统可接受的语言,然后进入系统开始查询。 人工智能系统是一种理想的 检索辅助系统,它应能够接受用户的自 然语言检索需求,加以分析并将其转化为规范的检索 要求,指令机器寻找出符合用户需求的结果。目前没有这样一种系统进入使用。但我们可以 退一步,用另一套目 前可行的办法加以弥补自 然语言检索的不足,即编制一套科学、合理、 与数据库配套的后控词表附在数据库中。 这里所说的科学合理, 指的是应由 各学科专家挑选, 准确反映各事物主题概念,尽量不含歧义。当用户用自 然语言输入检索要求后,系统加以分 析,从后控词表中 选出 相应的、 规范的检索词( 也可能是一组词) 供用户挑选, 用户挑选与自己 的检索要求最贴切的词进行检索。 这方面已 有实例, 如美国u m l 数据库。 这样可修正自 然语 言检索的不足, 提高检索效率和检准率。其中的关键是后控词表的编制应经仔细斟酌,应以 能最准确表达事物主题且为该专业内 普遍承认和使用的词汇为宜。 2 网络环境下传统信息检索语言:分类检索语言的应用 2 . 1传统分类法电子化及在网络上的应用 郑州大学硕士学位论文:网 络环境下信息检索语言研究 网络信息组织一般是按照信息的范畴 ( 分类) 和事物的 概念 ( 主题) 组织信息。网 络查 询工具也分为按范畴浏览的工具和语词查询的工具。现有 工 n t e r n e 七上著名的检索工具 y a h o o , e x c i t e , 工 n f o r s e e k 等, 实际上都在自 觉或不自 觉地借鉴了 分类法组织和揭示信息的思 想;而a l t a v i s t a 集成的a s k j e e v e s自 然语言搜索引 擎则以 主题词为组织与揭示信息的重要 途径和方法。 2 . 1 . 1 分类法的电 子化 网上受控语言的应用研究始于分类法的电子化和叙词表的自 动生成。分类法的电子化为 分类法在联机和网络环境中的应用提供了数据保证和技术支持。目 前,分类法的电子化及电 子版分类法在联机和网络环境中的应用研究仍然是情报检索语言研究的一个热点。 国内分类法的电子版发展史上具有划时代意义的事件是 中国图书分类法电子版的出 版发行。 2 0 0 1 年7 月,由 中国图书分类法编委会和丹诚软件公司联合研制的 中图 法 ( 第四版)电 子版由 北京图书馆出 版社正式出版。该电 子版是在 w i n d o w s 平台上开发的,有 单机版,也有网络版。它的问世填补了我国没有电子分类法的空白。 中图法( 第四版)电 子版的特点: 完整的数据格式 中图 法( 第四 版)电 子版, 在c n m a r c 基础上,参考u s m a r c 的成功经验,并结合 中 图 法的自 身特点研制而成。 这种数据格式比 较全面的描述了 中图法 类目的内容与属性, 便于和国际通讯格式接轨,又较好地照顾了 中图法本身的 特点。 方便的显示和浏览功能 运用等级展开的类目 树、 浏览窗、 详细窗、 m a r c 记录窗、 临近类目窗,以及超文本技术, 为用户提供了 宏观结构、 类目的上位类和下位类环境、类目 细节等多种浏览形式;使用多窗 口同时显示不同的浏览检索窗;各个窗口 可以 任意布局和互动;各种浏览方式之间和各窗口 之间可以随意跳转,从根本上克服了线性体系对多层次浏览的制约。 完备的检索和统计功能 中图 法电子版的检索功能包括:分类法的各个范围的检索、 各种匹配方式的检索、 布 尔逻辑检索、各种限定因素的检索、电 子分类法各个要素的检索。这些功能使用户可以根据 不同的需要以任意条件进行快速检索,同时也提供相应的统计功能。 通用的编目 接口 能与各种编目 系统接口 是电 子分类法的必备功能, 中图法电 子版不但以 剪贴板的方式 解决了与各种编目 软件的 通用接口,同时用 d a t a t r a n s 语言编写了系统的开放式接口,可供 用户或软件开发商连接使用。 实用的评注功能 在使用电子分类法时又能管理分类法的“ 使用本” , 这对一个单位的分类工作与规则管理 郑州大学硕士学位论文:网络环境下信息检索语言研究 是十分重要的. 中图法电子版的评注功能完备, 在使用网络版时,只要一个客户端对类目 下的评注作了修改或添加,那么其他所有客户端便会同步显示,这就为电子版的管理带来了 很大方便。 方便友好的用户界面 电子分类法既是面向标引用户和检索用户的分类法,就应尽可能地每一个细节考虑用户 使用的方便性。 中图法 电子版界面清晰有序, 在启动各种功能时一般都提供多种调用方式, 以满足不同用户的习惯。详细的帮助系统能解答使用中遇到的各类问 题。 为主题检索的兼容留有余地 分类主题一体化既是文献信息标引的方向, 也是文献信息检索的方向, 中图法电子版 在格式设计中也包括了与 中国分类主题词表相连接的各个字段,能充分描述主题词及其 词间关系,很容易把主题词表挂接上,为实现检索语言的分类主题一体化奠定了 基础。 ” 总之, 中图法电子版的出版发行将对我国文献信息整序工作、分类法理论研究以及 相关软件的开发产生深远的影响; 为其他综合性分类法和专业分类法电子版的 研制提供了可 供借鉴的经验;为 中图法的网络版的开发奠定了数据基础和技术基础。 2 . 1 . 2 分类法的网络版及在网络上的应用研究 2 0 世纪8 0 年代以来,人们对世界上主要几部分类法如:d d c , l c c , u d c在联机环境下 的应用进行了大量研究, 发现分类法在组织和检索网 络信息资源方面有独特的优势, 主要表 现在: 以 分类方法组织信息符合人们认识事物的 逻辑思维习 惯, 能满足“ 物以 类聚”、“ 鸟 瞰全貌”、“ 触类旁通”的检索要求: 将检索限定于特定类目, 可提高检准率: 分类体 系结构可显示检索词的上下文, 利于调整检索范围;以知识分类为基础,以符号为标识, 便于不同文种、 不同类型分类法的国际兼容; 通过分类浏览, 可方便地检索难以 确定名称 的新事物、 新知识。 比较适合于组织和检索网 络上的大量非文本信息。网上受控语言的应 用研究发端于分类法的电子化和叙词表的自 动生成。 通过网上对d d c , l c c 和u d c 的调查研 究, 总结网络版异同点, 各大分类法在网络信息资源组织与检索方面都采用较为先进的技术 与措施满足网络用户信息查询需求, 基本达到满意的效果,并为许多网 站直接使用。 ( 1 )杜威十进分类法 ( d d c )网络版 杜威十进分类法 ( d d c )在其版权所有者o c l c的努力下,由 美国国 会图书馆的 杜威编辑 部在 “ 视窗杜威”的基础上于2 0 0 0 年7 月率先推出了 其网络版。d d c 网络版的主要特征有: 易于使用的浏览器界面, 用户可以 对d d c 及相关的术语进行高效的检索和直观的浏览。 包含了数千个 d d c印 刷版中没有的相关索引词有组合类号,就是通过在相关词表中增 3 陈 树 年 . 我 国 第 一 部 电 子 分 类 法 一 中 国 图 书 分 类 法 电 子 版 的 功 能 与 特 点 . 图 书 情 报 工 作 , 2 0 0 2 ( 3 ) : 5 6 -5 9 , 8 1 郑州大学硕士学位论文:网 络环境下信息检索语言研究 加专指词来表征指向分类表中没有列出的复杂概念,并给出根据若干类号组合而成的相应类 号。 包含了 映射到d d c 类号的约9 0 0 0 0 个标题, 即由d d c 编辑映射( e m ) 的国会标题表( l c s h ) 标题;由 编辑映射的儿童标题表 ( s h c )的标题;o c l c的n e t f i r s t( 因特网信息资源目 录) 中由 人工映射 ( n f )的l c s h 标题;根据o c l c 的w o r l d c a t ( 联机联合目 录) 记录中标引的 杜威 分类号和 l c s h 标题;由计算机依据特定算法自 动统计映射 ( s m )的l c s h 标题:以及 “ 视窗 杜威”中统计映射的l c s h 标题。 具有为因特网 信息资源自 动分配候选类号的功能。 因为w e b d e w e y 包含了 分类号与l c s h 标题之间丰富的映射关系以 及分类号与类名、相关索引词的对应关系,不仅可以显著提高分 类人员利用d d c 类分新概念的能力,而且有利于实现计算机辅助分类。 建立了从映射的l c s h 标题到l c s h 规范文档的链接.由 于d d c 与l c s h 的映射关系, 用 户可以轻松地从类号所映射的主题词链接到独立窗口内的规范文档记录,而不用离开 w e b d e w e y 。反之, 用户可以 搜索并浏览整个l c s h 规范文档, 在此帮助下选择比 较适合的d d c 类号。 提供用户注释功能, 允许用户把自 己的注释增加到w e b d e w e y 中,以反映出当地的分类 惯例。这种注释分为机构注释和个人注释两种。 机构注释是机构中的 全部用户都能看见并参 考使用的,个人注释被个人授权号所限定的个人看见。 具有浏览和检索功能。在主界面上设有浏览输入框和检索输入框,并且提供多种不同 的浏览和检索范围选择。浏览和检索功能各有所长,可择其优而用之。 提供从类目 记录到手册记录的链接,方便调出手册记录的窗口。 新增加了“ 浏览结果” 功能, 类似于己经有的“ 检索结果” , 使用户可以任意选择新的 浏览或前的检索而不必返回开始屏幕。 按季度更新。 ( 2 )国 会图书馆分类法 ( l c c )网络版 美国国会图书馆于2 0 0 1 年正式推出了l c c 的网络版一一c l a s s i f i c a t i o n w e b 。只要经过 订购注册,全世界范围内的用户都可以通过网络进入、检索、浏览全部的国会图书馆分类表 及l c s h . 2 0 0 1 年来自 世界各地的6 9 7 8 名用户并且常常是每天4 0 0 个用户参加了该软件的试 用试验, 之后, 国会图书馆著录发行部( c d s ) 根据用户的对试用的反映对c l a s s i f i c a t i o n w e b 进行了优化。该软件产品的经理c h e r y l c . c o o k评价说: “ 将国会图书馆分类法和标题表合 二为一使人们易于明白 两种体系之间的关系并能方便地找到所需的精确信息。 国会图书馆分类法网络版具有以下特点: 月曹树金,颜丽君,汪东波. d d c , l m u d c网络版评析.中国图书馆学报, 2 0 0 2 ( 6 ) : 6 1 一 “ 郑州大学硕士学位论文:网络环境下信息检索语言研究 全文显示全部的国 会图书馆分类表。 包括能 够以 词表方式显示和检索的l c s h 及相应的l c c 分类号。 建立l c c 分类号与l c s h 标题之间的对应关系。 l c c 数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论