网络信息分类法概要PPT课件_第1页
网络信息分类法概要PPT课件_第2页
网络信息分类法概要PPT课件_第3页
网络信息分类法概要PPT课件_第4页
网络信息分类法概要PPT课件_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第五章网络信息分类法 第一节概述第二节网络信息分类法的编制第三节网络信息分类组织和著录 2 第一节概述 网络信息的特点 数量巨大而繁杂 内容范围广泛 信息类型众多 动态性高 超文本链接 有序与无序 网络信息用户的特点 用户范围极广 受教育程度差别极大 利用网络信息的目的和类型存在明显差异 用户使用的网络服务不同 3 网络信息技术环境的特点 TCP IP 数字技术 多媒体技术 超文本 WWW 人工智能 数据库技术及相应的硬件等 网络信息的组织和网络信息分类法的编制 只有与当时网络信息环境技术相适应 才能最大限度地发挥信息组织的作用 4 网络信息分类法与传统分类法比较 分类对象 传统分类法以物理的 实体的文献 如印刷型文献 磁带 光盘等为主要处理对象 对文献的内容进行标引和整序 网络信息分类法以数百万计服务器上的信息资源为处理对象 对它们进行组织筛选 信息数字式 多媒体 动态 虚拟的 5 信息的知识范围 传统分类法以文献收藏部门为使用对象 文献的出版是受控制的 内容是经过一定筛选的 分类体系具有稳定性 网络信息分类法以搜索引擎或大型网站为使用对象 网络信息总体上是不受控制的 几乎包含了人类一切知识领域 要求其具有高度的灵活性和适应网络信息的动态性 6 分类法的功能 传统分类法通过对全部文献标引 编制分类检索工具 组织分类排架 分类标引基本是手工的 网络分类法通过对网络信息的标引 建立网络信息分类导航系统 提供浏览式检索手段 分类导航系统的建立和维护主要是手工式的 也有人机结合 7 分类标记 是传统分类法不可缺少的组成部分 网络分类法组织虚拟信息 一个类目就是一类相关信息的节点 不涉及物理排列 用户不需要根据分类标记索取信息 也无须使用分类标记 但作为网络分类法的后台运作 分类标记有用 8 编制方法 知识框架 前者以文献内容的学科属性为主要的聚类标准 形成学科分类和高校专业设置为基础 兼顾文献特点的分类大纲 后者以主题为主要标准 把相关的信息加以集中 构成符合各类用户查询习惯的大纲 9 前者体系是唯一的 后者可以有两个以上的分类体系 主从并用 满足不同查询需要 类目划分 前者线性体系 后者的划分不严格按等级进行 如跳跃式划分 主题多重属性关系和相关关系采用交叉列类 超文本连接和多窗口显示 网状体系 10 类目排列 前者强调类目之间的内容联系和逻辑关系 科学性 规律性强 后者为了方便 快速 自动地排列众多同位类 也广泛使用字顺 重要性排列法 说明和注释 前者将其作为标引人员的重要参考 后者不设参照注释 有选择地列举下位类 便于链接 11 类名 前者力求科学 准确 规范 稳定性高 后者选择类名更注意面向用户 力求通俗易懂 时新 简练 准确性不如前者 面向用户和面向后台技术运作的类名可以不一致 维护 前者修订很慎重 后者可随时修订 但更复杂 繁重 12 传统分类法在网络信息组织中的应用 应用现状 一些著名的分类法被网站或搜索引擎用来组织网络信息 例如 加拿大的主题信息系统 CanadianInformationbySubject 应用DDC的分类系统 美国依阿华洲立大学应用LCC开发 CyberStacks 等 13 分类法在网络信息上的应用 大体有两种类型 一是以某个分类法为依据 经过必要的改造后作为组织网络信息的主体 多数建立浏览结构 应用的主要范围是大学 图书馆 学术性网站 14 二是在设计分类导航系统时 在整体上或局部上参考一个或几个文献分类法的类目体系 这是主要应用形式 文献分类法直接用于网络信息组织 网站 搜索引擎 目前处于起步阶段 影响微乎其微 15 文献分类法用于网络信息组织的优势 文献分类法几乎都是综合性分类法 涵盖人类知识的各学科领域 具有很高的通用性 文献分类法的编制和运用既有成熟的理论和技术支持 也积累了丰富的实践经验 严格的词汇控制和完善的语义网络 有助于网络信息的筛选和组织 16 文献分类法是一个完整的知识分类等级体系 类目之间严密的逻辑关系 全面揭示了知识的内在联系 非常适合于浏览检索和对主题进行分类控制 是目前搜索引擎所不能达到的 文献分类法正向电子化和分类 主题一体化方向发展 更适合于对网络信息的组织 17 文献分类法适应网络信息组织的改造 增加必要的非学术信息类目 包容网络上的各类信息和多媒体资源 适当突出信息量大 利用率高的类目 把按学科聚类和按主题聚类结合起来 满足不同出发点的浏览查询需要 18 简化类目划分层次 让全部类目为列举式的 归并一些不合适网络信息组织的类目 把类目的线性结构改造成网状结构 满足多途径浏览检索的需要 以交叉列类方式和超文本链接把相关主题联系起来 通过分面分析和多重列类 实现对一个类目的多标准划分 19 类目注释要突出内容含义的说明和类目关系的指引 删除与网络检索用户无关的注释 提高对网络信息多属性 多视角的揭示 分类法的界面要适应网络环境的特点 20 网络信息分类法的功能 满足对互联网上各种类型信息组织的需要 满足对互联网上各个知识领域信息组织的需要 具有科学性 实用 能满足各类用户浏览查询的动态分类体系 充分揭示信息知识的内容相关性 21 能对搜索的信息进行有效的控制和过滤 面向最终用户 能与主题检索相互配合 有丰富的信息输出 22 网络信息分类组织与主题组织的关系 WWW的问世 使世界的信息传播和利用进入了一个崭新的时代 1994年后搜索引擎异军突起 给人们的信息查询带来巨大的便利 但单纯的自然语言检索经常会给你提供许多风马牛不相及的信息 表明信息数量越大 越需要受到控制 23 信息的分类查询和主题查询是最基本的查询需要 信息的检索离不开分类和主题两种基本方法 互联网上需要分类查询与主题查询的一体化 在特定知识范围内进行字顺检索 用特定的类限定字顺检索 24 分类法在网络信息组织中的地位日益重要 25 网络信息的自动分类问题 搜索引擎或门户网站的分类导航系统人工标引和维护与网络信息增长的矛盾 要求分类导航系统的自动标引和维护 我们所讲的网络信息自动分类 是针对网站的整体 针对文本信息而言 26 自动分类的类型和程序 类型 两种 自动聚类 就是由计算机系统对待分类文本进行分析并提取有关特征 然后对提取的特征进行比较 根据一定的规则将具有相同或相近特征的对象定义为一类 27 自动归类 就是计算机系统对待分类文本进行分析并提取有关的特征 然后与既定分类体系中对象所具有的公共特征进行相关性比较 将对象归入与其特征最相近的类中 基于词的自动分类和基于专家系统的自动分类 28 程序 大体包括信息采集 文档表示 抽取分类特征 相似性匹配 网站信息整理等步骤 网络机器人robot按一定规则和策略循环运行搜集信息 加工网站主页信息 分析结构布局 判断网站主题范围 29 对文本进行分词 抽取表达网站主题内容的语词 分析语词的重要程度 词频统计 给出权值 以确定哪些可作为网站主题内容的特征项 将抽取的特征项与分类知识库所形成的矢量空间模型进行相似性匹配 以能涵盖各特征项的类目为主要类目 其他为次要类目 30 编制网站的提要及其他说明标识 经过标引 著录的网站存入索引数据库 把网站加进分类导航系统 并自动进行排序 31 第二节网络信息分类法的编制 网络信息分类导航系统中查询界面 类目体系 各级类目及其链接的网络信息是它的分类法部分 知识分类体系的构建 综合性搜索引擎与专业性搜索引擎或网站不同 32 聚类的标准 主要标准 主题和专题 学科和专业作为辅助标准 专业分类法可以学科或专业为主要聚类标准 或二者结合 大类的设置 数量15 20个 大类设置要有较高的稳定性 通常一 二级类目构成网络信息分类法组织的核心框架 33 分类体系展开的层次 它决定着分类导航系统 知识地图的详略程度 3 6级之间 类目的种类 包括子类和网站两种 网站是分类系统展开的最末级 点击后进入不属于分类系统的网页 34 G网页目录kidsandteens pre school Categories ABC sand123 s 56 games 33 shapesandcolors 32 Webpages noggin 35 类目名称 准确 通用和精练 多分类体系的运用 主 从分类体系 例如 主分类体系娱乐休闲 求职与招聘 艺术 生活服务 文学 计算机与互联网 教育就业 体育健身 医疗健康 社会文化 科学技术 社会科学 政治军事 新闻媒体 参考资料 个人主页 商业经济 少儿搜索 36 S的从分类体系新闻 财经 娱乐 房产 女性游戏 旅游 校园 动漫 同学录 企业 短信体育 科技 音乐 汽车 37 类目的划分与设置 分类标准及使用次序 主题分类法 以事物为主要聚类标准 多重列类 为网络分类法类目划分的重要方法 类目的均衡性 同一级的各个类目包含的信息不应相差太悬殊 否则增加不必要的浏览路径 影响分类导航的效果 38 Dir S 2005 9 搜索分类 文学小说 15441 网上书库 193 网上书店 125 散文杂著 1325 作家作品 10617 校园文学 2212 影视文学 33 古典文学 994 艺术 9341845 组织机构 19 论坛聊天 64 39 突出重点的类目 把信息量大 点击频率高的知识范畴突出列类 类目设置的规律性 某些形式类目如果再按知识的内容细分 要尽量采取与传统分类法一致的做法 40 类目交叉关系的处理 纵向等级关系的处理 从大类到各级类目均可设置必要的平行体系 横向相关关系的处理 设置 交叉类目 41 类目与信息的排列 原则和方法 类目排列 内容相关 逻辑相关 形式相关 网站信息排列 重要程度 点击频率 字顺 42 类目注释和说明 两种方式 简练的文字指明该类所含 不包含内容范围 列举下位类揭示本类内容范围 或提示重点 热点 隐藏较深的内容 43 用户界面基本要求 视觉感觉友好 不同的类目区分排列 划分的子类与网站信息分别排列 设置路径指示 大类跳转要方便 固定栏目 下拉菜单 窗口等形式列出大类目录 44 设置 帮助 把用户查询中可能遇到的问题以及检索技巧等做成帮助文件 在检索界面设置 供用户在查询中随时调用 45 S军事 武器装备战争军事演习战略战术 军事理论军事论坛军事文学军事院校 新闻媒体组织机构活动 46 webdirectories Education highereducationCategories Academiccompetitions books Collegeanduniversityplanning 457 Sitelistingbypopularity Mailbase electronicmailinglistserviceforresearchinhighereducation enablinggroupstomanagetheirowndiscussiontopicsandassociatedfiles 47 Y 首页 医药与健康 疾病与症状 各种疾病与症状 霍乱路径指示可以使用户在层层浏览中随时掌握自己所处的位置 也可以根据链接直接返回本类的任何一级类目 48 第三节网络信息的分类组织和著录 网络信息的分类标引 网站的等级 搜索引擎或门户网站通常按一定标准 如内容新颖性 丰富详实程度 点击次数 被其他网站链接次数 网页设计等因素 划分若干等级 习惯上借用饭店的等级 表示 49 网站的主题分析 主要依据网页提供的信息 名称 关键词 提要等 必要时浏览网站目录 网站归类 充分 多视角揭示网站中有价值的知识内容和有检索意义的形式特征 处理好两个关系 即整体与局部 内容与形式 50 网站信息著录 还没有统一的规范 网站应著录以下信息 网站名称 网站的编码方式 网站内容提要或关键词 网站的因特网地址 网站的生成时间 网页长度等等 著录中最重要的是网站名称和简介 著录之前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论