数据分类与编码标准介绍.ppt_第1页
数据分类与编码标准介绍.ppt_第2页
数据分类与编码标准介绍.ppt_第3页
数据分类与编码标准介绍.ppt_第4页
数据分类与编码标准介绍.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医药卫生科学数据共享网总中心 国家科技基础条件平台 医药卫生科学数据共享网 资源体系建设与标准规范建设培训 张业武 资源体系建设课题组 标准规范建设课题组 数据分类与编码标准介绍 张黎黎 主要内容 不能缺少 科学数据共享活动涉及科学数据的汇交、分发、服务和应用 环节,也涉及科学数据的采集、加工和处理环节。 分类是人们认识事物的基础,对某种类别的数据作层次分类 并对分类结果赋予特定代码,以达到对该种数据类别或其分类结 果在语义上无歧义理解。 科学数据分类编码的目的在于准确地识别主题数据集的内容 属性,将主题概念进行分析,并将分析的结果转化为分类编码语 言;实施对数据的有效管理,并能按类别开发利用数据,实现数 据共享。 科学数据共享 一、背景意义 一、背景意义 数据集内容可以从不同的属性进行划分: n疾病分类,ICD-促进死亡率统计指标的可比性; n图书文献分类、学科分类,中图法-组织藏书排架; n业务属性,数据集分类-高层进行数据归并和信息组织。 体现-数据集内容的主题属性 医药卫生科学数据集的内容,围绕数据产生过 程中所容纳的一系列主题描述展开。 主题成为数据集分类与编码的内容属性之一, 同时,数据集若体现机构、学科、病种等属性,也 要做为内容的分类标识属性。 一、背景意义 内容二 标准研究意义 本标准就是对医药卫生科学数据主题数据集进行分类和 编码时应遵循的原则和方法,是分类和编码标准制定的指导 性标准。 确立数据分类与编码的原则与方法,指导和规范各数据 资源建设单位研究和制定各类共享科学数据分类与编码标准 ,推动和促进科学数据的集成与共享。 标准内容 封面 目次 前言 引言 名称 1.范围 2.规范性引用文件(略) 3.术语和定义(略) 4.分类原则 5.分类方法 6.类目设置规则 7.编码原则 8.编码方法 9.代码设计 10.分类与编码标准文档结构 1.范围 2.规范性引用文件(略) 3.术语和定义(略) 4.分类原则 1)系统性原则 综合考虑数据主题一致性,按其内在联系进 行系统化排列,确保类目唯一、结构合理、层次 清晰,减少冗余。 2)实用性原则 满足数据集分类编目的简便性、可操作和通 用性需求和数据集查询的一致性理解。 3)可扩展性原则 保证分类体系框架适应数据集不断丰富的内 容和日益增长的种类与数量。 4.分类原则 4)兼顾科学性原则 自顶向下,优先选择最能代表卫生信息数 据集主题的语言、词条定义类目名称,编制受控 分类体系表。 5)稳定性原则 使用稳定的因素作为分类依据,同时提高 分类体系的可延展性或兼容性,促进稳定性。 1)主题优先法 5.分类方法 分类体系首先依据主题构建主分类框架, 分类框架各层级类目可表示为一级、二级、三 级类目等。 5.分类方法 2)多属性复分法 数据集以相同主题构建,在若干相同主题 数据集中,又根据其个性,如时间、地域、疾 病、学科、机构等多属性,构成辅助分类体系 ,即复分类体系。 5.分类方法 2)多属性复分法 特有属性1 类目1 类目2 类目3 特有属性3 类目1 类目2 类目3 特有属性2 类目1 类目2 类目3 特有属性n 类目1 类目2 类目3 5.分类方法 3)组配分类法 组配分类法是按照多维度、交叉性方式, 将数据集主分类框架与复分类表组合使用,对 数据集进行分类的规则。在某个主分类下的卫 生信息数据集的组配分类示意。 5.分类方法 3)组配分类法 6.类目设置规则 1)主分类目界定规则 a) 类目名称与主题对应 类目名称规范 同位类互斥 数据集存在性 类目均衡 层次逐级隶属 6.类目设置规则 2)复分类目界定规则 a)复分类表的类目根据特有属性分区段设置,每 个区段对应数据集的一个特有属性,构成一个 复分类的类目。 b)复分类的类目间无层级、无关联,无顺序约束 ,属于分区段的松耦合约束。 c)复分类目区段个数可根据实际需要进行扩展。 6.类目设置规则 3)主分类目层级约束规则 a)分类体系的展开层次决定着分类导航系统的导 航程度,层次越多越深,知识被组织得越细密 ,用户查找信息耗费的时间和精力就越多。 b)主分类层次应控制在3级-6级之间。 6.类目设置规则 4)复分属性有限性控制 复分类表属性宽度的控制应该充分考虑数据 集内容的特有属性进行设置,详细描述、全面覆 盖数据集内容信息,多属性组配,增加数据集管 理维度、提高数据组织和生产的效率和质量,增 强数据集聚类的灵活性、增加检索入口,适应计 算机检索的需要。 1)唯一性 在一个编码体系中,每一个编码对象仅应有 一个代码,一个代码只唯一表示一个编码对象。 2)匹配性 代码结构应与分类体系相匹配。 3)可扩充性 代码应留有适当的后备容量,以便适应不断 扩充的需要。 7.编码原则 4)简洁性 代码结构应尽量简单,长度尽量短。 5)区段性 在数据集编码体系设置若干区段,每 个区段表达不同的类目属性,便于实现不 同维度检索。 7.编码原则 代 码 有含义代码无含义代码 缩写码 层次码 并置码 组合码 顺序码无序码 递增顺序码 系列顺序码 约定顺序码 8.编码方法 按GB/T 7027规定的方法 1)主分类表码位设计 分类框架中每一个类目设定惟一的主分类 编码,编码为11位混合码。 第1位第2位第3位第4位第5位第6位第7位第8位第9位第10位第11位 亚门类大 类小 类一 级二 级三 级 字母码数字码数字码数字码数字码数字码 AZ01990199019901990199 9.代码设计 2)复分类表码位设计 复分类表需依据数据集的特有属性采用分 段编码设计,其基本内容可以由诸如卫生机构 、疾病分类和学科分类等多个区段组成,表述 格式为(GB/T 11714 )- -.(GB/T 14396)- .(GB/T 13745)-。 对扩增属性,代码按照同一规则设计。 9.代码设计 10.分类与编码标准文档结构 内容三 1.范围 2.规范性引用文件(略) 3.术语和定义(略)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论