科学数据分类与编码标准.ppt_第1页
科学数据分类与编码标准.ppt_第2页
科学数据分类与编码标准.ppt_第3页
科学数据分类与编码标准.ppt_第4页
科学数据分类与编码标准.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,科学数据分类与编码标准,讲课人:何建邦,曹彦荣 时 间:2006年5月24日,2,主要内容,编制背景 标准总体结构 标准内容要点解析 标准使用,3,简介,4,科学数据分类与编码方案,1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类与编码的使用 8 分类代码表,5,分类类目释义,6大门类、31亚门类、234大类和1008中类,共1279条类目的释义,6,电子词典,主要功能 分类类目的管理 分类类目的查询 数据集标引 分类映射 ,7,转换实例mapping机制,分别对每个试点的分类作相应的Crosswalk,实现标准之间的映射; 试点已有的标引结果可以通过软件直接映射。,8,一、编制背景,9,背景,海量科学数据的共享需求 海量科学数据需要有序组织、管理 科学数据共享工程门户网站需要按照分类来组织数据目录 数据用户需要从分类编码中查询数据,10,解决的问题,多学科、跨行业部门科学数据的分类 分类编码如何应用 如何支持网络信息化的数据集分类和共享 与已有科学数据共享工程中诸多试点的分类标准之间如何交互,11,二、标准总体结构,12,标准目次,1 范围 2 规范性引用文件 3 术语和定义 4 分类原则 5 分类方法 6 编码规则 7 分类编码的使用 8 分类代码表,附录A 资料性附录 科学数据共享工程分类编码标准的使用实例 附录B 资料性附录 本标准与科学数据共享工程中试点单位的分类标准之间的映射 附录C 资料性附录 科学数据共享工程数据分类编码标准XML文件,13,门类,14,亚门类(资源环境科学为例),15,大类,16,中类,17,编码规则,门类、亚门类各为1位英文字母码,大类、中类各2位数字码。采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。,18,三、标准内容要点解析,19,分类依据(1),遵循“数据分类与编码基本原则与方法”标准 数据分类的基本单元(或者说分类的对象)是数据集 保证高层数据分类统一,低层数据分类由各单位自行研制 以数据中心有效管理、组织数据,最终用户快捷地查找数据为目的,20,分类依据(2),以科学数据共享工程的规划为依托 充分考虑各个数据共享中心的分类编码 结合学科分类标准、行业分类标准,21,分类编码标准的应用,该标准只适用于数据集的分类,并将分类结果组织形成数据目录。该标准不适用于数据库的改造,数据项的改造,数据项内容的代码填写等。,22,分类编码标准的维护,随着科学数据共享工程的不断推进,该分类编码标准必定会不断扩展和修订。 这种扩展必须是在遵从“数据分类与编码基本原则与方法”的基础上的扩充。,23,数据集的分类标引,分类标引的对象是数据集 分类标引是在数据集外部进行的 分类标引的最终结果是标引结果集(数据库),24,标引过程中组配方法的应用,在分类标引时,针对数据集的内容,从类目中找出与数据集内容相对应的各个类目,用它们的编码组配表达所标引的数据集内容。,25,标准的映射及标引结果集的转换,把各个数据中心采用的分类编码标准中的类目和科学数据分类编码标准中的类目对应起来。 把用数据中心分类编码标准标引的结果集,直接导入到以科学数据分类编码标准为依据的标引结果集中。,26,四、标准的使用,27,示例一:林业科学数据中心的“森林资源概况表”数据集,通过分析该数据集的内容,应该属于“农业科学林业科学森林资源数据”,在“森林资源数据”这个大类下,有“全国森林资源数据”、“省级森林资源数据”等小类,可以根据查阅数据集的具体内容,得出应该属于哪个小类。如,这个数据集是全国范围内的森林资源概况,则最后的类就是“农业科学林业科学森林资源数据全国森林资源数据”,具体编码为:AF1112。,28,示例二:农业科学数据中心的“主要农作物种质资源评价数据库”,通过分析该数据集的内容,应该属于“农业科学农业科学数据作物科学-主要农作物种质资源评价数据”,则具体编码为:AS1211。,29,示例三:农业科学数据中心的“中国湖泊数据库”,通过分析该数据集的内容,发现其既可以属于“农业科学农业科学数据水产科学”(编码为:AS2113),又可以属于“资源环境科学水文水资源科学水资源水资源调查”(编码为:RH1211)。因此,可以采用组配的方式,将这两个类目的代码,全部标注在这个数据集上。,30,示例四:医药卫生科学数据集使用范例,31,科学数据分类编码工具软件,32,电子词典软件框架,33,电子词典功能,标准的管理和维护 查询 以类名查询,以代码查询,以释义查询; 精确查询,模糊查询。 标引 映射,34,标引保证标准和数据之间的关系,SDCC,数 据 集 A,标引,系统轮排,从外部进行标引, 数据集本身无需任何变动,35,关键技术(1),高效的信息管理和查询 灵活地管理机制,可实现多层次的分类树的高效存储; 实现了类目和代码的双向查询采用了高效的算法,可以支持10万级别以上,乃至100万级别的类目的快

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论