版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DB44DB44/T1888—2016标准文献全文XML解析规范2016-09-08发布2017-01-01实施广东省质量技术监督局发布 Ⅲ Ⅴ 1 1 1 2 3 7 14 28 31 33ⅠⅢV随着网络技术、计算机技术和信息技术的飞速发展,标准文献的信息组织模式已从卡片式目录手工检索的模式转换为数据库存储计算机检索的模式,通过题录加工和全文扫描,建立了题录数据库和全文数据库,实现了题录信息的计算机检索和相关标准文本的自动链接,但是检索结果往往是与目标信息相关的标准文献,还需要进一步通过浏览文本获取最终的目标信息,难以实现知识管理和知识发现。标准信息挖掘是通过数字化和结构化的信息加工,实现多途径和多维度的信息检索,全方位和细粒度的信息抽取,如图1所示。信息加工结构化信息检索标准信息挖掘信息抽取图1标准信息挖掘针对采集的资源的格式不同,在综合考虑加工时间、成本和效益的基础上,建立标准文献全文结构化解析模型,提出了采用XML(即可扩展置标语言)描述的半结构化和全结构化两种标准全文结构化数据格式。1本标准规定了标准信息挖掘过程中的标准文献全文结构化解析模型,以及半结构化和全结构化标本标准适用于半结构化和全结构化标准文献全文格式和存储格式的定义,支持不同的数字化标准下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本GB2312-1980信息交换用汉字GB13000-2010信息技术通用多八位编码GB/T18793-2002信息技术可扩展置标语言标准文献经过数字化、结构化的信息加工,实现多途径多维度的信息检索,以及全方位和细粒度2标准通用置标语言(SGML)的子集,是一种用于标记电子文件使其具有结构性的标记语言,它为描述和交换结构化数据提供统一方法。3.5元素element在诸如HTML和SGML之类的标记语言中,一组标记、标记之间的内容以及标记所含的所有属性的组3.6只包含了标准全文部分的内容和结构信息的文档,称为半结构化标准全文。3.7完全包含标准全文内容和结构信息的文档,称为全结构化标准全文。4标准全文结构化解析模型综合考虑标准化对象、技术要素和标准文本三个方面,在内容层面和展现层面建立了如图2所示的标准全文结构化解析模型。分类方法1分类方法1标准全文分类方法Schema文件分类方法3标准全文分类方法XML文件条文标准全文Schema文件标准全文XML文件公式分类方法2展现层面图表图1标准全文结构化解析模型3标准的可选元素,以标准类型进行组织,(预留今后扩SpecialStandard的子节点,可为A3,...第一个标准类型的扩展元素第二个标准类型的扩展元素Text/Image/Table/Form4约束定义别名Section的子元素,可选Section的子元素,可选定义Section的子元素,可选b)元素的Id、名称、是否必须著录、是否多值等属性应进行设定,这些设置决定结构化标准全层次结构NormalStandardSpecialStand名称类型使用默认固定注解5.2.2元素StructTextDocu层次结构5层次结构名称类型使用默认固定注解层次结构NameOther-NamesTagDefineNelementsNormalStandardS6使用固定注解层次结构目类型父元素5.2.6元素StructTextDocument/NormaIStandard/Section/Other-Names层次结构父元素5.2.7元素StructTextDocument/NormaIStandard/Section/Tag7层次结构类型5.2.9元素StructTextDocume层次结构目类型5.2.10元素StructTextDocument/NormalStandard/Section/Other-Names/Alias层次结构约束定义半结构化标准文献XML文件的根节点8约束定义条文信息用于描述元素中的图片信息图片所在页数图片路径,一般仅著录文件名用于描述元素中的表格信息表格图片路径,一般仅著录文件名用于描述元素中的公式信息公式所在页数公式图片路径,一般仅著录文件名Image,Table,Formula的子元素Image,Formula的子元素图片和公式的说明信息层次结构使用<xs:elementref="Section”maxOccurs=<xs:attributename="std_no"type="xs:string"use<xs:attributename="name"type="xs:string"use9层次结构使用默认固定注解<xs:elementref="Image”maxOccurs=<xs:elementref="Table"max0<xs:elementref="Formula”maxOccurs=<xs:attributename="id"type="xs:string"use<xs:attributename="name"type="xs:string"use<xs:attributename="t<xs:restrictionbase<xs:enumerationvalu层次结构曰attributes使用默认固定注解<xs:attributename="page"type="xs:string"use层次结构名称类型使用默认固定注解pathxs:stringrequi<xs:elementref="Title"type=<xs:elementref="Desc<xs:attributename=“path”type="xs:string"use<xs:attributename=“page”type=<s:attributename="1eft<xs:attributename="top”type=<xs:attributename="right"type=<xs:attributename="bottom层次结构使用<xs:elementref="Title"type=<xs:elementref="Content"type=<xs:attributename=“page”type="xs:stri<xs:attributename="path"type=”xs:stri<xs:attributename="left"type=<xs:attributename="top<xs:attributename="right<xs:attributename="bottom"type=层次结构<xs:elementref="Title"type="xs:<xs:elementref="Desc"type="<xs:attributename="path"type="xs:string"use="re<xs:attributename="page"type="xs:string"use="re<xs:attributename="left"type="xs:<xs:attributename="top"type="xs:<xs:attributename="right"type="xs:<xs:attributename="bottom"type="xs:6.2.7元素Standard/Sectio<xs:elementname="Content"type="xs:6.2.8元素Standard/Section/Formula/Title类型<xs:elementname="Titl类型<xs:elementname="Des7.1.4文档元素的属性、约束与页面元素的关系见表3。123415617819图表注条1图表注图注11a图表注层次结构范围封面目次前言引言范围引用文件正文条款附录参名称类型LanguageXS:languaUpdatetimeXS:datetTiUpdateuserXS:string<xs:elementname="文档"><xs:documentation>Commentdescribingyourrootelement</xs:d<xs:elementname=“目次”mi<xs:elementname=“引言”mi<xs:elementname="范围"/><xs:elementname="引用文件”minOccurs="0"/><xs:elementname="正文条款”maxOccurs="unbounded"/><xs:elementname="附录"minOccurs="0"maxOccurs="unbounded"/><xs:elementname=“参考文献”minOccurs="0”/><xs:elementname="索引”minOccurs="0"maxOccurs="unbounded"/><xs:elementname="修改单”minOccurs="0"maxOccurs="unbounded"/><xs:attributename="ID"type="xs:ID"use<xs:attributename="language"type=”xs:langua<xs:attributename="updatetime"type="xs:dateTime"use<xs:attributename="updateuser"type="xs:string"use7.2.2元素封面层次结构性质被替代标准号三注备案号 中文名称英文名称标准号被替代标准号采用名称类型可用性性质XS:documentElementAttribute<xs:elementname="封面"><xs:elementref="中文名称"minOccurs="0"/><xs:elementref=“英文名称”minOccurs="0”/><xs:elementref=“标准号”/><xs:elementref="被替代标准号"minOccurs="0"/><xs:elementref="采用标准号”minOccurs="0"/><xs:elementref=”备案号”minOccurs="0"/><xs:elementref=“发布日期”/><xs:elementref=”实施日期”minOccurs="0"/><xs:elementref=“发布组织”minOccurs="0”/><xs:attributeref=“性质”default="资料性概述”/>7.2.3元素目次性质性质XS:documentElementAttribute<xs:elementname="目次"minOccurs="0"><xs:elementref=“条文”/><xs:attributeref=”性质”/>7.2.4元素前言性质性质XS:documentElementAttribute<xs:elementname="前言"><xs:elementref="条文"/><xs:attributeref=“性质”/>7.2.5元素引言层次结构引言白性质图表0..0性质XS:DocumentElementAttribute<xs:elementname="引言"m<xs:elementref="条文"maxOccurs=<xs:elementref="图”minOccurs="0"maxOccurs=<xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref=“注”minOccurs="0"maxOccurs="unbounded"/><xs:attributeref=“性质”default="资料性概述”/>7.2.6元素范围层次结构性质性质XS:DocumentElementAttribute<xs:elementname="范围"><xs:elementref=“条文”/><xs:attributeref=“性质”fi7.2.7元素引用文件性质性质XS:DocumentElementAttribute<xs:elementname=“引用文件”min0ccurs="0"><xs:elementref=“条文”/><xs:attributeref=”性质”default=”规范性一般”/>7.2.8元素正文条款性质土性质XS:DocumentEleme<xs:elementname="正文条款"maxOccurs="unbounded"><xs:elementref=“条文”maxOccurs="unbounded”/><xs:elementref="图"minOccurs="0"maxOccurs="unbounded"/><xs:elementref="表”minOccurs="0"maxOccurs="unbounded"/><xs:elementref="注”minOccurs="0"maxOccurs="unbounded"/><xs:attributeref="性质”default="规范性技术"/>7.2.9元素附录层次结构,性质图表名称类型可用性性质XS:DocumentElementAttribute<xs:elementname="附录"minOccurs="0"maxOccurs="unbounded"><xs:elementref="条文”minOccurs="0"maxOccurs=<xs:elementref="图”minOccurs="0"maxOccurs=<xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"/><xs:attributeref=“性质”/>7.2.10元素参考文献层次结构性质性质XS:DocumentElementAttribute<xs:elementname=“参考文献”m<xs:elementref=“条文”/><xs:attributeref=”性质”default=“资料性补充”/>7.2.11元素索引层次结构性质索引性质XS:DocumentElementAttribute<xs:elementname=”索引”minOccurs="0"maxOccurs="unbounded"><xs:elementref="条文”maxOccurs="unbounded"/><xs:attributeref=“性质”/>7.2.12元素修改单层次结构性质图表注性质XS:DocumentEleme<xs:elementname="修改单”minOccurs="0"maxOccurs<xs:elementref="条文”maxOccurs="unbounded"/><xs:elementref="图"minOccurs="0"maxOccurs="unbounded"/><xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref="注”minOccurs="0"maxOccurs=<xs:attributeref=“性质”/>层次结构 巨名称类型可用性<xs:elementname="图"><xs:elementname="titl<xs:elementname="descriptio<xs:attributename="foreword<xs:attributename="page"type="xs:str<xs:attributename="path"type="xs:str层次结构 TitleDescriptionConte名称类型可用性<xs:elementname="表"><xs:elementname="titl<xs:elementname="conten<xs:elementname="descriptio<xs:attributename="foreword<xs:attributename="page"type="xs:str<xs:attributename="path"type="xs:str层次结构曰曰attributes注,条文条文BeNotedID名称类型可用性<xs:elementname="注"><xs:elementref=“条文”/><xs:elementname="beNotedI<xs:attributename="noteTag"type="xs:boolean"use="opt7.2.16元素条文层次结构E<xs:elementname="条文"><xs:elementname="title"type="xs:string"mi<xs:elementname="Content"type="xs:string"mi<xs:attributename="ID"t<xs:attributename="forewordI<xs:attributename="page"type="xs:string"use<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifi<xs:elementname="Alias"type="xs:strin<xs:elementname="Define"type="xs:stri<xs:elementname="Name"type="xs:string<xs:elementname="NormalStanda<xs:elementref="Section"maxOccurs="unbounde<xs:elementname="Note"type="xs:string<xs:elementname="Other-Nam<xs:elementref="Alias"maxOccurs="unbounde<xs:elementname="Sectio<xs:elementref="Nam<xs:elementref="Other-Names"minOccurs="<xs:elementref="Tag"minOccurs=<xs:elementref="Define"minOccurs="0<xs:elementref="Note"minOccurs=<xs:attributename="id"type="xs:string"use="require<xs:attributename="necessary"default="Fa<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tru<xs:enumerationvalue="Fal<xs:attributename="section-type"default="T<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tex<xs:enumerationvalue="Image<xs:enumerationvalue="Table<xs:enumerationvalue="Formul<xs:attributename="multi-value"default="Fal<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tru<xs:enumerationvalue="Fals<xs:attributename="sub-sect<xs:restrictionbase="xs:stri<xs:enumerationvalue="Image<xs:enumerationvalue="Tabl<xs:enumerationvalue="Formu<xs:elementname="SpecialStanda<xs:elementref="Section"maxOccurs="unbounde<xs:attributename="std-type"type="xs:string"use="requi<xs:elementname="StructTextDocum<xs:elementref="NormalStandard<xs:elementref="SpecialStandard"minOccurs="0"maxOccurs="unbounded"<xs:attributename="updatetime"type="xs:str<xs:attributename="updateuser"type="xs:strin<xs:elementname="Tag"type="xs:string<?xmlversion="1.0"encoding="UTF-8"standalone="y<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifi<xs:elementname="Content"type="xs:strin<xs:elementname="Desc"type="xs:strin<xs:elementname="Title"type="xs:strin<xs:elementname="Form<xs:elementref="Title<xs:elementref="Des<xs:attributename="path"type="xs:string"use="required<xs:attributename="page"type="xs:string"use="required<xs:elementname="Ima<xs:elementref="Title<xs:elementref="Des<xs:attributename="path"type="xs:string"use="required<xs:attributename="page"type="xs:strin<xs:elementname="Sectio<xs:complexTypemixed="tr<xs:elementref="Text<xs:elementref="Image"maxOccurs="unbound<xs:elementref="Table"maxOccurs="unbounde<xs:elementref="Formula"maxOccurs="unbounde<xs:attributename="id"type="xs:string"use="require<xs:attributename="name"type="xs:string"use="required<xs:attributename="type"use="require<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tex<xs:enumerationvalue="Imag<xs:enumerationvalue="Ta<xs:enumerationvalue="Formu<xs:elementname="Standa<xs:elementref="Section"maxOccurs="unbounde<xs:attributename="std_no"type="xs:string"use="requi<xs:attributename="name"type="xs:string"use="required<xs:elementname="Tabl<xs:elementref="Title<xs:elementref="Content<xs:attributename="page"type="xs:string"use="require<xs:elementname="Tex<xs:complexTypemixed="tr<xs:attributename="page"type="xs:string"use="require<?xmlversion="1.0"encoding="utf-<!--editedwithXMLSpyv2009()byAlbert(EMBRACE)-<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifieattributeFormDefault="unqualified"><xs:elementname="文<xs:documentation>Commentdescribingyourrootelement</xs:documentati<xs:elementref="中文名称"minOccurs="0<xs:elementref="英文名称"minOccurs="0<xs:elementref="标准号<xs:elementref="被替代标准号"minOccurs="0<xs:elementref="采用标准号"minOccurs="0"<xs:elementref="ics"minOccurs="<xs:elementref="ccs"minOccurs="0<xs:elementref="备案号"minOccurs="0<xs:elementref="发布日期"<xs:elementref="实施日期"minOccurs="0<xs:elementref="发布组织"minOccurs="0<xs:attributeref="性质"default="资料性概述"<xs:elementname="目次"minOccurs<xs:elementref="条文"<xs:attributeref="性质"<xs:elementref="条文"maxOccurs="unbounded"<xs:attributeref="性质"<xs:elementname="引言"minOccurs<xs:elementref="条文"maxOccurs="unbounded"<xs:elementref="图"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性质"default="资料性概述"<xs:elementref="条文"maxOccurs="unbounded"<xs:attributeref="性质"fixed="规范性一般"<xs:elementname="引用文件"minOccurs=<xs:elementref="条文"<xs:attributeref="性质"default="规范性一般"<xs:elementname="正文条款"maxOccurs="unbound<xs:elementref="条文"maxOccurs="unbounded"<xs:elementref="图"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性质"default="规范性技术"<xs:elementname="附录"minOccurs="0"maxOccurs="unbounde<xs:elementref="条文"minOccurs="0"maxOccurs="unbounded"<xs:elementref="图"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性质"<xs:elementname="参考文献"minOccurs=<xs:elementref="条文"<xs:attributeref="性质"default="资料性补充"<xs:elementname="索引"minOccurs="0"maxOccurs="unbounde<xs:elementref="条文"maxOccurs="unbounded"<xs:attributeref="性质"<xs:elementname="修改单"minOccurs="0"maxOccurs="unbounde<xs:elementref="条文"maxOccurs="unbounded"<xs:elementref="图"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性质"<xs:attributename="id"type="xs:ID"use="required"/><xs:attributename="language"type="xs:language"use="required"<xs:attributename="updatetime"type="xs:dateTime"use="optional"<xs:attributename="updateuser"type="xs:string"use="optional"<xs:elementname="title"type="xs:strin<xs:elementname="content"type="xs:strin<xs:elementname="description"type
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修理厂节约管理制度(3篇)
- 飞机发动机培训课件
- 2026年西安交响乐团招聘备考考试题库及答案解析
- 2026湖南长沙市长郡芙蓉中学春季物理学科教师招聘备考考试试题及答案解析
- 2026公安部直属事业单位郑州警察学院招聘55人备考考试试题及答案解析
- 2026河北保定市满城区人力资源和社会保障局选聘高中教师35人备考考试试题及答案解析
- 2026山东威海市文登区事业单位招聘初级综合类岗位人员备考考试题库及答案解析
- 2026年玉溪市红塔区中医医院第一批就业见习岗位招募(4人)参考考试题库及答案解析
- 2026广西崇左市凭祥市看守所公益性岗位人员招聘1人备考考试题库及答案解析
- 哈纳斯乳业绩效管理制度(3篇)
- 2025至2030中国EB病毒检测行业标准制定与市场规范化发展报告
- 2026年浙江高考语文真题试卷+答案
- 《骨及关节疾病》课件
- QES三体系建筑施工企业管理手册(含50430)
- 物业管理技巧与经验分享
- DB4114T 105-2019 黄河故道地区苹果化学疏花疏果技术规程
- 如何高效向GPT提问
- GB/T 44179-2024交流电压高于1 000 V和直流电压高于1 500 V的变电站用空心支柱复合绝缘子定义、试验方法和接收准则
- 德汉翻译入门智慧树知到期末考试答案章节答案2024年中国海洋大学
- 入股到别人私人名下协议书
- MT-T 1199-2023 煤矿用防爆柴油机无轨胶轮运输车辆安全技术条件
评论
0/150
提交评论