(高清版)DB12∕T 1303-2024地方志数字化加工技术规范_第1页
(高清版)DB12∕T 1303-2024地方志数字化加工技术规范_第2页
(高清版)DB12∕T 1303-2024地方志数字化加工技术规范_第3页
(高清版)DB12∕T 1303-2024地方志数字化加工技术规范_第4页
(高清版)DB12∕T 1303-2024地方志数字化加工技术规范_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

地方志数字化加工技术规范2024-02-19发布2024-03-19实施IDB12/T1303—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件由天津市地方志编修委员会办公室提出并归口。本文件起草单位:天津市地方志编修委员会办公室、天津市地方志馆。本文件主要起草人:莫洪胜、仇伟海、郝登奎、梁娜、巩志彬、朱晓飞、朱雅晶、郑佳、张迪、李庆福、王靓、邓滢、柳杨。1DB12/T1303—2024地方志数字化加工技术规范本文件规定地方志纸质文献数字化加工流程、技术规范和地方志书籍出版的电子文件格式以及著录元数据结构等内容。本文件适用于地方志纸质文献数字化及出版电子书籍的加工处理。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T2260—2007中华人民共和国行政区划代码GB/T22373—2008标准文献元数据GB/T31219.2—2014图书馆馆藏资源数字化加工规范第2部分:文本资源DA/T31—2017纸质档案数字化规范3术语和定义下列术语和定义适用于本文件。3.1地方志localchronicles包括地方志书和地方年鉴。地方志书是全面系统地记述某一地域或某一专门领域自然、政治、经济、文化、社会和生态建设的历史与现状的资料性文献。地方年鉴是指全面系统记述某一地域或某一专门领域自然、政治、经济、文化、社会和生态建设年度现状的资料性文献。3.2地方志资源localchronicleresources包括但不限于地方志书、地方年鉴、期刊、地方史等地方志书刊类资源。3.3数字化digitization利用计算机技术将模拟信号转换为数字信号的处理过程。[DA/T31—2017,定义3.1]3.4地方志数字化digitizationofpaper-basedrecords采用扫描仪等设备对地方志资源进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像、文本数据、图片数据、表格数据,并按照在纸质文献的内在联系,建立起目录数据、内容数据、数字图像间的相互关联关系的处理过程。3.5单位长度内图像包含的点数或素数,一般用dpi表示。3.6准确率precision文本文件中正确识别的字符数与总字符数之比,即准确率=(正确识别字符数/总字符数)×100%。2DB12/T1303—20243.7光学字符识别opticalcharacterrecognition(OCR)电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字的过程。3.8元数据metadata描述信息资源或数据的数据。[GB/T22373—2008,定义3.3]3.9元素element元数据的基本语义单位,描述元数据的基本实体。3.10简单型simpletype不具有子元素的元素所对应的元素类型。3.11具有子元素且本身不能被赋值的元素所对应的元素类型。3.12复合型complextype本身可以被赋值且在一定条件下可以具有子元素的元素所对应的元素类型。4地方志数字化加工流程及质量要求4.1基本要求4.1.1完整性地方志数字化资源的类型、内容、元数据信息应保证完整。4.1.2规范性地方志数字化资源的数据格式、数据文件命名、数据存储应保证规范。4.1.3有效性地方志数字化资源应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开,编码混乱、图像失真等无法使用的错误。4.1.4准确性地方志数字化资源的文字、图像、版式文件、资源挂接、元数据应保证准确。4.1.5合规性地方志数字化资源的著作权属于作者,出版社或数字化扫描公司未经作者同意不得将地方志数字资源用于任何商业或其他营利性用途。各单位向同级地方志馆移交地方志数字资源应按照附录A,填写《地方志数字资源移交登记表》。4.2加工流程包括但不限于:建立目录数据库、扫描纸质文献、OCR识别、制作书签。4.3建立目录数据库3DB12/T1303—2024目录数据库数据规则的制定应符合附录C的要求,包括数据名称、字段类型、取值范围等。地方志数字资源命名要求应符合本文件4.7的要求。4.4扫描纸质文献4.4.1加工范围包括封面、版权页、目录、正文、附录、插页、封底等从封面到封底的全部页面。4.4.2加工格式地方志数字资源在形成过程中可采用通用格式,在归档时要转为版式文件,版式文件格式应与国家允许的格式一致,目前可采用双层OFD、双层PDF或矢量PDF格式。双层0FD、双层PDF文件图像所使用的图像格式为JPG;矢量PDF文件文字使用矢量字库,图像采用高质量方式。4.4.3加工要求4.4.3.1页面要求页面中图像层和文字层的文字对位要准确,页面完整,无缺页、重页,页码顺序颠倒等情况发生。文字简繁体参照原书处理。4.4.3.2图像要求4.4.3.2.1图像精度不少于300dpi,如原件质量较差或字体很小,字迹密集,可适当提高分辨率。4.4.3.2.2图像放大到200%的时候,字迹清晰,笔画连续,无断裂、缺块的现象,倾斜度不能超过0.5°。4.4.3.2.3含彩色插图的页面为彩色图像;含灰度插图的页面为灰度图像;其他页面,为黑白图像。4.5OCR识别使用OCR相关软件对地方志文献进行文字识别。OCR文字识别完成后需进行内容校对,采用人工检验或计算机程序辅助检验的方法对地方志数字资源中的文本、图片、表格等进行抽样检测。文本、图片准确率应在99%以上,表格准确率应在95%以上。4.6制作书签需包含与原书一致的书签。在出版物的封面、封面后的折页、第一次出现书名的地方、版权页、封底前的折页、封底,添加书签“封面、前折页、书名页、版权页、后折页、封底”,其他出现与章节平级的(如序,前言,后记等)内容,必须在版式文件出现的地方按原书内容添加书签。所有书签均按原书实际顺序,书签能准确跳转到其对应的位置。4.7命名要求地方志数字资源以其具有的唯一标识符命名,编码由15位组成。前2位代表地方志数字资源类型,其中“ZS”代表志书,“NJ”代表年鉴,“QK”代表地方志期刊,"FS"代表地方史。第3位代表地方志资源内容所属类别,编码规则按照中国图书馆分类法,其中A~X为专业性地方志资源(包括专门年鉴和专门志书)的类别编码,Z为综合型地方志资源(包括综合年鉴和综合志书)的类别编码。第4~9位共6位为地方志资源所属地行政区划代码,应符合GB/T2260—2007中华人民共和国行政区划代码的要求。第10~13位共4位为地方志记事下限的年份。第14~15位为卷次编号,代表地方志资源在该年份该区划的卷次,00代表只有唯一一卷,若有多卷,则01代表第一卷、02代表第二卷,依次类推。示例:ZSZ120104201000表示2010年天津市南开区志(1979-2010)44.8出版电子书籍的加工处理4.8.1格式转换要求由出版社的排版文件转换成版式文件时,必须纠正内码错误(原文文字错误可以除外),确保所有4.8.2加工及书签要求4.9存储结构要求4.9.1元数据收集4.9.2.1XML文件的规格应遵循XML1.0版本规格要求,编码方式为UTF-8,使用字符集应符合GB18030。4.9.2.2XML文件要求大小写正确、嵌套正确。4.9.3存储结构及实例一册(卷)地方志数字资源建立一个文件夹,文件夹以图书或期刊的标识符命名。文件夹内文件包括双层OFD或PDF(含书签)和元数据文件,均以其标5元数据著录要求5.1元数据的组成5DB12/T1303—2024由基本数据元素组成,包括题名、责任者、标识符、日期、数字加工信息、馆藏信息等元素。5.2元数据的分类5.2.1元数据从概念层次上区分为为描述元数据和管理元数据。5.2.2描述元数据由基本元素组成,包括题名、责任者等信息。5.2.3管理元数据由实体书的来源信息、馆藏信息和数字化加工元素组成,包括数字化加工机构、数字化加工交付时间等信息。5.3元数据的描述方法5.3.1中文名称由一个对象称谓的中文词或短语构成。5.3.2英文标签由一个对象称谓的英文词或短语构成。5.3.3定义说明数据元素范围的定义或说明,描述信息对象的一段文字。描述数据元素的必要性和作用。5.3.5必备性数据元素的选择性属性。5.3.6重复性数据元素的可重复性属性。5.3.7元素类型数据元素所属的类型,分为简单型、容器型、复合型。5.3.8数据类型由字符、数字、数值和日期等类型构成。5.3.9取值范围数据元素所涉及的取值范围。对数据元素的进一步说明。5.4元数据索引表元数据索引见表1。表1元数据索引表层次描述编号元素编号元素描述元数据M1题名6DB12/T1303—2024M2责任者M3主管单位M4主办单位M5其他责任者M6地域M7描述信息M8摘要M9编辑说明/凡例M10卷次篇目名称M11M12纂修日期M13出版日期M14标识符M15资源类型M16图书分类号M17行政区划代码M18记事下限M19卷次编号M20版权M21语种M22关联M23出版信息M24出版编号M25出版单位M26印刷单位M27开本M28印数M29字数M30页数M31定价管理元数据M32数字加工信息M33数字加工来源格式M34数字化加工机构M35数字化加工交付时间M36数字化加工执行标准M37来源信息M38来源方式M39提供方名称M40馆藏信息M41收藏单位名称M42典藏号M43排架区分号M44入藏日期M45入藏卷期M46保存状态M47完残M48完残程度DB12/T1303—20247(规范性)地方志数字资源移交登记表各单位向同级地方志馆移交地方志数字资源应填写《地方志数字资源移交登记表》,应符合表A.1。表A.1地方志数字资源移交登记表移交单位名称移交地方志数字资源明细4.数字版权情况口拥有版权口提供版权所有者授权声明口其他情况说明移交介质移交人(签字)年月日接收人(签字)年月日移交单位(盖章)年月日接收单位(盖章)年月日备注:移交单位应提供版权所有者的授权声明,确保接收单位享受地方志数字资源的复制、信息网络传播、汇编等权利。若发生版权争议,责任由移交单位承担。8DB12/T1303—2024元数据的Schema定义<xs:elementname="description"><xs:complexType><xs:sequence><xs:element<xs:element<xs:element<xs:element<xs:element<xs:element<xs:elementname="title"type="xs:string"/>name="creator"type="xs:string"/>name="dominantAgency"type="xs:string"/>name="sponsor"type="xs:string"/>name="otherCreator"type="xs:string"minOccurs="0"/>name="region"type="xs:string"/>name="descriptionInformation"><xs:complexType><xs:sequence><xs:element<xs:element<xs:element</xs:sequence></xs:complexType></xs:element><xs:elementname="date"><xs:complexType><xs:sequence><xs:element<xs:element</xs:sequence></xs:complexType></xs:element>name="abstract"type="xs:string"/>name="usual"type="xs:string"/>name="tableOfContents"type="xs:string"/>name="created"type="xs:dateTime"/>name="issued"type="xs:dateTime"/><xs:elementname="identifier"><xs:complexType><xs:sequence><xs:elementname="resourceType"type="xs:string"/><xs:elementname="booksNumber"type="xs:string"/><xs:elementname="areaNumber"type="xs:string"/><xs:elementname="lowerLimit"type="xs:string"/><xs:elementname="volNumber"type="xs:string"/></xs:sequence></xs:complexType></xs:element><xs:elementname="copyright"type="xs:string"/><xs:elementname="language"type="xs:string"/><xs:elementname="relation"type="xs:string"minOccurs="0"maxOccurs="unbounded"/><xs:elementname="publishingInformation"><xs:complexType><xs:sequence><xs:element<xs:element<xs:element<xs:element<xs:element<xs:element<xs:element<xs:element</xs:sequence></xs:complexType>name="publicationNumber"type="xs:string"/>name="publisher"type="xs:string"min0ccurs="0"/>name="PrintingUnit"type="xs:string"minOccurs="0"/>name="bookSize"type="xs:string"minOccurs="0"/>name="printNumber"type="xs:string"minOccurs="0"/>name="wordNumber"type="xs:string"minOccurs="0"/>name="pageCount"type="xs:string"min0ccurs="0"/>name="price"type="xs:string"minOccurs="0"/></xs:element><xs:elementname="digitialInfo"minOccurs="0"><xs:complexType><xs:sequence><xs:elementname="digitalSource"type="xs:string"minOccurs="0"/>9DB12/T1303—2024<xs:elementname="digitialUnit"type="xs:string"minOccurs="0"/><xs:elementname="leadDate"type="xs:string"minOccurs="0"/><xs:elementname="standardOfExecution"type="xs:string"min0ccurs="0"/></xs:sequence></xs:complexType></xs:element><xs:elementname="sourceInfo"min0ccurs="0"><xs:complexType><xs:sequence><xs:elementname="sourceType"type="xs:string"minOccurs="0"/><xs:elementname="sourceFrom"type="xs:string"minOccurs="0"/></xs:sequence></xs:complexType></xs:element><xs:elementname="collectInfo"min0ccurs="0"><xs:complexType><xs:sequence><xs:element<xs:element<xs:element<xs:element<xs:element</xs:sequence></xs:complexType>name="collectorName"type="xs:string"minOccurs="0"/>name="repositoryNumber"type="xs:string"minOccurs="0"/>name="shelfCode"type="xs:string"minOccurs="0"/>name="collectDate"type="xs:string"min0ccurs="0"/>name="collectPeriod"type="xs:string"minOccurs="0"/></xs:element><xs:elementname="preserveStatus"minOccurs="0"><xs:complexType><xs:sequence><xs:element<xs:element</xs:sequence></xs:complexType></xs:element></xs:sequence></xs:complexType></xs:element>name="integrity"type="xs:string"minOccurs="0"/>name="integrityLevel"type="xs:string"min0ccurs="0"/>DB12/T1303—2024元数据具体描述元数据的具体描述见表C.1。表C.1元数据具体描述编号M1中文名称题名英文标签title定义说明地方志资源的正式名称描述地方志资源的中心内容,提供检索必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M2中文名称责任者英文标签creator定义说明创作地方志资源的主要责任者描述地方志资源的唯一责任者,提供检索必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释著录单个作者编号M3中文名称主管单位英文标签dominantAgency定义说明创作地方志资源的主管单位或编纂委员会描述地方志资源的主管单位或编纂委员会,提供检索必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M4中文名称主办单位英文标签sponsorDB12/T1303—2024定义说明创作地方志资源的主办单位或编纂单位描述地方志资源的主办单位或编纂单位,提供检索必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M5中文名称其他责任者英文标签otherCreator定义说明创作地方志的其他责任者描述除主要责任者之外的其他责任者,提供检索必备性可选重复性可重复元素类型简单型数据类型字符取值范围注释多个人名以分号隔开编号M6中文名称地域英文标签region定义说明地方志资源所属国家、地域、省市的名称描述地方志资源所在地域,提供检索必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M7中文名称描述信息英文标签descriptionInformation定义说明对地方志资源摘要、编辑说明、凡例的描述提供地方志资源的描述信息,提供检索必备性必备重复性不可重复元素类型容器型数据类型字符取值范围注释DB12/T1303—2024编号M8中文名称摘要英文标签abstract定义说明地方志资源内容简介对地方志资源的核心内容简短陈述必备性有则必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M9中文名称编辑说明/凡例英文标签usual定义说明地方志资源的编辑说明/凡例对地方志资源的编写情况、背景、体例进行说明必备性有则必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M10中文名称卷次篇目名称英文标签table0fContents定义说明地方志资源各组成部分的清单描述地方志资源的框架和目录必备性必备重复性可重复元素类型简单型数据类型字符取值范围注释编号M11中文名称英文标签date定义说明与地方志资源生命周期的一个事件相关的时刻或一段时间明确地方志资源纂修、出版时间,提供检索必备性必备重复性不可重复元素类型容器型数据类型DB12/T1303—2024取值范围 注释 编号M12中文名称纂修日期英文标签created定义说明地方志资源的纂修日期明确地方志资源纂修日期,提供检索必备性有则必备重复性不可重复元素类型简单型数据类型取值范围注释编号M13中文名称出版日期英文标签定义说明地方志资源的出版日期明确地方志资源出版时间,提供检索必备性有则必备重复性不可重复元素类型简单型数据类型取值范围注释编号M14中文名称标识符英文标签identifier定义说明地方志资源的唯一标识符/文件命名,由资源类型、图书分类号、行政区划代码、记事下限、卷次编号构成每一份地方志资源均设置唯一标识,便于保存和利用必备性必备重复性不可重复元素类型复合型数据类型字符取值范围注释标识符在系统中应具有唯一性编号M15中文名称资源类型英文标签resourceType定义说明地方志资源的类型明确地方志资源的类型,提供检索DB12/T1303—2024必备性必备重复性不可重复元素类型简单型数据类型字符取值范围志书、年鉴、期刊、地方史注释编号M16中文名称图书分类号英文标签booksNumber定义说明地方志资源的图书分类号依据中国图书馆分类法,明确地方志资源的图书分类号必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M17中文名称行政区划代码英文标签areaNumber定义说明地方志资源所属地区的行政区划代码明确地方志资源所属地区的行政区划代码必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M18中文名称记事下限英文标签lowerLimit定义说明地方志资源所表述的截止时间描述地方志资源所表述的截止时间必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M19中文名称卷次编号DB12/T1303—2024英文标签volNumber定义说明地方志资源的卷次编号描述地方志资源的卷数必备性必备重复性不可重复元素类型简单型数据类型字符取值范围00代表唯一一卷、01代表第一卷、02代表第二卷注释编号M20中文名称版权英文标签copyright定义说明地方志资源的版权所有方描述地方志资源的版权所有方必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M21中文名称语种英文标签language定义说明地方志资源的语种记录地方志资源的语种必备性必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M22中文名称关联英文标签relation定义说明与当前地方志资源关联的其他地方志资源描述与当前地方志资源关联的其他地方志资源,建立关联必备性可选重复性可重复元素类型简单型数据类型字符取值范围注释DB12/T1303—2024编号M23中文名称出版信息英文标签publishingInformation定义说明地方志资源的出版信息记录地方志资源的出版信息必备性必备重复性不可重复元素类型容器型数据类型字符取值范围注释编号M24中文名称出版编号英文标签publicationNumber定义说明地方志资源的出版编号记录地方志资源的ISBN、ISSN、CN等信息必备性有则必备重复性不可重复元素类型简单型数据类型字符取值范围注释编号M25中文名称出版单位英文标签publisher定义说明地方志资源的出版单位记录地方志资源的出版单位必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M26中文名称印刷单位英文标签PrintingUnit定义说明纸质地方志资源的印刷单位记录纸质地方志资源的印刷单位必备性可选重复性不可重复元素类型简单型数据类型字符DB12/T1303—2024取值范围注释 编号M27中文名称开本英文标签bookSize定义说明地方志资源幅面的规格大小记录地方志资源幅面的规格大小必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M28中文名称印数英文标签printNumber定义说明地方志资源印刷的数量记录地方志资源印刷的数量必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M29中文名称字数英文标签wordNumber定义说明地方志资源的总字数记录地方志资源的总字数必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M30中文名称页数英文标签pageCount定义说明地方志资源的总页数记录地方志资源的总页数必备性可选DB12/T1303—2024重复性不可重复元素类型简单型数据类型字符取值范围注释编号M31中文名称定价英文标签price定义说明纸质地方志资源的定价记录纸质地方志资源的定价必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M32中文名称数字加工信息英文标签digitialInfo定义说明有关数字化加工的信息描述数字化加工信息必备性可选重复性不可重复元素类型容器型数据类型字符取值范围注释编号M33中文名称数字加工来源格式英文标签digitalSource定义说明数字化加工单位获得取待加工资料的来源格式描述是纸质数字化扫描生成,还是电子文件格式转换生成必备性可选重复性不可重复元素类型简单型数据类型字符取值范围纸质、电子数据、其他注释编号M34中文名称数字化加工机构英文标签digitialUnitDB12/T1303—2024定义说明提供数字化加工的机构或部门描述数字化加工的机构或部门,提供检索必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M35中文名称数字化加工交付时间英文标签leadDate定义说明数字化数据的交付时间描述数字化数据的交付时间必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M36中文名称数字化加工执行标准英文标签standard0fExecution定义说明加工数字化数据所执行的标准描述数字加工所执行的标准规范必备性可选重复性不可重复元素类型简单型数据类型字符取值范围注释编号M37中文名称来源信息英文标签sourceInfo定义说明方志馆获得地方志资源的行为方式及作品出处描述地方志的来源信息必备性可选重复性不可重复元素类型容器型数据类型字符取值范围注释20DB12/T1303—2024编号M38中文名称来源方式英文标签sourceType定义说明方志馆获得地方志资源的行为方式描述方志

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论