




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
纸质档案数字化技术规范纸质档案数字化技术规范 DA T31 2005DA T31 2005 1 范围 本标准规定了纸质档案数字化的主要技术要求 本标准适用于用扫描仪对各种纸质档案的数字化加工处理 2 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款 凡是注日期的 引用文件 其随后所有的修改单 不包括勘误的内容 或修订版均不适用于本标 准 然而 鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版 本 凡是不注日期的引用文件 其最新版本适用于本标准 GB T 17235 1 连续色调静态图像的数字压缩编码 GB T 17235 2 连续色调静态图像的数字压缩编码 GB T 18894 2002 电子文件归档与管理规范 ITU CCITT G3 二值图像压缩算法 ITU CCITT G4 二值图像压缩算法 DA T18 1999 档案著录规则 档案管理软件功能要求暂行规定国家档案局档发 2001 6 号 3 术语和定义 下列术语和定义适用于本标准 3 1 数字化 Digitization 用计算机技术将模拟图像转换为数字图像的处理过程 3 2 纸质档案数字 化 Digitization of Paper Based Records 对普通 黑色字迹清晰 的油印 铅印 胶印等印刷件或复印件纸质档案进 行数字化及应用的过程 3 3 数字图像 Digital Image 表示景物图像的整数阵列 一个二维或更高维的采样并量化的函数 由相 同维数的连续图像产生 在矩阵 或其他 网络上采样一连续函数 并在采样点 上将值最小化后的阵列 3 4 黑白二值图像 Binary Image 只有黑白两级灰度的数字图像 它对应于黑和白的两种状态文字稿 线条 图 指纹图等 3 5 连续色调静态图像 Continuous tone Still Image 以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字 图像 3 6 失真度 Distortion Measure 对档案原件进行数字化转换后 在同等测试环境下 数字图像与档案原 件色彩 几何 压缩算法等差值 3 7 可懂度 intelligibility 表示数字图像向人或机器提供信息的能力 3 8 清除图像冗余或对图像近似的任一种过程 其目的是对图像以更紧凑的形 式表现 3 9 分辨率 Resolution 指单位长度内图像包含的点数或像素数 3 10 TIFF Tagged Tmage File Format 标记图像文件格式 一种基于标记的无损 不丢失信息 压缩格式 用于 在应用程序之间和计算机平台之间交换文件 因为它存储图像细微层次的信息 非常多 图像的质量也得以提高 故而非常有利于原件为黑白档案的复制储存 3 11 JPEG Joint photographic Experts Group 联合照片专家组 一种丢失少量信息的压缩格式 尤其适用于屏幕和打印 显示 支持所有主要计算机平台和 Web 浏览器 JPEG 格式文件小 影像质量多 数情况下均可接受 考虑储存空间及传输效率 原件为彩色的档案可迁此格式 复制储存 4 数字化基本流程 纸质档案数字化的基本流程主要包括案卷整理 目录建库 批量扫描 数 据处理 信息存储 检索利用等工序 4 1 案卷整理 对需要扫描的案卷进行适当整理 做出标识 4 2 目录建库 为数字化的档案检索而建立必要的目录数据库 4 3 批量扫描 按照档案数字化具体任务的整体安排按计划分批次进行扫描 4 4 数据处理 4 4 1 对扫描图像进行校对 确保图像完整无误 并视需要对有问题的 扫描图像进行纠偏 去污 拼接等技术处理 4 4 2 对裸数据进行验收前的相应处理 包括文件的格式转换 逻辑分 盘处理 添加说明性文件 以及数据的挂接 检验 上载 质量检查和备份 4 5 信息存储 根据不同的扫描图像选择适当数据格式 编码方式和存储介质对信息进行 保存 4 6 检索利用 按用户需求提供检索利用 5 案卷整理 在批量扫描之前 按下述步骤对案卷进行整理 确保档案数字化质量 5 1 分件 5 1 1 把同一案卷中的扫描件和非扫描件分开 5 1 2 在扫描件中将大图 照片插入指示页 便于扫描工序批量扫描 实际图像放在图像处理时进行重扫 替换指示页 5 1 3 填写 数据加工过程处理单 见附录 A 对需要特殊处理的页 标识清楚 5 2 分页 对批量扫描前的档案进行页号 件号的标注 如在标注中与原档案中的件 数 页号不一致 应以此为准 5 3 拆卷 去除档案中原来的装订物 以便后续扫描工作的进行 5 4 装卷 按档案保管要求恢复原装订 6 建目录库 6 1 目录著录 根据 DA T18 确定档案著录项 并进行著录 6 2 数据格式选择 所选定的数据格式通用 应能直接或间接与 DBF 文件格式或通过 XML 文 档进行数据交换 6 3 目录输入 将著录好的目录输入计算机内 建立机读目录数据库 7 批量扫描 7 1 扫描方式 纸质档案扫描可采用黑白二值图像和连续色调图像两种方式 7 1 1 页面为单色文字的纸质档案 宜采用黑白二值图像扫描 页面为 多色文字图像的档案文件 可采用连续色调图像扫描 7 1 2 字迹清晰 不带图片的档案材料 采用黑白二值图像扫描 清晰 度较差或带有图片的档案材料 可采用连续色调图像扫描 7 2 分辨率选择 7 2 1 单色页面档案文件 扫描分辨率一般建议选择 100 200dpi 7 2 2 彩色页面档案文件 扫描分辨率可选择 100dpi 以上参数值进行 7 2 3 大幅面档案文件 如工程图纸 报纸等尺寸超过 A3 的 可选用大 幅面图像扫描仪 如 A0 大幅面数码平台 缩微照像后胶片数字转换 也可以 采用小幅面扫描后的图像拼接 扫描分辨率应选择 1OOdpi 以上 7 2 4 需要时可根据原件的清晰度适当调整扫描分辨率 如原件质量较 差且尺寸较小 可适当提高分辨率 反之也可相应减少分辨率 增减的多少以 扫描后图像按原尺寸显示后是否清晰为准 7 3 特殊页面的扫描 7 3 1 粘贴页与表格 对于粘贴折页 可用大幅面扫描仪扫描 或先分部扫描后拼接 对部分字 体很小 字迹密集的情况 可适当提高扫描分辨率 选择灰度扫描或彩色扫描 采用局部深化技术解决 对字迹与表格颜色深度不同的 采用局部淡化技术解 决 7 3 2 一般文本流程图 采用适当的分辨率扫描及局部深化技术 确保文本流程图清晰 同时采用 不同设备满足文本流程图的扫描工作 7 3 3 插图 采用高分辨率灰度或彩色扫描技术将插图与文字一起扫描 保证原来的页 面布局和插图清晰 7 3 4 照片 对于页面中有黑白或彩色照片的文件 采用 JPEG 格式扫描 确保照片清晰 度 同时可避免图像存储空间过大 7 4 文件命名方式 7 4 1 建立文件夹 扫描时文件夹的建立应按档案实体分级建立 其中的每一份文件也需要单 独建立文件夹 7 4 2 文件夹命名方法 以档案实体中的档号命名 一般为 3 位数 不 足 3 位数的左边补 0 8 数据处理 8 1 图像处理 8 1 1 纠偏 对扫描过程中出现的偏斜图像进行整体纠正 保证数字图像的偏斜角度 小于 1 度 图像偏斜不超过页面内半个文字 8 1 2 去污 去除数字图像中影响可懂度的杂质 档案数字化图像的去污 应遵循在 不影响可懂度的前提下展现原貌的原则 8 1 2 1 局部去污 如去除黑边 污点 8 1 2 2 整体去污 可一次性去除页面上的污渍 8 1 3 拼接 为保证档案数字化图像的整体性 对幅面分离的数字图像进行拼接 8 1 4 校对 8 1 4 1 一次校对 检查扫描完的图像质量情况 对不合格的图像进 行标记退回重新扫描 8 1 4 2 纠错处理 根据一次校对中提出的诸如污渍 黑边 偏斜 图像质 量等问题 结合 数据加工过程处理单 见附录 A 情况 对每份图像进 行相应的处理 8 1 4 3 二次校对 对一次校对及数据处理后的数字图像再次进行检 查 并 标记图像处理过程中不清晰的页面 不合格的退回重新处理 8 2 数据质量检查 8 2 1 文字录入质量 对录入域清单上所标明的各著录项的文字录入进行正确率控制 保证错 误率低于 3 8 2 2 图像质量 对纸质文件扫描后形成的图像文件进行清晰度 污渍 黑边 偏斜等问 题的控制 以达到要求的图像质量 保证扫描后的数字图像清晰 便于清楚阅读 适应各种纸张和手写 印刷 字的情况 8 3 数据挂接 档案条目数据与图像文件的对应准确程度的控制 在生成裸数据光盘之前 根据资料整理信息 扫描前的标引信息及卷内文 件页号信息核查图像文件总数是否与实际文件数相等 如不相等则不能生成裸 数据光盘 可打印出清单 回退给图像处理人员补扫 8 4 数据检验 8 4 1 将裸数据进行验收前的相应处理 包括文件的格式转换 逻辑分 盘处理 添加说明性文件 8 4 2 对数据进行检验 给出合格或不合格结论 8 4 3 将数字加工后的数据转换为裸数据光盘格式 拷贝到活动硬盘上 8 4 4 系统应自动记录检验进度 8 5 数据上载 档案数字化各工序的数据通过网络及时上载到数据服务器端汇总 其中数 字图像自动搜索对应的目录数据 加入对应的电子地址数字图像文件名 建立 起一一对应的关系 8 6 数据备份 定期对服务器的各类数据进行备份 防止数据丢失 9 信息存储 以 JPEG 数字压缩编码或 TIFF 国际通用标准格式 采用国际标准的传 真文档压缩格式压缩后 分别按页编号后分页存储 数字图像的存储管理应保持原纸质档案的保管模式对应存储 9 1 压缩存储格式 档案数字图像格式采用 TIFF 和 JPEG 数字压缩编码 9 1 1 黑白二值图像 黑白二值扫描图像文件采用 TIFF CCITT G3 格式二值图像压 缩算法 压缩率就绪 Cr 为 15 1 也可采用 TIFF CCIFF G4 格式二值图 像压缩算法 压缩率 Cr 为 3 O 1 9 1 2 连续色调静态图像 连续色调静态图像采用 JPEG 数字压缩编码 平均压缩率 cr 为 15 1 9 2 编码方式 应尽是采用实时操作性强的编码方式 失真度编码 用较少的比特 率获得较好的图像质量 无失真编码 以低压缩保持信息的不失真 一般情况 下 宜采用国际通用编解码算法 9 3 存储方式与载体 可选用在线和离线 不同载体进行存储 10 检索利用 10 1 检索利
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化节展览活动协议
- 2025年广西壮族自治区事业单位招聘考试综合类专业能力测试试卷(建筑类)真题模拟及答案
- 2025年卫生系统事业单位药学专业知识考试真题模拟
- 2025年重庆市事业单位招聘考试综合类专业能力测试试卷(新闻类)真题模拟
- 衡阳市地理考试题及答案
- 河源高一联考试卷及答案
- 2025年中国无涂层软磁粉行业市场分析及投资价值评估前景预测报告
- 供应链韧性评估-第8篇-洞察与解读
- 2025国考巴彦淖尔市税务管理岗位行测预测卷及答案
- 2025国考保定市社会工作岗位申论模拟题及答案
- 2025年成人高考专升本【生态学基础】真题试卷+答案解析
- 关于幸福的课件
- 中国软件行业协会:2025中国软件行业基准数据报告 SSM-BK-202509
- 铁道概论PPT完整全套教学课件
- Flexsim(仿真软件)中文版教程
- GB 31187-2014体育用品电气部分的通用要求
- 商标法课件新
- 在役隧道结构安全、健康监测与评估
- 医学专题心肺脑复苏新1
- 现代电池技术:第6章 氢-镍电池
- 汽车吊接地比压计算
评论
0/150
提交评论