




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 古籍文献数字化加工系统硬件解决方案 摘 要:古籍数字化与古籍整理、文献保护、文化传承紧密相关。文章从古籍数字化的概念与意义谈起,详细介绍了古籍数字化的加工流程,并从系统硬件配置入手,完整地设计并实现了一种通用古籍文献数字化系统的构建。关键词:古籍数字化;系统设计1 古籍文献数字化的概念与意义古籍在各类文献中独具特色。以国家图书馆为例,其古籍文献资源数量庞大,种类齐全,既包括甲骨、金石、简帛、舆图、善本等珍贵特藏,也包括图书、期刊、报纸、缩微文献等传统普通古籍文献类型。无论线装古籍,还是碑帖拓本、古地图,所有古籍文献资源都蕴含着独特的文献价值
2、、艺术价值,彰显着古老文明的魅力。据文化部统计,全国公共图书馆系统收藏古籍2717.5万册件,其中善本229.5万册件1。如此丰富的古籍资源,为古籍数字化建设提供了可供开采的丰富宝藏,成为数字图书馆资源建设不可缺少的重要内容。古籍数字化就是從利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作2。古籍文献数字化可以降低原件丢失和损失的风险。古老的文献、照片都可以转换成数字化文献,避免读者直接使用原件,以减少或避免原件损失的机率,同时也可以扩大原始文献的利用范围。古籍
3、文献数字化后,可以产生较原件可靠而功能性更强的数字资源,这将有利于开展古籍文献研究,从而扩大研究范围。例如:对手稿字迹的鉴别,对图画、照片的放大浏览等等。古籍数字化是数字图书馆资源建设的重要组成部分,数字图书馆推广工程将在全国范围内依托图书馆馆藏优势,建成内容丰富、类型多样的公共文化资源库群。2 古籍文献数字化加工系统工作流程古籍文献数字化加工系统的工作流程一般可大致分为六个部分:文献整理、图像扫描、图像处理与质检、文字识别与质检、数据标引与质检、数据整理。其中,“文字识别与质检”根据加工需求为可选流程。图1为古籍文献数字化加工系统工作流程,各类古籍文献依据类型的差异在数字化细节上会有所不同。
4、根据古籍文献数字化加工系统工作流程图可以得出,完成古籍文献加工的单条流水线主要包含以下几个环节:(1)文献整理:待加工的文献存放在专门的资料管理室,由相关人员统一上架登记,保护文献安全;需借出做加工和归还的文献需要登记入册,统计书目信息和文献数量;(2)图像扫描:按照加工要求对古籍文献进行扫描,对扫描图像进行命名、旋转等;(3)图像处理:应用专用图像整理工具,自动检查整理图像的dpi与图像模式,主要包括批量进行倾斜校对,调整倾斜度、统一画布尺寸、调整dpi、去除黑边等操作、纠正文件名命名、建立图像索引等,处理完成后导入数字化加工管理系统进行数据自动分发与流转,系统会在流水线上自动派发任务;(4
5、)ocr识别:应用专业ocr识别软件依照文献数字化加工要求进行全文或特定的文字识别;(5)ocr数据质检:完成字体切分、校对,从而做到一字一框,精确对位,同时进行聚类校对,将一批次中所有同一个字的字形聚集到一起,选出与标准字库不一样的那一个进行标红,为下一步错字修改做准备;完成错字修改,操作员通过管理客户端可以实时读取到上一步的校对结果,并进行错误修改,修改完的字体会有高级人员校对;如遇操作员识别不了的字体,也可留给高级人员纠正。(6)版式还原:包括原有版式编辑还原、xml排版、pdf排版、调整字体、字号、字间距、标题格式等内容;(7)成品全检:根据文献数字化加工项目的特点,应用成品检查工具,
6、对每批完成数据进行成品检查。对出错的部分,按照谁做谁修改的原则,由管理系统返回给操作员进行修改。3 古籍文献数字化加工系统设计参照古籍文献数字化系统工作的一般流程,可以将加工系统设计为包含软硬件运行平台、数字化专用采集和输出设备、数字化加工管理软件等几大部分。整个古籍文献数字化加工系统硬件架构中将包含服务器、存储设备、加工工作站(终端pc机)、各类型扫描仪及网络集成等。3.1 古籍文献数字化加工系统拓扑结构图3.2 古籍文献数字化加工系统软件古籍文献数字化加工系统软件可分为数字化加工管理系统软件和文献数字化生产系统软件两大部分。软件系统部署在服务器端和工位的pc机端。目前市面上成品数字化管理及
7、生产系统软件很多也比较成熟,可以依据古籍文献数字化的具体要求直接采购使用。3.3 古籍文献数字化加工系统服务器设计古籍文献数字化加工系统服务器可设计为数据库及管理服务器2台,互做双机热备,部署数据库、中间件、文献数字化生产系统和数字化加工管理系统。其中一台兼做数据封装服务器和数据自动处理服务器,另外一台兼做元数据控制服务器和ftp服务器。由于有频繁的数据处理,因此这2台服务器建议为大内存和多cpu。文献数字化加工系统服务器2台,参考配置如下:4路pc服务器,配4颗intel8核cpu。内存至少为128gb,硬盘至少配2块1tb sas 高速盘,做raid1至少配2个千兆网口,1个万兆光口配dv
8、d,冗余电源和风扇。3.4 古籍文献数字化加工系统存储设计采用ip-san磁盘阵列作为加工系统存储。目前各家ip-san厂商已研发出自己的卷共享软件并能免费提供,并且其iscsi口已支持到万兆(10g)。iscsi技术是一种新储存技术,该技术是将现有scsi接口与以太网络(ethernet)技术结合,使服务器通过网络交换机可与ip-san储存进行数据交换。文献数字化加工过程中,由于有多路的请求对存储数据进行大量频繁的数据读写,存储控制器的缓存大小对响应性能尤为重要,因此要求存储系统至少需要128g缓存,且具备一定的扩展能力。存储系统ip-san的具体要求如下: 双控制器,缓存为128g,有至少
9、一倍以上的扩展能力;提供至少8个iscsc 10g接口;一定容量的sas高速硬盘用于数据库区和数据频繁交换区;一定容量的sas 低速硬盘用于扫描和加工数据的保存;免费提供原厂的卷共享软件和管理软件。3.5 古籍文献数字化加工系统网络设计根据以上硬件系统设计,加工系统网络交换设备应满足2台配有万兆光口的服务器连接,8个iscsi口ip-san连接,同时提供相应数量的千兆网络端口,能满足古籍文献加工区工位pc终端网络接口的连接需求。3.6 古籍文献数字化加工系统pc终端设计依据古籍文献数字化年加工量要求,可相应配置加工系统终端pc机数量,具体配置如下:cpu:intel i5,内存8g,硬盘1tb
10、2个千兆网口,配dvdrw19寸液晶显示器、键盘、鼠标预装windows7 32bit操作系统软件。3.7 古籍文献数字化加工系统扫描仪设计古籍文献数字化加工系统中服务器、存储、终端pc和网络集成这些硬件部分是通用的,主要的差异化来源于数字化加工的古籍文献类型所带来的区别。古籍文献资源种类繁多,具有尺寸大小不一、载体材质各不相同等诸多特点,这就要求古籍数字化加工系统要依据古籍文献的资源类型,采用不同的前端扫描输入设备。(1)2a0幅面彩色古籍仿真扫描仪(适合大幅面文物、艺术品、古籍、图书、报纸、字画、画册、地图等稿件)主要性能参数指标:顶置式扫描头,非接触扫描,承稿台可扫描幅面:1800mm&
11、#215;1200mm ,承稿台采用特殊耐磨的合成材料,采集过程不会损害古籍原稿,光学分辨率调节范围:300dpi至1000dpi,全自动设定:对焦、曝光时间、黑白平衡、幅面探测、自动裁切页面等输出: (彩色)42-bit,(灰度)12-bit,(黑白)1-bit输出图像格式:tiff、tiff g4、tiff multipage、tiff lzw、dng、png、jpeg、jpeg2000、pdf等等(2)a1幅面彩色扫描仪(适合文物、古籍、图书、报纸、字画、地图等单页或装订成册稿件)主要性能参数指标:顶置式扫描头,台式非接触扫描,自动开启式玻璃面板托书台最大原件尺寸:880×64
12、0 mm(超a1)光学分辨率:600×600 dpi扫描速度(彩色,a1):6.5秒/300dpi,12.3秒/600dpi扫描模式:36 位彩色,12 位灰度,1 位黑白二值原稿厚度:书本厚度最大为240mm,打开最大尺寸为1070 x675 mm扫描方式:高解析度扫描镜头,8 线对/毫米,高精度扫描头镜头,不失真,景深达50 毫米/2英寸输出图像格式:tiff 不压缩,tiff g4,jpeg,jp2,pdf,多页tiff,bnmp,pcs(3)a2幅面彩色古籍仿真扫描仪(适合古籍、报纸、字画、地图等单页或装订成册稿件)主要性能参数指标:顶置式扫描头,台式非接触扫描,带完整的托书
13、台,自动开启式玻璃压稿台最大原件尺寸:635×460mm(超a2)光学分辨率:600×600dpi扫描速度(彩色,a2):3.5秒/300dpi,6.0秒/600dpi扫描模式:36位彩色、12 位灰度,1 位黑白二值原稿厚度:书本最大厚度为150毫米扫描稿台:连机书稿台(可选90 度开合电动压稿玻璃)扫描方式:自动对焦,景深达50 毫米输出图像格式:tiff ,tiff g4,jpeg,jp2,pdf,多页tiff,bnmp,pcs(4)a3幅面零边距扫描仪(适合装订成册的普通古籍扫描)主要性能参数指标:进纸方式:平台式,边距:不超过2mm,影像感应器:ccd 影响感应器
14、光学解析度:600 dpi,灰阶模式:8 位元,彩色模式:24 位元最大纸张規格:11.8 x 17 英吋 (299 x 431 公厘)扫描速度: b&w200 dpi, a3 : 7 秒(5)v型彩色古籍仿真扫描仪(适合高精度古籍、拓片、舆图、卷轴、实物拍照)主要性能参数指标:顶置式扫描头,台式非接触扫描,带完整的托书台最大原件尺寸455×315mm(超a3)光学分辨率600×600dpi扫描模式: 36位彩色,12位灰度,1位黑白原稿厚度:书本最大厚度150毫米,可承受重量20公斤扫描稿台:v型台可120°调整,v型玻璃台由扫描程序自动控制升降。扫描方
15、式:自动对焦,景深50 毫米全自动设置:对焦,曝光时间,白平衡,格式检测图像加强:纠偏,阈值,消手指,曲率校正输出图像格式:tiff, tiff g4, 多页 tiff, tiff 12 bits, jpeg, bmp, jpeg 2000, pdf,多页 pdf以上列举了目前市场主流的各类幅面扫描输入设备类型及主要性能参数指标,在古籍文献数字化加工系统搭建时可以依据古籍文獻类型有针对性配置选用。4 结语本文从系统架构的角度给出了古籍文献数字化系统硬件设计实现的一个通用方案。古籍文献数字化加工系统的生产流程是古籍文献的扫描、存储、ocr识别、标识、质检、成品等工作。作为文献数字化生产系统,除了硬件设备本身要具有实用、易搭建、可扩展、故障率低、维护方便等特点之外,毕竟文献数字化还是一个有人参与的复杂过程,文献数字化的扫描工作是快速机械化的,而成品古籍数字资源的生产是由人工加软件完成,这两者之间存在着加工能力的不同,而整个生产又在一个统一的管理系统中完成,因此这两个环节之间相应的硬件设备要做好匹配。当然还包括应用软件与服务器性能的匹配,扫描及加工古籍数字资源容量与存储容量的匹配,在统一管理下的加工系统生产与网络环境的匹配,另外还包括
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水利水电工程节水项目的试题及答案
- 设备租赁经营权转让协议
- 环境科学中的空气质量检测试题
- 行政管理决策系统试题及答案
- 人工智能辅助公共安全预警系统协议
- 行政管理中不可不知的公共关系学试题及答案
- 精解2025年经济法概论考题解析试题及答案
- 沈阳认证考试试题及答案
- 宝贝未来测试题及答案
- 高考地理试题及答案
- 2025年安徽省水利水电勘测设计研究总院股份有限公司招聘笔试参考题库附带答案详解
- 2025年江苏扬州江都区“乡村振兴好青年”招聘209人历年高频重点提升(共500题)附带答案详解
- 2024年山西省太原市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 体检中心员工礼仪培训
- CNAS实验质量手册
- 应收账合同范例
- 酒水抵押借款合同范例
- 形势与政策(吉林大学)知到智慧树章节测试课后答案2024年秋吉林大学
- 质量监督员聘用合同
- 9.2解析三大诉讼 课件高中政治统编版选择性必修二法律与生活
- 药企医学事务部职责
评论
0/150
提交评论