古籍数字化的若干成就及问题分析_第1页
古籍数字化的若干成就及问题分析_第2页
古籍数字化的若干成就及问题分析_第3页
古籍数字化的若干成就及问题分析_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、古籍数字化的若干成就及问题分析阙薇薇上海博物馆 201306邮寄地址:上海博物馆信息中心【摘要】伴随信息技术的发展和进步,古籍数字化相对来说是一个新领域,它与文化传承、文献保护、古籍整理紧密相关。本文首先谈起了古籍数字化的主要成就,然后介绍了目前中文古籍数字化工程所面临的问题,并进一步对古籍数字化进程中的问题给出了一些建设性的建议,为同行作参考。关键词 数字化 ;古籍软件; 成就 ;挑战引言自古以来,古籍是我们的祖先留给我们的最珍贵的精神财富遗产。据不完全统计,古籍的存在,有大约130,000种。他们有一部分的收集掌握在私人手中,也有一部分分布在各地的图书馆中以及国外

2、和国内的科研院里面。在很早以前古籍整理都依赖手工,这样不仅低效、而且费力。1.古籍数字化工程的主要成就古籍的数字化,其实质就是怎么用数字化媒体来承载古籍。我国的古籍数字化至今已走过20多年的发展历程。它起步于20世纪80年代,发展于90年代中后期。从目前的情况下看, 在国内古籍数字化的工作还是主要依赖于如社科院文献信息中心等学术型研究机构和北京大学等学校, 如迪志、汉文化联盟的出版社,还有一些像北京书同文、超星等专门技术公司,以及公共图书馆(如上海图书馆、北京图书馆),并且已经有大量的优秀的成果问世。1.1为古籍整理的检索提供了高效的工具以国学宝典为例,国学宝典大型古籍文献数据库全文检索系统,

3、含二千多部重要古籍文献,具有全文逐字索引、字词频统计、智能模糊查询、自动卡片生成等功能,极大地满足了科研开发和学术研究的需要,在统计分析、主题查找、古书辑佚辞书编纂、等方面具有极大的辅助作用。国学宝典不仅为古籍整理后研究成果的出版创造了方便条件,同时也为古籍资源整理提供了高效的工具。1.2解决了古籍的保护与使用之间的矛盾我国古籍是我们的前人给后人最宝贵的遗产,数量一般不会有大的增加。一直以来,我们对估计进行物理和化学保护,实行防霉、防虫等基础工作,为了保护古籍,许多古籍保存单位严格限制古籍使用这就使得书不能不使用,不能发挥它应有的作用。古籍保存是一个问题,但是数字产品却易于保存,所以只有通过将

4、古籍制成数字产品就可以真正的达到永久保存的目的,这些史料就会被人们充分的利用和共享。1.3目前已经完成和开发了大量的古籍数字化相关工程在我国古籍数字化在20世纪90年代中期以后才算是真正的得到迅速的发展。当时一些比较大的商业公司、学术机构和出版单位开始对古籍的数字化产生兴趣,开始着手古籍数字化的工作,所以就开始迅速扩大古籍数字化的规模。例国学公司推出了国学宝典等系列产品。如北京大学图书馆推出了“秘籍琳琅”项目,北京大学“中国基本古籍库”光盘工程。该工程正式启动于1998年,共500张光盘库,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每

5、种典籍有1个通行版本的全文信息,另附12个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。书同文公司推出的四部丛刊的全文检索版。中华书局正在进行的中华古籍语料库的建设。另外还有一些个人和机构都对古籍进行了数字化工作。在整理的过程中,人们对古籍实现数字化的原则、数字化古籍资源的特征等基本问题的认识都会有一定的加深,这些个人和机构经过持续的研究和试验,对我国古籍数字化实现的一些关键性技术也做出了不少的贡献,使得估计数字化也取得了很明显进展。2.古籍数字化工程所面临问题在我国古籍数字化是具有很大的现实意义,在充分挖掘古籍的史料价值和文化价值的基础上,对古籍的长久保存发挥重要作用,但是也面临这

6、很大的问题。2.1重复建设严重我国分散各地,并且古籍数量十分庞大。目前,我国的数字化古籍整理没有一个统一的结构,来做出一个统一 的协调与指导。一般都是单独开发。而古籍数字化工作基本上处于一种缺乏宏观调控和管理的状态,古籍整理出版规划也并没有明确规定古籍数字化的规划问题,重复性建设严重。很多开发单位各自为政,也大量的造成冷门项目少有问津,热点项目重复建设。就拿四库全书为例,它是我国历史上规模最大的从书,单是1998年一年内就至少出现了3种不同的光盘版,这就造成了很大的浪费,很大程度上阻碍了我国古籍数字化的发展。2.2录用字时的识别和检索问题古籍汉字识别的规模一般是很大的,这就使得工作变得困难重重

7、,所以专家就要对古籍汉字识别进行严格控制,对于一些大型古籍数据库,由于操作人员本身的知识水平,就很难识别古籍中的异形(体)字、俗字,不得不“照搬照画”,其结果就是大量生造的字,这不仅仅增加了检索“模糊度”,还会出现一大堆生造的繁简字、俗字、异形(体)字。这些生造的字,对资源的共享造成了很大的困难,另外还有一些制作单位,可能会因为一些识字,采取替代法来代替一些疑难字符,这就很大程度上违背了真实性。另外,从目前看来,现行的繁简字转化系统是一种单一的一对一对应关系,没有办法解决繁简字的一对多、多对一的对应关系,所以简化字对繁体字进行转化输出时出现错误或一些其他的有歧义的字。2.3古籍数字化缺乏一定的

8、引导在古籍数字化迅速发展的同时,是缺乏一定的引导的,并且在数据内容、数据质量等方面也存在不足:(1)缺少复合型人才。目前看来,从事这种古籍整理工作的人才不多,尤其是不仅仅可以熟练的应用信息技术又具备很强的古籍整理知识的人才。(2)缺少统筹规划。在我国国内是缺乏一个统一的协调和指导,缺乏一个统一的机构,各个开发单位就可能做一些重复建设,这就浪费了很多的时间。(3)急需统一标准。在目前看来,不同的单位在设计数据库时是采取的不同的标准,所以在进行数据交换时不能进行,这就不可能实现资源共享。(4)质量不一样。虽然古籍数字化成果算是比较多的,但是质量却好优参半,只有几个比较大的出版社有质量保障,还收有许

9、多的中小公司的产品没有质量保障。古籍是中国的,也是世界的。古籍数字化任重道远,“千里之行,始于足下”。希望古籍与数字化两者完美的结合才可以更好的传承中华文明。使中华文明走向创新之路,也使中华文明更好的走向世界, 3.关于古籍数字化工程的相关建议3.1大量选择善本古籍,进行版本信息充分完全的数字化转化在数字化转化这一过程中,要严格保证所有电子版与古籍的原本之间能做到一一对应。这个技术目前已经成熟,所以,只是个工作量的问题。因为善本古籍数量还是很庞大,所以,最好是全国各古籍收藏单位能协作,尽量不要搞重复建设。我们现在已经重复的有了至少五种不同质量不同版本的四库全书,二十多种全唐诗,真是浪费啊。3.

10、2不同版本的古籍要进行严格汇校在完成单种版本的数字化之后,按书,将不同版本进行汇校,对每种古籍都尽可能形成一个最全面的“汇校本”,将能找到的版本全部拉在一起汇校,这个从技术上讲也是成熟的。也是个工作量的问题。还有就是各单位合作的问题,不要再把那些自以为希奇的版本藏起来不给人看,信息共享在信息社会还是很重要的。 3.3在汇校本的基础上形成一个集注集解本这个集注集解本可以利用嵌入式技术,形成文字内容的内结构关联,简单一点的可以像现在的网页上用超链接“挖坑”,这个倒不是技术问题,关键是如何能形成有效的链接结构,即内在结构,虽然注解本身与正文的关系是一定的,但是注解与直接之间除了简单的时间先后,还要考

11、虑不同的学派,这个学派特征又有自己的时间顺序,所以这个地方才是关键。这也是体现学术价值的地方。对于汇校本、集注集解本的全文检索数据库增加一个开放的功能,然后把这个数据库放到网络环境中,允许人们自由地进行评论,并定期整理这些评论。这样是把数据库与网络结合起来,让数据库“活”起来,这样的意义在于,让人们能够按网络的结构重新整理前人的学术成果。4.结束语中文古籍数字化在我国出现的不早,大概只有二三十年的时间。他的资源非常丰富,而且古籍数字化为我国古籍的籍整理方式的带来了一次全新的变革。在传统的古籍整理方式上,它将是一个值得拓展的全新领域,也为古籍继续延续发挥了巨大的效用。笔者相信,古籍数字化是古籍整理发展的未来必然的趋势,只有我们顺应潮流,才可以更好的利用这些丰富的古籍资源。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论