




已阅读5页,还剩95页未读, 继续免费阅读
(历史文献学专业论文)古籍文献数据化中的卡片管理系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海师范大学毕业论文专用纸 中文摘要 在古籍文献整理专业领域当中,文献数据化方向一直以来都是古籍整理学科 的重点。同时,计算机技术的不断发展与应用,使得文献整理数据化的进程不断 加快。从当初刚刚起步的万维网络,到c n k i 中国国家知识基础设施工程;从文 献信息数据库的建立到全国各重点高校的电子图书馆的普及;从文献信息文本的 o c r 扫面录入到古籍各个版本之间的计算机自动校勘,古籍文献的数据化进程已 经发生了翻天覆地的变化。在现阶段,古籍数据化领域的研究重点则是从前期开 发单一数据库类型的存储搜寻模式,转移到开发简便多样的应用辅助型软件的模 式。这无疑是一种在原有单一工作量积累到一定程度之下,采取灵活有效的方法 利用资源的一种手段,同时也是一种不可逆转的趋势。 笔者自行开发的古籍文献卡片管理系统其基本功能就是提高电子文本的使 用率,减少在整理古籍文献过程中卡片繁多、不便查找归档的麻烦。并且通过系 统内的信息检索查找功能,实现古籍文献整理过程的高效运行。同时该系统还留 有开放式接口,可以和其他同类型的应用软件相融合匹配,具备二次开发和多次 开发的潜力。但由于该研究方向属于文献整理学科与计算机软件开发学科相交叉 的新型学科方向,在形成毕业论文时则不便于附带软件光盘实物,望各位审评老 师给予谅解。 上海师范大学毕业论文专用纸 英文摘要 i nt h ea n c i e n tl i t e r a t u r er e v i e wa r e a so fe x p e r t i s ea m o n gt h e 1 i t e r a t u r ed a t ai nt h ed i r e c t i o no fd i s c i p l i n eh a sa l w a y sb e e nt h ef o c u s o fa n c i e n tb o o k s m e a n w h il e ,t h ec o n t i n u o u s d e v e l o p m e n to fc o m p u t e r t e c h n o l o g ya n da p p l i c a t i o n s ,m a k i n gl i t e r a t u r ec o l l a t i o no ft h ed a t a ,t h e p r o c e s so fa c c e l e r a t i n g ,f r o mt h eo r i g i n a lf l e d g li n gw o r l dw i d ew e bt o c n k ic h i n an a t i o n a lk n o w l e d g e i n f r a s t r u c t u r ep r o j e c t s :t h ee s t a b lis h m e n to fad a t a b a s eo f i n f o r m a t i o nf r o mt h el i t e r a t u r et of o c u so nc o l l e g e sa n du n i v e r s i t i e s a c r o s st h ec o u n t r yt h ep o p u l a r i t yo ft h ee l e c t r o n i c1 i b r a r y :f r o mo c r s c a n n i n go ft e x td o c u m e n ti n f o r m a t i o ni n p u ti n t ot h ea n c i e n ts u r f a c eo f t h ev a r i o u sv e r s i o n so fb e t w e e nt h ec o m p u t e ra u t o m a t i c a l l yc o l l a t e d , a n c i e n tl i t e r a t u r e ,t h ep r o c e s so fd a t ah a su n d e r g o n ee n o r m o u sc h a n g e s a tt h i ss t a g e ,t h ed a t ao fa n c i e n ta r e a so fr e s e a r c hf o c u sw i1 1b et o d e v e l o pas i n g l ed a t a b a s et y p ef r o map r e s t o r e ds e a r c hm o d e l ,t h e t r a n s f e ro fav a r i e t yo fa p p l i c a t i o n st od e v e l o ps i m p l es o f t w a r e a s s i s t e d m o d e l t h i si su n d o u b t e d l yas i n g l ew o r k l o a do ft h ee x i s t i n ga c c u m u l a t e d t oac e r t a i ne x t e n t ,t oa d o p tf l e x i b l ea n de f f e c t i v eu s eo fr e s o u r c e s , am e a n si sa l s oa ni r r e v e r s i b l et r e n d a n c i e n t1i t e r a t u r et h eb a s i cf u n c t i o n so ft h ec a r dm a n a g e m e n ts y s t e m i st oi n c r e a s eu t i l i z a t i o no fe l e c t r o n i ct e x t ,r e d u c i n gt h ep r o c e s so f s o r t i n gt h ec a r d sm a n ya n c i e n t1 i t e r a t u r e s , i n c o n v e n i e n c et of i n dt h e t r o u b l eo ff i l i n g a n dt h r o u g hi n f o r m a t i o nr e t r i e v a lw i t h i nt h es y s t e m t of i n df e a t u r e s ,a n c i e n tl i t e r a t u r ef i n i s h i n gp r o c e s st oa c h i e v e e f f i c i e n to p e r a t i o n a tt h es a m et i m et h a tt h es y s t e ma l s o l e a v e so p e n i n t e r f a c e s ,y o uc a n ,a n do t h e ra p p li c a t i o n so ft h es a m et y p ef u s em a t c h , w i t hs e c o n d a r yd e v e l o p m e n ta n das e r i e s o fp o t e n t i a lf o rg r o w t h b u t b e c a u s et h i sr e s e a r c hd i r e c t i o nb e l o n g st ot h el i t e r a t u r er e o r g a n i z a t i o n 6 上海师范大学毕业论文专用纸 d i s c i p li n ea n dt h ec o m p u t e rs o f t w a r ed e v e l o p m e n td i s c i p li n eo v e r l a p p i n g n e wd i s c i p l i n ed i r e c t i o n ,w h e nf o r m st h eg r a d u a t i o nt h e s i si sn o t a d v a n t a g e o u sf o r t h es u p p l e m e n t a r ys o f t w a r ec o m p a c td is cm a t e r i a lo b j e c t , l o o k sa te a c hp o s i t i o nt oa p p r a i s et e a c h e rt og i v ef o r g i v e n e s s 关键字:古籍数据化,古籍整理,卡片管理系统等。 - 7 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者躲绒怨吼砂僻乡纠日 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 多。 彩杉 上海师范大学毕业论文专用纸 第一章文献数据化学科综述 文献整理,是古籍研究专业当中的- f - j 重要的基础学科。我国古籍文献浩如 烟海,能否在新时代下,利用计算机技术的飞速发展,丰富古籍文献整理方式方 法,从而提高整理古籍文献的质量与速度,是当务之急。 计算机技术运用到估计文献整理领域,我国起步较晚,进度缓慢。主要是因 为我国的古籍文献数量多,涉及广,工序复杂,筛选精度有限。但是将计算机技 术运用到这一领域,作为一项提高整理效率与质量的手段,则会大大缩减人工劳 动量,使得文献整理省时省力,这种趋势的不可逆性则更加明显的体现出来。 文献整理运用计算机技术这种不可逆性所体现出来的好处是多方面的。首 先,这种不可逆性会直接导致文献整理的方法进入一个划时代的领域。早在我国 纸张尚未发明之前,我们就用甲骨雕刻文字的方法记录文字,之后金鼎、简牍、 玉器、棉帛等记录载体的出现无疑都是从客观的角度促进文献整理的发展,以便 于我们现代人了解古人的生活与经历。随着时代的进步,纸张的发明,纸质图书 与雕版印刷的广为流传,使得我们现代人能够更加幸运的认识古人的一切。这些 统统都是物质载体的出现作用于文字,从而改变了文字、思想、行为等多方面知 识的广泛传播。 其次,计算机技术和产品广泛应用于文献整理工作,会大大提高文献本身的 利用率。现阶段,大部分人文学科的历史文献资料通过计算机光学扫描识别,录 入到电脑硬盘当中,在之后的文献整理与存档的过程当中,同一文献资料多次 被修改、查找、搜索、排列。这种成本极低的存储方式使得文献本身发展成为永 不会消耗的资源。对于一些保存完好,校勘精确的古籍珍本来说,省去了人工翻 阅的磨损,同时也能大大加强珍本文献的利用效率,一举多得。同时,大部分的 文献资料还可以通过互联网的建立,促进世界各地历史文献研究人员的沟通与交 流,使得本来成单一个体的独立性研究成为全方位多维空间的交流合作项目。 再次,计算机技术和产品融入到文献整理学科研究的过程当中,对于古籍文 献修缮过程来说,是逐渐趋于精品化的。由于文献数据化学科发展的趋势是不可 逆的,所以众多研究学者在利用专业软件整理文本的同时,分析文献中的文本数 据,进而一步一步细化古籍文献当中存在的问题,以便于其他研究领域的应用。 上海师范人学毕业论文专用纸 第一节文献数据化在发展过程中的遇到的问题 一古籍文献数据化发展缓慢的原因 以往,在古籍整理研究领域当中,计算机数据库研发技术已经更为广泛的应 用到专业研究领域当中。人们将古典文献中所记载的文字信息,通过手工或电子 技术的录入,转化成电脑可是别的数字符号。这些数字符号再经过各种软件程序 的编辑,网络形式的流传,返回到文献整理工作者的手中,作为其研究专业学科 方向的重要依据。这个过程的主导思想就是将文字文献转化成数字数据。可是笔 者认为,目前文献数据化研究领域却遇到了一些阻碍,发展相对缓慢。究其原因, 笔者认为: 首先,整体学科知识积累的不可逆性导致文献数据化学科本身的发展方向产 生盲点。 古籍文献数据化领域需要研究的范围很广。当然,数据化研究项目重复开发 的机率也很大。这就导致了文献数据化发展方向由于某些利益的趋势而产生的盲 目性。对于同一文本的重复整理,多次开发的现象层出不穷。这样不仅耗费了人 力物力,而且在一定意义上讲也会对于文献数据化的发展方向产生误导影响。所 以这就必须建立起来一个统一的研究指导机制,从根本方向上来遏制这种盲目发 展的势头,这样才有利于文献数据化学科的可持续性发展。 其次,在具体文献数据化研究实践当中遇到的困难层出不穷。 技术不过关,引发在古籍文本输入方式上不能形成统一的字库的问题,从而 根本不能保证电子文本的完全可靠。古籍本身在使用文字时,情况是比较复杂的。 而现在的汉字识别技术还很不成熟。同时,国家标准字库( g b ) 所收的汉字数量 远远小于众多实际古籍研究当中所需要的数量,很多繁体字、异体字、通假字、 避讳字,计算机的文字编码也无能为力。再加上字库造字标准不统一,自造字体 不能被其他领域兼容,这使得古籍的校对工作差错率极高,文献整理工作进步缓 慢。 人才缺乏严重,导致古籍数据化过程中的重要环节录入文本阶段会因为古籍 上海师范大学毕业论文专用纸 原本的竖排繁体字、异体字、通假字、无标点符号、行文格式繁琐等问题无法依 赖于之精通数据编程、算法框架的计算机专业人员来完成。文献数据化学科是传 统学术方法与现代科学技术的结合,它需要批既懂得古籍整理又精通计算机技 术的人才。现状却是古籍整理专业人员不懂电子技术,计算机技术人员缺少古籍 知识。这无疑使得文献数据化的发展进程放慢。 缺乏统筹规划的观念,使得我国分散在各地的古籍不能建立成一套完整的古 籍书目数据库。而且国内的古籍数据化工作缺乏一个真正有执行能力的全国性的 机构进行统一的指导和协调,各开发单位各自为政,热点项目重复建设,冷门项 目少有问津,造成了人力、物力的极大浪费。同时,规范、统一的数据库形式没 有统一的标准,数据库机读目录格式不规范,根本不能进行库与库之间的信息交 换与共享。此外,还必须对古籍原本进行鉴别和统一著录,执行统一的分类表和 分类原则,否则就会出现书目数据不准确,造成不同的书被著录成一种书,或者 是一种书被著录为多种书的状况,给读者的使用和研究带来极大不便。 综合以上文献数据化在研究实践当中遇到的问题,笔者认为,文献数据化的 应用手段应该从以往公司企业的个体行为逐渐转化为由国家倡导的文化主管部 门、国家图书馆或者是国家古籍保护中心来统一规划、承接领导。这样更加有利 于我国古籍保护工作的开展,而且还在一定程度上减少了文献数据化的开发过正 当中遇到的一系列风险,从而使得我国古籍文献数据化的进程大大加快。 应逐步将企业行为逐步转变为国家行为,作为国家文化主管部门、国家图书 馆或者是国家古籍保护中心,应该尽快研究和出台相关古籍数字化标准和格式, 成立相应的专业数字化公司,结合国家古籍名录的颁布,统一组织和分期分批实 施古籍数字化,这不仅是科学研究事业的需要,更是开展国家古籍保护工作的需 要。 二文献数据化学科发展过程当中出现的问题的方法 ( 一) 文献数据化软件的开发过程中融入软件工程学的开发流程 软件工程学是- - i - j n 用工程化方法,指导计算机软件开发和维护的学科。它 利用工程的概念、原理、技术和方法来开发与维护软件,把经过时间考验而证明 上海师范大学毕业论文专用纸 的正确的管理技术和当前能够得到的最好技术方法结合起来。以软件生命周期的 形式将软甲的开发过程划分为软件定义、软件开发、软件维护三个阶段,每一阶 段遵循阶段任务彼此尽可能相对独立、同一阶段各项任务性质尽可能相同的原则 从而达到降低阶段任务复杂度、简化阶段间联系、便于软件开发组织管理的目的。 软件工程学 软件定义软件开发软件维护 总体设计, 挺出几种可能的解 决方案。 ( 1 ) 低成本的解决 方案。( 2 ) 中等成 本的解决方案。 ( 3 ) 高成本的“十 全l 美”的系统。 并估汁每种方案的 成本和敛益,还心 i 幺在充分权衡各种 方案的利弊的肇础 上,推荐一个较好 的系统最佳方案并 制定其详细计划。 洋细设计 这个阶段的任务还 不足编写秤j 孚,而 是没计 l 枵降的详 细规格说明。这种 规格说明的作用很 类似十其他t 拧领 域,i ,t 程师经常使 用的t 程蓝豳,它 们应该包含必要的 细节,程序员可以 根掘它们写出实际 的程序代码。 综合测试, 这个阶段的关键任 务足通过各种炎碰 的测试( 及 i l 心的 调试) 使软件达到 琐定的要求。蜮本 的测试足集成测试 和验收测试。 虚该川l l 试的文档 资料把测试计划、 洋细测试方案以及 实际测试结果保存 下来,做为软仲配 置的一个组成部 运行维护, 维护阶段的关键任 务足通过备种必 要的维护活动使系 统持久地满足用广 的需要。通常有四 类维护活动: 改上e 性维护, 适应性维护,完善 性维护,预防性维 ( 图1 1 ) 软件工程学中的开发流程 ( 二) 软件工程学的开发流程融入到文献数据化研究中 对于文献数据化专业的研究项目而言,开发适应性较强的文献处理系统是现 在的主流研究趋势。笔者认为,如果排除专业计算机开发团队参与项目的条件下, 科研单位应该自主筹建一支以技术攻关为主,文献整理技能为辅的文献数据化小 型开发团队。在确定开发项目的前提下,以一种专业性较强,成熟性较高的软件 开发流程为模式,通过分析开发问题,明确成员分工,项目进展层层把关的方法 严格控制软件项目开发进度,从而使得整体项目有效的顺利的全面的完成。这样, 不仅有利于整体项目的顺利实施,同时还可以有效地保证开发进程的有序性,一 1 1 需求分析 上嬖足确定目标系统必须其备哪些功能。 这个阶段的任务不是具体解决阿题m是研究问题的范围,探索这个题是否值褥 去解,楚台有可行的解决办法。 问题定义:提出关于蚜题性质、工程耳杯 和规模的书面报告。 软件定义:确定软件开发工程必须完成的 总目标。 上海师范大学毕业论文专用纸 旦出现问题,可也迅速追查出问题源头,并及时加以解决。开发流程的规范性体 现了两个不同领域的学科之间的在科研技术上、学科建设理念上的融合,也是新 时代下,文献数据化研究领域研究方法的一种突破。 上海师范大学毕业论文专用纸 第二节文献数据化发展的阶段性回顾 一古籍文献网络化在文献数据化的起步阶段得到推广 随着越来越多的古籍文献在网络上的出现,网络图书馆的概念已经家喻户 晓。网络数据库技术和平台信息检索技术的发展使得各大高校的电子图书馆连接 在一起,形成网络化。文献信息的利用率增加,资源得到了合理分配。在这个过 程当中,网络信息检索工具的开发,成为文献数据化领域在这一时期的重点。 所谓网络信息检索工具是指利用超文本或超媒体技术在因特网上建立一种 提供网上信息资源导航、检索服务的专门w e b 服务器或网站。网络信息检索工具 一般由自动索引程序、数据库、检索代理软件组成。同时,我们也应该注意到网 络数据库在信息传播以及文献整理的研究过程中所发挥的作用。网络数据库是数 据库技术与现代网络技术相结合的产物。故此,网络数据库既具有一般数据库处 理和存储海量数据的最有效率的优点之外,还具有明显的网络化共享资源的特 征,是目前数据库服务方式的主流。 c n k i 工程是中国国家知识基础设施工程的简称,它采用国际领先水平的数 字图书馆技术,建成了世界上全文信息量规模最大的c n k i 中国知网。中国知网 原名为:c n k i 中国期刊网。它是目前国内最重要的大型综合性科技信息网站, 全国各地区均建立了c n k i 镜像站。建有c n k i 书籍图书馆、中国期刊网、中国知 识资源总库、中国企业仓库系列等1 2 个子站群。 从专业研究角度来说c n k i 工程发展至今,笔者认为,c n k i 在具备各种特点 的同时也存在着一些不足: ( 一) o n k l 中国知网在全球有1 5 个交换服务中心和5 0 0 多个镜像站, 为近6 0 0 0 机构提供知识服务。 c n k i 系统数据库有三种基本服务模式,即镜像站点、远程访问、光盘。但是, 由于其规模庞大,并非所有的交换服务中心及镜像站点的服务效率都很高。如服 务器出现运行异常,5 0 0 多个镜像网站不能够同时容纳较多的用户同时在线浏 览,信息流通的速度必然会下降。从而导致许多浏览者不能正常打开网站界面或 者不能充分的完成检索功能。 上海师范大学毕业论文专用纸 ( 二) c n ki 中国知网一共正式出版2 2 个数据库电子期:f i j ,囊括的资 源总量达到全国同类资源的百分之八十以上。 实际上,正是由于其所包含的资源繁多复杂,使得用户在检索信息过程当中 不能轻易的检索到自己想要得到的内容。同时,其检索功能主要是通过“句子当 中字词的对应匹配”原理来进行设计的,属模糊查询的一种。这使得检索结果过 于粗糙,搜索结果范围广大。即使可以进行二次搜索,但其效果也不算上佳。尤 其是在“相关资料”这一功能中,没有对用户所阅读过的文章进行统计,使得用 户不能清楚明晰的统计出自己阅读过多少文章,对搜索资料的过程造成了诸多的 不便。 ( 三) 用户可通过该网站进行数据库检索。 从数据库本身的构建上来说,正是由于这种网络数据库技术的局限问题,使 得用户在没有网络辅助或网络速度慢的情况下束手无策。以致最终会导致对于网 络的过于依赖,缺乏了运用其他手段检索信息的能力。 ( 四) c n ki 源数据库跨库检索平台可以一次性对c n ki 系列源数据库 进行检索并获得全文,实现源数据库“一站式”检索。 在现实生活中,这种“一站式 的元数据库检索技术表面上是在同一个镜像 网站上查询信息,实际上仍然是通过网络上联网的多台管理网站的后台服务器进 行连接,并从中搜索的想要的信息。检索费时且针对性不强。若使用者的电脑配 置不高或使用的网络速度不快,很有可能造成检索中断、再连接等问题。 ( 五) c n ki 提供免费浏览,包括对中国期:f i j 全文数据库、中国 优秀博硕士学位论文全文数据库等数据库的本年度以前的题录、摘 要信息的免费使用。 值得我们注意的是,c n k i 网络平台是一种付费服务。使用时必须预先支付 一定的费用才能使用。这在一定程度上使得研究者利用其资源进行古籍文献数据 查询、检索工作提供了一定的障碍。笔者认为,仅仅提供免费的题录、摘要信息 上海师范大学毕业论文专用纸 等服务是远远不够的。收费项目的增多以及收费标准的增高必然会不利于古籍文 献数据化的普及。 ( 六) 数据库提供导航浏览检索功能、初级检索功能( 全文检索、篇 名检索、作者检索、机构检索、关键词检索、中文摘要检索、引文检 索、基金检索、中文刊名检索、分类检索、二次检索) 、高级检索功 能、专业检索功能。 可是,在实际网络数据库的构建过程当中,创建者往往考虑一些个体因素, 不会在数据库服务器的构建问题上花费太多的精力。这样就会导致普遍的检索型 数据库自身资源不能有效的发挥出来,从而引发了诸多检索功能缺乏专业的统一 规范,使得那些专业学术性强的研究领域无法简便快捷的介入操作,专业文献研 究学者运用起来难度重重。 ( 七) 对检索结果的题录和摘要提供中文、英文、中英文对照三种显 示方式,同时具有输出题录、输出题录摘要、网上浏览全文、下载全 文、打印全文、全文摘要和编辑等功能。 但是,这些看似名目繁多的浏览辅助功能其中具有实际效用的不多。所供下 载的论文大都只有两种格式( c a j 格式和p d f 格式) 。这两种格式的文档都必须 安装相应的阅读器才能打开。同时,由于c n k i 数据库检索平台所录取的论文文 章电子格式不统一,且电子文档的质量不等,很多文章现在到本地电脑当中不能 直接转换成w o r d 文档的读取格式,不利于文字的再编辑和浏览。从而限制了文 章文本的利用率。 二古籍文献录入技术在递进阶段日益成熟 古籍文献的计算机录入一直以来是困扰古籍整理研究人员的一大难题。笔者 认为,在文献数据化发展的递进阶段,虽然计算机录入技术要比前一阶段有了相 当大的改进,但是依然存在一些技术性的难点尚未解决。 上海师范人学毕业论文专用纸 ( - - ) o o r 文本扫描技术当中遇到的字体问题以及字库问题 1 大量的生僻字、异体字在现有系统字库中不包括; 2 若自行造字,在i n t e r n e t 上难以数据共享; 3 对于异形异体字需要规范和管理; 4 常用的二字节搜索引擎只能检索到2 万多汉字,无法支持对大字符集的检 索; 5 常用的输入法只支持对2 万多字的输入; 6 版式复杂且形式多样,难以实现自动还原; 7 很多历史文献不能采用o c r 技术; 8 数字化后的数据需具有良好的通用性,兼容多语种平台,能够为全球网 络浏览和数据交换打下基础。 字库问题现在一直得不到保证。中国汉字标准字库至今尚未出台,这对文献 数据库未来的发展,尤其是古籍文献数据库的发展产生了极大的制约性。 ( 二) 通过确定流程来逐步解决文献录入过程中存在的问题 在处理古籍文献信息的过程当中,笔者认为应该采用一种通用的处理文献信 息的基本流程来限制和规范现在的文献信息整理的数据化工作。 例如: ( 图2 2 ) 历史古籍文献数据化的流程 传统的书籍资源,经过扫描设备将信息文本以照片的形式扫描到本地电脑硬 上海师范大学毕业论文专用纸 盘上,再通过o c r 软件将照片文件转换成为w o r d 文档可以读取的文本格式。此过 程则需要人工操作。之后再经过人工的校对文本内容,补充缺失字体,最终将原 书当中的原有版式进行还原,可利用版面还原系统将数据信息还原到与原稿一致 程度;将文本数据源以信息数据的形式存入数据库中。并储存在电脑硬盘当中, 以备日后的:印书出版、制作光盘、网上公布、制作数据检索系统。 其中在对原有书籍资源进行数字化加工的过程是全部流程的关键。 数字化加工首先从对原始书籍资源扫描开始,用以永久保留原始书籍的本来 面貌,以备同后参考查阅。但扫描后的图片格式的文档不能进行全文检索,并且数 据量大,不适宜在网络上进行数据交换及共享,所以需对其进行数字化处理。 对扫描之后的书籍图片文档进行数字化,先决条件是计算机汉字库中的汉 字要多到足够覆盖原文中使用到的字的程度。在历史文献中用到的字,经常超出 市场上通用的字库中所包含的2 万多字。而国际i s o i e c1 0 6 4 6 :2 0 0 3 标准的 7 万字库则可涵盖其中的绝大部分用字。对于超出7 万汉字的汉字,则可由专业 造字人员自行人工造字,即时加进流程当中,给出编码,用郑码输入法进行输 入。 但o c r 文本转化技术也存在着一些技术上的缺陷。对历史古籍文献的数字化 效果不是理想。笔者认为原因有四: 其一,影响o c r 软件最终识别率的关键是扫描数据的质量。历史古籍文献很多 是彩色印刷,通常手抄稿字迹纤细,且有较多字体字迹模糊,而o c r 软件的最佳目 标数据是灰度的,甚至要用黑白二值图像。字迹模糊和有底纹或噪声也都会大幅 降低识别精度。 其二,版面分析的质量也同样影响着o c r 软件的识别率。对于多特征的数据, 完全自动地精确切分版面不太可能,字迹的粘连、交错、分离等情况都需要人工 干预才能完成。 其三,如原书作者的用字情况复杂,用字范围广,书籍转抄时抄写者的笔形差 异、异体、书写习惯差异的状况频繁出现,会降i 氐o c r 软件识别率。 其四,校对困难。在o c r 软件的后期处理过程中,针对现代汉语的特性,可以 采用语义相关的特点来辅助校对。但对历史古籍文献来说,现阶段还很难有一套 科学的方法总结出古文的语义。 上海师范大学毕业论文专用纸 ( 三) 现阶段制作文献检索系统的规范是文献数据化发展的重点 首先,笔者认为,在研发过程中,将要制作的文献检索系统应该具有强大且 准确的文字检索功能。值得我们借鉴的是,印刷版古籍也可以具有一定的检索功 能,但在印刷版阶段,限于编制工作的浩繁与书籍的规模,索引总是不规范的、 有限的。计算机有广泛的存贮空间,从根本上解决了“规模”的问题;有自动生 成索引的功能,从根本上解决了“编制工作任务繁重”的问题。而从实际需要看, 文献研究人员利用古籍,大多是查找检索文字信息多于系统浏览阅读信息。因此, 强大的检索系统对于古籍文献的整理是必不可少的。 所谓“强大的检索系统”是指以全文检索为基础构造的检索系统,笔者认为 应该包括关键词( 主题词) 检索、条件检索、逻辑检索、模糊检索、组配检索、 属性检索等等。其中属性检索对于古籍文献的利用与研究有特别的意义。如以“体 裁”作为属性,可以汇聚同体裁的作品;以“写作时间”作为属性,可以汇聚相 同时间写作的作品;以“事件”作为属性,可以汇聚古籍中记述的所有事件;以 “图像”作为属性,可以汇聚古籍中收载的所有图像资料,等等。属性检索是一 种智能化检索,属性设置体现了原书的内容特点,往往可以满足使用者特定的需 要。因此,在数字化古籍的检索系统中,属性检索应该是不可或缺的。同时我们 也应该注意到检索结果的准确性。这是文献研究工作者所一贯追求的,也是检索 过程当中的重中之重。 其次,在系统研发过程中,制作者要把使用者的“研究支持功能融入到设 计理念当中。制作出来的文献检索系统应该具有广泛的研究支持功能。 所谓“研究支持功能 ,笔者认为是指能够提供有关古籍文献内容本身科学、 准确的统计与计量信息,提供与古籍内容相关的参考资料、辅助工具( 如:查询 检索信息范围的随意设定;建立前台操作与后台数据库操作的同步管理;个人检 索信息的存储;研究卡片的生成与制作;疑难字体的临时生成;对原文数据库的 随意修改;随意添加各种格式的文档生成数据库资源,并可以随意管理:检索系 统的个性化操作等等) 。这些信息、资料或工具都是古籍内容的增值或补充。比 如古籍字数、字频、词频的统计数据;异体字的汇聚显示:读音的自动标注和朗 读;行文风格特点的概率统计;必要的背景知识、参考资料的汇聚;在线标点断 句工具的配备;不同版本比勘校对界面的设置;字典词典、历史年表、历史地图 上海师范大学毕业论文专用纸 等研究工具的加载;在浏览历史事件、历史朝代变更、历史地图时运用多媒体 f l a s h 动画技术表现其过程,增加趣味性等等。有了这些研究支持功能,不仅可 以极大地改善研究者的研究条件,而且还会带他们的研究积极性,从而能够极大 地提高专业学者的研究效率。 上海师范大学毕业论文专用纸 第二章已出现的文献数据化软件若干功能的评述 第一节四库全书 “文渊阁四库全书”电子版共收历代典籍3 4 0 0 多种,达7 亿汉字,由山东 济南开发区汇文科技开发中心研制、武汉大学出版社出版,分存1 5 0 多张光盘,文 字清晰。但由于这个数据库是图像页面,不能检索书内的文字,是其不足。目前普 遍使用的是由香港迪威多媒体公司与北京书同文电脑公司主持开发,香港迪志文 化出版有限公司与上海人民出版社合作出版的“文渊阁四库全书”电子版。 该系统分“原文及标题检索版”( 1 6 7 张光盘) 和“原文及全文检索版 ( 1 8 3 张光 盘) 两种版本。在保持原书真迹的基础上,附加了1 8 2 万余条卷内标题资料和近 3 0 0 0 名著者资料,设置汉字关联、联机字典、标点笔记、四库大词典等多种辅助 功能。将书中具有检索意义的书名、著者、类目、标题以至文中的字、词语全部 实行数字化,给读者提供了快捷有效的检索、统计、整理和编辑的途径。文本版 页面跟图像版页面对应,可以随时调出图像页面查阅原书,便于核对文本的正确 性。有些古书有奇字、异体字和特殊版式,转为文本时作了一些处理,跟原书不尽 一致,所以必要时要查阅原文图像。跨平台技术,适用于中文简体、繁体、英文、 日文、韩文平台。 但是,笔者认为,该系统由于所采用的文献数据库技术存在缺陷,故此仍有 一些不足: 一系统的检索功能是衡量其质量好坏的基础。在检索功能方面,“文渊阁 四库全书”系统的一些数据库检索中虽然采用汉字关联技术,即异体字、繁 简字的匹配等,但由于设计者在古文字和古文献知识方面的局限,在数据库设计 过程中就出现了大量的不准确匹配,误检等错误。同时,在卡片管理这项功能的 设定上还存在欠缺。四库全书根本没有与卡片管理功能的任何设置。 二“文渊阁四库全书 系统所采用的字库当中,自造字、图片字虽然 占据了扩展字库的b 区、自定义区,但与字库本身冲突,这些自造字拷贝n w o r d 文本之后,由于内码位置的差异就变成了其他字,从而导致文本严重错误。类似 错误很多,笔者随便举些例子来说明。 首先,因为四库全书为清代所修,个别避讳缺笔字体转换至u w o r d 文本上 上海师范大学毕业论文专用纸 时,便因无内码可循,变成无法显示的空格: 其次,因为若干字体的写法不同,如“旨”字在四库全书原书中上面是 “上 字,下面为“日”,当转换成w o r d 文本时,则为空格,无法显示; 再次,简繁字转换过程当中,如“著 字,往往会自动转换成“着”字,这 是系统本身字库的匹配造成的错误,给我们查询过程中带来了极大的不便。 诸多问题,存在错误太多,不多举例了。 三由于“文渊阁四库全书”电子版在对外发行的过程当中,价格定位 较高,大多是用户会选择相对较便宜的版本即单机版,所以由于使用版本的不一 致,使得大多数普通用户在全文检索的时候不能正常的检索到正史和编年史。如 全文检索时输入“魏征 ,选择“全文”,检索结果里面则没有资治通鉴、 两唐书;但是若选择“注释”时,就会有。 这得我们注意的是,自1 9 9 9 年文渊阁四库全书电子版出版,针对不同学 术用户或个人的需要,先后推出“原文及标题检索版 、“原文及全文检索版”、 “原文及全文检索版( 网络版) ”及“个人版”。普通级别的用户使用“文渊阁 四库全书 电子版时其版本往往是不带有后台数据库软件的“个人版”,这 样在检索信息的过程当中就会出现更多的不便。 四软件安装不便。通常一部“文渊阁四库全书”电子版需要安装1 6 6 1 8 3 张c d 光盘。数量庞大,且浪费空间现象严重! 众所周知,一张c d 光盘所含空间大 约7 0 0 m b ,而一张d v d 光盘的空间容量大约是4 7 g b ,是一张普通c d 光盘空间容量的 七倍左右。同时,c d 关盘在安装过程当中若一张光盘出现问题,不能读取,其它 光盘读取数据的次序将会打乱,从而影响整个安装过程! 这样就必须重新安装一 次。 以上的诸多弊病,大都是因为人为设计原因造成的。但是它们所体现出来问 题确实值得我们思考的! 笔者认为,在未来的古籍文献数据化的过程当中,文献 检索系统开发时应做好周密的软件设计规划。对于系统将要实现的功能,应考虑 全面,从实际用户的切身利益出发,以用户的需求为根本的出发点,这样才能得 到广大科研使用者的称赞。同时,在选择文献的底本上也应该得到相应的重视。 “文渊阁四库全书”电子版所采用的底本是武英殿殿本,校勘整理的比较完 善,错误较少,很值得我们在日后的工作中借鉴学习。 上海师范大学毕业论文专用纸 第二节四部丛刊 四部丛刊是上个世纪初由著名学者、出版家张元济先生汇集多种中国古 籍经典而纂成的继四库全书之后的又一部大丛书。学者们公认此书的最大特 色是讲究版本:辑者专选宋、元、明旧刊( 间及清本者,则必取其精刻) 及精校 名抄稿本。该书电子版底本采用北京大学图书馆善本部馆藏上海涵芬楼景印四 部丛刊。 四部丛刊电子版是由北京书同文数字化技术有限公司开发研制的。采用 当今数字化最新技术如:i s 0 i e c l 0 6 4 6 ( u n i c o d e ) 中、日、韩汉字大字符集文 字平台c j k + 、x m l ( 可扩展标识语言) 标识、以及s d s b 全球版制作技术、电子扫 描o c r 识别、软件辅助校对、全文检索引擎配置以及其它知识工具的挂接等。这 样不仅保持了原本纸质文献的全部内容,还逐字输入、校对,使每个文字数据化, 具有全文检索、特征检索、择要笔记、纪元换算以及简、繁、异体汉字关联查询 等多种功能。如全文检索,可通过关键词检索,同时还可以限定书名、著者、分类 条件,并可实现不同关键词的布尔组配检索,读者只需输入少量字、词,通过“任 意一致 的模糊查询,即可检索到所需信息。 四部丛:f f j 电子版分为单机版、局域网络版和国际互联网络版。电子版光 盘全套共计2 4 张( 不含联机字典) ,其中程序及文本数据光盘2 张,原文图像数 据光盘2 2 张。售价( 中国国内) :网络版:8 0 0 0 0 元人民币( 1 0 个并发用户) 、 单机版:2 5 0 0 0 元人民币。 从表面上看,笔者认为四部丛刊电子版的搜索功能还是相当强大的。但 是也没有任何关于卡片管理功能的设置。这对我们古籍整理工作的来说,书名检 索、著者检索、全文检索( 通过输入关键词在四部丛刊全部内容里进行检索; 同时可以限定书名、著者、分类条件;还可实现不同关键词的布尔组配检索) 、 分类特征检索等功能还是远远不够的。在设定使用者阅读时提取文字信息的卡片 进行记录这方面,该软件在设计之初是没有想到的,同时信息检索功能设计的也 不够完美,使得该软件一直得不到重视,尽管四部丛刊电子版的操作界面华 丽。 上海师范大学毕业论文专用纸 第三节通仁文献检索系统( 即“e 书库”系统) 由上海通仁信息科技有限公司自主开发,是经中国科学院上海科技查新咨询 中心审定。目前已正式由上海浦东电子出版社出版。 “e 书库”最大特点就是能够建立个性化数据库。其编辑器功能齐全完善, 操作实用简易,可以把各种来源的文本资料( 不限语言) 导入数据库,从而建立 符合使用者需要的数据库。使用者可以对已建立的数据库内容任意增加、删除、 转移、修订,甚至可以细到具体书籍中的某一卷。 “e 书库”阅读器功能极其强大,数据库内容精细。例如,数据库文本采用 多级导入方式,章节目录一目了然;可对正在阅读的数据库内容进行快速全文检 索与模糊检索且检索可细化到某一著作中的一卷;无论您输入繁体字还是简体 字、输入文字中有无标点记号,都可以检索出正确的结果;检索工具还提供了关 联词匹配,可区分某些想要区分的关联词;可制作卡片且能自由分类管理,并可 对卡片进行检索;使用者还可以在阅读过程中对文本作色彩记号、添加书签、进 行注释;能够随意对文本进行繁简体转换、调整字体大小、注释方式转换;能够 直接全文拷贝或打印文本;可直接使用“日历”工具,查到任何公元后任何一年 的公历、农历对应时间;同时还为使用非中文用户提供中文输入法。 “e 书库”系统兼容性能好,能在w i n d o w s 9 8 至w i n d o w sx p 之间的任何各种 语言版( 中文简繁体、英文、同文等) 使用。其中考虑到中文有异体字的区别, 繁简字的差异,因此数据库建立模式采用异体字兼容显示模式,而对繁、简体 两种不同字体采用分开显示模式,可以进行“输繁查简 或“输简查繁”的操 作。 实际上“e 书库”系统是以用户自行定制数据库内容为特色的一个检索系统, 软件提供了一个通用检索平台。若用户拥有足够多的电子文献,就可以利用“e 书库”系统制作出一套专业数据库。但是并非所有的电子文献都可以顺利导入( 加 载) 到“e 书库”系统的数据库,也就是说,你的数据是需要经过加工成为与检 索系统设置的各项参数相匹配的电子文档,才可以实现导入,这是该系统在设计 之初的一点考虑不周的地方。 总体来说,笔者认为,单以制作软件的功能来说,“e 书库”系统的确可以称 为现今中国古籍文献检索系统的第一号作品。无论是数据库的个性化随意建立, 上海师范大学毕业论文专用纸 还是信息检索功能的细化,都具有国内任何古籍文献数据化软件无可比拟的优 势。该软件在设计之初也设想过为了便于使用者的阅读,设置阅读卡片记录功能, 但是由于在这方面没有深入的细化该功能的分项步骤,使得在卡片记录这个分支 功能略显得无力。该系统的卡片记录功能只是能够方便使用者记录阅读进度,而 没有对卡片上的内容添加搜索、转换、查找、保存、另存为等必要的分支细化功 能,也可以说是略有瑕疵。 古籍文献数据化的研发趋势就是从单纯的文本内容竞争转变为以文献检索 服务系统竞争。也就是说,技术的开发者应该注重文献检索服务功能的开发与完 善,而文献研究学者可完成文本内容的整理,然后合成为一个规模较大的公共古 典文献数据库。这样才能满足专业研究人士对于古籍文献数据化的需求,从而给 学术研究带来真正的便利。 上海师范大学毕业论文专用纸 第四节国学宝典 国学宝典是北京国学时代文化传播有限公司编制的一套以古籍文献为主 要内容,面向文史专业研究人员的全文检索数据库,收录历代典籍约3 0 0 0 种,包括 十三经、二十五史、诸子百家、全上古文、唐诗宋词元曲、明清戏曲小说、历代 学术笔记、佛典、道典,以及晚清文献在内,约5 亿字。使用简体字,有标点,分 段落。系统具有全文逐字及高级智能检索、字频统计、生成卡片、输出文件、浏 览等功能,还附有人名词典、书名词典、成语词典等常用电子工具书。 毫无疑问,国学宝典的确是一套很有实际意义的古籍文献检索系统。该 数据库规模超过四库全书5 0 ,是全国最大的专业中华古籍数据库。所有文 献能够实现全文逐字及高级智能检索、字频统计、生成卡片、输出文件、浏览等 功能,实用价值很大,性价比较高。 同时,系统以u c d o s 为平台,自带专用字库,完全兼容国标字库( 6 7 6 3 个汉字) , 具有开放性和可扩充性,如尔雅、穆天子传等用字生僻的文献,在该系 统下均可正常使用,基本解决了中国古代汉籍文献中汉字显示和打印问题。 其中,“查询及生成卡片 功能虽然操作略微复杂,但是由于系统是基于u c d o s 平台之上,故此其查找结果则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025综合投资理财合同样本
- 2025年工业互联网在新能源行业5G技术应用报告001
- 2025年新能源汽车智能座舱儿童座椅交互安全研究报告
- 2025电线电缆产品特约经销合同书
- 鹿茸西洋参片的功能与作用
- 2025年新能源汽车绿色信贷政策实施效果与市场潜力报告
- 离婚财产分割协议:关于土地使用权的公平处理范本
- 复杂多变的共同债务清算及财产分配离婚协议
- 离婚协议范本:财产分割与子女抚养权明确说明
- 高端住宅小区物业管理合同签订与物业服务标准
- 钢筋加工棚租赁合同范本
- 眼整形课件教学课件
- 公司法务知识培训会课件
- 2025-2026学年秋季第一学期学校德育工作安排表
- 2025年全面质量管理知识竞赛题库及参考答案
- 医药行业KA经理工作汇报
- 浙教版2025-2026学年八年级上科学第1章 对环境的察觉 单元测试卷
- 纤维素基包装生物力学性能-洞察及研究
- 2025年海南省财金集团有限公司招聘笔试模拟试题及答案解析
- 2025年炭石墨负极材料项目合作计划书
- 工程施工队课件
评论
0/150
提交评论