地方文献数据库系统_第1页
地方文献数据库系统_第2页
地方文献数据库系统_第3页
地方文献数据库系统_第4页
地方文献数据库系统_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、地方文献数据库系统 一、前言二、收录范围与文献源建立地方文献数据库,首先要明确收录范围和解决文献源问题。对地方文献的收录范围,我馆前馆长杜定友先生曾提出过著名的“史料、地方出版物和地方人士著述”三部分的论述。在杜定友先生的倡导下,我馆致力于地方文献的收集工作,建立了广东地方文献专藏。根据我馆地方文献的收集入藏情况,我们拟定了地方文献数据库收录范围的原则:1具有广东地方特点,并有一定学术、史料价值的文献资料(包括有地方特点的科技文献)。2反映本省人物(包括广东籍知名人士以及在广东有过影响的非广东籍人士)生平、传记、事迹的文献资料。3有广东地方特点的本省出版物和外省出版物。4广东人士著述(拥有地方

2、特点的文献资料部分)。对不予收录的文献,也作了如下规定: 1)虽是地方出版物,但内容并无地方特点的文献资料。2)作者虽是广东人士,但文献内容并无地方特点的著述。3)无地方特点的科技文献。4)印刷质量差,内容贫乏的非正式出版物。5)同收录原则相悖的其它文献资料。具体的收录范围有24项。地方文献数据库所收录文献的类型包括:专著,期刊、报纸、会议录、汇编、学位论文、科技报告、专利文献、手稿、地方志、族谱、检索工具、参考工具、图表、古籍等。其中检索工具包括反映本省图书馆馆藏的各种书目、文摘、联合目录;图表包括地图、气象图、地质图;参考工具包括年鉴、手册等;专利文献只限于本省单位和个人申请的国内外专利;

3、报纸限于本省出版报纸的目录。广泛征集地方文献资料,保证地方文献数据库有充足的文献源,是建立地方文献数据库极为重要的一环。我馆地方文献工作,早在解放前即已引起重视。建国后,更加广泛深入地开展了地方文献的收集和整理工作。省人民政府曾先后发出三个关于地方文献工作的文件,指定我馆为全省地方文献的征集工作机构和收藏中心,要求各级人民政府和各企事业单位,将所出版的文献资料无偿向我馆缴送二册,这为征集地方文献打下了良好的基础。在全省各有关单位的大力协助下,经过几十年的努力,我馆已逐步建立起拥有18万册,在海内外有一定影响的广东文献专藏,形成了广东文献的收藏中心。这是建立地方文献数据库的基础。三、数据库系统目

4、标与模式为了实现上述目标,我们根据本省的实际情况,为地方文献数据库设计了下述模式:1选择具有良好汉字处理功能的远程通讯能力的微型电脑作为数据录入工作站和脱机检索系统,这一系统配有完整的外部设备,可独立进行地方文献书目数据的录入、检索和编辑出版地方文献通报。对已输入电脑的大量数据,可转贮到软盘,为将来在中、大型电脑上建库作好数据准备。我馆已购置了四套IBM5550中文电脑,其中一至二套用于地方文献数据库的建库工作。3在本馆购置中、小型主机后,将进一步完善地方文献数据库系统,在省、市领导机关和主要科研机构设置检索终端,并同当地的主要图书情报部门联网,进行联机编目和检索,从而使地方文献数据库真正达到

5、资源共享的目的。4把电脑同缩微技术结合起来,实现地方文献资料的全文检索。我馆准备在条件具备时,购置一套16毫米的缩微拍摄设备,用于拍摄地方文献资料。在数据库中检索命中的文献,可根据其文献号,在缩微阅读机上获得原文。在我省有关部门的大力支持下,经过全馆同志的努力,广东地方文献数据库的系统目标正在逐步实现。目前,在IBM 5550微机上已实现了以下功能:1)地方文献书目数据的录入与存贮。针对地方文献具有多种类型的特点,本数据库根据国家文献著录标准,设置了多种文献类型的自动格式识别程序,不但提供了完善的人机对话录入和修改方式,而且能够对录入的书目数据自动进行著录格式的自动识别,从而使书目数据达到标准

6、化的要求。2)编辑和打印综合性检索刊物广东文献通报。该刊物以及时报道我馆新入藏地方文献为宗旨,两月出版一期。每期通报正文约70页,按中图法分类体系排列,并附有地区索引,方便县、市图书馆、档案馆等有关单位从地区途径查找文献。从86年五月起,至今已出版文献通报六期及通报的年度累积索引一册。3)自动编目功能,数据库系统可根据输入的地方文献书目数据,自动生成数据库倒排文档,供文献检索之用。另外,还可根据指定的专题,编制各种类型的地方文献专题书目,以及编制地方文献的累积本。4)文献检索功能。因受1BM 5550系统外存的限制,目前数据库的存贮容量为25,000篇文献。如将外存扩大到40MB,数据库容量将

7、可扩大到10万篇。在此范围内,用户可从篇名、著者、分类、主题、地名等五个途径进行联机检索,并允许用多个主题词或多个检索途径进行组配,以提高检准率。输出结果既可在屏幕显示,也可以用打印机输出。四、数据库的设计与实现总体设计方案确定后,使用什么语言实现?开始我们考虑用DBASE3.0。但后来经模拟试验和论证,发现dBASE3.0用于开发文献型的数据库系统并不理想,原因是(1)记录字段不能适应书目数据可变长的特点;(2)不能使用数组,而且程序变量限于128个,响应速度慢;(3)如作组配检索一般要几十秒的等待时间;(4)难以实现人机对话方式的检索,即在检索过程中无法修改检索策略。基于上述原因,我们决定

8、用编译BASIC进行系统开发。在开发的过程中,尽可能采用自顶向下、分块实现、逐步求精等行之有效的软件开发技术,仅用了四个多月的时间,就完成了程序的设计和调试。经过半年多的试运行,根据暴露出的问题,我们又对程序作了较大修改,形成了第2版本。目前该系统的源程序共有4,000多行,17个运行模块(占260KB)。以下对本数据库的文件结构和主要算法作简要介绍:(一)文献库文献库的任务是通过书目控制字段实现书目控制;按国家标准录入和存贮文献记录;编辑和打印各种书目;提供多途径的文献检索手段。文献库共设置了书目控制文件、主数据文件和倒排文件。1)书目控制文件该文件采用杂凑随机文件结构,每个记录由书目记录控

9、制关键字、文献地址和冲突链组成(见图1)。每个记录的控制关键字,首先考虑用ISBN号(我国今年出版的图书开始使用该号)。对没有该号的图书文献,采用下述方法取号:整本文献和非书资料,用:题名首字符+著者末字符+地区代码+出版年+页数。析出文献用录入号(即系统分配的顺序号)。书目控制关键字的取号要求是唯一性较为方便。本系统通过该文件将可对所有输入数据库的书目记录进行控制,实现快速查找或修改。2)主数据文件该文件采用固定长记录可变长字段的随机文件结构,记录长256字节。如有数据溢出,溢映部分将存入溢出文件中。本系统将所有书目数据划分为3种类型:整本文献、析出文献和非书资料。每种类型的字段虽有不同,但

10、可存贮于同一数据文件中,通过文献类型代码进行识别。为便于新数据的处理,本系统又将主数据文件分为新书文件和数据库主文件两种。新录入的数据暂存于新书文件中,待打印出文献通报和地区索引后,再合并入数据库主文件。数据库主文件的记录是按文献通报的顺序号排列的。主数据文件的记录字段考虑了同国家机读目录的一致性,在必要的时候可通过一个格式转换程序,把书目数据的系统内部格式转换为标准格式,以利于资源共享。本系统的书目记录输出,采用了汉字取整装配技术,并按国家文献著录标准在各著录项目中加入分隔符号。3)数据库倒排文件-该文件采用二级索引结构:第一级是杂凑随机文件,每记录分为前链和后链两个字段。第二级是顺序随机文

11、件,每记录分为文献地址和后链两个字段。这样,一级索引作为检索入口指向二级索引,二级索引通过每个记录的后链集中了相关文献,通过文献地址就能查得所需文献。图2为示意图。采用这种文件结构的文献检索算法如下:接收一个检索表达式KEYS生成提问表(即把表达式中的关键字存入检索比较工作区)生成检索逻辑尺根据工作区中元素的映射地址(杂凑)取出前链R从R指示地址在二级索引中取出真正的文献地址后链L按B指示地址在主数据文件中读出一个书目记录将该记录同工作区元素作字符串比较,得到其文献逻辑值文献逻辑值同检索逻辑尺作比较,符合者为命中文献判L等于零?是则检索结束,否则LR,转我们认为,这种以二级索引文件结构为基础,

12、用杂凑映射作为快速寻址,用逻辑尺进行二次精确检索的算法,是一个新颖有效的算法。同时,在索引中仅存贮指针,可比传统的索引文件节省75的空间。本系统首次检索的响应时间均低于2秒,二次检索的响应时间则因检索式的复杂程度而有不同程度的减慢。(二)词表库1)词表入口文件-该文件为映射随机文件,每记录仅存第一个标引词的地址,通过该词第一个汉字的ASCLLI码映射寻址。2)主表文件-该文件为随机文件,每记录由标引词字段和后链组成。通过后链便可查到首字相同的所有标引词。3)付表文件-该文件为顺序文件,用于存贮正式标引词的同义词。本系统通过上述文件结构和算法,已在机内建立了拥有4,000多个标引词的词库,实现了

13、标引词快速查找、首词集中显示、标引词扩检与缩检、同义词参见和词表打印等功能。(三)征集库1)刊号控制文件-该文件用于存贮每种广东期刊的刊号(包括邮局刊号和内部期刊登记号),对数据库的期刊进行控制,其结构为杂凑随机文件。每记录有刊号和文献地址两个字段。3)期刊主文件-该文件用于存贮每种期刊的基本著录事项。每记录长256字节,溢出部分存入溢出文件。4)记到数据文件-用于存贮每种期刊的记到数据,每种刊作为一个逻辑记录,采用二维数组结构。该文件以年为单位存贮数据,即每年生成一个记到文件。五、地方文献的著录与标引为了达到资源共享的目的,地方文献的著录与标引也必须实现标准化。我馆在建立地方文献数据库的过程

14、中,对地方文献的著录和标引的标准化十分重视,采取了下面的一些做法:1在进行数据库总体设计的同时,请本馆有丰富文献工作经验的同志组成科研课题组,起草制定了文献标引员手册。该手册对数据库的收录范围、文献著录标引工作细则、文献通报编制体例等都作了规定。从而为文献著录标引工作的标准化奠定了基础。2在建库前,对文献标引员进行业务考核,选择工作责任心强,经过图书馆专业培训,有三年以上图书馆工作经验,并有一定文献工作实践的同志担任文献标引员。3印制地方文献书目数据录入工作单,要求文献标引员根据国家文献著录标准进行著录,并按录入单格式进行填写。这样可以减少因不熟悉著录格式而产生的错误。4标引员标引的数据录入单,由数据库文献工作组最后审核定稿。审核的内容包括:著录文献的选题、著录的格式、分类和主题标引。在实践中我们感到,标引文献的审核,对提高数据库的文献质量,有着十分重要的作用,因此,应由有较高业务水平的同志负责把关,并注意保持文献标引人员队伍的相对稳定。5数据库书目数据均采用中图法分类体系。对同一文献的多个主题,尽量采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论