



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ECIP自动编目软件系统设计思想的探讨兼与张丽娟等同志商榷蒋小耘摘要本文对ECIP计划中自动编目的MARC标准设定问题及自动编目系统实现的设计思想提出了自己的不同见解。参考文献6。关键词ECIP计划、自动编目、MARC标准、系统设计分类号G25436ABSTRACTTHEDIFFERENTVIEWISRAISEDINTHISPAPERABOUTMARCSTANDARDPROBLEMINAUTOMATICCATALOGINGINECIPPROJECTANDDESIGNIDEAOFTHEREALIZATIONOFAUTOMATICCATALOGINGSYSTEM6REFSKEYWORDSECIPPROJECTAUTOMATICCATALOGINGMARCSTANDARDSYSTEMDESIGNCLASSNUMBERG25436近年来有关专家提出在我国推行ECIP(ELECTRONICCATALOGINGINPUBLICATION)计划的构想,即利用出版社印前电子文本加注结构标签的方法进行自动编目,其预期目标是由图书的电子文本自动产生新书预报与正式书目数据以后,全社会都可以享用这一成果,发行界和图书馆界都不用另行编目,(见中国图书馆学报04年第4期张丽娟CNMARC存在的问题与ECIP计划的实施。)令人振奋。进一步研读了ECIP实施方案的有关著述(见陈源蒸中文图书ECIP与自动编目手册),对其中系统实现的设计思想产生了不同看法。本文拟就此问题进行探讨。ECIP自动编目系统的设计思想可简单概括为对图书的印前电子文本用XML语言描述的DC元数据在电子文本上加注结构标签使线性文件转换为数据库文件从而达到一次录入,生成两种产品(图书馆机读目录、图书)的目的。这一转换过程是通过简化CNMARC字段;限制字段指示符的选择性定义以达到MARC与DC的匹配来实现的。笔者认为,这一设计思想忽略了其产品的使用者对组织知识的需要,所导致的方法论上的错位制约了其目标的实现。图书馆编制机读目录的目的,一是为了多重揭示文献,满足读者获取文献知识的需求,二是数据交换、资源共享。这两方面的主导因素被设计者忽略了。1ECIP的自动编目MARC标准设定中忽略的因素11与国际接轨的因素IFLA(国际图书馆协会联合会)的UBC(UNIVERSALBIBLIOGRAPHICCONTROL,国际书目控制)计划要求“对世界各国发表的主要出版物以一种国际上可接受的方式,全面而迅速地作出基本目录。”这个国际上可接受的方式在我国即物化为采用UNIMARC基础上的CNMARC格式编制可用于书目信息交流的机读目录。既然ECIP产生的是”图书馆都不用编目”的源头书目数据,其采用的MARC格式将CNMARC的479个字段及近千个子字段中,处理中文图书的123个字段简化为47个字段,159个子字段,其书目描述如此不统一是不利于书目数据共享和交换的。其标准与国际标准相去甚远。12图书馆业务规范因素我国自90年在UNIMARC的基础上制定了机读目录标准CNMARC,经过图书馆人的10多年努力实现了图书馆服务流程的自动化,但我们不能不看到存在的隐忧,大量的回溯建库过程中,图书的快速进入数据库只要能外借就行;各馆自编MARC在相关字段未作连接等即简单著录形成的不规范机读目录,对于图书馆来说,表面上虽已完成了编目数据但结果带来的负面影响是,由于书目数据建设是一个不可逆过程,作为被描述的对象图书一旦入库如特征描述的不充分就不能被读者检索到,无形中因为存在检出障碍未被读者利用而使得隐性文献不时产生,这样的资源浪费现象是普遍存在的。这就从一个侧面提示我们实体特征描述如果标准过于简单,则会阻碍图书馆目标的实现。13读者利用文献的需求因素读者期望图书馆提供的机读目录应该是能够满足其多方面需要的一个完整的检索体系,MARC作为机读目录的著录标准,应当将著录过程中对文献实体描述的各种数据元素尽量考虑周全,应当围绕怎样充分地揭示文献的各种特征,使之充分展现出来为出发点来设置各项字段的定义及功用。机读目录作为一个完整的检索体系,就要考量影响读者查准、查全的各种因素,予以避免,才能满足使用者各种目的的需要。ECIP的MARC对CNMARC的3、4、5字段均有大量的合并。仅以512517、540这7个字段合并为共用一个517而言,将7种不同的定义混为一种来描述,只能是对检索点的减少及对特征描述准确性的削弱,给读者快速准确的检出形成障碍。例如由机械工业出版社出版的2003年(第2版)的封面书名为最新考研英语阅读理解220篇,书名页、版权记录、书脊等处的书名均是硕士研究生入学考试英语理解220篇按照图书著录主要信息源为书名页和版权页的编目规则CNMARC著录2001A硕士研究生入学考试英语理解220篇5121A最新考研英语阅读理解220篇其意义当封面题名与正题名区别较大时,用512字段为读者增设检索点,生成附注导语为“封面题名”,专指度明确、特征醒目易检得。当读者对两个不同题名难以判断准确入口时,用有专指的封面题名入口进入,一检即得。ECIP的MARC数据为2001A硕士研究生入学考试英语理解220篇5171A最新考研英语阅读理解220篇其意义将“封面题名”512字段检索点取消放入“其他题名”中去检索,专指度模糊、特征隐去,范围扩大,不易检得。甚至当读者将醒目的封面题名错当成正题名、又将在内部的书名页正题名当成其它题名来检索时,就会形成无法检出的局面。因此,笔者认为,CNMARC格式不但不能认为“复杂烦琐”,而是应当进一步充实增设新的识别功能字段,才能达到一个利于读者使用的完整检索体系的要求。字段中,既要有反映文献内容与特征的基本著录数据元素,以满足基本检索,又要进一步揭示文献多方面不同关系的辅助著录元素,以反映现代科技发展各学科之间相互渗透和交叉的关系,满足读者多元检索的需要,传统图书文献编目中有“用、代、属、分、参、族”等参照关系著录,正是为了从多重角度揭示图书,书目数字存储的著录元素与传统的图书著录元素没什么本质的区别。现有CNMARC3字段附注块、4字段连接款目块、5字段相关题名块各自所定义的内容及所起的作用是互不相同的,其各子字段的设置,正是涵盖了剖析印刷版图书的物理结构,确定书目记录所需要的数据元素过程中,须处理的各种千差万别的不同状况,就象医生看病对症下药,不同的症状就要用不同的药方一样,根据检索数据的需要而有所选择,它是对文献附属特征进行多重立体揭示的不可或缺的工具。对其进行删减是不切实际的。MARC格式在反映文献内容特征上还应有新的建树,应扩充6字段主题、类目块,以适应当今信息交叉相互渗透所带来的隐性文献不时产生的严峻现实,因为一种图书在图书馆面对读者的实际架位中只能拥有一个分类号,而对于文献内容涉及广泛的分支、交叉、边缘科学时,一个分类号是难以将文献中其他的内容特征反映出来的,无形中使这部分文献淹没在知识的海洋中。因此应增加析出类目、交替类目主标题字段、并生成附注,将“互见”与“参见”等功能反映出来,可以帮助读者去发现更多的有用文献,使许多表面上看上去不相干实际却相互牵连的文献浮出水面。总之,从读者的角度来说,文献特征揭示的越充分,就越有利于其需求的实现。MARC字段的简化不利于文献的深层揭示。2关于ECIP的自动编目系统实现的问题21取消规范控制字段收缩检索功能MARC数据记录进行组织、序化形成机读目录须有赖于机器的识别,识别的过程须有标记的指引,即指示符与检索点字段连接而成的检索数据的作用。用适当的软件工具将书目数据、检索数据转化为能在计算机上运行的软件,完成规范控制,从而建立完整的检索系统。ECIP的“自动编目”对书目的规范控制处理方法中,取消了500、540与730字段,6块和7块的3子字段,认为“对于用户而言,更不可能进行规范检索。”笔者认为这一观点更是违背了客观实际的需要。以500字段来分析500字段的功能是当文献有多个题名时,选择一个人们通常惯用的题名来标识并形成检索点。例如2001A石头记F曹雪芹著50010A红楼梦红楼梦作为统一题名并作为检索点,在检索时使石头记也同时被检出。此项功能满足了族性检索的需要,国际图联数目控制机构在其出版的文件中也有这方面的要求即那些主要是用于古典的佚名作品的统一题名,是记录的主要组成部分,必须交换,因为这样的统一题名很可能是唯一的检索点。至于其他那些不作为主款目标目的统一题名,虽然意义较小,但还是建议将他们包括在交换记录中。包括条约、法律、协定等的统一标目也应放在500字段中作为统一题名处理。ECIP书目作为源头书目,不考虑这些因素,就不能够形成一个高质量的可交换书目。同时500、540字段的取消进一步削弱了族性检索的功能。22取消字段指示符选择性定义制约客体描述的完整性、准确性字段指示符在检索系统中的作用是为字段内容、记录中某些数据处理时所需的操作通过定义提供选择性信息。ECIP自动编目取消字段指示符的选择性定义,只采用一种赋值即计算机自动插入其固定赋值(使原来的对实体描述由不同选择变为一种选择)以便于软件系统自动转换数据(DC元数据MARC数据),使线性文件转换为数据库文件。这样的结果,MARC与DC是实现了对接,但客观上弱化了事物之间的相互联系与事物多样性的客观规律,结果不可能令人满意。原因在于两者有着不同的学术意义和应用价值,简单的等同只能获得对客体平面的描述。不妨剖析一下两者的不同价值。(1)元数据的意义和应用价值元数据是针对网络信息标引发展起来的,其本意是用尽可能少的元数据反映尽可能多的原始数据信息,没有词汇控制和标准描述,是简化问题的一种追求,包含15个元素。其适用格式主要是HTML文档、XML文档,致使其在描述其他领域的信息资源时存在着较大的局限性,即类目或元素不足,在文献信息处理中,元数据主要关注文献的外在形式特征,因而适用于组织信息。基于元数据的信息组织的一个显著特点是实体描述模型为树型结构,各元素在概念上没有交叉渗透。(2)MARC的意义和应用价值MARC是书目标引的机读格式,其基本元素是某一领域的元概念,其对实体描述的模型为网型结构,各级概念间可以相互交叉渗透。这种模型的框架基础是形式本体论,形式本体论是针对特定领域的知识处理发展起来的,它以特定领域的知识资源作背景,通过某领域的形式本体论将该领域的知识组织起来,构成基于本体论的知识研究系统,因而在知识组织与知识处理中具有特别的学术意义和应用价值。在文献信息处理中,本体论主要关注文献的内在内容特征,因而适用于组织知识。相对于信息而言,知识具有稳定的内容结构;相对于知识而言,信息具有动态的价值功能。这一区别构成了组织信息适用元数据而组织知识适用本体论的局面。图书馆面对读者提供的书目检索系统正是一个组织知识的过程,化简MARC、取消字段指示符的选择性定义以适应DC的对应,不等于削足适履吗3结束语综上所述,ECIP自动编目采用XML语言描述的DC元数据在图书的印前电子文本上加注结构标签,使线性文件转换为数据库文件,从而达到一次录入,两种产品的目的是可以实现的,但由于其构造软件系统在方法论上的错位则必然导致结果的简单化,其能够产生供图书馆进一步加以扩充的基本书目数据,满足图书馆能够把书借出去的初级要求,要完成图书馆深层揭示文献外部与内容特征的要求,还需依赖于基于形式化表达的本体论的知识组织模式。两者有效融合的契机应该有个颠倒,即用于ECIP自动编目的DC元数据标准扩充改造,以适应文献深层揭示的需要,这是有待进一步研究的问题。参考文献1张丽娟CNMARC存在的问题与ECIP计划的实施中国图书馆学报,2004(4)67692陈源蒸中文图书ECIP与自动编目手册北京北京图书馆出版社,20033潘太明等中国机读目录格式使用手册(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025员工试用期劳动合同范本AA
- 户外摆件租赁合同范本
- 房顶漏水装修合同范本
- 种植用工合同范本
- 酒店的购销合同范本
- 厂家授权合作合同范本
- 2025合同范本汇编大全
- 快递店员工合同范本
- 拍车定金合同范本
- 2025关于石油购销的合同范本
- 液压系统 基础知识
- 特灵RTAC控制系统
- GB/T 35770-2022合规管理体系要求及使用指南
- GB/T 3277-1991花纹钢板
- 社会组织规范化建设评价指标体系解读课件
- 英语剧本 小王子
- 民间信仰活动场所信息采集表
- UASB厌氧塔设计计算书
- 2009-2022历年江苏省镇江市丹阳市事业单位考试《综合知识和能力素质(会计审计类岗位)》真题含答案2022-2023上岸必备带详解版3
- 神华包头煤化工分公司2013年夏季水平衡测试报告
- 项目工作计划进度表Excel模板(推荐)
评论
0/150
提交评论