“calis高校学位论文全文数据库”项目参建馆本地系统需求方案_第1页
“calis高校学位论文全文数据库”项目参建馆本地系统需求方案_第2页
“calis高校学位论文全文数据库”项目参建馆本地系统需求方案_第3页
“calis高校学位论文全文数据库”项目参建馆本地系统需求方案_第4页
“calis高校学位论文全文数据库”项目参建馆本地系统需求方案_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“CALIS高校学位论文全文数据库”项目参 建 馆 本 地 系 统 需 求 方 案,主要内容:,子项目系统软件开发进展和设计原则CALIS学位论文子项目总体结构框架参建馆本地系统结构框架参建馆本地系统各功能模块介绍参建馆本地系统需要支持的接口存在的问题,子项目系统软件开发进展,2003年9月末举办第一次培训,参加学校约50所。到目前为止,约有35家已经运行“学位论文本地提交和发布系统”,绝大部分学校购买了成熟的商用软件;2004年2月末,CALIS管理中心对各个子项目承建单位进行了统一的技术培训,要求各子项目系统开发需要满足一定的技术标准和元数据标准;2004年34月,各商家根据新的需求重新完善各自的系统;因开发时间比较紧张,系统的有些功能(如统一认证、统一结算等)没有列入开发进度,本次培训中不能演示;,子项目系统软件开发进展,4月中旬,清华图书馆对本次会议需要演示的四种学位论文系统作了统一的安装测试,各家系统都有待于继续完善;5月6月初,希望各商家逐渐完善系统,各与会单位选择本地系统软件,争取6月初在本馆正式运行;6月,各商家增加新的功能模块(如认证、结算) ;CALIS和子项目中心将对系统涉及到的标准和接口做统一的测试;,子项目系统软件设计原则,遵循国际上通用的标准规范(如 OAI-PMH协议);遵循CALIS制定的标准规范(如CALIS-OID,METS);需遵循子项目组的规定;(如文件名命名规则,学位论文的核心表单配置等)平台无关性,提供多种平台供参建单位选择,各参建单位可根据本馆数字图书馆平台的现有状况,选择“学位论文提交和发布系统”;结合学位论文本身特点,实现系统的特殊功能。如学位论文DRM控制;,论文提交发布系统,参建馆本地系统,CALIS中心,应用集成接口(ODL),资源调度系统,子项目中心,OAI harvester,OAI-PMH,OAI接口,METS接口,集中的元数据库,METS harvester,Fetch接口,CALIS-OID本地解析,中心门户,CALIS中心解析器,统一认证,统一结算,子项目与参建馆数据结算,日志与统计,论文长期保存接口,日志与 统计,用户结算,用户认证,CALIS学位论文全文数据库项目总体结构框图:,计费子系统,日志与统计子系统,OAI接口,用户认证与管理子系统,METS接口,链接目标(CLRC接口),网站基本服务子系统,本地学位论文提交和发布子系统,本地CALIS-OID解析子系统,本地学位论文长期保存模块,参建馆本地系统结构框图:,标红的可考虑延后实现,在本次培训中不介绍,学 生,本地学位论文提交与发布子系统-1,标红的可考虑三期实现,提交模块(续1):,提交权限认证 不需要认证 需要认证(一般选择“姓名+学号”作为认证条件,认证信息可批 量导入,认证信息非明文传输或在传输中使用校验码) 提交表单 包括两部分:1) “核心表单”项目,建议系统将这些项目固化,管理员在配置表单时不得更改。 “核心表单”中项目的著录必须遵照学位论文描述性型元数据规范。核心表单中有固定取值的项目提供可配置的下拉菜单,例如学科、学位级别等。下拉菜单的值由项目组确定; 2)根据本校需要配置的项目。,提交模块(续1) :,提交的全文文件格式: 包括:论文全文格式选择:包括word97,word2000, word xp,PDF,ZIP (仅限于使用Latex的*.ctx和*.pdf文件压缩成的ZIP文件) 论文全文命名规范 “学校代码+学号+姓名+论文全文格式.扩展名”组合来确定文件名(每一段之间用下划线“_”相连)。 例如:211030_980021李明_97.doc 提交结果查询,审核模块(续1) :,记录处理: 按院系分配论文审核任务; 不合格信息通过自动发Email或web查询方式通告学生 ; 共性的不合格信息,系统可给出其列表提审核员选择; 不合格信息可由管理员配置; 审核员有修改论文元数据和全文的权限;记录统计: 按院系统计记录的处理状态(未处理、合格、不合格),审核员的工作量等,统计结果可作各种排序;,论文编目模块(续1) :,描述性元数据编目 核心表单项由学生提交,审核员审核, 主要是指增加馆藏号管理型元数据编目 主要是增加论文服务年限、服务范围和pdf文件大小 服务范围包括2级:校园网内、CALIS参建单位内 服务年限:2种不同服务范围有不同的服务年限 可批量加入, 或一条条加入 系统根据以上信息自动控制论文的发布范围和访问权限 pdf文件大小:要求系统自动生成,包括前16页和全文回溯历史数据的编目,文档标准化模块(续1) :,自动批量转换word到pdf文件;生成2个pdf文件,一个是全文,一个是前16页;完整的转换日志;全文pdf文件的加密;(不能进行复制、打印、拷贝等操作)PDF文件命名规范 Word在转换成pdf后,文件名中的“学校代码+学号+姓名+论文全文格式.扩展名”,论文全文格式部分去掉。前16页和全文文件名的区别是:前16页文件名是在全文文件名的”.”前面加16。例如:211030_980021李明_2000.doc转换成PDF后的文件名为: “211030_980021李明.pdf”(论文全文), “211030_980021李明16.pdf”(前16页全文)。,论文全文发布与检索模块(续1),检索:浏览:发布内容: 论文文摘等元数据信息、论文前16页以及PDF格式论文全文;系统可对论文全文的访问权限进行基于IP的控制。DRM控制: 如需离线阅读PDF文件,系统需要提供接口,支持PDF文件与机器的硬件信息绑定,以免非法传递、拷贝pdf文件,即离线阅读的用户只能在合法的机器上才能阅读全文。,其它功能(续1),数据备份: 支持数据库的备份和数据文件的备份;用户管理: 支持多种用户身份(学生、编目员、审核员、系统管理员 ),可按身份配置不同的权限;格式转换: 支持CCFC格式的数据导入;2)支持通过字段配置的MARC格式的数据导出。,OAI接口-2,子项目中心通过OAI harvester收割参建馆学位论文系统中的描述性元数据;因此,双方必须遵循OAI协议,提供OAI接口;,OAI协议介绍(续2),OAI协议,全称Open Archives Initiative Protocol for Metadata Harvesting;1999年由美国数字图书馆联盟(DLF)、网络信息联盟(CNF)等组织提出的一个应用框架;最初是为了解决电子期刊的预印本(pre-print)的 互操作和元数据收割(metadata harvesting)问题;2000年OAI协议的应用扩展到数字图书馆领域,目的是实现分散的、不同系统平台之间的元数据交换和共享,提高系统的互操作能力,OAI协议介绍(续2),遵循OAI协议的系统依据其任务的不同,分为两类: Data Provider:对来自服务提供者的request做出response,以 OAI要求的格式(XML)向服务提供者提供元数据 Service Provider:“收割”(harvest)元数据,并基于元数据提供 增值服务,Repository,Data Provider,Data Provider,Data Provider,Service Provider,user,OAI Verb,Request,Response,Repository,Repository,Record,OAI协议介绍(续2),OAI协议是建立在http协议基础上的应用协议,OAI的请求使用HTTP中的GET或POST方法 每个OAI请求都必须包括一个名字为verb= OAI方法名每个方法名有若干个参数,当使用多个参数时,用“&”隔开服务提供者可以使用OAI协议的“方法名”向数据提供者发出请求,按请求条件收割数据提供方的元数据OAI的响应格式是通用的XML编码,OAI支持的方法名(续2),OAI请求实例(续2),例如:请求/OAI- script? verb=GetRecord & identifier=oai: arXiv :hepth/9901001&metadataPrefix=oai_dc表示使用的OAI方法是GetRecord,要请求得到identifier是oai:arXiv:hepth/9901001的记录,记录的元数据格式是oai_dc OAI协议规定,遵循OAI的系统必须支持DC格式,是否支持其它元数据格式可以由系统自行决定,,参建馆OAI接口需满足(续2),记录的DATESTAMP要求精确到秒 ;要求RECORDSTATUS(操作状态)是完备的,created, 2-updated, 0-deleted;对学位论文,参建单位的仓储中不定义set ;支持resumptoken功能 ; 系统需要支持CALIS-ETD元数据格式;,参建馆OAI接口需满足(续2),OAI-identifier 命名规则: oai “-” LocalPrefix “/” MetaID,其中: LocalPrefix表示6位馆数字代码,同一学校不同校区如使用不同的仓储管理学位论文,在馆代码上需要加以区分,例如:北京大学的馆代码为211010A,北京大学医学院(原北京医科大学)的馆代码为:211010B MetaID “类型码+学号”(远程提交的论文) “学校代码+类型码+年份(4)月份(2)流水(6)”(回溯扫描的 论文,没有学号) 类型码:远程提交的论文类型码为D,回溯扫描的论文类型码为R 例如: oai:211030:D890767,参建馆OAI接口需满足(续2),参建馆本地元数据仓储唯一标识符的命名规则: scheme “:” namespace-identifier “:” local-identifier 其中:scheme指oai namespace-identifier指6位馆数字代码 local-identifier指etd 例如:清华大学学位论文仓储唯一标识符为: oai:211030:etd参建馆本地仓储的安全访问机制 基于IP地址以及帐号、密码控制,METS 接口-3,子项目中心通过METS harvester收割参建馆学位论文系统中的管理型元数据和论文前16页文件。*传输格式:METS标准(记录的描述型元数据、管理型元数据、前16页PDF文件的二进制文件流。)* 传输方案:MQ(Message Queue ) ,MQ可在多个不同的应用之间实现相互通信的一种异步传输模式,具有可靠的消息发送、异步的消息发送和传输安全等特点 * 接口要求:遵循CALIS数字对象交换协议规范,METS标准(续),METS是Metadata Encoding and Transmission Standard 的简称;由Digital Library Federation发起,目前由国会图书馆的 network development and MARC standards office负责维护;METS能够解决数字对象的编码、描述、管理、交换、保存等问题;,METS标准(续),学位论文作为一种数字对象,如何用METS来表达 复合数字对象:包含多于一个文件的数字对象都是复杂对象。 例如:一条完整的学位论文记录,包括前16页、全文、管理型元数据、描述型元数据。这构成了一个复杂的数字对象。简单数字对象:简单数字对象是指一个有完整意义的独立文件,它由对象元数据及对象文件组成。 例如:论文前24页是一个简单的数字对象,论文全文也是一个简单的数字对象 在实际应用中,根据需要使用简单的或复合的数字对象,METS标准(续),下面的一段代码即为一个METS文档的基本框架。 Header(创建者、创建与修改时间等) Descriptive MetaDdata Administrative MetaData File list(数字对象所包含的全部数字文件的信息,Flocat元素指向实际文件所在的位置。Fcontent元素可以封装XML文档或者二进制文件。 ) Structural Map(必备的部分,定义数字对象的内部结构 ) Behavior Section,METS可表达任意结构,METS支持多种元数据格式,METS标准(续),StructMap与fileSec链接:通过fptr元素的“FILEID”属性指向该div节点所对应的文件,METS标准(续),StructMap与描述性元数据的链接:通过StructMap.div的DMDID属性与描述性元数据dmdSec元素的ID属性的关联,,METS标准(续),学位论文METS包实例1,METS接口(续),参建馆本地系统需遵守CALIS数字对象交换协议规范,向以METS格式响应子项目中心的请求,向子项目中心提供前16页学位论文数字对象,传输方式采用MQ(消息队列)技术。,本地CALIS-OID解析系统-4,目的是通过CALIS-OID直接解析到其对应的论文全文;CALIS数字对象唯一标识符(CALIS-OID)解析体系分中心级解析器(设在CALIS)与参建馆级的子解析器两个层次;,中心解析器负责将具体的解析工作重定向到对应的参建馆解析器。参建馆解析器能实现CALIS-OID本地解析的功能,能够根据给定的与本地系统相关的CALIS-OID解析出所对应的数字对象的实际URL访问地址。,本地CALIS-OID解析系统(续4),本地CALIS-OID解析系统(续4),学位论文数字对象唯一标识符命名规范: urn:CALIS:馆代码或域名-CollectionName.CollectionName/ObjID.type.format 其中:urn小写 CALIS大写 馆数字代码:参照教委颁布的高等学校学校代码表 CollectionName:学位论文为ETD. ObjID: “类型码+学号”(远程提交的论文)“类型码+年份(4)月份(2)流水(6)”(回溯扫描的论文) 远程提交的论文类型码为D,回溯扫描的论文类型码为R。,本地CALIS-OID解析系统(续4),数字对象唯一标识符命名规范: urn:CALIS:馆代码或域名-CollectionName.CollectionName/ObjID.type.format 其中: Type: Format: 为PDF,本地CALIS-OID解析系统(续4),数字对象唯一标识符命名规范: 例如: 头24页urn:CALIS:211030-ETD/D02024.P.PDF 对应论文全文urn: CALIS:211030-ETD/ D 02024.T.PDF 复合数字对象的OIDurn: CALIS:211030-ETD/ D 02024 (包括描述性元数据、管理型元数据、前24页和全文),本地CALIS-OID解析系统(续4),参建馆本地系统需遵CALIS数字对象唯一标识符本地解析规范,实现CALIS-OID解析功能,CLRC接口-5,参建馆作为OPENURL的连接目标,目前需要本地系统的论文全文pdf文件与子项目中心建立关联。 参建馆作为连接目标,需要支持动态的CLRC接口。 要求本地系统遵守CALIS CLRC开放图书馆资源互连接口标准。,本地学位论文长期保存模块,要求本地的学位论文在正式发布后,需要生成METS包,用于本地学位论文的长期保存。METS包包括:记录的描述型元数据、记录的管理型元数据、论文的前16文件二进制流、论文全文的文件二进制流。 一条记录生成一个mets包,mets包的文件名是CALIS-OID(复合对象的OID)METS包在何时生成:可指定系统按时间段生成METS 或按CALIS-OID生成METS包,日志与统计子系统7,网站访问总数:按IP段统计网站的访问总数、合计检索次数:按IP段统计检索总次数、合计浏览方式点击论文次数:按IP段统计浏览方式点击论文的总次数、合计按学科浏览次数:IP段内按学科树的方式统计学科(到二级)的浏览总次数、合计全文下载次数:按照IP段统计全文下载总次数、合计编目员、审核员的工作量统计,网站基本服务子系统,即参建馆本地学位论文系统作为一个服务网站需要满足的遵守的规范和满足的功能,包括:基本功能;网站的基本服务规范;网站功能元素服务规范;,基本功能(续8):,及时发布本网站相关的新闻动态:按学科树状结构浏览; 通过邮件、留言版的形式得到用户反馈;网站本身的常见问题解答(Faq );列出相关站点的链接;检索本地学位论文网站中网页的内容;,网站的基本服务规范(续8) :,页面规范:各个界面要有导航条,并且要放在合适的位置;页面的布局设计应当标准、协调一致、直观,中间不要有颜色/字体变化;页面的修改日期,Webmaster,版权等都要写清楚;前后内容要一致,各个网站的术语也一致(如采用复杂检索就都用复杂检索,采用高级检索就都用高级检索);交互规范:如登录失败,给出可能登录失败的原因;发生检索结果太多、检索没有结果、检索式输入不对等问题,需要给出原因或相应的提示;输入的URL链接不上,应给出系统判断的结果,可能包括如下用语:URL地址输入错误,请重新输入,服务器无法连接,请稍后再试等;,网站的基本服务规范(续8) :,服务技术指标:浏览器的兼容:至少要兼容IE5.0以及Netscape4.7以上版本;规范化图像的格式、质量、大小:图像可以采用TIFF,JPEG,PNG,GIF格式,图象质量应至少达到72dpi以上;正文字符大小:文本字符的大小由用户浏览器决定,字符大小的规格应当可以根据浏览器和屏幕尺寸尽可能地最优化;,网站功能元素服务规范(续8) :,登录检索界面规范检索功能检索方式检索语言与技术检索结果咨询/反馈帮助,延后做的功能-9,统一认证统一结算,参建馆本地系统需要支持的接口:,存在的问题:,因开发时间短,各商家系统需要不同程度的完善;各商家系统需要统一到CALIS管理中心做接口测试;,学位论文元数据草案简介清华大学图书馆2004年4月10日,主要内容:,元数据草案简介规范设计工作流程扩展规则著录对象著录单位内容结构元素组成与核心表单的关系,元数据草案简介:,学位论文描述性元数据标准设计属于科技部科技基础性工作专项资金重大项目我国数字图书馆标准规范建设中专门数字对象描述元数据规范 子项目的一项研究内容;专门数字对象描述元数据规范 子项目由北大图书馆牵头、组织、负责,清华图书馆负责其学位论文元数据规范的制订工作;目前,该规范还处于修订阶段;,规范设计工作流程:,国内外相关元数据标准调研资源分析规范初步设计,手工著录检验征求意见完成学位论文元数据规范初稿,著录规则建立著录试验系统建立联机著录试验学位论文元数据规范修改,公开应用期,初步设计阶段,征求意见期,开放试验期,扩展规则,基于DC并在DC基础上扩展扩展原则包括横向扩展规则和纵向扩展规则 横向扩展规则主要是扩展元素,但新增加元素不能与已有元素有任何语义上的重复。纵向扩展规则主要指扩展修饰词,应遵循dumb-down(向上兼容)原则,增加的修饰词的语义应包含于相应的未限定元素中,不能超出被修饰词(元素)的语义。,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论