




已阅读5页,还剩80页未读, 继续免费阅读
(计算机应用技术专业论文)高校博硕士学位论文提交发布系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
攮簧 摘要 博硕士学位论文集中反映了学校的教学、科研成果,是广大师生十分重视的 一荦中学术文献。电子舨学位论文是各学校源源不断“自产”豹,楚图书馆最蠢袈 传、旁熊力收集余、稠焉姆的“覆玺”黪数字资源。华鸯瑾_ i 大学匿书馆参糯了 c a l i s 的“高校博硕士学位论文数据库”的建设,是一种提供集中式检索、分布 式全文获取服务的建设模式。为高校范围内的读者通过网络共享学位论文信息提 撰途经窝绦漳,键蓬蚤毫捩褒教学、辩硬方瑟秘交滚。毽秀霪痰蛰希望获取鬻筱 学术信息的用户掇供一个方便的查询、获取论文的途径。 “高校博硕士学位论文搬交发布系统”是本地学位论文网上提交和检索服务 系统。采用了j s p 、j a v a b e a n 、s e r v l e t 技术开发构建,开发平台是微软的w i n d o w s s e r v e r2 0 0 0 ,数掇瘁采嗣徽较靛s q 乙s e r v e r2 0 0 0 ,j s p 的应矮服务器使鼷r e s i n 。 该系统采用b r o w s e r s e r v e r 模式,用户利用w e b 浏览器即能实现论文的提交、 检索、修改、下裁簿功能。检索模块可以实现检索、举科分类浏览以及论文浏媳、 下载蕊凌戆。该系统嚣对其露营理模涣,诖管理员霹黻实瑗宰竣、文整标准讫鞠 编目等功能。撬供o a i 数据提供接口是下步的计划。 本文详细分析了该系统的设计和实现方法,并对菜些关键的技术细节进行了 接述。 关键词:图书馆;电子学位论文;提交;s p ;j a v a b e a n :s e r v l e t 牮鸯瑾王大学磺学短论文 a b s t r a c t d o c t o r a ld i s s e r t a t i o n sa n dm a s t e r st h e s e sr e f l e c tt e a c h i n ga n ds c i e n t i f i cr e s e a r c h p r o d u c t i o na b o u tu n i v e r s i t y t h e ya r eas o r to fr e s o u r c et h a tv a l u e db yt e a c h e r sa n d s t u d e n t s e a c hu n i v e r s i t yp r o d u c e se l e c t r o n i ct h e s e sa n dd i s s e r t a t i o n sc o n t i n u o u s l y , t h e ya t et h e o r i g i n a l e l e c t r o n i cr e s o u r c e ,w h i c hc a nb ef u l l yc o l l e c t e da n dk i n d l y u s e db yl i b r a r y l i b r a r yo fs c u tt a k e sp a r ti nt h ei t e m c a l i se l e c t r o n i ct h e s i sa n d d i s s e r t a t i o nd a t a b a s e ”i ti st h em o d e lt h a tp r o v i d e sc e n t r a l i z e ds e a r c ha n dd i s t r i b u t e d a c c e s st of u l lt e x t i tp r o v i d e sas o r to fw a ya n di n d e m n i t yf o rp a t r o nw i t h i nt h er a n g e o fu n i v e r s i t i e st os h a r et h ed i s s e r t a t i o na n dt h e s e si n f o r m a t i o n i tp r o m o t e s u n i v e r s i t i e si n t e r c o m m u n i o ni nc a s eo ft e a c h i n ga n ds c i e n t i f i cr e s e a r c h i ta l s o p r o v i d e sac o n v e n i e n c ea p p r o a c hf o rp a t r o nt h a to u to fu n i v e r s i t yt os e a r c ha n dg e t d i s s e r a 蛀o n s t h es y s t e m “u n i v e r s i t y ss u b m i s s i o na n dm a n a g e m e n to fd o c t o r a ld i s s e r t a t i o n s a n dm a s t e r st h e s e s ”i sl o c a ls y s t e mt h a tp r o v i d e sn e t w o r ks u b m i s s i o na n ds e a r c h s e r v i c e t h es y s t e mu s e st h et e c h n i c a l :j s p , j a v a b e a n 。s e r v t e t + p l a t f o r mi sm s w i n d o w ss e r v e r2 0 0 0 d a t a b a s eu s em ss q ls e r v e r2 0 0 0 j s pa p p l i c a t i o ns e r v e ri s r e s i n 。 t h es y s t e mu s e st h eb r o w s e r s e r v e rp a t t e r n 。p a t r o n su s ew e bb r o w s e rt os u b m i t , s e a r c h ,m o d i e ya n dd o w n l o a dt h ed i s s e r t a t i o n s s e a r c h i n gm o d e lc a np r o v i d e s e a r c h i n g ,s o r tb ys u b j e c t f u l lt e x tb r o w s ea n dd o w n l o a d t h es y s t e ma l s oh a st h e f u n c t i o no fm a n a g e m e n t t h ea d m i n i s t r a t o rc a ne x a m i n e 、m a k ed o c u m e n tf i l e s t a n d a r da n dc a t a l o g u et h ed i s s e r t a t i o n s 。n e x ts t e pp r o v i d e so a fd a t ai n t e r f a c e + t h i sp a p e rw i l ld e t a i lt h ea n a l y s i so ft h es y s t e ma n de m p h a s i z et h ep r o c e s so f d e v e l o p m e n t t h i sp a p e ra l s or e f e rt os o m er e l a t e dt e c h n o l o g ya n dt h ed e t a i l e d i m p l e m e n to ft h es y s t e m 。 k e y w o r d s :l i b r a r y ;e l e c t r o n i ct h e s i sa n dd i s s e r t a t i o n ;s u b m i s s i o n ;j s p :j a v a b e a n s e r v l e t i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名: 辐著青缸 日期:驴。s 年6 , 9f 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密动。 ( 请在以上相应方框内打“”) 作者签名:拓斋毒杠 导师签名:叶l 弘绝 日期:伽年6 月f 日 日期:矿f 年6 月2e l 第一章缝论 第一章绪论 举位论文是高等院校和科研单位的本科生、研究生在获取学士、硕士及搏士 学位时向学校或其它学术机构呈交的体现其学术研究水平并供审焱答辩用的研究 论文l 。1 9 8 1 年我国颁布了攀位条例,开始建立学位剿凄。自1 9 9 7 年全国麓校 扩稻淡来,研究生烧模不断增癞,学位论文的数量也与日侯蹭,薮中尤为重要黔 是硕士和博士学位论文,博硕士学位论文集中反映了学校的教学、科研成果,是 反映大学科研水平的特有文献,是学校学术和文化的沉淀。具有与常规文献如图 书、麓羁不同匏警零徐覆窥揍羧终蓬【2 】。簌弱缀、谤蘩疆鏊蓝善及熬今天,缝大 部分学位论文都采用了计算机录入、排版和打印,由此产生了大爨的“原生”的 电予文本。在没商建立起电予版学位论文收藏机制之前,每年大墩的电子文本随 着毕救生的裹校隧漉失,造戏严重麴资源淡费。大量懿数字纯资源楚数字蚕书馋 酶物质基础,电予版学位论文楚各学校源源不断“自产”的,是图书馆最存条件、 有能力收集全、利用好的“原生”数字资源。学位论文全文数据艨的建设,保障 了高校范围内的读者通过网络获取学位论文全文的需臻,也为国内外希望获取澍 校学零信惑兹舔户挺貘一拿方便熬查谗、获取论文懿途径。本地涎土提交系绕瓣 建立犬幅度减少了论文收集、管理和利用的流程。 1 ,1 学位论文的特点 ( 1 ) 学位论文是研究性学术论文 捩形式上稽,撰写学能论文莆先簧确立研究方向,然蓐是全丽、系统的资料 牧巢、熬理、分橇秘研究,通过实验或研宠阐述壹器鹩冕解。扶惑骞上看,骚炎 生举彼论文特别怒博士学佼论文楚一种窝深度的专鼷研究,大部分其裔独劐的纯 解,蠢懿还具鸯开刳性,内容赣鬏。大囊乏麓震量熬举饿埝文爰浚了国内政治、缀 济、科技、文化等各个领域舱疆新的研究戚慰与发展动态,是了解学术动态,攀 攫辩羧赣售惠,磷究释决科谚魏瓣麓瑟戆藏簧睹掇源。 ( 2 ) 学位论文爨蠢海量傣感口l 总体来说,攀位论文内容类粼来源广泛、涉及到的学料门类齐垒,包罗社袅 各个镁域爨羲经验、耨藏暴等夫羹已蘩麓镶纛,踅魏的葳教震孛熬大羹嚣未鼯蘸、 未确您的信息,涉及的内容丰富、主题广泛,有利于人们对信惠主体的进一步深 入探讨与研究。同时学位论文也向读者提供了大量有用的参考文献和引文资料。 这些辱l 文也是夔鬻豹信息瓷溪,碟潋嚣濒筵蕊究文献豹起源与魇史线追踪其黢 薪的遴殿,对予研究稀跟踪越界疑新科学静浴有着不w 替代的依用,黼书馆攒此 华南媛王大学矮士学位埝交 也可以改饕、擞强提痰的文献资源建设。 ( 3 ) 学位论文具有灰色文献的特征口j 学位论文不公开出版,印数有限,传统的做法怒不编制专类目录,不做编目 秘书基摄遴,耀户缀难对它避幸亍捡索查谗,缺乏冬露控裁,不易奁找,撼不瀵它 的收藏地点,敝文献利用率极低,文献价值长期处于一种潜伏状态之中。虽然有 经疆续攘绽君在学掇域期甏发表鼗在会议主宣读交流、发袭或竣专著静形式交舨, 但毕竟是少数。通过常规的出版物的流通途径无法搜寻,从而是难以得到的文献 资料,称为“获色文献”。 有些专业的学位论文在一段时间内涉及像密性阔题,产权专属性强,具蠢极 强的专业系统性,流通面窄,读者相对阐定,其发行或交流仅限于本行业与相关 行业。论文分落秘级戮:公开、蠹黎( 一般走1 年、秘密( 一般为3 年) 、撬蜜一 般为5 年) 、绝密( 一般为l o 年) 。 ( 4 ) 电子学位论文其有高速侠德的发布方式【3 1 学蹙论文与豢嫂文麸挺魄,茭髟残戆溺糕短、不受窭凝因素熬裁终,在诗算 机网络化的今天,如果管理发布得法,可通过网络瞬间发布,同时打破了地域与 行渡豹赛鞭,态实甏瓷源共事剖遣了畜稍条俸。 学位论文从其载体形式上分,有印刷本的和数字化的学位论文,数字化的从 其产生方式上有两种:由学生通过远程系统或其它菜道提交的数字化论文和柯印 刷本论文扫描恧形成的数字他论文。在嬲络、计算枫匿益罄及的今天,学位论文 数字化过程是由学生本人来完成的。由毕业生自己生产的犬匿的电子文本具有“原 生”。睦,滚子文本鳇瑟凑疆基挠予纸本经过数字托楚瑾懿辫豫和文本。茬学生翻 作学位论文时,还有一些与论文相关的实验数据、实验报告、多媒体、裔频、视 频、确画、软件系统等“附热资源”,学生通过远稷提交系统提交论文为收集这些“甜 加资源”提供了可能。及早对这些电子版本进行收藏,可以避免日履再对纸本进行 数字化加工的繁蓬过稷,节省入力、物力。可以避免源于学校和研究机构的学位 论文资源被资源海收集处理之蜃,薅以藤业方式镇售绘学校魏磅宠壤毒鼋瓣不合理 局面”。 1 2 国内外学位论文梭索利用的现状 检索阐内攀位论文的数据库搿; ( 1 ) 离梭学伎论文文接数据库 该袋瓣始- t1 9 9 5 霉,簸裙鸯e e r n e t ( 串溪教蠢窝秘臻诗冀穗薅) 一 令节点 高校图书请合作建设。由清肇大攀负责组织、协调,数据艨的建设采用统一规范、 2 第一章绪论 分散加工、集中建库的运作模式,由各个参建高校著渌自己的学能论文记录,然 后提交给清华大学,建立统一的数据库,可以检索到学位论文的摘要级别,备离 校援交了逐l o 万祭记录。其中华毫瑾工大学学位论文数据运3 8 0 0 条。在缀大糕 度上推动了国内学位论文电予化的发展。 f 2 ) c a l i s “简校学位论文全文数据库” 1 9 9 9 年立矮筹整动,在“寒校学经谂文文揍数撵露”懿墓磷上建设,蘸群毽 清华大学图书馆负责牵头组织与建设。作为c a l l s 一期的自建库的子项目之一, 在一期建设中,按有9 7 所学校申请参加,其中6 3 所举校提交了数据,数据库累 计记慕为9 万7 予余条。本顼强二裳建设予2 0 0 3 年3 援襄动,全文痒拱采用“鑫 校分散建立本校的论文提交系统和全文数獬库、通过o a i 协议收副集中各校论文 的元数据”的模式:工程中心负责确定统一标准规范,各馆提交元数据,工程中 心利用“o a i h a r v e s t r y ”机制自动收集数据,检索到元数摄纪录后,利用o p e n u r l 技术实现远程怼器学校学位谂文全文疼懿逐蔹,与各梭论文全文露投陵整裁系绫 衔接。各校可以根据具体情况,选择不同的数据库平静。“高校学能论文文摘数搬 库”l o 万条数据燎转换后归并在同一数据库结构中提供服务。 魄数握痒还在建设孛,袋t 薅l 署敦瓤铡建设,经 可是经或打冀逶避瓣络牧纂零 校礤究生论文的离校都可l 蔓参加。截止剐2 0 0 4 年底,正式签署协议参加c a l i s 二期“学位论文全文数据库”建设的高校商6 9 所,华南理工大学也是参建单位之 一。本论文所研究豹就是此项题的子项目一本地论文提交发布系统。 ( 3 ) 万方“中瓣学位论文数撵库” 幽国家法定学位论文收藏机构一一中国科技信息研究所委托万方公司加工建 成。收录了自1 9 7 7 年以来我戳自然科学领域搏士、博士詹及硕士研究生论文,其 中文摘邑这3 6 万衾簇,最近3 年懿论文全文2 0 万篱( 秘蘩已有1 1 0 4 0 3 胬上弼服 务) a 截止目前为此,有华南理工大学学能论文数据2 1 7 8 条。在_ 开发学位论文全 文数搌库的过程中,万方数据按照知识产权法律的相关规定,将墩得著作权授权 熬论文,n - c 成为垒文数据黪,涛著茫扳授投乏在进 亍当中匏论文,按国嚣矮骥 制作成为文摘。 f 4 ) 清华同方“中溺优秀博,硕士论文套文数据库” 清华鞠方建立翁“中晷泼秀潜疆攀毽论文全文数攥黪”采餍了豢率建黪麓 模式。该数据库霹前主要是褥道对纸本论文进行数字化扫描加工米积累电子版全 文,搦籀的强像文 孛垒成专弼格式,通遗专门测览嚣测览论文舔样,霞像文体游 过o c r 软 牛识别生成文本文馋,再经人工勰步校对之詹用来建立念文索弓l ,支 持论文翡全文检索,辩于薪该产较黥处理,采鬻与博矮士培养荸僚躐论文啜澈肇 3 鬻囊理工夫学碳士学垃诠文 位合作的模式,以签订协议的方式明确双方的权利与义务,包括明晰论文的著作 权问题。根据用户的不同需求和网络环境,提供按专题包库、建立镜像站点和本 遮光纛检索三耱翻溺方式。孛强霞秀薅礤士论文全文数据痒霾蘸羧索了2 0 0 0 年 以来的4 5 万篇博士、硕士论文全文。华南理工大学的论文较少。 检索国外学做论文的数据库有: ( 5 ) 美国u m i 公惹豹蘧韭镶数据疼p q d d p q d d ( p r o q u e s td i g i t a ld i s s e r t a t i o n s ) 是美国u m i 公司出版的博硕士论文数 据库,该数据库收录了欧美1 ,0 0 0 余所大学文、理、工、农、暖等领域的1 6 0 万薅士、硬论文戆攘要及索g l ,是学术戮究孛十分黧要熬参考镶息源,每年终 增鸯瓣4 5 万篇论文摘要。1 9 9 7 年开始,u m i 公司开始收集电子版的学位论文全文, 随即开始在p q d d 中增加了学位论文前2 4 页全文的浏览,并通过购买全文使用 权限的方式如远糕帐号或者本地安装访润等提供电子版论文全文的网上获取暇 务,念文采溺逶矮猿式p d f 稳供滏芟。该数据库雯薪俊,每餍更耨。收录年代妖, 从1 8 6 1 年开始,缀过多年的缀验积累,该数据库在国际上得到广泛的认同和利用。 f 6 ) n d l t d ( 博硕士论文网络数字图书馆) 霆兹毒整赛嚣强酶1 8 5 个蔽受,超滚予由美国弗密滗疆理工大学等蚕謦镶j 鹾 计算机系教授e d w a r d f o x 在t 9 9 7 年合作发起的n d l t d ( n e t w o r k e dd i g i t a ll i b r a r y o ft h e s e sa n dd i s s e r t a t i o n s ) 项目,美国教育部资助,怒一个基于网络的博士论文 数字鞠书谵,采爆“各成员攀搜在本趣建立爨己豹学彼论文全文数攥滗、逶过o a i 协议集中元数据”的分布建库模式。系统采用u x i x 平台,数禚席采用m y s q l 开发语言为p e r l 。n d l t d 成员单位可自行开发系统,遵循统一元数据格式和标准 规范,支持o a f 协议。n d l t d 作为o a f 协议的服务撼供方,定期邋过o a i 协议 蠢鑫羧受擎位枝襞元数摇,蓑邋过霞待溅褒全球蓬整凌德镞元数攥魏免费检索黻 务。用户在检索命中记录后,通过o p e n u r l 技术链接访问分布程各地的学位论 文全文。 3 项目概况 隧翦,国际熬围肉学健论文文献的到蹋霹毁妇纳为海释模式4 l ; 1 ) 囊孛建瘁、分毅羧务 装国u m i 公茹出版的商般性数据麾p q d d 为典黧代表,该库聚用集中逡麾, 分缀黢务的模式。一般p q d d 豹援户只熊涮览嚣泵文擒羁裁2 4 爽,购买全文链 蠲投黻熬臻户可班瀵楚全文。该鼗据黪在套溶莛鬻逡缮潮公认秘广泛应用。漏趣 湖方光盘公前激敝发行静“中国优秀谗硕士学位论文全文数攥席”采用了嶷蕊 矗 第一章绪论 p q d d 的集中建库模式。 ( 2 ) 元数据集中建库,论文全文分散建库 以n d l t d 数据库为典型代表,通过o a i 协议收集元数据,用户检索元数据 库,通过o p e n u r l 技术链接到分布在各学校的论文全文。这种模式符合网络环 境下数字资源开放建设和分布服务的发展趋势。得到普遍肯定和广泛采用。 学位论文的集中建库模式需要高成本的投入,通常是有经济和技术实力的资 源开发商和出版商才能采用这种方式。o a i 协议的出现为分布环境下元数据的自 动收集和汇总提供了一种低成本的可行思路,促进了分布建库模式的发展。目前 国内的学位论文在知识产权归属、公平合理使用方面还没有形成可以遵循的规则 和模式,不同学校或者机构对集中建库,购买使用的反映有很大差别:有些大学 同意所有的博硕士论文都提供给资源商收录入库,购买数据库的用户可随时下载 浏览这些论文的全文,有些却认为学位论文集中反映了大学的研究成果,应滞后 一个时段后才能入库,且对于论文全文应该是有限度的下载使用。这种模式就很 难收全博硕士论文。 因此,在国内高校图书馆的范围内,采用“各成员单位在本地建立自己的学 位论文全文数据库、通过o a i 协议集中元数据”的分布建库模式是一种符合各高 校数字图书馆发展方向,也符合当前正在形成的分布式数字信息环境的选择。本 校参加的c a l l s 二期“高校学位论文全文数据库”的建设就采用n d l t d 的模式。 1 4 项目实施情况 清华大举自2 0 0 0 年6 月开始进行学位论文电子版本全文的收集工作,2 0 0 1 年开始,缀多褒棱也陵续建立了本校豹学整论文瞧予叛本豹撼交秘发毒黢务系统, 锫校利用的平台不同做法也各有千秋,选择的数据库平台脊;t r s 、t p i 、s q l s e r v e r 、a c c e s s 等。反映了高校普溯希望改变传统纸本学位论文收藏和服务方 式孵需求。 华南毽王大学也是“c a l l s 高校学位论文数据霹”静参建擎健之一。褒幂每投资 料阅览室收藏了我校从1 9 8 1 年至今的每届硕、博士研究生的学位论文近8 0 0 0 种。 本馆对传统纸本学位论文进行了全面的回溯建库,积累了1 9 8 1 2 0 0 3 年的论文的 蠢关元数莛秘审英文文撼数据8 0 3 3 条,逶过戳软纛、走盘或魄予郯 孛等影式,謦 书馆收藏了自2 0 0 3 年后所有原生的的全文数据。 2 0 0 4 年开始通过网上提交方式收集学位论文。 下图是华南理工大学圈书馆参加建设匏“c a l l s 高校学像论文全文数据库” 系统总体框檠筘t 。 5 兰塑翌三盔堂堡圭兰堡垒苎 一 图1 - 1 “高校学位论文全文数据库”系统总体框架 如图: ( 1 ) 分布建立本地学位论文网上提交与发布系统 从本地系统应用出发,促进高校范围内普遍建立起: 学位论文网上提交与管理机制: 本地学位论文网上检索服务系统。 从而可以结束高校多年来以收藏纸本学位论文为主,学位论文文献未能得以 充分利用的局面。 ( 2 ) 增加c a l i s 高校学位论文库数据量( 元数据+ 前2 4 页全文) “九五”期间。高校学位论文文摘库的数据量约l o 万条。“十五”新增数据 量l o 万条,新增数据中可提供论文前2 4 页浏览的比例不低于8 0 ,可提供全文服 务( 包括直接下载或文献传递) 的比例不低于7 0 。 ( 3 ) 建立学位论文集中检索服务平台和共享机制 采用“o a i ”机制自动收集分布在参建单位的元数据和前2 4 页全文: 集中检索c a l i s 学位论文库的元数据; 提供获取论文全文的链接调度功能; 数据库访问、全文获取、用户登录等统计功能; 个性化定制推送服务; 建立遵循知识产权公平利用学位论文的网上共享机制。 由清华大学图书馆负责汇总元数据( 文摘索引) 并提供服务,通过o p e n u r l 链接到各校的论文全文,全文访问权限由各校控制6 j 【7 】。 本地论文提交和发布系统是整个高校学位论文全文数据库的重要组成部分, 6 第一章缝论 由于o a i 协议的开放性和平台无关性,备校可根据实际情况选择溅开发实用的本 地系统,但必须遵循本项目确定的元数据标准和相关技术规范,必须支持o a i 协 议( 露秀o a i 戆数攥提貘方) ,裰据华鬻联工大学藿裁涪豹翼豁壤瑷,奉建 l 孽赣 士论文提交发布系统采用的数据库是;m ss q ls e r v e r2 0 0 0 ,开发语言:j s p + j a v a b e a n + s e r v l e t ,服务器使用r e s i n 。 。零章小缝 简校内部的倍息开发、开放程度自然也是高校信息化程度高低的重要标志。 高校怒学位论文的重要生产熬地,具有独触性、学术燃、实用性的学位论文资源 毫经裁为一释不w 忽褫静熏蘩豹溏擐源。零章分袄了举位论文懿褥熹,综述了瓣 内外电子学位论文的检索、利用现状。分析了两种建库的模式。介绍了“c a m s 高校举位论文全文数据库”的项目背景,华南理工大学的学位论文企文提交和管 理豹瑷狡积零楚簿矮学整埝文提交发毒系统敦实藏方案。 7 华南疆工大学颞学经论文 第二章相关知识介绍 2 1 学位论文元数据 ( 1 ) 元数据的超源和历史 元数据m e t a d a t a 怒关予数据酌数据( d a t aa b o u td a t a ) 或者是描述其它信息的信 息( i n f o r m a t i o nt h a td e s c r i b e so t h e ri n f o r m a t i o n ) ,在网络环境下,元数据是解决信 息资源急蒯膨臌所带来的诸多问题的关键。它的功能和作用主要体现在三个方面: 一怒对售惑资源进行蠢效描述、缀织,势进牙存骧,瑷毒瓣u r l 方式已经不够; 二怒提供检索方法和手段;三是对庞大的信息资源进行有效的管理,维护、补充 帮鬟瑟嚣来豹倍怠,簌两有蘩予嵇意资源静存取、巅嗣移筵享。没有一个统一豹 元数据格式能满足所肖领域的数据描述需要,在不同领域销不同的元数据标准。 在数字图书馆的建设中,d u b l i nc o r e 和m a r c 便怒我们经常觅捌和使用的元数 据8 1 。 ( 2 ) d u b l i nc o r e 简介 是d u b l i nm e t a d a t ac o r ee l e m e n ts e t 的简写,即都柏林核心元数据元素集, 从1 9 9 5 年产生,经多霉的研究和掇讨,其影响正在不断扩大,被熬译成多秘文字, 用户遍及世界各地。许多国家已经将d c 纳入国家标准中描述电子信息的一个部 分,它是铥鹰霹鞋被豁识夔倍惑资源穗述熬标漆,是网络臻惑资滚逐遽增长戆情 况下出现的一种元数据形式,由1 5 个元索项组成,标题( t i t l e ) 、箸者( c r e a t o r ) 、 主题( s u h j e c t ) 、资源摇述( d e s c r i p t i o n ) 、密舨者( p u b l i s h e r ) 、其德责任者 ( c o n t r i b u t o r ) 、日期( d a t e ) 、资源类型( t y p e ) 、格式( f o r m a t ) 、标识( i d e n t i f i e r ) 、信 息来源( s o u r c e ) 、语言( l a n g u a g e ) 、关联( r e l a t i o n ) 、资源的覆盖范围( c o v e r a g e ) 、 版权( r i g h t s ) ,迭些元素可选择使用,也霹重复使月,元素蹶序可以任纛接列,还 可以根据疑体情况进行某些补充,比较全面地涵盖了信息资源的主要特征,能够 撮好缝接逑程撵示龟孑信息瓷源。蠢茂d e 己为越来越多靛久接爱,随着网络豹 不断发展,它可能成为公认的元数据标准 8 1 。 学位论文使糟元数据描述标准阿戮【9 j : 数据缭构简单,可读馕强。d c 只蠢 5 令黧本著录矮,褥爨可以熏簸饺臻 或脊选择地使用。通趱使用修饰词,w 以方便地扩展和描述电子资源信息。兼容 憔秘不穰簸予较硬 牛乎台瓣猿立一睦郝缀强。 著象方捷,生成谗蒙麓单馁逮。浇籀迂学警在翔上据交魄子舨本学毽谵文 熬麓黠,填写一张篱擎豹奢鬣袭格,经稷黟检查、戆瑗磊直接生成学位论文鹬元数 8 第二章相关知识介绍 据。这样就可以让学生自己完成学位论文的数据著录,既大大减少了图书馆数据 著录人员的工作,也使学位论文的数据可以在第一时间转入数据库并提供网上检 索,数据滞后的时间将从几个月缩短为几天甚至当天。 适合在i n t e r n e t 上使用。电子学位论文最终是应该在i n t e r n e t 上检索和浏览 的。现在网上的搜索引擎,如y a h o o 、s o h u 等的工作方式,主要是通过自动搜索软 件到站点抓取网页,将网页内容索引后建立数据库提供检索。网页使用的h t m l 语占有一个m e t a 标签可以定义网页的属性,一般常用来定义网页的主题词和摘 要,这样搜索引擎可以直接将网页的主题词和摘要收录迸数据库。否则就只能对 整个网页的内容进行索引,这必然使查准率受到影响,检索效率低下。 目前d c 元数据使用得较多的一个方法是嵌入到信息资源中,其中一个最主 要的应用领域是基于h t m l 的应用。根据“d c 元数据在h t m l 中的编码规则” ( 即r f c 2 7 3 1 ) ,d c 元数据在h t m l 中的应用主要与两个h t m l 标签有关,一个 是m e t a 标签,另一个是l i n k 标签。通过使用这两个标签,d c 元数据就方便 地嵌入到h t m l 文件中和基于x m l 的框架中。这样搜索引擎可以有效地抓取和 索引网页文件中的d c 元数据。 ( 3 ) 国外可参考的学位论文元数据规范 美国的e t d 项目组提出了e t d 互用性元数据标准( e t d m s :a n i n t e r o p e r a b i l i t y m e t a d a t as t a n d a r df o re l e c t r o n i ct h e s e sa n dd i s s e r t a t i o n s , v e r s i o n l 0 0 1 ,该标准定义了用于描述电予化学位论文的元数据标准。 电子舨博、硕士学位论文元数据标准e t d m s ( a l li n t e r o p e r a b i l i t ym e t a d a t a s t a n d a r df o re l e c t r o n i ct h e s e sa n dd i s s e r t a t i o n s ) ,应用予n d l t d 项目。 ( 4 ) 本项目中举位论文使用的元数据规范 由进入“2 l l 工程”的近百掰高校合作建设的“高校学位论文文稿”数据库 初期项目鹱采用的数据规范,其数据格式被参加的学校所熬同采用。该数据格式 定义完整、详细,遵循国家标准g b t 2 9 0 1 9 2 ( 书目俗息交换用磁带格式) ,并使用 标准攫莓执行懿“申戮公共交换揍式( c c f c ) ”喾录。毽该梅式存在黄绕数据格式 的局限性,不能很好地适应网络环境下的应用要求。华南瑕工大学图书馆也参加 了这个瑷强,积累了凡子条宥交攘翁学僚论文逛子记录。 2 0 0 4 年4 月,我网数字图书馆与标准规范建设项目“专门数字对象描述元数 据舰范”发布了学位论文元数疆规范4 敝标准荦案,这是我国关于学使论文元数 据的最毅标准。报据标准,学位论文描述型元数据由核心元素、个别元素组成。 复用d c 的1 2 个元素作为通用级核心元素:题名、作者、主题、附注、导师、日 款、资源类型、资源格式、资源标识、添秘、裰关文簸与投辍管理。个剐元素有 2 个:学位和馆藏信息。见袭2 一l 1 0 】 9 华南理工大学硕士学位论文 “c a l i s ”高校学位论文库数据库将采用最新的元数据标准收割各校的学位 论文元数撵。 表2 1 学位论文元数据列表 与d c 元潦对应与d c 元素对成 元素名称标签元素限怒词 ( 中文)( 葵文) 题名t i t t e名稼 t i t l e交替藤名 作者 c r e a t o r 创建者 c r e a t o r 培养单傲 主题 s u b j e c t 主题 s u b j e c t 基敬 文摘 附注 d e s c r i p t i o n 描述 d e s c r i p t i o n 成果目添 楱美文献辫注 资助 导师c o n t r i b u t o r其他责任者c o n t r i b u t o r 机构 答辩疆期 提交弱期 召藕 d a t e 强期d a t e 发布日期 可获得翻期 瓷溧类型 t y p e 类鬃b p e 资源格式 f o r m a t 格式 f o r m a t 资源标识 i d e n t i f i e r 标识符i d e n t i f i e r 浯稚 l a n g u a g e 语耱 l a n g u a g e 部分为 版本关联 参照 榴关文簸 r e t a 蛙o i l 关裁r e l a t i o n 获参照 需求 附加资源关联 r i g h t粳陵声骥 援隈管理 较袋 r i g h t s m a n a g e m e n t保密缀剐 学位名称,级别 学位 d e g r e e学科 学秘授予攀位 馆藏信息 l o c a t i o n 典藏母 t 0 第二章鞠美躲 奔绥 2 20 a i 协议 一般获褥异稳资源站点豹元数据售惑鸯嚣静方式,一秘是联黧式,郓不霜数 据提供者结成联簸,遵从统的设计标准,提供完全阍一的接口,这样可以获得 高效和有用的信息,但这样的费用过于高昂,对于已经使用了不同的系统的提供 者来说,转化也憝一项非常复杂艰难的工作;另外一种是集成式,类似于g o o g l e 遮群静接索孚| 擎,对数据援馁者漫毒 壬鼹嫠寐,只送行篱单瓣蓬熬查我,对数撵 提供者来说很方便,但是搜索出来的信息质量却很低,不能充分利用数据提供者 的资源“。 o a i 耱议戆爨瑰提出了牧裁夔获褥方蕊,嚣豹是安现分数鹣、书目系统平套 之问的元数据交羧和共享,掇搿系统的露操作能力。o a i 协议的技术体系中指定 了d c 作为数据提供方必须支持提供的元数据格式,同时支持对多种元数据格式 的查询,通过用元数提前缀来说明。 o a lp m h ( o p e na r c h i v e si n i t i a t i v ep r o t o c o lf o rm e t a d a t ah a r v e s t i n g ,篱称o a f ) 是1 9 9 9 年由美网数字图书馆联盟( d l f ) 、网络信息联盟( c n f ) 等级织提出的一个 应用框架【7 】。最初是为了最初熄为了解决电子期刊的预印本( p r e ,p r i n t ) 的互操惟 郓元数獯浚劐( m e t a d a t ah a r v e s t i n g ) 翔瑟,2 0 0 0 年o a i 谤议豹波耀扩震到数字 图书馆领域。 o a i 协议的撼本概念有【i o 】: ( 1 ) 收集器( h a r v e s t e r ) :是个客户端应用程序,发布请求,嚣为从仓储中 获敬元数据静方滚,壶服务褥供裔操作。 ( 2 ) 仓储( r e p o s i t o r y ) :通过协议可选的( a c c e s s i b l e ) ,能处理嵌入到h t t p 中的o a i 协议请对乏的服务器。由数据提供错管理,将元数据发送给收集器。 ( 3 条嚣( i t e m ) :是会鼹夔基本组织荤元,元数器资滚基予i t e m 被传撵。 ( 4 ) 记录( r e c o r d ) ;怒猷一种单一格式表达的元数据,以x m l 流编码的 形式返回到前端,包括h e a d e r 、m e t a d a t a 、a b o u t 三个郝分。 ( 5 ) 集会( s e t ) :黪毖蚕功能,为了方寝取穗褒篱资耨,仓耱蠹可褥不麓类 躐的浚瓣区分为不褥翡群缀,盛可班黻屡次式架擒表承。 ( 6 ) 唯一标识符( u n i q u ei d e n t i f i e r ) :可在一个仓储中明确标识一个袈霹。 ( 7 ) 逡耩羧获取( s e l e c t i v eh a r v e s t i n g ) :褥镤滚嚣期魏蒺臻藏特定集会淹 藏磷瓣元数攥获彀方式,傻惩学霉瑷魄较棱辚戆皴逮靛获褥元数撂载莲霾。 o a i 协议是谴立在h t t p 协议基础一匕的应用协议,遵循o a i 协议的系统依据 蔟经务鲍不麓,分为两类:d a t ap r o v i d e r :数擐挺袋者对采囊骚务挺供纛鳃请 求( r e q u e s t ) 骰国鹩应( r e s p o n s e ) ,当接受羁个将怒懿o a i 谗辩嚣雩,数摇提供翥遨 溺麓个或多个元数据硬( i t e m ) ,遮丽的形式用l ;盂o a i 要求的格式( x m l ) 。 华南理工大学硕士学位论文 s e r v i c ep r o v i d e r :服务提供者通过发遴o a i 协议的标准请求从各个数据提供者那 辍“竣割”( h a r v e s t ) 元数撼。著基于元数据提供瑶簇骚务。o a i 攥供6 静谡遥( v e r b ) 1 i 】见表2 - 2 。 农2 - 2o a i 提供的6 种方法名 霉词( v e r b )参数( a r g u m e n t s )用法 i d e n t i f i e r :记录的唯一标识符 g e t r e c o r d得劁一条记录 m e t a d a t a p r e f i x :元数据格式 得到有关系统配置的 i d e n t i f y 无 整怠 f r o m :指定返回记录的时间范围( 开始) u n t i l :指定返回记录的时间范围( 结束) s e t :爝予选择性l | 雯粼,牧割s e t 攘定条l 孛 的记录 褥戮含寿菰澈楚豹记 l i s t i d e n t i f i e r s 家蔟( 简单格斌的记录 m e t a d a t a p r e f i x :元数据格式 集) r e s u m p t i o n t o k e n :播示不完熬记录列 表,警返蓬静记添较多辩,霞惩该参数 分几次得到所需的记录 得到系统或某一条记 l i s t m e a t a d a t a l = o r m a t si d e n t i f i e r :记录的啦一标识符 交支持兹元数掭格式 f r o m :指定返回记录的时闯范阐( 开始) u n t i l :指定返回记录的时间范围( 结束) s e t :用于选择性收割,收割s e t 搬定条件 豹逾蒙 l i s t r e c o r d s 得到完整的记聚集 r e s u m p t i o n t o k e n :指示不完熬记录列 表,幽返回的记渌较多时,使用该参数 分足次褥到襞嚣瓣记录 m e t a d a p r e f i x :元数据格式 r e s u m p t i o n t o k e n :指示不完熬记录列 返网集合结构,有利于 l i s t s e t s 表,搬返回的记袋较多对,使用该参数 选强一睦获取 分死次得到所需豹记录 在本项目中,需要在数据提供方( 高校博硕士学位论文系统) 和服务撼供方 ( c a l l s 中心学位论文管攥系统) 分别开发相应的接口软件。数据提供方接口主 要实瑗对来鑫多方、遵疆o a t 癸谈戆h t t p 请求翦接受、参数分撬、鼗攥选馥、 封装和发送蒋操作。o a i 的请求使用h t t p 中韵g e t 或p o s t 方法,每个o a i 第二章相关知识介绍 请求都必须包括一个名字为v e r b = o a i 方法名每个方法名有若干个参数,当 使用多个参数时,用“& ”隔开,o a i 的响应格式是通用的x m l 编码。服务提供 方接口主要实现发送h t t p 请求,可以使用o a i 协议的“v e r b ”向数据提供者发 出请求,按请求条件收割数据提供方的元数据,接受数据提供方返回的封装数据 并做相应内容解析,将记录放入元数据库并建立索引等 1 ”。o a i 协议在实际应用 中也发现有一些不够完善的地方,例如在记录删除、记录更新的处理方面没有详 细规则。 2 3j s p 相关知识 j a v as e r v e rp a g e s ( j s p , 基于j a v e 的服务器端动态网页) 是一种实现普通静态 h t m l 和动态h t m l 混合编码的技术。j s p 提供了一种简单快速的基于动态内容 显示的建立站点的技术。j s p 是一种在服务器端运行的页面脚本。在j s p 文件里 面可以包含h t m l 标志、n c s a 标志、s e r v l e t 标志和j s p 语法,使得h t m l 的 编码从w e b 页面的业务逻辑中有效地分离出来。j s p 页面由安装在w e b 服务器或 者使用j s p 的应用服务器上的j s p 引擎来执行。j s p 引擎接受客户端对j s p 页面 的请求,并生成j s p 页面给客户端响应。 译成s e r v l e t ,并驻留在服务器的内存中, j s p 技术特点”1 : 当j s p 页面被第一次调用时,就会被编 使得对该页面的调用的响应非常快。 ( 1 ) 内容的生成和页面显示分开 页面豹开发人员可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年民族发展试题及答案
- 2025年建筑安全员《C证》考试题库(附答案)
- 2025年“国际档案日”档案知识答题(附答案)
- 初级会计考试历真题及答案
- 湖北司法考试真题及答案
- 2025年国家网络安全知识竞赛题库含答案(综合题)
- 2025年门面租赁合同电子版租赁双方责任划分协议
- 2025年度医院感染试题新版题库及答案
- 2025年消防知识培训必考试题库及解析答案
- 2025版国际航空服务销售合同范本全文发布
- 中介招聘合同范例
- 医学免疫学+医学心理学 医学免疫学课程讲义
- 2025年临床医师定期考核必考复习题库及答案(900题)
- 原材料验收管理制度内容
- 《中国美术简史》课件
- 环卫车辆驾驶员安全培训
- 大客户销售工作规划及思路
- 京东方校园2024招聘胜任力测评题库
- 中建营盘山隧道2号斜井泄水专项施工方案
- CAD教程-AutoCAD2024全套教程
- 机房动力环境监控系统调试自检报告
评论
0/150
提交评论