(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf_第1页
(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf_第2页
(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf_第3页
(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf_第4页
(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(管理科学与工程专业论文)多源异构电子资源的元数据自动识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 , 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:靼:盏 关于论文使用授权的说明 日期:矽p 6 i o 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 、 签名: 驺:超 导师签名: 一 摘要 摘要 信息技术的快速发展导致电子资源以指数级增长,为了更好的管理和利用 电子资源,采用元数据方案实现电子资源整合已得到广泛关注。以往基于元数 据的电子资源整合,都是在各类电子资源及元数据比较结构化且数量少的情况 下,通过人工制定统一元数据标准或元数据标准问的映射来实现。而针对多源 异构的电子资源,就需要考虑元数据的自动识别。本文从以上角度出发,主要 探讨了元数据的自动识别方法,包括两个部分:中介元数据标准的自动建立及 元数据的自动映射,其中标准的建立是映射的基础。 中介元数据标准的建立,通过文本聚类方式来实现。首先对各类电子资源 的元数据名称进行预处理;其次,将元数据转换为树结构,挖掘其最大频繁路 径,构建向量空问模型;接着采用层次聚类法对元数据进行聚类,得到聚类结 果:最后根据元数据的类别,建立中介元数据标准。 元数据的自动映射,采用模式匹配方法。借鉴树匹配理论,构建元数据树 匹配模型,将新电子资源元数据树与元数据标准模板树进行名称匹配、结构匹 配及相似度计算,建立新元数据与中介元数据标准的映射,将元数据自动归类, 从而实现新电子资源的归类及整合。 最后,通过实证研究验算了中介元数据标准及元数据映射的方法,从实际 出发验证了多源异构电子资源的元数据自动识别方法的可行性。 关键词多源异构电子资源;元数据自动识别方法;中介元数据标准:元数据聚 类;元数据映射 。j 一- 北京t , i k 大学管理学硕一f :学位论文 i i _ 一 h a b s t r a c t 1 a b s t r a c t t h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yl e a d s t ot h ee x p o n e n t i a l g r o w t ho fe l e c t r o n i cr e s o u r c e s i n t e g r a t i o no f e l e c t r o n i cr e s o u r c e sb a s e do nm e t a d a t a h a sr e c e i v e dw i d ea t t e n t i o nf o rb e t t e rm a n a g e m e n ta n du t i l i z a t i o n s o m ep r e v i o u s r e s e 龇c h e sc o n c e n t r a t e do nd e s i g n i n gu n i f i e dm e t a d a t as t a n d a r do rc o n s t r u c t i n g m a p p i n g sa m o n gs t a n d a r d sa r t i f i c i a l l y i nt h ec o n d i t i o no fe l e c t r o n i cr e s o u r c e sa r e w e l l s t r u c t u r e d h o w e v e r , i fe l e c t r o n i cr e s o u r c e sa r em u l t i s o u r c eh e t e r o g e n e o u s ,w e m u s tc o n d i e rm e t a d a t aa u t o m a t e di d e n t i f i c a t i o n f r o mt h i s ,t h i sp a p e rd i s c u s s e sa m e t h o df o ra u t o m a t e di d e n t i f i c a t i o no fm e t a d a t a i ti n c l u d e st w oa s p e c t s :a u t o m a t e d c o n s t r u c t i n go fi n t e r m e d i a t em e t a d a t as t a n d a r da n da u t o m a t e dm a p p i n go f m e t a d a t a , w h i c ht h ef o r m e ri st h ef o u n d a t i o no ft h el a t t e r t e x tc l u s t e r i n gc a nr e a l i z et h ec o n s t r u c t i n go fi n t e r m e d i a t em e t a d a t as t a n d a r d f i r s t ,p r e p r o c e s s i n go fm e t a d a t al a b e l s i sn e c e s s a r y t h e n ,t h em e t a d a t as h o u l db e t m s f o m e da sar o o t e du n o r d e r e dt r e e i no r d e rt oc o n s t r u c taf e a t u r ev e c t o rm a t r i x , m a x i m a lf r e q u e n ts e q u e n c e sm i n i n gc o u l db ec o n d u c t e d t h i r d l y , h i e r a r c h i c a l c l u s t e r i n g i su s e di nf u r t h e rm e t a d a t ac l u s t e r i n g t h el a s ts t e pi sc o n s t r u c t i n g i n t e r m e d i a t em e t a d a t as t a n d a r da c c o r d i n gt om e t a d a t ac l u s t e rr e s u l t s s c h e m am a t c h i n gc a nr e a l i z et h em a p p i n go fm e t a d a t a am e t a d a t a t r e e m a t c h i n gm o d e lf o re l e c t r o n i cr e s o u r c em e t a d a t ar e c o g n i t i o ni sc o n s t r u c t e db yu s m g t r e em a t c h i n gt h e o r y c o m p a r i n gn e we l e c t r o n i c r e s o u r c em e t a d a t at r e ew i t h m e t a d a t as t a n d a r dt e m p l a t et r e ea c c o r d i n gt oe l e m e n tm a t c h i n ga n ds t r u c t u r a l m a t c h i n gc a l lc o n s t r u c tm a p p i n gb e t w e e nn e w m e t a d a t aa n di n t e r m e d i a t em e t a d a t a s t a n d a r d t h i sm o d e li s a p p l i e di nm e t a d a t aa u t o m a t e dc l a s s i f i c a t i o n ,s o a st o c l a s s i f ya n di n t e g r a t en e w e l e c t r o n i cr e s o u r c e s f i n a j l y t h em e t h o df o rm e t a d a t aa u t o m a t e d i d e n t i f i c a t i o ni sc h e c k e di n e m p i f i c a ls n i d y w h i c hc o n f i r m e dt h ef e a s i b i l i t yo f t h es t u d yo nm e t h o do fm e t a d a t a a u t o m a t e di d e n t i f i c a t i o nf o r m u l t i s o u r c eh e t e r o g e n e o u se l e c t r o n i c r e s o u r c em p r a c t i c e k e yw o r d s m u l t i - s o u r c e a u t o m a t e di d e n t i f i c a t i o n , m e t a d a t am a p p i n g h e t e r o g e n e o u se l e c t r o n i cr e s o u r c e ,m e t h o do f m e t a d a t a i n t e r m e d i a t em e t a d a t as t a n d a r d ,m e t a d a t ac l u s t e r i n g , i i i 北京t 业大学管理学硕十学位论文 i v - 一 日录 目录 摘要i a b s t r a c t i i i 第1 章绪论一1 1 1 选题背景及意义1 1 1 1 选题背景1 - 1 1 2 选题意义1 1 2 国内外研究综述2 1 2 1 基于元数据的电子资源整合研究综述3 1 2 2 元数据自动识别方法研究综述4 1 3 本文研究的内容与方法6 1 3 1 研究内容6 1 3 2 研究方法7 1 4 本文的绀i 织结构8 1 。5 研究创新点与重难点8 第2 章相关理论研究1 1 2 1 电子资源1 1 2 1 1 电子资源概述1 1 2 1 2 电子资源整合概述12 2 2 元数据12 2 2 1 元数据概述1 2 2 2 2 元数据分类1 3 2 2 3 元数据标准1 4 2 2 4 元数据映射1 4 2 3 自动分类技术一l 5 2 3 1 自动分类的定义和种类1 5 2 3 2 自动分类的关键技术15 2 4 模式匹配技术一1 7 2 4 1 元素级匹配18 2 4 2 结构级匹配18 2 5 本章小结18 第3 章中介元数据标准的建立2 1 3 1 元数据预处理21 - 3 1 1 名称预处理2 1 3 1 2 名称语义匹配2 l - 3 1 3 名称字符串匹配2 2 3 1 4 名称相似度的计算2 2 3 1 5 元数据转换2 3 3 2 挖掘最大频繁路径一2 3 3 2 1 元数据树2 3 3 2 2 路径定义2 4 3 2 3 路径分类2 4 v 北京工业大学管理学硕上学位论文 3 2 。4 频繁项2 5 3 2 5 路径转换2 6 3 2 6 最大频繁路径2 6 3 3 元数据树的相似度比较2 7 3 3 1 路径特征的权重2 7 3 3 2 路径特征向量模型2 8 3 3 3 相似度的计算2 8 3 4 元数据聚类算法2 8 3 5 建立元数据标准2 9 3 6 本章小结3 1 - 第4 章元数据自动映射方法研究3 3 4 1 元数据树结构预处理3 3 4 2 元数据名称匹配一3 3 4 3 元数据树结构匹配3 4 。 4 3 1 元数据树结构匹配要求3 4 4 3 2 元数据树匹配模型3 4 4 3 3 元数据树匹配算法3 6 。 4 4 元数据的自动映射一3 7 4 4 1 相似度的计算3 7 4 4 2 元数据的映射结果3 7 4 5 元数据自动识别方法整体过程一3 8 4 6 本章小结一4 0 第5 章实证研究4 1 。 5 1 元数据源一4 1 5 2 最大频繁路径挖掘一4 5 5 3 元数据聚类4 6 5 4 中介元数据标准的建立一4 7 5 5 元数据映射一4 8 5 5 1 元数据预处理4 8 5 5 2 元数据名称语义匹配和字符串匹配4 9 5 5 3 元数据树结构匹配4 9 5 5 4 元数据映射5 0 5 6 结果分析51 - 5 7 本章小节一5 1 结论与展望5 3 研究结论5 3 展望5 3 参考文献5 5 聊寸录5 9 附录1 电子资源元数据表5 9 附录2 元数据树相似度一7 1 攻读硕士学位期间发表的论文7 3 攻读硕士学位期间所参与的课题7 5 致谢7 7 v i 第1 章绪论 1 1 选题背景及意义 1 1 1 选题背景 第1 章绪论 随着信息技术的迅猛发展和广泛应用,政府、企业、科研院所等组织的信 息化程度得到了大幅度提高。各组织的有效运行,都必须以海量的电子数据和 信息为基础,电子资源的管理和利用得到了人们越来越多的重视。但网络的快 速发展以及社会对信息的需求使组织逐渐从一个孤立节点发展成为不断与网络 交换信息和进行商务事务的实体,现在的组织比以往任何时候都需要将内部数 据进行发布和交换,组织之间的电子资源共享必不可少。电子资源的共享使资 源得到充分利用、避免资源的重复建设和浪费。近几年,我国电子资源开发利 用的规模和水平不断提高,组织内部及组织之间信息系统的集成、第三方信息 服务平台的出现,如国家科技成果信息服务平刨,电子政务中政府信息资源 的整合【2 】都充分展现了社会对电子资源共享的重视。 电子资源共享的首要问题是电子资源的多源异构性。电子资源的来源多种 多样,分布在任何地方,其质量参差不齐,大都缺乏有效的组织和管理。另外, 由于组织职能的差异以及信息化的时间、规模、方式等多方面的不同,其信息 的组织与结构也各不相同,这些信息有的以文档形式存储、有的以数据库形式 存储,不同的组织即使采用同一种数据库管理系统产品,由于经营方式的差异 和数据库系统设计的区别,建立的数据库也往往存在着巨大差异。因此,电子 资源处于高度无序及分散的状态,极大地影响了用户对信息的有效获取和利用。 对电子资源实施有效的整合,以形成结构化、有序化的资源系统,建立统一的 电子资源访问和检索路径,为用户提供方便快捷的资源检索与调用服务,实现 电子资源的综合管理,已成为当前重要的研究热点。 1 1 2 选题意义 电子资源作为信息资源的主要载体,其局部有序但整体呈现无序的状况日 趋严重,如何利用新的技术和方法,对局部有序而整体无序的电子资源进行分 类、整合和科学的重组,最终实现电子资源的标准化管理与利用,是信息资源 管理领域的重要任务。 多源异构的电子资源在结构上和语义上存在着很大区别,整合多源异构的 北京t 业大学管理学硕十学位论文 电子资源最大的挑战就是建立一个统一的标准来描述和管理各电子资源。电子 资源整合时必须考虑到以下问题:异构性问题,包括数据异构、模式异构及语 义异构;查询问题,解决分布数据访问规则和由于异构问题而产生的冲突【3 】: 资源质量j 、口j 题,使用户相信电子资源的来源、正确性和安全性,并愿意共享它 f i t 4 j ;安全问题,考虑复杂分布异构环境所带来的特定安全需求。而元数据能 够有效的解决这些多源异构问题。元数据就是关于数据的数据,即关于数据的 内容、质量、状况和其他特性的信息【5 1 。元数据可以描述电子资源的数据类型、 数据模型和语义定义;元数据类似查询目录,使用者可以通过元数据来了解数 据库中有哪些电子资源以及资源之间的相关信息,并通过元数据来查询访问; 元数据i 己录了各电子资源的来龙去脉以及转换规则,使用者借助元数据会对数 据具有信心,也可便捷地发现数据所存在的质量问题;元数据能够管理限定检 索的信息和用户服务,如限定哪些用户可以访问电子资源,用户可以访问哪些 信息,保证数据的安全性。因此,本文在多源异构电子资源整合的基础上研究 元数据是卜分必要的。 目前,基于元数据的电子资源整合与管理方案是在电子资源及元数据数量 不大、结构清晰,且遵从某些主流元数据标准的情况下,制定统一的元数据标 准或建立不同标准间的映射来实现资源的整合。随着信息技术的快速发展与广 泛应用,电子资源类型日趋多样化,电子资源管理实践中出现了越来越多的适 用于不同资源或不同组织的多种元数据标准。有的元数据标准遵循主流标准, 有的元数据标准根据需求各自制定,有的元数据杂乱无章,尤其是w e b 网页中 的元数据,这样一方面无法根据所有资源的特点制定出包罗万象的元数据标准; 另一方面,这些元数据标准如何映射来实现电子资源的整合是亟待解决的问题。 因此,本文针对多源异构的电子资源,探讨相关元数据标准的自动产生及 元数据之间的自动映射问题;并在此基础上提出电子资源元数据自动识别的方 法,以期实现依据标准自动识别出符合该标准的元数据。该研究对提升多源异 构电子资源整合与维护的效率与效益是十分有意义的。 1 2 国内外研究综述 多源异构电子资源的元数据自动识别方法研究是电子资源、元数据管理及 自动识别方法等研究方向的综合领域,这些方向均为当前信息资源管理中的研 究热点问题。目前,采用元数据方案实现电子资源的整合与管理已被广泛关注, 而将元数据的自动识别与前者融合,国内外相关文献中尚未见到。因此,本小 节将从基于元数据的电子资源整合研究与元数据自动识别方法研究这两个方面 进行综述。 第1 章绪论 曼蔓! ! 曼! 曼! ! 皇曼! ! ! 曼! ! 曼! ! 曼曼! 曼曼曼曼! 曼曼曼曼曼曼曼曼! 曼曼曼曼曼曼曼曼曼! 曼曼曼! ! ! ! ! ! ! ! ! 曼曼曼! ! ! 曼! 曼曼曼曼! ! ! 鼍i ;i 1 2 1 基于元数据的电子资源整合研究综述 ( 1 ) 基于元数据的电子资源整合应用领域 信息时代,网络环境使人类管理和加工信息的技术发生了重大改变,元数 据作为描述和管理信息的重要工具,在全球掀起了广泛的研究热潮。元数据 f m e t a d a t a ) 词最早见于1 9 8 8 年美国航空与宇宙航行局编辑出版的目录交换 格式中。元数据与传统图书馆编目标准的不同之处在于它除了具有描述功能 外,还具有控制、管理信息资源的能力,元数据是适用于描述任何数据和资源, 促进信息资源组织和获取的数据1 6 l 。 国外对元数据的研究比较早【7 1 1 8 】1 9 】,目前国内元数据的研究突破了关于元数 据概念、功能、作用以及各种元数据规范的介绍和比较等层面上,开始深入到 元数据的实践研究和探讨阶段。在计算机应用相当普遍的今天,元数据的应用 渗透到了很多领域,随着元数据应用范围的不断扩展,采用元数据方案实现电 子资源的整合是一个非常热门的话题,主要集中在以下几方面: 第一,利用元数据实现数字图书馆资源的整合【1 0 【i l 】【1 2 】【1 3 1 ,首先,元数据描 述数字图书馆资源的基本特征,数字图书馆根据元数据将电子资源科学的分类 和重新整合,用户使用元数据可以快速、准确地找到所需信息;其次,人们已 建立了多种元数据标准,数字图书馆的元数据体系将各种不同标准的元数据, 通过建立映射等方法整合成一种元数据格式,即实现不同格式元数据之间的互 操作性,从而整合数字图书馆的信息资源。 第二,利用元数据实现电子政务信息资源的整合,电子政务中信息资源元 数据可以定义为:提供关于电子政务领域中信息资源或数据的一种结构化的数 据,是对信息资源的结构化的描述【l4 1 。电子政务信息资源元数据可以解决政务 信息系统资源之间的共享,而元数据标准是有效描述政府相关信息资源,实现 其高效发现和整合的基础。 第三,利用元数据实现地理信息资源的整合,随着空间信息技术的发展, 产生和积累了海量的空间数据信息,数据生产者、管理者和使用者在面对大量 的信息时,发现、管理、使用和维护所需要的数据均会导致一些问题。地理空 间元数据能够帮助数据生产者充分、完整地描述数据集,管理地理空间数据, 帮助数据生产者、管理者以及使用者解决以上问题。 除此之外,基于元数据的多源异构电子资源整合研究还应用到许多其他领 域,如利用元数据实现企业信息资源的整合【l5 1 、银行业信息资源的整合【l6 1 、财 会信息资源的整合【1 7 1 、网络教育资源的整合【1 8 】等。 ( 2 ) 基于元数据的电子资源整合方式 元数据无论是实现数字图书馆资源、电子政务信息资源还是地理信息资源 北京工业人掌管理学硕f j 学位论文 的整合,都依赖于元数据标准【1 9 】,其方式主要包括三类: 电子资源集中存储,建立统一的元数据标准 在电子资源种类不多且数量不大的情况下,可把所有的电子资源集中存储 在中央数据库,通过建立统一的元数据标准,实现对所有资源的描述与管理。 这种方式管理起来比较简单,但不适用于电子资源数量大,种类多,分布广, 不容易集中的状况。 电子资源分散存储,各元数据标准之间一对一映射 若电子资源分散在不同的服务器上,难以集中存储,这就需要建:茳各电子 资源元数据标准之间的映射表来实现资源的整合与互操作,如d c ( 都柏林核 心集) 与m a r c ( 图书机读编目格式标准) 的映射、d c 与e a d ( 档案著录编 码标准) 的映射、d c 与g i l s ( 政府信息定位服务元数据标准) 的映射等。这 种方式适用于元数据标准结构简单,大都遵循一些主流标准,且映射表建立的 数蹙比较少的情况。 电子资源分散存储,各元数据标准通过中介元数据标准映射 当电j 于资源分散存储,且元数据标准形式多样时,必须建立一种中介元数 据标准。各电子资源元数据标准通过与中介标准建立映射表来实现所有资源的 整合与互操作。如国际上有许多系统都采纳d c 作为中介元数据标准。 综上所述:目前采用元数据方式整合电子资源,一般都是针对电子资源及 元数据,通过人工方式建立元数据标准或元数据标准间的映射表,实现电子资 源的整合。而针对多源异构的电子资源及元数据时,如何建立元数据标准是值 得探讨的问题,这就需要考虑元数据的自动识别方法。 1 2 2 元数据自动识别方法研究综述 元数据自动识别是指,针对多源异构的电子资源,对元数据进行自动抽取 和自动分类,并在此基础上建立元数据标准,实现标准与其他元数据间的自动 映射,以构建电子资源整合的基础。 国内外有关元数据的自动识别研究还比较少见,主要集中在元数据的自动 抽取和元数据映射方面。 ( 1 ) 元数据抽取研究综述 对元数据抽取的研究主要包括两个方面:文本元数据的自动抽取和关系数 据库元数据的抽取。 文本元数据包括文本的名称、日期、大小、类型、作者、标题、机构、内 容等信息。文本的元数据挖掘对于更深层次的文本挖掘来说,是一个重要的基 础性工作,它可以为进一步的文本挖掘提供有价值的参考信息。目前国内外在 第1 苹绪论 这方面的研究主要是针对文本元数据的自动抽取,包括对特定格式文档的元数 据自动抽取,例如p d f 、w o r d 和p o w e r p o i n t 文档;对不同类型元数据的自动 抽取,例如表格元数据1 2 0 1 、引文元数据【2 1 1 ;对w e b 站点元数据的自动抽取, 例如从h t m l 网贞自动抽墩文章标题1 2 引、利用歼源项目h t m lp a r s e r 对新闻网 页文件进行解析,根据获取文本的特点,自动提取元数据四;对论文元数据的 自动抽取,可以实现从论文中抽取页眉、文章标题、作者信息、摘要信息、关 键字信息等元数据信息1 2 4 i 。目前存在的元数据自动抽取器主要有:英国国家档 案馆的d r o i d ( d i g i t a lr e c o r do b j e c ti d e n t i f i c a t i o n ) 文件格式辨别工具、新西兰 国家图书馆的m e t a d a t ae x t r a c t o r 软件和法因的m e m d m am i n e rc a t a l o g u ep r o 软 件1 2 5 1 。 目前对数据库元数嵌i :的抽取针对的是关系数据库的t a b l e ( 表) 、v i e w ( 视 图) 、c o l u m n ( 列) 、p r i m a r y k e y ( 主键) 、f o r e i g n k e y ( 外键) 、s q 。i n d e x ( 索 引) 、t r i g g e r ( 触发器) 、p r o c e d u r e ( 存储过程) 等元数据。关系数据库的元数 据抽取,业界还没有一个统的标准,根据不同需要,可选取不同的元数据抽 取工具。关系数据库元数据的抽取一般有以下几种方法。如: s q l 语言抽取元数据。s q l ( s t r u c t u r e dq u e r yl a n g u a g e ) 结构化查询语 言,是一种数据库查询和程序设计语言,它能直接访问数据库中的表和视图, 故能实现关系数据库中所有元数据的抽取。 o d b c 接口抽取元数据。o d b c ( o p e nd a t a b 嬲ec o n n e c t i v i t y ) 开放式数 据库连接标准,定义了一组规范,提供一组对数据库访问的标准a p i ,它不依 赖于任何厂商的d b m s ,也不依赖于具体的编程语言。各种数据库产品通过 o d b c 可以互相交换数据,它提供一种可在各种数据库系统之间存取数据的标 准应用程序接口,可通过它所提供的专用函数来读取数据库的元数据。 j d b c 接口抽取元数据。j d b c ( j a v ad a t a b a s ec o n n e c t i v i t y ) j a v a 数据库 连接标准由一组用j a v a 语言编写的类和接口组成,可为多种关系数据库提供统 一访问。j d b c 为所有关系数据库产品提供了统一的元数据访问应用程序接口, 是关系数据库元数据抽取比较好的方法1 2 6 。 ( 2 ) 元数据映射研究综述 元数据标准实现的功能包括对资源的描述、管理、定位及评估。但是由于 它们分别适用于不同类型的信息资源,其使用者和所针对的用户范围也有所不 同,当对不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用 时,就存在元数据的互操作性问题【2 7 】。要解决元数据互操作的问题,一般需要 考虑二个方面:一是语义差别,如描述规则不同、版本不同等;二是结构差别, 即句法或语法的异构。元数据映射是实现元数据互操作最普遍的方法【2 8 j f 2 9 1 。 元数据映射也称为元数据转换,指元数据格式间元素的直接转换,其实质 北京- t 业大学管理学硕士学位论文 就是为一种元数据格式的元素和修饰词在另一种元数据格式里找到相同功能或 含义的元素和修饰词。目前来说,实现元数据映射都是先采用人工方式对不同 元数据标准之间的元素进行匹配,建立元数据映射表,再利用映射表,通过程 序实现元数据或电子资源的整合与交互【3 0 】【3 l 】。 综上所述,元数据的自动识别方法研究还比较欠缺: 元数据的自动识别只实现了自动抽取,元数据的自动分类却没有提及。 而自动分类对于建立元数据标准,实现电子资源的分类来说是十分必要的。 目前元数据的映射方面也是针对已制定好的元数据标准,人工建立元数 据标准间映射表,再通过程序自动化元数据的映射。若针对多源异构的电子资 源,其元数据格式种类多、数量人且制定方式不遵从某一标准,就需要考虑元 数据间的自动映射问题。 1 3 本文研究的内容与方法 1 3 1 研究内容 国内外关于基于元数据的电子资源整合研究正在逐渐增多,但现有文章都 是在电子资源的内容清晰、结构良好的情况下,制定统一的元数据标准或建立 各元数据标准问的映射表,实现电子资源的整合。而针对多源异构的电子资源, 其元数据数量大,格式多,就需要考虑元数据的自动识别方法,即元数据的抽 取、分类、标准及映射表的建立。元数据的自动抽取已有比较多研究,因此, 本文的研究范围为:假设电子资源的元数据已抽取出来,在此基础上重点探讨 元数据的自动分类、中介元数据标准的产生及元数据映射表的建立三个部分。 ( 1 ) 中介元数据标准的建立 多源异构的电子资源,抽取出来的元数据内容和格式多样。考虑元数据整 合电子资源的方式:第一,针对多源异构的电子资源,我们无法人工制定出包 罗万象的统一元数据标准;第二,各类电子资源的元数据格式种类太多,有的 遵循主流标准、有的不遵循任何标准,建立各元数据格式之间的映射表工作量 大,整合效率低:第三,鉴于前两种情况,建立一个中介元数据标准比较适用, 通过该标准,将各元数据格式与其匹配,得到元数据映射结果,利用该结果, 根据实际需要,即可以通过元数据抽取电子资源,实现资源的集中存储,亦可 通过元数据检索电子资源,在资源分散的情况下达到资源整合的目的。 因此,本文的首要研究问题,即中介元数据标准自动产生的方法:通过元 数据自动分类,产生元数据的类别,再以最大频繁路径作为标准中每类元数据 集的元素。 第l 章绪论 ( 2 ) 元数据自动分类方法研究 元数据的自动分类足建立中介元数据标准的前提。自动分类方法包括很多 种,本文主要从元数据的结构出发,研究适合于元数据的自动分类方法:采用 文本聚类实现元数据的自动分类。 ( 3 ) 元数据自动映射方法研究 电子资源具有动态性i 无时无刻都在产生新的信息。当出现新的电子资源 时,就需要考虑根据之前的中介元数据标准,自动识别出符合标准的元数据, 建立新元数据与标准的映射,从而对新的电子资源及元数据进行分类与整合。 1 3 2 研究方法 ( 1 ) 文本聚类法 文本聚类法指,计算机系统对待分类文本进行分析并提取有关的特征,然 后对提取的特征进行比较,根据一定规则将具有相同或相近特征的对象定义为 一类。元数据可转化为树结构的形式,通过文本聚类法,可实现对元数据的自 动分类,从而奠定中介元数据标准建立的基础。 ( 2 ) 模式匹配法 模式匹配,就是找到分布在两个不同模式中的元素之间的某种映射关系的 行为,可以理解为将两个模式作为参数输入,输出结果是它们之间的映射关系 的函数,即匹配结果。采用模式匹配法,能够建立元数据之间的映射表,构建 元数据整合以实现电子资源整合的基础。包括:元素级匹配和结构级匹配。 北京t , l k 大学管理学硕 :学位论文 1 4 本文的组织结构 绪论 上 二j 至三爿元数据自动耋射方法研究,l 儿矧u n 口。u 列叭刀。 实证研究 上 结论与展望 图1 一l 论文结构框架图 f i g u r el - 1f r a m ed i a g r a mo fa r t i c l es t r u c t u r e 第一章:绪论部分,介绍了选题背景及意义、有关选题的国内外研究综述、 论文的主要研究内容及方法、组织结构、研究创新点与重难点。 第二章:介绍了多源异构电子资源的元数据自动识别方法相关理论基础, 包括电子资源、元数据、自动分类技术、模式匹配技术四部分相关理论,奠定 研究的理论基础。 第三章:研究了建立中介元数据标准的途径和方法:文本聚类法。挖掘最 大频繁路径构建向量空间模型,采用层次聚类实现元数据自动的分类,并以最 大频繁路径作为元数据标准的元素。 第四章:根据第三章的结果,当有新的电子资源待整合时,研究将其元数 据与中介元数据标准建立自动映射的方法:模式匹配法,包括元素级匹配及结 构级匹配。并综合第三章及第四章,提出元数据自动识别方法的整个过程。 第五章:采用实证研究,抽取了互联网1 9 个网站,2 1 个网址的四类元数 据,说明多源异构电子资源的元数据自动识别方法的可行性。 最后:研究结论与展望。 1 5 研究创新点与重难点 以往采用元数据方案实现电子资源的整合,都是根据电子资源的内容及特 第l 荦绪论 点,制定相应元数据标准,且这些标准大都遵循主流元数据标准,再通过人工 方式建立元数据间的映射表。文本研究的出发点是:针对多源异构的电子资源 及元数据,人工方式效率低且无法实现,需要考虑元数据的自动识别,即元数 据标准的自动建立及元数据映射的自动产生。因此,奉文研究的创新点与重难 点包括以下两个方面: ( 1 )中介元数据标准的自动产生:过去都是针对电子资源的特点,人工对元 数据进行分类,建立元数据标准。本文主要根据元数据的结构特征,探寻适合 于元数据自动分类的途径与方法。 ( 2 ) 元数据的自动映射:现有实现元数据映射的方法,都是根据特定的语义 关系,人工建立主流元数据标准之间的映射表。本文主要研究自动建立待整合 电子资源元数据与中介元数据标准之间映射的方法。 北京i ! l k 大学管理学硕十学位论文 1 0 第2 章相关理论研究 2 1 电子资源 2 1 1 电子资源概述 第2 章相关理论研究 电子资源也称为“数字信息资源 ( d i g i t a li n f o r m a t i o nr e s o u r c e s ) 、“网络信 息资源”( n e t w o r ki n f o r m a t i o nr e s o u r c e s ) 等,是近年来随着信息技术的发展而 出现的新型信息资源形式。电子资源是指所有以电子形式把文字、图像、音频、 视频等多种形式的信息存储在光、磁等非纸介质的载体中,通过网络通信、计 算机或终端再现出来的资源。 电子资源与传统资源相比有很大的差别,了解电子资源的特点,有助于对 其进一步的丌发利用。电子资源的特点主要包括以下几个方面: ( 1 ) 多源异构性 多源异构是指数据的来源不同、结构不同。由于电子资源分布于网络、组 织的数据库、文档中,其来源比较广泛,并且内容和形式多样,内容上包括科 技信息、商业信息、政府信息、个人信息等;形式上包括文本、图像、音频、 视频信息等;电子资源的结构也基本处于无序的状态,有的是数据库形式、有 的是文档形式,即使采用同一种形式,由于设计的差别,其结构也不统一。 ( 2 ) 数量的海量性 随着计算机硬件技术,特别是光盘技术、海量存储等技术的发展,电子资 源的数量在源源不断的、快速的、大量的增长。 ( 3 ) 质量的差异性 电子资源来源广泛,质量差异性很大。即可能是学术研究报告,又可能是 一些作者随笔;这些资源可能被加工整理过,也可能是一些原始信息;由于其 差异性,电子资源的利用价值差别很大,用户在选择利用时难以辨别。 ( 4 ) 动态性 数据制造者每天源源不断的制造电子资源,其更新速度快、时效性强,与 传统资源有很大差别,电子资源需要不断的更新、扩充和管理;另外,在网络 环境下,电子资源转移的便利性,导致整个电子资源的强动态性。 ( 5 ) 无序性 电子资源缺乏统一的管理,从某个组织、某个数据库来看,电子资源是管 理规范的、相对集中和有序的;但从整体来看,电子资源分布在各个地方,是 杂乱和无序的。 北京t q k 大学管理学硕一i :学位论文 2 1 2 电子资源整合概述 电子资源整合是在各种电子资源自主性、分布性、异构性的基础上,运用 各种集成技术和手段将各类电子资源集成在统一的利用环境下,实现“一步到 位”的检索,让用户极其方便地利用各种电子资源【3 2 】。 电子资源的整合就是按照更为科学合理的方法整理合并、有机集成分散的 电子资源,实现资源的共享,资源的互操作,生成满足不同用户需求的资源集 合,实现资源的价值增值,其意义在于: ( 1 ) 融合外部信息:通过电子资源整合可以将外部各种多源异构信息,即时、 准确地收集到组织内部,实现信息的有机融合和共享。 ( 2 ) 打破信息孤岛:通过电子资源整合可以将分散在各地方的资源集中起来, 实现信息的流动与共享,消除信息孤岛问题。 ( 3 ) 实现信息增值:通过信息的集中,可以提高信息利用率,生成组织所需 的有价值信息,实现信息的增值。 信息资源整合的过程划分为三个阶段:物理阶段、技术阶段、逻辑阶段。 物理阶段是在基于m a r c 技术进行的资源整合,将纸质文献资源作为整合对 象,从而使纸质资源数字化;技术阶段是指依托信息技术进行的资源系统的整 合,集成多源异构数据,将数据作为整合对象,从而为用户提供信息服务;逻 辑阶段是指在语义网络环境下,依托元数据、模型等进行信息资源的管理,倡 导知识管理,将信息作为整合对象,从而提供知识服纠3 3 】。基于元数据的电子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论