数字图书馆与元数据.ppt_第1页
数字图书馆与元数据.ppt_第2页
数字图书馆与元数据.ppt_第3页
数字图书馆与元数据.ppt_第4页
数字图书馆与元数据.ppt_第5页
免费预览已结束,剩余87页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字图书馆与元数据,上海图书馆系统网络中心赵亮,概念与要点,数字图书馆的定义,从不同的概念演变而来电子图书馆、网络图书馆、虚拟图书馆、没有围墙的图书馆、图书馆数字化等等尚无一个全球范围公认的定义,数字图书馆的定义,定义一:利用数字技术获取、存储、存取、发布信息的图书馆定义二:数字图书馆为国家信息基础设施提供关键性信息管理技术,同时提供其主要的信息库和资源库。换句话说,数字图书馆是国家信息基础设施的核心。,数字图书馆的定义,美国研究图书馆协会的定义1、数字图书馆并不是一个单一的实体;2、数字图书馆需要技术支持;链接许多信息资源;3、多个数字图书馆及信息机构之间的链接对终端用户透明;4、全球范围的对数字图书馆与信息服务的获取是一个目标;5、数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏。,Definition,ThedigitallibraryisnotasingleentityThedigitallibraryrequirestechnologytolinktheresourcesofmanyThelinkagesbetweenthemanydigitallibrariesandinformationservicesaretransparenttotheendusersUniversalaccesstodigitallibrariesandinformationservicesisagoalDigitallibrarycollectionsarenotlimitedtodocumentsurrogates:theyextendtodigitalartifactsthatcannotberepresentedordistributedinprintedformats(ARL,1995),数字图书馆的定义,中国数图工程规划的定义:是采用现代高新技术所支持的数字信息资源系统,将成为下一代互联网网上信息资源的管理模式,可从根本上改变目前网上信息分散、不便使用的现状。可以说,数字图书馆是运行在互联网上超大规模的、便于使用的、没有时空限制的知识中心。,数字图书馆的要点,数字化资源(多媒体)网络化分布化的体系结构统一的透明的用户接口全球化(非单一实体)元数据与对象管理新的服务体系与模式,数字图书馆的结构,KW结构数字对象(DigitalObject)键元数据、数字资料、调度码数字对象仓库(Repositories)元对象(MetaObject),图书馆自动化系统管理/服务模式,书目索引等二次文献,图书馆自动化系统,人工获取,索引与对象间无完整性保证,数字图书馆的结构-IBM,检索数据(SearchData),LibraryServer,查询(SEARCH),访问入口客户端(ACCESSClient),存储(STORE),对象内容(ContentObjects),光盘库或磁带库,数字图书馆的结构体系,国家图书馆,数字图书馆的实践,国际数字图书馆先导计划(DLI1、2)美国回忆和美国国家数字图书馆计划(NDLP)国内中国试验型数字图书馆项目中国数字图书馆工程,美国DLI计划,由美国科学基金会NSF、国防部高等技术开发署DARPA、美国航空航天总署NASA等单位联合资助DLI-1($24M,1994.91998.9)DLI-2($40M$50M,19992003),环境规划与多媒体信息系统(加州大学伯克利分校)图象和空间参考信息综合服务的分布式数字图书馆(加州大学圣巴巴拉分校)集成声音、图象和语言理解技术,创建和搜索数字视频图书馆-Informedia(卡内基梅隆大学)综合性科学文献数字图书馆(伊利诺大学厄尔巴那分校)智能信息搜索引擎(密歇根大学)各类数字图书馆网络综合集成机制-InfoBus(斯坦福大学),DLI1研究项目,DLI-2在规模、范围、内容和方向上的显著变化,受资助单位大幅度增加在过去纯研究的风格外,增加了面向实际问题的研究和开发除保留了传统的体系结构、信息检索、互操作主题之外,一些新的研究主题受到关注,如:信息保藏、添加声音、建立和维护数字图书馆的实际问题、与医疗有关的电子病历、医学图象等与情报学的联系密切地理信息核医学情报是众多项目的交汇点,美国回忆与NDLP计划,美国回忆(AmericanMemory)由美国国会图书馆实施,主要内容为特色历史资源数字化。(1989-1995)美国国家数字图书馆项目(NDLP)是美国回忆的后续项目,目标是2000年数字化美国国会图书馆的500万件藏品。(1994-)计划总投资6000万美元。,数字图书馆的实践(国内),中国试验型数字图书馆项目1996年倡导,1997年立项,2001年结题国家图书馆、上海图书馆、南京图书馆、深圳图书馆、辽宁省图书馆、中山图书馆、桂林图书馆,数字图书馆的实践(国内),中国数字图书馆工程一期规划(2000-2005)指导思想:统筹规划,需求牵引,科技创新,滚动发展。建设原则:公益性为主、资源建设为核心、统一标准规范、开放建设与利益共享、开发与引进相结合,数字图书馆的实践(国内),中国数字图书馆工程建设目标:在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供高效服务;总体技术与国际主流技术接轨。建设一批中文多媒体资源库,总容量不低于20TB;联合引进若干国内需要的国外专题资源库;实现全国大部分地区图书馆文献资源的联合采编及馆际互借;完成开发具有中国特色的数字图书馆智能应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。实施步骤:准备和实验阶段(2000年)初步实用阶段(2001-2002年)规模型成长阶段(2003-2005年),数字图书馆五大功能(IBM),数字图书馆主要技术内容,馆藏资源数字化海量数据的建库与维护数字对象的存取和获得图书馆服务的网络提供版权管理,数字资源标识体系,文件系统URLPURLURNDOI其他.,DOI的实例./,10.156/catalog-96,PublisherIDassignedbyDOIAgency,ItemIDassignedbyPublisher,10.1532/PII,10.18698/SICI,用户,HandleSystem,出版者或其他资源提供者,DOI和URN等的操作模型,基于内容的检索,文本-最成熟,实用化图象-通过色彩,底纹,形状视频-自动侦测析出关键帧音频-语音识别,QueryByImageContent,Searchimagesashumanseesthem,colormixture,Oruseanimageasanexample-”showmemorelikethis”,组合检索ultisearch,多媒体信息检索Informedia,自动分析视频、音频、隐含的标题、场景变换和其它信息其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果向Informedia数字图书馆馆藏中增加新的素材将视频素材分割到各主题部分中通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本各种自然语言处理工具产生合适的索引纪录用户可以用多模式中的任何一种形式提出查询要求,多模式信息检索体现优异的效果,电视节目的智能浏览,ExcerptedfromDr,ZhnagHongjiangs新一代多媒体检索,数字图书馆建设所涉及的标准,数字对象及存储标准(字符集、编码标准、媒体格式等)信息结构表达与交换标准(元数据标准)信息查询与显示标准(Z39.50、虚拟联合目录及馆际互借协议)信息安全与应用服务标准,元数据简介:什么是元数据,数据的数据(Dataaboutdata)结构化数据(Structureddata)资源的信息(Informationaboutaresource)编目信息(Cataloguinginformation)管理、控制信息(Administrativeinformation),元数据的种类,管理型元数据结构型元数据描述型元数据,描述性元数据的层级,描述能力,低,高,常用的描述型元数据标准(或规范),MARCDCTEIEADFGDCCIMIGILS,编码与著录,SGMLHTMLXMLRDF其他方式,标记语言,SGML(结构化、规范、复杂、描述能力强、需要DTD)HTML(半结构化、不断变化发展、描述能力差、单一DTD)XML(结构化、规范、简洁、描述能力强、DTD可选),标记语言实例,HTML实例:张三系统网络中心上海图书馆,结果显示:张三系统网络中心上海图书馆,XML实例:张三系统网络中心上海图书馆,标记语言实例,更复杂的XML实例:陈伯钧陈国懋523173918.jpg1910年11月26日1974年2月6日四川省达县河市乡北京高等军事学院院长上将1955年1955年一级解放勋章陈伯钧(1910-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。.,标记语言实例,SGMLMARCExample,dataomittedFosdick,Howard.Computerbasicsforlibrariesandinformationscientists/HowardFosdick;withaforwardbyF.WilfridLancaster(Adaptedfrom“SGMLandtheUSMARCStandard,”TechnicalServicesQuarterly(15(3),21ff),SGMLTEIExample,ModifiedfromTEIheadercreatedbytheUniversityofVirginiaLibraryCatalogingServicesDepartment:AsummaryviewoftherightsofBritishAmerica:amachine-readabletranscriptionJefferson.Thomas,1743-1826Approx.44KilobytesUniversityofVirginiaLibraryCharlottesville,Va.Availablefrom:OxfordTextArchiveURL:/1993,XML语言的三要素,documentwithXMLmarkup,DTD,Client,Server(s),XML语言的三要素,DTD或XMLSchemaDocumentTypeDefinition文件类型定义XSLeXtensibleStylesheetLanguage可扩展样式语言XLINKeXtensibleLink可扩展链接语言,TheXMLNamespace(命名域),DefinitionForm:Examplenamespacedefinition:Meaning:Whenyousee“ddc”,interpretitaccordingtotheexplanationofferedatthesiteExampleUse025.316,互操作性与RDF,互操作性:由元数据语义及结构不同所引起的难题。解决方法:根据元数据之间的对应关系(mapping)进行相互转换核心元数据集-如DublinCore支持异构的资源检索RDF,资源描述框架(ResourceDescriptionFramework)数据描述模式而且采用基于XML的句法提供语义、结构、句法三个层次的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用,什么是RDF?,RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value),资源resource,属性property,属性值value,语句statement,什么是RDF?,换言之“张三是由以下网址所标识的资源的作者:,作者author,张三,什么是RDF?,作者author,张三,张三,RDF基于XML的描述实例:,RDF描述实例,DC:Creator,张三,DublinCore基于RDF的描述:张三,基于RDF的DC描述实例,WarwickFrameworkContainer,MetadataContainer,Package(DublinCore),Package(Geospatial),Package(Indirect),Package(AccessTerms),URI,From:Daniel,Lagoze,什么是DublinCore元数据,1995年3月,由OCLC与国家超级计算应用中心(NCSA)联合发起,52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。至今已开过七次研讨会,第九次将于2001年在日本举行。每次会议都有一些具体的成果和决定。如第四次会议在澳大利亚堪培拉举行,会上发布3种修饰词,故称为堪培拉修饰词。,十五个基本元素简单清晰的语义定义应用面广(DLO对象)易于伸缩与扩展扩展的DCTYPE(Subelement),SCHEME,LANGUAGE三种形式事实上的工业标准-RFC2413广泛的支持与应用已成为美国国家标准(Z39.85),什么是DublinCore元数据,DC元素(都柏林核心集),内容描述知识产权外形描述题名Title创建者Creator日期Date主题Subject出版者Publisher类型Type说明Description其他责任者Contributor款式Format来源Source权限Rights标识Identifier语种Language关联Relation覆盖范围Coverage,DC的特点,所有的元素都是可选的所有的元素都是可重复的元素的排列没有先后次序具有良好的扩展性全球化,DC扩展(都柏林核心集),旨在通过使用修饰词进一步明确元数据的特性(比如一个日期可以作进一步的描述,如发表日期和修改日期)DC允许各个地方应用系统在15个基本元素的基础上增加新的元素或新的修饰词,但应坚持互操作性的原则,同时提请DC大家庭注意,以便纳入新的DC规范,DC:Title(题名),Anamegiventotheresource赋于资源的名称,DC:Creator(创建者),Anentityprimarilyresponsibleformakingthecontentoftheresource创建资源内容的主要责任者,DC:Contributor(其他责任者),Anentityresponsibleformakingcontributionstothecontentoftheresource对资源内容创建作出贡献的其他责任者,DC:Publisher(出版者),Anentityresponsibleformakingtheresourceavailable使资源成为可获得状态的责任者,DC:Date(日期),Adateassociatedwithaneventinthelifecycleoftheresource与资源本身生命周期中的一个事件相关的日期,DC:Relation(关联),Areferencetoarelatedresource对相关资源的参照,DC:Source(来源),Areferencetoaresourcefromwhichthepresentresourceisderived对一个资源的参照,当前资源源自这一参照资源,DC:Description(描述),Anaccountofthecontentoftheresource对资源内容的说明,DC:Subject(主题),Thetopicofthecontentoftheresource有关资源内容的主题描述,DC:Type(类型),Natureorgenreofthecontentoftheresource有关资源内容的特征和类型,DC:Format(格式),Physicalordigitalmanifestationoftheresource资源的物理或数字表现形式,DC:Identifier(标识符),Anunambiguousreferencetotheresourcewithinagivencontext在特定范围内给予资源的一个明确的标识,DC:Language(语种),Alanguageoftheintellectualcontentoftheresource描述资源知识内容所使用的语种,DC:Coverage(覆盖范围),Extentorscopeofthecontentoftheresource资源内容所涉及的范围,DC:Rights(权限),Informationaboutrightsheldinandovertheresource有关资源本身所有的或被赋予的权限信息,多媒体与数字化,上海图书馆系统网络中心赵亮,概念与要点,多媒体的基本概念,多媒体定义指能够同时获取、处理、编辑、存储和展示两个以上不同类型信息媒体的技术。多媒体技术计算机综合处理多种媒体信息,文本、图形、图像、音频和视频,使多种信息建立逻辑连接,集成为一个系统并具有交互性。多媒体类型:文本、图形、图像、音频、视频、三维建模(虚拟现实)等等,多媒体格式总结,文本编码(中文编码、不同平台编码)特殊标记、格式图象压缩存储(有损压缩和非有损压缩)TIFF,JPEG,GIF,BMP多级存储音频WAV,MP3,REALAUDIO视频AVI,QUICKTIME,MPEGI,MPEGII,MPEGIV,REALVIDEO其他(三维实体VRML等等),多媒体格式总结(数字化方法),文本录入员录入对扫描文件进行OCR图象扫描数码照相音频利用声卡采集电脑合成视频利用视频采集卡采集硬件压缩转换或软件压缩转换,海量数据实例,Text(1page):5K/1KImage(1024x768):2.3M/300KVoice(1min):480K/60KMusic(1min,CD):10.2M/1MVideo(1min,VHS):400M/10MVideo(1min,NTSC):1.6G/35MVideo(1min,HDTV):4.8G/200M,扫描或照相要点,扫描模式分辨率(resolution,多少DPI)颜色深度(bitdepth,多少bit)颜色管理(色彩还原)修正(去网纹,校正)压缩存储人工修正(去污点,对比度,亮度)系统能力(内存等等),四种扫描模式,Bitonal,Grayscale,Color,SpecialTreatment,各种分辨率的效果,600dpi300dpi200dpi,在二值扫描中调整阈值,definesthepointonascalefrom0to255atwhichgrayvalueswillbeinterpretedeitherasblackorwhite,EffectsofThreshold,threshold=100,threshold=60,BitDepth,numberofbitsusedtorepresenteachpixel,typically8bitsormoreperchannelrepresenting256(28)levelsforgrayscaleand16.7million(224)levelsforcolorexample:8-bitgrayscalepixel00000000=black11111111=white,BitDepth,increasingbitdepthincreas

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论