版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章数字信息资源处理、了解教育目标、有效处理数字信息资源是数字图书馆支持技术之一,用于处理相关信息资源的技术(如:信息资源说明技术元数据技术分词技术文本分类技术信息提取技术和特定技术、培训要求、第四章数字信息资源处理、4.1数字信息资源说明和组织、说明语言和开发web实现网页连接、web更改超文本(HTML)HTML是标准通用标记语言(sgml)的实例化子集,可扩展性不好,不能定制有意义的显示以供他人使用。牙齿的一切都成为web技术进一步发展的绊脚石。在牙齿中,XML顺应诞生了。1969年,IBM开发了文档描述语言GML,解决了徐璐其他系统上徐璐其他文档格式的问题。GML是IBM许多文档系统
2、的基础。脚本和Bookmaster,1986年牙齿语言发展为国际标准(ISO8879),SGML称为。SGML是许多大型组织,如飞机、汽车公司、军队的文档标准等。它是一种独立于语言、结构化、可扩展的语言,在许多公司中很受欢迎,用于创建、处理和发布大量文本信息。1989年,CERN欧洲粒子物理研究中心的研究人员发表了HTML的基于SGML的超文本版本。HTML继承了SGML的许多重要特征(如结构化、独立、说明),但同时也有很多缺陷。例如,只能使用固定的受限标记,并且只关注内容的显示。同时,随着web上数据的增加,这些HTML的缺点将变得不可忽视。W3C提供了HTML的几个茄子扩展来解决这些问题,
3、最后是XML的新SGML子集开发。XML的出现是为了解决HTML中存在的这种弊端。保持了SGML标准的很多优点,但更容易操作和在WWW环境下实现,1998年成为W3C的标准牙齿。XML的优点是,多个组织和个人可以创建满足其需要的标记集,并且可以快速使用这些标记。这些功能使XML能够在电子商务、政府文档、司法、出版、CAD/CAM、保险机构、供应商和中介组织信息更换领域为各种系统和供应商提供独特的独立解决方案。XML中的数据存储格式不受显示格式的限制。文档通常包含三个茄子元素:数据、结构和显示方法。在HTML中,显示内置于数据中,因此在创建文本时必须始终考虑输出格式,因为要求不同,如果需要以不同
4、的样式显示相同的内容,则必须从一开始就努力创建全新的文档。此外,HTML缺乏数据结构说明,在应用程序中理解文档内容和提取语义信息方面存在很多不便。4.1数字信息资源说明和配置;元数据:元数据概念和功能:元数据(元数据)是数据的数据。哈佛大学数字图书馆项目将元数据定义为有助于查找、访问、使用和管理信息资源的信息。数字图书馆在元数据中的主要作用是为数字信息资源的组织和顺序,即分布式数据发现和搜索奠定基础。元数据功能:说明功能数字图书馆的元数据说明功能有两个茄子方面。说明数字信息的基本特性使数字图书馆系统能够通过元数据系统自动检索数字信息。描述用户的问题。集成功能是指数字图书馆元数据系统通过多种格式
5、的元数据、映射、翻译等集成到一种元数据格式的过程,即徐璐其他格式的元数据之间实现互操作性的过程。异构数据库之间的集成过程。控制功能元数据系统的规范控制功能包括信息内容的规范化说明、规范索引和信息评价等。元数据系统可以通过标准元数据模型规范数字信息。代理功能知道元数据本身也是备用记录,数字图书馆内的元数据系统也具有代理功能。元数据的代理功能可以有效地节约网络资源。因为元数据是数字信息资源的一种解释,记录数字信息资源的基本特性,基本反映了信息的概貌,同时与元数据和数据相比,数据量牙齿要小得多,可以成为整个信息的代理。4.1数字信息资源说明和组织,元数据类型说明元数据拥有资源的发现和认证标题,创造者
6、,作者,发行者,出版日期等都是典型的描述性元数据。在托管元数据数字图书馆中,这使您可以有效地管理数字信息资源。传统图书馆中有关贷款权限、收藏场所等的信息都是元数据管理的例子。结构化元数据结构化元数据反映了数字信息资源的内部形式特征(如目录、段落、章节等),实现了对数字信息资源的结构化访问。技术型元数据数字图书馆是高科技的聚集地,其工作环境是典型的技术环境。有效地将各种技术应用于数字信息资源的组织和管理是基于技术的元数据功能和功能。存储型元数据存储型元数据是支持数字资源器官保留的数据。在数字图书馆中,数字信息资源发现和检索的元数据研究也很重要,支持信息资源器官保存的元数据研究也很重要。无论使用什
7、么技术来解决数字信息的器官保留,都需要了解数字信息本身及其环境的一些技术特征。这就是保留型元数据揭示的内容属性。的原因。4.1数字信息资源描述和组织,主要元数据公共领域元数据格式:(1)网络资源:Dublic Core,ROADS Template,Channel Definition Format(CDF)(2)文献:(2);(3)人文学科:text encoding initiative header(tei header);(4)社会科学数据集:ICP Sr sgml code book(inter-university consortium for political and soci
8、al research);(5)博物馆和艺术作品:计算机信息交换(cimi),内容描述(cdwa)(7)音乐资料:标准music description language(smdl);(8)政府信息:gils(government information locator service);(9)地理空间信息:联邦地理数据委员会/内容标准for digital geospatial metadata(fgdc/cs dgm);(10)数字图像:MOA2metadata、CDL metadata、Open Archives Format、VRACore、niso/clir/RLG technica
9、l metadata for(12)技术报告:RFC 1807:a format for bibliographic records;(13)FTP档案和FTP档案库:internet anonymous FTP archives templates;(14)连续视频:MPEG-7。4.1数字信息资源说明和组织,以下主要是两个茄子元数据说明:MARC和DC MARC MARC是“机器可读目录”,又称机器读目录,1965年美国,计算机可读目录。MARC适用性日益降低的原因:字段多,重复严重。技术过时了,书目规则不统一,意义模糊。字段、子字段标识和结构复杂。DC元数据DC的15个元素根据所述内容的
10、类型和范围分为3个组。一种是资源内容的说明。标题、专题、说明、来源、语言、关系和层次结构。第二,知识产权说明。具有作者、发行人、投稿人和权限。第三,外部属性的说明。日期、类型、格式和id。4.1数字信息资源说明和组织,DC15元素含义如下:(1) subject:主题语或关键字项目、资源的专题,通常是描述资源的主题和内容的关键字或短语。建议采用受控的词汇和规范的分类体系。(2) Title:主题项、资源作者或发布者提供的说明资源的名称。(3) Creator :作者或作者项目,以及对资源知识内容制作负有主要责任的个人或机构。例:写文献的作家、视频作品的艺术家、摄影师、插图画家等。(4) Pub
11、lisher:发行者主题,发行所述资源的组织。出版后,公司实体等。(5) Description:描述符、材料内容的文本说明(包括文档类对象的摘要或视频作品的内容说明)(6) Contributor :其他参与者项目在Creator元素(如编辑、情感源、跟踪者等)上(7) Date:发布日期主题,以ISO8601中规定的格式描述资源公开发布的日期。(8)描述Type:类型项目、主页、小说、诗、手稿、技术报告、论文、字典等资源属性的范畴或类型。资源类型通常从资源类型列表中选择,并且当前牙齿列表正在全面发展。(9)描述Format:格式项、表示显示和运行牙齿资源所需的软件或硬件信息的资源的数据格式
12、。为了提高互操作性,必须从格式列表中选择格式值。目前,牙齿目录正在全面发展。(10)唯一标识描述资源的字符或数字的identifier :标识条目。例如,您可以使用网络资源的URL、国际标准书号ISBN或其他规范名称作为标识值。(relation :关联项目,描述资源与其他资源的关系。例如,重组、翻译源、摘录源、格式转换源等。必须在“关联”列中选择关联值以确保互操作性。目前,牙齿列表正在改进。(12)唯一标识所述资源的派生源的源条目。如果当前资源是原始格式,则源项目元素不可用。(13)language e :语言项目,说明资源内容的说明语言。如果可能,牙齿字段的内容应符合RFC1766规定,如
13、ZH(ISO639)等。(14)描述资源空间或时间特性的coverage :时空范围条目。空间范围是指物理领域,来源于规范词汇的地名或全称。时间范围是资源的内容,而不是创建资源的时间(日期日期元素)牙齿。时间说明(通常为时间范围)与日期Date格式相同,或者使用规范列表中的时间范围说明或全名。(15)说明Rights:版权管理主题、资源版权宣言和使用范围。4.1数字信息资源说明和组织,DC的特点主要包括简单性、可修改性可扩展性、可重复性,可使用可用于15个元素所有学科或领域的资源说明的通用性限定符详细列出材料。目前,DC网络包含由一系列扩展元素、元素修改符、编码系统修改符、抽象模型、应用节目概
14、述等规范组成的标准系统,并成为一般资源说明,尤其是元数据语义信息说明的基本规范。牙齿体系仍在不断发展。DC有简单的DC和复杂的DC。简单DC是指DC上的15个核心元素(如标题、专题等)。与复杂的MARC格式相比,DC只有15个基本元素,根据DC的选择原则,您至少需要7个元素(标题、发行人、格式、类型、标记、日期和专题)。复杂DC是基于简单DC(如系统修饰符(SCHEME)、语言修饰符(LANC)和子元素修饰符(Subelement)引入修饰符的概念,从而使元数据特性更加明确。特别是通过系统修饰语吸收MARC的优点和各种现有分类、主题词等控制语言。4.1数字信息资源说明和组织,RDF资源说明框架
15、1。概览资源说明框架(RDF)是一种语言,用于表示有关全球资讯网中资源的信息。旨在表示对web资源的元数据,例如网页标题、作者和修改时间、web文档的版权和许可证信息以及孔刘资源可用的时间表。但是,如果概括“web资源(web资源)”概念,则可以使用RDF来表示有关web上可识别的所有内容的信息。有时不能直接从web上导入。例如,网络购物机构的产品信息(如规格、价钱和可用性信息)或web用户的信息传递偏好的说明。RDF不仅仅是人们可以看到的地方,而且在应用程序需要处理信息的情况下使用。RDF提供了一个通用框架,用于表示这些信息并在应用程序之间进行交换,而不会丢失意义。由于这是一个通用框架,应用程序计算机编程人员可以利用现成的通用RDF解析器(RDF parser)和通用处理工具。徐璐可以在其他应用程序节目之间交换信息,这意味着它也可以在应用程序中使用,而不是信息的最初作者。4.1数字信息资源说明和组织,资源说明RDF使用特定的术语集表示说明的各个部分。确切地说,在对事物(例如上例中的网页)的陈述中,用于标识事物的部分称为主体,区分陈述对象的主语的各种属性(例如作者、创建日期、语言等)的部分称为谓词,语句中区分每个属性的值的部分称为对象。因此,请考虑英语声明:http:/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业招商业务外包合同
- 青海机械劳务外包合同
- 2025年城市通勤骑行服时尚设计
- 外贸采购发货外包合同
- 中央空调安装外包合同
- 网易用户运营外包合同
- 屠宰场猪副产品外包合同
- 游戏美术设计外包合同
- 交通路标志路灯外包合同
- 工厂污水运营外包合同
- 2025年生态环境监测授权签字人考试题(含答案)
- 中医针灸师实践技能考核要点试卷及答案
- 宠物美容与护理操作手册(标准版)
- 肾内科慢性肾病管理工作制度及操作规范
- 光伏项目现场制度规范
- 2026年时事政治测试题库100道附答案【满分必刷】
- 施工围挡资源配置方案
- 2026年监考员考务工作培训试题及答案新编
- 2025年中国铁路哈尔滨局集团有限公司招聘294人参考笔试题库及答案解析
- 牛津树分级阅读绘本课件
- 域名权课件教学课件
评论
0/150
提交评论