版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1信息资源的组织与存储信息描述信息揭示信息资源的组织方法信息资源索引系统的建立第一页,共72页。2信息描述信息描述(informationdescription),是根据一定的描述规则和技术标准,对信息的外在特征和部分内容特征进行分析、选择和记录的过程。一种初级的信息组形式第二页,共72页。3信息描述的程序查重描述复核并输入系统第三页,共72页。文献的著录第四页,共72页。文献的著录第五页,共72页。文献的著录第六页,共72页。7信息描述规范《中文书刊名称汉语拼音拼写法》(GB3259—82)《检索期刊条目著录规则》(GB3803—83)《文献著录总则》(GB3792.1—83)(GB/T3792.1-2009)《普通图书著录规则》(GB3792.2—85)《连续出版物著录规则》(GB3792.3—85)《非书资料著录规则》(GB3792.4—85)《档案著录规则》(GB3792.5—85)《地图资料著录规则》(GB3792.6—86)《古籍著录规则》(GB3792.7—87)《文后参考文献著录规则》(GB7714—84)(GB7714—2005)第七页,共72页。8信息描述规范《文本编码倡议》(TextEncodedInitiative,简称TEI)《都柏林核心集》(DublinCore,简称DC)《政府信息定位服务》(GovernmentInformationlocatorService,简称GILS)《联合地理数据委员会的数字地球空间元数据》(ContentstandardDigitalGeospatialMetadata,简称CSDGM)《可视资源核心范畴》(CoreCategoriesforVisualResources,简称CCVR)《编码档案描述》(EncodedArchivalDescription,简称EAD)《博物馆信息的计算机交换》(ComputerInterchangeofMuseurnInformation,简称CIMI)第八页,共72页。9文献著录总则第九页,共72页。10传统文献的描述著录著录:依据一定的规则,对文献外表形式、物质形态和内容特征进行分析、选择和记录的过程,其结果为款目。著录项目图书外表的文字记载:书名、责任者、出版发行情况图书的物质形态:页数、图、尺寸、开本、装订、附件第十页,共72页。11著录项目ISBD(InternationalstandardBibliographicDescription国际标准书目著录)ISBD(G)的八大著录项目题名与责任者说明项版本项材料或出版类型特殊细节项出版发行项载体形态项丛编项附注项文献标准号及获得方式项第十一页,共72页。12ISBD文献描述格式正题名=并列题目:副题名及说明题名文字/第一责任者;其他责任者.—版次及其他版本形式/与本版有关的责任者.—文献特殊细节.—出版发行地:出版发行者,出版发行年(印刷地:印刷者,印刷日期)页数或卷册数:图;尺寸或开本+附件.—(丛编名/负责者,国际标准连续出版物编号;从编编号附属从编)附注国际标准书号;中国标准书号(装订):获得方式提要Ⅰ.题目Ⅱ.责任者Ⅲ.主题词Ⅳ.分类号第十二页,共72页。13ISBD中文信息描述(专著)实例乱世佳人=Gonewiththewind/(美)米切尔(Mitchell,M.)著;黄怀仁,朱攸若译.—杭州:浙江文艺出版社,1991.41034页;20cm本书另有译名:飘ISBN7-539-0367-6:¥10.70Ⅰ.乱…Ⅱ.①米…②Mitchell③黄…④朱…Ⅲ.长篇小说Ⅳ.I712.45第十三页,共72页。14AACR21978:theAnglo-AmericanCataloguingRules:2组成著录(书目描述):对各种文献的著录格式规定,依据ISBD标目、统一书名和参照:对著录标目的选择、个人和团体标目、地理名称、统一书目作了规定第十四页,共72页。数字信息资源的描述关于数据的数据,或关于数据的结构化的数据。早期主要指网络资源的描述数据,用于网络信息资源的组织;目前,实际用于各种类型信息资源的描述记录。元数据(Metadata)第十五页,共72页。什么是元数据例如,在一个大型的医疗卫生机构,拥有一个专门的数据资料管理机构,来统一管理各类需要提交和归档的数据资料。这些要统一入库归档的数据各不相同:从数据内容来看,可能有管理类、业务类和科学研究类;从学科来看,可能有基础医学、临床医学、预防医学等等;从存储类型来看,可能有DBase、EXCEL、文本文件等等;……总之,内容、结构、数据量、介质各不相同。第十六页,共72页。当我拿着自己的数据光盘去入库归档的时候,管理员要求我填写一张关于要入库数据的表格,以便于管理和查阅。填好这张关于要入库光盘的表格,就是这张光盘中数据的元数据!而这一张表格所规定的要填写的内容(以及填写规定),就可以看作是这个单位内部的“元数据标准”!第十七页,共72页。这张表格每填写好一张,就可以录入成为元数据库中的一条元数据记录:我们把这张表格中所规定填写的项目,作为一个一个的属性字段,可以建立一个关于元数据的数据库———就是元数据库:第十八页,共72页。这时候,这张“表格”上规定的内容,以及关于填写的一些规定,就可以看作是《医药卫生科学数据共享网元数据标准》对医药卫生科学数据共享网来说,针对每一个共享数据集,都要以元数据著录的形式来“填写”一张这样的“表格”。第十九页,共72页。网络信息资源描述的相关标准《文本编码倡议》(TextEncodedInitiative,简称TEI)《都柏林核心集》(DublinCore,简称DC)《政府信息定位服务》(GovernmentInformationLocatorService,简称GILS)《联合地理数据委员会的数字地球空间元数据》(ContentStandardDigitalGeospatialMetadata,简称CSDGM)《可视资源核心范畴》(CoreCategoriesforVisualResources,简称CCVR)《编码档案描述》(EncodedArchivalDescription,简称EDA)《博物馆信息的计算机交换》(ComputerInterchangeofMuseumInformation,简称CIMI)
第二十页,共72页。21中文元数据标准中国国家图书馆:中文核心元数据集22个元素名称、主题、版本、内容摘要、内容类型、语种、内容覆盖范围、内容创建者、其他责任者、内容创建日期、出版、出版所有者、资源标识符、版权说明、数字资源制作者、数字资源制作日期、数字资源制作地、权限声明、公开对象、操作许可、许可行为、许可协议,其中包括了DC的大部分元素。该方案的特点是数据元素由描述、结构、管理3种元数据类型组成,并支持数字资源的保持和检索利用。第二十一页,共72页。22MARC机器可读目录:MachineReadableCatalogue以编码形式和特定结构记录在计算机存储载体上的,由计算机程序自动控制、处理与编辑输出的目录。CNMARC是中国机读目录(ChinaMachine-ReadableCatalogue),1992年2月正式出版《中国机读目录通讯格式》,即CN-MARC。第二十二页,共72页。23CNMARCCNMARC基本字段介绍中文(普通)图书CN-MARC著录格式分类:默认栏目标识块指示符文字数据头标区无标识字段号、指示符、子字段标识符,定长24个字符001记录标识号010|aISBN号|b装订方式|d获得方式和/或定价|z错误的ISBN号100|a通用处理数据,定长36个字符1010|a正文语种|b中间语种|c原作语种102|a出版或制作国|b出版地区105|a图书编码数据106|a文字资料代码—物理形态标志第二十三页,共72页。24CNMARCCNMARC基本字段介绍2001|a正题名|b一般资料标识|c另一作者的正题名|d并列题名|e副题名及其他说明题名的文字|f第一责任者|g其它责任者|h分册(辑)号|i分册(辑)名|v卷册号标识|z并列题名语种|9正题名汉语拼音205|a版本说明210|a出版、发行地|c出版、发行者名称|d出版、发行日期215|a类型标识和文献的数量及单位|c其它形态细节|d尺寸或开本|e附件225|a正丛编题名|d并列丛编题名|e丛编副题名及其它信息|f丛编责任者|h分册(辑)号|i分册(辑)题名300|a一般附注内容327|a内容附注内容461用来连接本著录实体所从属的丛编的有关数据,设子字段|1606|a主标目|x主题复分|y地区复分|z年代复分690|a分类号|v版次7010或1|a人名—等同责任者款目要素|b名称的其它部分(不包括款目要素)|4著作责任|9款目要素汉语拼音7020或1|a人名—次要责任者款目要素|b名称的其它部分(不包括款目要素)|4著作责任|9款目要素汉语拼音7110或1|a团体名称—等同责任者款目要素|4著作责任|9款目要素汉语拼音7120或1|a团体名称—次要责任者款目要素|4著作责任|9款目要素汉语拼音801|a国家代码|b机构名称代码|c处理日期905|a收藏馆代码|b登录号|d分类号|e书次/种次号|f复本数|v入藏卷期|y年代范围第二十四页,共72页。25CNMARC第二十五页,共72页。26MODS元数据描述对象模式:MetadataObjectDescriptionSchema2002.6美国国会图书馆:采用XML描述书目数据MODS有20个元素,包括TitleInfo(题名信息)、Name(名称)、TypeofResource(资源类型)、Genre(体裁形式)、OriginInfo(出版信息)、Language(语种)、PhysicalDescription(载体形态描述)、Abstract(文摘)、TableofContents(目次)、TargetAudience(目标读者)、Note(附注)、Subject(主题)、Classification(分类)、RelatedItem(相关文献)、Identifier(标识符)、Location(馆藏位置)、AccessCondition(获取条件)、Part(部)、Extension(扩展)、RecordInfo(记录信息)。每个元素又具有数量不等的子元素,并采用W3C的XMLSchema语言来表达主元素、子元素以及它们的属性。MODS优点:适合用于描述各种较复杂的数字化资源。第二十六页,共72页。27MODS第二十七页,共72页。RDF&XML*RDF(ResourceDescriptionFramework):RDF是第一个有关构建语义网络的推荐标准,它提供了一种技术标准来描述Web上的词汇、编码和元数据(Metadata),并建立这些对象与Web上丰富资源之间的联系。RDF于1999年2月发布,至今仍是最重要的语义Web方面的技术标准,也是其他技术的基础之一。
第二十八页,共72页。RDF&XMLW3C(WorldWideWebConsortium),W3C理事会或万维网联盟。W3C于1994年10月在麻省理工学院计算机科学实验室成立。创建者是万维网的发明者TimBerners-Lee。是对网络标准制定的一个非赢利组织,像HTML、XHTML、CSS、XML的标准就是由W3C来定制。
基于W3C的组织原则和工作宗旨,以及Web的实际应用情况,W3C提出了其长远目标,包括3个方面的内容,分别是:*建立一个普遍的、全社会易于使用的公共网络环境;*Web上的语义可管理和正确使用;*Web应该是安全可信的。第二十九页,共72页。30RDF万维网联盟W3C1997.10RDF资源描述框架:ResourcesDescriptiononFrameworkRDF是一个用于描述Web上的资源的框架RDF提供了针对数据的模型以及语法,这样独立的团体们就可以交换和使用它RDF被设计为可被计算机阅读和理解RDF被设计的目的不是为了向人们显示出来RDF使用XML编写RDF是W3C语义网络活动的组成部分RDF是一个W3C推荐标准第三十页,共72页。31RDF-应用举例描述购物项目的属性,比如价格以及可用性描述Web事件的时间表描述有关网页的信息,比如内容、作者以及被创建和修改的日期描述网络图片的内容和等级描述针对搜索引擎的内容描述电子图书馆第三十一页,共72页。32RDF规则RDF使用Web标识符来标识事物,并通过属性和属性值来描述资源。资源是可拥有URI的任何事物,比如"/rdf"属性是拥有名称的资源,比如"author"或"homepage"属性值是某个属性的值,比如"David"或""(请注意一个属性值可以是另外一个资源)第三十二页,共72页。33RDF示例第三十三页,共72页。34RDF示例第三十四页,共72页。35XMLeXtensibleMarkupLanguage,简称XML,可扩展标记语言,通过此种标记,计算机之间可以处理包含各种信息的文章等。组成模式Schema可扩展样式语言XSL可扩展链接语言XLL第三十五页,共72页。36XML示例1simple.xml第三十六页,共72页。37XML示例2simple.xsl第三十七页,共72页。38XML示例3simplexsl.xml第三十八页,共72页。395.2信息揭示信息揭示是信息组织的中级形式,对信息的内容特征进行深层揭示并转换成主题标识,形成一个科学的逻辑概念标识系统。5.2.1信息主题5.2.2信息揭示的一般程序5.2.3信息标引第三十九页,共72页。405.2.1信息主题主题《文献主题标引规则》(GB/T3860-2009):文献所具体论述与研究的对象和问题ISO5963-1985(E):表达文献中心论题的一个概念或若干个概念的组合主题:指一个具体信息实体所介绍、论述、研究、说明、表现的对象或问题。第四十页,共72页。41信息主题结构《文献主题标引规则》构成主题的因素主体因素(研究对象)方面因素或限定因素(成分、材料、方法、过程、条件、状态、尺度、性质)空间因素时间因素文献类型第四十一页,共72页。42信息主题的类型分类依据类型信息主题的数量单主题信息、多主题信息主题概念的数量及其关系单元主题、复合主题、联结主题信息记录对主题论述的重要程度主要主题、次要主题信息记录主题与存取系统专业的相关程度专业主题、非专业主题信息记录论述形式显性主题、隐性主题主题概况的文献内容范围整体主题、局部主题第四十二页,共72页。435.2.2信息揭示的一般程序主题分析->主题概念转换主题分析:通过审读文献而了解文献内容及其表现形式,选择内容单元而确定文献主题数量,概括单元内容形成主题概念,分析主题的结构和类型,并在必要时判断主题的学科专业属性的一种智力劳动。主题概念转换:将主题分析的结果归入分类体系中相应的门类。第四十三页,共72页。445.2.3信息标引也称文献标引,是信息揭示的最主要手段,是根据文献的特征,赋予文献检索标识的过程。信息标引?第四十四页,共72页。45tf.idf加权示例第四十五页,共72页。46tf.idf加权示例(续)第四十六页,共72页。信息组织方法
1、信息组织:是让信息有序化2、基本方法:按照文献的外部特征来组织信息引用法索引法目录法用按文献的内容特征来组织信息分类法主题法文摘法
第四十七页,共72页。485.3信息资源的组织方法语法信息组织方法字顺组织法代码组织法地序组织法时序组织法语用信息组织方法分类组织法主题组织法语义信息组织方法权值组织法概率组织法第四十八页,共72页。49文献实体型信息资源的组织方法分类组织语言体系分类法组配分类法主题组织语言标题法单元词法叙词法关键词法第四十九页,共72页。等级列举式分类法是将所有的类目组成一个等级系统。一般的是等级式树状结构,最终形成一个比较完整的等级链。举例:I文学
I0文学理论
I0-02文学的哲学基础
I0-03文学的方法论
I0-05文学与其他科学的关系
I01文艺美学
I02文学理论的基本问题
I021文学的民族化、大众化
I022文学与现实生活
I023文学的普及与提高
I024内容与形式
I025典型与形象
I026文学遗产的批判继承
I03文艺工作者第五十页,共72页。C社会科学总论D政治、法律E军事G文教、科学、体育J艺术K历史、地理
自然科学总论NO数理化P天文学、地球科学医药、卫生工业技术U交通运输V航空、航天X环境科学Z综合性图书社会科学自然科学机械、仪表
马列主义、毛泽东思想A马列B哲学哲学综合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工业技术矿业工程无线电、电子学、电讯技术自动化计算化学工业轻工业、手工业金属学动力工程原子能技术电工技术水利工程中图法展开图石油冶金工业武器工业建筑科学F经济H语言I文学Q生物科学RS农业科学T第五十一页,共72页。分类法线分类法线分类法的典型案例国家标准有《中华人民共和国行政区划代码》(GB/T2260—1999)(以下为河北省部分案例)其他案例:《国民经济行业分类与代码》(GB/T4754—1994)和《职业分类与代码》(GB/T6565—1999)
第五十二页,共72页。分类法面分类法面分类法的典型案例某高校教师分类编码第五十三页,共72页。分类法混合分类法1、混合分类法的基本思想用线分类法为主形成的分类体系中有些部分需要采用面分类法;用面分类法为主形成的分类体系中也存在部分用线分类法定义的类目。这种分类方法称为混合分类法。2、案例:上述教师的面分类体系中的从事专业,又可以分为学科门类(如管理学、工学等),学科门类下设若干一级学科,每个一级学科一般设有若干二级学科。这样,从事专业这一面可按线分类法分成学科门类、一级学科、二级学科三个层次,如表2.3所示。其中,一级学科用三位数字表示,二级学科用两位数字表示;一、二级学科之间用点隔开。
第五十四页,共72页。网络信息资源组织模式1.文件方式文件方式常作为网络信息资源管理的辅助形式,作为其他信息组织方式的补充。FTP以文件目录的形式来组织信息资源。2.数据库方式将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其主配查询,就可以找到所需要的信息线索,并通过信息线索直接连接到相应的网络信息资源。
第五十五页,共72页。数据库组织方式原理图客户端服务器结构化查询检索结果输入检索式数据库检索结果启动相应的应用程序,包括相应的ISAPI、CGI、ASP等应用程序浏览执行SQL查询第五十六页,共72页。
3.主题树方式信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直至找到所需要的信息线索,并通过信息线索直接找到相应的网络信息资源。Yahoo!等门户网站、4.超媒体方式用超媒体方式来组织网络信息资源,就是将网上所能获得的各种媒体的相关信息资源利用超文本技术有机地编织在一起。第五十七页,共72页。网络信息资源的组织方法语言组织方法分类组织方法主题组织方法元数据组织方法本体组织方法
自由分类法第五十八页,共72页。59/79Folksonomy&Tag?第五十九页,共72页。自由分类法的内涵与发展自由分类法是用户自发的用标签(Tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。2005年初,自由分类法作为一种由用户参与和主导的信息组织方式,在Yahoo等门户网站迅速流行,成为与TheLongTail,RSS,blog,Ajax,Podcast一样众人关注的焦点,也预示元数据新的应用模式。自由分类法(Folksonomy)是由Folks和Taxonomy组合而来,Folks在英文中是比较口语化的词,表示一群人,一伙人的意思。Taxonomy则是指分类法,它是信息构架(InformationArchitecture)中一个重要部分。而Folksonomy是指“群众”自发性定义的平面非等级标签分类,称为“自由分类法”或“通俗分类法”,还有人称之为“大众分类法”、“民俗分类法”。第六十页,共72页。Folksonomy
简单理解这个概念就是Tags(标签)。Folksonomy就是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。第六十一页,共72页。例子:举一个简单例子,当我们在收藏S时,自定义了“门户”,“中国”,“新闻”这3个关键词作为标签,而其他人在收藏S时也自定义了自己的关键词作为标签。而最后系统统计出来使用“门户”,“中国”,“新闻”这个3个关键词来定义S的频率最高,那么这3个词就是用户对S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《GB-T 24445-2009单螺杆饲料原料膨化机》专题研究报告
- 《python语言程序设计》课件-项目实战 构件基本信息录入与展示
- 运维方案设计服务协议
- 2025年度江苏省铁路集团有限公司秋季校园招聘笔试参考题库附带答案
- (2025)70周岁以上老年人换长久驾照三力测试题库(附答案)
- 2025年数控超精密车床项目发展计划
- 2025年商业保理项目发展计划
- 宫颈癌的疫苗预防
- 青少年营养不良防治
- 员工违法犯罪课件
- 2025年广东省第一次普通高中学业水平合格性考试(春季高考)英语试题(含答案详解)
- 2026年合同全生命周期管理培训课件与风险防控手册
- 特殊儿童沟通技巧培训
- 理赔管理经验分享
- 中国马克思主义与当代2024版教材课后思考题答案
- 2026年日历表(每月一页、可编辑、可备注)
- DB44∕T 1297-2025 聚乙烯单位产品能源消耗限额
- 2025年历城语文面试题目及答案
- 装修合同三方协议范本
- 讲给老年人听的助听器
- 大清包劳务合同样本及条款解读
评论
0/150
提交评论