




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Web时代的“元数据方法”(一)2008-11-20【转自数图笔记】Tag:元数据 web时代 数字图书馆 web2.o 电子书 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logs/31554968.html描述一类资源,首先需要明确为什么要描述,也就是明确需求。需求决定了那些实体需要析出,分别有哪些属性应该被描述,以及实体之间、属性之间的关系是什么。我们现在的”元数据方案”一般就管到这一步,成果是ER图和属性表,基本方法论就是实体-关系分析。基本功能交给关系数据库来实现。上面几乎和数据库系统的开发如出一辙。所不同的,我们的目的是建立标准化的、供行业(领域)或更大范围使用的”元数据规范“。即我们希望提供的属性表以及编码方案应该是可被大家共同遵守的、可共享和重用的。但是上面这种思考方法(“思考范式”),到了Web时代,虽然引入和“神秘的配方”元数据,也还是不够用的。1、 Web是一个开放的环境,其功能需求考虑的不光是”自己”的需求,这里的”自己”是指的是本地系统的”相关用户”,借用术语来说:”传统的需求定义只考虑了企业级应用范围内的各类代理(agent)的需求”,Web用户访问特定应用的目的和方式常常会超出系统设定的情境,并且Web用户是不接受”培训” 的,他们会有更多的”替代”选择,甚至你系统的look and feel不好,他们都会走人。因此一个优秀的Web应用,必须能够具有更好的可用性和更强的功能性,必须把更多的可能性置于你的”控制”之下,即便不直接开放,也要提供开放的可能性。2、这就是为什么很多数字图书馆的Web应用,不能仅仅以”实现需求”为目标,而要深层挖掘”为什么”的原因。特别是现在Web2.0概念引入,需求分析、设计、实现诸多流程合一,用户常常不仅要提出需求,还要介入设计,并且关心如何实现。大多数软件公司希望你明确定义需求,而采用什么平台技术架构来实现,不需要你来关心。这样开发出来的数字图书馆或2.0应用,虽然能够实现功能,但是几乎肯定不是一个“好的应用”。你可以责怪用户没有充分明确需求,很多隐含的需求没有提出来,但系统不好就是不好,谁都有责任。3、当然这个困境应该是由于软件工程还没有发展出相应的分析方法和设计工具,以及经验流程性的东西能够支撑Web级的数字图书馆或Web2.0应用的开发而造成,也并非任何一方的责任。4、 Web级的应用对于资源描述的需求可能就常常包含在那些未被提出的”隐含的需求”中,例如Web范围内的语义互操作、数据共享、代码(方案)可重用、永久保存的需要,以及相关技术标准和协议的支持和遵循等等。这些规范的研讨和制定,实际上也是为了将来省事:你只要遵循了我的这些标准规范,许多可能的”隐含需求”就自然而然能够的到满足,即便你的行为是无意识的,好处是奉送的。因此目前的”元数据方法“(全称应该是”Web资源描述的元数据方法”),已经超越了仅仅提出一套(不管是普适的,例如DC,还是领域的,例如IEEE- LOM或者DCAP)元素集的阶段,因为光是属性元素集是远远不够的。目前DCMI所做的,希望在思想方法上进行一定的统一,即:基于”我们如何看待这个世界”建立描述世间万物的一般方法,而建立起一个一致的思考模型(”抽象模型”);并且基于这个抽象模型,提出一整套的描述体系和元数据方案。语义Web技术可以提供这种方法的技术基础。可以说,我们正在向语义描述的”统一场论”进发。 Web时代的“元数据方法”(二)2008-11-20Tag:电子书 数字图书馆 元数据 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logs/31554980.html感谢雨师对上文的反馈:“高屋建瓴”。我可能总是把屋建得太高,让我慢慢落下来吧同样的世界,以不同的方法和角度去看,会呈现出完全不同的样子,不仅如此,甚至会看到完全不同的东西。由于计算机处理能力的提高和认识与技术的进步,人们越来越倾向于按照事物的本来面目去描述事物,只要能认识到这种“面目”。其中,面向对象(”搞对象“?)的方法被认为跟接近大千世界的本原(就不说“本体”了哈),也是当前计算机认识世界的主流方法,以前我们把万物仅仅看成是数字或文字,而世间万物都是相互独立而又普遍联系的,我们为什么不能在Web上建立真实世界的一种”面向对象”的虚拟镜像涅?都柏林核心元数据抽象模型(DCAM )就提供了这样一种“面向对象”看待世界的方法。它是为了向计算机描述我们这个世界而提出的,你可以设想向一群外星人解释我们这个世界,你应该如何向他们描述才能让他们理解呢?亚里士多德把世界看成是几种元素,我们到达不了那个境界(深度),只能说:世界都是由“东西”组成的,每个东西都是独立的,东西和东西之间又都是有联系的,认识东西就是认识它的特点(属性),不同的人可能看到不同的特点,把特点说出来就是描述。然后,外星人就懂了,说:“噢,我们那里也是这样的”DCAM是完全基于语义Web的基础RDF模型的,因此可以认为它是语义Web描述这个世界的一种基本方式。当然,向外星人解释这个世界不应该要求所有人都能干,这样的话”数字图书馆员“也就没有“核心竞争力”了。所以现在DCMI这一帮人(以及爱好者,如本人和平台江 等),以及SW(SemanticWeb)的一大帮人都在日夜奋战,希望能够提供许多方便的工具、平台或环境,使得同志们在按照惯常的方式工作的同时,规范的、外星人能够看懂的语义 描述能够“自动”建立起来。让大量的人文烟鬼继续并且更好地坑蒙拐骗、欺压百姓。上述的目标距离实现尚有很长的路要走。现在的重点工作,是基于DCAM,建立一整套面向应用的规范体系和架构。新加坡框架 就是这样提出来的。其目的是为“元数据方案”(DCAP: Dublin Core Application Profile)提供一套理论:一套完整的描述应该包括哪些内容?分别的作用是什么?哪些是定理(例如”用户永远正确“),哪些可以通融等等。其中最重要的,是有关DSP(Discription Set Profile:描述集方案)的定义和规定。都柏林核心元数据(DCM)现在是什么东西呢?它以15个基本元素著名,但它早已不是那个东西了,它已经成为一套体系,包括一个模型 (DCAM:Dublin Core Abstract Model,包括)和一套词表(Vocabulary:其中除了元素,又包括子元素针对属性词来说的;修饰词针对取值来说的,修饰词还有编码体系修饰词和“取值”修饰词),以及诸多 正在完善中的规定(新加坡框架及其编码)。欲知后事,且听下文。 Web时代的“元数据方法”(三)2008-11-20Tag:数字图书馆 电子书 元数据 web2.o 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logs/31554989.html就像用ASCII(或者Unicode)表示字符一样,RDF(Resouce Description Framework)是表达语义的基础。(有人把它直接叫做元数据编码标准,错是没错,过于狭窄了)。这时候你就不要管RDF也必然是基于字符集的,就像你一般不需要管字符的二进制表达一样。用了RDF之后,你就当机器天然是能够直接处理“语义”的。语义底下的“层次”(如提供字符交换的编码层,乃至提供网络交换的各类协议中的层次。想起来雨师特喜欢分层,很有道理)就让机器去管了,用术语说:字符编码在这时候是对你是透明的。于是,计算机就能像字符匹配一样,能够进行语义匹配了(记住:URI在这整个技术架构中是极其重要的,机器没有人聪明,只有通过URI来判断唯一性和同一性,而人是可以经常偷换概念的)。语义匹配除了像字符匹配那样可以做“全等”运算,还可以把传统文本检索中的许多“智能”提取出来,进行标准化和模块化(也是一种“层次化”),例如同义词概念匹配,概念族的关联,跨系统的语义互操作等,在文本检索中只能作为系统内嵌的功能,而在语义层面它可以是独立的模块或网络服务,结合领域应用(似乎“普适”的智能已经走到了尽头,需要领域应用才能突破),这种智能能够挖掘出更多的东西,其威力是非常巨大的,现在才刚露端倪您猜对了,这当然就是目前大热门的本体技术。这里可能需要解释一下什么是“语义 ”,语义:semantics,is the meaning of meanings,即“表达”背后的含义,“表达”可以是文本,图像或任何其它东西。我一直很纳闷李爵士当初为什么不用Knowledge Web这个词,而用了Semantic Web,敢情“知识”一词含义太多,涉及到认知过程,一团浆糊,抑或已经被“人工智能”弄得臭不可闻了。现在越想越有理,Semantic,而不是Knowledge,高,就是高!RDF是“资源-属性-属性值”三元组,每一个三元组就是一个语义的基本单元。例如“红楼梦-作者-巴金”(别笑,我知道巴金不是曹雪芹,语义表达并不是语义判断!),这个句式表达了一项基本语义。它可以用XML版本的RDF来表示,也可以用N3来表示,也可以什么东不用就用上面的句式来表示,等等,只要是三元组,都是RDF。别相信赵同学说你不对,自信点。你知道了语义表达可以用RDF作为基本单位。那么,请听题:”巴金-是-作家“是三元组吗?”巴金不是曹雪芹”该如何表达呢?这些问题暂且按下不表,继续来看“元数据”。这种思考是一种典型的“思考范式的转型”,不要说不懂技术的,很多搞技术的人至今也转不过来。甚至有技术大牛甘做钉子户(例如RSS2.0,放弃RDF还振振有词。试想如果Feed都是RDF,现在不是像FOAF一样,又多了一个海量语义库了吗?),觉得干嘛那么麻烦!典型的技术实用主义,愚昧啊! Web时代的“元数据方法”(四)2008-11-20Tag:电子书 数字图书馆 元数据 web2.o 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logs/31555025.htmlWeb上的所有东西,可以看成文本(或数据流),也可以看成是一个个独立的的“资源(resource)”,或者看成这两者的混合(本来就是)。标 识符是“资源”是否具有独立性的基础,是核心,决定了“资源”的归属、身份、获得途径,等等。标识符体系包括了解析体系。在这个体系里,国家不分大小,一 律平等。国家 内部可以有不同的制度,无论多复杂,都可以交给ORE来负责(听说最近牛排正在研究这个,赞一个!)。目前的技术架构,URI已成主宰,各类Handle 方式基 本上以URI为依托,虽说无奈,倒也无伤大雅,好在DOI等Handle系统也是独立的,离了URI,只要有另外的体系能够取代URI,也能存活。记得 DC的创始人Stu Weibel曾有一阵专门研究取代URI的体系,现在也不知下文了。这些理论问题就不多言了。因此,有没有URI 是“是不是资源”的 充分必要条件。至此我们接受了这样一种世界观:网络上的东西,除了有URI的“资源”,就是没有URI的文本字串(literal或string),无 它。(在此我们不讨论“网络上的资源是现实中事物的指代”这样一个哲学跨越,以及由此带来的认识论问题。) 任何一个描述,都要明确,描述的对象是什么。无论是什么,都应该是一个网络存在,都有URI。(此乃描述的“资源模型”) 任何一个描述,都要明确,描述的是什么。即如果描述颜色,就说“颜色”或“color”,描述作者,就说“作者”、“创建者”或“creator” 你立刻会发现,这里面有着“属性词”(也称为“术语”term,其实就是元数据元素metadata elements)统一的问题。这其实就是元数据标准规范所要做的:规范属性词。所有的属性都有URI,因此也都是资源,于是都应该有管理主体对其“负责“ 。由此可知,是不是DC元素(属性词)其实并不重要,只要大家都和谐相处。和谐相处的前提是,遵不遵从这个“资源模型”,因为不遵从这个模型,就有可能不遵从属性词与资源对象的对应关系,或者资源对象在网络上没有“户口”(URI),整个描述体系就会乱套。而遵从这样的体系,将来国家语委的工作就比较好了,同理,很多领域知识也可以管理起自己的”领域概念“,不方便的话托管给图书馆来管也可以。目前”维基百科“已经在做此类事情了。将来所有的概念都有名有姓,有“监管”了。换句话说,网络上的每一句话每一个词都有出处,就有意思了。当然,这并不妨碍你发明自己的火星语,只是发明的火星语也需要有众多的URI管理起来)。(这就是“描述集模型”) 任何一个描述,其属性取值可以是互联网上的任何东西,自然就包括有URI的资源和没有URI的文本字串。是“资源”当然也可以像上述属性词一样进行规 范,包括取值体系规范(例如年代的表示规范)和值域规范(从值的列表中选取,例如国家列表、各类复分表,以及大量的KOS词表等)。当然,文本字串是最常见的“值”。(这里涉及 “词表模型”) 上述三个成份,构成描述的基本单元:一个RDF表达,也叫陈述(statement)。 一条资源描述可以由多个陈述(statement)组成,即多个属性和属性值对描述一个URI所标识的资源; 多条相关的资源描述构成一个描述集(Descri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 街道消防安全事件的应急预案
- 表设备采购招标文件
- 江苏省南通市海安高级中学2024-2025学年高一下学期6月阶段检测地理试卷(含答案)
- 河北省石家庄市第四十中学2024-2025学年七年级下学期期中生物试题(含答案)
- 财务会计子系统的解决方案(一)
- 2025年广东省深圳市育才二中中考英语三模试卷(含答案)
- 幼儿心理学教案得力文库
- 2024-2025学年下学期高二生物人教版期末必刷常考题之种群及其动态
- 2024-2025学年下学期高一生物沪科版期末必刷常考题之基因重组造成变异的多样性
- 建筑施工特种作业-建筑起重机械安装拆卸工(施工升降机)真题库-4
- 三维网客土喷播植草护坡方案
- 白酒经销商与酒店合作协议书模板
- 天棚帘施工方案
- 《积极心理学(第3版)》 课件 第4章 乐观
- 户外广告牌施工方案
- 国家开放大学本科《商务英语4》一平台机考真题及答案(第三套)
- 传统文化与生态文明建设智慧树知到期末考试答案章节答案2024年云南大学
- YYT 0698.5-2009 最终灭菌医疗器械包装材料 第5部分:透气材料与塑料膜组成的可密封组合袋和卷材 要求和试验方法
- 广东省佛山市南海区2021-2022学年八年级下学期期末数学试题
- 糖尿病家庭医生:签约讲座计划
- 呼吸衰竭诊疗规范
评论
0/150
提交评论