




已阅读5页,还剩70页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于ontology异构数据转换技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古科技人学硕士学位论文 摘要 沮。现在已经成为i n t e r l l e t 上数据表示以及系统应用之间数据交换的事实标准。我 们知道,e d i ( e l e c 仃o i l i cd a t ah l t e r c h a j l g e ,电子数据交换) 技术一直以来是大型和跨国 企业问或内部数据交换的主要标准,但其费用高、实现技术难、可扩展性差以及需要专 用的增值网( v a j u ea d d e dn 刚收) 服务等缺点,使其无法大范围的应用。因此,就 需要新的技术或方法来解决异构数据之问转换的问题。这样,儿的出现有效的解决 了目前在w e b 中存在的大量异构数据资源共享的难题。 对于在i n t e n l e t 上异构数据的交换,针对不同数据类型需要有不同的转换机制,这 样才能实现真正意义上的数据交换,而且数据交换所要达到的真难目的是得到交换数据 所代表的含义,实现数据在含义上的交换,而不是单纯的数据本身交换。因此,我们需 要构建基于讧l 的语义本体模型,根据标准的语义本体模型将需要转换的数据转换, 这样就很容易使数据转换成其它类型。 在本文中,首先介绍皿。相关技术以及在数据交换中的应用;然后是关于语义、 本体概念的理解和引入这些概念的必要性;接着讲解基于m 。的语义本体模型的建立 和在课题中如何应用;最后是具体实现,即:关系数据与血数据和w o r d 格式文档 与v i l 数据转换的实现,以及对本论文的总结和展望。 关键词m 。;数据交换;本体;语义;语义本体模型 内蒙古科技大学硕士学位论文 s t u d yo ft r a n s l a t i n gt 代h n o l o g y t oh e t e 阳g e n e o u sd a t a b a s e do no n t o l o 科 a b s t r a c t n o w ,t h ex m l h a sb e c o m et l l ef 沁t l l a ls t a i l d a r do fd a t ar 印r e s e n ta n dd a t a - e x c h a n g e i nt h ea p p l i c a t i o ns y s t e m & i nm ei n t 锄e t a sw el 【1 1 0 、椰,e d i ( e l e c 仃o n i cd a t ah l t e r c h a l l g e ) t e c h n 0 1 0 9 yi sa l w a y sm ec e n 仃e s t a l l d a r do fi l l l l e fd a t a - e x c h a l l g ef o r1 a r g e锄d m u l t i n a t i o n a lc o m p a n y ;b m ,i tc a l l tw i d e - r a l l g i n ga p p l i c a t i o nf o r1 1 i 曲e x p e i l s e s ,c o m p l e x i n t e c h n i q u er e a l i z e ,h a r d i n e x p a j l s i b i l i t y a n dv a l u ea d d e dn c t w o r ks e i c e s e t c ;t h e r e f o r e ,m e r ei san e wt e c h n o l o g yo ran e ww a yt or c s o l v em ep r o b l e mo fm ed a t a e x c h a r i g eh a v i n gd i f f e r e n ts 协l c t u r eb ya d o p t m g s om u c h ,x m l o v e r c o m e sad i m c u n p r o b l e mt h a tr e s o u r c e sw e r cs h a r i n gt oa 盯e a tq u 卸t i t yo fd i f r e r e n td a t ai nm ew e b f o rt l l e d a t a - e x c h a l l g eh a v i i l gd i f f e r t s t m c t u r eb ya d 叩t i n gi nt h ei n t e m e t , a c c o r d i n gt od i f f e r e n td a t a - t y p eh a v eb e e nd i 髓r e n tt 删:1 s f o m l a t i o np r o c e s s e d ,i tc a i lj u s t r e a l i z ed a t a _ e x c h a n g e ,a n d 虹l er e a lp u r p o s eo fd a 协e x c h a i l g ci st h em e a n i n go fm ed a t a e x c h a l l g e ,n o to m s i d ed a t a - e x c h a l l g e s ow e s e tu pm o d e lo fo n t o l o g ) ,b a s e do ns e m a i l t i c , t ob ed a t a - e k c h a n g e do nm eb 硒i so fs t a j l d a r dm em o d e lo fo n t o l o g yb a s e do ns e m a n t i c ,a t t h es 锄et i l t l e ,i t sc o n v e n i e n tt ot a k ed a t a _ e x c h a n g et oo m e rd a t a - t y p e f i r s t ,1 e s i si n 仃d d u c e s v i lt e c h n 0 1 0 9 ya 1 1 di t sa p p l i c a t i o ni nd a t a - e x c h 趾g e ;s e c o n d , 粕u tm ec o m p r e _ h e n s i o no fs 锄枷c & o n t o l 0 窖yc o n c e p t sa n db e n e f i t ;t 1 1 i i d ,e x p l 血m e e s 讪l i s 岫e n to fm o d e lo f0 1 1 t o l o g yb a s e do ns 锄枷ca 1 1 da p p h c a l i o n 抽l i sm e s i s ;l a s t ,i t s r e a l i z 撕o ni 1 1n l i s 吐l e s i s ,缸s 蜘n a l i o n 批u tr e l a t i o nt o 沮,& w o r dt o ) 皿c o n c l 戚o n a n do u 们o o kt ot h et b e s i s k e y 、r d ) 0 m 。;d a t a _ e x c h a n g e ;o i l t o l o g y ; s 锄a n t i c s ;m o d e lo fq 炯l o 影b a s eo n s 锄锄t i c 一2 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并 表示了谢意。 签名:曼挺日期:2 丝:乏:! 乡 关于论文使用授权的说明 本人完全了解内蒙古科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 签名:垄煎导师签名:盘! 盍 兰日期:王塑笸! :尘 内蒙古科技大学硕士学位论文 l 绪论 1 1 课题背景 h l t 锄e t 作为一个最大的全球信息资源库【1 7 】,存在着复杂多样的数据类型和格式文 件,而且信息容量相当大。这样,对于应用软件开发人员就面临一个非常棘手的问题, 即:如何将网络中如此大量的异构数据进行转换,以实现系统间的集成。特别是近几 年,办公网络化进程的加快,企业内部电子文档的共享、企业间电子文档的交换需求都 急速增长。如:电子政务、远程教育等系统中,存在大量的复杂数据格式( h n 、 w o r d 、e x c e l 、p d f 以及关系数据库) ,面对如此多的系统的交互,必须解决数据交换 和集成的问题。因此,如何有效的组织、管理与正确的转换数据,满足用户不断增长的 信息需要,使用户方便、准确的获取信息,成为一项重要而迫切的研究课题。而沮, 的出现,为这一问题的解决开创了现实成功的可能。 1 1 1 订l 的优势 讧l 【“2 3 1 是由w 3 c 于1 9 9 8 年2 月发布的一种标准。与h 田一样,札也是 s g m l ( s t 锄d a r dg 训i z e dm m m p 娜a g c ,标准通用化标记语言) 的一个简化子 集,它将s g 融几的丰富功能与h t m i ,的易用性结合到w e b 的应用中。以一种开放的自 我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出 数据之间的关系。这样所组织的数据对于应用程序和用户都是友好的、易于操作的。 m 。良好的表示多种复杂数据关系的特点,使得基于。的应用程序可以在 订l 文件中准确高效地搜索相关的数据内容,忽略其它不相关部分。沮。还有其它许 多优点,比如它有利于不同系统之间的信息交流,并有希望成为数据和文档交换的标准 机制,这在w e b 服务等领域已经得到应用;另外,) m 几较严格的结构也有利于传统的 关系数据库对其进行支持( 即讧l - e n a b k dd a 胁a s e ) ,当然这也有利于原生讧l 数据 库m a t i v e 血d a t a b a s e ) 的实现。 1 1 2 咀。的应用领域 随着) 叫l 多项标准的制定以及人们普遍认识到x m l 的作用和巨大潜力,从而在 许多领域得到了广泛的应用。目前,m ,主要应用于以下几个领域删: 设计置标语言作为元置标语言,。为用户提供了定义本行业本领域的 置标语言的最好工具。目前这一应用的成功例子比比皆是,例如化学领域的 c m l ,数学领域的m a m m l ,移动通信领域的w m l ,等。 文件保值:“l 良好的保值性和自描述性使它成为保存历史档案( 如政府文 内蒙古科技人学硕士学位论文 件、公文、科学研究报告等的最佳选择。 数据交换数据交换无疑是) a 诅l 最令人激动的应用。数据交换的核心问题 是信息的标准化,主要解决信息的可理解性问题,包括人和机器对信息的理 解。而且,更重要的是机器对信息的识别,并能根据数据进行自动处理。) ( m l 的出现,为信息的标准化提供了有力的工具。由于不同的应用领域对数据的要 求千差万别,因此要想制订一个放之四海而皆准的数据交换标准是不现实的, 同时也是不必要的。最典型的作法是在同一应用领域制订一个标准,参与者按 照这个标准组织数据,就可以进行数据交换。比如,m 、切蛆s y s 和其他合 作伙伴定义的( v 匝m e t a d a t ai n t 幽g e ) 是一个存储和共享面向对象 的程序设计信息的标准。m i c r o s o f 【和m 撕m b a 合作提出的开放软件描述 ( o p e ns o f t 肌i r ed e s c 邱t i o n ,简写为0 s d ) 是用于描述软件的一个v 几标 准。由于数据交换在电子商务尤其是企业一企业电子商务的核心作用,v 儿 为电子商务带来了新的机遇和活力。 ( 1 ) 替代传统的e d i 电子数据交换( e 1 e c 嘶l i cd a l ai n t e i h a n g e ,简称为e d i ) 是m 。出现以前的 数据交换标准,用于在异构系统间交换数据并进行事务处理,但由于e d i 难于使 用和实施费用昂贵等缺点使得它没有成为数据交换的主流技术。的出现,使 得数据交换更为廉价和方便。 ( 2 ) 智能代理 智能代理能够理解接收到的数据,然后作出相应的反应。如果数据是结构化 的叽数据,智能代理就能够非常容易利用已有的知识库理解数据。订l 的出 现,为智能代理的发展提供了新的推动力。 w e b 应用由于x m l 是由s g m l 特别为w e b 简化的,因此订l 文档 将成为w e b 资源的重要组成部分,) 叫l 使得搜索引擎更为智能和准确。 ) a l 还可以用于建立多层w e b 应用。 ( 1 ) 集成不同数据源 v i l 文档可以用来描述包含在不同应用系统中的数据,从w e b 、页面到数据库 记录等,w e b 应用的中问层服务程序将这些用v 儿表示的数据组合起来,然后提 交给客户端或者进行下一步的应用。x m l 还提供了客户端包含机制,可以将多个 来源的数据集成在一个文档内显示。 ( 2 ) 本地计算 一2 一 内蒙古科技人学硕士学位论文 订l 数据传输到客户端后,客户端可以利用v 皿分析器对数据进行解析和操 作,在完成系统所需功能的同时,合理分配客户端和服务器的负荷。比如:数据库记录 可以直接传输到客户端,然后再进行排序,传统的删,就无法做到这一点。 ( 3 ) 数据的多种显示 ) 训l 具有内容与表现分离。“l 只描述数据的结构和语义,显示外观则通过样式 表文件( c s s 或x s l ) 进行描述。因此,只需在显示时配置不同的样式表,即可实现多 种显示效果。 ( 4 ) 网络出版 随着互联网的发展,网络已经成为一种新的媒介,人们在网络上发布各种信息,信 息的发布形式和发布语言也多种多样,其中基于v i l 的显示技术和显示语言发挥了重 要作用。比如e b o o k 、e n e w s p 印e r 等,就利用了订l 的显示语言。 ( 5 ) 支持w 曲应用的互操作和集成 w e b 界面定义语言( w 曲n e r = ed e f i l l i 缸o ni a n 目l a g e ,简称为w d l ) 是w 曲 m e 血o d s 定义的一个x m i ,应用,它是一个能够用于w 曲的资源和企业应用接口的语言 标准。通过它,w c b 应用可以自动存取w c b 资源及企业应用。 1 1 3 研究现状及存在的问题 1 1 3 1r d a t i o t ox m l 目前的技术已经支持关系数据的,发布或提供。视图,其中。大量中间件 ( 如s “k r o u t e 6 3 ) 支持以标准的v 匝方式( 如通过x q i l e 呦对关系数据源进行查询“1 , 这些技术在一定程度上实现了关系数据到。数据的映射和转换。但重点不在于这两 种数据的动态转换,而是将关系数据库作为v i i ,的存储手段。在结构化数据到。 数据的语义映射方面也取得了一定的成果,但这些工作大多是在两种s c h e r l l a 建立直接 映射,其中一个可以看作是另一个的视图。当讧ls c h 锄a 改变时,就要重新为他们建 立映射,实际应用不够灵活。 除了上述大量中间件对) 几的支持外,很多关系数据库也已经可以直接转换成 v 【l 数据,如s q ls e r v e r 、0 i 孔1 e 等数据库。在s q ls e e 1 2 0 0 0 以前版本中,微软公 司利用a d 0 ( a c t i v e xd a t ao b i e c t ,a c 廿v e x 数据对象) 可以方便的访问数据库数据。 但是,想从数据库中检索得到的数据以帆的格式显示出来就变的很难了。直到s q l s e r v e r 2 0 0 0 版本的推出才对讧l 有了较好的支持。下面来说明s o ls e r v e r 2 0 0 0 如何实 现l 的生成过程。 一3 一 内蒙古科技大学硕+ 学位论文 通过直接访问s q l s e c r 2 0 0 0 照示儿数据; 使用这种方式是通过将s q l 查询语句直接写入狮也的方式执行查询,即:打开 瑷( 融e m c t 脚i o 辩) 潮鼙器,在遗址栏中写入己双l :“脚:,秀o c a 强l o s 妇。糠确嘏鳓l _ s e 瓣 牝 f r o m 圯u s i 。涨嬲+ w h e r e + c 璐t o 玎蝌= a m 咐+ f o r + ) 洲i 十a i 聃& f 0 0 细o t ”语句,下面 就是通过这条s q l 语句生成的乩结莱。如图1 1 所示。 l ? 粥嘲v 黟硒l f ”l 。o ”e l l c o d 虮g 。”n 惟8 ”? | 。 。一。一 。, 。1 1 “ l e l h t o h l 廿i 蔫e l i s t o l n e r j 鼬= = ”0 心q 曩o n ”( ? o 呻a n ,嚏q a m 苛鬲”a l 谴l 辞、t 蛙啪e 1 1 01 翻q u l j a | | c :氍蛙璃毛n a 黼e 嚣a 瞰静撼。鑫莲释譬窖l 辩“e o n 壤士圭t 量较e 举o w h 挂! 蠡臻龄e s s = ”轰耘l 疆鼬l 精蕃2 3 量2 q 腾黔”蛳啦盼d ”p 删t a l e o d e 2 ”螂睨黝l 蚶妒”m e 心o ”p h 噼絮毒簧3 孵”, k ,r o o l 一 ,o 一。0 “ “。+ + ”l 。;。一一一一一一一。i 二j 王一:堡二。j 隧1 1 通过壬 聱访遮s s 删e 生成的) 泓l 数据 在这里我们分树一下这个啦地:“h 姊:俄o c _ 幽。晌。蚰州n d ”后巅跟了一个s q l 查 询语句,用采执行奁询数据库l 沁曲州n d 的任务。在本例中,我们使用的态询语句是 “s 嚣垤c t + 枣+ 豫o 知转q l 呶髓懿+ w 疆r 融q l s l c 粕踟d d an r 粥时”。遮注意,这条语句 已经被u 氆编码过了,其中的空格都被祷换成加号“十”,这样它才能被浏览器正确的 传送委l 数据痒中去,关予鞭编褥格式请您参阕撵关文栏。 在查谗语句之鼹,添鸯嚣了薅个薮的关键字:f o r ) 粼l 和越霓o 。f ( ) 冀涯l 关踺 字可以对现有的关系数据麾执行s q l 查询,以返回) m 也文档形式。a u t 0 模式则将 查途结果 擘海嵌套涮己元素返照,在鞭0 m 子匀蠹,每个在s e 糖c t 子旬中楚少 有一列被列出的表都表示为一个咂l 元素,s e l e c t 子句中列出的列映射到适溺的 元素特性,当指定了e i 麓m 盼滞s 选顼后,表裂映射蘩子元素面嚣特性。默谈蓊、甓 下,a u t o 模式将表列映射到砌m ,特性。 在f o r m 。a u t o 厢,还需要添加一个参数“r o o t ”,其参数值作为返回的l 文谇的玲o t 元素名。跑鲡说,你可蔽把上瑟我给蠢的例子中的d 的参数值设为 n o 曲w i n d ,你会发现,返回的) i l 文件中除了r o o t 元素名变为n o r n l w i i l d 了以外,其 它都没有变化。 一4 。 内蒙古科技人学硕士学位论文 支持r ( ,数据简化) 架构并且能够指定对这些架构的,a m 查询; ,a m 4 2 】查询也可以被内嵌进一个) m 几模板文件中,下面的代码是一个包含) o a m 查询的简单的儿模板文件。如图1 2 所示。 图1 2 ) a m 生成的数据 这个查询使用了一个架构( s c h e n l a ) 返回c u s b d m e r d 号为a i 肼( i 的用户的所有的 订单,如果想要使,a 吐1 语句运行,必须使用一个) r 架构文件映射不同的订l 元 素和属性到相应的数据库表和字段名。 虽然s q ls e r v e r 2 0 0 0 支持了订l 的导出,而且在最新的s q ls e c r 2 0 0 5 版本中 也对2 0 0 0 版中存在的问题作了改进。但由于一般都是直接的导出,缺乏规范约束,有 的结果不能方便的处理,只能在特定应用系统中采用。 我国在关系数据到v 皿数据转换的研究也非常热。如中国科学院也针对关系数据 到转换进行了大量的研究工作。他们将r d b _ x m i 吲建立结构上的映射,采用 基于表的映射和对象关系映射两种映射方式。这两种方法都可以作为在l 文档和 数据库( 尤其是关系数据库) 之间数据传输的软件基础。两种方法的一个重要特性是 仉文档和数据库之间的映射是双向的,既可以存储咀。文档又可以从数据库中获 取订l 文档。 基于表的映射 一5 一 内蒙古科技大学硕士学位论文 基于表的映射是最明显的映射,它将文档看作一个单一的表或者是一系列表的集 合,一列数据既可以被表示成文档p c d 扎类型的元素,又可以表示成文档元素的属 性。这种基于表的映射方式与关系型模式类似,对单一数据建模,仅可用于v i l 文档 的一个有限的子集到数据库的映射。 对象一关系映射 对象一关系映射通常是将元素类型看作类,而将属性和p c n a t a 看作这些类的特 性。这种基于对象的映射模式,将文档看作一个对象的树,其中每个对象对应于 v 叽文档中的相应数据,然后将这些对象映射到数据库中,从而实现) 洲l 文档与数 据库间的映射。这种映射模式可用于任何m 。文档到数据库的映射。 前面所介绍的各种砒) b 订i ,的转换在一定程度上解决了封沮。的转换,但都 没有语义上表示,就是我们得到的转换一般都是结构上的映射和转换。但是,在实践应 用中我们发现,很多情况下,需要得到的不仅是结构和数据本身,更重要的是获取的 v 匝数据内容表达的含义,也就是说需要理解这个v 儿数据的内容。显然,上面所 进行的转换是无法得到这样的结果的。 其实,国外对关系数据与m 。数据问基于语义的转换已经进行了一些研究,比如 l u c i 觚p o p am 等人利用逻辑关系( h 百c a lr c l a t i o n ) 为两种s c h 锄a 建立语义映射。我 吸取了其中的一些思想,提出了一种更有效、易操作的方法。引入语义概念来分析数据 间的语义,包括关系表之间的约束关系、m 。数据的嵌套层次结构、引用约束等,并 对语义做出明确定义。利用所构造的本体) 几s c t l e m a 与关系数据结构的语义表达相同 或相近原则建立对应关系,从而自动生成一个映射表,类型为沮。格式。这样有了结 构之间的映射关系,将关系数据转换成可理解的v i l 文件就变得非常容易。 在对关系数据转换。数据研究并实现完成后,我对w o r d 转换m ,作了一些 尝试性的研究,并通过定义自己的本体模型实例将两者的语义转换过去,从而方便在 h n 渊t 中传输和显示。下面就先介绍目前在w o r dt o ) 洲l 的研究工作。 1 1 3 2w 0 r dt 0x m l 我们知道,w o r d 文档中大量的有用的数据一般只能在w o r d 环境中编辑与显示, 没有语义信息,不适合数据存储、查询及数据交换,因此,从w o r d 到帆的转换有 着重要的意义。目前常用的从w o r d 到,的转换工具大致分四种类型1 4 圳: 一6 内蒙古科技大学硕士学位论文 户w o m 2 0 0 0 w o 吨0 0 0 部分提供了将w o r d 文档转换为v 见文档的功能。利用w o r d 2 0 0 0 ,可 以将w o r d 文档保存为h n 。这种转换仅仅是利用v i l 技术,从语法上将源w o r d 文档转换为沮。形式,其t a g 仍是h t m l 的t a g ,而且含有许多自定义的样式和命名 空间,并不包含语义信息,不是真正意义上的订l 格式。 孤立型 这种类型的转换器把w o r d 到) 口i ,的转换过程从用户编辑w o r d 文档的过程中分 离出来,它的输入是一个或多个w o r d 文档,输出是相应的。文档。典型的系统是 u 1 ) c a s t 【9 】,它需要首先将w o m 文档保存为彤陌格式。 u p c a s t 的转换过程如下: 首先读取要转换的r t f 文档,利用r ,r fc o 玎c 枷o n 模块分析文档的文本内容、布局 以及格式信息( 如标题,表格等) ,根据r t f 规范纠正其中可能含有的错误码。然后这些 经过预处理的数据被送到u p c a s t 自身含有的启发式模块,其中的启发式规则基于大量 样本实例文档,可以识别文档的语法和逻辑结构。该模块利用特定的启发式规则生成结 构化的舭输出文档。 这种孤立型转换器的优点是对大量遗留的文档数据可以批量的快速完成转换,具有 较高的效率。但是,这种全自动的转换技术的准确性和适应性较低,实用性较差。另 外,更为重要的是u p c a s t 转换后的,文档由c 抽a d i n g , , 等 元素构成,这仅仅反映了源文档的标题、段落、表格等布局和逻辑结构不含语义信息。 u p c a s t 没有完成基于语义的转换。这使得我们不能进行精确的基于语义的查询。 集成型 这种类型的转换器被集成到m s 一、b m 中。典型的集成型转换器是y a w c 1 0 1 ,它利 用了w o r d 自身的样式集合。w o m 中有很多预定义的样式来设定标题、段落及文本的 格式。同时,用户也可以自定义样式。 y a w c 的转换过程如下: 第一步:定义) 几元素名。y a w c 首先给出在w o r d 环境中存在的样式列表,让 用户从中选择样式。然后用户根据选定的样式,定义其相应的。元素名,同时用户 还需根据样式定义诅。的层次结构。这样在样式与m ,元素之间建立了对应关系, 形成转换规则。 一7 一 内蒙古科技大学硕士学位论文 第二步:编辑w o r d 文档。用户在w o r d 环境中编辑所要的文档。对于文档中的每 一个数据块( 例如文档标题,文档作者等) ,用户需为其设定一种样式,所设定的样式必 须已经在第一步中建立好对应关系,必须有与其对应的v 几元素。 第三步:转换w o r d 文档。y a w c 遍历源w o r d 文档,根据已建立的映射关系,查 找符合给定样式的w o m 文本,将定义的样式转换为) m 也元素的起始标记,并将符合 样式的b 耐文本内容转换为) 几元素的内容。转换完成后,生成) m l 文档。 这种技术在一定程度上解决了语义转换问题。它作为、0 r d 新添加的功能模块,以 插件的形式集成到w o r d 环境中,能够较容易地进行配置,方便了用户的转换过程。但 是,这种技术的缺点也是明显的。 首先,它很大程度上采用手工的方式,自动化程度较低。用户在每次转换之前都必 须手工地生成样式同) m l 元素之间的对应关系,对于结构复杂、数据量大的v 几文 档,创建与选择合适的w o r d 样式与,元素对应较为困难。而且用户还必须清楚 w o r d 的样式格式与v 匝的结构,这对用户来说要求较高。 其次,用户在每次编辑、r d 文档时,为了能够完成转换,都要设定各数据块的显 示样式,用户不仅要考虑数据本身,还要考虑其显示样式,当文档的数量较多时,工作 量是非常可观的。 最后,这种转换技术过于依赖y a w c 环境本身。用户必须在安装y 州c 的环境中 编辑待转换的w o r d 文档,并按y a w c 的要求设定样式。对于现存的己经编辑好的 w o r d 文档,用户不能立即完成转换,必须再次放到y a 、c 环境中重新编辑和设定,这 给用户造成了很大的不便。 分离型 在这种类型的转换器中,文档数据的编辑和显示环境是分离的。系统内部已经建好 各个语义项与其显示样式的对应关系。用户首先在带有语义提示信息的编辑环境中编辑 数据,编辑完成后,将具有语义结构的数据存为) 0 订i ,格式或存入到关系数据库中。若 要显示编辑后的数据,则根据各个语义项对应的规定显示样式,由专用应用程序组装成 具有一定显示特征的文档。 这种转换技术的最大缺点是用户的编辑环境和显示环境是分离的,不具有统一眭, 不支持所见即所得。而且,一般只支持h n 皿格式,编辑和转换均采用d o m 接口编 程完成,也不支持、v o r d 格式。如果要转换为w o r d 格式,必须用、r d 环境打开 h t m l 文档完成转换。而且,再将w o r d 转换为讧l ,仍需根据规定的显示样式与语 义数据之间的对应关系,由专用程序完成转换。这给用户的使用带来了许多不便。 一8 一 内蒙古科技大学硕士学位论文 1 2 课题研究内容 通过本文背景介绍,本文引入本体概念来构造本体实例,将不同结构但描述相同数 据的关系结构集中对应到本体实例上,从而形成统一的结构和规则,以达到,数据 语义上的理解。同时,又对无结构的、r d 文件转换m 。格式做了尝试性的研究并提 出一些自己的想法。 本文建立了基于b s 架构的转换系统、利用钟作为开发语言。重点研究关系数据 与x 儿数据之间语义的转换。在此之前,对相关的知识以及技术路线做必要的介绍。 在本文第二部分主要介绍v i l 及其相关技术,第三部分介绍语义、本体概念及应 用,第四部分介绍语义本体的构造及其关系数据与帆数据的映射和转换,第五部分 介绍w o r d 格式文件转换成v 匝数据以及构建的本体模型,第六部分是实例系统的实 现,最后一部分是对所研究的工作的总结和展望。 一9 一 蒙古科技大学硕士学位论文 本部分主要介绍论文重要的技术之一,口技术。首先对咀。做简要的说 明,然后是介绍x m l 的特点阻及语法规则,接着表述m ,文件结构以及样式显示, 虽后,重点介绍m 。核心技术一0 m 和s a x 。 2 1 v ,介绍 订l 是“e x t s i b km m 呻l 柚孵”的缩写,即可扩展标记语言。它基于种 成熟的标记语言s g m u s 伽1 d a r dg n z e dm 出e u pl a n g l l a g e ,标准通用标记语言) 的一个了集。具有i n t e m e t 环境中跨平台的、依敕丁内容的技术是用于处坪分布式结 构信息的选择工具。 2 i 1x m l 特点及语法规则 ) m 几是一种元标记语言( m e 睡m a r l n l pl a n g u a g e ) ,可提供描述结构化资料的格 式。m ,提供了一种独立于运行程序的方法来共享数据,它足用来自动描述信息的一 种新的标准语言。x m l 由若干规则组成,这些规则町用于创建标记语言,并能用一种 被称作分析程序的简明程序处理所有新创建的标记语言,平如h n 几为计算机用户订 阅h t e f n d 文档提供一种显示方式一样,x m l 也创建了一种任何人都能读出和写入的 世界语。) 叫l 能增加结构和语义信息,可使训算机和服务器即时处理多种形式的信 息。运用。的扩展功能不仅能从w 曲服务器下载大量的信息,还能大大减少网络 业务量。 也中的标盘( t a g ) 是没有预先定义的,使用者必须预定义需要使用的标志, ) o 血是能够进行白描述( s e l f d e s 廿i b i 职) 的语言。讧l 使用d t d 【i2 却( d ( 吼1 1 1 1 e n t t y p ed e n l l i t l o n ,文档类型定义) 来规范这些数据,x s l l 3 j ( e x t 口s i b l es 研e s h e e t l g g c ) 是一种来描述这些文档如何显示的机制,它是v i l 的样式表描述语言。 x s l 包括两部分:一个用来转换x m l 的方法;一个用来格式化。文档的方法。 x l l l 3 j ( e l s i b l e “n kl a l l g u a g e ) 是连接语言,它提供是对也的连接,与 h n 亿中的类似,但功能更强人。由于皿能够标记更多的信息所以它就能使用户 和轻松地找到他们需要地信息。利用x m l ,w e b 设计人员不仪能创建文字和图形,而 且还能构建文档类型定义的多层次、相瓦依存的系统、数据树、源数据、超链接结构和 且还能构建义档类型定义的多层次、相互依存的系统、数据树、源数据、超链接结构和 样式表, 1 0 内蒙古科技人学硕士学位论文 见文档由称为实体的存储单元组成,实体可以包含解析数据或没有解析的数 据。解析数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记。标记中 包含了对文档存储格式和逻辑结构的描述。 主要特点如下: 具有自描述性,高效并且可扩充。支持复用文档片断,使用者可以发明和使用 自己的标签,也可与他人共享,可延伸性大。 简单性。v 几整个规范简单明了,已由若干规则组成,这些规则可用于创建 标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语 一 口o 分层结构:信息组织层次性,符合现实物理世界信息组织方式,逻辑性可读性 好。比如:一个商品可以有品名、商品代码和价格,价格又可以有基本价格、 商品税和运输费等。 丰富的链接定义:对应于咖,单一的单向单通道链接,) m 提供各种不同 的链接,如一对多、多对一和双向链接。 多样的样式表支持:x m i ,把数据内容与表现形式分离。这样既可以只关心数 据的逻辑结构,也可以通过样式表来格式化数据的表现。甚至可以定义自己的 个人样式表来显示各种不同的。数据。 帆文档需遵守讧l 语法的一般规则,比如: v 几文档包含一个或多个元素,必须有且只有一个根元素,它不出现在其他 任何元素的内容中。 每个元素必须有起始和结束标记。 正确地格式化空元素。 开始标记和结束标记可以是大写或小写,但它们必须配对。 元素必须正确地嵌套,如果起始标签在另一个元素的内容中,则其结束标签也 在同一元素的内容中。 属性值必须用引号括起来。 2 1 2 文档类型定义( d 1 m ) 和) 几s c l l 锄a 一个x m l 文件遵守d t d ( d o c u n l e n tt y p ed e 丘i l i t i o n ,文档类型定义) 中定义的一系 列规定。d 描述了一个订l 文档的语法和词汇表,也就是定义了文档的整体结构以 及语法。简而言之,肼 d 规定了一个语法分析器需要解释一个“有效的”v i l 文件所 需要知道的所有规则的细节。d t d 原来是为使用s g 融儿开发的,它可以是小。文档 内蒙古科技人学硕士学位论文 的一部分,但是它通常是一份单独的文档或一系列文档。讧l 本身并没有一个通用的 d t d ,想使用v 几进行数据交换的行业或组织可以定义他们自己的d t d 。 d t d 标记声明可以是元素类型声明,属性表声明,实体声明,或符号声明: 元素类型声明指明了元素名称和元素可能的内容,内容清单精确地指明文档中允许 了什么和不允许什么,在元素名称上加上”木,、”? ”或+ 的标点以便指明它可能出现不止 一次,可能出现或可能不出现,或必须出现至少一次。 属性表声明可以用于详细说明与给定元素菜型相关联的每一个属性的名字,数据类 型,并提供了属性的缺省值。 实体声明定义了实体名和对应的实体值,从而提供通过应用包含) 。沮。文档信息的 方法,而不是直接把字符输入到文档中。 符号声明赋予符号一个名字用于实体中,属性表声明中和属性说明中,同时也给出 了一个符号的外部标识符使得l 处理器或它的客户应用可以定位能以给定符号处理 数据的助理应用。 皿。提供一种称为文档类型声明的机制,用于定义对逻辑结构的约束,支持预定 义存储单元的使用。文档类型声明指定了文档使用的d t d 。文档类型声明出现在文档 的序言部分,处在声明之后和第一个元素之前。它可以包括d r i d ,也可以标识d 1 巾 所在文档的i j i u 。一个合法的v 几文档必须符合文档类型声明指定的约束条件。而 且,已有的基本元素必须是在文档类型声明中指明的。 d t d 为应用程序、组织和兴趣组提供了共同遵循的方法,同时也以文档形式阐述 了标记标准并强制遵守此标准。例如,为了使一部著作易于排版,出版商会要求作者遵 循一定的格式。如果作者用订l 写作,那么出版商就能很容易地检查出作者是否遵循 了d t d 做出的预定格式,甚至找出作者在哪里以及怎样偏离了格式。这比指望编辑们 单纯地从形式上通读文档而找出所有偏离格式的地方要容易得多。 d t d 的功用很多,如:定义内容模式的数据类型。但它也有着一些缺点,如采用 了非沮。的语法规则,不支持多种多样的数据类型,扩展性较差,不支持名称空间 ( n 锄e s p a c e ) 等等。 因此,w 3 c 又推出了咀。s c 埘n a 【2 j 规范。事实上s c l l e i n a 也是皿,的一种应 用,它是将d t d 重新使用x m l 语言规范来定义。这从某种意义上讲正好体现了沮。 自描述性的优点。与d 巾相比,) 洲ls c h 锄a 具有如下一些优点【5 0 】: ( 1 ) 一致性:s c h e m a 建立在x m l 之上,它的样子和一般的x m l 文件完全相同,使 得订l 达到了从内到外的完美统一。另一方面,因为s c h e r t l a 本身也是一种订l ,可 一1 2 内蒙古科技大学硕士学位论文 以被现有的v i l 编辑制作工具所编辑、被讧l 语法分析器所解析、被) 0 v 几应用系 统所利用,既有投资得到了最大程度的保护。 但1 扩展性:s c h e n l a 中引入了丰富的数据类型,它们包括:布尔型,数字,日期时 间,切地,整数,十进制数,实数,时问段,等等。而且它还支持由这些简单的类型 生成复杂的类型,以及由用户定义的数据类型( 原型) 。 f 3 1 易用性:m 。s c t l c m a 取代d t d 的另一个原因要归结于d o m 和s a x ( 关于 d o m 和s a x 的概念将在后面介绍) 。作为一种。a p i ,d o m 和s a x 只是对沮。 实例文档有效,对于d t d 则无能为力,不能期望通过d o m 或s a x 来判定一个元素的 属性类型或者某个元素的子元素允许出现的次数( 当然,这都是) m 儿分析器的本职工 作) 。但是,一旦有了s c h 锄a ,这个问题便不复存在,因为对于。文档结构的描述 已变成为s c t 研n a 这种“形式良好的”) 0 匝文档,可以方便d o m 和s a x 去访问。 ( 4 ) 规范性:同d d 一样,s c h 锄a 也提供了一套完整的机制以约束讧l 文档中标 记的使用,但相比之下,后者基于v 匝,更具有规范性。s c h 锄a 利用元素的内容和属 性来定义,文档的整体结构,如哪些元素可以出现在文档中、元素间的关系是什 么、每个元素有哪些内容和属性、以及元素出现的顺序和次数等等,一目了然。 ( 5 ) 支持名称空间。 ( 6 ) 互换性:每个人都可根据需要设计适合自己应用的s c h e m a ,并且可以同其他人 交换彼此的s c h 锄a 。利用s c h c i i l a 能够书写皿文档,验证文档的合法性。另外,通 过映射机制,还可以将不同的s c h 锄a 进行转换,以实现更高层次的数据交换。 虽然v t l ,s c h 锄a 有d t d 所不具备的很多优点,但在短期内d t d 还是有着已 的优势的,广泛的工具支持所有的s g m l 和许多儿工具都支持d t d ;广泛的 应用有很多文件形式都支持;广泛的经验- d t d 应用多年,在实践中人们己积 累了许多宝贵的经验。 2 1 3 层叠样式表( c s s ) 与可扩展样式表语言( x s l ) 样式表( s t y l es h e c i ) 是一种专门描述结构文档表现方式的文档,它既可以描述这些文 档如何在屏幕上显示也可以描述它们的打印效果,甚至声音效果。样式表一般不包含在 m 。文档内部,而以独立的文档方式存在。与h l 描述数据显示方式的传统方法相 比,样式表有许多突出的优点: ( 1 ) 表达效果丰富:样式表可以支持文字和图像的精确定位、一维层技术以及交互操 作等,对于文档的表现力远远超过h t m l 中的标记。更重要的是,样式表的标准规范 一1 3 内蒙古科技大学硕士学位论文 独立于其它结构文档的规范,当需要实现更丰富的表达效果时,只需修改样式表规范即 可,不会牵涉到原始的l 文档内容。 ( 2 ) 文档体积小:在实际应用中,常常给相同名称标记下的内容定义相同的表现方 式,使用传统的方法需要在每个标记中予以描述,造成大量的重复定义。而在样式表 中,对于同个标记只需进行一次描述就足够了,明显缩小需要传输的文件的体积,提 高传输速度、节约带宽。 ( 3 ) 便于信息检索:样式表可以实现非常复杂的显示效果,但由于样式描述与数据描 述相分离,显示细节的描述并不影响文档中数据的内在结构。因此,网络搜索引擎对文 档进行搜索时,不会被种种显示描述标记所迷惑。 ( 4 ) 可读性好:样式表对各种标记的显示进行集中定义,且定义方式直观易读。这使 得它易学易用,可读性、可维护性都比较好。同时订l 文档也相对简洁、清晰,突出 对内容本身的描述功能。 正是由于样式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 流媒体技术考试题及答案
- 交通银行2025临沂市秋招面试典型题目及参考答案
- 农业银行2025大兴安岭地区秋招笔试专业知识题专练及答案
- 建设银行2025宜春市秋招笔试热点题型专练及答案
- 2025年3D打印的个性化定制
- 交通银行2025秋招英文面试题库及高分回答海南地区
- 2025行业消费者行为变化预测
- 农业银行2025南平市秋招笔试价值观测评题专练及答案
- 邮储银行2025三亚市秋招笔试性格测试题专练及答案
- 交通银行2025百色市小语种岗笔试题及答案
- 2025中国人民抗日战争纪念馆招聘4人考试模拟试题及答案解析
- 中国多发性骨髓瘤诊治指南(2024年修订)解读课件
- 果树栽培工专业技能考核试卷及答案
- 空调电费知识培训内容课件
- 2025排污许可条例试题及答案
- 2025年秋期新教材部编人教版三年级上册道德与法治教学计划+进度表
- 水工结构理论知识培训课件
- 粮库业务知识培训课件
- 医师临床“三基”训练综合试卷(含答案)
- 2025至2030年中国综合能源服务市场竞争策略及行业投资潜力预测报告
- 土地要素保障课件教学
评论
0/150
提交评论