




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)有效的web股票信息系统建模方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着我国经济的持续快速发展,股市在经济发展中的作用日益明显。由于互联网上股票信息的海量性和无语义性,导致用户经常花费了很多时间也难以获得自己真正想要的信息。因此,利用语义w e b 构建一个能有效获取、组织和反映股票信息,对用户分析股票提供一个决策的帮助的股票信息系统,它能根据用户请求智能地分析并提供用户所需要的股票信息,将具有十分广阔的前景。本文阐述了使用统一建模语言( u m l ) 、利用统一过程( u _ p ) 进行建模,通过反复迭代构建一个基于语义w e b 的股票信息系统模型;然后采用语义w e b 体系结构,设计并实现了一个基于语义w e b 的股票信息系统。具体研究工作如下:在深入分析、探讨语义w e b 的特点和七层体系结构基础上,构造了股票信息系统的语义w e b 的体系框架,并依次给出了x m l + x m l s c h e m a 、r d f + r d fs c h e m a 、o w l + o w ls c h e m a 和股票本体等。通过对股票信息的充分研究,利用语义w e b 体系结构对u p 的具体过程进行改进:将u p 划分为收集、分析、描述和检验四个阶段来组织分析与设计模型的过程,从而更好地适应建立基于语义w 曲股票信息系统模型。在建立股票信息系统模型中使用的u p 是迭代式和渐进式。模型所表示的内容是从小规模开始,通过迭代方式逐渐生成更准确的需求、通过渐进方式逐渐地产生更完整的模型,最终建立基于语义w e b 股票信息系统模型。该模型通过用例视图( 用例图、时序图、协作图和活动图) 、逻辑视图( 类图、对象图和状态图) 、组件视图( 组件图) 和部署视图( 部署图) 分别进行详细的描述,尽可能地从各个方面呈现出股票信息系统模型。使用c 橱口n e t 对股票信息系统进行编程,实现了有效股票基本信息的提取、组织和呈现。首先从股票信息网页上对股票信息进行智能搜索,并提取有效的股票信息;然后结合相应的x m ls c h e m a 生成x m l 文档,实现了股票信息系统的语义w e b 体系结构中的第二层:建立的股票本体可以通过r d f 对x m l 进行操作,用以满足用户对股票信息的需求。当前大量的系统运行实例证明了利用u m l 和u p 对基于语义w e b 建模的可行性;建立的基于语义w e b 的股票信息系统模型能满足不同用户的一定需求。最后对基于语义w e b 的股票信息系统的研究工作进行了总结和进一步的展望。关键词:统一过程,股票信息系统,语义w e b ,统一建模语言,扩展标准语言a b s t r a c ta l o n gw i t ht h ed e v e l o p i n ge c o n o m yo fo u rc o u n t r y , t h es t o c ke x c h a n g ei sm o r ei m p o r t a n tt h a nc v f f t b u tt h el a r g ea m o u n to fl m s 咖c n l r c d ,h e t e r o g e n e o u ss t o c kr e s o u l eo nw w wm a k e su s e r su s u a l l yc o s tp l 蹦t yo f t i m e a n da c q u i r e di n f o r m a t i o ni sh a r dt o 跗吐s 鸟w i t ht h e i rn e e d t h e r e f o r e , b u i l d i n gas t o c ki n f o r m a t i o ns y s t e m ( s z s )b a s e do nt h et e c h n o l o g yo fs e m a n t i cw e b ,w h i c h 锄e f f e c t i v e l yo b t a i n o r g a i l i z e r c p r e n ta n da n a l y z et h es t o c ki n f o r m a t i o ns oa st or o t r i e 、,es o m eu s e f u li n f o r m a t i o nf o rm 吐n gt h ed 即l a n d sf r o ma l lk i n d so fu s e 瑙,i sn e c e s s a r yi nt h ef u t u r e i nt h i sp 慨m o d e l i n gs i sb a s e ds e m a n t i cw e bw a sc o m p l e t e db yi t e r a t i v e l yu s i n gu n i f i e dm o d e l i n gl a n g u a g e ( 饥咀ja n du n i f i e dp r o c e s s ( u p ) ;t h e na c c o r d i n gt ot h ea r c h i t e c t u r eo fs e m a n t i cw e b , t h em o d e lo fs i sb a s e d $ e i n a n t i cw e bw a sd e s i g n e da n di m p l e m e n t e d t h ed e t a i li sa st h ef o l l o w :t h ep a p e rc o n s 仇l c t e dt h ea r c h i t e c t u r eo f s e m a n t i cw e bo f s i sa r e ra n a l y z i n gt h ec h a l a c t e ro fs e m a n t i cw e ba n dt h ea r c h i t e c t u r eo fs g v l a y e r s a n ds h o w e dc o r r e s p o n d i n gx m l + x m ls c h e m a , r d f + r d fs c h e m a , o w l + o w ls c h e m aa n ds t o c ko n t o l o g y b a s e do nc o n s i d e r i n ga n da n a l y z i n gt h es t o c ki n f o r m a t i o ni nd e t a i l ,t h ep a p e ru s e dt h ea r c h i t e c t u r eo f s e m a n f i cw e bt oi m p r o v et h eu pp r o c e s si nf o u rs t e p s ,s u c ha sm a r k i n gt h eu pb yc o l l e c t i o n , a n a l y s i s , d e s c r i p t i o na n dc h e c k , s ot h a ti tc 趾b e t t e rm o d e l i n gs i sb a s e do ns e m a n t i cw e b t h eu pu s e di nm o d e l i n gs i si si t e r a t i v ea n di n c r e a s i n g c o n t e n t so ft h em o d e ls t a r tf z o mt h es m a l ls c a l e ,t h e np r o d u c em o r ee x a c tr e q u i r e m e n ti n c r e a s i n g l yb yi t e r a t i v ep r o c 目j u r 髓,d e v e l o pm o r em a t u r es e to fr e q u i r e m e n tb yu s i n gi n c r e a s i n gm o d e ,f m a l l yb u i l du l t i m a t et h em o d e lo fs i sb a s e do ns e m a n t i cw e b t h em o d e la p p l i e su s e - c a s ev i e w ( u s e - :a s ed h g r a m ,s e q u e n c ed i a g r a m , c o l l a b o r a t i o nd i a g r a ma n da c t i v i t yd i a g r a m ) ,l o g i c a lv i e w ( c l a s sd i a g r a m , o b j e c td i a g r a ma n ds t a t eg r a p h ) ,c o m p o n e n tv i e w ( c o m p o n e n td i a g r a m ) a n dd e p l o y m e n tv i e w ( d e p l o y m e n td i a g r a m ) t oc a l t yo nad e t a i l e dd e s c r i p t i o nr e s p e c t i v e l y ,p | :e :啦as t o c ki n f o r m a 虹o ns y s t e mm o d e lf i o me a c ho n ep o s s i b l y c 群a n d n e tw e r eu s e dt ob u i l dt h es y s t e m 或m c t i 聪a n dr e a l i z et h es t o c ki n f o r m a t i o nr e t r i e v a l , i n f o r m a t i o no r g a n i z a t i o na n di n f o r m a t i o nr e p r e s e n t a t i o no ft h em o d e l i n gs i s f i r s t l y , s e a r c ht h es t o c ki n f o r m a t i o nf i o mt h ew e bp a g et o pi n t e l l i g e n t l y , a n d 陀t r i c v et h eu s e f u ls t o c ki n f o r m a t i o n ;t h e nc o m b i n ew i t ht h ex m ls c h e m at ob u i l dx m ld o c u m e n t , s ot h es e c o n dl a y e ro ft h ea r c h i t e c t u r ei ns e m a n 6 cw e bo fs i sw 勰i m p l e m e n t e d t h es t o c ko n t o l o g y 锄b em a n i p u l a t e db yx m lf r o mr d ft om e e tt h en e e d so f u s e r s a l o t o f c t m e n t e x p e r i m e n t s h a v e p r o v e d t h e f e a s i b i f i t y o f u s i n g l r m l a n d u p t ob u i l dm o d e lb a s e do ns e m a n t i cw e b ;a n da t t a i n e dt h em o d e lo fs i sb a s e do ns e m a n t i cw e bw h i c hc a nm e e tr e q u i r e m e n t so f v a r i o u su s e f s f i n a l l y , t h er e s e a r c ho nt h es i sb a s e ds e m a n t i cw e bw a ss u m m a r k e d , a n dt h ed e v e l o p m e n tt r e n do f t h es i sb a s e ds e m a n t i cw e bw a sd i s c u s s e d k e y w o r d $ :u n i f i e dp r o c e s s ( u p ) ;s t o c ki n f o r m a t i o ns y s t e m ( s 瑁) ;s e m a l l t i cw e b ( s w ) ;u n i f i e dm o d e l i n gl a n g u a g e ( i n j ;e x t e n d e dm a r k u pl a n g u a g e ( x m l )m此页若属实,请申请人及导师签名。独创性声明本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:查丝丝日期丝! :型:关于论文使用授权的说明本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵守此规定)研究生签名注:请将此日期垫堕:! ! ! !武汉理工大学硕士学位论文第1 章绪论1 1 论文研究的目的和意义互联网络的出现,为人们通过网络交流信息提供了便捷的工具。高速的网络连接可以在短时间内传递给用户大量的数据。可是要在这浩如烟海的网络数据中发现自己需要的资料并非易事。针对信息的海量性和分布性,现在的主要解决方案是搜索引擎。近年来搜索引擎的效率虽然一直在提高,但是提供给用户的结果依然经常与他们的要求并不相干,原因在于机器实际上无法理解资源所包含的专业信息,也无法对资源所属的专业类别归类。用关键词查找的方法的效率很大程度上取决于用户的经验,用户采用不同关键词得到的结果差别很大。目前通过w e b 获取股票信息主要有两种方式:一是通过提侠股票信息的财经网站,如新浪财经,y a h o o 财经,网易财经等;另一种则是以关键字为基础的搜索引擎,如g o o g l e ,y a h o o 和a l t a v i s t a 等。但是,在使用中不难发现这两种方式都存在着一些不足。财经网站虽然可以提供大量和股票密切相关的信息,但这些信息没有以一定的逻辑关系加以组织,导致用户在查阅时不容易找到他们感兴趣的信息,也就缺乏用户自己订制信息的能力,一定程度上也影响了系统的效率。搜索引擎不足之处是由于网络上海量信息的存在,致使搜索的精确度较低,并且结果中常常混杂着大量与用户要求无关的信息。用户需要花费大量时间对结果进行人工的筛选,效率较低。传统的获取方法主要有信息丢失、返回过多无用信息及信息无关几方面局限性。造成上述股票信息获取困难的原因的实质在于传统的股票信息是通过对要检索的股票信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说这样的方法无法处理在用户看来是非常普通的常识性股票知识,更不能处理随用户不同而变化的个性化股票知识、随地域不同而变化的区域性股票知识等等。这使得网民仍然在期盼更完美的获取股票信息方法的出现。网民需要股票信息服务提供者研制更完美的方法来满足更快、更准、更方便的查询需要。这些正是信息提取技术发展的最终目标:跟上i n t e m e t 的发展速度,为网民提供更准确的查询结果。针对这些问题,w 3 c 组织建议用语义w e b 方法来开发w e b 的潜能。由于语义w e b 能实现计算机自动处理信息,提供信息代理,信息搜索,信息过滤等智能服务,支持网络环境下广泛有效的自动推理。因此我们采用基于语义w e b 的武汉理工大学硕士学位论文体系结构,构建一个能根据用户请求智能地分析并提供用户所需信息,同时还能通过智能方法提供股票预测的股票信息系统。论文研究的目的:将融合智能技术的语义w e b 的体系结构引入到现有的股票信息系统中,提出了一种如何具体应用u m l 和u p 构建基于语义w e b 的体系结构的股票信息系统模型的方法,并实现该模型,力图构建一个可以根据不同用户的需求,提供有效信息的股票信息系统。论文研究的意义:从理论上看,将新一代w e b 技术和现有的股票信息框架相结合,把人工智能技术,语义w e b 技术以及股票信息三者加以融合应用,不仅拓宽了股票信息系统的研究领域,还有利于积累许多与语义w e b 技术相关的重要经验。另外信息系统系统是建立在计算机与经济这两门学科基础之上的,对于交叉学科知识技术的应用也具有一定的意义。从实际情况看,随着我国经济的持续发展,股市在经济发展中的作用日益彰显,而股市的载体股票信息,它所受的关注度也会大大提高,因此,在这样的大环境下构建一个基于语义w e b的股票信息系统,具有十分广阔的经济前景。同时,本系统是建立在计算机与经济这两门学科基础之上的,对于交叉学科知识技术的应用也具有一定的意义。所以,建立一个基于语义w 曲的股票信息系统不仅能有效组织管理股票知识、反映股票信息,又能对用户分析股票获取相应信息提供一个决策的帮助,立题具有一定的理论意义和很大的现实意义。1 2 国内外研究现状b e l n e l - 3l e e 在x m l 2 0 0 0 大会上提出语义w e b 的体系结构,语义w e b 就一直成为人们讨论与研究的热点,随着时问的推移,对语义w e b 的研究已经引起国内学者的高度重视,国外对语义w e b 的研究越来越广泛和深入。在2 0 0 0 左右,一些基于语义w e b 的商业应用模型便以浮出水面,例如惠普的e = s e r v i c e s 平台、微软的b i z t a l k 、m m 的e - b u s i n e s s 应用平台以及s u n 公司的开放式网络环境等。这些应用系统和工具都是基于本体和语义w e b 建立起来的,它们都可以向用户提供个性化的网络服务【l 】。从w e b 上获取信息的搜索引擎和从w e b 上智能提取信息的搜索工具都是直接对w e b 文档进行提取。然而w e b 是一个没有标准、没有结构的异构系统,可以将其转换并看作一个多层数据库,用数据库技术进行管理和提取。i b m ,n e c 等机构对w e b 信息提取进行了大量的研究,并取得了一定的成果【3 j 。s c h a r k r a b a r t i 对超文本信息提取进行了研究,指出知识库和关于语言学推理的健壮性运算法则将会在w e b 信息提取中扮演重要的角色,并在w e b 信息提取中提出和运用h i t s 模型1 4 ;b r i a n p i n k e r t o n 对信息的收集和评价2武汉理工大学硕士学位论文方法进行了讨论并引入了结构提取来评价查询结果 5 3 ;o z a i a n e 等还对w e b多媒体信息提取进行了研究,并提出了一个多媒体信息提取的系统原型1 6 :s b r i n和l p a g e 提出了p a g e r a n k 算法并将其应用到g o o g l e f 7 1 。当前国际上关于语义w e b 的研究刚刚处于起步阶段,而我国对语义w e b 的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、具体应用方面都相对落后例。另人欣慰的是,我国学者已经认识到了语义w e b 及其相关技术对未来互联网发展的影响,并开始着手研究语义w e b 及其相关的关键技术与应用。与国外相比,国内对信息提取的研究稍晚,主要开始2 0 世纪9 0 年代中期。对信息提取的研究要在1 9 9 8 年以后。南京大学、北京大学、中科院计算技术研究、国防科技大学、上海交通大学、西安交通大学、复旦大学等所等对w e b信息提取进行了大量研究。南京大学计算机软件新技术国家重点实验室的张福炎、邹涛等人采用向量空间模型和改进r o b o t 技术的网络信息提取技术设计和实现了一个i d g s 系统( i n f o r m a t i o nd i s c o v e r i n ga n dg a t h e r i n gs y s t e m ) ,i d g s能在w w ,上自动进行中英文技术资料的搜集而设计开发的,并能够根据用户提交的挖掘目标样本,在w w w 上自动查找用户所需的信息阴。另外王继成、张福炎等人采用了多a g e n t 的体系结构,将多维文本分析与文本提取这两种技术有机地结合起来设计出一个w e b 文本提取系统原型w e b m i n e r 。w e b m i n e r 能够帮助用户快速、有效地挖掘w e b 上的h t m l 文档f 1 0 1 。国防科技大学、上海交通大学、西安交通大学等对用户访问站点的路径访问模式进行了初步研究。东南大学在w e b 上的知识表示【1 1 l 、语义w e b 的逻辑框架【1 2 1 、w e b 信息安全”习和语义w e b 服务【1 4 】等方面开展了一系列工作。另外,通过积极参与w 3 c 有关技术规范工作草案的讨论【l ”,而且有多个有关语义w e b 技术规范的评论意见得到了r d fc o r e 工作组以及w e b o n t ot 作组的重视1 1 6 】。浙江大学在w e b 信息的知识表示方面进行了研究,针对w e b 上信息的不同性质分别在基于认知逻辑的语义表达模型【1 ”,基于时态逻辑的流程语义表达模型和媒体流数据( 非文本型数据) 的语义表达或描述方法方面展开了研究f j 司。在基于本体的应用研究中,浙江大学建立了国内第一个基于语义的数据库网格,支持网格环境下数据库资源的动态化的语义注册、分布式的语义查询和知识级的语义浏览【1 9 】。初步建立中医药本体库,为一体化语言系统提供基础:并且基于语义w e b ,开发成功具有本体论推理服务的语义浏览器 2 0 j 。在本体支撑平台的关键技术研究中,清华大学研究并实现了一个基于w e b的分布式本体系统( w o d o s ) ,其中对本体的分布性、语言支持、本体粒度以及推理集成问题进行了深入研究【2 l 】。3武汉理工大学硕士学位论文中国科技大学在基于本体的语义建模、本体演化等方面也进行了深入的研究阎。此外,一些信息提取和智能信息检索的学术团体也十分活跃,如信息提取讨论组和智能信息检索论坛等。但是国内的科研力量和研究水平与国外有一定差距。然而,从我们查阅到的相关文献来看,基于语义w e b 体系结构采用b s 网络体系结构的股票信息系统在国内外很少有人研究。在高速发展的当今中国,经济的蓬勃发展极大地推动了股票市场的发展,表明股票信息系统的用户群有着巨大的发展潜力,所以研究方向有着很大的实用价值和一定的理论价值。1 3 本文研究的主要内容本文主要完成了以下几个方面的研究工作:( 1 ) 在深入分析、探讨语义w e b 的特点和七层体系结构基础上,构造出股票信息系统的语义w e b 的体系框架,并依次给出了x m l + x m ls c h e m a 、r d f +砌”s c h e m a 、o w l + o w ls c h e m a 和股票本体等。( 2 ) 通过对股票信息的研究,利用语义w e b 体系结构对u p 的具体过程进行改进:将u p 划分为收集、分析、描述和检验四个阶段来组织分析与设计模型的过程,从而更好地适应建立基于语义w e b 股票信息系统模型。在建立股票信息系统模型中使用的u p 是迭代式和渐进式。模型所表示的内容都是从小规模开始,通过迭代方式逐渐生成更准确的需求、通过渐进方式逐渐地产生更完整的模型,最终建立基于语义w e b 股票信息系统模型。该模型通过用例视图( 用例图、时序图、协作图和活动图) 、逻辑视图( 类图、对象图和状态图) 、组件视图( 组件图) 和部署视图( 部署图) 分别进行详细的描述,尽可能地从各个方面呈现出股票信息系统模型。( 3 ) 使用c 群和n e t 完成体系结构的编程从而实现了股票信息系统模型中股票基本信息的提取、组织和呈现。首先从股票信息网页上智能地对股票信息进行搜索,并提取有效的股票基本信息;然后结合相应的沮。s c h e m a 生成) 几文档,从而实现了股票信息系统的语义w e b 体系结构中的第二层,建立的股票本体可以通过r d f 对x m l 进行操作,用以满足用户对股票信息的需求。( 4 ) 通过实验去证明利用u m l 和u p 对基于语义w e b 建模的可行性:所建立的基于语义w e b 的股票信息系统模型能满足不同用户的一定需求,并为进一步改进模型提供了大量的分析材料和实例。4武汉理工大学硕士学位论文1 4 本文的组织本文共分6 章,主要内容如下:第一章,绪论。本章主要介绍了语义w e b 研究的目的和意义、国内外研究现状以及股票信息研究的主要内容,还介绍了语义w e b 在互联网中的应用的成功实例。第二章,语义w e b 。本章首先介绍了语义w e b 的相关概念,如本体等,并说明了语义w e b 的优越性。然后深入研究语义w e b 的体系结构,对语义w e b体系结构中的七层各自的特点和功能依次进行了介绍。最后构建出股票信息系统的语义w e b 的体系框架,并依次给出了股票信息系统的语义w e b 体系框架的关键层( 帆+ x m ls c h e m a 、) f + r d fs c h e m a 、o w l + o w ls c h e m a 和股票本体) 的具体实现。第三章,利用u p 构建基于语义w e b 股票信息系统模型。本章依据u p 对股票信息系统进行建模,通过研究,将u p 划分为收集、分析、描述和检验四个阶段来组织分析建模过程。迭代和渐进地使用的u p ,用例和分析模型所表示的内容都是从小规模开始,通过迭代方式逐渐地产生更准确的需求,通过渐进方式逐渐地产生更完整的需求集合,最终建立股票信息系统模型。第四章,股票信息系统模型。本章主要通过用例视图( 包含用例图、时序图、协作图和活动图) 、逻辑视图( 包含类图、对象图和状态图) 、组件视图( 包含组件图) 和部署视图( 包含部署图) 对股票信息系统模型的总体功能和结构进行详细的描述。第五章,股票信息系统的实现。本章主要介绍了使用例实现了股票信息系统模型中股票基本信息的提取、组织和呈现。并详细说明了如何从指定的网页上智能地对股票信息进行搜索并提取其有效的股票基本信息,然后和相应的x m ls c h e m a 结合生成x m l 文档,从而实现了股票信息系统的语义w e b 体系结构。第六章,总结与展望,主要是对本文的工作进行总结和未来工作的展望。5武汉理工大学硕士学位论文第2 章语义w e b现在的网络主要用来发布和交流信息,随着网络上信息量的增大,人们对于这些信息渐渐失去了控制能力,所以出现了搜索引擎用于信息的发现。由于国际互联网是一个分布的、开放的信息空间,它本身固有的特点是信息的无组织、多结构及快速更新,因此信息模糊,阻碍了信息的发现。归根到底是由于计算机无法理解网上信息的具体含义,主要基于简单的关键字匹配进行搜索。传统的基于关键字的w e b 服务查询存在以下缺点:对所需查询的目标不能准确描述。不能度量候选者和查询目标间的符合程度。不能较好地支持基于概率和语义约束的模糊匹配查询。不能使用细化、泛化、平级扩展等语义操作进行查询。为了解决这个问题,就提出了语义w e b ,简单地说就是含有语义,能让计算机理解具体信息的网络虽然h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 取得了巨大成功,但是由于语义w e b 是针对整个网络的,而不是特定的某一领域,所以如果模仿h t m l ,那么制订标签的任务则十分繁重,以至于是不可完成的。再者,就算能制订出这样的标签集,当新的事物出现时它就无能为力了。并且每个人对具体事物的理解和掌握程度都不一样,很难统一在同一套标签下面。正是由于上述种种原因,就需要更灵活的实现方式于是便想到提供一套标签( 元数据)的定义机制,由用户基于这个机制自己来定义其所要用的标签,并且只要标签的定义采用这套机制,那么计算机就能理解标签所描述的文档。2 0 0 1 年5 月t u n & 釉e 陪l e e ,j a m e sh e n d l e r 和o r al a s s i l a 在美国举行的国际会议上提出语义w e b ( 语义网) 是现有w e b 的扩展,信息被赋予定义良好的含义,更便于计算机和人的协同田j 。2 1 语义w e b 概述语义w e b 被认为是当前w e b 的延伸,是从最基本的网络资源逐级扩展得来的,在不同的层次上加人了对资源的描述,本体的概念,以及逻辑等,这使得语义w e b 比现在的网络拥有丰富得多的语义,并且这些语义是可以由机器来自动处理的讲】。信息被用更好的定义呈现,使计算机更好地帮助人们工作。语义w e b 中的数据被定义和联接用一种能被用于更有效发现,更自动化,综合和通过应用再次利用1 2 s l 。6武汉理工大学硕士学位论文当前对语义w e b 的概念还没有形成统一的定义,对语义w e b 的理解表述不一。如语义w e b 是第三代w e b ,其目标是实现机器自动处理信息,它提供诸如信息代理、搜索代理、信息过滤等智能服务刚。语义w e b 不同于现存的万维网,其数据主要供人类使用,新一代w w w 中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能。语义w e b 研究活动的目标是:开发系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理【2 7 】。语义w e b 的创始人t t m b e m e r sl e e 对语义w e b 的定义是语义w e b 是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理【2 9 j 。尽管对语义w e b 的理解与描述不同,但仍能从这些描述与理解中看出语义w e b 的一些基本特征:语义w e b 不同于现在w w w ,它是现有w w w 的扩展与延伸。现有的w w w 是面向文档而语义w e b 则面向文档所表示的数据。语义w e b 将更利于计算机理解与处理,并将具有一定的判断、推理能力。语义w e b 是对未来w 曲的展望。在语义w e b 中,信息被赋予明确的含义,使得机器自动处理和集成w e b 上的信息更为容易 2 9 1 。语义w e b 将构建于x m l自定义标签模式的能力以及r d f 灵活的描述数据的方式上【3 0 】。语义w e b 需要在r d f 之上增加的第一个层次是一种能够对w e b 文档中的术语含义进行形式化描述的本体语言。语义w e b 提供了一个通用的框架,允许跨越不同应用程序、企业和团体的边界共享和重用数据1 3 l j 。语义w e b 是w 3 c 领导下的协作项目,有大量研究人员和业界伙伴参与。语义w e b 以资源描述框架( r d f ) 为基础。r d f以x m l 作为语法、u r i 作为命名机制,将各种不同的应用集成在一起【3 2 】。2 2 语义w 曲的体系结构互联网的创始人1 缸b e m e r s - l e e 在札2 0 0 0 大会上提出了语义w | c b 的概念和七层的体系结构,第一层为u n i c o d e 和u r i ,它是整个语义w e b 的基础,u n i c o d e ( 统一编码) 处理资源的编码,u r i ( 统一资源定位器) 负责标识资源;第二层是x i v i l + 名空间+ x m l 模式( ) 丑帆+ n s + x m l s c h e m a ) ,用于表示数据的内容和结构;第三层是r d f + r d f 模式( m ) f + r d f s c h e m a ) ,用于描述资源及其类型;第四层是本体词汇层( o n t o l o g yv o c a b u l a r y ) ,用于描述各种资源之间的联系;第五层是逻辑层( l o g i c ) ,在下面四层的基础上进行逻辑推理操作;第六层是验证层( p r o o f ) ,根据逻辑陈述进行验证以得出结论;第七层是信任层( t r u s t ) ,在用户间建立信任关系田】。语义w e b 的体系结构如图2 1 所示。7武汉理工大学硕士学位论文图2 - 1 语义w e b 的体系结构图2 2 1u i l i c o d e 和u r i 层在语义w e b 体系结构中,该层是整个语义w e b 的基础,其中u n i c o d e 负责处理资源的编码,u l u 负责资源的标识。u n i c o d e 是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示6 5 5 3 6 个字符,基本上包括了世界上所有语言的字符。数据格式采用u n i c o d e的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。常用的u n i c o d e 编码方式有两种:u t f - 8 以及u t f 1 6 。u t f - 8 是一种不等幅的编码方式,u t f 8 编码的字节长度取决于所要编码的字符在i s o1 0 6 4 6 中的编码值。在u t f 8 中,不同的字符,可能需要l _ 6 个字节来进行编码。对于单字节的u r f - 8 编码,该字节的最高位为0 ,其余7 位用来对字符进行编码( 等同于a s c i i 码) 。对于多字节的u t f 一8 编码,如果编码包含n 个字节,那么第一个字节的前n 位为1 ,第一个字节的第n + 1 位为0 ,该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节,都是最高两位为l o ,其余6 位用来对字符进行编码。u t f - 1 6 也是u n i c o d e 的变形表示方式的一种。它的目的是维持双八位的编码方式,同时也用一些特殊的双八位来表示i s o1 0 6 4 6 中非基本多8武汉理工大学硕士学位论文文种平面( b m p ) 中的一些字符。这种用来表示非b m p 字符的方法在u n i c o d e 中称作代理对机制。代理对的编码机制以及原先不需要代理对的六万三千多个基本u n i c o d e 码,合起来叫做u r f 1 6 。也就是说u r f 1 6 基本上就是u n i c o d e 双字节编码的实现,再加上一个应付未来扩充需要的编码机制。u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) ,即统一资源定位符,用于唯一标识网络上的一个概念或资源。w e b 上可用的每种资源h t m l 文档、图像、视频片段、程序等,由u r i 进行定位。u r i 一般由三部分组成:访问资源的命名机制、存放资源的主机名和资源自身的名称,由路径表示。2 2 2x m l 4 - 名空间4 - x m l 模式层在语义w e b 体系结构中,x m l + 名空甸+ x m l 模式层( x m l+ n s + 札s c h e m a ) 负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一个精简的s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) ,它综合了s g m l 的丰富功能与h t m l 的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。n s( n a m es p a c e ) 即命名空间,由u r i 索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。1 9 9 8 年2 月l o 日,w 3 c 正式批准公布了应用于w e b 上的语言可扩展标识语言x m l 。x m l 并不是一个独立的,预定义的标识语言它是一种元语言,即用来描述其它语言的语言。x m l 语言可以让信息提供者根据需要,自行定义标记及属性名,也可以包含描述法,从而使x m l 文件的结构可以复杂到任意程度。x m l 是一种具有数据描述功能、高度结构性、可扩展性的语言,它已经得到了广泛的应用,被称之为第二代网络语言。x m l 具有如下的一些特点:可扩展性:x m l 则允许用户自己定义标签。x m l 的扩展性和灵活性允许它描述任何种类的数据。多源数据的集成:x m l 能够使不同来源的结构化的数据很容易地结合在一起。平台独立性:x m l 之于数据正如j a v a 之于程序,它将使数据不仅是平台无关的,而且是厂商无关的。本地计算和处理:x m l 格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数9武汉理工大学硕士学位论文据,而不仅仅是显示它。数据的多样显示:h t m l 描述数据的外观,而x m l 描述数据本身。由于数据显示与内容分开,x m l 描述的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户的选择动态地表现出来。c s s 和x s l 以及x s l t 为数据的显示提供了开放的机制。面向对象的特性:x m l 的文件是以树状方式存储,同时也有属性,这非常符合面向对象方面的编程,而且也体现了以对象方式存储。x m l 的上述特点决定了通过x m l 可以对复杂的信息加以规范化定义和描述,并且在互联网上进行数据的传输及有效的访问。但是世界上永远也不会出现完美的语言的,x m l 也是一样,它也有很多的缺陷,虽然它是树状存储的,搜索的效率极高,但是问题不是在搜索,而是在于目前它的插入和修改。x m l 文档有格式良好和有效性两种约束。格式良好适合于所有的) m 皿文档,即满足x m l 标准中对于格式的规定。而当x m l 文档满足一定的语义约束则称该x m l 文档为有效的x m l 文档。x i v l ls c h e m a 是d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 的替代品,是用来描述x m l 元素和属性的,它本身采用x m l 语法,但比d t d 更加灵活,提供更多的数据类型,能更好地为有效的x m l 文档服务并提供数据校验机制。x m l s c h e m a 包括属性和元素类型说明,是可以为x m l 元素和属性提供数据的类型校验模,它可以规定一套特定文档的结构或模型。使用x m ls c h e m a 语言来描述文档结构有下面以下好处:x m ls c h e m a 使用的是帆语法。沮,s c h e m a 可以用咀解析器来解析。x m ls c h e m a 允许全局性元素( 在整个x m l 文档中元素用相同方式来使用) 和局部性元素( 元素在特定的上下文中有不同的含义) 。x m l s c h e m a 提供丰富的数据类型( 如整型、布尔型、日期类型等) ;而且一个元素中的数据类型可以进行规定,甚至可以根据需要自定义数据类型。正是由于x m l 灵活的结构性、由u 索引的n s 而带来的数据可确定性以及x m ls c h e m a 所提供的多种数据类型及检验机制,使其成为语义w e b 体系结构的重要组成部分。i o武汉理工大学硕士学位论文2 2 3r d f + r d f 模式层r d f + r d f 模式层( r d f + r d fs c h e m a ) 是语义w e b 体系结构中用于描述资源及其类型。资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,简称r d f ) 是一种描述互联网上的信息资源的一种语言,它专门用于表达关于w e b 资源的元数据,比如w e b 页面的标题、作者和修改时间,w e b 文档的版权和许可信息,某个被共享资源的可用计划表等。然而,将w e b 资源( w e br e s o u r c e ) 这一概念一般化后,r d f 可被用于表达关于任何可在w e b 上被标识的事物的信息,即使有时它们不能被直接从w e b 上获取。比如关于一个在线购物机构的某项产品的信息( 例如关于规格、价格和可用性信息) ,或者是关于一个w e b 用户在信息递送方面的偏好的描述。r d f 用于信息需要被应用程序处理而不是仅仅显示给人观看的场合。r d f提供了一种用于表达这一信息、并使其能在应用程序间交换而不丧失语义的通用框架。既然是通用框架,应用程序设计者可以利用现成的通用r d f 解析器( r d fp a r s e r ) 以及通用的处理工具。能够在不同的应用程序间交换信息意味着对于那些并非信息的最初创建者的应用程序也是可利用这些信息。r d f 基于这样的思想:用w e b 标识符( 称作统一资源标识符,u n i f o r mr c s o l i i c ei d e n t i f i e r s 或u r i s ) 来标识事物,用简单的属性( p r o p e r t y ) 及属性值来描述资源。这使得r d f 可以将一个或多个关于资源的简单陈述表示为一个由结点和弧组成的图( g r a p h ) ,其中的结点和弧代表资源、属性或属性值。其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于w e b 的数据交换和再利用。r d f 解决的是如何采用x m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黄金顾客咨询方案
- 中国邮政2025青海省秋招供应链解决方案岗位面试模拟题及答案
- 2025年版带房产贷款离婚合同样本版
- 中国邮政集团2025玉树藏族自治州秋招面试半结构化模拟题30问及答案
- 汉中市烟草公司2025秋招物流调度岗位面试模拟题及答案
- 中国邮政2025衡水市秋招网络安全岗位高频笔试题库含答案
- 临夏回族自治州烟草公司2025秋招人力资源岗位高频笔试题库含答案
- 农村承包土地流转合同模板
- 民事诉讼委托代理合同
- 海西蒙古族藏族自治州烟草公司2025秋招人力资源岗位高频笔试题库含答案
- 人教版PEP小学六年级英语上册教学计划及教学进度
- 2022年6月天津市普通高中学业水平合格性考试化学试卷(含答案解析)
- 合同收货确认书范本
- 工程款支付审批表
- 2021工程总承包项目文件收集与档案规范第4部分:水力发电工程
- 建筑边坡工程施工质量验收规范
- Unit+3+Fascinating+Parks+Reading+and+Thinking+导学案 高中英语人教版(2019)选择性必修第一册
- 2024至2030年中国银饰品市场需求分析及投资战略规划研究报告
- 学校有限空间作业安全管理制度
- FURUNO 电子海图 完整题库
- CAD经典教程电气图基本知识
评论
0/150
提交评论