(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf_第1页
(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf_第2页
(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf_第3页
(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf_第4页
(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)web页面语义信息提取方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ia。*g嚣越丑鹫嚣张mv 渺乳h舡,驴”融k 。h姆、阮 ;八 s t u d y o ns e m a n t i ci n f o r m a t i o i ne x t r a c t i o n b yy a n gp e i y i n g s u p e r v i s o r :p r o f e s s o ry u g e n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 一 独创声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 :己 思o 学位论文作者签名:移卉取 q 日期:少8 - 多,矽 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年函一年口一年半口两年口 i学位论文作者签名: 签字日期: 朽橡 导师签名:孑戈 矽咯- g - 矽签字日期:厶舻占易矽 一一 _ i 摘要 w e b 页面语义信息提取方法的研究 摘要 i n t e m e t 作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是 教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在w e b 上找到自己感 兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程 中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户 他们真正想搜索的信息,这是因为现有的w e b 内容,是以人浏览和理解为出发点而设 计的,缺少计算机能够理解的信息,语义w e b 这时为解决此问题应运而生的。在现有 的w e b 向语义w e b 过渡的过程中,人们无法立即舍弃现有的具有丰富信息的w e b 页面, 所以现有w e b 页面的语义信息提取就成为能否向语义w e b 顺利过渡的关键。目前的w e b 页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术, 性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。 针对上述问题,本文提出一种w e b 页面语义信息提取模型,该模型可以自动地、 批量地对w e b 页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于 页面视觉特征技术的w e b 内容预处理技术,去除了网页内的噪音,提高了语义提取的 速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进h a c 算法,自底 向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷, 使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语 义簇聚类的w e b 页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实 体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表 某语义主题概念的用“种子语义簇”表示的词类,由此实现w e b 页面语义信息的提取。 实验证明,基于段落层次的的改进h a c 算法,缩减了语义关键词集合规模;基于 改进h a c 的语义簇聚类,在时间和精度上较传统算法具有更大的优势。 关键词:语义w e b ;文本聚类;语义信息;语义簇聚类;信息提取 东北大学硕士学位论文 摘要 一i v 查! ! 垄堂壁主兰堡垒查一卫 s t u d yo n s e m a n t i ci n f o r m a t i o ne x t r a c t i o n f r o mw e bp a g e a b s t r a c t a sav a s tl i b r a r yo fi n f o r m a t i o nr e s o u r c e s ,i n t e m e th a s b e c o m et h ep n m a r ym e a 工l so i a c c e s st o 幽衄a t i o 玛a n d i t so n eo ft h em o s ti m p o r t a n ts o u r c e so fe d u c a t i o h a lr e s o 眦e s h o w e v e l 讹e x p l o s i v eg r o w t ho f o n l i n er e s o u r c e s ,p e o p l ef r e dt h e m s e l v e sm o r e d i 垃1 c u l tt 0 g e t 证f b m a t i o nt 1 1 e y 硫e r e s ti 1 1 t h ee m e r g e n c eo f s e a r c he n g i n et e c h n i q u e e a s e st h ep e o p l em m c 幽n n 矗o ns e a r c l 血g ,b u tt h ew e a k n e s s e so fs e a r c he n g i n e a p p e a rg r a d u a l l ym r e c e m y e a r s , t h a tc a 工ln o ta c c u r a t e l yp r o v i d e r e s u l t st h a tt h eu s e r sr e a l l ys e a r c hf o r t h er e a s o n i st h a t 也ee x i 池gw 曲c o n t e n ti sh u m a n - u n d e r s t a n d i n ga st h es t a r t i n gp o i n t ,b u t l a c ko li n 士o m a t l o n 也ec o m p u t e rc a nu n d e r s t a l l d t h es e m a n t i cw e b w h i c hi sc o n s i d e r e dt or e s o l v em l sp r o b l e m h a se m e r g e df o ry e a r s h o w e v e r ,i nt h i sp r o c e s so f t r a n s i t i o nb e t w e e n 咖g e n e r a t l o i l so tm e w e b ,p e o p l ec 觚n o ti m m e d i a t e l ya b a n d o nt h ee x i s t i n g w e a l t ho fi n f o r r n a t i o ni i lt h ew c bp a g e , s oi ti st h ek e yh o w t l l i sp r o c e s sb e c o m e ss m o o t h n o w a d a y s ,t h es e m a n t i cw e b 1 幽m a t l o n e 触t i o nr e q 曲sa1 鹕ea m o u n to fm a n u a lw o r ki n v o l v e d 虹w h i l e a1 1 i g h e rd c g r e eo t a u t o m a :t i o no ft l l es e m 枷c 曲衄a t i o ne x t r a c t i o nt e c h n o l o g yh a s p o o rp e r f o r m a n c e m a n r 旧r s a d o d t e dc u s t o me x t r a c t i o nr u l e sa r el a c ko f v e r s a t i l i t y , a n dd i f f i c u l tt ou p g r a d e t oa d d r e s st h ea b o v ei s s u e s ,as e m a n t i ci n f o r m a t i o ne x t r a c t i n gm o d e l f r o mw e bp a g e1 s p r o p o s e di n 廿:1 i sm e s i s ,w h j c hi sb a s e do n t e x tc l u s t e r t h i sm o d e lc a na u t o m a t i c a l l ym a r k t h e b u l ko ft h ew e bp a g e ,a n d c a l le x t r a c tt h e s e m a n t i ci n f o r m a t i o na u t o m a t i c a l l y a l s o s p e c i f i c a l l y ,p r e p r o c e s s i n gt e c h n o l o g yw h i c h u s e sv i s u a lf e a t u r e sb a s e d0 n 也ew e b p a g e ,g e t s r i do fn o i s ei nw e bp a g e ,a n di m p r o v e st h e a c c u r a c ya n ds p e e do fs e m a n t l ci i l 士。肌a t l o n e 撇缸g t h es e m a n t i ct a g g i n gb a s e do i l t e x tc l u s t e ri sp r o p o s e d a ni m p r o v e dh a 乙 a l g o r m l mb a s e do np a r a g r a p h s i sp r o p o s e d ,a n di t c l u s t e r st h ep a r a 掣印h so 士t e x tm a b o t t o m - u pm a l l i l e r ,a sw e l l i te x t r a c t sa n dr o i l su pt h ec a n d i d a t ek e y w o r d s o fp 嘲萨a p h sm 恤e c l u s t e rd r o c e s s t h e ”s e m a n t i cc l u s t e r ”i sd e f i n e d ,a n dt h es e m a n t i ck e ) 啪r d s o fe v e r yl e v e l a r eg e n e r a t e d am e t l l o do fs e m a n t i ci n f o r m a t i o ne x t r a c t i o n f r o mw e bp a g eb a s e do nt h e c l u s t e ro fs e m 眦i cc l u s t e ri sd e s i g n e d t h eh i e r a r c h yo fs e m a n t i c e n t i t i e si sa n a l y z e d b y u s i i l gd i f f e r e mt e 妣c l u s t e rt h r e s h o l d s t h em o d e la l s oa n a l y z e s t h ec o r r e l a t i o no fs e m 觚t l c c l u s t e ra 1 1 de s 诎1 i s h e s s ,as e m 1c,the s e m a n t i ca s s o c i a t i o no fs e m a n t i cc l u s t e r a r e rt h i a n t m e m ec o n c 印tc a l l e d - s e e ds e m a n t i cc l u s t e r i s g e n e r a t i n g f o re x 扛a c t m g蚍姐t l c v 一 东北大学硕士学位论文 目 录 i n f o r m a t i o no fw e bp a g e s t h ee x p e r i m e n t ss h o wt h a tt h ei m p r o v e da l g o r i t h m sb a s e do nh i e r a r c h yp r o p o s e di nt h i s t h e s i si n c r e a s e dt h ec l u s t e r i n ga c c u r a c yi n t h et e x tc l u s t e r i n gs t a g e ,a n dr e d u c e dt h en u m b e ro f k e y w o r d s i ns e m a n t i ci n f o r m a t i o ne x t r a c t i o ns t a g e ,s e m a n t i cc l u s t e rc l u s t e r i n ga l g o r i t h m h a sc e r t a i na d v a n t a g e si nt i m ea n da c c u r a c yc o m p a r e dw i t ht h et r a d i t i o n a la l g o r i t h m k e y w o r d s :s e m a n t i cw e b ;t e x tc l u s t e r ;s e m a n t i c i n f o r m a t i o n ;s e m a n t i cc l u s t e r ; i n f o r m a t i o ne x t r a c t i o n v i _ ; , fi 目 录 目录 独创声明i 摘要。i i i a b s t r a c t v 第1 章绪论1 1 1 问题提出1 1 2国内外研究现状1 1 2 1信息提取技术简介1 1 2 2 语义w e b 及本体简介3 1 2 3 w e b 语义信息提取研究现状及成果5 1 3本文的研究目标与研究内容7 1 4本文的组织机构8 第2 章模型设计9 2 1 w e b 页面语义信息提取模型9 2 2 主题w e b 信息的提取1 0 2 3文本聚类1 1 2 3 1 文本聚类的意义1 1 2 3 2 文本聚类的过程1 3 2 4语义信息提取相关技术15 2 4 1 现有的网页信息提取实现方法1 5 2 4 2 基于内容的语义信息提取1 7 2 5本章小结1 9 第3 章w e b 页面预处理算法2 1 3 1 网页预处理2 l 3 1 1主题内容提取算法的比较分析2 1 3 1 2语义信息提取环境下的w e b 页面预处理方法分析2 3 3 1 3噪音去除方法描述2 4 3 1 4包含语义信息d o m 树的建立2 6 3 1 5以段落为单位的主题内容提取2 7 3 2 主题内容提取算法2 8 3 3 本章小结3 0 第4 章w e b 页面的文本聚类方法31 东北大学硕士学位论文 目 录 4 1基于文本聚类的语义关键词生成31 4 1 1 文本聚类在语义关键词生成过程中的作用3 1 4 1 2基于层次的文本聚类方法3 2 4 1 3 凝聚层次聚类及其改进3 2 4 2改进的h a c 算法。3 3 4 2 1h a c 基本算法3 4 4 2 2基于段落的h a c 算法文本相似度度量3 4 4 2 3凝聚层次聚类的合并方法改进3 7 4 3本章小结4 0 第5 章基于语义簇聚类的语义信息提取4 l 5 1语义簇聚类4 1 5 1 1词聚类概述4 1 5 1 2语义簇聚类概念的定义4 2 5 1 3语义簇相关度的计算方法分析4 3 5 2语义信息提取算法4 5 5 3本章小结4 7 第6 章算法分析与评价4 9 6 1实验环境及数据集4 9 6 2实验结果及分析5 0 6 3本章小结5 4 第7 章结论与展望5 5 参考文献5 7 致谢一6 1 攻硕期间参加的项目及发表的论文6 3 v i i i 东北大学硕士学位论文第1 章绪论 第1 章绪论 1 1 问题提出 语义w e b 自提出以来就备受研究人员和各大公司的高度关注,被称作第三代w e b 技术 1 】【2 1 ( 第一代w 曲技术是以手工编写h t m l 页面为特征;第三代w e b 技术也即现 在运行的w e b ,它以动态页面、复杂的人机交互为主要特征) ,并被普遍认为将取代现 有的w e b 技术成为未来的w e b 形态。 正如任何事物发展的规律一样,语义w e b 取代目前第二代w e b 技术必将是一个漫 长、复杂的过程【3 】,其进程也必将是互相融合互相借鉴,伴随着语义w e b 的成熟而逐步 取代的过程h 。因此,有理由认为,这个过程将比第二代w _ e b 取代第一代w e b 更漫长, 因为前者仅仅是对h t m l 作出的扩展,是h t m l 发展、完善的过程,而语义w e b 由于 是从根本上改变的w e b 页面的存在形态,其使用的语言和出发点与现有的w e b 完全迥 异。 在语义w e b 发展的过程中,不可避免的存在着一个问题,即未来的语义w e b 不可 能抛弃现有的w e b 内容而完全另起炉灶,因为现在运行的w e b 上保存着海量的、极具 价值的信息,它们都是人类文明最灿烂的结晶。换言之,语义w e b 必须要以某种方式 将现有w e b 上的页面转换成符合语义w e b 定义的格式。这就像计算机发展过程中硬盘 矿 取代磁带一样,人们变更的只是物理存储的介质,但是原来磁带上存储的信息不能因为 硬盘的出现而丢弃。这里核心问题有两个:本体的定义和第二代w e b 页面语义信息的 提取。在语义w e b 中,语义信息建立的核心工作就是建立本体库。一般认为,本体库 的建立是由各个领域的专家手工定义,这存在较大的主观性和不确定性,缺乏统一的标 准;而且,现代科学的发展逐渐模糊了领域之间的界限,交叉学科层出不穷,这也为人 工建立本体库带来了极大的困难。可见,面对目前庞大的,并且仍在以几何级数增长的 w e b 内容,企图采用完全人工的方式过渡到语义w e b 是根本不现实的,这个过程必须 要借助计算机来自动化进行。 1 2 国内外研究现状 1 2 1 信息提取技术简介 随着i n t e m e t 的普及和发展,w w w ( w r o d dw i d ew e b ) 蕴含了大量的资源。它作 东北大学硕士学位论文第1 章绪论 为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是教育资源的重要 来源。但是,随着网上资源爆炸式地增长,人们在w e b 中找到自己感兴趣的资源的困 难也越来越大。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的 困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户他们真正 想搜索的信息。功能强大的g o o g l e 搜索引擎,目前也只能检索浩瀚的w e b 内容中的3 0 左右。如何从w e b 所蕴含的海量信息中快速、准确地提取到所需要的资源是人们日益 关注的问题,面向w e b 的提取逐渐成了近几年信息提取的研究热点之一。 信息提取( i n f o r m a t i o ne x t r a c t i o n ) 是指从自然语言的文本中识别出特定概念( 如事 件、关系等) 的具体实例,提取其中的信息点,并以数据库等结构化的表达方式把信息 表达出来。信息提取的目地是利用语言学的知识,主要是词语知识和篇章结构的知识, 从文中提取出特定的内容,从而避免对全文进行深入的理解【5 j 。信息以统一的形式集成 在一起有两个主要优势,一是方便检查和比较,二是能对数据作自动化处理,例如用数 据挖掘方法发现和解释数据模型。现有的信息提取领域主要研究方法分为两类。一类是 基于自然语言理解的方法,研究语句中各成分的修饰关系,力图对被提取的内容做出语 法层面上的全面理解。该类方法在二十世纪九十年代初被广泛研究。单纯自然语言理解 方法应用于信息提取领域,其局限性主要在于对输入句子的语法完整性要求比较高,且 算法的开销比较大;另一类信息提取方法的特点是通过人工参与或机器学习的方式形成 基于标志符和定界符的提取规则,对信息源进行提取,其中一些研究方法将规则转换成 有限状态自动机进行信息提取。这类方法兴起于九十年代中期,对标志符明显且相对固 定的信息源能够收到良好的提取效果,因此至今仍然得到广泛的应用。 常见的信息提取系统在主要流程上存在一些共性:第一阶段对输入文本进行预处 理,过滤掉无关句子并把相关内容文本进行词性划分。使用各种方法从文本中识别出“命 名实体”,即文本中基本的信息元素。总体来说,命名实体识别依据的制定都包含人工 参与的成分,可以基于人工制定的规则也可以基于统计的方法,前者的性能要优于后者, 但规则的制定需要有丰富语言学知识的人参与,耗时大且容易出错,而统计的方法只需 人工进行简单的标注,且这类系统的移植性相对更好。第二阶段,在整篇中寻找个体事 实之间的引用和关联关系,通过分析同一事实在文本不同部分中的不同描述,合并相同 的实体,整合出更大粒度的信息点。一些高级的信息提取系统还包含推论功能,推理出 新的事实。在上述两个阶段完成之后,按照一定的模板将提取结果整理成结构化信息输 出。 第1 章绪论 1 2 2 语义w e b 及本体简介 t 人们在应用搜索引擎进行信息检索的时候,通常并不能准确描述所要检索信息的详 细特征,更常见的情况是,人们通常只能提供一个大致的、不精确的轮廓。在这种情况 下,基于关键词匹配的搜索引擎“忠实”地执行了人们的请求,返回的信息自然粗糙而含 糊,而且这种粗糙和含糊,被正在以几何级数迅速增长的w e b 内容无限放大一这极 大抵消了搜索引擎的优势和便利。当人们反思这些问题的时候,逐渐意识到搜索引擎在 搜索信息的时候,不应该仅仅依赖于关键词匹配,而应该理解人们搜索的真正意图,这 种意图就是被高级的人类大脑所理解和支配的“语义”,即要对输入的检索关键词所描述 的主题、主体、事件以及要表达的情感含义等进行信息检索基于语义的信息检索。 万维网( w w w = w o r l dw i d ew e b ) 仓r j 始人t i mb e m e r s l e e ( 蒂姆吖自纳斯李) 于19 9 8 年 提出语义w e b ( t h es e m a n t i cw e b ) 僦t 2 1 之后,语义w ,e b 就一直成为人们讨论与研究的 热点。在2 0 0 0 年的世界x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 大会上,t i mb e m e r s l e e 做 了题为“t h es e m a n t i cw e b ”的演讲,对语义w e b 的概念进行了解释,并提出了语义w e b 的体系结构。2 0 0 1 年5 月,s c i e n t i f i ca m e r i c a n 封面文章发表了t i mb e m e r s l e e 的t h e s e m a n t i cw | e b 文,描绘了语义w e b 的美好前景,并对其中的主要技术进行了简明的介 绍。语义w e b 也被网络研究者们纳入信息服务网络的研究范围。鉴于语义w r e b 研究的 重要价值,国外的很多大学、研究机构、大公司都成立了专门的项目组来推动这项技术 的发展,w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 组织也成立了专门的工作组来推动语义w e b 技术的发展。t i mb e m e r s l e e 一直致力于语义w e b 技术的研究,并一直关注语义w e b 技术的发展,在综合了语义w e b 研究领域的最新成果的基础上,提出了语义w ,e b 模型 ( 如图1 1 ) 【引,这一模型得到了语义w e b 研究者们的认同。 第l 层:u n i c o d e 和u r i 。u n i c o d e 是一个字符集,这个字符集中所有字符都用两个 字节表示,可以表示6 5 ,5 3 6 个字符,基本上包括了世界上所有语言的字符。统一语言 定位符u r i 用于唯一标识网络上的一个概念或资源。该层是整个语义w e b 的基础。 第2 层:x m l + n s + x m l s c h e m a 。x m l ( e x t e n d e dm a r k u p l a n g u a g e ) 是一个精简的 s g m l ,它综合了s g m l 的丰富功能与h t m l 的易用性。n s ( n a l l l es p a c e ) 即命名空间, 由u r 索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。x m l s c h e m a 是d t d ( d o c u m e n td a t at y p e ) 的替代品,它本身采用x m l 语法,但比d t d 更加 灵活,提供更多的数据类型,能更好地为有效的x m l 文档服务并提供数据校验机制。 该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形 东北大学硕士学位论文 第1 章绪论 式、数据结构和内容分离。同时,该层也是现今语义w e b 研究的热点之一。 图1 1 语义w e b 模型图 f i g 1 ,1m o d e lo fs e m a n t i cw e b 第3 层:r d f + r d f s c h e m a 。r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是一种描述w w w 上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能 充分利用各种元数据的优势,进行基于w e b 的数据交换和再利用。r d f 解决的是如何 采用x m l 标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息 成为机器可理解的信息。r d f s c h e m a 使用一种机器可以理解的体系来定义描述资源的词 汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对 w e b 资源的描述。该层,目前也是语义w e b 研究的热点之一【j7 ,引。 第4 层:o n t o l o g yv o c a b u l a r y 。该层是在r d f ( s ) 基础上定义的概念及其关系的抽象 描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩 展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系1 9 。 第5 至7 层:l o g i c 、p r o o f , t r u s tl o g i ( c 逻辑层) 负责提供公理和推理规则。l o g i c 一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明 其有效性。通过p r o o f ( 证据层) 交换以及数字签名,建立一定的信任关系( t r u s t ) ,从而证 明语义w e b 输出的可靠性以及其是否符合用户的要求【1 0 1 。 可见,本体层在语义w e b 中占据着最核心的地位,其描述的是w e b 上能够被计算 机无二义性理解的语义信息。本体的概念源自本体论,属于一个哲学的范畴【1 1 1 。本体论 侧重于表示特定领域整体的内容,其建模的基本元素一般有:类、关系、函数、公理和 实例。本体论为语义w e b 提供了相关领域的共同理解,确定了该领域内共同认可的概 念的明确定义,通过概念之间的关系描述了概念的语义,这使得人们之间以及与机器之 间能准确地交互,可以基于语义上而不仅仅是基于语法上的,为基于语义的信息检索应 东北大学硕士学位论文第1 章绪论 用提供了支持【1 1 - 1 4 1 。 j 静 。 1 2 3w e b 语义信息提取研究现状及成果 ( 1 ) 语义w e b 中各层次语言标准的研究 本体论为同一应用领域的成员之间提供了统一的术语集。这些成员是人或者智能代 理。这样,就需要制定一种表示语言,将描述对象进行概念化表示。现有的表示语言和 系统可以分为两类,一类是基于一阶谓词逻辑的表示方法,他们分别是本体语言 ( k i f - b a s e do n t o l o l i n g u a ) 、l o o m 、框架逻辑( f r a m e - l o g i c ) ,这些方法具有不同表达 能力和计算特性。但是,对于互联网上的应用,更重要的是要定义一种具有统一语法的 语言,这样才能使得本体遵循统一的语法格式进行信息交换。x m l 已经成为当前互联 网上数据交换的标准语言,具有良好的可扩展性、样式与内容的分离以及由可遵循的严 格的语法要求等特点,支持不同系统之间的信息交换。因此,为了简化语言分析器的分 析任务,人们希望建立基于x m l 语法的、支持本体信息交换的语言标准,这样就导致 了第二类基于x m l 的本体语言标准的研究。这些语言包括:s h o e 0 5 ( s i m p l eh t m l o n t o l o g ye x t e n s i o n s ) 、x o l 16 1 ( o n t o l o g ye x c h a n g el a n g u a g e ) 、o m l 1 7 】( o n t o l o g ym a r k u p l a n g u a g e ) 、r d f o8 ( r e s o u r c ed e s c r i p t i o nf r a m e ) 、o i l 1 9 l ( o m o l o g yi n t e r c h a n g el a n g u a g e ) 、 d a m l + o i l 2 0 ( d a r p aa g e n tm a r k u pl a n g u a g e + o n t o l o g yi n f e r e n c el a y e r ) 和o w l 2 1 】( t h e w e bo n t o l o g yl a n g u a g e ) 。这些语言虽然都是基于x m l 的,但是它们之间有不同的层次。 ( 2 ) 已有的基于本体语言的基础软件 早期的基于本体的基础软件研究o n t o k n o w l e d g e o r g 是一个由b t 、s w i s sl i f e 等多 家欧洲科研机构和大学组成的研究项目【4 】。它的成果o i l ( o n t o l o g yi n f e r e n c el a y e r ) 对 本体语言提供了一个层次结构视图,已经成为d a m l 的一个基础。这些组织还开发了 许多研究工具,其中最成熟的是o i l e d ,它是一个本体的编辑、设计工具,支持d a m l 格式。s i r p a c ( s i m p l er d fp a r s e r & c o m p i l e r ) 是一个r d f 的解释器,被广泛使用于许多 语义w e b 项目,由斯坦福( s t a n f o r d ) 大学开发。s i r p a c 实际上是一个r d fa p i ,可 以在文件系统的基础上访问和存储本体。s e s a m e 是一个开发源代码的本体存储与查询 系统,由a m i n i s t r a t o r 公司开发。另外,斯坦福大学的k s l 实验室的c h i m e a r a 是目前 对w e b 环境下的本体研究最为成熟的成果之一。 k a o n ( t h ek a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ) 是德国k a r l s r u h e 大学 的一个科研项目。该项目致力于为语义w e b 提供所需的基础本体系统和相关工具。它 东北大学硕士学位论文 要先将网站内容进行本体标识。在网站上可以基于本体进行可视化的浏览导航。它把显 示与内容做了严格的分离。有很好的可配置性。k a o n 的o i m o d e l e r 是一个本体的建 模工具,用于可视化地建立文件并维护它。 惠普( h p ) 实验室的j e n a 也是一个以r d fa p i 为核心,用于实现语义w e b ( s e m a t i c w e b ) 的工具。j e n a 由n e t w o r ka p i 、q u e r y 、r e a d e r s 、i n f e r e n c e 、w r i t e r s 、s t o r e s 几部 分围绕r d fa p i 组成。 w o d o s ( w e bo r i e n t e dd i s t r i b u t e do n t o l o g ys y s t e m ) 系统由清华大学计算机系知识 工程室研究开发。它是一个全面的基于本体的语义w e b 知识处理平台,支持中英文, 可将本体信息存于关系型数据库中,可以做r d f 文件的导入导出,支持r q l 查询,第 三方软件可以通过o d o a p i 进行操作。w o d o s 引入推理机制,可以对存于w o d o s 中 的本体事实施以规则( 基于f l o g i c ) ,并在这些规则的基础上进行推理。w o d o s 建立了 统一的用户界面,可以把对w o d o s 的各种操作( 如原有的r q l 查询、r d f 文件导入 导出和新加入的f l o g i c 操作等) 集成在一起。 实现基于语义的检索的前提条件是:准确地对内容进行语义标注,而且这种语义标 注应该是形式化的,能够被计算机无二义性理解的。所谓语义信息提取,是指从某一领 域相关的非结构化信息( 文本、图片、声音、视频) 、半结构化语义信息和结构化信息 ( 关系数据库) 中进行语义实体和语义关系的实例检索,并将结果存储到语义信息库中。 对于结构化和半结构化的信息,通过建立原有结构和语义类以及属性之间的映像关系, 可以进行批处理。 获取w e b 语义信息一般有两个角度:一个是从内容本身,即通过对网络内容信息进 行分析理解,获取其语义;另一个是从网络的外部信息,即通过对其w e b 相关文本进 行分析,获取其语义。相应的w e b 语义信息提取方法也有两类:基于内容的语义信息 提取和基于外部信息源的语义信息提取。 基于内容的语义信息提取,目前国内外的主要研究手段,首先对原始数据进行分析, 获得低层特征,然后建立由低层特征( 视觉、听觉) 向高层语义的映射,进而获得语义信 息。高层语义包含了人对w e b 内容的理解,这种理解是无法直接从视觉和声学特征获 东北大学硕士学位论文第1 章绪论 得的,而要根据人的认识来判断。人对语义的理解结合了日常生活中积累的大量经验, 是一个利用已有知识推理语义的过程。目前计算机的智能水平,尚无法模拟人类的这一 思维过程,不能有效地建立由低层特征向高层语义的映射,它们之间存在着难以逾越的 “语义鸿沟 。基于内容的语义信息提取方法只在某些特定的领域中取得了成功,尚无 法真正应用于复杂的w e b 语义信息提取。以基于内容的图像语义信息提取为例,目前 主要有方法人工交互语义提取【2 引。人工交互语义提取是一种利用用户检索和随后的相关 反馈来获取图像语义信息的方法。这方面比较成功的例子是微软研究院开发的i f i n d 【2 3 】 系统,它借助于人们在使用系统时的交互行为来半自动的获取语义信息。系统在图像库 上构造了一个语义网络,其可以看作是一个关键字的集合,每个关键字都和数据库中的 一些图像有链接,而每个链接都被赋予一定的权重。用户以输入关键字的方式进行图像 查询,系统通过计算查询关键字和图像上所标注的关键字( 这些关键字并不都是准确的) 之间的相似度来得到最符合查询的图像集合。然后,用户可以在所返回的查询结果中选 择他所认为的相关或不相关的图像,从而可以建立( 取消) 这些相关( 不相关) 图像和 查询关键字之间的链接,丰富了语义网络。对于某个特定的查询,大多数用户都认同的 相关图像由于经常被指定为反馈正例,其关键字的权重将不断增加;相反,那些用户意 见不一致的图像即可能被指定为相关图像,也可能被指定为无关图像,其关键字的权重 就会较低。随着整个语义网络的丰富和更新,图像的语义信息也就描述的更加准确。 基于外部信息源的语义信息提取,通过分析信息来源处的外部相关信息,来获得相 对高层的语义描述。w e b 总是出现在一定的上下文环境中,其语义与上下文环境,如 文件名及文件路径、周围文本、所在网页标题等,有着密切的联系。这些相关文本均可 作为外部信息源,从中提取语义信息。目前多数网上搜索引擎如s c o u r 、a l t a v i s t a 、l y c o s 、 i m a g es u r f e r 、w e b s e e k 2 4 1 等也是基于该原理提取语义信息,对其作语义标注,并进行 检索。但是基于该方法的搜索引擎通常查准率较低,用户从大量的相关内容中通过浏览 选择需要的内容仍然是相当繁重的工作【2 5 1 。 1 3 本文的研究目标与研究内容 目前,被认为是第三代w e b 的语义w e b 自从提出以来,一直是被研究的热点。研 究者普遍认为它是下一代w e b 的存在形态。在现有的w e b 向语义w e b 过渡的过程中, 立即抛弃现有的具有丰富信息的w e b 页面而使用语义w e b 不太现实。现在使用的第二 代w e b 技术必然会和未来第三代语义w e b 技术相互融合,共同发展。目前,如何提取 东北大学硕士学位论文第1 章绪论 现有的w e b 页面的语义信息就成为这两代网络融合过程中产生的一个亟待解决的问题, 本论文旨在对这个问题进行初步探讨。 本文在分析现有的相关技术的基础上,通过建立w e b 页面语义信息提取的模型展开 具体研究,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论