(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf_第1页
(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf_第2页
(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf_第3页
(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf_第4页
(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)基于结果模式的deep+web语义标注研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3,p d e e pw e bd a t aa n n o t a t i o nb a s e do nr e s ul ts c h e m a b y l ix i u l a n b e ( g a n s ui n s t i t u t eo fl a w a n dp o l i t i c s ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g l n c o m p u t e ra p p l i c a t i o nt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f l a n z h o uu n i v e r s i t yo ft e c h n o l o g y s u p e r v i s o r p r o f e s s o rl im i n g j u n e 2 0 1 1 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的沦文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做f j = j 重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作背签z : 巷鸯兰 f i 其f j :矽f f l i 面 疗l - j 学位论文版权使用授权书 本学位论文作苕完全了角车学校有关保留、使用学位论文的舰定,酲f j :学校行 权保帮并向国家囱4 关部门或机构送交论文的复印1 :f - , f r r 电子版,允+ 诈:论文被查洲和 借阅。本人授权兰州理工大学可以将本学何论文的伞部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或于j 描等复制手段保存和汇编本学位论文。同 时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据 库,并通过网络向社会公众提供信息服务。 f | 薹私:杏磊兰 导! j i f j 签私 fi 龇刎f t 卜形jjo ( - i 。1 h ! f j j :f q i 石月名l1 日三罩 口冰 摘 要i a b s t r a c t i i 插图索引i v 附表索引v 第1 章绪论1 1 1 研究背景和意义l 1 2d e e pw e b 的规模与分布2 1 3 国内外研究现状3 1 4d e e pw e b 语义标注的研究现状4 1 5 本文的主要工作6 1 6 本文的内容结构安排6 第2 章d e e pw e b 的相关知识8 2 1 d e e pw e b 简介8 2 1 1 d e e pw e b 的定义8 2 1 2 d e e pw e b 数据的结构化特性9 2 2d e e pw e b 数据集成的研究框架l o 2 2 1 集成奄询接l 】生成模块10 2 2 2 查询处理模块l1 2 2 3 查询结果处理模块l l 2 3j = | | | 取d e e pw e b 接口模式和结果模式13 2 3 1 d e e pw e b 模式的定义:1 4 2 3 2 d e e pw e b 模式的视觉特征16 2 3 3 d e e pw e b 模式的抽取18 2 4 本章小结2 2 第3 章基于启发式信息的d e e pw e b 结果模式获取方法2 3 3 1 彩j l r j 果模j l = f l :j f i j f 究f 弛状2 3 3 1 2 绝果模i ,| 勺4 | 父j t 义2 3 3 3d e e pw e b 结粜 诞了获l f 父j = f f 。t 2 4 3 3 1 结粜岫华忻2 4 3 3 2 轼,: 。拨i :f 齐,乜、1 7 nj 禹1 - 乍f ,j 矗i j 2 7 3 3 3 舰范化处理结果模式一2 8 3 4 实验j 结果分析2 9 一 一 总结与展望4 0 1 本文总结4 0 2 今后工作展望4 0 参考文献4 2 致谢4 7 附录a 攻读硕士学位期间所发表的学术论文4 8 倒! 卜j j f ? ,沦艾 曼曼! 曼曼曼曼! 曼! 曼! ! ! 鼍ji _ 一i in 曼! ! ! 曼苎曼曼曼! 蔓皇曼曼! 曼! 曼! 曼! ! ! ! ! ! 曼! ! 曼! ! 曼笪 摘要 随着i n t e r n e t 技术的 速发展和m 络中所含信息规模的不断扩人,存徊! 越来越 多以w e b 查询接l 形式进i j 二访问的d e e pw e b ( 简称w e b 数掘库或w d b ) 资源。而 信息检索作为互联网应用的重要组成部分,在i 列络j :不境下,随着对信息检索研究 的f i 断深入,研究d e e pw e b 数据集成系统受到越来越多的研究肯的密切火注。通 过最近的研究发现,d e e pw e b 蕴含了大量有价值的数据信息,这些数据资源与市 场的需求密切相关,为了能自动的、有效的获取d e e pw e b 背后众多w e b 数据库信 息资源,需要进行大量的w d b 数据集成。w d b 页面大多是带模板的结构化h t m l 文档,而h t m l 语言的特点是在w e b 上人们可以随意发布内容多种多样,形式不 同的内容,这样使得w e b 上的内容处于杂乱无序的状态,对建立w e b 数据库集成 系统造成了很大的困难。 语义标注作为d e e pw e b 数据集成系统中查询结果处理模块中一个非常重要 的组成部分,它的主要工作是指对抽取出的d e e pw e b 查询结果数据添加讵确的 语义信息,使这些数据具有更高的使用价值,同时能被计算机以别和处理。本文 行先介绍了研究d e e pw e b 的i 听岁背景和相关知砂! :址次,x 寸模j i = 挟墩技术和d e e p w e b 数捌标汴技术进fj :厂深入的f i f 究,并提出了4 、 | 心的方法和 :涎掣结构图;最后, 使川结果模j = i :信,色,时wd b 数据进 j :有效锄:注,二i :婴f i j l :究i :作包括: 1 针对d e e pw e b 结果模式结构信,宫、的丢失问题,提出了一种鉴于启发弋信息 的d e e pw e b 结果模式获取力法。通过解析d e e pw e b 结果页而数据,利j j 启发式信 息为结果灭面数抛添加i r 确的属性名,进而禾 剑刘j 迎d e e pw e b 的结果模j ,并对 其进行规范化处理解决不刚数据源结果模式的结构l i 一敛l 口j 题。实验验证该方法 可以有效地获取d e e pw e b 的结果模式信息。 2 通过对比不同的w d b 语义标汁方法的优缺点,钊对已有的标浊方法j 巫不 能较好的解决d e e pw e b 肖洵结果数据的标注i 、u j 题,提一种基j 二结果模式的 d e e pw e b 数据标注方法。通过结果口! 面解析和抽嫩结构化数据束完成数据预处理 的工作,并稚! 集成结果模式和待标汴数据之r h j 建矗:讵确的语义映射,进而确定 d e e pw e b 数据的标注信息。实验结果表明,陔标注方法对查询结果数据具有较好 的标注效果。 关键词:d e e pw e b ;语义标注;接口模式:结果模式;启发式信息;数据标 注;数据抽取; a b s t r a c t w i t ht h er a p i dd e v e l o p l n e n to fi n t e r n e t t e c h n o l o g ya n de x p a n dt h es c a l eo f c o n t a i n i n gi n f o r m a t i o n ,t h e r ee x i s tm o r ea n dm o r ed e e pw e br e s o u r c e sa c c e s sb y w e bq u e r y i n gi n t e r f a c ef o r m ( a b b r e v i a t i o na sw e bd a t a b a s eo rw d b ) ,w e bd a t a b a s e c a l lb ew i d e l yu s e d i n f o r m a t i o nr e t r i e v a la sa n i m p o r t a n tp a r t o ft h ei n t e r n e t a p p l i c a t i o n ,w i t h t h e d e e p e n i n go ft h er e s e a r c ho fi l l f o r m a t i o nr e t r i e v a l o nt h e n e t w o r ke n v i r o n m e n t ,d e e pw e bd a t ai n t e g r a t i o ns y s t e mr e s e a r c hg e t t i n gm o r ea n d m o r ep e o p l e sa t t e n t i o n i nr e c e n ty e a r sr e s e a r c hs h o w st h a td e e pw e bc o n t a i n sal o t o fv a l u a b l ei n f o r m a t i o n ,w h i c hi sh i g h l yc o r r e l a t e dt ot h em a r k e td e m a n d i no r d e rt o t h ea u t o m a t i ca c q u i s i t i o no ft h ed e e pw e bi n f o r m a t i o nr e s o u r c e s i t sn e e de s t a b l i s h d e e pw e bd a t ai n t e g r a t i o ns y s t e m w d bp a g e sa r em o s t l ys t r u c t u r e dh t m l d o c u m e n tw i t hat e m p l a t e ,b u tt h eh t m ll a n g u a g ec h a r a c t e r i s t i ci sr e l e a s e d0 1 1t h e w e b ,a n dc o n t e n tv a r i e t y ,i tm a d et h ew e bd a t ai ns p r a w l i n gs t a t e ,a n dc a u s e dg r e a t d i f f i c u l t i e st od e e pw e bd a t ai n t e g r a t i o ns y s t e me s t a b l i s h m e n t s e m a n t i ca n n o t a t i o na sav e r yi n l p o r t a n tp a r ti nq u e r yr e s u l t sp r o c e s s i n gl n o d u l e o fd e e pw e bd a t ai n t e g r a t i o ns y s t e n l ,i tm a i n w o r kr e f e r st oa d dc o r r e c ts e m a n t i c i n f o r m a t i o nf o re x t r a c t i o nt h ed e e pw e bs e a r c hr e s u l t sd a t a m a k et h e s ed a t a w i t h h i g h e ru s ev a l u e ,t h e nt h e s ed a t ac a l lb ec o n l p u t e rr e c o g n i t i o na n dp r o c e s s i n g t h e a r t i c l ef i r s ti n t r o d u c e dt h er e s e a r c hb a c k g r o u n da n dr e l a t e dk n o w l e d g eo fd e e pw e b r e s e a r c h ;s e c o n d l y ,t h ep a p e rd e p t h r e s e a r c hp a t t e r n e x t r a c t i o na n ds e m a n t i c a n n o t a t i o nt e c h n o l o g y , a n dp u t sf o r w a r dt h ec o r r e s p o n d i n gm e t h o da n dt h em o d e l c h a r t ;f i n a l l y ,u s et h er e s u l ts c h e l n ai n f o r m a t i o nt oe f f e c t i v e l ya n n o t a t i o nw d bd a t a t h em a i nr e s e a r c hw o r ki nt h i sa r t i c l ei n c l u d e s : 1 t oa d d r e s st h el o s sp r o b l e mo fd e e pw e br e s u l ts c h e m ai n f o r m a t i o n an o v e l a p p r o a c hd e e pw e br e s u l tp a t t e r ne x t r a c t i n gb a s e do nh e u r i s t i ci n f o r m a t i o ni s p r o p o s e d t h r o u g ha n a l y z i n gd e e pw e br e s u l tp a g ed a t aa n da d d i n gc o r r e c ta t t r i b u t e n a l n e st or e s u l tp a g e sd a t ab yh e u r i s t i ci n f o r m a t i o n ,t h ec o r r e s p o n d i n go f d e e pw e b r e s u l t p a t t e r nc a nb eo b t a i n e d m o r e o v e r t h es t r u c t u r ec o n f l i c tw i l lb es o l v e db y s t a n d a r d i z e dt r e a t m e n t e x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dc a l l e f f e c t i v e l y e x t r a c tr e s u l tp a t t e r n 2 b yc o l n p a r i n gt h ed i f f e r e n ta d v a n t a g e sa n dd i s a d v a n t a g e so fw d bs e m a n t i c a n n o t a t i o n ,s i n c et h ee x i s t i n gd e e pw e bd a t aa n n o t a t i o nm e t h o d sc a l ln o te f f e c t i v e l y s o l v et i l e q u e r yr e s u l td a t aa n n o t a t i o np r o b l e n l a l la p p l o a c ho fd e e pw e bd a t a a n n o t a t i o nb a s e do nr e s u l ts c h e m ai s p r o p o s e d t h r o u g ha n a ly z i n gd e e pw e br e s u l t p a g e sa l l de x t r a c t i n g s t l 。u c t u l c dd a t at o c o l n p l e t ed a t ap r e t r e a t m e n t 、v o l - k a n d c s t a b l is h i n gt h cc o r r e c ts e l n a n t i ci l l a p p i n gl e l a t i o nb e t w e e ni n t e g r a t e dr c s u l ts c h e n l a a n ds t a y i n ga n n o t a t i o nd a t a ,a c h i e x 7 et i l ep u r p o s eo fc o l r e c ta n n o t a t i o nd e e pw e bd a t a e x p e r i l n e n t so v e rf o u r r e a la r e a ss h o wt h a tt i l e p r o p o s e d m e t h o dc a l l e f f i c i e n t l y a n u o t a t ed e e pw e bd a t a 顺卜:叫? ,沦乏 k e y w o r d s :d e e pw e b :s e m a n t i ca n n o t a t i o n :i n t e r f a c es c h e m a ;r e s u l ts c h e m a : h e u r i s t i ci n l b r m a t i o n ;d a t aa n n o t a t i o n ;d a t ae x t r a c t i n g ; l i f :j + j i ,q ! _ i ! - j 啪,jd e e pu 7 e bi f ;义“;j r 插图索引 图1 1d e e pw e b 与s u r f a c ew e b 蕴含的信启2 图1 2 基于多标注源的d e e pw e b 查询结果标注框架5 刚2 1d e e pw e b 数据获取过程8 图2 2 结果模式和接口模式| 日j 的映射关系9 图2 3d e e pw e b 数据集成系统1 0 图2 4m c g r a w h i l l c o r n 网站的查询接口15 图2 5m c g r a w h i l l c 0 1 t i 网站的查询结果页面示例1 6 图2 6 结果页面模板视觉特征17 图2 7 查询接口页面内容的视觉结构1 9 图2 8 查询接口页面的视觉树2 0 图3 1d e e pw e b 结果模式的获取模) 诬2 4 【习3 2 当当网食洵结果贝叫”段2 6 阁3 3 物理单元和逻辑单元的关系2 6 图4 1 高级查洵接口3 3 图4 2 查询结果记录的示例3 3 图4 3 基于结果模式的w d b 数据的标注流程一3 4 图4 4 结果页面文档示例3 5 图4 5 数据预处理结果3 6 附表索引 表2 1 结果页面数据记录对应的结果模式一2 1 表3 1d e e pw e b 结果记录的显示形式2 7 表3 2 获取的结果模式列表2 8 表3 3 结果模式获取方法的所涉及查询接口数的实验对比结果( 个) 3 0 表3 4 基于启发式信息的d e e pw e b 结果模式获取方法的性能( ) 一3 0 表3 5 基于网页视觉特征的结果模式获取方法的性能( ) 一3 0 表4 1 基于结果模式的标注方法的性能( ) 3 8 表4 2 基于本体的数据标注方法性能( ) 3 9 v 顶p :0 何沦交 1 1 研究背景和意义 第1 章绪论 随着i n t e r n e t 技术的迅猛发展,网络已成为人们生活中不可或缺的一部分, i n t e m e t 上的w e b 网站以及网页的数量以爆炸式的趋势增长,当前w e b 早已不是 仅包含静态w e b 页的“s u r f a c ew e b ”,而主要是包含海量动态w e b 页的“d e e pw e b ” 【1 儿2 1 。目前主流的搜索引擎只能收集的互联网上部分称为表层网( s u r f a c ew e b ) 的信 息,这些s u r f a c ew e b 的信息一般都是通过静态网页链接的,但更加丰富、有价 值的信息被隐藏在网络深处,它们不能被当前的搜索引擎搜索到,这就是深度网 ( h i d d e nw e b ) ,也称为d e e pw e b 。d e e pw e b 与s u r f a c ew e b 本质区别在于,s u r f a c e w e b 包括的内容基本都是非结构化的h t m l 信息,相对于传统搜索引擎而言是可 见的,又被称为v i s i b l ew e b ;而d e e pw e b 是指w e b 中可访问的在线数据库( 简称 w e bd a t a b a s e 或者w d b ) ,是相对不可见的,因而又被称为i n v i s i b l ew e b ,其内容 存储在真j 下的w e b 数据库中1 3 j 。 b r i g h tp l a n e t 公司的研究说明,d e e pw e b 蕴含的信息量是s u r f a c ew e b 的 4 0 0 5 5 0 倍【4 j ,且信息质量更高,而在2 0 0 7 年g o o g l e 上的统计说明,w e b 数据库 涵盖的数据源已经增长到约2 5 ,0 0 0 ,0 0 0 个【5 】。d e e pw e b 数据源中的数据不仅规模 巨大,其覆盖面特别广,基本上涵盖了现实生活的各个领域。更让人们值得关注 的是,d e e pw e b 中包含了大量的结构化信息,且信息质量很高。有效地利用 d e e pw e b 的信息资源将能为用户查找特定领域的数据提供很多便利,也可以实现 很多应用。尽管丰富的信息蕴藏在d e e pw e b 中,但由于d e e pw e b 数据库规模大、 自治性、异构性和动念性,为提高d e e pw e b 中信息的利用率,必须使用自动的方 法完成w e b 数据库的数据集成,但如何有效地利用d e e pw e b 中的信息是一项具 有挑战性的工作【6 1 。 d e e pw e b 数据一般是用户借助查询接口向后台数据库提交查询请求,这样查 询结果动态地呈现在w d b 结果页面中,但通常情况下,应用程序不能理解抽取 出的动态结果页面信息,而且目前的查询结果仅供人工浏览,为了使获得的数据 具有更高的使用价值,这些数据应该是机器可处理的,语义w e b 引入的目标是创 建机器“可理解”的w 曲内容【7j ,同时语义标注作为研究d e e pw e b 数据集成系统 的重要模块之一,它的主要工作是对抽取到的d e e pw e b 查询结果页面数据添加 正确的语义信息,使得计算机可识别、可处理这些内容。在d e e pw e b 数据集成系 统的框架中,查询结果处理模块的结果合并、去重处理模块和最后的结果呈现都 要以正确的语义标注为基础,因此,语义标注的结果直接关系到d e e pw e b 数据集 成系统的最终结果,我们必须要对d e e pw e b 查询结果数据添加正确的语义注释, 标注之后的数据具有规范的格式,抽取出的数据有了其代表的含义,从而便于进 行下一步查询结果处理的数据合并,进一步提高我们对d e e pw e b 中的信息利用 率,这样使得原本无语义信息、不能被机器处理的数据信息变成机器可理解的信 息。 荩r 7 策十链式n ,jd e e pw e bi 义朽:i 辛f 丌究 1 2 d e e pw e b 的规模与分布 截止目前,以w e b 数据库为载体的网站数量正以指数级的速度增长哺j ,这些 网站根据用户需求将后台数据库中的内容,以h t m l 网页的形式动态呈现出来, 有效评估整个d e e pw e b 的规模,对研究d e e pw e b 具有很重要的意义。2 0 0 0 年7 月,b r i g h t p l a n e t 对w e b 数据库做了一次较为全面的统计分析,指出定义了d e e p w e b 数据主要是w e b 数据库,而整个w e b 上大概有4 3 0 0 0 - - 9 6 0 0 0 个d e e pw e b , 从宏观上对d e e pw e b 做了定量的调查,统计结果如下【2 川u j : 1 w d b 是互联网信息的主要来源,蕴含的信息量是s u r f a c ew e b 的4 0 0 到5 0 0 倍。 2 w d b 蕴含的数据比s u r f a c ew e b 的质量更高。 3 w d b 的访问量比s u r f a c ew e b 的访问量要高了15 。 4 w d b 数量的增长速度远大于s u r f a c ew e b ,在2 0 0 0 到2 0 0 4 年之间,d e e pw e b 数量增长了3 到7 倍之多。 5 w d b 上9 5 的信息是公开访问的,即免费获取。 6 整个w d b 数据分布在多种不同的主题领域中,但对于单个w e b 数据库来 说,5 0 以上的内容是面向特定的某个领域,即主题是专一的。 7 w d b 中结构化信息是非结构化信息的3 4 倍之多,所含数据大多是结构化 的。 综上所述,d e e pw e b 数据具有信息量大、使用价值高、结构性好、主题性专 一等优点,因此得到了越来越多研究人员的关注,成为当前的研究热点。图1 1 形象地展现了d e e pw e b 和s u r f a c ew e b 蕴含信息量之问的差别,其中鱼数目的多少 很形象生动地代表了w e b 中蕴含的信息量。显然,d e e pw e b 蕴藏了更加丰富的 信息,而s u r f a c ew e b 分布在浅层网络中,信息量相对较少。 is u r f a c e f w b 8 : 图1 1d e e pw e b 与s u r f a c ew e b 蕴含的信息 2 t e 唧 w e b 1 3国内外研究现状 d e e pw e b 的数据来源于后台数据库,填写d e e pw e b 站点的查询表单是访问这 些资源的唯一途径,用户为了查找自己感兴趣的某领域内的信息,通常需要逐个 反复地填写各个w e b 站点的查询表单。为了有效地利用w e b 数据库的数据,采 取的方法通常是进行大规模的d e e pw e b 数据集成。目自订,d e e pw e b 数据集成的研 究主要有d e e pw e b 数据源选择、数据源发现、数据抽取、语义标注、w e b 数据库 分类、w e b 数据库结果合并等关键问题。 在d e e pw e b 搜索和挖掘方面,目前国内的研究尚处于探索阶段,d e e pw e b 领 域的研究单位及相关报道还比较少,尚只有中国人民大学数据库研究小组在这方 面有较深入的研究。国外已有的相关研究具有如下三家:d e e pw e b j 、 i n v i s i b l e w e b l 9 】、b r i g h t p l a n e t i t 2 】,但通过我们分析比较可以得出如下结论:这些公 司的产品均采用半自动化方式,人工干预的比较多。在产品中尽管他们加入了 d e e pw e b 信息挖掘的相关功能,但目前还没有提供中文d e e pw e b 信息服务。 国外大学的研究小组主要有以下贡献: 1 m e t a q u e r i e r 研究小组 伊利诺斯大学的研究小组在m e t a e x p l o r e r 项目的基础之上建立了m e t a q u e r y 系 统,目标是有效获取d e e pw e b 数据源中的结构化信息。在大规模的w e b 数据库 数据的集成过程中,该小组主要研究了动态信息集成技术,与传统的信息检索不 同,所设计的m e t a q u e r y 系统是动态执行的,可以将实时发现的新数据源加入到 m e t a q u e r y 系统中;该项目开发的w e b 数据库搜索引擎,也可以动念选择发现合 适的d e e pw e b 数据源,可以将用户查询进行相应的转换,进而得到查询结果数 据【1 3 】。 2 h i w e 研究小组 斯坦福大学的h i d d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学另一个重要研究 项目,有研究者设计了一个可以抽取w e b 数据库信息的爬虫系统,在此系统中爬 虫管理器负责管理搜集过程,分析下载的w e b 页面,并把一些含有表单的w e b 页 面送到表单处理器中去处理。用户需要预先准备好相应的查询表单数据集,然后 爬虫系统自动完成填写,所以要求但h i w e 存在很多局限性,必须在人工帮助下 才能完成,且面向特定的领域【l 4 。 3 w e b b a s e 研究小组 斯坦福大学的h d a v u l c u 、j f r e i r e 等人通过一些辅助工具帮助用户实现特定 w e b 领域的搜索服务,提出并设计了一个w e b b a s e 的研究框架【l 川。 4 s h o p b o t 研究小组 华盛顿大学的s h o p b o t 利用特定领域的启发式方法来填写表单以比较其领域 内的商业产品,是一个针对消费产品的比较代理【l 引。s h o p b o t 的操作过程分为在 线产品比较和离线学习阶段。在线产品比较阶段,利用已经得到的站点模式结构 来抽取查询结果信息,找出满足用户要求价格的产品,最后输出这些产品的信息; 离线学习阶段,需要确定填写站点表单的方法,并需要分析产品站点结果页面, 从而可以获取站点对应的模式信息。但s h o p b o t 研究小组的研究领域很狭窄,也 就是说该小组不适用于大规模的w e b 数据库数据的集成。 5 哥伦比亚大学的q p r o b e r 研究【1 7 j 哥伦比亚大学的p a n a g i o t i s 、g i p e i r o t i s 等研究者,首先利用机器学习技术, 生成了一组基于规则的c l a s s i f i e r ( 分类器) ,并将c l a s s i f i e r 转变成查询u r l ,最后 l ! - i i 乡。1 i 录十复式的d e e pw e bi 舟义f 示汴f i 丌究 对后台d e e pw e b 进行相应的查询探测,并计算查询返回的d e e pw e b 结果页面数 据,研究出了一种后台数据库分类的方法,该方法能自动分类d e e pw e b 页面。 由于多数d e e pw e b 数据源提供的信息内容是结构化的数据,这些研究只是集中 在文档数据库分类上。 在2 0 0 4 年,微软亚洲研究院的研究者,已经研究出了一种基于查询关键字来 抽取w e b 数据库数据的方法【l 引,同时研究了第三代搜索引擎。第三代搜索不仅要 对深层w e b 内容进行数据挖掘,比如某领域内哪些是最重要的研究人员或者是最 重要的参考文献,也能找到更多的、更精确的查询结果,而且能够更加智能化、 人性化的理解用户需要什么类型的数据。 w e b 数据库领域的研究吸引了一些商业机构,其中有许多商业网站提供了分 类目录的方法帮助用户获取w e b 数据库中的信息,他们采用了半自动的技术来获 取w e b 数据库信息,但是这些技术目前还没有在公开的资料中进行阐述。 1 4 d e e pw e b 语义标注的研究现状 d e e pw e b 数据集成成为当前信息领域的一个研究热点,为了有效地集成并加 以利用各个w e b 数据库中的数据信息,需要对抽取数据的进行自动语义添加,目 前对d e e pw c b 查询数据进行数据标注的研究,还处于起步和探索阶段,其语义标 注的研究主要集中在用已知的接口模式或某些启发性规则来标注未知的或局部未 知的结果模式【1 9 儿2 0 】【2 。综上所述,d e e pw e b 语义标注是d e e pw e b 数据集成的一 个重要研究领域,对w e b 数据库查询结果数据进行j 下确标注具有十分重要的意 义。而模式匹配是贯穿于d e e pw e b 数据集成的关键技术,尤其在查询接口集成 【2 2 】【2 ”、查询转换和查询结果标注中更多1 9 】【2 0 】【24 1 。目前,越来越多的研究人员开 始关注模型管理的研究【2 5 】【2 6 】【27 1 ,模型管理引擎可以将模式转换成不同的模型, 以及数据转换等,支持模式匹配,作为研究d e e pw e b 模式匹配问题的一个新方法, 需要作更为深入的研究。 目前,已有的d e e pw e b 查询结果语义标注方法主要有以下几种: 1 启发式规则的d e e pw e b 语义标注 该方法根据4 个常用的启发式规则,计算数据值与属性名间的空间坐标距离, 从而得出每个数据值对应的最优属性名。显然,该方法是在结果模式已知的基础 提出的,不适用于“结果模式信息严重缺失”的情况。且由于d e e pw e b 站点不提 供表示数据单元语义的属性名,属性名的缺失使无法通过这些启发式规则来定位 标注流程,即不能对d e e pw e b 查询结果进行自动标注【i 引。 2 基于词性分析和领域知识的d e e pw e b 语义标注 为了能有效解决启发式规则标注准确率低、以及相应的模式匹配关系难以确 定的问题,已有研究者借助文献 2 8 】提出了一种基于词性分析和领域知识的 d e e pw e b 语义标注方法。该方法首先通过基于d o m 的w e b 信息抽取方法完成了 数据抽取和数据预处理工作,并使用样本学习生成基于d o m 路径的抽取规则,利 用遍历d o m 树实现信息抽取,利用结果页面中数据的词性特征和领域知识建立数 据与对应语义间的映射关系,对数据添加正确的语义【2 9 1 。 该方法借助查询结果数据的词性特征,以及利用领域知识建立正确的语义映 射关系,不依赖查询接口,具有较高的独立性,并通过实验验证该方法有较高的 准确率,但仅根据结果页面数据的自身特征进行标注,很大程度上依赖于中文分 词结果,词性标注效率不高,今后拟计划引入领域本体提高词性的识别能力,进 一步提高标注准确率 4 3 基于c p n 网络的d e e pw e b 数据语义标注 基于c p n 网络的d e e pw e b 语义标注方法【3o j 利用c p n 网络具有很好的自组织 和聚类特性,以及学习速度快和分类精度高的优点,提取属性值的基本特征,借 助c p n 网络的功能实现d e e pw e b 查询结果的数据标注【3 1 | ,包括训练阶段和标注 阶段两个阶段。该方法训练c p n 网络的时i 日j 代价是非常大的,需要对语义标注机 制进行进一步的研究。 4 基于本体的d e e pw e b 查询结果数据标注 文献 3 根据语义w e b 中的深度标注的思想,将领域本体看成是d e e pw e b 遵 循的全局模式,引入到查询结果标注过程中,充分考虑了查询接口和返回结果页 面的数据特征,使用“查询条件重置策略”来确定d e e pw e b 数据标注,实现了 基于本体的d e e pw e b 查询结果数据标注方法( o b a ) ,该方法在领域本体的支持 下,具有较高的标注效率。 并不是所有的查询结果属性都能在相应的查询接口模式中出现,上述的标注 方法都存在着接口模式不充分的问题,而且在同类d e e pw e b 页面上进行重复语 义标注,时间代价是相当大的。 5 基于多标注源的查询结果标注 d e e pw e b 数据标注的查全率很大程度上依赖于对应的查询接口,有研究者将 集成查询接口的引入到标注过程中,这样在一定程度上缓解了接口模式不充分的 问题,但不能根本解决【32 1 。随后文献 3 3 提出了一种基于多标注源的d e e pw e b 查 询结果自动标注方法( m s a a ) ,其标注框架如图1 2 所示。它由页面抽取器、多标 注器和在线反馈三部分组成,标注后的结果被存入标注结果库中,供下一步处理。 尤其是基于搜索引擎的标注器,充分利用搜索引擎强大的搜索能力,有效的提高 了标注效率,但该方法还存在许多不足。 标注完成 的结果 图1 2 基于多标注源的d e e pw e b 查询结果标注框架 耳:j i 结果使- i = 的d e e pw e bi 一义f ,j :汴f j 丌究 目前对于如何解决动态w e b 页的语义标注问题,己成为语义w e b 巨大挑战, 还处于初步探索阶段,越来越多的学者丌始试探性的研究动态w e b 页的语义标 注,其中有l s t o j a n o v i c ,n s t o j a n o v i c 和r v o l z 等人【3 4 j 的“数据密集型w e b 站 点向语义w e b 迁移”,提出了基于关系数据库的遗留w e b 站点内容向语义w e b 内 容迁移的框架;r v o l z ,s h a n d s c h u h 和s s t a a b 等人【”j 【3 6 】 37 1 ,随后的“深度标注 ( d e e p a n n o t a t i o n ) ”,方法旨在建立w e b 用户语义查询( s e m a n t i c a l l y q u e r y ) ,d e e pw e b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论