(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf_第1页
(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf_第2页
(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf_第3页
(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf_第4页
(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)deep+web数据源发现和语义标注技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d e e pw e b 数据源发现和语义标注技术研究 摘要 摘要 随着i n t e m e t 技术的快速发展,w e b 数据库得到了广泛应用。这些w e b 数据库能 够根据用户提交的请求,将其内容以h t m l 页面的形式动态呈现出来。对于传统搜 索引擎来说,这部分页面信息并不能被索引到,我们称之为d e e pw e b 。最近几年的 研究成果表明,d e e pw e b 蕴含着大量有价值的信息,这些信息与市场需求高度相关。 因此,d e e pw e b 已成为一个研究重点,受到研究人员更多的关注。 本文首先介绍了d e e pw e b 的研究框架,然后对d e e pw e b 数据源发现技术和d e e p w e b 语义标注技术进行了深入研究,并提出相应的算法和模型。最后,设计和实现了 一个面向图书领域的垂直搜索引擎原型系统。 本文研究的主要内容包括: ( 1 ) 介绍了d e e pw ,e b 研究的基本框架,并对d e e pw e b 数据库分类和w e b 数据 抽取问题作了概述。 ( 2 ) 分析了传统搜索引擎的工作原理,在此基础上提出一种基于搜索引擎的d e e p w e b 数据源发现方法。 , ( 3 ) 根据从国外相关研究中得到的一些启发,提出一种d e e pw 曲数据源间的交 叉标注方法。 ( 4 ) 设计和实现了一个图书领域的垂直搜索引擎原型系统,并对上文提出的技术 在该垂直搜索引擎上的应用做了分析。 本文还对文中提出的方法和技术进行了实验设计,通过对实验结果的分析进一步 验证本文提出的技术方法是有效的。 关键词:d e e pw e b ,搜索引擎,数据源发现,语义标注,数据集成 作者:李文骏 指导老师i 崔志明( 教授) a b s t r a c tt h er e s e a r c ho nt e c h n o l o g yo fd e e pw e bs o u r c ed i s c o v e r ya n ds e m a n t i ca n n o t a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e tt e c h n o l o g y , w e bd a t a b a s e sh a v eb e c a m e p r e v a l e n to nt h ew e b b a s e do nu s e r sr e q u e s t ,w e bd a t a b a s e sd i s p l a yt h e i rc o n t e n t si nt h e f o r mo fh t m l p a g e sd y n a m i c a l l y t h ew h o l ei n f o r m a t i o ne m b e d d e di nt h e s ep a g e sc a l l e d a sd e e pw e bc a l ln o tb ea c q u i r e db yt r a d i t i o n a ls e a r c he n g i n e s r e c e n t l y ,t h er e s e a r c h r e s u l t ss h o wt h a td e e pw e bc o n t a i n sag r e a ta m o u n to fi n f o r m a t i o nw h i c hi sh i g h l y r e l e v a n tt om a r k e td e m a n d t h e r e f o r ed e e pw e bs e r v e da sar e s e a r c he m p h a s i sh a sb e e n p a i dm o r ea n dm o r ea t t e n t i o n t h i sp a p e rf i r s t l yd e s c r i b e st h er e s e a r c hf r a m e w o r ko fd e e pw e b ,t h e nf o c u s e so n t e c h n o l o g yo fd e e pw e b s o u r c ed i s c o v e r ya n dd e e pw e bs e m a n t i ca n n o t a t i o n i na d d i t i o n , w ep r o p o s er e l e v a n ta l g o r i t h ma n dm o d e l f i n a l l y , av e r t i c a ls e a r c hp r o t o t y p es y s t e mf o r b o o kd o m a i ni sp r e s e n t e da n da c c o m p l i s h e d t h em a i nw o r k so f t h i sp a p e ri n c l u d e : ( 1 ) i n t r o d u c et h eb a s i sf r a m e w o r ko fd e e pw e br e s e a r c h ,t h e ns u m m a r i z et h ep r o b l e m o fd e e pw e bd a t a b a s ec l a s s i f i c a t i o na n dw e bd a t ae x t r a c t i o n ( 2 ) a n a l y z e ,t h ew o r k i n gp r i n c i p l eo ft r a d i t i o n a ls e a r c he n g i n ea n dp r o p o s ean e w a p p r o a c ho fd e e pw e bs o u r c ed i s c o v e r yb a s e d0 1 1s e a r c he n g i n e ( 3 ) p r o p o s ean o v e la p p r o a c ho fd e e pw e bs e m a n t i ca n n o t a t i o na c c o r d i n gt ot h e i n s p i r a t i o nf r o mf o r e i g nr e l a t e dw o r k ( 4 ) a c c o m p l i s hav e r t i c a ls e a r c hp r o t o t y p es y s t e mf o rb o o kd o m a i na n da n a l y z et h e a p p l i c a t i o no f t h et e c h n o l o g ym e n t i o n e db e f o r e t h i sp a p e ra l s od e s i g n se x p e r i m e n t st oi m p l e m e n tt h ea l g o r i t h m sa n dt e c h n o l o g y m e n t i o n e d e x p e r i m e n t a lr e s u l t sv a l i d a t et h a to u rs o l u t i o ni se f f e c t i v e k e y w o r d s :d e e pw e b ,s e a r c he n g i n e ,s o u r c ed i s c o v e r y , s e m a n t i ca n n o t a t i o n ,d a t a i n t e g r a t i o n w r i t t e nb y :l iw e n j u n s u p e r v i s e db y :c u iz h i - m i n g l i 图表目录 图1 1d e e pw e b 与s u r f a c ew e b 对比2 图2 1w e b 数据库在主题领域的分布情况8 图2 2 模式间的映射关系9 图2 3d e e pw e b 数据集成系统框架1 0 图3 1 传统搜索引擎的工作流程2 0 图3 2 数据源发现的设计流程2 2 图3 3 查博士分类目录2 4 图3 4 网页表单自动分类过程2 5 图4 1 查询返回结果2 9 图4 2 交叉标注示例3 2 图4 3 交叉标注过程3 3 图4 4 标注标注算法3 6 图5 1 图书搜索引擎的界面3 9 图5 2 图书搜索引擎的系统架构3 9 图5 3 图书搜索引擎的工作流程4 0 图5 4 图书信息的标注过程4 l 图5 5 聚焦爬虫的工作流程4 2 图5 6 对象数据抽取模块的工作流程4 3 图5 7 信息检索模块的结构4 4 图6 1 查询扩展前后结果比较4 7 表2 1d e e pw e b 的规模8 表2 2 主要分类目录的覆盖范围9 表6 一l 页面分类结果4 6 表6 2 小说领域词频统计结果4 6 表6 3 服装领域词频统计结果4 6 表6 4 法律领域词频统计结果4 6 表6 5 最优权值和阈值4 8 表6 6 使用最优值的测试结果4 8 表6 7 标注的性能对比4 9 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:鸯交骏日 学位论文使用授权声明 期砂b 庐f 西 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:杏表骏日南:加。r 、f 2 艿 导师签名 d e e pw e b 数据源发现和语义标注技术研究 第l 章引言 第1 章引言 1 1 问题的提出 一 白1 9 8 3 年因特网正式诞生以来,i n t e m e t 就从未放缓其发展的脚步。随着超文本 标记语言( h 7 刑l ) 技术的出现,w w w 服务使用户浏览和共享信息资源的手段变得 非常简便。不过,由于早期的h t m l 网页都是静态生成的,在表现形式上缺乏动态 性,并且由这些h t m l 页面所构成的w e b 站点也不具备与用户间交互的能力,因此 在这种背景下,产生了动态网页技术和w e b 数据库技术。这些技术的产生,使得 i n t e r n e t 承载的信息增长迅速。 随着w e b 信息量的不断扩大,w e b 数据库得到了广泛应用。据统计,以数据库 为载体的网站数量正沿着指数级的速度在增长【1 1 ,这些网站能够根据用户的需求,将 后台数据库中的内容以h t m l 网页的形式动态呈现出来。由于嵌入数据库信息的网 页不具有静态u r l ,因此普通搜索引擎无法直接索引到这部分页面信息,使得这部 分信息对于用户来说是隐藏的,我们称之为d e e pw e b ( 又名i n v i s i b l ew e b 或h i d d e n w e b ) 。反之,我们将那些表面可索引的信息称为s u r f a c ew e b ( 或p u b l i c l yi n d e x a b l e w e b ) 。 与s u r f a c ew e b 相比,d e e pw e b 蕴含的信息量更加丰富。近年来,国内外d e e p w e b 小组的研究成果f 2 】f 3 】【4 】表明: 1 d e e pw e b 的公共信息是s u r f a c ew 曲的4 0 0 5 5 0 倍。d e e pw e b 的信息量有 7 5 0 0 t b ,相比之下,s u r f a c ew e b 仅含有1 9 t b ;d e e pw e b 有近5 5 0 0 亿个独立文件, 而s u r f a c e w e b 只有1 0 亿。 2 d e e pw e b 大约有3 0 7 0 0 0 个站点,4 5 0 0 0 0 个后台数据库和1 2 5 8 0 0 0 个查询 接口,其中约4 5 为结构化数据库。 3 d e e pw e b 的月流量通常比s u r f a c ew e b 要多出5 0 ,但是d e e pw e b 并不被 公共互联网搜索领域所熟知。 4 在内容上,d e e pw e b 站点比s u r f a c ew e b 站点更专业;d e e pw e b 内容的全 部价值是s u r f a c ew e b 的1 0 0 0 至2 0 0 0 倍;d e e pw e b 的信息内容往往与市场、领域 1 第1 章引言 d e e pw e b 数据源发现和语义标注技术研究 和信息需求高度相关。 s 一半以上的d e e pw e b 内容存储在主题数据库中;9 5 的d e e pw e b 信息无需 付费或订阅,用户可以直接获取。 6 w e b 数据库查询接口往往位于站点浅层,约9 4 的w e b 数据库查询接口可以 在站点前3 层发现。 7 虽然一些d e e pw e b 目录服务已经开始索引w e b 数据库,但是它们的覆盖率 比较小,仅为o 2 15 6 。 图1 - 1d e e p w e b 与s u r f a c e w e b 对比 图1 1 生动形象地展现了d e e pw e b 和s u r f a c ew e b 之间的差别,其中鱼的数目 代表了w e b 中蕴含的信息量。显而易见的是,s u r f a c ew e b 分布在浅层网络中,信息 量相对较少,而d e e pw e b 蕴藏了更加丰富的信息。 d e e pw e b 的数据来源于后台数据库,要访问这些资源的唯一途径是填写d e e p w e b 站点提供的查询表单,因此用户为了查找某领域内自己感兴趣的信息,往往需 要逐个反复地填写各个w e b 站点的查询表单。很显然,对于用户来说,这一查找过 程是枯燥而又机械的。为了有效地利用d e e pw e b 资源,我们采取的方法是进行大规 模d e e pw e b 数据集成。目前,有关d e e pw e b 数据集成的研究主要包括:d e e pw e b 2 d e e pw e b 数据源发现和语义标注技术研究 第1 章引言 数据源发现( d e e pw e b s o u r c ed i s c o v e r y ) 、d e e pw e b 数据源选择( d e e pw e bs o u r c e s e l e c t i o n ) 、w e b 数据库分类( w e bd a t a b a s ec l a s s i f i c a t i o n ) 、w e b 数据抽取( w e bd a t a e x t r a c t i o n ) 、语义标注( s e m a n t i ca n n o t a t i o n ) 、结果整合( r e s u l ti n t e g r a t i o n ) 等几 大关键问题。 。本文研究的重点主要集中在数据源发现和语义标注这两大问题上,尤其是在语义 标注方面,到目前为止,国内的研究仍比较少。同时,本文设计和实现了一个面向图 书领域的垂直搜索引擎原型系统。 1 2 国内外研究现状 目前,国内在d e e pw e b 搜索和挖掘方面的研究尚处于学习、跟踪和探索阶段。 d e e pw e b 领域的研究单位及相关报道还比较少,尚只有中国人民大学数据库研究小 组在这方面有较深入的研究。由于普通搜索引擎目前还不能提供对d e e pw e b 的搜索 服务,因此,分类目录服务是目前检索d e e pw e b 的一个重要途径,国内在这方面也 出现了一些d e e pw e b 分类目录服务站点,但仍处于手工收集和整理阶段,还不能实 现自动化或半自动化索引处理。 国外已有d e e p w e b 【5 】、i n v i s i b l e w e b l 6 、b r i 曲伊l a i l e t f 2 】三家公司生产相关产品,但 通过对比分析可以得出如下结论:这三家公司的产品均采用半自动化方式,人工干预 较多。尽管他们在产品中加入了d e e pw e b 信息挖掘功能,但目前还没有提供中文 d e e pw e b 信息服务。 国外大学的研究小组主要有以下贡献: 1 伊利诺斯大学的m e t a q u e r i e r 7 】研究小组 该小组在m e t a e x p l o r e r 项目的基础上建立了一个m e t a q u e r y 系统,目的是有效获 取w e b 上的结构化信息。首先,m e t a e x p l o r e r 项目的一个研究重点在于发现和重构 w e b 数据库,并建立一个可搜索的数据源知识库。特别是,该项目开发了一个w e b 数据库搜索引擎,它可以有效发现含有w e b 数据库的站点,并通过构建模型来描述 这些数据库,而封装器用于自动抽取这些模型中的参数,从而重组和索引可搜索的 w e b 数据库。其次,m e t a e x p l o r e r 项目的另一个研究重点在于集成在线数据库。在大 规模信息集成的过程中,其主要研究了动态信息集成技术。与传统的信息检索不同, 第1 章引言 d e e pw e b 数据源发现和语义标注技术研究 该小组设计的m e t a q u e r y 系统是动态执行的,即可以将实时发现的新数据源加入系统 中,同时动态选择合适的数据源,并将用户查询进行相应转换,从而获取用户查询结 果。 2 斯坦福大学的w e b b a s e 8 l 研究小组 h d a v u l c u 、j f r e i r e 等人提出并设计了w e b b a s e 的框架,它可以通过工具帮助 用户实现特定领域的复杂搜索服务。 3 斯坦福大学的h i w e t g 研究小组 h i d d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学另一个研究项目。r a g h a v a n 和 g a r c i a m o l i n a 设计了一个可以抽取d e e pw e b 信息的爬虫。在此系统中爬虫管理器负 责管理搜集过程,并对下载的w e b 页面进行分析,将包含表单的页面送到表单处理 器中处理。表单处理器首先从页面中抽取表单结构,并从预先准备好的数据集中选择 数据自动填写表单,然后将合成的u r l 提交给爬虫管理器。由于表单需要系统自动 完成填写,所以要求用户预先准备好相应的表单数据集。h i w e 只能面向特定的领域 使用,而且必须在人工帮助下完成,因此存在很大的局限性。 4 华盛顿大学的s h o p b o t 1 0 】研究小组 s h o p b o t 是一个针对消费产品的比较代理,它利用特定领域的启发式方法来填写 表单以比较其领域内的商业产品js h o p b o t 的操作过程分为两个阶段:离线学习阶段 和在线产品比较阶段。在学习阶段,确定填写站点表单的方法,并对产品站点结果页 面进行分析,从而获取其站点模式信息。在比较阶段,利用得到的站点模式结构来抽 取结果信息,找出满足用户要求价格最优的产品,最终将这些产品的信息输出。从中 可以看出,该小组的研究领域非常狭窄,不适用于大规模的信息集成。 5 哥伦比亚大学的q p r o b e r l l l j 研究小组 哥伦比亚大学的p a n a g i o t i sg i p e i r o t i s 等人研究了自动分类w e b 页面所对应的后 台数据库的方法。他们首先使用机器学习技术生成一组基于规则的分类器 ( c l a s s i f i e r ) ,然后将分类器转变成查询u r l ,并对后台数据库进行查询,计算查询 结果数。最后该算法通过分析查询结果对数据库进行分类。他们的研究只集中在如何 分类文档数据库上面,然而多数d e e pw e b 数据库提供的内容却是结构化的数据。 此外,微软亚洲研究院早在2 0 0 4 年就提出如何基于接1 2 中的关键字来抽取d e e p w e b 站点内容的方法1 1 2 1 ,并在此基础上,开发了第三代搜索引擎。第三代搜索不仅 4 d e e pw e b 数据源发现和语义标注技术研究 第1 章引言 要对深层互联网进行挖掘,找出更多的结果,还要更加智能化、人性化,能够理解用 户需要什么结果。 1 3 论文的研究重点 根据国内外的研究现状,我们可以得出结论:由于d e e pw e b 具有规模巨大、覆 盖面广、增长速度快的特点,因此d e e pw e b 已作为因特网上一个新的信息源,得到 研究人员越来越多的关注。 对d e e pw e b 研究的根本目的是为了能够自动获取和利用自由分布在整个w e b 上的d e e pw e b 信息,为信息集成和信息挖掘提供服务。通过收集相同领域的d e e p w e b 资源,我们可以实现许多应用,其中垂直分类搜索引擎的应用最为广泛。通过 构建d e e pw e b 分类搜索引擎,能够使用户更方便快捷地查找相关领域信息,从而避 免了传统搜索引擎由于本身索引的偏好而导致的数据不完整,大大提高了索引的覆盖 率。因此,本文在理论研究的基础上,实现了一个面向图书领域的垂直分类搜索引擎 原型系统。论文的研究重点如下: ( 1 ) d e e pw e b 数据源发现技术。针对传统搜索引擎的爬虫程序能够抓取到大量 含有查询接1 2 1 的页面这一特性,提出和设计了一种基于搜索引擎的d e e pw e b 数据源 发现方法。 ( 2 ) d e e pw e b 语义标注技术。提出和设计了一种利用同一领域内数据源之间隐 含的无补关系来对数据源进行交叉标注的方法。 ( 3 ) 最后分析了一个面向图书领域的垂直分类搜索引擎原型系统的实现原理。 1 4 论文结构安排 综上所述,本文共分为7 章,其中第3 、4 、5 章是本文的核心。论文的具体结构 安排如下: 第1 章首先介绍i n t e m e t 发展状况,并由此引出d e e pw e b 的概念,指出d e e pw e b 的研究意义。随后,阐述d e e pw e b 领域的国内外研究现状和主要研究成果。最后给 出本文的研究重点以及结构安排。 第2 章介绍d e e pw e b 研究的总体框架。首先对d e e pw e b 进行简单描述,并给 第1 章引言 d e e pw e b 数据源发现和语义标注技术研究 出d e e pw e b 的一个标准化定义。然后结合d e e pw e b 数据集成系统的框架,简单介 绍其各模块的功能。最后阐述d e e pw e b 的研究难点,并重点分析d e e pw e b 数据库 分类和w e b 数据抽取问题。 第3 章研究分析d e e pw e b 数据源发现问题。首先介绍传统搜索引擎的基本情况, 包括其分类、组成和工作原理。随后,在此基础上提出一种基于搜索引擎的d e e pw e b 数据源发现方法。 第4 章深入研究d e e pw e b 语义标注问题。首先从介绍语义标注研究的主要内容 开始,结合国内外研究现状,指出语义标注的难点。随后,根据从相关文献中得到的 一些启发,提出一种d e e pw e b 数据源间的交叉标注方法。 第5 章首先简单介绍垂直搜索引擎技术。然后,在上文的基础上设计和实现一个 面向图书领域的垂直搜索引擎原型系统,同时对本文提出的技术在该垂直搜索引擎上 的应用做了分析。 第6 章对本文提到的一些实验进行描述,并通过对实验结果的分析,验证本文提 出的技术方法的有效性和可行性。 第7 章是对本文工作的总结和展望。 5 d e e pw e b 数据源发现和语义标注技术研究第2 章d e e p w e b 研究框架 第2 章d e e pw e b 研究框架 随着i n t e m e t 技术的快速发展,w e b 数据库在不断增加,对于那些由w e b 数据 库动态产生的d e e pw e b 信息的需求也在不断增长。如今,d e e pw e b 已成为一个重 点研究领域,受到研究人员更多的关注。本章首先介绍d e e pw e b 研究的总体框架, 随后简要分析d e e pw e b 研究的几个难点问题。 2 1d e e pw e b 基本情况介绍 2 1 1d e e pw e b 的定义 19 9 4 年,d r j i l le l l s w o r t h 首先提出了i n v i s i b l ew e b 的概念,用于指代那些搜索 引擎商出于自身考虑不愿索引,或是因为技术原因普通搜索引擎无法索引的网络内 容。考虑到使用i n v i s i b l e 来形容并不准确,m i c h a e lk b e r g m a n 在其2 0 0 0 年发表的 文章中用d e e pw e b 取代了i n v i s i b l ew e b ,并把不属于d e e pw e b 的页面称为s u r f a c e w e b 【1 3 1 。2 0 0 1 年,c h r i s ts h e r m a n 、g a r yp r i c e 对d e e pw e b 的概念进行了扩充,并将 其定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不做 索引的那些文本页、文件或其它通常是高质量、权威的信息【1 4 】。 2 1 2d e e pw 曲的规模与分布 2 0 0 4 年4 月,u i u c 大学对d e e pw e b 的规模做了一次较为准确的估算【引,表2 1 反映了这次估算的结果。从中我们可以看到,整个w e b 上有3 0 7 0 0 0 个提供w e b 数 据库的网站,这比b r i g h t p l a n e t 公司在2 0 0 0 年估计的5 0 0 0 0 个d e e pw e b 站剧3 】的数 目增长了6 倍多。对于中国d e e pw e b 的规模,c n n i c 在2 0 0 5 年7 月发布的第十六 次中国互联网信息资源数量调查报告显示b 5 1 :中国的在线数据库总数为3 0 6 万个, 拥有在线数据库的网站数为1 6 1 万个,约占中国网站总数的2 4 1 ;如果以拥有在线 数据库的网站为基数,那么全国平均每个网站拥有1 9 个数据库;在线数据库总量年 增长近1 3 万个,增长率达到8 0 。 7 第2 章d e e p w e b 研究框架d e e pw e b 数据源发现和语义标注技术研究 表2 - 1d e e pw e b 的规模 s a m p l i n gr e s u l t s t o t a le s t i m a t e d e e pw e bs i t e s 1 2 63 0 7 0 0 0 w e bd a t a b a s e s1 9 04 5 0 0 0 0 一u n s t r u c t u r e d4 31 0 2 0 0 0 s t r u c t u r e d1 4 73 4 8 0 0 0 q u e r yi n t e r f a c e s 4 0 61 2 5 8 0 0 0 w e b 数据库不仅数量庞大,其分布的范围更是涉及各个主题领域,包括商业与 经济( b u s i n e s sa n de c o n o m y ,即b e ) 、电脑与网络( c o m p u t e r sa n di n t e m e t ,即c i ) 、 新闻与媒体( n e w sa n dm e d i a ,即n m ) 、娱乐( e n t e r t a i n m e n t ,即e n ) 、休闲与体 育( r e c r e a t i o na n ds p o r t s ,即r s ) 、健康( h e a l t h ,即h e ) 、政府( g o v e r n m e n t ,即 g o ) 、地理区域( r e g i o n a l ,即r g ) 、社会与文化( s o c i e t ya n dc u l t u r e ,即s c ) 、教 育( e d u c a t i o n ,即e d ) 、艺术与人文( a r t sa n dh u m a n i t i e s ,即a h ) 、科学( s c i e n c e , 即s i ) 、参考( r e f e r e n c e ,即r e ) 以及其他( o t h e r s ,即o t ) 。u i u c 大学的调查报 告【4 】中有关w e b 数据库在各个主题领域的分布情况如图2 1 所示。 b ec ir i m 朗晤h eg or gs ce da l ls i 糟a t s u b j e c tc a t e g o r i e s 图2 1w e b 数据库在主题领域盼分布情况 此外,一些专门的研究机构( 侈l j 如c o m p l e t e p l a n e t 和1 i i 等) 按照现实世界的不 同主题领域对w e b 数据库的内容做了分类,并构建了各自的d e e pw e b 分类目录。 尽管这些机构对w e b 数据库进行了细致的分类,但其所列出的w e b 数据库的数目仅 粼 撇 量| | 慨 张 瞩 豫荔量置豢冀5奄s营2乱 里! 翌兰! 鍪塑塑垄塾塑堕茎堡垄垫查笙壅翌! 雯里! ! 旦些! 堕壅堡塑 仅只占整卜w e b 数据库的很小一个比例。表2 2 显示了几个主要研究机构的分类目 录所覆盖的范围,其中规模最大的c o m p l e t e p l a n e t 对7 0 0 0 0 个w e b 数据库进行了分 类,也仅占整个w e b 数据库资源的1 5 6 1 3 1 。 表2 2 主要分类目录的覆盖范围 n u m b e ro fw e bd a t a b a s e s c o v e r a g e c o m p l e t e p l a n e t , c o m 7 0 0 0 0 1 5 6 l i i o r g 1 4 0 0 03 1 t u r b o ld c o r n2 3 0 00 5 n v i s i b l e w e b n e t1 0 0 0o 2 2 1 3d e e pw e b 数据的特性 与s u r f a c ew e b 相比,d e e pw e b 数据具有更好的结构性。其结构性首先表现在 d e e pw e b 查询接口上。d e e pw e b 查询接口一般拥有多个查询字段,供用户在若干个 属性上进行查询,这些属性构成了查询接口模式。查询接口模式是关系型数据库模式 在接i s i 属性上的一个映射【l6 1 ,如图2 2 所示。因此,用户必须提交结构化的查询才能 访问后台数据库。其次,d e e pw e b 数据的结构性还表现在结果页面上。结果页面是 系统检索完后台数据库才产生的,比如,图书站点会返回图书的信息,其中包含书名、 作者、价格、图片等规格整齐的结构化属性,这些属性构成了结果模式。并且,结果 模式也是结构化的数据库模式在结果页面属性上的一个映射【1 酬,如图2 2 。 h l l e l f a c e r e f i i n n esearchthbd e p a r t m e n 鼹ti n y ;錾要至薹薹兰雪6 y 呸 图2 2 模式间的映射关系 9 霎登摹i 第2 章d e e p w e b 研究框架d e e pw e b 数据源发现和语义标注技术研究 2 2d e e pw e b 数据集成框架 查询接口生成模块 查询处理模块 图2 - 3d e e pw e b 数据集成系统框架 图2 3 为d e e pw e b 数据集成系统的基本框架。从图中我们可以看到,整个数据 集成系统分成两个模块:查询接口生成模块和查询处理模块。每个模块又包含若干处 理单元,这些处理单元互相衔接,缺一不可。下面,我们对系统中各部分的功能作简 单描述。 2 2 1 查询接口生成模块 d e e pw e b 数据广泛分布在w e b 的各个角落,要利用这些资源,我们首先必须发 现d e e pw e b 站点,并根据站点的接1 3 特征将其进行分类,然后整合相同领域内的所 有d e e pw e b 站点的查询接1 3 ,最终在每个领域内都生成一个统一的查询接口。该查 询接口能够同时向多个实际的查询接口提交查询,达到同时访问属于同一领域的多个 d e e pw e b 站点的目的。 查询接口生成模块共有三个处理单元,分另! 是d e e pw e b 数据源发现、w e b 数据 库分类和集成接口生成。d e e pw e b 数据源发现是指在w e b 上发现那些含有w e b 数 据库的站点;w e b 数据库分类是指根据d e e pw e b 站点查询接口的特征确定其对应 w e b 数据库所属的领域,即将w e b 数据库划分为不同的领域:集成接口生成是指对 1 0 d e e pw e b 数据源发现和语义标注技术研究第2 章d e e p w e b 研究框架 属于同一个领域的查询接口进行集成,得到一个全局的查询接1 2 1 。 2 2 2 查询处理模块 集成的查询接口接收到用户提交的查询后,将该查询分发给各个本地查询接口。 值得注意的是,在分发的过程中需要将查询按照本地查询接口的模式进行转化。随后 : 各个w e b 数据库对提交的查询作出响应,将符合查询的后台数据库内容以h t m l 网 页的形式返回。为了能够利用这些嵌入到h t m l 代码中的半结构化的数据,需要准 确地将其抽取出来并添加语义注释。有了注释后,抽取出的数据便有了其所代表的含 义,但是由于各个w e b 数据库具有自主性和异构性,因此产生的结果数据也是格式 各异,需要将这些数据的格式统一化,形成可被自动处理的数据格式。 查询处理模块包括领域映射、w e b 数据库选择、w e b 数据抽取、语义标注和结 果合并5 个处理单元。领域映射是指将用户提交的查询关键字与领域自动匹配,并把 查询关键字自动提交到相应领域的集成查询接口中;w e b 数据库选择是指从属于该 领域的所有w e b 数据库中选择出合适子集,使得既能够得到令人满意的查询结果, 又可以最大限度地降低所需花费的代价;w e b 数据抽取是指从得到的查询结果页面 中将结果数据全部抽取出来,并保存为下一步可处理的模式;语义标注是指对抽取出 的数据赋予一个特定的含义,以便于实现数据的合并;结果合并是指把从不同w e b 数据库获得的查询结果以统一的表现形式呈现给用户。 2 3 研究难点 由于d e e pw e b 涉及的领域众多,数据的类型也多种多样,因此d e e pw e b 研究 是一项极具挑战性的工作。从上述d e e pw e b 数据集成框架中,我们可以发现,不管 是查询接口生成模块还是查询处理模块,都包含了许多关键问题,有待于研究人员去 解决。本节将对w e b 数据库分类和w e b 数据抽取这两个研究难点作概括介绍,随后, 在第3 章和第4 章中分别对d e e pw e b 数据源发现问题和d e e pw e b 语义标注i 口- j 题作 重点研究。 第2 章d e e p w e b 研究框架d e e pw e b 数据源发现和语义标注技术研究 2 3 1w e b 数据库分类 在d e e pw e b 数据集成过程中,我们需要将w e b 数据库按照其所属的领域进行 分类。为何要分类d e e pw e b 数据库的原因很简单:用户都是基于某个特定领域来搜 索信息的。如果手工来完成对所有w e b 数据库的分类工作必然会耗费大量的时间和 人力,因此需要使用自动化的方法来分类。到目前为止,所有的分类方法都是基于领 域的,并且大多数研究都集中在分类查询接口上。 w e b 数据库分类的方法主要有两种:一种是提交查询法,即首先提交一个或多 个查询,然后根据结果页面的内容来对w e b 数据库进行分类。另一种是非提交查询 法,即直接对表单和包含表单的页面进行分析,从而分类w e b 数据库。下面将简单 介绍该领域的一些主要研究成果。 q i a np e n g 等人提出了一种通过自动聚类w e b 上的电子商务搜索引擎( e s e s ) 来 对d e e pw e b 数据源进行分类的方法【l7 1 ,该方法利用e s e 查询接1 2 1 所在页面上的有 用特征信息来实现聚类,最终使同一簇中的e s e s 出售相同类别的产品。这些特征信 息包括链接和图片的数目、查询接口中出现的频繁词以及标准化的价格特征。该方法 在收集到的3 0 0 个e s e s 上进行实验,实验结果表明:利用聚类e s e s 的方式进行分 类,p r e c i s i o n 、r e c a l l 和f 1m e a s u r e 都超过了9 0 ,并且其性能大大优于普通文本聚 类( 均在7 0 左右) 的方法。但该方法仅局限于电子商务领域。 b i nh e 等人同样利用聚类的方法对d e e pw e b 数据源按层次结构进行分类【1 8 】【1 9 1 。 在实际操作中,他们将查询接口的模式特征视为一种可分类的数据,从而数据源分类 的问题可以转化为聚类这些分类数据。首先,他们假设同类数据源的查询接口模式都 可由同一隐藏的生成模型来描述,基于这样的理论,他们提出了一个新的目标函数: 模型区另l j ( m o d e l 。d i f f e r e n t i a t i o n ) 。该函数通过原则性假设测算来求出簇间的最大统计 异构性。对于一个给定的查询接口,该函数可以计算出这个查询接口与每个领域的相 关性。实验结果表明:针对图书、电影等对象领域,基于模式的聚类方法可以有效分 类数据源。 p a n a g i o t i sg i p e i r o t i s 等人提出了一种利用少量查询探测来自动分类w e b 数据库 的方法【2 0 】。该方法通过训练一个基于规则分类的文档分类器,将学习到的分类规则转 化为查询并提交,然后统计出返回结果中与每一个查询探测结果相匹配的数目,根据 1 2 d e e pw e b 数据源发现和语义标注技术研究 第2 章d e e p w e b 研究框架 该数目来对数据源进行分类。实验证明他们的算法具有较低的额外开销和较高的准确 率。 此外,y l h e d l e y 、m y o u n a s 等人利用文本数据库的专业度( s p e c i f i c i t y ) 和覆盖 度( c o v e r a g e ) 来描述数据库内容摘要,从而实现对文本数据库的分类【2 1 1 。w e i y im e n g 等人经过研究发现一些本文分类的算法同样适用于数据库分类,不过前提是该算法需 要利用数据库的某些特有的特型勿。值得注意的是,以上两种方法都是针对本文数据 库的。 总体来说,现有的方法还没有将w e b 数据库分类问题彻底解决,其主要原因在 于只利用了查询接口自身的信息。遇到查询接口的属性非常类似或属性极其简单的情 况,这些方法就会变得难以应付。今后,可以从以下几方面考虑:首先,采用的方法 要能够根据领域之间的不同特征实时调整相似度函数里的判断标准,并将分类过程分 成多个阶段来执行;其次,通过在查询接口上提交与领域相关的查询,并对返回结果 进行分析,从而实现分类。这种方法可以直接判断出w e b 数据库属于哪个领域:另 外,提交样本查询也是一种有效发现w e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论