(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf_第1页
(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf_第2页
(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf_第3页
(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf_第4页
(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)deep+web入口识别和个性化搜索研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 用户对d e e pw e b 站点的访问主要是通过其在w e b 页面中提供的 具有特定查询能力的接口来获取所需要的结果。为了帮助用户简单高 效的查找d e e pw e b 信息,就必须提供统一的查询接口,方便用户对 多个d e e pw e b 站点同时进行查询。而d e e pw e b 入口识别是整个d e e p w e b 集成搜索的重要组成部分,是搜索信息的来源和后续工作的前 提,对整个d e e pw e b 集成系统有着重要的意义。同时,大量的d e e p w e b 信息犹如浩瀚的海洋,为了使得d e e pw e b 集成搜索获得的数据 具有更高的使用价值,避免“信息过载”,就要对d e e pw e b 集成搜索 的结果进行处理,为用户提供个性化d e e pw e b 集成搜索服务。 本文重点研究了d e e pw e b 入口识别和d e e pw e b 集成结果显示 的相关技术,给出了一种具有增量学习能力的p u 主动学习算法并应 用到d e e pw e b 入口识别中以及一种面向d e e pw e b 集成的个性化搜 索方法,最后设计和实现了一个面向d e e pw e b 集成的个性化搜索原 型系统。 本文主要研究的内容包括: ( 1 ) 研究如何从不断增加的w e b 页面中判断出d e e pw e b 入v i 并 对其分类。针对初始正例样本较少并且不同类别反例获取困难的情 形,给出了一种具有增量学习能力的p u 主动学习算法,该算法使用 三个支持向量机进行协同半监督学习的同时,利用基于网格的聚类方 法进行无监督学习,当分类与聚类结果不一致时,引入主动学习来标 记无标记样本。将该算法应用于d e e pw e b 入1 :3 的在线判断和分类中, 实验表明,该方法能提高新的类型的发现能力以及处理增量无标记样 本的能力。 江苏大学硕士学位论文 ( 2 ) 为了缓解d e e pw e b 集成搜索结果页面中信息量过大,导致 信息过载的问题,给出了一种面向d e e pw 曲集成的个性化搜索方法。 该方法利用d e e pw | e b 站点目录和用户调查表生成兴趣树,并根据用 户反馈和成员d e e pw e b 站点返回的参数等更新用户兴趣。针对不同 的用户兴趣对页面进行过滤和排序,从而得到最终显示页面。实验结 果表明,该方法优化了d e e pw e b 集成搜索,使得用户感兴趣的个性 化信息更加突出。 ( 3 ) 设计和实现了一个面向d e e pw e b 集成的个性化搜索原型系 统,并将上文给出的技术在该系统上的应用做了分析。实际应用表明, 该系统可以取得较好的效果。 关键词:d e e pw e b ,主动学习,p u 学习,个性化搜索,兴趣树 江苏大学硕士学位论文 a b s t r a c t t h ev i s i t so fu s e r st od e e pw e bs i t e sa r em a i n l ya c h i e v e dt h r o u g h o b t a i n i n gt h ed e s i r e dr e s u l t sf r o mt h ei n t e r f a c e sw h i c hh a v es p e c i f i c q u e r ya b i l i t yp r o v i d e di nw e bp a g e s i ti sn e c e s s a r yt op r o v i d eau n i f i e d q u e r yi n t e r f a c ew h i c hc o u l dm a k em u l t i p l ed e e pw e bs i t e s v i s i t e d s i m u l t a n e o u s l yt oh e l pu s e r ss e a r c hd e e pw e bi n f o r m a t i o ns i m p l ya n d e f f e c t i v e l y t h er e c o g n i t i o no ft h ed e e pw e be n t r a n c ei sa l li m p o r t a n t c o m p o n e n to ft h ei n t e g r a t e ds e a r c h ,t h es o u r c eo fi n f o r m a t i o ns e a r c h i n g a n dt h ep r e r e q u i s i t ec o n d i t i o nf o rt h ef o l l o w i n gw o r k s a n di ti si m p o r t a n t f o rt h ee n t i r ei n t e g r a t e ds e a r c hs y s t e mo fd e e pw e b m e a n w h i l e ,h u g e n u m b e ro fd e e pw e bi n f o r m a t i o nl i k e sav a s to c e a n f o rt h es a k eo f m a k i n gt h ed a t ao b t a i n e db yi n t e g r a t e ds e a r c ho fd e e pw e bh a v eh i g h e r v a l u ea n da v o i d i n g i n f o r m a t i o no v e r l o a d i n g ,i tn e e d st op r o c e s st h e i n t e g r a t e d s e a r c hr e s u l t s a ,n d p r o v i d e t h e i n t e l l i g e n t s e r v i c e so f p e r s o n a l i z e ds e a r c hf o ru s e r s t h i sp a p e rm a i n l ys t u d i e st h et e c h n i q u e sa b o u tt h er e c o g n i t i o no f t h ed e e pw e be n t r a n c ea n dt h ed i s p l a yo ft h ei n t e g r a t e dr e s u l t so fd e e p w e b i na d d i t i o n ,ap ua c t i v el e a r n i n ga l g o r i t h mw h i c hh a si n c r e m e n t a l l e a r n i n ga b i l i t yi sp r o p o s e d w ea p p l yi ti n t ot h er e c o g n i t i o no ft h ed e e p w e be n t r a n c e m o r e o v e r , w ep u tf o r w a r da p e r s o n a l i z e ds e a r c hm e t h o d b a s e do nt h ei n t e g r a t i o no fd e e pw e b f i n a l l y , ap e r s o n a l i z e ds e a r c h 江苏大学硕士学位论文 p r o t o t y p es y s t e mb a s e do nt h ei n t e g r a t i o no fd e e pw e bi sd e s i g n e da n d i m p l e m e n t e d t h em a i nw o r ko ft h i sp a p e ri si n t r o d u c e da sf o l l o w s : ( 1 ) s t u d yh o wt od e t e r m i n et h ee n t r a n c e so fd e e pw e bf r o mt h e i n c r e a s e dw e bp a g e sa n dc l a s s i f yt h e m f o rl o w e r i n gt h er i s ko fl a c k i n g o fi n i t i a lp o s i t i v e s a m p l e sa n dh a r d l yo b t a i n i n g n e g a t i v es a m p l e so f c o r r e s p o n d i n gp o s i t i v es a m p l e so fd i f f e r e n tc l a s s e s ap ua c t i v el e a r n i n g m e t h o dw h i c hh a si n c r e m e n t a ll e a r n i n ga b i l i t yi sp r e s e n t e d t h i sm e t h o d e m p l o y st h r e es v mc l a s s i f i e r si nc o o p e r a t i v em e t a - s u p e r v i s e dl e a m i n g w h i l eu n s u p e r v i s e dl e a r n i n gb a s e do ng r i d - b a s e dc l u s t e r i n gi su s e d w h e n t h er e s u l t so fc l a s s i f i c a t i o na n dc l u s t e ra n a l y s i sa r en o tu n a n i m o u s ,w e i n t r o d u c ea c t i v el e a r n i n gt om a r kt h eu n l a b e l e ds a m p l e s t h ea l g o r i t h mi s a p p l i e d t ot h eo n l i n e r e c o g n i t i o n o fd e e pw e bi n t e r f a c e sa n d c l a s s i f i c a t i o n e x p e r i m e n t ss h o wt h a tt h em e t h o dc a ne f f e c t i v e l yi m p r o v e t h e a b i l i t y o fi d e n t i f y i n gn e wc l a s s e sa n d p r o c e s s i n g i n c r e m e n t a l u n l a b e l e ds a m p l e s ( 2 ) p r e s e n t a p e r s o n a l i z e d s e a r c h a p p r o a c h b a s e do nt h e i n t e g r a t i o no fd e e pw e b i no r d e rt os o l v et h ep r o b l e mt h a ti n f o r m a t i o n o v e r l o a d i n gd u et ot h ee x c e s s i v ea m o u n to fi n f o r m a t i o ni nt h ei n t e g r a t e d s e a r c ho fd e e pw e b t h i sm e t h o du s e sd e e pw e bd i r e c t o r i e sa n du s e r q u e s t i o n n a i r et og e n e r a t ei n t e r e s tt r e ea n du p d a t eu s e ri n t e r e s ta c c o r d i n g t ot h ef e e d b a c kf r o mu s e r sa n dt h er e t u r n e dp a r a m e t e r sf r o mt h em e m b e r s 江苏大学硕士学位论文 o ft h ed e e pw e bs i t e s t h ep a g e sa r ef i l t e r e da n ds o r t e da c c o r d i n gt o d i f f e r e n tu s e ri n t e r e s t ss oa st o g e t t h ef i n a l d i s p l a y e dp a g e s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h i sm e t h o de f f e c t i v e l yo p t i m i z e s t h ei n t e g r a t e ds e a r c hp r o c e s so f d e e pw e b ,l e a d i n gt ot h em o r ep r o m i n e n t p e r s o n a l i z e di n f o r m a t i o n ( 3 ) d e s i g na n di m p l e m e n ta l li n t e g r a t e dp e r s o n a l i z e ds e a r c h p r o t o t y p es y s t e mo fd e e pw e b m o r e o v e r , w ea n a l y z et h ea p p l i c a t i o no f t h et e c h n i q u e sm e n t i o n e da b o v et ot h es y s t e m t h ep r a c t i c a la p p l i c a t i o n s h o w st h a tt h es y s t e mc a nh a sa g o o de f f e c t k e y w o r d s :d e e pw e b ,a c t i v el e a r n i n g ,p ul e a r n i n g ,p e r s o n a l i z e d s e a r c h ,i n t e r e s tt r e e 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文 的规定,同意学校保留并向国家有关部门或机构送交论文的 复印件和电子版,允许论文被查阅和借阅。本人授权江苏大 学可以将本学位论文的全部内容或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和 汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 学位论文作者签名:豫久 指导教师签名:券j 乞 矽b 年厶月2 日 b 一年( 月八日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究工作所取得的成果。除文中已经注明引 用的内容以外,本论文不包含任何其他个人或集体已经发表 或撰写过的作品成果。对本文的研究做出重要贡献的个人和 集体,均已在文中以明确方式标明。本人完全意识到本声明 的法律结果由本人承担。 学位论文作者签名:友飞欠 日期:如b 年c ,b 月iz - e l 扛苏大学硕士学位论文 11 研究背景 第一章绪论 随着w e b 技术高速发展,使得i n t e r n e t 成为一个巨犬的信息资源库,为人 们提供了海量的在线信息。根据相关研究显示f ”1 2 1 ,目前整个w e b 包含超过 2 0 0 ,0 0 0 t b 的信息量且仍在飞速的不断增长。网页是i n t e m e t 中信息的主要载 体海量的网页在包含丰富信息的同时,其形式和内容上也有巨大的差异而且 分布在i n t e m e t 中连接的任何一个角落,从而造成了w e b 数据的异质性和缺乏结 构性。正是由于这些原因,使得自动从海量的w e b 中获取需要的信息和数据变 成一项极具挑战性的任务。到目前为止,为了有效的利用w e b 上的信息而采用 的方法涉及了广泛的领域:数据挖掘、机器学习、自然语言处理、统计分析、数 据库和信息检索等吼 整个w e b 按照信息所蕴含的深度为度量可分为两类:s u r f a c ew e b 和d e e p w e b 。s u r f a c e w e b 包括的内容基本都是非结构化的h t m l 信息,对搜索引擎而 言是相对可见的,因此又被称为v i s i b l ew e b ;而d e e pw e b 的内容存储在w e b 中可访问的在线数据库中,是相对不可见的于是又被称为i n v i s i b l ew e b 。目前 还没有对d e e pw e b 有一个统一的定义,一般是指w e b 中在线可访问的数据库, 也称为w e b 数据库。这些内容是由用户通过特定的( 如图l1 所示) 查询接口提 交查询,由后台数据库动态创建返回给访问者的,由于没有现成的超链接指向这 些动态页面,因而搜索引孳不能检索到。 图ild e e p w e b 搜索八。 与s u r f a c ew e b 相比,d e e pw e b 之所以被人们备受关注,主要因为其信息的 海量性和专业性。根据近年来研究调查表n , 目n l l 4 1 1 5 : ( 1 ) d e e p w e b 罩包含的可访问公共信息量是s u r f a c e w e b 的4 0 0 - 一5 0 0 倍。d e 印 w e b 包含7 5 0 0 t b 的信息,而s u r f a c ew e b 包含的信息容量只有1 9 t b ;d e e pw e b 有近s 5 0 0 亿个独立文件,而s u r f a c ew e b 只有1 0 亿。 江苏大学硕士学位论文 ( 2 ) d e e pw e b 大约有3 0 7 0 0 0 个站点,4 5 0 0 0 0 个后台数据库和1 2 5 8 0 0 0 个查 询接口,其中约4 5 为结构化数据库。 ( 3 ) d e e pw e b 站点的平均月访问量比s u r f a c ew e b 站点高出5 0 ,并且与 s u r f a c ew e b 站点相比有更多的链接。可是那些典型的大型d e e pw e b 在互联网搜 索领域却不知名。 ( 4 ) d e e pw e b 站点在信息内容范围上比一般s u r f a c ew e b 站点更专更深。 d e e pw e b 包含的有效高质内容总量至少是s u r f a c ew e b 的1 0 0 0 到2 0 0 0 倍。 ( 5 ) 超过一半的d e e pw r e b 内容都保存在专业领域的数据库中,9 5 的d e e p w e b 信息都是面向公共访问的,而不是需要付费或者订阅的。 ( 6 ) 虽然一些d e e pw e b 目录服务已经开始索引w e b 数据库,但是它们的覆 盖率比较小,仅为0 2 1 5 6 。 ( 7 ) w e b 数据库查询接口往往位于站点浅层,9 4 的大量w e b 数据库查询接 口可以在站点前3 层发现。 综上所述,d e e pw e b 具有信息量大、价值高、质量优、结构化好等特点, 然而d e e pw e b 的数据来源于后台数据库,要访问这些资源的途径是填写d e e p w e b 站点提供的查询表单,因此用户为了查找某领域内自己感兴趣的信息,往往 需要逐个反复地填写各个w e b 站点的查询表单。很显然,对于用户来说,这一 查找过程是枯燥而又机械的。为了有效地利用d e e pw e b 资源,采取的方法是进 行大规模d e e pw e b 数据集成。目前,d e e pw e b 数据集成的研究主要包括以下几 个关键问题:d e e pw e b 的发现、d e e pw e b 的分类、查询接1 3 的集成、w e b 数据 库的选择、w e b 数据抽取、语义标注、结果整合等。 本文主要针对d e e pw e b 入口的识别和对d e e pw e b 集成搜索时提供个性化 搜索进行详细的介绍和深入的研究,尤其是在d e e pw e b 集成搜索结果整合方面, 目前在这方面的工作还在刚刚起步的阶段。 1 2 国内外研究现状 d e e pw e b 信息集成至今仍是一个新兴的研究领域,虽然目前已经开展了很 多研究,国内外的会议及期刊上也都有相关研究论文,但离实际应用水平还有很 大的差距,其中还有很多亟待解决的问题。 2 江苏大学硕士学位论文 国内对w e b 技术的研究起步较晚,目前对d e e pw e b 的研究还处在学习和探 索阶段。2 0 0 8 年软件学报专刊对d e e pw e b 有相关的研究,出现了一批理论 成果。苏州大学,中国人民大学,东北大学等高校均有相关的研究小组,取得的 成果也很显著。由于搜索引擎目前还不能提供对d e e pw e b 的搜索服务,分类目 录服务是目前检索d e e pw e b 的一个途径,国内也出现一些d e e pw e b 分类目录 服务站点,但尚处于手工处理阶段,还不能实现自动化或半自动化索引处理。 国外已有d e e pw e b l 4 1 、i n v i s i b l ew e b 5 1 、b r i g h tp l a n e t t l j _ - - 家公司生产相关产 品,但通过对比分析可以得出如下结论:这三家公司的产品均采用半自动化方式, 人工干预较多。此外,伊利诺斯大学的m e t a q u e r i e r 6 】研究组在m e t a e x p l o r e r 项 目的基础上建立了一个m e t a q u e r y 系统,目的是有效获取w 曲上的结构化信息。 与传统的信息检索不同,该系统是动态执行的,即可以将实时发现的新数据源加 入系统中,同时动态选择合适的数据源,并将用户查询进行相应转换,从而获取 用户查询结果。h d a v u l c u 、j f r e i r e 等人提出并设计了w e b b a s e 的框架【7 】,它可 以通过工具帮助用户实现特定领域的复杂搜索服务。r a g h a v a n 和g a r c i a - m o l i n a 设计了一个可以抽取d e e pw r e b 信息的爬虫【8 】,但此爬虫只能面向特定的领域使 用,而且必须在人工帮助下完成,因此存在很大的局限性。华盛顿大学的 s h o p b o t 【9 】是一个针对消费产品的比较代理,它利用特定领域的启发式方法来填 写表单以比较其领域内的商业产品,但该研究领域非常狭窄,不适用于大规模的 信息集成。哥伦比亚大学的p a n a g i o t i sg l p e i r o t i s 等人研究了自动分类w e b 页面 所对应的后台数据库的方法【1 0 1 ,该算法通过分析查询结果对数据库进行分类。 微软亚洲研究院提出基于接口中的关键字来抽取d e e pw 曲站点内容的方法1 , 并在此基础上,开发了第三代搜索引擎。第三代搜索不仅要对深层互联网进行挖 掘,找出更多的结果,还要更加智能化、人性化,能够理解用户需要什么结果。 至今,人们在d e e pw e b 领域已经作了一定的研究,但它们的自动化程度都 不高,较大程度上是研究性质的,有些d e e pw e b 应用也只是整个信息海洋中的 冰山一角。因此准确地说,大部分工作仍然处在探索性阶段,离实际应用还有很 大的距离,大量关键的问题还需要做深入细致的研究。 3 江苏大学硕士学位论文 1 3 论文的研究内容 国内外研究现状表明,d e e pw e b 受到越来越多的关注。对d e e pw e b 研究的 根本目的是为了能够自动地获取分布在整个w e b 上的d e e pw e b 中丰富的信息, 为用户更高效率的使用d e e pw e b 提供服务。整个d e e pw r e b 资源几乎包含了人 们所需要的任何信息,但要想以人工的方式对其加以有效的利用,实际应用中是 一件非常困难的事情。d e e pw e b 入口的判断和分类以及d e e pw e b 集成搜索结果 整合是d e e pw e b 数据集成的重要部分。正是基于这种认识,本文着重对d e e p w 曲入口的判断和分类以及个性化d e e pw - e b 集成搜索技术进行深入的研究,主 要研究内容如下: ( 1 ) 针对现有的d e e pw e b 入口的判断和分类技术不能很好的处理增量样本 以及新类别发现困难的问题,给出了一种具有增量学习能力的p u 主动学习算法, 并在此算法的基础上进行d e e pw e b 入口的判断和分类,力求提高对d e e pw e b 入口的判断和分类的正确性、新类型的发现能力以及处理增量样本的能力。 ( 2 ) 针对海量d e e pw e b 集成搜索结果使得“信息过载”的问题,给出了一 种面向d e e pw e b 集成的个性化搜索方法。该方法针对不同的用户兴趣对页面进 行过滤和排序,从而得到最终显示页面,优化了d e e pw e b 集成搜索,使得用户 感兴趣的个性化信息更加突出。 ( 3 ) 设计和实现了一个面向d e e pw e b 集成的个性化搜索原型系统。实际应 用表明,该系统可以取得较好的个性化搜索效果。 1 4 论文的结构安排 本文共分为6 章,具体结构安排如下: 第一章首先给出d e e pw e b 的概念及其特性,随后阐述国内外d e e pw e b 的 研究现状和主要研究成果,最后给出本文的研究重点和结构安排。 第二章首先概述d e e pw e b 数据集成框架,并简单介绍各模板的功能,然后 介绍d e e pw r e b 入口的判断和分类技术,以及面向d e e pw r e b 集成的个性化搜索 技术,并且介绍了入口识别中使用的基于正例和无标记样本学习的相关技术。 第三章研究分析了d e e pw e b 入口识别技术。本章首先对p u 学习和d e e p 4 江苏大学硕士学位论文 w e b 入口识别问题进行了描述,随后给出了一种具有增量学习能力的p u 主动学 习算法,并应用到d e e pw e b 入口的识别上。 第四章研究分析了个性化d e e pw e b 集成搜索技术。首先对d e e pw e b 集成 搜索问题进行描述,随后给出了一种面向d e e pw e b 集成的个性化搜索方法。 第五章设计和实现了一个面向d e e pw e b 集成的个性化搜索原型系统。 第六章对本文工作进行总结和展望。 s 江苏走学硕士学位论史 第二章d e e pw e b 信息集成 随着i n t e r n e t 的飞速发展,人们希望从w e b 中获取更多有用的信息,因此 d e e pw e b 受到国内外研究者的关注,越来越多的研究成果发表在高级别会议和 期刊上。对d e e pw e b 进行研究就是为了对其中的海量异构信息进行集成,从而 为用户提供一个统一的访问途径来自动获取分布在整个d e e p w e b 上的信息。本 章对d e e pw e b 数据集成的整体框架进行了概述,然后对d e e pw e b 数据集成中 本文涉及到的两个关键技术进行了分析。 2 1d e e pw e b 信患集成概述 d e e p w e b 信息集成的目的是尽可能以自动的方式来完成对w e b 数据库中信 息的有效利用。囤2 1 给出了d e e pw e b 数据集成的系统框架”,并按照这个框 架对系统中各部分功能进行简要的描述。 口| 囤21d e e p w e b 信息集成系统框架 d e e pw e b 数据集成框架共分为两个大的模块:集成查询接r l 的生成和对集 成查询接口上查询的处理。每个模块又分为若干子模块,分别完成特定的功能。 l 、集成查询接口生成模块 为了能够同时访问多个w e b 数据库数据,在w e b 数据库集成系统中必须要 提供一个统一的访问途经。每个w e b 数据库都提供了查询接口,需要把每个w e b 6 江苏大学硕士学位论文 数据库的查询接口进行集成并得到一个统一的接口,该接口称为集成接口。通过 在集成接口上提交查询,就达到了同时在多个w e b 数据库的查询接口提交查询 的目的。 查询接口生成模块共有四个主要的子模块:d e e pw e b 数据源的发现、查询 接口模式的抽取、d e e pw | e b 数据源的分类和查询接口集成。d e e pw e b 数据源的 发现是指从w e b 中发现具有w e b 数据库的网站,然后从中发现可访问这个w e b 数据库的查询接口。查询接口模式的抽取是对前一步获得的查询接口中所包含的 属性进行分析和抽取,获得一个查询接口的模式信息。d e e pw e b 的分类是指根 据已得到的查询接口的模式信息确定其对应w e b 数据库所属的领域,即按照领 域对w 曲数据库进行分类。查询接口的集成是对属于同一个领域的查询接口进 行集成,得到一个全局的查询接口。 2 、数据查询处理模块 d e e pw e b 数据查询的处理就是当用户在集成查询接口上填写并提交查询 时,可以同时得到从多个w e b 数据库中获取符合该查询的结果,并把这些异构 的数据以统一的模式存储或展现。为了能达到这个目的,需要完成若干步骤。首 先能够为用户选择合适的w e b 数据库,其次把查询近似等价地转化为这些具体 w e b 数据库查询接口上的查询,然后从返回的结果页面中抽取查询结果并添加 语义注释,最后将这些结果合并在一起。 查询处理模块包括领域的映射、w e b 数据库的选择、查询转换、结果抽取、 语义标注、实体识别和结果合并等子模块。领域映射是指将用户提交的查询关键 字与领域自动匹配,并把查询关键字自动提交到相应领域的集成查询接口中; w e b 数据库的选择是指从属于该领域的所有w e b 数据库中选择出合适子集,使 得既能够得到令人满意的查询结果,又可以最大限度地降低所需花费的代价;查 询转换是指将在集成查询接口提交的查询转化为要访问的w e b 数据库的各个本 地查询接口上的查询;w e b 数据抽取是指从得到的查询结果页面中将结果数据 全部抽取出来,并保存为下一步可处理的模式;语义标注是指对抽取出的数据赋 予一个特定的含义,以便于实现数据的合并;实体识别是指从不同w e b 数据库 获得的结果中发现表示现实世界同一实体的数据,这一步是为了可以去掉结果中 7 江苏走学硕士学位论文 重复数据,即降低数据的冗余度;结果合并是指把从不同w e b 数据库获得的查 询结果以统一的表现形式呈现给用户。 2 2 d e e p w e b 入口的相关技术 d e e pw e b 入口的发现是进行d e e pw e b 数据集成的开始和关键,它直接关 系到数据集成的效果。d e e p w e b 入口的发现是指在w e b 中发现可以访问的w e b 数据库,而完成这个功能主要分为三个步骤:首先,找到w e b 数据库所在的网 站;其次,执获得的网站中判断出d e e pw e b 入口:最后,对d e e pw e b 入口进 行分类。 221 d e e p w e b 站点的发现技术 比较全面而准确的把w e b 数据库从w e b 中搜索出来是一件非常困难而又耗 时的事情,如图2 2 所示。其原因有三:首先由于目前w e b 中存在大约4 5 万个 可访问的w e b 数据库,选些自主的、相互独立的w e b 数据库分布在整个w e b 的各个角落,虽然对w e b 数据库做了搜集与整理,但从表ll 中可以看到只覆 盖了全部w e b 数据库的很少一部分;其次w e b 是动态的、不断变化的,w e b 数 据库也是如此,不断有新的l x e pw e b 站点产生和旧的d pw e b 站点消失,既 使现存的w e b 数据库内容和规模也处于不断变化之中;最后,查询接口在网页 上都是以h n n l 语言的f o r m 元素所形成的表单的形式展现,但并不是说由f o r m 元素所形成的表单都是查询接口,比如网站中用户的注册、b b s 讨论组、写发 邮件,还有搜索引擎和元搜索引擎也都是表单的表现形式,要能够从中准确地识 别出真正的w e b 数据库的查询接口1 2 】。 躅2 2 动态变化的d e e p w e b 江苏大学硕士学位论文 从大量的网络资源中选出有价值的资源,要在较短的期限内达到信息的规模 效应,在人员的安排上仅靠有限的学科专家和相关的专业人员是难以达到预期目 的的。因此,d e e pw e b 资源的采集应遵循多元化策略,主要可采取以下措施: ( 1 ) 人工采集 由工作人员查阅各种文献、浏览互联网或向有关专业人员请教获得相应的信 息源,定期对这些信息源进行跟踪检索获取数据。人工采集方式的工作效率较低, 而且所收集的信息不全,带有一定的随机性和随意性。常用的信息源有: ( 1 ) 对公众免费开放的数据库资源,如p u bm e d 、g e nb a n k 、d o a j 等。( 2 ) 目录 指南( d i r e c t o r i e s ) ,如l i b r a r i a n s i n d e xt ot h ei n t e m e t 中的i n v i s i b l ew e b 资源。( 3 ) 搜索i n v i s i b l ew e b ”的网站,如t h ei n v i s i b l ew e b d i r e c t o r y 、d i r e c ts e a r c h 、c o m p l e t p l a n e t ( b r i g h tp l a n e t 公司经营的网站) 、i n f o m i n e 、a b o u t c o r n 等。( 4 ) 专业搜 索引擎:i n c y w i n c y 、s i n g i n g f i s h 、g o o g l en e w s 、s c i m s 、s c i e n c e g o v 等。( 5 ) 利用 普通搜索引擎如g o o g l e 、y a h o o ! s e a r c h 、y a h o o ! d i r e c t o r y 和t e o m a 等搜索,检 索策略为“主题词或关键词+ d a t a b a s e ”,这样就可以搜索到这些搜索引擎所收录 的该主题词或关键词方面的相关数据库链接。如t o x i cc h e m i c a l sd a t a b a s e 。 ( 2 ) 自动化采集 即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数d e e pw e b 资源为蜘 蛛程序无法访问或索引的数据库,自动化采集d e e pw e b 资源需要使用专门的 d e e pw e b 数据挖掘软件。这里主要有两种方法:自行研发基于特定目的的d e e p w e b 爬虫和直接采用专用商业软件。 早期的d e e pw e b 爬虫的设计工作关注于可查询数据库内容的提取,如斯坦 福大学引入了一个操作模型h i w e ( h i d d e nw e bc r a w l e r ) 。在论文【1 2 1 中,对于 设计用于抓取不同研究方向内容的爬虫进行了讨论。同时,在聚焦爬虫【1 3 。1 5 1 方面 也有一些工作,它主要通过p i w 爬虫来描述基于特定领域或主题的资源发现。 在 1 6 d p ,作者通过对于d e e pw e b 入口定位和d e e pw e b 目录的覆盖率的研究, 提出了一些对于研究人员有帮助的观测结果,而且他们还给出了d e e pw e b 爬虫 和s u r f a c ew e b 爬虫策略的不同。在【1 7 】中,用于d e e pw e b 的表单聚焦爬虫被提 了出来。在 1 8 c p ,b a r b o s a ,l 和f r e i r e ,j 在设计多分类器的时候提出了一种自适 应策略。 9 江苏大学硕士学位论文 采用专用商业软件,这类软件可实现对d e e pw e b 资源的检索,它可以将用 户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果送回给用 户。如b r i g h tp l a n e t 开发用于检索d e e pw e b 资源的专业软件l e x i b o t 2 0 ,用户 可将其下载到自己的计算机上,采用关键词串检索,可同时对2 2 0 0 多个网站和 数据库进行检索,检索过程可采用后台操作模式,不影响用户做另外事务。目前 a r i g h tp l a n e t 公司己停止销售该软件,取而代之的是d q m 2 ( b r i g h tp l a n e t sd e e p q u e r ym a n a g e rt m ) ,可根据用户的指令对超过7 0 0 0 0 个d e e pw e b 专业数据库 同时进行检索,并实时进行跟踪和监测,为用户返回最新研究进展提示,用户也 可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一步管理 制作,后续资料可进行追加,是一个较为理想的门户网站建设d e e pw e b 资源采 集软件。另外可供参考的还有普渡大学( p u r d u eu n i v e r s i t y ) 的e d um e d ,专门用于 搜索医学多媒体数据库,该软件前身是一个多媒体管理系统v d b m s 。 自动化采集的工作效率较高,可以确保查全率。但所收集的资料良莠不齐, 质量难以保证,而且所收集的信息量太大,容易使系统难以承载。 ( 3 ) 人机结合采集 充分利用网上自动漫游、自动跟踪、自动分类和自动标引技术,采用人机结 合的方式,提高资源采集的效率,以适应网络信息变化快、更新迅速的要求。一 方面工作人员可以对软件定期收集来的资源进行严格的筛选评价以保证其质量, 另一方面可以制订一系列专业学科的检索策略,通过软件有针对性收集网络数据 资源,并将收集到的资源用元数据的规范描述后存放到数据库中,以实现主题浏 览查询、资源类型浏览查询和关键词查询等多种检索方式。 2 2 2d e e pw e b 入口的判断技术 由于查询接口和搜索引擎、元搜索引擎以及用户注册等都是以h t m l 语言 的f r o m 元素表示,因此有两个问题需要解决:首先,通常一个网站包含上千甚 至更多的页面,遍历所有页面显然代价太大;其次需要从所有f o r m 元素中将查 询接口准确的区分出来。在文献 5 】中c h a n g 等通过大量的观察提出了一个巧妙 的办法来解决这个问题,即从网站的主页开始以宽度优先遍历所形成的树,查询 接口在这棵树中的深度不会超过5 ,而且9 4 的查询接口不会超过3 ,这样搜索 江苏大学硕士学位论丈 空间就会大大降低。而对于第二个问题,文献 1 9 1 基于查询接口的特征利用c 4 5 决策树实现了对查询接口的识别,其中主要分为两个步骤,首先是查询接口特征 的产生;其次是在这些可以作为判断依据的特征之上利用c 4 5 算法得到一棵决 策树,通过这棵决策树找出真正的查询接口。在文献 1 9 1 中同时提出了一个判断 某个页面中是否含有查询接口的简单方法。该方法共有3 个简单的规则:首先页 面中要有f o r m 标签;其次f o r m 标签中必须有t e x t 输入控件;第三,至少出现 一组关键词中的一个,像“查询 、“搜索 等等。文献 2 0 1 提出了一种利用朴 素贝叶斯分类算法来自动判定网页表单是否是d e e pw e b 查询接口的方法,文章 提取了h t m l 表单标签的属性值和空间类型以及控制标签之间的词汇信息等作 为贝叶斯分类的特征集,实验结果表明在查询接口的查全率和查准率方面都有所 提高。但这些方法还有一些不完善的地方,首先它们还不能把代表w e b 数据库 的查询接口与搜索引擎区的查询接口分开来,这就需要进一步总结这二者之间可 区分的特征;另外该工作只是根据f o r m 表单在页面中的源代码总结查询接口的 特征,其实还有很多的特征可以利用,比如查询接口在页面中的视觉布局信息、 所在页面的频繁词汇信息等。 2 2 3d e e pw e b 入口的分类技术 为了有效地利用这些w e b 数据库中的信息,需要将其按领域进行分类。如 果手工地来完成对所有w e b 数据库的分类是个庞大而费时的工程,因此需要以 尽可能自动的方式来完成对w e b 数据库的分类。由于对w e b 数据库按领域进行 分类才有实际的应用意义,因此目前所提出的分类方法也都基于领域的。在查询 接口上提交查询是获取w e b 数据库信息的主要途径,对w e b 数据库的分类实质 上是对d e e pw e b 入口的分类。分类方法共分为两类:指导方式和非指导方式。文 献 2 1 】针对应用意义最广泛的电子商务的w e b 数据库提出了一种有效的分类方 法。这种方法是一种非指导的方式,主要利用了电子商务的w e b 数据库的查询 接口所在页面上的可用特征信息,包括接口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论