




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)deep+web查询转换和数据抽取的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南开大学学位论文使用授权书 根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位 获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文 ( 包括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论 文,并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将 公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检 索、文摘以及论文全文浏览、下载等免费信息服务;( 3 ) 根据教育部有关规定,南开大学向 教育部指定单位提交公开的学位论文;( 4 ) 学位论文作者授权学校向中国科技信息研究所和 中国学术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文 数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d e x h t m 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答 辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字: 睦虿旭 2 0 1 0 年0 5 月2 5 日 南开大学研究生学位论文作者信息 论文题目 d e e pw e b 查询转换和数据抽取的研究 姓名陈召旭i 学号i 2 1 2 0 0 7 0 3 1 2 i 答辩日期1年月日 论文类别博士口学历硕士口硕士专业学位口高校教师口同等学力硕士口 院 系惭 信息技术科学学院i专业l计算机应用技术 联系电话 通信地址( 邮编) :南开大学西区公寓3 一1 3 0 3 ( 3 0 0 0 7 1 ) 备注: i 是否批准为非公开论文 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。 啪24删83 mmmi舢8iiii啪y 。擎徘审茸砚珥毒拦妤非戥申鬲箪搬毒¥釜掣剐蟛萃拱斟毒拦珏非髫 锋囤辫蕈詈专蒋( 蚜鲤箪一) 皇斡晕勒甲。茸融翦毒碉千姿千蕈l 肇蚶朝士群群椠目娶锋砰嚣卓:娶 显 i 茸砚妊影非紧裂排显吾 :璎曷 ( l 0 0 0 e ) e o e 一【- e 肇影习显杀¥妊掣:( 嘴口 i i ) 弭可l 千哥甄 县印当独 半辫茸珂衅苗*i 环牟i酬素柔性半辫冒身鳕显翱 口千逾华杀岛刨 口蛳醵辫掣口珥杀而牟千避四千迹鲻杀 口千斟腊椠覃砚 目i z 日s 匆o i o zl瞬目蜒嚣l 乙i o o o 乙i 乙 l 各杀i群最捌男释 廷地朝碹噼群壕哇谤辙哦覃q 眦d o o g目睹茸砚 冒鲁晕勒茸礤科毒甭车也毒¥妊掣 乙 :右羁y 辞罄磊岩勤 。型曷勘洚固瞠嘲甭延擅甲辑鲤疆一苦焉锋砰群章。犁群娶丁皋蕻晕刨y 卓 。西马y 卓甲酱g 圈业搿壤刨业囡晦琏一站甲驹茸砚牢剪掳与狲士印茸砚珥杂朝迈瞥2 挺 嚣茸锲r 甚翟萁智勤鲷搿毕勘晤刨鹾区杀秦¥拦单翠瞽茸祺珥杀明y 章:粜凄y 卓 。u n q x o p u ! 1 0 0 8 :1 9 1 o 乙e i c o c :c h 3 t l :彝豳勘皓国骅要萋瞢列士印茸拱 。茸砚拦髟刨暂酣咄萃暂笋晕辫髟酯希誓瞠萋群* 刨业掣刮群毋哿茸砚珂杀拦影非 。陛砰朝茸拱擎髯鞘新研鹭翠禺哿y 章瑚刨。髟酣冒身身幂蟛挺寝豳¥醉洋较觋窜辫骠 茸识珥杀翠胖y 劲箕硝壬审茸谣茸识珥杀明圈娶犁酶革瞢谗醑印壬审( 罂柴) 性酶半杀国吊 哇鲻延搬胃粤辫性国串掣辫杀砰群娑勤茸砚再杀( 哥) 。茸砚珥杀明妊影砸繁珥责晕群螈曼辚 掣杀¥妊单犁群¥阜蝇旦辚辫戳( ) o 暂砷冒鲁罐丐岛禧i 、甄孵茸弓茸砚暂相嘶茸、攀 锌咨目茸砚渭瞥丁回国珥翠罄圆甭断早辫幂誓鲴瞬岛勘锋圈翠僻螟勒茸砚弭杂明拦影 徘相乜辫杀朝目地性瞠嘉辚椠( z ) 2 茸群鞣茸弓茸砚珥杀千班斟杂¥妊单y 嘴# 茸 歌珥嘉甭矩抱掣哿秘圭陴暂礴茸疆c 扫翳、【扫缮茸滥伯也辫嘉( 捌士目疆卓踏廿| 剪狮辨母) 茸识珥素蕈鬻犁酵群澎巧岩台; 罪砑秦( i ) :d 茸砰出现茸锲珥杀朝掣固娶犁群餮砰勘鐾 翠阜群杀¥妊掣。举群蟊是朝出瞠瞠措劲茸拱珥杀甭延搬* 阜杀¥妊掣辫上弓举y 牢 。硝士目翠群理卓驺携茸拱珥素明y 章革鬻杂¥妊单掣澎瞬娑台; 罪 珥杀千煎千科明辫猛善哗承戛目瞠哇撵劲茸砚砑杀再延抱壬¥亲¥妊单警戳 毕砰群甘科萃拱哥毒毒¥拦掣 一量l晷豁_!,tl新氅, 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名:匿召旭2 0 1 0 年0 5 月2 5 日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 d e e pw e b 查询转换和数据抽取的研究 申请密级口限制( 2 年)口秘密( 1 0 年)口机密( 4 2 0 年) 保密期限 2 0 年月日至2 0年月日 审批表编号批准日期 2 0 年月日 限制2 年( 最长2 年,可少于2 年) 秘密1 0 年( 最长5 年,可少于5 年) 机密2 0 年( 最长1 0 年,可少于1 0 年) 中文摘要 目前,d e e pw e b 能检索到传统搜索引擎不能检索的信息资源,其检索的公 共信息约是s u r f a c ew e b 的6 0 0 倍,是从后台数据库中检索出来的结构化信息。 因此,d e e pw e b 吸引了国内外许多学者和研究机构的广泛关注与研究。 d e e pw e b 数据集成的研究一般包括w e b 站点发现、模式匹配、接口集成、 查询转换、数据抽取,其研究目的是为了给用户提供一个统一的访问途径来自 动获取和利用分布在i n t e r n e t 的一些d e e pw e b 信息。其中查询转换的功能是 将集成接口上的查询转换到相应的目标接口上,在此基础上进行的数据抽取是 利用目标查询串在目标站点进行数据检索,并从中集成有意义的数据。因此, 本文深入研究的查询转换以及在此基础上的数据抽取是d e e pw e b 数据集成研究 中的重要内容,具有重要的研究和应用价值。 本文主要工作有: ( 1 ) 主要探讨了查询转换模块,提出了两种映射方案来解决查询转换映射 机制,分别是同义属性和成组属性映射方案以及人工干预映射方案,通过这两 种方案的合理的结合使用,正确的解决了如何从源查询串到目标查询串全面准 确的映射,从而为全面准确的检索数据提供了保证。 ( 2 ) 对d e e pw e b 数据抽取策略进行了深入研究,使用了基于h t t p c l l e n t 工具的d e e pw e b 页面获取方法,同时解决了在出现数据分页的情况下获取d e e p w e b 页面的问题,从而较为全面准确的爬取到了深度网数据。 ( 3 ) 提出了基于样式的定位系统处理被查询页面的方法。该方法首先对 d e e pw e b 信息准确的定位,然后利用h t m l p a r s e r 基于一定的规则抽取该页面上 的d e e pw e b 数据。 为验证文中提出的查询转换和数据抽取方案,本文实现了一个d e e pw e b 实 际应用系统,其运行的效果表明文中给出的方案有效可行,较好地解决了查询 转换过程中映射机制和数据抽取准确性的问题。 关键词:模式匹配查询串查询转换成组属性同义属性元素数据抽取 a b s t r a c t a b s t r a c t a tp r e s e n t ,d e e pw e bc a ns e a r c ht h ei n f o r m a t i o nw h i c ht h et r a d i t i o n a ls e a r c h e n g i n e c a r ln o ts e a r c h t h ec o r n l l o ni n f o r m a t i o nf r o md e e pw e bi s6 0 0t i m e sm o r e 也a l lt h a tf r o ms u r f a c ew e b ,a n di ti st h es t r u c t u r a l i z e di n f o r m a t i o ns e a r c h e df r o mt h e w e bd a t a b a s e t h e r e f o r e ,m a n ys c h o l a r s a n dr e s e a r c hi n s t i t u t e s a r ea t t r a c t e db yt h e d e e pw | e b t h es t u d yo ft h ed a t ai n t e g r a t i o ni nd e e pw e bg e n e r a l l yi n c l u d e sw e bs i t e s d i s c o v e r i n g ,s c h e m am a t c h i n g ,i n t e r f a c ei n t e g r a t i n g ,i n q u i r yc o n v e r s i n ga n dd a t a e x t r a c t i n g ,a n di t sr e s e a r c hg o a l i st op r o v i d eb s e r sau n i f i e da c c e s si n t e r f a c et o a u t o m a t i c a l l yg e ta n du t i l i z es o m ei n f o r m a t i o no fd e e pw 色bi ni n t e m e t t h ef u n c t i o n o fi n q u i r yc o n v e r s i o ni sc o n v e r t i n gt h eq u e r yo fi n t e r f a c e i n t e g r a t e dt oc o r r e s p o n d i n g t a r g e ti n t e r f a c e t h ed a t ae x t r a c t i n gb a s e do ni n q u i r yc o n v e r s i o nr e t r i e v e st h ed a t ab y t a r g e tq u e r ys t r i n gi nt h et a r g e ts i t e ,a n dt h e ni n t e g r a t et h em e a n i n g f u ld a t af r o mt h e s e s i t e s t h e r e f o r e ,i n q u i r yc o n v e r s i o na n dd a t ae x t r a c t i o ni st h em a i nc o n t e n ti nt h e s t u d yo fd e e pw e bd a t ai n t e g r a t i o n ,a n di th a st h ev a l u eo fa p p l i c a t i o na n ds t u d y t h ej o b sf i n i s h e di nt h ep a p e ra r ea sf o l l o w s : ( 1 ) i n q u i r yc o n v e r s i o nm o d u l eh a sb e e nm a i n l yd i s c u s s e d i no r d e rt os o l v et h e i n q u i r yc o n v e r s i o nm a p p i n gm e c h a n i s m ,t h e r ea r et w om a p p i n gs o l u t i o n s :m a p p i n g b a s e do ns y n o n y m o u sa t t r i b u t e sa n dg r o u pa t t r i b u t e s ,a sw e l la sm a n u a li n t e r v e n t i o n m a p p i n g b yt h ec o m b i n a t i o nu s eo ft h e s et w os o l u t i o n s ,t h ep r o b l e mo fh o wt o r e a l i z et h ec o m p r e h e n s i v em a p p i n gf r o mt h es o u r c eq u e r ys t r i n gt ot h et a r g e tq u e r y s t r i n gh a sb e e ns o l v e d ,a n di te n s u r ec o m p r e h e n s i v ea n da c c u r a t er e t r i e v a ld a t a ( 2 ) t h em e t h o do fe x t r a c t i n gd a t af r o mt h ep a g e sw h i c ha r es e a r c h e db yd e e p w e bh a sb e e ns t u d i e d t h em e t h o do fs e a r c h i n gd e e pw e b p a g e sw i t hh t t p c l i e n th a s b e e nu s e d ,a n di th a sw o r k e do u tt h ep r o b l e m so fh i d d e np a g e s i nt h i sw a y , t h ed a t a f r o mt h ed e e pw e bs i t eh a sb e e ne x t r a c t i n gc o m p a r a t i v e l yc o m p l e t e l ya n da c c u r a t e l y ( 3 ) am e t h o do fs y s t e mb a s e do ns t y l et op r o c e s st h ep a g eh a sb e e np r o p o s e d i t h a si m p r o v e dt h ea c c u r a c yf o rt h ei n f o r m a t i o ns e a r c h e db yd e e pw e b a n dt h e ni t o p e r a t i o nr e s u l t ss h o wt h a tt h i s s c e n a r i oi se f f e c t i v ea n dv a l i d t h ea c c u r a c yo f m a p p i n gm e c h a n i s ma n dd a t ae x t r a c t i o n , w h i c hi s i ni n q u i r yc o n v e r s i o n ,i ss o l v e d s u c c e s s f u l l y k e yw o r d s :s c h e m am a t c h i n g ,q u e r ys t r i n g ,i n q u i r yc o n v e r s i o n ,s y n o n y m o u s a t t r i b u t e , g r o u pa t t r i b u t e ,e l e m e n t ,d a t a e x t r a c t i o n i i i 内容目录 内容目录 中文摘要。i a b s t r a c t i i 第一章绪论1 第一节研究背景与意义1 第二节d e e pw e b 国内外研究现状与发展趋势3 第三节论文的主要工作k 5 第四节论文的组织结构6 第二章d e e pw e b 集成技术。7 第一节d e e pw e b 系统架构7 第二节d e e pw e b 集成技术介绍8 2 2 1 w e b 站点发现和接口抽取9 2 2 2 寻找匹配的模式1 0 2 2 3 查询转换的实现1 3 2 2 4数据的抽取1 3 第三节本章小结14 第三章查询转换机制1 5 第一节查询转换的主要工作15 第二节几个相关概念17 第三节查询转换的功能实现2 0 3 3 1 源查询串的产生2 0 3 3 2 源查询串的分解与优化2 l 3 3 3 源查询串到目标查询串的映射2 2 i v 内容目录 3 3 4 属性映射2 3 3 3 5 元素映射2 5 3 3 6元素值域映射2 6 3 3 7查询翻译2 8 第四节目标查询串的优化3 0 3 4 1 目标查询串的最大范围优化3 0 3 4 2查询串的中文参数处理3 2 第五节实验数据分析3 2 第六节映射关系的建立3 5 第七节本章小结3 6 第四章d e e pw e b 数据抽取的分析与研究3 7 第一节数据抽取的主要工作3 7 第二节获取查询页面3 9 4 2 1 基于h t t p c l i e n t 的目标站点页面获取3 9 4 2 2分页u p & 的提取4l 第三节页面预处理4 5 第四节基于样式处理查询页面上的d e e pw e b 信息4 6 第五节结果抽取与集成4 8 4 5 1 集成信息的抽取4 8 4 5 2 集成抽取的实验5 0 4 5 3 集成效果和结果的分析5 2 4 5 4 本章小结5 3 第五章d e e pw e b 集成系统的设计与运行效果5 4 第一节d e e pw e b 系统的设计5 4 第二节系统的运行效果5 6 5 2 1 接口配置功能的运行5 6 5 2 2 模式匹配功能的运行5 7 v 5 7 5 7 5 2 5数据抽取功能的运行”5 8 第三节本章小结5 8 第六章工作总结与展望5 9 第一节论文工作总结5 9 第二节展望和下一步工作6 0 参考文献6 1 墅l 谢。6 3 附录a 涉及的数据库表6 4 个人简历、学术论文与研究成果6 5 v i 第一章绪论 第一章绪论 第一节研究背景与意义 i n t e r n e t 自它出现之日起,就从来没有减缓发展的速度。根据文献【1 】最新 的调查,目前整个w e b 超过了2 0 0 0 0 t b 的信息量,而且仍在快速的增长。随着 w e b 规模的日益扩大,信息量以惊人的速度增长,网络已经成为一个巨大的信息 资源库。网络中包含了涉及各类学科的资料,如自然科学,人文科学,社会科 学等。传统的搜索引擎如g o o g l e 、b a i d u 等的工作原理都是通过接收用户提交 的关键字查询,返回一组相关的页面链接,搜索引擎爬虫定期沿着超链接尽可 能多的抓取网络上的网页,然后提取网页相关信息,建立网页索引数据库。使 用这些信息对用户提供搜索服务,用户需要花费大量的时间和精力在这些网页 中寻找他们所需求的对象信息,因此利用传统搜索引擎来检索这些对象效率不 高,并且这种爬行方式并不能爬行到互联网中的所有的信息,许多动态网页中 的数据来源于网页背后的数据库,i n t e r n e t 中存在着成千上万的这种数据库, 这些数据库中的信息传统的爬行器是无法获取的。如何使网络数据库中的对象 信息能够被准确抽取、按领域集成起来,提供“对象级的检索服务,用户就 能够快速、准确地找到所需信息,是目前信息集成领域要解决的问题。所以d e e p w e b 引起了研究者的重视。 对于d e e pw e b ,目前还没有一个统一的定义,文献 2 】中认为d e e pw 曲是 指w e b 中不能被传统的搜索引擎索引到的那部分内容,特别是指那些通过查询 实时产生的动态页面,但随着搜索引擎爬虫( c r a w l e r ) f 毙力的增强;使得d e e pw e b 这一概念变得复杂不易界定,因此很难给出一个可以长期一致认同的定义。 本文对d e e pw e b 的定义:顾名思义是指与s u r f a c ew e b 相对的 深度网 络 ,它是指虽然通过i n t e r n e t 可以获取数据,但普通搜索引擎由于受技术限 制而无法,或者经慎重考虑后而不作索引的那些网络页面、文件或其他通常是 高质量、权威、可参考行较强的信息。d e e pw e b 亦被称为深网、隐形网络或看 不见的网站。 根据深度网络的特点和内容,将其分为如下几个种: 第一章绪论 ( 1 ) 未被链接的网页。根据网络爬行原理,网页设计者没有向搜索引擎提 供网页地址并且没有其他网页链接,搜索引擎的s p i d e r 程序就不能沿着其网页 中的u r l 爬行到该网页,也就不能将该网页的相关信息搜索到索引库。那么通 过搜索引擎就无法找到这些未被链接的孤岛网页。 ( 2 ) 动态生成的网页。如j a v a s c r i p t ,c g i ,a s p ,j s p 等页面,这些页面 本身不包含数据,需要通过访问数据库来动态产生h t m l 页面。数据库中包含存 储数据的表格,这些数据只能通过查询的方式来访问。事实上,大量有价值的 信息都是通过查询后台数据库而产生的,这正是b s 模式的一个特点。这些动 态网页传统的搜索引擎也是无法搜索到的。 ( 3 ) 不透明网络。不透明网络是指搜索引擎可以索引但是却没有索引的网 页,主要是由于个人意愿或经济原因的制约以及搜索频率的限制等原因造成的。 ( 4 ) 实时信息。如最新新闻、股票价格、天气信息、航班信息等。因为其 变化快,搜索引擎数据库更新的速度难以跟上实时数据的更新速度,所以搜索 引擎收集的多是过时的信息,对于实时信息搜索引擎多不予收集。 与s u r f a c ew e b 相比,d e e pw e b 蕴含的信息量更加丰富。近年来,国内外 d e e pw e b 小组的研究成果表明u 儿引: ( 1 ) d e e pw e b 的公共信息是s u r f a c ew e b 的6 0 0 倍。d e e pw e b 的信息量有 7 5 0 0 t b ,相比之下,s u r f a c ew e b 仅含有1 9 t b :d e e pw e b 有近5 5 0 0 亿个独立文 件,而s u r f a c ew e b 只有1 0 亿。 ( 2 ) d e e pw e b 大约有3 0 7 0 0 0 个站点,4 5 0 0 0 0 个后台数据库和1 2 5 8 0 0 0 个 查询接口,其中约4 5 为结构化数据库。 ( 3 ) d e e pw e b 的月流量通常比s u r f a c ew e b 要多出5 0 ,但是d e e pw e b 并不被公共互联网搜索领域所熟知。 ( 4 ) 在内容上,d e e pw e b 站点比s u r f a c ew e b 站点更专业;d e e pw e b 内容 的全部价值是s u r f a c ew e b 的1 0 0 0 至2 0 0 0 倍;d e e pw e b 的信息内容往往与市 场、领域和信息需求高度相关。 ( 5 ) 一半以上的d e e pw e b 内容存储在主题数据库中;9 5 的d e e pw e b 信 息无需付费或订阅,用户可以直接获取。 ( 6 ) w e b 数据库查询接口往往位于站点浅层,约9 4 的w e b 数据库查询接口 可以在站点前3 层发现。 ( 7 ) 虽然一些d e e pw e b 目录服务已经开始索引w e b 数据库,但是它们的覆 2 第一章绪论 盖率比较小,仅为0 2 一1 5 6 。 ( 8 ) 根据统计,d e e pw e b 的后台数据库的收费情况1 9 女图1 1 所示: 企业科技 金融 报刊政镶 全部 人物 鲥片般祭 期刊 产赫其它 名录信息论文新阄 法规 信感 免 9 1 5 舯7 3 3 1 9 0 8 9 0 2 9 3 3 9 3 3 9 i 3 9 s 3 9 4 7 2 费 收 6 7 l o 3 9 i i & 5 8 0 e 7 6 7 6 1 4 7 3 5 3 8 贸 皆 钉 1 窖7 3 0 7 1 d 2 6 i 8 图1 1 后台数据库收费情况 通过上述的调查可以得出,d e e pw e b 和s u r f a c ew e b 相比信息量更大,结 构化程度更高,有意义、有价值的信息更多,通过d e e pw e b 对数据库的访问也 逐渐成为获取信息的主要手段,因此d e e pw e b 得到了越来越多的关注。为了爬 取网页信息,需要通过特殊的数据检索策略来达到目标。一般通过两个层次解 决以上问题嵋:( 1 ) s u r f a c ew e b ( 表层网页,即静态网页) ,包括事h t m 、* h t m l 、 * s h t m l 、* t x t 、* x m l 等,可由传统搜索引擎进行收集。( 2 ) d e e pw e b ( 深层网 页,即动态网页,u i u 中含“? 或输入参数的网页) ,包括a s p ,p h p ,p e r l , c g i 等在s e r v e r 方进行处理的网页,由专门设计的d e e pw e b 搜索引擎进行检索。 基于以上这些情况,d e e pw e b 数据集成也日益成为研究的热点。 第二节d e e pw e b 国内外研究现状与发展趋势 尽管d e e pw e b 数据量大,有价值的信息多,但是目前国内对d e e pw e b 的 搜索与挖掘方面的研究尚处于学习、跟踪和探索阶段。国内该领域的研究单位 及相关报道还比较少,尚只有中国人民大学数据库研究小组和复旦大学在这方 面有较深入的研究1 。由于搜索引擎目前还不能提供对d e e pw e b 的搜索服务, 因此分类目录服务是目前检索d e e pw e b 的一个途径。国内也出现一些d e e pw e b 分类目录服务站点,但尚处于手工处理阶段,还不能实现自动化或半自动化索 引处理。而国外仅有d e e pw e b 。,i n v i s i b l ew e b 川,b r i g h tp l a n e t h l 三家公司生 产相关产品。他们都采用半自动方式,人工干预较多而且目前还没有中文深度 网络信息服务。国外大学的研究小组主要有以下贡献: 第一章绪论 1 伊利诺斯大学的m e t a q u e r i e r 研究小组m 。 该小组在m e t a e x p l o r e r 项目的基础上建立了一个m e t a q u e r y 系统,目的是 有效获取w e b 上的结构化信息。首先,m e t a e x p l o r e r 项目的一个研究重点在于 发现和重构w e b 数据库,并建立一个可搜索的数据源知识库。特别是,该项目 开发了一个w e b 数据库搜索引擎,它可以有效发现含有w e b 数据库的站点,并 通过构建模型来描述这些数据库,而封装器用于自动抽取这些模型中的参数, 从而重组和索引可搜索的w e b 数据库。其次,m e t a e x p l o r e r 项目的另一个研究 重点在于集成在线数据库。在大规模信息集成的过程中,其主要研究了动态信 息集成技术。与传统的信息检索不同,该小组设计的m e t a q u e r y 系统是动态执 行的,即可以将实时发现的新数据源加入系统中,同时动态选择合适的数据源, 并将用户查询进行相应转换,从而获取用户查询结果。 2 斯坦福大学的w e b b a s e 研究小组憎。 n d a v u l c u 、j f r e i r e 等人提出并设计了w e b b a s e 的框架,它可以通过工具 帮助用户实现特定领域的复杂搜索服务。 3 斯坦福大学的h i w e 研究小组u w h id d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学另一个研究项目。r a g h a v a n 和g a r c i a - m o l i n a 设计了一个可以抽取d e e pw e b 信息的爬虫。在此系统中爬虫 管理器负责管理搜集过程,并对下载的w e b 页面进行分析,将包含表单的页面 送到表单处理器中处理。表单处理器首先从页面中抽取表单结构,并从预先准 备好的数据集中选择数据自动填写表单,然后将合成的u r l 提交给爬虫管理器。 由于表单需要系统自动完成填写,所以要求用户预先准备好相应的表单数据集。 h i w e 只能面向特定的领域使用,而且必须在人工帮助下完成,因此存在很大的 局限性。 4 华盛顿大学的s h o p b o t 研究小组。 s h o p b o t 是一个针对消费产品的比较代理,它利用特定领域的启发式方法来 填写表单以比较其领域内的商业产品。s h o p b o t 的操作过程分为两个阶段:离线 学习阶段和在线产品比较阶段。在学习阶段,确定填写站点表单的方法,并对 产品站点结果页面进行分析,从而获取其站点模式信息。在比较阶段,利用得 到的站点模式结构来抽取结果信息,找出满足用户要求价格最优的产品,最终 将这些产品的信息输出。从中可以看出,该小组的研究领域非常狭窄,不适用 于大规模的信息集成。 4 第一章绪论 5 哥伦比亚大学的q p r o b e r 研究小组副 哥伦比亚大学的p a n a g i o t i sg i p e i r o t i s 等人研究了自动分类w e b 页面所 对应的后台数据库的方法。他们首先使用机器学习技术生成一组基于规则的分 类器( c l a s s i f i e r ) ,然后将分类器转变成查询u r l ,并对后台数据库进行查询, 计算查询结果数。最后该算法通过分析查询结果对数据库进行分类。他们的研 究只集中在如何分类文档数据库上面,然而多数d e e pw e b 数据库提供的内容却 是结构化的数据。 此外,微软亚洲研究院早在2 0 0 4 年就提出如何基于接口中的关键字来抽取 d e e pw e b 站点内容的方法,并在此基础上,开发了第三代搜索引擎。第三代搜 索引擎不仅要对深层互联网进行挖掘,找出更多的结果,还要更加智能化、人 性化,能够理解用户需要什么结果。 国内关于d e e pw e b 的研究尚处于起步阶段,仅有高校科研机构在对d e e pw e b 进行有效深入的探索。处于前列的有苏州大学、复旦大学、中国人民大学等科 研机构,文献 1 4 提出了一种用于搜集d e e pw e b 页面的爬虫设计方法,可以处 理具有复杂结构的站点,同时爬虫工作过程中不需要人工参与。文献 1 3 提出 了基于t o p - n 的d e e pw e b 数据库选择和查询转换技术研究。 目前国内外对d e e pw e b 的研究主要集中在模式匹配和数据抽取方面,对于 w e b 站点发现和查询转换机制的研究尚处于起步阶段。因此对于查询转换机制的 研究就显得比较有意义。 第三节论文的主要工作 上述国内外研究现状表明,越来越多的研究机构开始关注d e e pw e b ,d e e p w e b 也将成为搜索引擎的一个发展方向。为了能高效率的查询d e e pw e b 内结构 化数据,精确的查询转换方法和高效的数据抽取策略就成为了信息挖掘的前提。 基于这种认识,本文重点对查询转换技术和数据抽取策略进行了深入的研究, 主要内容如下: ( 1 ) 基于关键词查询生成查询串u r l 模式来实现d e e pw e b 搜索。 ( 2 ) 给出了查询转换的标准化定义以及与查询转换过程相关的概念。 ( 3 ) 研究了如何利用同义属性和成组属性的映射机制产生各个查询接口对 应的u r l 查询串,论述了同义属性和成组属性映射机制的不足,同时将此机制 第一章绪论 与人工干预的映射机制对比,论述了这两种方案的优缺点。 ( 4 ) 研究了如何优化目标查询串的问题,尤其是如何将映射后的目标查询 串中的中文参数转码的问题。 ( 5 ) 利用开源h t t p c l i e n t 和h t m l p a r s e r 工具包检索动态网页。h t t p c l i e n t 实现了所有h t t p 的方法( g e t ,p o s t 等) 的功能,实现了对提交表单后产生的u r l 对应的站点页面的获取,并将获取到的页面群保存到本地。 ( 6 ) 提出了一种提取分页u r l 的爬行策略,较好的实现了在出现分页的情 况下如何获取分页的方法。在出现分页的情况下,通过h t t p c l i e n t 的函数,利 用查询串可以搜索的数据只能检索到第一页信息,而分页的信息则被隐藏了, 所以必须设法得到分页的u r l ,再利用h t t p c l i e n t 方法循环爬行检索。这里, 利用h t m l p a r s e r 提取分页的u r l 。 ( 7 ) 提出了基于样式的定位系统处理被查询页面的方法,利用h t m l p a r s e r 将d e e pw e b 信息高效的抽取出来,并在集成系统界面上显示。 ( 8 ) 给出了论文工作的优点以及需要改进的不足之处。 第四节论文的组织结构 本文共分为6 章,结构安排如下: 第1 章提出d e e pw e b 的概念及研究意义,同时介绍国内外研究现状,最后 给出本文主要研究内容及结构安排。 第2 章论述了d e e pw e b 系统目前查询转换和数据抽取相关的集成技术。 第3 章分析了查询转换过程中如何利用属性映射、元素映射、值域映射来 产生各接口u r l 查询串,重点研究分析了关于值域映射的处理方法,同时分析 了同义属性和成组属性映射机制的不足之处,针对其不足,使用了人工干预的 映射方案,并对这两种映射的方案进行了对比。 第4 章论述了基于样式的定位系统处理被查询页面的方法,有效的实现了对 d e e pw e b 信息的抽取,并对这种方法的可行性进行数据分析和验证。 第5 章根据设计的d e e pw e b 系统,对本文提出的方法和技术进行验证,从 而证明了本文提出的方法和算法的可行性。 第6 章对本文工作进行了总结,并对后续研究进行了展望。 6 第二章d e e pw e b 集成技术 第二章d e e pw e b 集成技术 本部分主要介绍了d e e pw e b 系统集成技术,目的在于在此基础上开展查询 转换和数据抽取的工作。 第一节d e e pw e b 系统架构 对d e e pw e b 研究的根本目的是为了能够自动地获取利用自由分布在d e e p w e b 数据库中丰富的信息并加以集成。随着越来越多的研究机构对d e e pw e b 的 关注,以及越来越多的相关研究成果的发表,d e e pw e b 搜索系统集成技术已日 臻成熟。d e e pw e b 搜索系统集成的研究涉及到广泛的领域:如数据挖掘、数据库、 信息检索和机器学习汹矧等。虽然整个d e e pw e b 中几乎包含了人们所需要的所 有领域的信息,但在实际中要想以手工的方式对其加以有效的利用是一件非常 困难的事情。对d e e pw e b 搜索系统的集成正是为了尽可能以自动的方式来完成 对w e b 数据库中信息的有效利用。要想把这些信息进行有效的利用,就必须对 d e e pw e b 进行深入地研究,建立一个稳定效率高的系统架构。本文设计的d e e p w e b 搜索系统正是出于这个目的。 目前在d e e pw e b 领域中,己经建立了基本固定的d e e pw e b 搜索系统框架, 系统框架如图2 1 所示: 图2 1 系统框架图 7 第二章d e e pw e b 集成技术 d e e pw e b 搜索系统的工作原理是借助于各独立的w e b 站点的查询功能,将 用户的查询请求转换成对多个w e b 站点的查询。各w e b 站点的查询结果将统一 返回给集成系统,由集成系统对这些查询结果集进行归并、去重、和排序,并 以统一的格式显示给用户,这样就实现了对各d e e pw e b 数据库中信息的统一查 询。整个搜索过程从用户填写查询表单开始,经过搜索系统的集成接口,转发 到各个w e b 站点的服务器进行查询,然后以格式统一的数据形式返回给用户。 用户提交一次查询的具体流程如图2 2 所示: 图2 2d e e pw e b 搜索的流程图 用户在集成接口填写表单,提交该表单,系统根据表单的内容通过查询转 换机制生成目标查询串,并将不同的查询串提交到各个w e b 站点进行查询,各 w e b 站点对搜索的结果以结果集的形式返回给集成接口并以特定格式显示给用 户。 本文对d e e pw e b 系统集成的相关技术进行了介绍,并对其进行了相应的改 进,从而提高了d e e pw e b 信息搜索的性能和质量,也为d e e pw e b 搜索系统的 深入研究做了准备。 第二节d e e pw e b 集成技术介绍 d e e pw e b 相关技术可以分为以下几部分:w e b 站点发现和查询接口模式抽 取、模式匹配、查询转换、数据抽取。 8 第二章d e e pw e b 集成技术 2 2 1w e b 站点发现和接口抽取 查询接口是后台数据库的入口,对d e e pw e b 系统集成,要发现d e e pw e b 站点,就要发现查询接口。关于d e e pw e b 查询接口自动发现( i n t e r f a c e d i s c o v e r y ) 的相关研究比较少,p e r k o w i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境监测行业智能化转型策略与2025年数据质量控制要点报告
- 雷雨名著阅读题目及答案
- 历年考研数学真题及答案
- 九月六级真题及答案
- 2025年城市文明试题及答案
- 烹饪热菜考试题及答案
- 推拿正骨题库及答案
- 饭店管理自考试题及答案
- 校园垃圾分类题库及答案
- 朝阳区小学试卷及答案
- QB/T 2660-2024 化妆水(正式版)
- 2024年红河产业投资集团有限公司招聘笔试冲刺题(带答案解析)
- 《HALCON编程及工程应用》课件第9章 HALCON测量
- 医院培训课件:《护理人文关怀的践行-仁心仁护彰显大爱》
- PETS5词汇表总结大全
- 数字谜02-三上08-乘除法填空格
- 应届生培养方案
- 保险代位求偿权答辩状
- 《英语句子成分及基本结构》课件
- 汽修基础理论知识
- 综合实践活动六年级上册全册讲课课件
评论
0/150
提交评论