




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)deep+web数据源发现与分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i i ir , ij , i l l li i ii r l i i i il i t i l l y 18 912 2 6 d e e pw e b 又称为看不见的网页,是指通用搜索引擎由于技术原因无法索引 到的那部分信息,d e e pw e b 包含的信息是s u r f a c ew e b 的4 0 0 - - 5 0 0 倍,相比于 表层网其信息更有价值。这些信息以自主的、独立的形式分布在整个网络中, 而且d e e pw e b 数据源是动态的、不断变化的,并非所有的网页表单都是d e e p w e b 查询接口,这给d e e pw e b 信息的获取带来了困难。使用者可以通过目录指 南、专业搜索引擎、d e e pw e b 数据库等方式来获取d e e pw e b 信息。为了有效 的提供这些信息,必须对d e e pw e b 进行数据集成。 本文针对d e e pw e b 数据集成中的数据源发现和接口分类这两个重点问题 进行了较为深入的研究,主要的研究工作和成果如下: ( 1 ) 对d e e p w e b 进行了研究,包括d e e p w e b 的定义、数据特性、规模、 存在类型、获取途径以及d e e pw e b 数据集成中的关键问题。 ( 2 ) d e e pw e b 查询接口的判定。在网页表单特征提取的基础上加入了启 发式判定规则。运用了分类器集成思想,采用a d a b o o s t 算法将多个朴素贝叶斯 分类器进行累加形成一个强分类器,减弱朴素贝叶斯分类算法中属性独立性假 设的要求,利用多个分类器之间的差异来改善分类器的整体性能。实验结果显 示,在查全率和查准率上都达到了9 0 ,取得了较好的判定效果。 ( 3 ) d e e pw e b 数据源分类。采用d 3 算法和c 4 5 算法相结合的方式,较 好的处理了归纳偏置问题和分裂子集样本数目接近样本总数引起的增益比率过 大问题。实验结果显示,在多个领域的分类准确性都有所提高。本文解决方案 比较适用于存在共有属性的领域,在这类领域的分类效果比较好。 本文提出了基于特征与启发式规则相结合的d e e p w e b 查询接口判定方法, 采用a d a b o o s t - n a i v eb a y e s 分类器对查询接口进行判定。在此基础上采用d 3 和c 4 5 相结合的分类算法对d e e pw e b 数据源分类。实验表明,在查全率和准 确率上都得到了提高。但是,还有很多有意义的问题值得进一步研究,例如: 中英文网页之间的差别;进一步扩展a d a b o o s t - n a i v eb a y e s 分类器;充分利用网 页表单以外的其他网页特征;通过返回结果判定网页表单类别;分类中融入遗 传算法、人工神经网络、支持向量机等分类算法。 关键词:d e e pw e b ,数据源发现,查询接口判定,数据源分类,数据集成 a b s t r a c t t h ed e e pw e bi sa l s oc a l l e di n v i s i b l ew e b ,r e f e r st ot h eg e n e r a ls e a r c he n g i n e s c a nn o ts e a r c ht h a t p a r t i a li n f o r m a t i o nb e e a u o ft e c h n i c a l l e , a s o l l s p u b l i c i n f o r m a d o n0 1 3t h ed e e pw e bi sc u r r e n t l y4 0 0t o5 5 0t i m e sl a r g e rt h a nt h es u r f a c e w e b i t si n f o r m a t i o ni sl i l o r ev a l u a b l ec o m p a r e dt ot h es u r f a c ew e b t h i si n f o r m a t i o n d i s t r i b u t ei nt h ee n t i r en e t w o r kb yt h ei n d e p e n d e n tf o r m m o r e o v e rt h ed e e pw e b $ 0 1 1 r c e s 锄ec l y m m i e ,c h a n g eu n c e a s i n g l y , n o ta l lo ft h ew e bf o r m sa r ed e e pw e b q u e r yi n t e r f a c e i tm a k e sd i t f i e u l tt oo b t a i nt h ei n f o r m a t i o no fd e e pw e b w em a y t h r o u g ht h ed i r e c t o r y9 1 1 i d e ,t h es p e c i a l i z e ds e a r c he n g i n e ,d e e pw e bd a t a b a s ea n d o t h e rw a y st oo b t a i nt h ei n f o r m a t i o no fd e e pw e b w em u s tc a 玎yo nt h ed a t a i n t e g r a t i o nt od e e pw e bi no r d e rt op r o v i d et h i si n f o r m a t i o ne f f e c t i v e l y i nt h i sp a p e r ,t h ef l l r t h e rs t u d yo ns o u l c e $ d i s c o v e r ya n di n t e r f a c ec l a s s i f i c a t i o n w h i e l aa r et w ok e yi s s u e so fd e e pw e bd a t ai n t e g r a t i o nh a db e e nd o n e t h em a i n r e s e a r c hw o r ka n dt h er e s u l t sa l e 弱f o l l o w s : ( 1 ) t h i sr e s e a r c hw c l - ec o n d u c t e ds t u d y0 1 1t h ed e e pw e b :c o n s i s t i n go f d e f i n i t i o no fd e e pw e b ,d a t ac h a r a c t e r i s t i c s ,d a t as c a l e ,e x i s t e n t i a lt y p e ,a c q u i s i t i o n a p p r o a c ha n dk e yi s s u e so fd e e pw e b d a t ai n t e g r a t i o n - ( 2 ) d e c i s i o no fd e e pw e bq u e r yi n t e r f a c e a d dt h eh e u r i s t i cd e c i s i o nr u l et o f e a t u r ee x t r a c t i o no fw e bf o r m t h i sr e s e a r c hu s e dt h ec l a s s i f i e re n s e m b l et h o u g h t s w h i c h i m p r o v e dt h eo v e r a l lp e r f o r m a n c e o fc l a s s i f i e ru s i n gt h ed i f f e r e n c eo fm u l t i p l e c l a s s i f i e r s t h es p e c i f i cm e t h o dw a sa c c u m u l a t i o no fs e v e r a ln a i v eh a y e sc l a s s i f i e r s t oas t r o n gc l a s s i f i e ra d o p t e da d a b o o s ta l g o r i t h m , r e d u c i n gh y p o t h e s i so fa t t r i b u t e i n d e p e n d e n ti nn a i v eb a y e sa l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o w e d t h a tt h i sm e t h o d a c h i e v e dg o o dd e t e r m i n er e s u l t st o9 0no nr o c a l lr a t i oa n dp r e c i s i o nr a t i o ( 3 ) d a t as o u r c e sc l a s s i f i c a t i o no fd e e pw e b t h i sr e s e a r c hb e t t e rh a n d l e do ft h e i n d u c t i v eb i a sp r o b l e ma n dt h eh i g hg a i nr a t i op r o b l e mc a u s i n gf r o ms p h ts u b s e t s a m p l e sa p p r o x i m a t i n g t oo v e r a l ls a m p l e s ,u s i n gi d 3a l g o r i t h ma n dc 4 5a l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o w e dt h a tt h ec l a s s i f i c a t i o na c c u r a c yi nm a n yf i e l d sw 丛 i m p r o v e d t h i sm e t h o dc o m p a r e di nt h ea r e ah a ss e v e r a lv a l u e s ,t h ea r e ah a sp u b l i c a t t r i b u t e m sa r t i c l ep r o p o s e du n i f i e st h ed e e pw e bi n q u i r yi n t e r f a c ed e c i s i o nm e t h o d b a s e do nt h ec h a r a c t e r i s t i ca n dt h eh e u r i s t i cr u l e u s ea d a b o o s t - n a i v eb a y e s c l a s s i f i e rt oc a r r yo i lt h ed e t e r m i n a t i o nt ot h ei n q u i r yi n t e r f a c e t h e n , m f yd 3a n d c 4 5a l g o r i t h mt od e e pw e bd a t as o u r c e sc l a s s i f i c a t i o n e x p e r i m e n t ss h o wt h a tt h e r e c a l la n da c c u r a c ya r ei m p r o v e d b u t , t h e r ea r em a n ym e a n k n g f 试q u e s t i o n sd e s e r v e f u r t h e rs t u d y f o re x a m p l e ,t h ed i f f e r e n c eb c 羽黼c h i n e s ea n de n g l i s hh o m e p a g e , f 1 l r t h e r e x p a n d sa d a b o o s t - n a i v et h eb a y e sc l a s s i f i e r , f u l lu s eo fw e bf o r mo u t s i d e o t h e rh o m e p a g ec h a r a c t e r i s t i c ,d e t e r m i n a t i o no fw e bf o r mc a t e g o r yt h r o u g hr e t u r n s r e s u l t , i nt h ec l a s s i f i c a t i o ni n t e g r a t e st h eg e n e t i ca l g o r i t h m , a r t i f i c i a ln e u r a ln e t w o r k s , s u p p o r tv e c t o rm a c h i n e s k e y w o r d s :d e e pw e b ,d a ms o u i v a 爆d i s c o v e r y , c l a s s i f i c a t i o no fd a t as o u r c e s ,d a t ai n t e g r a t i o n f irlltiilr i j i 目录 第一章绪论1 1 1 研究的背景和意义l 1 2 国内外研究现状。2 1 3 本文主要研究内容4 1 4 论文的组织结构5 第二章d e e pw e b 数据源发现研究。7 2 1 通用搜索引擎概述7 2 1 1 通用搜索引擎的定义和类别7 2 1 2 通用搜索引擎的基本工作流程。8 2 2d e e pw 曲与通用搜索引擎。9 2 3d e e pw e b 数据源发现的重要性9 2 4d e e pw e b 数据源发现存在的难点。9 2 5 本文所采用的方法l0 2 6d e e r , w e b 数据集成介绍 2 6 1d e e pw e b 数据集成的意义。1 0 2 6 2d e e pw e b 数据集成框架 2 7d e e pw 曲数据源发现与分类整体框架1 3 第三章分析处理网页中的u r l 14 3 1u r l 的定义与基本构成。1 4 3 2u l 也处理分析15 3 3u r l 处理规则15 第四章d pw e b 查询接1 :3 的判定1 7 4 1 查询接口判定的相关研究工作1 7 4 2d e e pw e b 查询接口判定的难点1 7 4 3 查询接口判定方法18 4 3 1 网页表单分类18 4 3 2h t m l 网页表单特征描述18 l 4 3 3 网页表单特征提取。1 9 4 3 4 网页表单启发式规则分析研究2 1 4 4 训练a d a b o o s t - n a i v eb a y e s 分类器。2 2 4 4 1 朴素贝叶斯分类2 2 4 4 2 朴素贝叶斯分类的原理2 2 4 4 3 采用a d a b o o s t 算法提高朴素贝叶斯分类器的性能2 5 4 5 实验结果及分析2 6 4 5 1 实验所用样本数据来源2 6 4 5 2 实验过程2 9 4 5 - 3 结果分析3 0 4 6 本章小结。3 2 第五章d e e pw e b 数据源分类3 3 5 1d e e pw e b 数据源分类相关研究3 3 5 2 决策树算法的原理。3 4 5 3i d 3 与c 4 5 相结合的分类算法3 6 5 4 实验结果与分析3 9 5 4 1 实验过程3 9 5 4 2 结果分析4 1 5 5 本章小结4 3 第六章总结与展望4 4 6 1 总结4 4 6 2 展望4 5 参考文 4 6 致谢51 附录一本文对应图表5 2 攻读硕士学位期间发表的论文5 3 作者简介5 4 第一章绪论 第一章绪论 1 1 研究的背景和意义 信息时代科技的发展带动了万维网的飞速发展,网络上的信息以爆炸性的趋势在迅速 增长,形成海量的信息可供用户利用。d e e pw e b 的存在形式可分为以下几种:( 1 ) 模糊网 站:是指通用搜索引擎可以搜索的到,但没有收录的文档;( 2 ) 个入网站:从技术上来说, 个人网站是能够被通用搜索引擎索引的,但出于隐私的考虑不愿意被通用搜索引擎索引, 例如网站管理员采用密码保护,使用r o b o t s t x t 文件或不得标引的元图标等方式阻止通用搜 索引擎s p i d e r 程序的访问、阅读和索引。一般来说,个人网站不经许可是无法访问的。( 3 ) 专有网站:专有网站只对那些同意出交换条件才能浏览内容的用户开放,只有愿意注册浏 览的用户才能访问专有网站。( 4 ) 真正的隐性网站:通用搜索引擎无法检索到的网站,包 括:s p i d e r 不能处理的文档格式的网页:实时或流动文件;动态网页和存储在关系数据库 中的信息。通过以上的分析可以知道通过一般的搜索引擎是无法索引到d e e pw e b 中的信 息的,有些通用搜索引擎推出了自己对付d e 印w e b 的方法,如百度的阿拉丁平台,g o o g l e 的o n e b o x 计划等,这些都是针对如何搜索d e e pw e b 中信息而设计的,但面对互联网中浩 瀚的d e e pw e b 资源这也只是一小部分。现阶段虽然不能像搜索静态网页那样搜索d e e p w e b 资源,但还是可以通过一些方法来获得其中数据的,主要有以下几种途径:( 1 ) 目录 指南:它是按照一定的规则排列大量网站的链接,用户通过专业目录可以获得与某一主题 相关的网站信息,然后点击链接即可它的主要特点是不使用s p i d e r 程序,而是靠网站主 动提交信息,人工输入数据。( 2 ) 专业搜索引擎搜索:专门用来搜索d e e pw e b 网站的, 它与专业目录不同的是专业搜索引擎响应用户的查询要求,返回给用户的是其所需的信息, 因此专业搜索引擎是用户查找深网的重要工具。( 3 ) d e e pw e b 数据库:d e e pw e b 数据库 是面向某一领域或某一类信息的实实在在存在的在线数据库。( 4 ) 通过一般搜索引擎间接 查找。 研究者们之所以花费这么大的精力去研究d e e pw e b ,是因为其中的信息对使用者更有 利,2 0 0 0 年7 月,b d g h t p l a n e t 公司对d e e pw e b 做了一次比较全面的统计。根据其发布的 技术白皮书t h ed e e pw e b s u r f a c i n g t h eh i d d e nv a l u e i u 可知,整个互联网上大约有4 3 0 0 0 至 9 6 0 0 0 个w e b 数据库,d e e pw e b 中包含着更丰富更有价值的资源。调查结果如下: ( 1 ) d e e pw e b 里包含的可访问公共信息容量是我们熟知的s u r f a c ew e b 的4 0 0 - - - 5 0 0 倍。 ( 2 ) d e e pw e b 包含7 5 0 0 t b 的信息,而s u r f a c ew e b 包含的信息容量只有1 9 t b 。 ( 3 ) d e e pw e b 包含5 5 0 0 亿个独立文档,而s u r f a c ew e b 只包含l o 亿个。 ( 4 ) 现有的d e e pw e b 站点估计超过1 0 0 ,0 0 0 个。而且d e e pw e b 是互联网新信息增长 的最大来源。 ( 5 ) 6 0 个最大d e e pw e b 站点就已包含7 5 0 t b 信息,超过s u r f a c ew e b 所包含信息的 南京信息工程大学硕士学位论文 4 0 倍。 ( 6 ) 平均看,d e e p w e b 站点的月访问量比s u r f a c e w e b 站点高出5 0 ,并且与s u r f a c e w e b 站点相比有更多的链接。但是那些典型的大型d e e pw e b 站点在互联网搜索领域却不 知名。 ( 7 ) d e 印w e b 站点在信息内容范围上比一般s u r f a c ew e b 站点更专更深。 ( 8 ) d e e pw e b 包含的有效高质内容总量至少是s u r f a c ew e b 的1 0 0 0 到2 0 0 0 倍 ( 9 ) d e e pw e b 中超过一半的内容都保存在专业领域的数据库中。 ( 1 0 ) 9 5 的d e 印w e b 信息都是免费访问的,而不需要付费或者订阅。 该白皮书还指出。当时最大的搜索引擎只索引了s u r f a c ew e b 中1 6 的信息量,而如 果算上那些无法被传统搜索引擎索引的d e e pw e b 中的信息,那么一般搜索引擎只能搜索 0 0 3 的w e b 信息。因此,研究和挖掘d e e pw e b 对于提高搜索覆盖率和准确率有着非常 重要的意义。 1 2 国内外研究现状 现在国内外对d e e pw e b 的研究正处在一个起步阶段,很多技术难点都等待着去攻克。 特别是近几年,其研究领域的进展速度比较缓慢,很少有重要研究成果产生。d e 印w e b 中 所蕴含的信息的价值要远远大于s u r f a c ew e b ,人们学习和生活中的大部分信息都来源于 d e e pw e b 。 现在用户们可以有效的利用通用搜索引擎来检索静态页面等表层网中的信息内容。但 与d e e pw e b 相比,这只是很小的一部分。因此研究者们不断去寻求能够方便检索d e e pw e b 数据的途径。国内外一些大型的通用搜索引擎服务商,如:谷歌、百度等都在不断的致力 于如何检索d e e pw e b 中的数据,一直将此作为最终的目标。在此过程中,它们各自也取 得了相应的成果,现在可以实现专门搜索p d f 、p p t 、w o r d 等格式的文件,“谷歌学术” 可以对专业领域的数据信息进行搜索。此外,这些大型的搜索引擎服务商还针对建立检索 d e e pw e b 的平台制定了各自的计划方案,取得了相应成效。但始终不能从根本上解决问题。 d e e pw e b 数据集成框架的提出正是为了能够以尽可能自动的方式来完成对w e b 数据库中 信息的有效利用,而不是以手工的方式,这样太费时费力。 1 9 9 4 年,d r j i l le l l s w o r t h b i 首次提出“不可见网页”这个词来描述那些不能够被通用搜 索引擎检索的隐藏在网络深处的那部分数据信息。后来,j i l le l l s w o r t h 正式的将这部分不可 见的信息称为d e 印w e b 。国内外对d e e pw c b 的研究状况主要有以下几个方面: 斯坦福大学的h i w e i z l ( h i d d e nw e be x p o s e r ) ,h i w e 是斯坦福大学一个研究项目, r a g h a v a n 和g a r e i a - m o l i n a 设计了一个可以抽取d e 印w e b 信息的爬虫,目的是能自动地抽 取d e e pw e b 内容。在此系统中爬虫管理器负责管理搜集过程,从一个预先指定的站点集 开始爬行并下载,并对下载的网页页面进行分析。然后将包含表单的页面送到表单处理器 中处理,表单处理器先从页面中抽取出表单,再从预先准备好的标签值域数据集中选择数 据自动地完成表单的标签匹配与填写,之后将填写好的表单提交给服务器,通过访问后台 数据库,得到返回结果。结果分析器再对返回结果进行分析,以判断提交得到的结果是否 2 第一章绪论 正确。由于表单需要系统自动完成填写,所以要求用户预先准备好相应的表单数据集。h i w e 只能面向特定的领域使用,而且必须在人工帮助下完成,因此存在很大的局限性。 u i u c 建立的m e t aq u e r i e r p l 系统,此系统是在m e t ae x p l o r e r 项目上建立起来的,目的 是为了有效地获取w e b 数据库中的结构化信息。m e t ae x p l o r e r 项目的一个研究重点是发现 和重构w e b 数据库,在此基础上建立一个可搜索的数据源知识库。该项目开发了一个w e b 数据库搜索引擎,它可以有效的发现含有w e b 数据库的站点,并通过构建模型来描述这些 数据库,而封装器用于自动抽取这些模型中的参数,从而重组和索引可搜索的w e b 数据库。 m e t ae x p l o r e r 项目的另一个研究重点是集成在线数据库。主要研究了动态信息集成技术, 与传统的信息检索不同,m e t aq u e r y 系统是动态执行的,可以实时的将新发现的数据源加 入到系统中,同时动态选择合适的数据源,并将用户查询进行转换,从而获取用户查询结 果。 j a r e dc o p e 等人1 4 j 提出的d e e pw 曲查询接1 :3 判定方案,该方案抽取表单名、i n p u t 控件 名、控件值、表单请求路径这些属性作为查询接口特征,采用c 4 5 决策树算法对查询接口 进行判定,通过实验表明,对于随机数据集分类的正确率为8 5 ,但误判率较高。 王辉等人垆j 在“使用分类器自动发现特定领域的深度网入口”一文中提出了一个三分 类器的框架,用于自动识别特定领域的d e e pw e b 查询接口。将得到的查询接口进行集成, 形成一个统一的接口提交给用户,方便用户查询。此方法的弱点是,不具有通用性,只能 判定特定领域的d e e pw e b 查询接口。 李文骏等人l 叫提出了一种基于搜索引擎的方法来发掘d e e pw 曲数据源。提交合适的关 键词,利用传统搜索引擎的爬虫程序抓取到大量含有查询接口的页面,使返回的结果中包 含更多的指向d e e pw e b 页面的链接,通过分析返回结果来扩展查询,从而进一步提高了 数据源发现的效率。但存在的问题是:如何选择合适的关键词,如果关键词选择的不好, 返回的结果中d e 印w e b 接e l 页面所占的比例就会比较小,如何确定特定领域中哪些词是 经常使用的,如果选择的不好则直接影响后续工作的进行,查询扩展必须建立在已获得查 询日志的基础上,这个条件也很难具备。 杨丽华等人【7 】提出了一种基于启发式规则的d e e pw r e b 接1 3 发现方法,采用将基于领域 知识来确定合适的查询提交词和启发式规则相结合的方式来发现领域内d e e pw e b 接口。 在确定合适的查询提交词时,每次都要向搜索引擎提交查询,然后统计含d e e pw e b 接口 的页面数。但搜索引擎返回的页面中d e e pw e b 接口只占很少的一部分,这样每次都要从 很多无关网页中筛选出d e e pw e b 接口,所花费的代价比较大。 刘伟等人i s 提到了一种简单的方法来判定网页表单是否为d e e p w 曲查询接1 :3 ,该方法 共有三个基本规则:首先页面中要有f o r m 标签;其次f o r m 标签中必须有t e x t 输入控件; 第三,至少出现一组关键词中的一个,像“查询”、“搜索”等等。但是,如果再加入启发 式判定规则,就能尽早的筛选掉那些不属于d e e pw e b 查询接口的网页。 鲜学丰等人p 1 采用一种基于领域样本查询的d e e pw 曲数据库分类的方法对d e e pw 曲 数据源进行分类。该方法通过分析领域的高级查询接口自动获取领域主属性,然后利用领 域知识为主属性构建查询样本,对查询接口提交试探查询,根据返回结果页面的结果模式 3 ll强鼍 南京信息工程大学硕士学位论文 和记录内容判断w e b 数据库与领域的相关程度。但在此方法的领域主属性抽取算法中,要 为每一个标签产生一个标签模式l ,还要判断l 是否与l a b l e s e t 中存在的模式l 匹配。当 一个领域中的属性较多时或者该领域中选取的样本数量较多时,就会比较费时,在时间和 资源上的开销也就比较大由于要提交查询,根据返回结果的模式来判断领域相关程度, 在页面的返回过程中又要增大开销。所以此方法的整体开销会比较大。 马丹等人i l 叫提出了一种d e e pw 曲数据源发现与分类的模型。该模型首先抽取d e e p w 曲页面查询接口的表单特征,在此基础上构造一个d e e p w e b 页面过滤器来发现d e 印w e b 数据源,其次在对查询接口特征进行分析后,构建了一个基于k n n 的分类器,并通过该 分类器对新产生的d e e pw e b 数据源按领域进行分类。但是该模型在对d e e pw e b 查询接口 进行判定时只抽取了表单控件的特征作为判定依据,控件之间的关键词没有考虑,同时也 没有加启发式规则。因此判定依据比较单一在控件相似度的计算方法中,如何准确的确 定属性的权值也是个问题。采用k n n 分类器对d e e p w e b 数据源进行分类,准确率是8 6 9 , 还有很大的空间可以提升 华慧等人i l 提出了一种基于查询接口文本的d e e pw 曲数据源分类方法。综合基于向 量空间的 i t i d f 方法和基于知网的语义相似度方法接口之间的相似度。采用k - n n 算法实 现d e 印w e b 数据源的分类。但是该方法在文本内容的处理方面存在一些不足,在语义方 面只利用义原之间的上下位关系,并没有结合同义关系、反义关系、对义关系等。 1 3 本文主要研究内容 w o r l dw i d ew e b 自2 0 世纪9 0 年代发明以来就一直呈现蓬勃发展之势,到今天为止, 其中已经蕴含着海量的信息资源,包罗万象,是人类一笔宝贵的知识财产。 那么,如何获得和利用网络中这些大量的信息资源。大多数人都会想到利用搜索引擎 检索,通过输入关键词,获得返回的结果链接。但搜索引擎自身的搜索是有限制的,为了 防止其爬虫程序掉入网络陷阱,网络中大量有价值的信息是不被爬虫程序抓取的。此外, 还存在很多技术上的难题没有解决,互联网中更多的页面信息是由后台数据库动态产生的, 这些数据信息只能通过填写其提供的网页接口表单,然后提交查询来获取,而不能够通过 静态链接获取。传统的搜索引擎爬虫程序无法做到这一点,不具备自动填写表单的能力。 因此,仅通过搜索引擎是无法检索到这部分内容的,从而导致这部分信息对用户来说是不 可见的。人们通常用搜索引擎检索到的内容只是表层网中的内容,与d e e pw e b 中的信息 相比太微不足道了,大量更有价值、更专业的数据源被隐藏在了网络底层,这部分信息增 长迅速,是整个网络信息的主要来源。因此,如何有效的发掘和利用d e e pw e b 中的信息 至关重要。 d e e pw e b 数据集成框架正是为了解决这个问题而提出的。但是现在还处于一个起步阶 段,d e e pw e b 数据集成是一项庞大的工程,里面涉及到很多技术难点,等待着研究者们去 解决。本文在对d e e pw e b 深入学习和研究的基础上,提出了自己的技术方案,本文所做 的研究工作如下: ( 1 ) 对d e e pw e b 现在国内外的研究现状进行了探究分析总结了当前一些关键技术 4 蔓二童堑丝 的解决方法:通过哪些途径可以获得d e 印w e b 中的数据信息以及d e e pw e b 形成的原因; 分析归纳了d e e pw e b 的特性,d e e pw e b 与s u r f a c ew 曲相比,其中蕴含的数据在数量和质 量上体现出的优越性。 ( 2 ) 分析说明了d e e p w e b 与搜索引擎的关系。先介绍常用的搜索引擎的类别及各自 的搜索方法,叙述了其工作的基本原理;然后分析了d e e pw e b 数据源发现的重要性以及 在实际技术实现中遇到的难点;对d e e pw e b 数据集成进行了详细的阐述,分析了各个功 能模块在d e e pw e b 数据集成框架中所起的作用和需要完成的任务。 ( 3 ) 在识别d e e pw e b 查询接1 2 1 的过程中,先对网页中的u r l 进行解析。尽早的排 除掉那些不属于d e 印w e b 查询接口的网页,避免后续不必要的工作,提高了后面对d e e p w e b 查询接口判定和d e e pw e b 数据源按领域分类的效率。 ( 4 ) 对d e e pw e b 查询接口进行判定。d e e pw e b 查询接口判定是w e b 数据源发现中 需要解决的重要问题。本文中采用了自己设计的创新方法,此方法的优点是:在网页表单 特征提取的基础上加入了启发式判定规则,提高了判定的准确性和效率,节约了时间并减 少了资源上的开销。运用多分类器累加的技术,提高了分类的准确性。采用a d a b o o s t 算法 将多个弱n a i v eb a y e s 分类器组合成一个强分类器,最终形成a d a b o o s t - n a i v eb a y e s 分类器 对网页表单进行判定识别。 ( 5 ) 在分析研究了决策树算法的基础上,采用i d 3 算法和c 4 5 算法相结合的方式, 根据不同属性的特性,采用不同的算法。这样的优点是:减少了只用一种分类方法进行分 类所带来的缺陷和弊端,多种分类算法相融合,充分发挥各自的优点,达到更好的分类效 果。这样可以减少i d 3 算法中存在的归纳偏置问题,同时还能减少分裂信息的值为零或者 非常小的概率,有效的防止了增益比率没有意义或者增益比率非常大的可能行,在查全率 和查准率方面都有了提高。 以上是本文对d e e pw e b 研究中的关键问题所做的主要工作,在学习和分析已有研究 成果的基础上,提出了自己的解决方案,通过实验证明了所提出理论和方法的可行性。对 于d e 印w e b 的研究和发展,还有很长的路要走,很多难题需要研究者们去解决。由于d e e p w e b 的重要性,在今后的研究工作当中,会有更多的研究者投入到d e e pw e b 的研究中去, 随着一个个技术难题的解决,d e e pw e b 数据集成框架的实现,用户可以方便地获取d e e p w e b 中大量更有价值、更专业的信息资源。 1 4 论文的组织结构 本文在深入了解d e e pw e b 数据源发现和分类的研究背景和研究现状的基础上,对d e e p w e b 研究中的两个重要问题:d e e pw e b 查询接口判定和数据源分类进行研究,提出了解决 问题的新方法。 本文共分六章,各章节内容安排如下: 第一章绪论。对d e e pw e b 研究的基础内容进行了说明,分析了数据源发现和分类技 术的发展现状,介绍了本文对d e e pw e b 查询接口进行判定以及数据源分类的方法,在此 基础上提出了论文的选题背景和意义。 5 i-l, 南京信息工程大学硕士学位论文 第二章d e e pw e b 数据源发现相关研究首先对通用搜索引擎进行简要介绍,总结出 d e e pw e b 与通用搜索引擎在搜索内容和网页结构上的区别,在此基础上分析说明了d e e p w e b 数据源发现的重要性和现阶段存在的难点内容。 第三章分析处理网页中的u r l 。根据网页u r l 的特征总结出处理规则,将不属于 d e e pw e b 查询接口的网页尽早的进行排除。 第四章d e 印w e b 查询接口的判定。本章在分析研究网页表单结构的基础上对表单结 构特征进行提取,通过大量的分析总结制定出启发式判定规则,采用网页表单特征与启发 式规则相结合的方法利用a d a b o o s t - n a i v eb a y e s 分类器对d e 印w e b 查询接口进行识别。 第五章d e e pw e b 数据源分类。根据属性的不同特性,分别选择i d 3 算法和c 4 5 算法 进行属性分裂,建立决策树,对d e 印w e b 数据源按领域进行分类。 第六章总结与展望。总结了本文的研究工作并指明未来的工作方向。 6 第二章d e e pw e b 数据源发现研究 第二章d e e pw e b 数据源发现研究 2 1 通用搜索引擎概述 2 1 1 通用搜索引擎的定义和类别 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略运用特定的计算机程序,通常是通过录入 一个关键词或短语从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服 务,将用户检索相关的信息展示给用户的系统。 搜索引擎主要有以下几种类别: ( 1 ) 全文搜索引擎:全文搜索引擎是用户最常用的一种搜索引擎,国外代表有g o o g l e , 国内知名的有百度搜索。它们从互联网提取各个网站的信息,以网页文字为主。建立起数 据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结 果来源的不同,全文搜索引擎可分为两类:一类是拥有自己的网页抓取、索引、检索系统 ( i n d e x e r ) ,有独立的“蜘蛛”( s p i d e r ) 程序、或“爬虫”( c r a w l e r ) 、或“机器人”( r o b o t ) 程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的g o o g l e 和百 度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果, 如l y c o s 搜索引擎。 ( 2 ) 目录索引:目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎, 只是按目录分类的网站链接列表而已。目录索引型的索引数据库是依靠人工建立起来的, 这些编辑人员在访问了某个w e b 站点后根据一套自定的评判标准及主观印象写出对该站点 的描述,用户完全可以按照分类目录找到所需要的信息,不依靠关键词( k e y w o r d s ) 进行 查询。目录索引中最具代表性的是雅虎分类目录和新浪分类目录搜索。 ( 3 ) 元搜索引擎( m e t as e a r c he n g i n e ) :元搜索引擎接受用户查询请求后,同时在多 个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有i n f o s p a c e 、d o g p i l e 、 v i v i s i m o 等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的 直接按来源排列搜索结果,如d o g p i l e 有的则按自定的规则将结果重新排列组合,如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 拼音y的教学课件
- 2025年康复站管理笔试模拟题含答案解析
- 课件《天目》教学课件
- 2025年增强现实技术笔试模拟题集
- 年产2万套分布式驱动及10万套EMB项目可行性研究报告模板-立项备案
- 2025年媒体编辑初级面试题及答案
- 2025年电子商务市场推广考核试题及答案解析
- 2025年安全员考试复习技巧
- 2025年教师安全知识测试题库含答案
- 《道德经》少儿教学课件
- 2023年至2023年明心秋季六年级资优生测试试题及答案
- GB/T 7252-2001变压器油中溶解气体分析和判断导则
- GB/T 5184-2016叉车挂钩型货叉和货叉架安装尺寸
- GB/T 24151-2009塑料玻璃纤维增强阻燃聚对苯二甲酸丁二醇酯专用料
- 考研英语5500词汇表讲解
- MSA测量系统分析第四版
- 围手术期质量评价标准(手术室)
- 化学品安全技术说明(胶水)
- 吊篮操作工岗位风险告知卡
- 输血法律法规培训PPT
- 海姆立克急救(生命的拥抱)课件
评论
0/150
提交评论