




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)deep+web数据源质量估计模型及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d e e pw e b 数据源质量估计模型及应用研究 中文摘要 d e e pw e b 数据源质量估计模型及应用研究 中文摘要 随着i n t e r n e t 技术的飞速发展,整个w e b 信息已经被各种各样可搜索的在线数据 库所深化。这些信息隐藏在w e b 查询接口之后,由站点后台数据库动态产生,而传 统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为d e e pw e b 。 d e e pw e b 信息的获取至今仍然是一个新兴的研究领域,也受到越来越多研究人 员的重视。为了方便用户获取某领域的d e e pw e b 信息,对d e e pw e b 进行大规模信 息集成的研究就应运而生了,该集成框架包括数据源发现、数据源分类、数据源选择、 查询结果合并等模块的研究。本文在上述集成框架下提出了一个d e e pw r e b 数据源质 量估计模型,基于该模型对数据源选择进行了应用研究,并提出了相关的选择算法。 本文的主要研究内容包括: ( 1 ) 介绍了d e e pw e b 信息集成系统框架,对中国d e e pw e b 资源的结构和分布做 了调查研究。 ( 2 ) 分析了d e e pw e b 三个方面的特性,并分别从三方面提取了影响数据源质量 的属性。 ( 3 ) 分别采用了机器学习方法和模糊综合评价方法,对影响数据源质量的特征建 立了质量估计模型。 ( 4 ) 应用上述质量估计模型,结合查询相关性及查询准确性对d e e pw e b 数据源 的选择做了应用研究。 最后对文中提出的方法和技术进行了实验设计,通过对数据源选择实验结果的分 析验证了提取特征的合理性和有效性,并比较了采用机器学习方法和模糊综合评价方 法建立质量估计模型的优缺点。 关键词:深网,搜索引擎,机器学习,信息反馈,查询接口 作者:胡鹏昱 指导老师:崔志明 r e s e a r c ho nq u a l i t ye s t i m a t i o nm o d e lo fd e e pw e bd a t as o u r c e sa n d a p p l i c a t i o n r e s e a r c ho nq u a l i t ye s t i m a t i o nm o d e lo fd e e pw e b d a t as o u r c e sa n d a p p l i c a t i o n a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fi n t e m e tt e c h n o l o g y ,t h ew e bh a sb e e nr a p i d l y d e e p e n e db ym y r i a ds e a r c h a b l ed a t a b a s e so n l i n e al a r g ea m o u n to fd y n a m i ci n f o r m a t i o n f r o mt h ed a t a b a s e sb e h i n dq u e r yi n t e r f a c e sc a l ln o tb er e t r i e v e db e c a u s eo ft h er e s t r i c t i o n s o fc u r r e n ts e a r c he n g i n et e c h n o l o g y w ec a l ls u c hi n f o r m a t i o na sd e e pw e b d e e pw e b i n f o r m a t i o nr e t r i e v a li ss t i l la 舭s hf i e l do fs t u d ya n dh a sb e e np a i dm o r e a n dm o r ea t t e n t i o n i na t t e m p tt om e e tu s e r s n e e df o rd e e pw e bi n f o r m a t i o n ,t h er e s e a r c h o nd e e pw e bi n f o r m a t i o ni n t e g r a t i o ni nl a r g e - s c a l eh a sb o r n i ti n c l u d i n gd a t as o u r c e s f i n d i n g ,d a t as o u r c e sc l a s s i f i c a t i o n , d a t as o u r c e ss e l e c t i o n , r e s u l t sc o m b i n a t i o n i nt h i s p a p e r , w ep r e s e n taq u a l i t ye s t i m a t i o nm o d e lo fd e e pw e bd a t as o u r c e s b a s e do nt h e m o d e lw ed oa p p l i e dr e s e a r c hi nd a t as o u r c e ss e l e c t i o n , a n db r i n gf o r w a r dar e l a t e d a l g o r i t h m t h em a i nr e s e a r c hc o n t e n t si n c l u d i n g : ( 1 ) i n t r o d u c et h ei n f o r m a t i o ni n t e g r a t i o nf r a m e w o r ko fd e e pw e b ,d or e s e a r c ho n d e e pw e b s t r u c t u r ea n dd i s t r i b u t i o no fc h i n e s er e s o u r c e s ( 2 ) a a n a l y s i so ft h et h r e ea s p e c t sc h a r a c t e r i s t i c so fd e e pw e b ,a n de x t r a c t et h e c h a r a c t e r i s t i c so fi m p a c tt h eq u a l i t yo ft h ed a t as o u r c e s ( 3 ) b a s e do nt h ef a c t o r sa f f e c t e dt h eq u a l i t y ,u s i n gm a c h i n el e a r n i n gm e t h o da n d f u z z yc o m p r e h e n s i v ee v a l u a t i o nm e t h o dt oe s t a b l i s hd a t as o u r c e sq u a l i t ye s t i m a t i o nm o d e l r e s p e c t i v e l y ( 4 ) a p p l i c a t i o no ft h eq u a l i t y e s t i m a t i o nm o d e la b o v e ,c o m b i n i n gw i t hi n q u i r i e s r e l a t i o na n di n q u i r i e sa c c u r a c y ,w ed oa p p l i e dr e s e a r c ho nd e e pw e bd a t as o u r c e s s e l e c t i o n f i n a l l y , w ed e s i g ne x p e r i m e n t et ov e r i f yt h em e t h o d sa n dt e c h n i q u e sp r o p o s e di nt h i s p a p a e r t h ee x p e r i m e n t a lr e s u l t sv e r i f yt h ee x t r a c t e dc h a r a c t e r i s t i c sa r er e a s o n a b l ea n d l i r e s e a r c ho nq u a l i t ye s t i m a t i o nm o d e lo f d e e pw e bd a t as o u r c e sa n d a p p l i c a t i o n e f f e c t i v e a n dw ec o m p a r e dt h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h ee s t i m a t i o nm o d e l , u s i n gm a c h i n el e a r n i n gm e t h o da n df u z z yc o m p r e h e n s i v ee v a l u a t i o nm e t h o d t oe s t a b l i s h k e yw o r d s :d e e pw e b ,s e a r c he n g i n e ,m a c h i n el e a r n i n g ,i n f o r m a t i o nf e e d b a c k , q u e r y i n t e r f a c e i i i w r i t t e n b yh up e n g - y u s u p e r v i s e db yc u iz h i - m i n g 图表目录 图2 1d e e pw e b 查询接口深度分布5 图2 2d e e pw 曲领域分布6 图2 3 传统搜索引擎的系统架构8 图2 4 搜索引擎对d e e pw 曲的覆盖率9 图2 5d e e pw e b 数据集成框架1 1 图3 1 从d e e pw r e b 获取数据的过程1 3 图4 1s v m 分类器原理图2 5 图4 2r a n k i n gs v m 排序原理图2 6 图4 3 质量估计模型构建过程图2 8 图4 4 数据源质量估计模型2 9 图5 1 数据源选择流程图。3 5 图5 2m eg r a wh i l l 网站书籍查询接口3 7 图5 3 修正函数的工作流程图4 3 图5 4 基于用户反馈的数据源选择策略4 4 图6 1s v m 分类器实现过程。4 6 图6 2 训练集文件示例4 6 图6 3 属性的有效性评测4 7 图6 _ 4 算法返回数据源的精确性比较5 0 表1 1d e e pw e b 目录的覆盖率2 表2 1 中国d e e pw e b 规模的采样和估计6 表3 1 普通质量与高质量接口页面主题无关特征平均值差异1 4 表3 2 三种w e b 数据源大小估计方法的性能比较2 1 表6 1 估计模型的有效性4 7 表6 2 前8 个最相关谓词相关度值一4 8 表6 3 数据源相关度排序4 9 表6 - 4 数据源选择有效性实验结果5 0 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:越幽翌日期:趔主,理 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:盥磁重星日期: 期:幽 1 1 问题的提出 第1 章引言 i n t e m e t 是一个巨大的信息资源库,为人们提供了大量的在线信息。根据文献【l 】 在2 0 0 3 年时的调查,整个w e b 就有超过2 0 0 ,0 0 0 t b 的信息量,而且仍在快速的增长。 对于w e b 领域的研究,其目的在于发展新的技术使之更为有效地从w e b 中获取有用 信息。w e b 中的信息主要通过网页的形式对外发布,而由文本和超链接构成的网页 有其独特之处:数量惊人,信息丰富;由不同的个人或群体开发,形式与内容有很大 的差异;分布在地球上i n t e m e t 连接的每一个角落。这就造成了w e b 数据的异质性和 缺乏结构性,正是由于这个原因,使得自动地从中获取有价值的信息和数据变成一件 十分具有挑战性的任务。 为了帮助人们在这个信息海洋中找到自己需要的信息,出现了搜索引擎。然而 i n t e m e t 上有大量的页面是由站点后台数据库动态产生的,不能直接通过静态链接获 取,只能通过填写表单提交查询来获取,而传统的网络爬虫( c r a w l e r ) 程序不具备填写 表单的能力,抓取不到这些页面。因此,现有的搜索引擎搜索不出这部分页面信息, 从而导致这部分信息对用户是隐藏、不可见的,即d e e pw e b t 2 1 ,或被称为w e b 数据 库。 u i u c 大学在2 0 0 4 年4 月对整个d e e pw e b 做了一次较为准确的估算1 3 】,推测整 个w e b 上有3 0 7 ,0 0 0 个提供w e b 数据库的网站、4 5 0 ,0 0 0 个w e b 数据库,比b r i g h t p l a n e t 在2 0 0 0 年估计的5 0 0 ,0 0 0 个数据库网站的数目增长了6 倍多,而且仍然以惊人的速 度在增长着。 d e e pw e b 中的w e b 数据库不但数量众多,而且覆盖了现实世界的各个领域。一 些专门机构,如c o m p l e t e p l a n e t 和i n v i s i b l e w e b 等构建了d e e pw e b 目录,该目录按 现实世界的领域对d e e pw e b 内容做了分类,主要包括:商业与经济、计算机与互联 网、新闻媒体、娱乐等一共十几个分类。这只是宏观的分类,每个分类下面还有小的 分类,比如科学可以继续分为社会科学与自然科学,而自然科学又可分为若干学科。 在表1 1 【3 】中可以看出,尽管这些网站对w e b 数据库进行了细致的分类,但所列出的 第1 章引言 d e e pw e b 数据源质量估计模型及应用研究 w e b 数据库仅仅只是整个w e b 数据库的很小的一个比例( 即使最大的c o m p l e t e p l a n e t 也只有1 5 6 ) 。 表1 1d e e pw e b 目录的覆盖率 d e e p w e b 目录 w e b 数据库的数目覆盖率 c o m p l e t e p l a n e t c o r n 7 0 ,0 0 0 1 5 6 l i i o r g 1 4 ,0 0 0 3 1 t u r b ol0 c o r n2 ,3 0 0 0 5 i n v i s i b l e w e b n e t1 0 0 00 2 面对如此众多的w e b 数据库,数据源质量相对数量来说就更有研究的意义。但 是目前却找不到与数据源的质量估计相关的文章,本文考虑到d e e pw e b 的特殊性, 着重研究分析了d e e pw e b 的接口页面特性、数据库特性及服务特性,综合这三个方 面因素建立质量评估模型,对d e e pw e b 数据源的质量进行了评估,并提出了一种综 合考虑查询相关性、查询准确性且有查询质量保证的基于用户反馈机制的数据源选择 策略。 1 2 国内外研究现状 d e e pw e b 信息获取至今仍是一个新兴的研究领域,其中包含有若干需要解决的 问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡。 对d e e pw e b 数据资源进行大规模的信息集成,从原理上来分主要有如下三种方法: ( 1 ) 基于分类目录的方法。国外仅有d e e p w e b 4 1 、b r i g h t p l a n e t t 5 1 、i n v i s i b l e w e b l 6 等公司生产相关产品,他们把d e e pw e b 查询接口按其所属类别进行分类,用户可以 根据类别找到所需要的查询接口。由于这种方法对查询接口的分类进行了严格上的区 分,通常还采用多层次的分类方式,所以需要较多的人工干预,自动化程度不高。目 前国内外还没有针对中文d e e pw e b 查询接口的分类目录。 ( 2 ) 基于全局查询模式的方法。从分布式数据库角度来说,所谓全局模式( g l o b a l s c h e m a ) 就是把现有的各个分布的数据库模式集成起来,将公用的数据定义整合,并 解决对同一个数据的不同表示方法之间的冲突问题。具体实现和元搜索引擎类似,即 在每个领域中,提供给用户一个全局的查询接口。这个接口接收用户的查询,并把查 2 望塑堂墼塑塑堕量堡生堡型垄蜜旦堑壅笙! 雯! ! 童 询派发到各个成员接口进行查询,然后把从各个成员数据库中得到的结果组合起来, 返回给用户。采用这种方法的典型系统有m e t a q u e r i e r 7 1 、w i s e i n t e g r a t o r 8 1 。在这种 架构方式下,涉及到的具体技术主要包括:接口属性的抽取、模式匹配、数据源选择、 查询分发、分类和聚类、查询结果集成等。由于这种方法是当用户提交查询时实时的 从各个相关数据源抽取数据、整合数据、返回数据,因此随着数据源数量的爆炸式增 长就会造成用户查询所需时间的无限延迟。 ( 3 ) 在本地集成w e b 数据库内容的方法。这种方法首先自动获取w e b 数据库的 内容,接着利用信息抽取技术抽取所需信息,最后把数据集成到本地数据库中供用户 检索。该方法与上述两种方法的最大区别在于:上述两种方法的数据信息分布在各地 的w e b 数据库中,它们是自治的、异构的,用户查询时在线地从各w e b 数据库中获 取信息。而本方法需要把w e b 数据库中的对象数据尽可能多的下载集成到本地数据 库中,并对这些数据进行管理,用户查询的结果也来自本地数据库。在文献 9 1 0 1 11 】 中,研究了这种架构方式。国内外已有一些学者对其中的具体技术进行了初步研究, 包括d e e pw e b 数据源发现、d e e pw e b 数据源选择、w e b 数据库内容获取、信息抽 取、对象匹配、排序技术等。由于这种方法首先要将从各数据源抽取到的数据保存到 本地数据库中,因此需要很大的下载资源和本地存储代价。 分析了上述几种大规模的数据集成方法,我们可以发现每种方法都有其优缺点, 因此如何通过技术手段将缺点进行改进正是研究人员需要做的事情。 1 3 主要研究内容 从前面分析可以发现d e e pw e b 已经受到很多研究人员的关注,而且已经有了相 当多的相关研究成果。对d e e pw e b 研究的根本目的是为了能够自动地获取并高效的 利用自由分布在整个互联网上d e e pw e b 中的丰富信息。 虽然整个d e e pw e b 资源几乎包含了人们所需要的任何信息,但要想以手工的方 式对其加以有效的利用在实际中是一件非常困难的事情。而且随着d e e pw e b 规模的 爆炸式增长,要想快速高效的获得令用户满意的信息就更加困难。由于资源的限制, 我们不可能对所有的数据源进行检索,无论对于上面三种方式中的哪一种集成模式, 我们都只能按照某种特定的规则从大量数据源中选择部分合适的子集。然而面对如此 多的数据源,数据质量显然就成为区分彼此很重要的依据。本文主要研究内容如下: 3 第1 章引言 d e e pw e b 数据源质量估计模型及应用研究 ( 1 ) 介绍了中国d e e p w e b 资源,包括其规模、分布、结构情况等。 ( 2 ) 介绍了传统搜索引擎的工作原理及其对中国d e e pw 曲的覆盖率。 ( 3 ) 针对传统搜索引擎在d e e pw e b 领域的不足,引出d e e pw 曲信息集成的必要 性和一种集成框架及集成中的难点。 ( 4 ) 分析了d e e pw e b 的特征,从查询接1 :3 页面特征、d e e pw 曲服务特征、d e e p w 曲数据库特征对d e e pw e b 各属性值进行了定量或定性分析。 ( 5 ) 在d e e pw e b 特征属性计算的基础之上,用基于机器学习的方法和模糊综合 评价方法为d e e pw e b 构建质量估计模型。 ( 6 ) 从查询相关性、查询准确性及查询质量三方面考虑,提出了一种基于用户反 馈的数据源选择策略。 最后通过实验验证了本文提出的d e e pw e b 特征属性能很好的对数据源的质量进 行估计,同时验证了基于用户反馈的数据源选择策略的可行性和有效性。 1 4 结构安排 本文共分为七章,结构安排如下: 第1 章介绍了d e e pw 曲信息集成问题产生的原因以及国内外研究现状,由此 引出了本文研究内容的意义。 第2 章首先介绍了中国d e e pw e b 资源的规模、分布、结构,然后研究了传统 搜索引擎的工作原理,并分析了传统搜索引擎在d e e pw e b 领域的缺陷,最后介绍了 一种d e e pw e b 信息集成的框架和难点。 第3 章对d e e pw e b 的特征进行了分析研究,包括查询接1 :3 页面特征、w e b 服 务特征、w e b 数据库特征。 第4 章通过对d e e pw e b 的属性描述,分别用机器学习方法和模糊综合评价方 法建立数据源质量估计模型。 第5 章对传统的查询相关性进行了扩展,提出了基于语义的谓词相关度模型相 似度计算方法。另外结合查询相关性、查询准确性、查询质量提出了一种基于用户反 馈的数据源选择策略。 第6 章对本文提出的方法模型进行了实验分析。 第7 章对本文工作进行了总结和展望。 4 d e e p w e b 数据源质量估计模型厦应用研究第2 章研究背景 第2 章研究背景 随着w o r l d w i d e w e b ( w w w ) 的飞速发展,整个w e b 信息已经被各种各样的可搜 索在线数据库所深化。d e e p w e b 中蕴含了海量的可供访问信息,并且还在迅速增长。 这些信息要通过查询接口在线访问站点后端的w e b 数据库获得。尽管丰富的信息蕴 藏在d e e pw e b 中,由于d e e pw e b 数据的异构性和动态性,有效地把这些信息加以 利用却是一件具有挑战性的工作。 2l 对中国d e e p w e b 资源的调查 由于本文研究主要针对的是中文d e e p w e b ,因此首先对中国d e e p w e b 资源进行 介绍。调查研究中首先是对我国的i p 段进行了采样”2 j ( 我国大陆i p v 4 地址总数为: 7 4 ,3 9 1 ,2 9 6 个,折合4 a + 1 1 i b + 3 1 c i ”1 ) ,从中随机采样1 , 0 0 0 ,0 0 0 个i p 样本;然后对 每个i p 样本上出现的查询接口、w e b 数据库、d e e p w e b 站点进行分析统计,以此作 为依据对中国d e e pw e b 的规模、分布和结构进行估计。 3 “ * 2 “ iz n 彗i n 0i “ 图2 - 1d e e p w e b 查询接e l 深度分布 查询接口深度定义为从根页面到查询接口所在页面的最短路径。为了获取w e b 数据库,必须先获取其查询接口。如果查询接口在站点内第n 层出现,则定义查询 接口的深度为n 。从1 , 0 0 0 ,0 0 0 个i p 样本中选取1 0 0 ,0 0 0 个i p 进行穷尽爬行,深度限 制为1 0 。共发现2 9 1 个w e b 服务器,3 0 个d e e pw e b 站点,包含7 9 个查询接口和 3 7 个w e b 数据库。观察发现查询接口一般存在于站点的浅层,7 9 个查询接口中没有 ! ! ! ! ! ! ! 型些! ! ! ! ! ! ! i ! ! ! ! ! ! ! ! 一个深度超过5 ,7 47 ( 5 9 7 9 ) 的查询接口深度不超过3 。由于w e b 数据库可以通过 多个查询接口获取取其深度为深度最小的查询接口深度,9 46 ( 3 5 3 7 ) 的w e b 数据 库出现在前3 层内,图2 1 显示了3 7 个w e b 数据库的深度分布。9 33 ( 2 8 3 0 ) 的d e e p w e b 站点其w e b 数据库出现在前三层。 表2 - l 中国d e e p w e b 规模的采样和估计 采样结果总量估计l d e e p w e b 站点 3 0 2 2 4 , o o o w e b 数据库2 8 , 0 0 0 j 一结构化m 0 0 0 一非结构化 限0 0 0 查询接口 ,o o o 根据上述分析,绝大部分w e b 数据库可以在站点的前3 层找到。于是对1 ,0 0 0 。0 0 0 个i p 样本进行探度为3 的爬行,共发现2 ,8 3 7 个w e bs e r v e r , 其中有3 0 2 个d e e pw e b 站点,包含7 4 1 个查询接e l 和3 6 0 个w e b 数据库。我国大陆i p v 4 地址总数共有 t = 7 4 ,3 9 1 ,2 9 6 个,采样了s - 1 ,0 0 0 ,0 0 0 个i p 样本,由此可以估计我国的d e e pw e b 站 点数为3 0 2 t s 9 33 = 2 4 ,0 0 0 个,w e b 数据库有3 6 0 x t s 9 4 6 = 2 8 ,0 0 0 个, 查询接口有7 4 1 t s 7 47 = 7 4 ,0 0 0 个( 精确到1 0 0 0 ) 。表2 1 汇总了采样和估计的 结果,平均每个d e e pw e b 站点有12 个w e b 数据库,每个w e b 数据库有2 个查询 接口。 图2 - 2 d e e p w e b 领域分布 d e e pw e b 数据源质量估计模型及应用研究 第2 章研究背景 s u r f a c ew e b 信息的绝大部分是非结构化的h t m l 文本和图像,然而d e e pw e b 信息则不同。w e b 数据库可以分为两类:( 1 ) 非结构化数据库,提供非结构化的数据 对象如文本、图像、音视频等:( 2 ) 结构化的数据库,提供结构化的数据对象,如成 对的属性值关系记录。例如,n e w s s o h u t o m 有一个新闻的非结构化数据库。 d a n g d a n g t o m 有一个图书的结构化数据库,它返回图书记录包含书名,价格,内容摘 要等。通过手工查询判断3 6 0 个w e b 数据库样本,发现其中有1 3 0 个结构化w e b 数 据库和2 3 0 个非结构化w e b 数据库。同样的,可以估计国内共有1 3 0 xt s 9 4 6 = 1 0 ,0 0 0 个结构化w e b 数据库和2 3 0 t s 9 4 6 = 1 8 ,0 0 0 个非结构化w e b 数据库, 其中6 4 是非结构化的w e b 数据库。文献【3 研究表明从全球范围来看,结构化和非 结构w e b 数据库比为3 4 :1 ,而调查表明我国的w | e b 数据库还是以非结构化的w | e b 数据库居多。对3 6 0 个w e b 数据库样本进行手工分类,图2 2 显示了1 1 个分类目录: 计算机与英特网,教育,人文与艺术,商业与经济,社会科学,社会与文化,新闻与 媒体,医疗与健康,娱乐与休闲,政府与政治,自然科学。 2 2 传统搜索引擎的组成与工作原理 传统搜索引擎在本文是指基于搜索器的搜索引擎,一般由搜索器、切词器、索引 器、查询器几部分组成,一般的工作过程是:首先对互联网上的网页进行搜集,然后 对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找 到的结果按某种规则进行排序后返回给用户。 搜索器( 爬虫程序) 负责网页信息的抓取工作,它负责尽可能多且快的搜集各种类 型的新信息,同时由于i n t e m e t 上信息处于不断更新中,因此还要定期更新已经搜集 过的旧信息。一般情况下切词器和索引器一起使用,将抓取的网页内容进行切词处理 并自动进行标注,建立索引数据库,爬虫程序采集到的网页信息全部存于其中。索引 器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文 档数据库的索引表。索引数据库的规模直接影响了系统查询的查全率。有些记录了网 页的全部内容,对整个h t m l 文件的所有单词都建立索引,有的只记录网页的地址、 标题、关键词、摘要等信息,还有的能处理h t m l 文件中的m e t a 标签或其它不可见 的特殊标记。查询器根据用户查询条件检索索引数据库并对检索结果进行排序和集合 运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户。图2 3 描述了 7 第2 章研究背景d e e pw e b 数据源质量估计模型及应用研究 传统搜索引擎的系统架构。 搜索器 h t 眦一页面搜索结果 图2 3 传统搜索引擎的系统架构 首先是搜索器读取u r l 列表按照广度优先或深度优先算法抓取各u r l 所指定的 网站,并给抓取的网页分配唯一的文档号d o c l d ,同时用切词器和索引器对抓取的网 页文档进行处理后存入到文档数据库。搜索引擎通过客户端程序接收来自用户的检索 请求,现在最常见的客户端程序就是浏览器。用户输入的检索请求一般是关键词或者 是用逻辑符号连接的多个关键词,搜索服务器根据系统关键词字典,把搜索关键词转 化为w o r d l d ,然后在索引库( 倒排文件) 中得到d o c l d 列表,对d o c l d 列表中的对象进 行扫描并与w o r d l d 进行匹配,提取满足条件的网页,然后计算网页和关键词的相关 度,并根据相关度的值将前k 条结果( 不同的搜索引擎每页的搜索结果数不同) 返回给 用户。 2 3 传统搜索引擎在d e e pw r e b 领域的不足 网上信息浩如烟海,获取有用的信息难于大海捞针。虽然传统搜索引擎的出现为 人们提供了极大的便利。但是仍然有大量的d e e pw e b 资源对用户而言是“不可见 , 也就是说这类资源未被传统的搜索引擎所索引,用户通过传统搜索引擎无法检索到这 些信息。而有些d e e pw r e b 站点提供目录链接可浏览隐藏的内容,这部分页面可以被 传统的搜索引擎检索到。因此我们可以通过了解主要搜索引擎对d e e pw e b 数据的覆 盖情况,以此来概括目前被索引信息的基本概况。调查中选择了三个主要的中文搜索 引擎,g o o g l e 、 b a i d u 、y a h o o 。 8 d e e p w e b 数据源质量估计模型及应用目 究 瞄琳j 3 * j 9 * 1 0 0 圈2 4 搜索引擎对d e e p w e b 的覆盖率 图2 - 4 显示了调查结果“i ,g o o g l ec 索引了5 0 的d e e p w e b 页面,y a h o oe o m c n 索引了4 8 的d e e pw e b 页面,b a i d uc o r n 索引了2 8 。然而它们绝大部分是重叠的, 总的覆盖率为5 9 。如图2 - 3 所示y a h o o 和g o o g l e 共覆盖了5 9 ,但有3 9 是重叠 的,也就是8 1 是相同的。b a i d u 覆盖部分绝大部分是g o o g l e 的子集,8 9 重叠。 从调查结果可以看出目前传统的搜索引擎还只能检索到d e e pw e b 中部分信息, 而且搜索引擎彼此之间的重叠率太高。分析发现导致d e e p w e b 信息不被检索的原因 主要有以下两个方面: 1 搜索引擎技术缺陷 传统的搜索引擎爬虫主要是通过跟踪网页内的超链接来提取新的u r l ,如此循环 往复。但爬虫程序无法自动填写表单,更没有思考分析能力。这就造成了如下两娄资 源不可见: r 1 ) 网络数据库资源。互联网上存在许多数据库资源,其中很大一部分可以免费 获取。而网络数据库资源的组织方式正是毗数据库为后台,动态网页技术与数据库技 术相结合的方式。用户在网络数据库接口页面上输入检索词,获得的页面不是预先存 在的静态页面,而是针对用户此次的检索词和其他一些限制条件动态生成的网页。目 前的爬虫无法填写接口表单,自然访问不了后台数据库。 f 2 ) 需要注册的站点。相当部分站点需要用户注册分为有偿注册和免费注册 两种。用户要获取站点内容必须取得用户名和密码。对于搜索引擎爬虫来说,无论何 种注册方式,它都无法进八。 2 搜索引擎对爬虫访问限制 擅索引擎一般只收录h t m l 文本文件,而对于用户不经常检索的文件格式,如 p d f 、p p t 文档等不加索引。搜索引擎爬虫擅长处理用h t m l 写成的文本文件,在 第2 章研究背景d e e pw e b 数据源质量估计模型及应用研究 h t m l 中可以设置超链接来链接其它类型的文件,如p d f 文档。处理非文本文件在 技术上没有很大的难题,但搜索引擎一般将这些文件排除在外。维持一个一般搜索引 擎运营的代价非常昂贵,这可能是最大原因。不过近几年来已有一些搜索引擎正在努 力扩展和完善其检索服务,例如b a i d u 和g o o g l e ,现在可以通过它们检索图片、p d f 、 w o r d 、p o w e r p o i m 等多种格式的文档。 对于基于脚本语言的网页,若其u r l 中含有“? ”,爬虫程序通常放弃对该类网 页的访问。因为爬虫访问此类网页时有可能陷入恶意的“陷阱 程序中,导致爬虫进 入死循环中。因此,搜索引擎一般限制爬虫访问该类网页。 对中文搜索引擎对d e e pw e b 覆盖率进行的实验调查,揭示了一个有趣的现象, 一方面,d e e pw e b 并非天生就是隐藏的,主要的中文搜索引擎可以索引近1 2d e e p w | e b 数据;另一方面,覆盖率被固有的缺陷所限制,它们索引的d e e pw e b 数据绝大 部分是重叠的,这些主要的引擎组合起来仅仅比它们单独的覆盖率高一点。这和 s u r f a c ew e b 形成了鲜明的对比,文献【1 3 】指出,对于s u r f a c ew e b 搜索引擎之间的重 叠低,将它们组合起来将大幅提高覆盖率。4 1 的d e e pw e b 数据对象没有被任何一 个搜索引擎索引表明爬行和索引这些数据存在一些本质上的缺陷:( 1 ) 部分w e b 数据 库没有提供基于链接的获取方式,现有的爬虫技术不具备填写表单的能力,因此不能 抓取。( 2 ) 即使提供了静态链接可以抓取,由于w e b 数据库是动态的,因此抓取不能 跟上其更新速度。 可见,虽然d e e pw e b 中含有丰富的高质量信息,但目前的搜索引擎还不能完全 索引到它们,使得d e e pw e b 丰富信息不能得到很好的利用。故对d e e pw e b 进行大 规模的信息集成就很有现实意义和应用价值。 2 4 d e e pw | e b 信息集成概述 2 4 1 d e e pw e b 信息集成框架 图2 5 t 1 5 1 给出了d e e pw e b 数据集成系统的基本框架,我们的研究则是基于这样 的集成框架。从图中我们可以看到,整个数据集成系统分成两个模块:查询接口生成 模块和查询处理模块。每个模块又包含若干处理单元,这些处理单元互相衔接,缺一 不可。下面我们对系统中各部分的功能作简单描述。 1 0 脚帅w e b 数据源质量估计横型及j i 用研究 第2 $ 研究背景 o 就判断该页面是高质量查询接口页 面,g o 就判断该页面是普通查询接口页面。 在实际运用中导致查询接口质量不高有很多因素,因此上式中的m 。不容易找到, 所以l p e 函数对( 3 1 ) 式进行了改进,因为考虑到舻朋,和m 是处于同一个水平方 向,于是可以用( 膨f ,- ) 的方向来代替矢量竹) 的方向,则给出t ( 3 1 ) 式改进后 的方程式: 厂( x ) = ( m + 一m 棚) 7 ( 3 2 ) 这里的肝刀和是通过训练一些查询接口页面的集合得到的,这样公式( 3 2 ) 就 可以把查询接口页面x 映射成一个代表其质量的数值常数。 3 2 d e e pw e b 服务特征 3 2 1 服务质量的定义 对于一个d e e pw e b 数据源d ,要想获得里面的信息只能通过在该数据源提供的 查询接口上递交查询,由w e b 服务器将动态生成的结果页面返回给用户。其服务器 和用户的交互过程即经过了一次w e bs e r v i c e 服务【2 3 】f 2 4 】【2 5 】,因此我们采用了以下属性 作为判定数据源服务质量优劣的因素。 ( 1 ) 查询执行时延t i m e ( d ) :表示向数据源d 提交查询和得到查询结果之间的预 期时延。可以表示为: t i m e ( d ) = e x e c ( d ) + t r a m ( d )( 3 - 3 ) 其中e x e c ( d ) 表示查询在数据源d 上的执行时间,t r a m ( d ) 表示查询结果在网络上的 争一t i m ej 传输时间。可以从查询日志的记录信息进行计算:砌p ( d ) :兰l 一,其中t i m e ,表刀 示第f 次请求查询数据源d 所需要的执行时延,r l 表示d 总共被请求查询的次数。 第3 章d e e pweb特征分析deep w e b 数据源质量估计模型及应用研究 ( 2 ) 数据源的可靠性r e l ( d ) 表示提交的查询在最长等待时间内( 一般可以用个 月或一年来计算) 被成功响应的概率r e l ( d ) = n ( d ) n ,其中( 功表示成功响应的次数, 刀表示d 总共被请求查询的次数。 ( 3 ) 服务吞吐量s t h p ( d ) :在这里指的是在给定时间段内该数据源能同时响应的 w e b 服务请求数s t h p ( d ) = s ( d ) t ,其中r 是根据实验需要设定的时间段,义功指的是 在丁时间里能同时响应的请求数。 ( 4 ) 用户满意度s a t i s ( d ) 表示用户对查询返回结果的满意程度,包括用户所要 求数据的正确性、精确性、实时性。s = 鱼! = ! : 力 其中s a t i s _ f 表示第i 个用 户对数据源d 的评价,且0 茎s a t i s ,s 1 ,玎表示用户对d 的总共评价次数,有 o s s a t i s ( d ) l 。 实验中我们采用w e b 服务器性能测试工具:s p e c w e b 、w e b s t o n e 、w e b b e n c h 。 模拟现实世界中w e b 访问的特点,模拟客户端向被测试w e b 服务器发送请求,产生 负载,然后统计返回结果,计算出性能指标。通过监控w e b 服务器和网络资源的适 用情况,从而验证w e b 服务器的能力。因此数据源的服务质量向量可以用一个四元 组表示为: s ( d ) = ( 乃聊p p ) ,r e l ( d ) ,s t h p ( d ) , 勋出( d ) ) 。 3 2 2 服务质量的计算 有了上面服务质量向量的定义,下面我们将给出其规范化计算过程【2 6 】: 假设现在集成系统中有行个数据源d l ,伤,d n ,对于数据源d ,它的服务质量向 量表示为s ( d j ) = ( t i m e ( d f ) ,r e l ( d i ) ,s t h p ( d i ) ,s a t i s ( d i ) ) ,记为s ( d f ) = ( s i l ,s i 2 ,$ i 3 ,s i 4 ) , 于是疗个数据源的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 活动舞蹈老师合同范本
- 住建部 房屋合同范本
- 酿酒作坊出售合同范本
- 运送车辆服务合同范本
- 家庭教育心得体会怎么写10篇
- 植物综合题目大全及答案
- 直面困境申论题目及答案
- 零售策略市场分析研究
- 婚庆活动方案
- 环境监测行业智能化转型路径与2025年数据质量控制要点报告
- 工程施工队伍管理制度
- 2025年室内设计师劳动雇佣合同范文
- 2025睿实消防自动跟踪定位射流灭火系统说明书
- 《数字技术应用 基础模块(WPS Office 上册)》 课件全套 第1-3单元 探索数字世界 数字技术应用基础 -编程的魅力 程序设计入门
- 餐饮服务与数字化运营 习题及答案 项目二
- 鼻的症状学相关知识
- 中职生劳动教育试题答案
- 现代学徒制课题:市域产教联合体与行业产教融合共同体内开展现场工程师培养的机制创新研究(研究思路模板、技术路线图)
- 2024年《数字摄影技术》考试复习题库(含答案)
- 医疗纠纷讲座
- 一氧化碳安全培训
评论
0/150
提交评论