(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机软件与理论专业论文)基于web图像搜索引擎的spider系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t: 独创性声明 帅i | l i i i l i i i i l l i i l i l l l 0 i i l i l l l i i i y 18 0 2 619 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:目刍t 一日期:砷阳年f 月巧日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:区进笪一 一 导师签名: 日期:矽p年厂月巧日 r 一 摘要 摘要 随着i n t e m e t 、数码相机技术和扫描技术的迅速发展,网络上的图像信息以爆 炸性的速度不断丰富和扩展。然而由于w 曲数据具有多样性、复杂性和无规则性, 如何快速有效地从海量数据中获取所需的图像信息成为一项非常具有挑战性的工 作。图像搜索引擎正是为解决这个问题而诞生的。 现有的w 曲图像搜索引擎包括基于内容的和基于文本的两类。基于内容的 w 曲图像搜索引擎主要根据图像内容( 如颜色、纹理等) 为图像建立索引,而基于文 本的w 曲图像搜索引擎则主要根据页面间的超链接等文本信息来标注图像。然而, 目前这些方案的效果均不够理想,很难精准地检索图像信息。 因此,我们项目组提出基于谱图理论的w 曲图像搜索引擎技术,该技术结合 了基于内容的图像搜索引擎和基于文本的图像搜索引擎的特点,是一种更有效的 新型w 曲图像信息分析方法。 在构建图像搜索引擎时,首先需要将图像数据采用爬虫收集起来。但是由于 网络上的信息纷繁复杂,可能会下载大量无用的数据。这样会浪费网络带宽和影 响信息提取。因此我们对h 舐t r i x 爬虫进行扩展和改进,针对不同网站的特点设计 了普通爬虫和精确爬虫。对于普通的网站,优先考虑信息的全面性,采用了普通 爬虫模块进行下载。对于图像网站,在牺牲一定全面性的情况下,采用了精确爬 虫模块进行下载。这样就能在一定程度上保证图像数据的数量和质量。在数据下 载之后,如何剔除噪声信息提取出对图像描述有用的文字信息成为一个需要解决 的问题。在论文中对网页的h 聊l 标记进行分析,实现了有效的页面解析,提取 出描述图像的文本信息。这样就能提高整个系统检索的准确度和精确度。同时, 为保证系统的更新度,拓展了h 耐t r i x 的更新方案,提出从网页结构、网页内容和 网页图像三方面来检测分析网页是否需要更新。 。 本文首先介绍了图像搜索引擎系统的总体设计,分别介绍了数据下载模块、 预处理模块、图像分类模块、图像检索模块。在分析s p i d e r 系统的总体架构、运 行流程和重要组件的基础上,实现了普通爬虫和精确爬虫,分别针对不同的网页 进行数据下载。为满足系统需要,在对数据处理中实现了页面解析功能、中文分 词功能和图像的标准化。同时对爬虫的更新策略进行分析,提出了更有效的更新 摘要 策略,可以有效地提高系统的更新度。并对爬虫的队列进行哈希运算排序,优化 爬虫性能。最后对爬虫和整个系统的性能进行了测试和分析。 关键词:图像检索,爬虫,页面解析,增量爬行 i i a b s t r a c t w i mm er a p i d d e v e l o p m e l l t o ft h eh l t e m e t ,d i 西t a lc 锄e r aa n d s c a n l l i n g t e c l l l l o l o 趵,l ei m a g ei i l f o m a t i o no nm eh l t e m c ti sc o n s t 赳1 t l y 训c ha i l de x p a i l da t e x p l o s i v es p e e d h o w e v e r ,向rt 1 1 ed i v e r s i t y ,c o m p l e x i t y 锄di r r e g u l 撕t yo fm ew e bd a h o wt 0g e tt l l ep i c t u r ei n f o n n a t i o n 自o mm a s s i v ed a t aq u i c h yh a sb e c o m ea c h a l l e n 西n g t a s k h n a g cs e c he 1 1 百n ei sb o m t os o l v em i sp r o b l e m t h ew e bi m a g es e a r c he n g :i i l ei n c l u d e sc o n t e n t - b a s e di m a g es e a r c he n g i n ea n d t e x t - b a s e di l l l a g es e a r c he i l 百n e c o n t e n t - b a s e di m a g es e a r c he n 百n ec r e a t ei n d e xf o r i m a g em a i l l l yb a s e do ni l i l a g ec o n t e n t ( s u c ha sc 0 1 0 r ,t e x t u r e ,e t c ) a n dt e x t - b a s e dw e b i m a g es e a r c he i l 百n ei sm a i l l l yb a s e do nh y p e d i i l l ( sb e m e e np a g e sa n do t h e rt e x t i n f o m l a t i o nt ol a b e li n l a g e h o w e v e r ,t h ec u r r e n ts o l u t i o n sa r en o te f j f i c i e n t ,i ti s d i 伍c u nt or e t r i e v ei m a g ea c c u r a t e l y n e r e f o r e ,o wp r o j e c tt e 锄p r o p o s et h et e c h n 0 1 0 9 yo fw 曲i m a g es e a r c hb a s e do n s p e c 仃a l黟a p hm e o ,h i c hc o m b i n e sc o n t e m - b a s e di m a g es e a r c h 觚百n ea 芏l d t e x t - b a s e di m a g es e 鲫c he n 西n e i ti san e wa n dm o r ee f f e c “ew e bi m a g ei n f o 衄a t i o n a l l a l y s i sm e t l l o d h lb 嘶1 d i n gt 1 1 e i i l l a g es e a r c _ he n g i i l e ,丘r s tw en e e dt oc 0 1 l e c ti m a g ed a t aw i m s p i d e r s h o w e v d u et ot h ec o n l p l i c a t i o no fn e 觚o r ki m f o 姗a t i o n ,w em a yd 0 1 i ) l ,n l o a da l o to fu s e l e s sd a t a 丑l i sw i l lw a s t en c 觚o r kb a n d w i d ma i l di m p a c to fi n f o m l a t i o n e x 仃a c t i o n t h e r e f o r e ,w ee x t e n dh 耐t r i xa n di n l p r o v ef e a 时e s ,m e l ld e s i 弘ec 0 1 1 1 吸o n s p i d e ra n dp r e c i s es p i d e r 矗) rd i f - f 萌e l l ts i t e s f 0 rn l eo r d i n a 秽s i t e ,w e 舀v ep 商d r i t yt 0 c o m p r e h e n s i v ei i l f o 肌a t i o na 1 1 du s e 戗l ec o n u n o ns p i d e rm o d u l et 0d o w m o a d f o rt h e i m a g es i t e , w eu s em ep r e c i s es p i d e rm o d u l et od o w n l o a da tm ec o s to f c o i n p r e s i v e n e s s t l l i sc o u l dg u a r a n t e e 廿l eq u a n t i t ya i l dq u a l i t ) ro fi m a g ed a t aa tac e r t a i l l d e 殍c e a r e rm ed a t ad o w m o a d ,h o wt 0e l i m i n a t en o i s ea n de x 仃a c tu s e 如ld e s c r i p t i o n i n f o 锄a t i o nf o rm ei m a g eh a v eb e c a m eap r o b l e mw b jc _ hs h o u l db es o l v e d i i lt l l et h e s i s , w e 龇a l y z em ew e bp a g e s h t m lt a g s 锄da 出e v e 觚e 行e c t i v ep a g ea 1 1 a l y s i sw l l i c h c a i le x 舰c tt l l et e x ti n f 0 i m a t i o na b o u tm ei n l a g e sd e s 嘶p t i o n 1 1 1 i sc a l li 啦) r 0 v e 廿1 e i i i 丝璺坐盟 一 一一 a c 叫a c y 姐d 删s i o no f m e 硎洲s y s t 锄,a t m es a l i l et i m e ,t o 删n l eu p d a t i o n o f 岫s y s t 锄,w ee x p a l l dm eu p d a t i n gs 0 1 u 矗o n so f h 耐嗽讹c h d 积d ew h e m e rm e p a g en e e d s t 0b eu p d a t e dt 1 1 r o u 曲 a l l a l ) ,z i n g t 1 1 e f o l l o w i n ga s p e c t s : p a g e s t m c t u r e ,c o n t e n ta i l di m a g e a tm es 锄et i m e 1 1 l i sm e s i sd e s c 曲e s 廿l eo v e r a l ld e s i 驴o fm ei m a g es e a r c he i l 百n e 缸s t l y 锄d d e s 幽e s 也cd a t ad o w n l o a dm o d u l e 、 p r 印r o c e s s i n gm o d u l e 、 i m a g ec l a s s l n c a t l o n m o d u l ea n di m a g er e t r i e v a lm o d l i l er e s p e 以v e l y 也ec o m m o ns p i d e ra n dp r e c l s es p l d e r f o rd a t ad o w l l l o a d0 fd i 腧伽p a g e sa r ec o m p l e n l 耐e do n t l l eb a s i s0 fa 1 1 2 l l y z m g 廿l e 1 w h 0 1 es 仃u c t 眦e ,舢_ l i l i n gp r o c e s s e s 锄di m p o r t a n t 唧o n 既l t so fs p i d e r t 0s a t i s 助n g t l l es v s t 锄n e e d ,m e 向n c t i o no fp a g ep a r s i l l 舀伽n e s ew o r ds e 班c n t a t i o n a 1 1 dt h e s t a l l d a r d i z a t i o no f 也e 硫a g ea r ea m e v e d w h e np r o c e s s i n gt h ed a t a a n da 1 1 a l y z e dt n e u p d a t i n gs 仃a t e g yo fs p i d e r ,p r o p o s e dm o r ee 硒e c t i v eu p d a = t i n gs t r a t e g ym t h et h e s l s , w h i c hc a i li m p r o v et l l eu p d a t i l l gr a t eo fm es y s t 锄e 虢c t i v e l y a n ds o r t e dt 1 1 eq u e u e o 士 s p i d e r sb yh a s ho p 耐i o n s ,o p t i n o j z em ep e r f 0 1 m a i l c eo fs p i d e r s f i i l a l l y ,t h ep e r f o n n a n c e o fs d i d e r 姐dm ew 1 1 0 1 es y s t e i i la r et e s t e da l l da n a l y z e d k e y w o r d :i m a g es e a r c h ,s p i d 盯,h t m lp a r s e r ,i n c r e i y l e n t a l l 目录 目录 第一章绪论1 1 1 研究背景和意义1 1 2 搜索引擎的历史及发展状况2 1 2 1 搜索引擎的分类3 1 2 2 搜索引擎的发展趋势4 1 3 图像搜索引擎的历史及发展状况5 1 4 网络爬虫的历史及发展状况6 1 5 本论文研究的主要内容7 1 6 本章小结8 第二章相关技术介绍9 2 1 图像搜索引擎9 2 2 基于内容的图像检索1 3 2 2 1 基于颜色特征的提取技术1 4 2 2 2 基于纹理特征的提取技术15 2 2 3 基于形状特征的提取技术1 5 2 3 网络爬虫1 5 2 3 1 网络爬虫的工作原理1 5 2 3 2 网络爬虫的策略1 7 2 3 3 避免网页重复的策略1 9 2 3 4 网络爬虫的礼貌访问一1 9 2 4 中文分词技术2 0 2 4 1 机械分词方法- 一2 0 2 4 2 理解分词方法2 1 2 5 页面解析2 2 2 6 图像搜索引擎的性能评价标准2 2 2 7 本章小结一2 4 第三章系统整体设计。2 5 v 目录 3 1 系统结构设计2 5 3 2 数据下载模块2 6 3 3 预处理模块。2 7 3 4 图像分类模块2 8 3 5 图像检索模块2 9 3 6 索引处理2 9 3 7 本章小结3 0 第四章关键算法和系统实现3 1 4 1s p i d e f 系统31 4 1 1 爬虫初始化3 2 4 1 2 线程池3 3 4 1 3 链接生成器一3 3 4 1 4 处理器链3 6 4 2 普通网站数据处理3 7 4 2 1 网页数据获取3 7 4 2 2 网页标记分析3 8 4 2 3 网页解析实现4 1 4 3 图像网站数据处理4 4 4 3 1 过滤器分析4 4 4 3 2 过滤器实现4 5 4 3 3 图像及其相关文字处理4 6 4 4 中文分词4 8 4 5 图像标准化5 1 4 6 爬虫更新策略5l 4 6 1 网页结构5 3 4 6 2 网页内容5 4 4 6 3 网页图像5 6 4 6 4 算法分析5 7 4 7 爬虫优化策略5 8 4 8 本章小结6 0 第五章系统测试6 1 5 1 测试环境6 l 目录 5 2 爬虫和页面解析测试与分析 5 3 系统测试与分析 5 4 本章小结 第六章结束语 6 1 总结 6 2 展望 6 3 本章小结 参考文献 致谢 i 第一章绪论 1 1 研究背景和意义 第一章绪论 伴随着i n t e n l e t 的高速发展,多媒体资源的扩展,存储技术的提高,人们很快 由信息匮乏变成置身于信息的海洋中。由于网络上的内容不断丰富,整个网络逐 渐堆积成了一个前所未有的超大型信息库。随着i n t e m e t 上的信息每年以翻几番的 速度迅速增加,i n t e m e t 作为一个信息平台在人们的日常生活和工作中发挥着越来 越重要的作用。据2 0 1 0 年的中国互联网络发展状况统计报告【l j 显示,截止到 2 0 0 9 年1 2 月3 0 日,中国网民规模达到了3 8 4 亿人,网站数量达到了3 2 3 万个, 网页则达到了3 3 6 亿个。这种信息不断地膨胀,使得人们对于获取信息,管理信 息变得无所适从。而这些信息资源中不仅有简单的文本数据,更多的是图像等多 媒体信息。图像资源作为一种内容丰富、表现直观的信息资源,一直受到人们的 青睐。随着越来越多的需求的出现,如何快速有效的检索图像信息成为迫切需要 解决的问题。搜索引擎技术正是随着这种需求而发展起来的,随之发展起来的图 像搜索引擎正是为解决这个问题而出现的。 我们知道图像搜索引擎【2 】是以一定的策略在互联网中搜集、发现图像信息,对 图像信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到图像 信息导航的目的。图像搜索引擎提供的导航服务己经成为互联网上非常重要的网 络服务。如何提供快速准确的图像搜索仍是各大主要搜索引擎追求的目标。 现有的w 曲图像搜索引擎包括基于内容的和基于文本的两类。基于内容的 w 曲图像搜索引擎主要根据图像内容( 如颜色、纹理等) 为图像建立索引,而基于文 本的w 曲图像搜索引擎则主要根据页面间的超链接等文本信息来标注图像。然而, 目前这些方案的效果均不够理想,很难精准地检索图像信息。 同时,在国内的图像搜索引擎系统中,都是采用输入关键词然后给出搜索结 果。这在某些程度上能解决我们的使用需求。但是当我们在无法确定图片的关键 词或者希望匹配现有的图片时,就存在局限性。比如淘宝网站所支持的就是图像 搜索引擎,它主要通过商家在提交图像的同时,提交关键词来对图像进行关键词 标注和索引。在搜索商品时,是根据用户提交的关键词来匹配数据库中的关键词。 当我们希望搜索衣服图案为中国心的t 恤,那么可以输入关键词“t 恤 ,这样返 电子科技大学硕士学位论文 回的是各种各样的t 恤,就很难定位到所期望的商品。或者可以选择关键词“中 国心t 恤”,这样搜索引擎返回的结果大部分是符合要求的,但是可能会返回商标 为“中国心 的t 恤,并且大量没有被标注中国心关键词的商品也会被自动筛选 掉。 因此,针对上面所提出的问题,我们项目组提出了基于谱图理论的w 曲图像 搜索引擎技术的解决方案。该技术结合了基于内容的图像搜索引擎和基于文本的 图像搜索引擎的特点,是一种更有效的新型w 曲图像信息分析方法。同时系统支 持用户输入现有图像,然后通过分析图像的颜色直方图在数据库中进行匹配来返 回结果。 图像搜索引擎通常包括爬虫系统、索引系统和检索系统。爬虫系统s p i d e r 抓 取的内容是整个系统的基础,让搜索引擎有了丰富的资源库。因此,爬虫系统的 性能关系到整个搜索引擎索引和能查询信息的数量和质量,关系到整个系统的性 能。同时由于w 曲上的图像与数据库中的图像不同,它是以一定语言环境存在的。 在网页中不仅包括文档信息还包括了广告等噪声信息。如何剔除噪声信息从中提 取出对图像描述有用的文字信息成为一个极需要解决的问题。提取的相关文本信 息一方面在图像入库时作为分类的标准之一;另一方面作为关键词,是用户检索 时相似度考量的标准之一。因此要提高整个系统检索的准确度和精确度,一方面 我们要构建高效的爬虫系统,另一方面构建精确度比较高的页面解析和分词系统。 1 2 搜索引擎的历史及发展状况 1 9 9 0 年【2 1 ,为了便于人们在分散的f 四资源中找到所需的东西,加拿大麦吉 尔大学计算机学院的师生开发了一个软件心c 1 1 i e 。它是通过定期搜集并分析f t p 系统中存在的文件名信息,提供查找分布在各个f t p 主机中文件的服务。虽然它 还不是真正的搜索引擎,但是是第一个自动索引互联网上f 1 p 网站文件的程序。 1 9 9 3 年m a t n l e wg 瑚眵开发了w b d dw i d ew 曲w a n d e r e r ,它是世界上第一个利 用h t m l 网页之间的链接关系来检测w 曲发展规模的机器人( 玎0 b o t ) 程序。1 9 9 4 年7 月,m i c h a e lm a u l d i n 将j o l l i ll e 撕t t 的r o b o t 程序接入到起索引程序中,创建 了l y c o s ,成为第一个现代意义的搜索引擎。 搜索引擎出现虽然只有十几年的历史,但是在w 曲上已经有了确定不移的地 位。现在的搜索引擎功能越来越强大,提供的服务越来越全面,当前的搜索引擎 主要有以下特点。 2 第一章绪论 ( 1 ) 目录型和检索性的搜索引擎相互结合。由于目录型和检索性的搜索引擎有 各自的优点和缺点,目前它们谁也无法完全取代谁,于是很多搜索站点都同时提 供这两种类型的服务。 ( 2 ) 多样化和个性化的服务。现在绝大多数搜索引擎都提供多样化服务,以吸 引更多的用户,商业搜索引擎尤其注重这一点。它们通常允许用户为自己定制起 始页面,并选择感兴趣的内容和经常使用的服务。 ( 3 ) 强大的查询功能。与最早的搜索引擎相比,现在的搜索引擎在查询功能方 面已有了很大的改进。除了简单的舢旧,o r 和n o t 逻辑外,不少搜索引擎还支持 相似查询和联想查询。域搜索也是一项很实用的功能,它允许用户把查询范围限 制在网页的某个域中,例如标题、u r l 、图像标记或链接等。 然而,虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式 等方面的提高空间依然很大。主要表现在以下几个方面: ( 1 ) 搜索引擎对自然语言提问没有理解能力。 ( 2 ) 搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。 ( 3 ) 搜索引擎无法与电子商务紧密结合。 ( 4 ) 搜索引擎对多媒体内容的处理尚不成熟 1 2 1 搜索引擎的分类 互联网上信息量在不断增加,信息的种类也在不断增加。同时上网的人数在 不断增加,网民的成分也在发生变化。各种主题搜索引擎、个性化搜索引擎等纷 纷兴起。根据各种搜索引擎采用的主要技术不同可以分为以下四类。 ( 1 ) 目录式搜索引擎 目录式搜索引擎通过人工读取文档,以某种分类形式,如按学科,按字母顺 序,按时间先后或者以上方法的组合,组织网络信息资源。其特点是结构清晰, 便于人们浏览,其不足之处在予需要大量人力来搜集、组织信息,需要人工维护, 且包含的内容部全,分类方式没有统一标准。 ( 2 ) 基于网络爬虫的搜索引擎 基于网络爬虫的搜索引擎又称索引式搜索引擎,是一种最常见的搜索引擎。 它包括网络爬虫、索引数据库和查询接口三部分。而网络搜索策略和数据检索方 法是影响基于网络爬虫的搜索引擎好坏的两个最重要的因素。 ( 3 ) 元搜索引擎 3 电子科技大学硕士学位论文 元搜索引擎的基本思想是,当搜索引擎收到来自不同用户的查询要求后,同 时查询其他多个搜索引擎。目前网上不同的搜索引擎所覆盖的信息资源是不同的, 用户想要得到比较全面的信息就需要多次查询不同的搜索引擎。而是用元搜索引 擎就可以解决这个问题,用户只需要搜索一次就能得到比较完整的信息。 ( 4 ) 分布式搜索引擎 分布式搜索引擎根据地域、主题或其他的划分标准建立分布的检索服务器, 检索服务器相互之间可以交换中间信息,且查询可以被重新定向,即如果一个检 索服务器没有满足查询请求的信息,它可以将查询请求发送到具有相应信息的检 索服务器上继续查询。 1 2 2 搜索引擎的发展趋势 搜索引擎要用到多领域的技术和理论:信息检索、人工智能、数据库、自然 语言处理等多领域的理论和技术,具有很大的挑战性。目前,搜索引擎领域的非 常活跃,发展迅速。目前的发展趋势有以下几点: 智能化发展:为了提高检索的精度和效率,越来越多的搜索引擎不断的改善 自身检索服务的智能化程度。智能化搜索引擎是通过自然语言与用户交互,能比 较充分地理解用户的查询意图,提供一个准确度高的查询结果。但自然语言与搜 索引擎的结合还不是很充分,由于技术上面的问题,存在着融合的难点。因此, 智能搜索引擎成为今后搜索引擎发展的趋势和难点。 个性化、特色化发展:不同用户对搜索的需求是不同的,因此个性化、特色 化发展成为搜索引擎的一个重要发展趋势。个性化的搜索引擎可以跟踪分析用户 的行为,利用这些信息来更好地理解用户的需求。个性化的同时还提供了特色的 服务和功能,用户使用搜索引擎肯定有不同领域的查询需求,这就需要搜索引擎 具有提供制定个性和特色服务的功能。 多媒体化发展:随着多媒体的发展,网络上的视频、音频等信息高速增长。 因此多媒体搜索引擎的发展迫在眉睫。搜索引擎在向用户提供多媒体检索,可以 是检索结果形象化,生动化,更好地符合用户需求。 商业化发展:随着互联网上信息和电子商务的发展,使用搜索引擎的用户不 断增加,让电子信息的增值服务成为各大商业搜索引擎商业扩展的一部分。由于 搜索引擎的商业化,专业的工作人员也会考虑如何更好地符合用户的需求。搜索 引擎也逐渐走向专业化。 4 第一章绪论 可视化发展:可视化信息检索时利用各类检索模型模拟用户的提问过程,把 用户的提问和文献信息模拟成一个可视化空间中,用户能方便进行选择来得到信 息检索结果。 采用分布式体系结构提高系统规模和性能:由于数据信息的庞大,大型搜索 引擎不再采用集中式体系结构,而采用分布式体系结构。这种构造方式使得搜索 器、索引器和检索器都可以在机器群上运行,能提高系统的整体性能和检索的速 度。 1 3 图像搜索引擎的历史及发展状况 在2 0 世纪7 0 年代【3 】,随着数据库技术的发展产生了基于文本的图像检索技术 ( t e x t - b a s e dh i l a g er e t r i e v a l ,简称t b m ) ,当时的检索系统使用人工对图片的内 容进行文字信息标引,利用d b m s 存储文字信息,并利用文本检索技术提供查询。 虽然基于文本关键字的图像检索简单方便,但是当图像库的规模急剧增大以后, 人工标引需要耗费大量的人力,造成整个系统的效率低下。 2 0 世纪9 0 年代初期,随着大规模数据库的出现,这些问题越来越尖锐突出。 在这段时间里,人工智能、自然语言理解、数据库技术、计算机视觉、模式识别 等技术有了不同程度的发展。由此,基于内容的图像检索( c o n t 胁t - b a s e dh i l a g e r e t r i e v a l ,简称c b r ) 技术发展起来。该技术不需要通过文字标注,而是根据图 像本身的可视化内容来进行索引,例如颜色、纹理、形状等。 图像检索技术中,基于文本的检索无疑是效率最高的一种。目前很多的图像 搜索引擎全部或部分运用了基于文本的检索机制。w 曲上h t m l 文档的大量出现 使得图像的文字属性可以通过分析h t m l 文档得到。但是汉语的复杂性使得一个 词语有着多种含义的情况大有存在,造成基于关键字匹配的图像搜索技术有以下 局限性:第一,它不能区分同形异义。第二,不具备自动联想功能。当用户检索 时,关键字的同义词可能也是所想找的内容,而该技术直接忽略掉了这一部分图 像信息。 基于内容的图像检索技术是根据图像的颜色、形状、纹理等低层的视觉特征 自动标注图像。基于内容的图像检索技术是从媒体内容中提取信息线索,从而突 破了传统的基于文本图像检索的局限。利用图像的内容特征建立索引进行检索, 可以提高检索的准确度。这是一种近似匹配的技术,能比较好地关联起相关图像 信息。基于图像的检索技术是以相关反馈为有效手段。当用户查询时提供一幅图 5 电子科技大学硕士学位论文 像,其脑海中已经有了相似性判别的标准。理论上说,系统的相似性度量应该与 用户的判别一致,它涉及人类视觉系统对图像的认知和高层语义的解释。因此通 过用户的相关反馈,检索系统学习用户的意图和准则来指导图像检索过程,有效 提高图像检索的效率。 但也存在以下缺陷:( 1 ) 检索的结果好坏依赖于对查询要求( 颜色、形状、纹 理) 描述的精确度;( 2 ) 由于自然语言理解技术的局限性,图像本身的颜色、形状、 纹理等特征与人类对图像的描述存在较大的差异,不能直接反映出图像的主题及 其属性等高层语义信息。但是由于该技术具有巨大的优势,人们仍希望可以将这 种方法与网络结合,借以提高w e b 图像的检索效率。如果我们在语义层次上实现 对图像的自动标注,减小图像简单视觉特征和用户检索丰富语义之间的差距,就 可以解决上述问题。那么在这种情况下,我们需要研究如何提取图像的语义信息。 这种技术是试图建立一种高层次的语义到低层次的可视特征之间的对应关系,实 际上是将可视特征识别为语义概念。这种技术类似于人类识别事物的方式。比如 用户输入一幅图像,系统对该图像进行特征提取,然后从数据库找出能与该图像 匹配的图像。关于可视特征的识别需要深入的理解人类的视觉机制,这方面的进 展还不是很大。 因此,我们可以分析w 曲上大量的h t m l 文档和超文本链接信息得到图像的 文字信息。我们通过采用图像的文本信息作为基于内容的图像分类基础,可以提 高分类的精度,采用图像的语义信息对用户的查询进行匹配。无疑可以结合基于 文本的图像搜索与基于内容的图像搜索的优点,得到比较好的检索效率。 图像搜索引擎通常包括爬虫系统、索引系统和检索系统。爬虫系统s p i d e r 抓 取的内容是整个系统的基础,让搜索引擎有了丰富的资源库。因此,爬虫系统的 性能关系到整个搜索引擎索引和能查询信息的数量和质量,关系到整个系统的性 能。 1 4 网络爬虫的历史及发展状况 1 9 9 3 年h 1 m a 恤e w 研a y 开发了w o 订dw i d ew 曲w 抽d e r e r ,它是世界上第一个 利用h 刑l 网页之间的链接关系来检测w 曲发展规模的“机器人“( d 0 b o t ) 程序。 刚开始它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站 域名。 现代搜索引擎的思路源于w 如d e 掰,不少人在m 龇e wg r a y 工作的基础上对 6 第一章绪论 它的爬虫程序做了改进,1 9 9 4 年7 月,m i c h a e lm a u l d i n 将j o h nl e a v i t t 的蜘蛛程序 接入到其索引程序中,开发了l y c o s ,这是第一个现代意义的搜索引擎。 在那之后,网络爬虫有了快速的发展,各种不同功能的网络爬虫开始出现。 下面介绍几种用j a v a 编写的网络爬虫。 m e r c a t o r 是基于分布式的,采用j a v a 语言编写的网络爬虫。它是由一组爬虫 进程组成的。系统运行时u r l 库被送进主机s p l i t t c r 里面,主机s p l i 钍e r 通过主机 名给不同的爬虫进程分配l 刀也,直到大多数的超链接被关联。大部分的u r l 被分 配给本地爬虫进程,其他的通过t c p 传送给其他的爬虫。爬虫主要有两个模块: 一个是协议模块:它负责获取网页的方式,比如采用h 卸协议;一个是处理模块: 它负责处理页面的方式。 w 曲r a c e 也是一个采用i a v a 语言编写的,并且包括检索模块和缓存模块的爬 虫,该爬虫从管理员得到下载页面的请求,运行的时候就像一个聪明的代理服务 器,会监视网页订阅的请求,当网页改变时,会通知订阅者并且重新下载页面。 w 曲r a c e 最大的特点是,当大多数的爬虫都从一组u r l 开始的时候,w 曲r a c e 可以连续地的接收抓取开始的u i 也地址。 h e r i t r i x 是一个互联网档案馆级的爬虫,是通过单个爬虫在多个独立的站点一 直不断地进行递归的爬取。设计的目标为对大型网络的大部分内容的定期存档快 照,建立网络数字图书馆。它是开源的,可扩展的爬虫。用户可以自己设计和扩 展组件。 当然还有很多其他网络爬虫,比如g o o 西ec r a w l e r 、p o l y b o t 、j s p i d e r 等,这里 就不一一介绍了。 1 5 本论文研究的主要内容 本论文针对图像搜索引擎的特点,分析了h 酣r i x 爬虫的关键技术并修改扩展 该爬虫以达到系统要求。具体工作有: ( 1 ) 在设计时充分考虑图像搜索引擎的特点,将基于文本的图像搜索引擎和基 于内容的图像搜索引擎结合起来,成功实现了基于谱图的图像搜索引擎。 ( 2 ) 详细介绍了数据下载模块、预处理模块、图像分类模块、图像检索模块。 ( 3 ) 在分析s p i d e r 系统的总体架构、运行流程和重要组件的基础上,实现了两 种不同的爬虫,分别针对不同的网站进行数据下载。对于普通的网站,我们优先 考虑信息的全面性,采用了普通爬虫模块进行下载。在普通爬虫模块中我们对数 7 电子科技大学硕士学位论文 据进行了简单过滤,主要针对下载到本地磁盘的数据进行解析以提取有用信息。 对于图像网站,我们在牺牲一定全面性的情况下,采用了精确爬虫模块进行下载。 在精确爬虫中,我们根据u i 也的特点将数据过滤功能和页面解析功能集成到 h e 崩x 中,实现了可扩展性高的数据过滤和解析功能。 ( 4 ) 根据图像检索引擎的特点,设计中文分词模块,对图像相关文字信息进行 分词。 ( 5 ) 设计并实现了图片的标准化。从网络上下载的图片信息的大小是不一致 的,而由于本系统中入库和查询的要求,需要对图片的大小进行调整。 ( 6 ) 对爬虫的更新策略进行分析,提出从网页结构、网页内容和网页图像三方 面来检测分析网页是否重复,提高了整个系统网页的更新度。 ( 7 ) 对爬虫的队列进行哈希运算排序,优化爬虫性能。 1 6 本章小结 本章首先介绍了本课题的背景和意义,随后介绍了搜索引擎的分类及发展趋 势,由此引出图像搜索引擎的发展历史及现状,并指出爬虫系统在图像搜索引擎 中的重要作用,然后介绍了网络爬虫的历史及发展状况,最后介绍了本论文的主 要内容和解决的问题。 8 第二章相关技术介绍 2 1 图像搜索引擎 第二章相关技术介绍 图像搜索引擎的工作原理与传统的搜索引擎工作原理大致相同。都是先通过 爬虫抓取网页上的信息,然后由索引器对信息建立索引,最后是查询系统提供查 询功能。而图像搜索引擎所不同的是抓取、建立索引和查询的主体都是图像信息。 如图2 1 所示。 用户行为日志数据厍 图2 1 图像搜索引擎架构 ( 1 ) 爬虫系统 这一部分是采用能自动从互联网上收集网页信息的s p i d c r 系统程序,自动访 问互联网,按照爬虫设定的策略,对互联网上的信息进行有选择或者无选择的爬 取。爬虫在工作过程中会自动分析每个网页的链接,并继续沿着分析得到的链接 爬取,最后收集所有爬取的网页。 9 电子科技大学硕士学位论文 爬虫系统常常是不停运行的计算机程序。它要尽可能多、尽可能快地抓取各 种类型的新信息,同时因为i n t e n l e t 上的信息更新很快,所以还要定期更新已经搜 集过的旧信息,以避免无效链接。目前主要有两种搜集信息的策略:一种是从一 个起始u i u 集合开始,顺着这些u r l 中的超链( h ) ,p 耐i 1 1 1 【) 。链接有多种类型, 但最常用的是l l r e f ( h y p 酣e x tr e f e r c e ,超文本链接) 链接,1 1 r e f 链接分为内部链 接、外部链接、独立链接【5 1 。爬虫是以宽度优先、深度优先或启发式方式循环地在 i m e m c t 上发现搜集信息。这些起始u r l 可以是任意的u 也,但常常设定为一些 当前主流的、包含很多链接的站点。还有一种方式是将w 曲空间按照域名、p 地 址或国家域名划分,每个爬虫系统负责搜集一个子空间信息。 爬虫系统搜集的信息类型多种多样,包括h l 文本、l 文本、正文文本、 f t p 文件、字处理文档( 如w | o r d 、e x c c l 、p p t ) 、多媒体信息( 如地图、图形、图 象、声音) 等。爬虫系统的实现常常用分布处理和并行计算技术,以提高信息发 现和更新的速度。商业搜索引擎的信息发现速度可以达到每天几百万网页。 ( 2 ) 索引系统 索引系统的功能是理解爬虫系统所收集的信息,提取相关重要信息,比如图 片、关键词、关键词位置等,并根据相关度算法进行计算得到每个网页相对该网 页中关键词的相关度,然后建立索引数据库。当信息检索系统所要处理的资源数 量巨大时,建立索引能够显著提高信息检索的速度。但是索引系统不支持快速的 信息更改。因为这涉及到数据内容的更改,需要对整个数据结构中的关系链进行 维护。但大多数信息检索系统中的资源数据都相对稳定,小的变更与整个系统的 数据量相比,可以忽略不计。 索引项【6 】( t e n l l ) 有客观索引项( o b j e c t i v e t e 肌s ) 和内容索引项( c o i l t e n tt e :

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论