(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf_第1页
(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf_第2页
(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf_第3页
(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf_第4页
(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信号与信息处理专业论文)基于web的垂直搜索引擎的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 现代网络的飞速发展,网上的信息量在以惊人的速度飞快的增长,人们对 搜索引擎的要求不断地提高,为了找到一种更满足人们需求的搜索引擎,垂直 搜索引擎就在发展中产生了。垂直搜索引擎服务于特定行业、特定人群,具体 问题具体分析,解决了通用搜索引擎的一些不足之处,比以往的通用搜索引擎 更占有优势。随着信息产业化的发展,面向专业方向的搜索需求也越来越多, 现在,实现某个专门方向的垂直搜索引擎系统成为搜索引擎的的热点问题之一。 本文在深入研究垂直搜索引擎的关键技术的基础上,分析并设计专业网络 蜘蛛、索引、检索的流程,采用了专业网络蜘蛛的搜索策略,实现了信息的采 集、索引和查询,构建了垂直搜索引擎系统。本文主要研究内容如下: ( 1 ) 专业网络蜘蛛:在分析专业网络蜘蛛的相关技术上,设计了专业网络 蜘蛛的搜索策略和流程,研究了基于网页内容和链接结构的两种搜索策略,并 采用了将两种搜索策略结合的搜索策略,对系统的核心部分网络蜘蛛进行设计 与实现。 ( 2 ) 索引和中文分词:本文对索引和中文分词的算法进行了研究与设计, 采用最大化分词策略的中文分词算法,并对分词后的信息建立索引,采用倒排 索引形式将索引数据组织存放到数据库,实现信息数据的索引。 ( 3 ) 信息检索技术:本文对检索的框架结构进行了研究,采用相似度匹配 的算法对查询出的网页信息进行排序,用户通过检索接口查询关键字,将排序 后的结果通过接口输出,并显示给用户。 ( 4 ) 系统设计与实现:通过对搜索引擎关键技术的探讨与研究,对垂直搜 索引擎各个模块进行了分析与设计,设计了专门的信息采集模块,索引模块, 信息查询模块,实现了一个垂直搜索引擎系统。本文所设计的系统为具有专业 化、个性化的特点,并满足用户信息检索要求。 最后,对垂直搜索引擎的相关技术的实现进行总结,对技术不够成熟的地 方和有待进一步优化的地方进行了展望,提出了以后的大致的研究方向和目标, 一步一步的完善系统,使得垂直搜索的服务水平更加专业化。 关键词:搜索引擎,专业网络蜘蛛,中文分词,索引 武汉理工大学硕士学位论文 a b s t r a c t m o d e mn e t w o r kr a p i dd e v e l o p m e n t , t h ea m o u n to fi n f o r m a t i o no nt h ew e ba ta n a l a r m i n gr a t eo fr a p i dg r o w t h , t h es e a r c he n g i n er e q u i r e m e n t sc o n t i n u et oi m p r o v e ,i n o r d e rt of i n dam o r ep e o p l et om e e tt h en e e d so ft h es e a r c he n g i n e ,t h ev e r t i c a ls e a r c h e n g i n ei nd e v e l o p m e n tp r o d u c e s v e r t i c a ls e a r c he n g i n es e r v i c e st oas p e c i f i ci n d u s t r y , s p e c i f i cp o p u l a t i o n s ,s o l v es e a r c he n g i n es o m ed e f i c i e n c i e s ,t h a nt h ep r e v i o u sg e n e r a l s e a r c he n g i n ea d v a n t a g e w i t ht h ed e v e l o p m e n to fi n f o r m a t i o ni n d u s t r i a l i z a t i o n , t h e s e a r c hd e m a n do fo r i e n t e dt ot h ep r o f e s s i o n a ld i r e c t i o ni sa l s og r o w i n g , n o w ,i th a s b e c o m eo n eo ft h eh o ti s s u e so fs e a r c he n g i n et oa c h i e v eas p e c i f i co r i e n t a t i o no ft h e v e r t i c a ls e a r c he n g i n es y s t e m t h i s p a p e ra n a l y s i s a n d d e s i g n t h e p r o c e s s o f p r o f e s s i o n a l w e b s p i d e r ,i n d e x i n ga n dr e t r i e v a l ,o nt h eb a s i so fs t u d y i n gt h ev e r t i c a ls e a r c he n g i n ek e y t e c h n o l o g y , u s i n gt h ep r o f e s s i o n a ln e t w o r ks p i d e rs e a r c hs t r a t e g y , t oa c h i e v et h e i n f o r m a t i o nc o l l e c t i o n , i n d e x i n ga n dq u e r y , t oc o n s t r u c t s t h ev e r t i c a ls e a r c he n g i n e s y s t e m i nt h i sp a p e r , t h em a i nr e s e a r c hc o n t e n t sa r ea sf o l l o w s : ( 1 ) p r o f e s s i o n a ln e t w o r ks p i d e r :t h ep a p e ra n a l y s i sp r o f e s s i o n a ln e t w o r ks p i d e r t e c h n o l o g y , d e s i g np r o f e s s i o n a lw e bs p i d e rs e a r c hs t r a t e g ya n dp r o c e s s ,s t u d i e st w o k i n d so fs e a r c hs t r a t e g yw h i c ha l et w os e a r c hs t r a t e g i 髂o fb a s e d0 1 1t h es t u d yo f w e b p a g ec o n t e n ta n dt h el i n ks t r u c t u r e ,a n du s i n gt h e t h es e a r c hs t r a t e g yt o g e t h e r w i t ht w os e a r c hs t r a t e g i e s ,d e s i g na n d i m p l e m e n tt h en e t w o r ks p i d e rw h i c hi st h eg o r e p a r to ft h es y s t e m ( 2 ) t h ei n d e xa n dt h ec h i n e s ew o r ds e g m e n t a t i o n :t h ei n d e xa n dc h i n e s ew o r d s e g m e n t a t i o na l g o r i t h mi sa n a l y z e da n dd e s i g n e di nt h ep a p e r ,u s i n gm a x i m i z a t i o n s e g m e n t a t i o ns t r a t e g yb a s e dc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h m ,a n da f t e rw o r d s e g m e n t a t i o ni n f o r m a t i o ni n d e x i n g , t h ei n v e r t e di n d e xt oa ni n d e xd a t as t o r e dt ot h e d a t a b a s e ,r e a l i z ei n d e x ( 3 ) i n f o r m a t i o nr e t r i e v a l :t h er e t r i e v a lf r a m e w o r ks t r u c t u r ew a ss t u d i e d s i m i l a r i t ym a t c h i n ga l g o r i t h m0 1 1t h ew e b p a g ei n f o r m a t i o ni su s e dt ob es o r t e d ,t h e u s e rt h r o u g ht h er e t r i e v a li n t e r f a c et oq u e r y ,t h er e s u l ta r es o r t e da n do u t p u t , a r e i l 武汉理工大学硕士学位论文 d i s p l a y e dt ot h eu s 0 1 ( 4 ) t h es y s t e md e s i g na n dr e a l i z a t i o n :t h r o u g ho fd i s c u s s i o na n dr e s e a r c h0 1 1 v e r t i c a ls e a r c he n g i n es e a r c he n g i n ek e yt e c h n o l o g y ,e a c hm o d u l ei sa n a l y z e da n d d e s i g n e d ,d e s i g nt h es p e c i a l i z e di n f o r m a t i o na c q u i s i t i o nm o d u l e ,i n d e xm o d u l e ,t h e i n f o r m a t i o nq u e r ym o d u l e ,t oa c h i e v eav e r t i c a ls e a r c he n g i n es y s t e m t h ep a p e r d e s i g n st h es y s t 锄a sap r o f e s s i o n a l ,p e r s o n a l i z e df e a t u r e s ,t om e e tt h er e q u i r e m e n t s o fu s e r sa n di n f o r m a t i o nr e t r i e v a l f i n a l l y ,t h ev e r t i c a ls e a r c he n g i n er e l a t e dt e c h n o l o g i e sw e r es u m m a r i z e d ,i ti s d i s c u s s e dt h a tt h et e c h n o l o g yi sn o tm a t u r ee n o u g hp l a c ea n dn e e d st ob ef u _ r t h e r o p t i m i z e dp l a c e ,p u tf o r w a r dt h ef o l l o w i n gr o u g h l yt h es t u d yd i r e c t i o na n dt a r g e t , t o p e r f e c ts y s t e ms t e pb ys t e p ,t om a k et h ev e r t i c a ls e a r c hs e r v i c e sm o r ep r o f e s s i o n a l k e y w o r d s :s e a r c he n g i n e ,p r o f e s s i o n a lw e bs p i d e r , c h m e s e w o r ds e g m e n t a t i o n , i n d e x i l l 武汉理工大学硕士学位论文 1 1 研究的背景和意义 1 1 1 研究的背景 第1 章绪论 随着互联网的迅速发展,网络信息以飞快的的速度增长,w e b 网页( 互联网) 上的信息种类繁多,加之,人们对互联网的依赖,w e b 已经成为人们获取信息的 重要载体。人们的工作和生活离不开互联网,w e b 资源覆盖了人们生产、生活、 休闲娱乐的方方面面,如门户网站、网上银行、电子商务、网络游戏、上网冲 浪等。由于信息多而杂,同时还有网络化、电子化的特点,用户获取有价值的 信息和数据已经不再是一件容易的事,相反越来越困难。 最初的全文搜索的系统是美国华盛顿大学开发的w e b c r a w l e r 1 1 。第一代搜索 引擎是以早期y a h o o 、a l t a 、v i s t a 和i n f o s e e k 为代表。第二代搜索引擎是d a g o o g l e 为代表,是一种基于关键词索引和一种特殊算法为基础的搜索网站。随着用户 的应用的增多,第二代搜索引擎也有很多的局限性。除了相当有限的提问函数 外,也对自然语言和历史信息搜索不支持。 现在,因特网上大家熟知的比较著名的国外的搜索引擎系统有g o o g l e , y a h o o ,a l t a v i s t a 等【2 】,同时,国内也出现了较有影响力的中文搜索引擎,如百 度、中国搜索等,这些都是通用搜索引掣3 1 。 随着网络技术的不断发展以及个人或企业不同行业不同方向的需求,通用 搜索引擎已不能满足用户的需求【4 1 。它面向整个w e b 进行搜索,但搜索引擎的 最大存储量不到网页的4 0 。它采用同样的信息采集域来解决所有的需求,并 不能十分精确的满足所有用户的各种不同行业的检索请求,并没有专业性和针 对性,使得很多结果是没有用的。 找到一种更精确、更快速、更有效地获取信息和提供便捷的检索服务的方 法也一度成为信息技术的研究热点。随着信息技术,特别是w 曲技术的迅速发展, 信息越来越细化和专业化,了解具体的领域的详细情况也要解决,但通用搜索 引擎做不到对各个领域的信息都那么全面和专业,这种情况下,垂直搜索引擎 就产生了【6 】。 武汉理工大学硕士学位论文 1 1 2 研究的意义 垂直搜索引擎也叫做专业搜索引擎,针对特定专业或主题信息进行搜索, 信息详细和精确,因为主题性比较明确,也可以说是主题搜索引擎【7 8 】。因为垂 直搜索引擎与通用搜索引擎不同,搜索的范围比较集中,只搜集只检索互联网 上特定领域的信息,所以它的更新周期更短一些、时效性更高一些、查询结果 更精确一些等i lo 】。 通用搜索引擎的信息量一般都比较多而且还有冗余信息、查询一般不怎么 不精准、查询的深度也不够【1 1 】。而垂直搜索引擎就有专、精、深的特点,可以 对具体问题具体处理,更深入地搜索信息。因为擦搜索引擎只是一个专业或是 领域的搜索,所以它有一些通用搜索引擎不能够比拟优点,如收集网页的周期 更短一些,并且对网页更新的速度更加得快,噪音也比较少等【1 2 3 。 垂直搜索引擎利用基于专业领域的爬虫,下载主题相关的网页,保存到本 地网页库中,然后抽取出网页中的所需信息,进行一些处理,再将结果以列表 的形式返回给用户。垂直搜索引擎将网页中非结构化数据转化成指定的结构化 数据,再进行加工,最后满足用户搜索的需求。垂直搜索引擎的最小单位为结 构化数据,而通用搜索引擎的最小单位为网页。 本课题是基于垂直搜索引擎关键技术的研究与实现,目的是对垂直搜索在 某个行业的搜索方面的技术研究,实现搜索功能。同时,通过建立一个专业网 络爬虫,对信息搜集下载,并按照特定信息格式统一展现给用户,使得用户能 够方便地搜寻到最精确的信息。 虽然像谷歌、百度这样的通用搜索引擎现在在搜索领域做得不错,但是它 们也有自己的局限性,并不能适用于所有的情况和需要。 ( 1 ) 因为每个搜索引擎的排序算法不一样,所得到的结果和搜索策略有关。 由于其排序算法一般都是不公开的,我们根本不了接内部算法结构,也不知道 结果和站点关系有多大,是如何实现的。而对应于某个企业或网站搜索来说, 一个专门的搜索策略很重要,公平的排序结果是也很重要的。本系统为专门行 业的搜索分析了算法设计了流程,并实现了采集功能。 ( 2 ) 互联网上巨大的信息量不可小觑,它已经超出任何一个搜索引擎最大 采集能力范围【1 3 】。由于数据库的信息十分庞大,搜索引擎对信息的采集实时性 不好,更新时间也只能根据算法来制定。同时,通用搜索引擎搜索的数据一般 都不存储在数据库中,当更新时就比较困难和麻烦。 武汉理工大学硕士学位论文 本系统中所有的信息相关度可以由我们自己来控制,并且在信息更新方面 也有很大的优势,我们可以自己决定更新,更新多少以及怎么更新。这就意味 着该搜索引擎可以得到相关度较高的信息,也就是说能获得更有效的信息。 1 2 国内外发展现状 通用搜索引擎的优点是保证的是信息的查全率,但缺点是查准率比较低、 深度不够,不能满足用户在某一领域内得到比较精准的信息。垂直搜索引擎的 出现,使得人们在某一领域内能够获取到更加精准更加专业、更加细化的信息。 现在,垂直搜索技术已经是国外各种研究机构研究的热剧1 5 】,在许多专门 的领域都有关于垂直搜索引擎的研究: ( 1 ) s e i r u s 科学搜索引擎,2 0 0 1 年4 月正式面世,它是如今因特网上最 全面的科技文献门户网站之一【6 】,由e l s e v i e r 开发的、专门面向科学家和科研人 员的学术信息检索工具。现在s c i r u s 可搜索上亿个与科学相关的网页,在各个 领域都有研究【1 7 】,如农业、化学与化工、法学、计算机科学、能源与技术语言 学、法学、心理学等多个科学研究领域中的学科。 ( 2 ) a a r d v a r k 创建于2 0 0 7 年【1 5 】,主要提供专题搜索引擎,通过信息 或电子邮件向a a r d v a r k 询问如“美国旧金山哪里的房子最便宜”等问题, a a r d v a r k 返回相应答案。2 0 1 0 年1 0 月被g o o g l e 收购。 ( 3 ) l i b c l i e n t i r i s w e b 系统是专题搜索引擎【l 刚,面向的网上的法律信 息,可对其进行全文检索,由n o r t hc a r o l i n a 大学开发 硼,当用户查找法律专业 信息,此系统提供高质量的结果。 ( 4 ) c h a c h a ,移动搜索引擎【2 1 1 ,成立于2 0 0 8 年1 月,通过向用户提供文 本信息和即时信息搜索服务。 ( 5 ) g i s t ,专注于电子邮件收件箱搜索,g i s t 可以监控你的电子邮件收件 箱并获得来自或关于联系人的最新信息,是联系电子邮件提供商、社交网站和 传统媒体的纽带。 在国内,由于市场的需求,各类垂直搜索引擎也正在不断的发展,并且一 天比一天壮大。国内,赛迪i t 罗盘是垂直搜索引擎中最具有代表性的一个,它 是国内第一个中文r r 垂直搜索引擎【2 2 1 ,在中文领域上,它具有划时代的意义。 现在,赛迪i t 罗盘的系统中存储的i t 网址记录大约有上万多条田】、i t 网页数 据有上百万条,它包含了1 1 r 领域的大多数的网络信息资源。 武汉理工大学硕士学位论文 垂直搜索引擎在很多领域都有应用阱】,例如地图搜索、购物搜索、旅行搜 索、旅游搜索等等,更贴切地满足用户需求。各行各业都不同,可以将它们进 一步细化,并做成各类的垂直搜索引擎,垂直搜索引擎技术也己经成为国内搜 索引擎技术研究的焦点和热剧凋。 虽然垂直搜索引擎的出现带给人们很大的方便【2 。丌,但由于垂直搜索引擎 技术门槛比较高,需要行业经验和专业领域的知识,所以它的进一步发展却困 难重重。首先,国内垂直搜索引擎的开发研究在技术层面上有很多不足之处【2 丌, 其次,中文比英文分词难度更大,再次,我国在中文搜索引擎技术方面的研究 和应用都比较晚,专业化搜索应用只在某一些领域,并未在各个领域得到广泛 应用,看的出来,我国垂直搜索引擎还处在发展中阶段,并没有达到成熟。因 此,对这一课题进行理论研究具有较强的前沿性及学术价值,在实践探索方面 具有较大的应用性。 1 3 本文的主要工作 结合国内外垂直搜索引擎技术的研究成果和发展现状,本文研究了基于w e b 搜索引擎的相关技术、设计了系统框架和各个模块的流程,并实现了各个模块 的功能。本文的主要研究内容:采集信息、中文分词、信息索引、查询、系统 设计和实现。 本文所做的主要工作如下: ( 1 ) 分析了通用搜索引擎与垂直搜索引擎在各方面的区别,研究了垂直搜 索技术,归纳了垂直搜索引擎相对通用搜索引擎的优势以及今后面对的技术难 题。 ( 2 ) 在专业网络蜘蛛方面,分析了垂直搜索引擎专业网络蜘蛛的框架,研 究网络蜘蛛信息采集的相关技术,设计了专业网络蜘蛛的爬抓流程,对经常用 到的两种搜索策略进行了研究,对系统的核心部分网络蜘蛛进行设计与实现。 ( 3 ) 在信息索引和中文分词方面,对垂直搜索引擎的信息索引技术做了研 究,分析并设计了索引的框架和流程,对中文分词技术进行了研究和分析,设 计了分词流程,基于l u c c n c n e t 实现了中文分词模块和索引模块。 ( 4 ) 在信息查询方面,对信息查询相关技术做了研究,分析并设计了查询 的框架和流程,设计了检索工具和接口,分析设计了数据库表结构,最后实现 了查询功能。 4 武汉理工大学硕士学位论文 ( 5 ) 在整体框架方面,分析并设计垂直搜索引擎系统的结构模块,设计了 并实现了用户管理模块,并结合n e t 技术,采用酣语言,在在v i s u a ls t u d i o n e t2 0 平台上实现了垂直搜索引擎系统。 1 4 论文结构安排 本文主要结构如下: 第1 章主要分析了垂直搜索引擎的研究背景和意义,讨论分析了国内外发 展现状,归纳了垂直搜索引擎相比于通用搜索引擎的优势以及近些年面临的问 题,最后给出了论文的主要工作和结构安排。 第2 章主要分析了垂直搜索引擎系统中信息采集模块的框架,研究了专业 网络蜘蛛的主要技术,对垂直搜索引擎的专业爬虫的算法进行研究后,结合具 体的情况,采用了将两者结合后的搜索策略,设计专业网络蜘蛛的爬抓流程, 并实现网页采集模块的功能。 第3 章主要分析了信息索引的基本结构,研究了倒排索引技术,对信息索 引技术做了探讨与研究,分析并设计了索引的框架和流程,对中文分词技术进 行了研究和分析,采用最大化的中文分词方法,并基于l u e e n e n e t 实现了中文分 词模块和索引模块。 第4 章主要分析了垂直搜索引擎系统的整体框架,设计了系统功能结构, 分析设计了数据库表结构,设计并实现用户管理模块,设计检索工具和接口, 研究了检索的主要技术,设计并实现垂直搜索引擎的检索功能。 第5 章主要总结本文所做的研究工作,讨论其中需要改进的地方,并对垂 直搜索引擎的研究方向和思路进行了展望和预测。 5 武汉理工大学硕士学位论文 第2 章专业网络蜘蛛的设计与实现 本章根据搜索引擎的研究现状总结出搜索引擎的基本框架,分析专业网络 蜘蛛的框架,研究专业网络蜘蛛的相关技术,研究搜索策略,实现搜索功能。 2 1 专业网络蜘蛛的框架 网络蜘蛛是指信息采集的软件,它主要用来互联网上发现和采集信息【3 1 1 。现 在互联网上信息更新的速度是非常快的,但网络蜘蛛的目的是快速的的搜集各 式各样的新信息,所以要定期更新搜集过的旧信息,以防止存在无效链接。 专业网络蜘蛛是指只采集与某一领域并与主题相关的网页的网络蜘蛛,网络 蜘蛛采集的过程也叫网页爬取技术。 搜索引擎先利用网络蜘蛛从互联网上爬抓网页信剧3 2 】,对这些数据进行内 容预处理,然后创建索引,当用户查询时,根据用户接口提交的查找信息,结 合索引建立的索引库,就会将查找出的匹配信息返回给用户。搜索引擎系统主 要有下面几部分,信息采集模块、内容预处理模块、索引模块、查询模块。基 本结构如图2 1 所示。 图2 - 1 搜索引擎基本框架 网络蜘蛛和专业网络蜘蛛都是采集网页信息。但二者有所不同。前者主要是 遍历万维网,获取各种网页信息,并将遍历的爬行结果返回给服务器。后者更 聚集到为某一领域、行业或有特定主题。需要对爬行到的网页信息进行过滤、 6 武汉理工大学硕士学位论文 筛选出价值的网页信息,再将这些信息以一定的方式整理放入数据库中。前者 从一个初始链接开始搜索,扫描出当前页面的所有可能的超链接。后者是人工 指定一个种子网页集,进行爬行,再将网页中非结构化数据转化成指定的结构 化数据,再进行加工,最后满足用户搜索的需求。 专业网络蜘蛛的一般步骤是先获取网页文档,分析当前网页与主题的相似 度,根据对比结果进行筛选,将满足要求的页面存到数据库。框架如图2 2 所示。 图2 - 2 专业网络蜘蛛框架图 2 2 专业网络蜘蛛的设计 本文已经分析了搜索引擎系统的框架结构,下面就给出的专业网络蜘蛛框 架图进行研究后,对专业网络蜘蛛做了分析。 2 2 1 页面中链接的提取 超链接是指从一个网页指向一个网页、文件、图片或应用程序的链接关系。 网页中有大量的超链接,其最大的作用是让人们与别的网页或网站地址间进行 访问。超链接一般有两种形式:一是绝对u r l 的超链接,其链接地址是因特网 上某一站点或网页未经删减、添加、或更改的完整路径,二是相对u r l 的超链 接。 在垂直搜索引擎系统中,专业网络蜘蛛采集的网页信息,均统一存储其绝 对u r l 超链接,如果专业网络蜘蛛获取的地址是相对的u r l 超链接时,将其 进行分析转变为绝对的u r l 超链接。专业网络蜘蛛首先对u r l 地址进行有序 检索,提取有效地相关页面信息,分析之后保存到数据库。 2 2 2 主题相关度判定 专业网络蜘蛛到网上爬取网页后,要对网页的而相关度进行判定,丢弃无 关页面,这里就需要对网页内容的主题相关度进行计算。主题相关度的计算方 武汉理工大学硕士学位论文 法有两种,布尔和空间向量模型,下面对这两种进行一下研究。 ( 1 ) 布尔模型 布尔模型是基于二值( o ,1 ) 数据计算权值的一种检索方法【3 2 1 ,其中连接词主要 是与、或、非组成。则公示如式2 - 1 所示。 洲d ) = 肾 ( 2 - 1 ) s i m ( d ) 表示文档d 和主题t 的相关度,d 是文档, t 是主题关键词,d 的主题相关度是指d 和t 的交集与t 的比例。 ( 2 ) 向量空间模型 向量空间模型的算法如下:( 形,吸,职,矾) 是文档向量,第i 个关键词的 权重是形,词在文档中的频率表示词的权重,权重的大小表示关键词对文档的 重要性程度,其计算公式如式2 2 所示。 形悱丝兰丝丝生 水协崦( + o 。) 矿( f ,孑) 表示文档孑中词t 的权重,矿o ,孑) 表示文档孑q aj z - t 的频率,f ,表示在 一个文档孑中所有词的总数目,刀表示整个文档信息库中包含词条t 的文档的个 数,n 表示信息库中文档的总数目。文本用d = d ( f 1 ,w l ;f 2 ,w 2 ;t 。,) 来表示,m 是词t 。的权重,夏为主题向量。d 和瓦之间的主题相关度公式如式2 3 所示。 8 i r a ( d ) = c o s 0 = 职瓦= 量i l d ;互 ( 2 - 3 ) 关键词出现在网页中的次数越大,权重越大,包含它的网页数量越大,权 重越小。 获取种子文档h 确定标准向量 + i 确定相似度h 获取当前网页向量 i 存入数据库 图2 3 判定主题相关度过程 武汉理工大学硕士学位论文 本系统中采用向量空间模型算法来计算主题相关度的,判定主题相关度基 本过程如图2 3 所示。 2 2 3 种子地址选取 因为专业网络蜘蛛具有专、精的特点,为了缩小专业网络蜘蛛的爬行范围、 提高专业网络蜘蛛精度和速度,得到主题性较强的页面信息,所以要选取高质 量的种子地址集。这些地址集包括一些网页、文档和用户指定的相关信息。 获取种子地址的方式主要分为三种: ( 1 ) 人工指定种子地址,就是由搜索引擎的开发人员设计的一系列种子地 址,形成种子地址集。 ( 2 ) 网络蜘蛛自动选取,一般是通用搜索引擎用一些专业性的关键词检索, 再根据检索结果的排序,选取最前面的一系列地址作为种子地址集。 ( 3 ) 混合提取,即人工指定种子地址与网络蜘蛛自动选取两种方式相结合 的方式,首先通用搜索引擎获得一系列页面地址,再由专业人员手动的选评, 互相结合,得到一个质量较高的种子地址集。 要构造高质量的种子地址并不是一个简单的过程,最好方法是使网络蜘蛛 具有自我提取的能力。随着网络蜘蛛对采集页面信息的分析和解析,数据库信 息的变多,网络蜘蛛能自动优化种子地址集。 在本系统中,种子地址的选取,最开始采用的管理员设置,后期对深度提 取地址做了设置,专业网络蜘蛛会通过对网页的分析自动筛选出地址信息,以 混合模式为主。 2 2 4 正则表达式 正则表达式主要用来过滤、匹配字符串,如果你想检查一个字符串是否 含有某种子串,就可以写一个正则表达式,定义好一些特定字符和这些特定字 符的组合,将匹配的子串替换掉,从中取出查找的字符串等。 正则表达式是由英文字母、特殊字符如“,或“,”组成的一系列文字的模式。 正则表达式用法灵活,可用于查找字符串,也可以替换字符串,即用一组字符 串去替换正则表达式可以匹配的内容,还可以验证字符串和分割字符串。 可以使用方括号来指定多个字符区间。例如正则表达式 a z a z 匹配任 何字母,包括大写和小写的。 9 武汉理工大学硕士学位论文 2 2 5 专业网络蜘蛛的流程 网页采集模块是垂直搜索引擎实现的重点,下面对专业网络蜘蛛的流程进 行设计。 ( 1 ) 专业网络蜘蛛的基本流程 专业网络蜘蛛爬取到网页,并获取此网页的源代码,进行网页的预处理, 剔除网页中的无用信息,得到需要的信息。专业网络蜘蛛是整个信息搜集系统 的关键部分,后面的模块都与之有关系。专业网络蜘蛛的基本流程如图2 _ 4 所示。 最初,设置一个起始地址,并将它存储到采集的集合中,网络蜘蛛从集合 中取出一个地址,就相应的发出一些链接请求,得到网页的源文件,然后分析 网页中的超链接和内容。分析网页中的超链接信息之后就得到新的地址,为了 防止地址的重复被抓取,每次得到的新的地址就要与已搜集的地址集合比较, 如果没有查找到重复的,就将它存到集合的下一个,保存到数据库之中。 一丽鬲、 始爬抓 结束 一 = !i r 。一 l 从待搜索的u 也队 分析网页中的链接 分析同页中的内容 格分析过的 u r l 入队 待搜索的 u r l 队列 已搜索到 的u r l 库 图2 - 4 专业网络蜘蛛流程图 ( 2 ) 专业网络蜘蛛的详细流程 网页采集模块重点和难点在于循环获取网页中的链接地址,这是因为h t m l 语言灵活性,编码格式也不同,使得网页的源代码千差万别,并且非网页的链 接也存在,如电子邮箱地址等。 链接地址的获取方法采用的是p a r e s h t m l 类,使用该类的循环地性提取网 页中的链接地址,读取网页源代码 l o :一 武汉理工大学硕士学位论文 其次,要得到网页的编码的格式、链接地址和标题,这里采用正则表达式 将网页源代码转换为可响应的编码,再进行进一步的处理。在取出链接地址和 标题后,处理网页中无用信息,然后,再将有用信息存入数据库。得出网页采 集模块详细的流程图如图2 5 所示。 巫h 数紫连h 从数据霭妻砉蚕始读取 获得网页源 代码 取出集合中下 一个元素 等h 釜1蘧 址添加到p a 辨u r l 叫加到u r w l 列表ll 结果 列表中中 l 永是 芝苎彳 主 l 获取s o u r c e u r l 的 i 下一个元素 。 广 否 将相关数据i e 取s o u r c c u r l 对应 存入数据库h 的源代码,标题 图2 5 专业网络蜘蛛的详细流程图 2 3 专业网络蜘蛛的搜索策略 专业网络蜘蛛的搜索策略主要有两种:基于内网页和链接结构相关度的确 定,下面就对其进行一一研究。 2 3 1 基于网页内容的相关度的确定 计算网页的相关度需要知道网页的地址u r l 、该网页的标题t i t l e 、链接该网页 的父网页中的链接a n c h o r t 3 2 1 ,计算网页内容相似度过程如下: 首先,解析网页的所有的链接地址,其次,预处理分析文本内容,最重要 的是中文分词、进行权重分配后,判断文本与主题词的相关度,这里采用的是 布尔模型,公式如式2 - 4 所示。 武汉理工大学硕士学位论文 s i m ( c o n t e n tx i ) = a s 泐( 册c h o r ) c i ) + p s i r e ( 。,) 【f ) + y 跏( ,妇) o ) ( 2 - 4 ) 其中,& m ( 砒,) ( f ) 、s i r e ( 训( f ) 、s i m ( ,胁) ( f ) 的计算公式分别如式2 5 、2 - 6 、 2 7 所示。 s i m ( 圳( f ) = 睦户 ( 2 5 ) 跚# 峄 ( 2 6 ) 跚础) :喧笋 ( 2 - 7 ) 其中,t 代表主题关键词的集合,d ( i ) 表示网页文本内容集合,& m ( 幽) ( i ) 是指d ( 。,嘶) ( i ) 与t 的相关度,s i m ( 训咖) ( i ) 表示网页内容相关度。a n t h o r 、u r l 、t i t l e 三部分文本内容的位置不同,权重因子不同,分别为口:0 5 ,口:0 3 ,:0 2 。 2 3 2 基于链接结构分析的相关度的确定 网页相关度的技术是垂直搜索引擎非常重要的技术之一,其中链接分析的 算法主要有p a g e r a n k 算法。 在b 网页中链接了a ,相当于b 在谈话时提到了a ,如果在c 、d 、e 、f 中都 链接了a ,那么说明a 网页是最重要的,a 网页i 拘p a g e r a n k 值也就最高。 链接指向a 的网页越多,a 的级别越高,链接指向a 的网页,其网页级别越 高,a 的级别也越高,链接指向a 的网页,其链出的个数越多,a 的级别越低。 p a g e r a n k 计算公式如式2 - # 所示。 p r 州( p ) = ( 1 一d ) + d ep r ( t , ) ( 2 - 8 ) o v , 肷。+ 。( 尸) 是第n + 1 次运算中网页p l 拘p a g e r a n k 值,l 表示网页p 的链入网页, 网页z 链出节点之和是c ( 瓦) ,d 在o - 1 之间,是跳转因子,一般取值为o 8 5 。 下面根据网页结构的特点来进行分析,主题的相关度与网页a 的入度或出度 有着正比的关系,公式如式2 新示。 研切。m ,。,) = ( 1 一c ) 掣+ c 掣。2 9 , 其中,网页d ,的主题相关度的值是跏( m ) p ,) ,第i 个网页t 链出的网页的 主题相关度是& m ( 一,) ( 6 ,) ,第j 个链入到页面d ,的主题相关度是s f m ( 一,) ( p ,) , 1 2 武汉理工大学硕士学位论文 阻尼因子是c ,取值在o 1 之间。 p a g e r a n k 算法中,页面的重要性都是是一样的,而实际上页面的重要性是 不会一样的,所以要考虑网页的链接信息相关度,包括链接a n t h o r 的相关度以及 链接所指向的网页的相关度,这两种数据对结果都会有影响。 下面对其进行一些改变,使得计算更精确,改后的公式如式2 1 0 所示。 p r ( p ) = 等+ d 羔p r ( q a p ( g 卯) ( 2 - l o ) 网页g ,链接网页p 的概率是用p 0 ,p ) 来表述,q ,网页是指向网页p 的,链接 到网页p 的网页数量用r l 表述,n 是待抓取集合与主题相关的网页的数量。 网页的p a g e r a n k 值可以这样计算,用网页内容相关度的比值和链接结构相 关度的比值来说明,p ( q ,p ) 计算方法如式2 11 所示。 p ( q i p ) = c 尝叠垃+ ( 1 一c ) 掣 跏( f )s m 触( f ) i - ii s l ( 2 。1 1 ) 从网页口,链出的全部网页内容相关度的总和用聊( f ) 表述,从网鼋, j - l 链出的全部网页链接结构的相关度的全部总和用s i m 舭o ) 表述,c 是阻尼因 f i l 子。 2 3 3 信息采集的搜索策略 现将前面探讨的两种算法结合一下,计算方法如式2 1 2 所示。 墨= 雄小【f ) + ( 1 一矽) 掀g ) f 2 1 2 ) 相关性的问题的解决,采用的网页内容分析的搜索策略,网页权威性问题 的解决,采用的链接结构分析的搜索策略,两种相结合,更好的解决了搜索策 略。 经过以上分析,本文将采用将两种算法结合后的搜索策略来采集信息。 2 4 专业网络蜘蛛的实现 基于以上对垂直搜索引擎信息采集模块关键技术的研究、流程分析和设计, 下面将对其功能进行具体实现,专业网络蜘蛛的实现包括种子地址实现和采集 网页实现。 武汉理工大学硕士学位论文 2 4 1 种子地址的实现 在系统中,登陆以后,点击“采集首页”进入采集页面,点击“编辑”,进入种 子地址设置。本系统中先采用人工设置对网页进行种子地址实现,然后专业网 络蜘蛛根据深度设置对网页进行分析,自动筛选出地址信息。 首先进行人工设置。管理员可对采集名称,采集地址、列表页码范围进行 设置,也可以手动添加列表。在采集名称里输入采集的名字,采集地址里输入 入初始地址,以及采集的范围,初始地址设置界面如图2 - 6 所示。 熊g 寡:酽f 一 罘撇:而再石磊鬲育画葡萄瓦鬲而嚣品i ;葡两万轮嘞t 鲫懒睦 炳糯圈:分夏删:i 广量m 舳:r 一 对于比较螺i 坍鼻夏的刊囊芦h - 用嚏d 朋此m s l 砷 p 妒卜耵 互i 形式箦射孵r 分更囊量起扫值 i i _ _ 二i i 瓦i 而面西西i 可万j 鬲五丽五瓦罚了一 当撇曹曩融租掣h 啊耐,幽咿旧哟t 更加曝嘲t n 舶e 鼬址i 艇i 赴1 嘲吐以羹疗为单位 图2 6 初始地址设置 在详细页面地址中设置详细页面地址,在地址包含字符和不包含字符中过 滤掉不需要采集的地址。 弹舶互蕾地址: 地址色古手再: 堰址不乜寺事蒋 目弭碣: 导出5 盛: 采曩晴: 苫批量导出: 蕾拙是量: 下t 盐抖田片: f 置田片加木e d 生曩日片: 序囊鼻: 最 靠站井i i 曩 i i 不最鼻 设置网页编码,这里包含有g b 2 3 1 2 、b i g 5 、u r f 8 三种选项,是否批量采 集,采集的数量,是否批量导出、是否下载站外图片、是否倒序采集、是否重 1 4 武汉理工大学硕士学位论文 - _ - _ _ - _ - - - - _ _ - _ - 一。 复采集标题、是否生成标题图片、导出的类型等等。采集方式设置如图2 - 7 所示。 设置好初始地址后,对采集的网址的源码进行详细设置,可以从标题、内 容、作者、来源时间、长度,是否有过滤掉注释等方面进行设置。采集地址设 置如图2 8 所示。 蠢酗疆; 一冉: 一嘲: 一目秉: 恫: 努姗: 膏下董; 下弧t :匠 图2 8 采集地址设置 在种子页面设置好后,本系统的采集模块将调用d oh t m lw o r k 类的a d dl i s t o 获取增加的采集列表,再调用g e t h t m p a g e s ( s t r i n gd d ) 得到相应页面的h t m l 代码。 最后g e t p a g e s ( s t r i n gc i d ) 获取经过上述处理后的页面信息。其代码如下: a d d _ l i s t o t h i s u r l = f o r m a t u r l ( u r l s i ) ; a l l u r l l i s t a d d ( t h i s u r l ) ; d i r u r l l i s t a d d ( s m a p p a t h + d i r s i ) ; n a m e u r l l i s t a d d ( n a m e s i ) ;) g e t h t m p a g e s ( s t r i n gc i d ) d a t a t a b l ed t = d b h e l p e r s q l q u e r y ( ”s e l e c ti df r o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论