




已阅读5页,还剩139页未读, 继续免费阅读
(计算机应用技术专业论文)面向垂直搜索引擎的主题爬行技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学博士学位论文 摘要 主题爬行是获取w o r l dw i d ew e b 中特定领域( 主题) 的网页的关键技术。随着 w e b 的快速增长,以及网络带宽和各种资源的有限性,从中获取全面、准确和高 质量的信息变的越发困难。传统( 通用) 搜索引擎技术呈现出了严重的局限性。( 1 ) 对某一查询返回的结果太多且相关性、质量不高。( 2 ) 不能满足不同背景、不同 目的和不同时期的用户的需求。( 3 ) 在索引的全面性、更新的及时性上存在着很 大的不足。垂直搜索引擎( v e r t i c a ls e a r c he n g i n e ) 被作为解决通用搜索引擎局限性 的一种潜在方案,有着智能化、个性化、领域化的特点,从而成为当前学术界和 产业界研究的热点。它利用主题爬行( f o c u s e dc r a w l i n go rt o p i c a lc r a w l i n g ) 技术 来搜集面向领域( 主题) 的w e b 网页,并提供面向主题的检索服务。无疑,主题爬 行技术作为垂直搜索引擎的基础与核心,它的性能对垂直搜索引擎的性能至关重 要。此外,主题爬行技术还可用于w 曲的实时检索、个性化检索、数字图书馆 等领域。因此,对主题爬行技术的研究具有重要的学术意义和广阔的应用前景。 主题爬行基于这样一个重要的假设:与同一主题相关的网页趋向于互相链 接,被称为w 曲上的主题局部性。主题爬虫每次从待爬行u r l s 队列中选择最 有希望的链接进行爬行,其目标是保持在主题相关的网页的周围,而不偏离主题。 因此,主题爬行在很大程度上能节省硬件和网络资源,提高检索结果的查准率和 质量,保证爬行的时新性。但由于w 曲是一个高度开放、异构、分布式的信息 空间,网页杂乱地散布在全球各个站点上,而且每天以极快的速度更新。相对于 巨大、无序的w e b 信息空间,与某个主题相关的网页是非常有限的,仅仅是整 个信息空间的一小部分。而一个理想的主题爬虫需要最大限度的爬行与预定主题 最相关的网页,并最小限度的爬行不相关的网页。因此,主题爬行又是一个极富 挑战性的研究课题。 主题爬行的关键技术有:主题( 用户需求) 描述、面向主题爬行的网页分块、 待爬行u r l $ 优先级计算、主题爬行算法。研究主题爬行技术的目标是提供建立 垂直搜索引擎的一般技术和通用算法,通过提高网页搜集的效率和质量来提高垂 山东大学博士学位论文 直搜索引擎的性能,降低垂直搜索引擎的构造和运行代价。本文以“山东省科技 攻关计划项目一垂直检索系统的研究与开发为依托,针对上述关键技术展开研 究,主要贡献和创新点包括如下几点: ( 1 ) 提出了一种基于分类法的上下文主题描述( c t d t ,c o m e x t u a lt o p i c d e s c r i p t i o nb a s e do nt a x o n o m y ) 方法。 c t d t 方法基于o d p ( o p e nd i r e c t o r yp r o j e c t ) 来表示主题( 用户需求) 。对于 o d p 中的任一主题结点,给出其“上下文主题关键词集合( c t k w ,c o n t e x t u a l t o p i ck e yw o r d s ) 和“主题描述( t d ,t o p i cd e s c r i p t i o n ) ”的定义及表示方法。 针对直接从o d p 中获取c t k w 会引入很多噪音结点的问题,提出了一种基于逆 路径频率( i v f ,i n v e r s ep a t hf r e q u e n c y ) 对c t k w 进行去噪的方法。另外,在对 c t k w 进行向量表示时,提出了一种基于主题结点在o d p 中的相对层次位置来 计算其权重的方法。利用c t k w 来计算已知信息( 网页,锚文本等) 与给定主题及 其上下文主题的相关度,用来在线指导主题爬虫的爬行。利用t d 来计算已爬行 网页与给定主题的相关度,用来离线评价主题爬虫的性能。 ( 2 ) 提出了一种面向主题爬行的在线网页分块( o p s 4 f c ,o n l i n ep a g e s e g m e n t a t i o nf o rf o c u s e dc r a w l i n g ) 方法。 指出一个网页中影响主题爬行算法性能的块主要有两种:文本块和链接块。 链接块可以进一步被细分为相关链接块,导航链接块和噪音链接块。o p s 4 f c 的 主要目标是识别出网页中的主题文本和相关链接块。首先,将一个已爬行的网页 解析成d o m ( d o c u m e n to b j e c tm o d e l ) 树。其次,提出一种基于多特征的概率统 计方法来识别出该网页中的所有文本块和链接块。然后,根据文本块之间的语义 相关性关系来识别出整个网页的主题文本。最后,根据链接块中所有链接的锚文 本集合与主题文本的语义相关性关系识别出该网页所有的相关链接块。实验从 w 曲信息检索和主题爬行两个角度证明了o p s 4 f c 方法具有很好的通用性。适用 于对海量的,不同版面格式的网页的处理,能够有效的提取网页的主题文本内容 和相关链接块,有效的去除网页中的噪音文本和噪音链接,从而能显著的提高 w r e b 检索和主题爬虫的性能。 ( 3 ) 提出一种多粒度的t c u r l s 优先级计算( p u m g ,p r i o r i t i z i n gu r l si n i i 山东大学博士学位论文 m u l t i - g r a n u l a r i t i e s1 方法。 主题爬行的基本思想就是计算爬行队列中的待爬行u r l s ( t c u r l s ,t o c r a w lt a u s ) 的访问优先级,并每次选最有希望者进行爬行。因此,主题爬行的 核心计算问题是:计算每个t c u u 的访问优先级。p u m g 以c t d t 和o p s 4 f c 为基础,利用站点、网页内容、相关链接块、锚文本、u r l 地址和链接类型六 种特征,从站点级、网页级、块级和链接级四种不同的粒度来计算一个t c u i 也 的优先级。在p l 刀g 中的子创新点如下: 曲提出了以站点为粒度来计算该站点中的t c u r l s 优先级的方法。如果站 点s 1 的相关网页数( 相关度) 大于站点s 2 的相关网页数( 相关度) ,那么在动态的爬行 过程中,s l 中已爬行的相关网页总数( 相关度总和) 的增速比s 2 的快。因此,一个 站点到目前为止已爬行的相关网页数( 相关度总和) 的增速可以用来衡量该站点 的t c u r l s 的优先级。 b ) 在基于网页粒度的t c u i 也s 的优先级计算中,不是利用整个网页的内容, 而是基于分块后的该网页的主题文本和所有相关链接块的锚文本集合。因为使用 的是经过分块后的网页,有效的去除了其中的噪音,提高了优先级计算的准确性。 c ) 针对当前网页中链接较多,且相关链接易于聚集成块的特点,提出了以 链接块为粒度来计算该块中的t c u r z , s 优先级的方法。在计算时,只利用网页的 相关链接块,因此有效的过滤掉大量的噪音链接。此外,有些相关链接的锚文本 较短,单纯依靠锚文本不能有效的发现它们,而以块为粒度很好的解决了这个问 题。 d 1 指出大部分网页的u r l s 地址包含了与网页内容相关联的一些语义标记 ( t o k e n ) ,并提出了基于一个t c u r l 地址的语义标记来计算其优先级的方法。首 先,把中文u r l s 中的语义标记主要分成四种形式:完整英文、英文缩写、完整 拼音和拼音的第一个字母。然后,经过半自动的统计分析,创建了一个主题标 记映射表( 咖,t o p i c - t o k e nm a p p i n gt a b l e ) 。对于一个给定主题,从t r m t 中 找到对应的四种形式的标记;对于一个给定u r l ,根据分隔符“ 和“ 将其 分割成多个标记;然后通过两者标记的匹配情况,确定该u r l 的优先级。 e ) 提出了基于链接类型来计算一个t c u r l 的优先级的方法。一个网页的出 i i i 山东大学博士学位论文 链指向的网页继承了该网页与主题的相关性。首先,利用一个t c u 】5 也与其父网 页在w e b 站点中的相对位置将链接分成五种类型。然后,给出了五种启发式规则 根据链接类型来推断该t c u r l 指向的网页与其父网页的主题间的关系,并确定 一个合理的继承因子。利用父网页与指定主题的相关度乘以继承因子作为预测的 该t c 切r l 指向的网页与指定主题的相关度,从而作为该t c u r l 的优先级。 ( 4 ) 提出了一种基于多粒度优先级计算的自适应主题爬行( a f c p u m g , a d a p t i v ef o c u s e dc r a w l i n gb a s e do np u m g ) 算法。 a f c p u m g 从一些与预定主题相关的种子出发,利用o p s 4 f c 对已爬行的 网页进行分块,并抽取出网页中的待爬行u r l s ,然后利用p u m g 计算每个u r l 的优先级,并按照其优先级顺序进行访问。a f c - p u m g 给出了一个可变长度的 路径探测深度( p e d ,p a t he x p l o r i n gd e p t h ) 函数,使t c u r l s 的p e d 随着其所在 网页与给定主题的相关度的变化而变化。从而使a f c p u m g 可以更加灵活的控 制探测的方向和深度,获取更多更相关的网页。此外,根据不同粒度的优先级计 算之间的依赖关系,定义了它们计算的先后顺序,并用来改进a f c p u m g 算法 的优先级计算过程,降低了算法的运行时间复杂度。 ( 5 ) 基于上述技术实现了一个主题爬行原型系统,从多个角度对本文的方法 进行了实验分析。 给出了原型系统的体系结构和具体的设计方案。我们在该原型系统中同时实 现了宽度优先( b r e a d f i r s t ) ,最佳优先田e s t f i r s t ) ,s h a r k s e a r c h 和本文的 a f c p u m g 。进行了一系列的实验,实验针对多个不同的主题,在真实的w e b 环境上,从多个角度证明了本文提出的c t d t 、o p s 4 f c 、p u m g 和a f c p u m g 的有效性。在整体性能方面,将本文的a f c p im g 算法与系统中实现的其它三 个爬行算法进行了比较。大量的实验证明,a f c p u m g 在不增加时间复杂度的 前提下,在收获率和信息量总和上明显优于其它三种算法。 关键词:垂直搜索;主题爬行;主题描述;网页分块;相关度计算;相关度预测; 优先级计算。 i v 山东大学博士学位论文 a b s t r a c t f o c u s e dc r a w l i n g ( t o p i c a lc r a w l i n g ) i sak e yt e c h n i q u et oc o l l e c tw e b p a g e si n as p e c i f i cd o m a i n ( t o p i c ) f r o mw o r l dw i d ew e b d u et ot h el i m i t e db a n d w i d t h , s t o r a g e ,c o m p u t a t i o n a lr e s o u r c e sa n dr a p i dg r o w t ho ft h ew e b ,s e a r c h i n gt h ew e bf o r a l l ,a c c u r a t ea n dh i 曲q u a l i t yi n f o r m a t i o nh a sb e c o m ei n c r e a s i n g l yd i f f i c u l t g e n e r a l - p u r p o s es e a r c he n g i n e sh a v ep r e s e n t e ds o m es e r i o u sl i m i t a t i o n s ( 1 ) t h e y m a yr e t u mh u n d r e d so rm o r el i n k st oau s e r sq u e r y ,h o w e v e rt h ep a g e sp o i n t e dt ob y t h e s el i n k sm a yn o tc l o s e l yr e l e v a n tt ot h e1 2 s e r sq u e r y ( 2 ) t h e yc a n n o ts a t i s f yt h e q u e r yr e q u e s t so fd i f f e r e n tb a c k g r o u n d , p u r p o s ea n dp e r i o d ( 3 ) i ti si m p o s s i b l ef o r t h e mt oi n d e xa n da n a l y z ea l lp a g e sa n dm a n t a i nc o m p r e h e n s i v e , u p - t o d a t es e a r c h i n d e x e s v e r t i c a ls e a r c he n g i n er e g a r d e da sap o t e n t i a ls o l u t i o nt oo v e r c o m et h e s e 1 i m i t a t i o n sh a sb e c o m ea l la c t i v er e s e a r c ha r e ao fa c a d e m i ca n di n d u s t r i a lc i r c l e s t h e r ee x i s ts o m en e wc h a r a c t e r i s t i c sf o rav e r t i c a ls e a r c he n g i n es u c ha si n t e l l i g e n c e , p e r s o n a l i z a t i o n a n d d o m a i n s p e c i f i c a t i o n av e r t i c a ls e a r c he n g i n ec o l l e c t s d o m a i n - s p e c i f i cw e bp a g e sb yf o c u s e dc r a w l i n gt e c h n i q u e o b v i o u s l y , f o c u s e d c r a w l i n gi st h ef o u n d a t i o na n dc o r eo fav e r t i c a ls e a r c he n g i n e t h ep e r f o r m a n c eo fa v e r t i c a ls e a r c he n g i n eh e a v i l yd e p e n d so nt h a to faf o c u s e d c r a w l e nf o c u s e dc r a w l i n g a l s oh a sb e e na p p l i e df o ro t h e rf i e l d ss u c ha sd y n a m i cw e b r e t r i e v a l ,p e r s o n a l i z e d w e br e t r i e v a la n dd i g i t a ll i b r a r y , e t c a c c o r d i n g l y , t h er e s e a r c ho nf o c u s e dc r a w l i n g w i l lb ea na c a d e m i cs i g n i f i c a t i o na n dab r o a da p p l i c a t i o np e r s p e c t i v e a ni m p o r t a n ta s s u m p t i o ni m p l i c i ti nf o c u s e dc r a w l i n gi st h a tt h ep a g e sw i t h r e s p e c tt or e l a t e dt o p i c st e n dt ob en e i g h b o r so fe a c ho t h e r , t o p i cl o c a l i t yo nt h e w e b af o c u s e dc r a w l e ri d e n t i f i e st h em o s tp r o m i s i n gu r lf r o mt h ec r a w l i n gf r o n t i e r t ov i s i ta te v e r ys t e p t h u s ,t h eo b j e c t i v eo ft h ec r a w l e r si st os t a yf o c u s e d , t h a ti s , r e m a i n i n gw i t h i nt h en e i g h b o r h o o di nw h i c ht o p i c s p e c i f i cp a g e sh a v eb e e ni d e n t i f i e d t h i sl e a d st os i g n i f i c a n ts a v i n g si nh a r d w a r ea n dn e t w o r kr e s o u r c e s ,a n dh e l p sk e e p v 山东大学博士学位论文 t h ec r a w lm o r eu p - t o d a t e h o w e v e r , b e c a u s ew e bi sah i g h l yo p e n ,h e t e r o g e n e o u s , d i s t r i b u t e di n f o r m a t i o ns p a c e ,p a g e sr e f r e s h e dm o r eo f t e na r er a n d o m l yd i s t r i b u t e di n v a r i o u ss i t e sa r o u n dt h ew o r l d c o m p a r e dw i t ht h eh u g ea n dc h a o t i cw e bi n f o r m a t i o n s p a c e ,t h en u m b e ro fp a g e si nas p e c i f i ct o p i ci sl i m i t e d i na d d i t i o n ,a r ti d e a lf o c u s e d c r a w l e rr e t r i e v e st h em a x i m a ls e to fr e l e v a n tp a g e sw h i l es i m u l t a n e o u s l yt r a v e r s i n g t h em i n i m a ln u m b e ro fi r r e l e v a n tp a g e so nt h ew e b a p p a r e n t l y , f o c u s e dc r a w l i n gi sa c h a l l e n g i n gr e s e a r c ht o p i c t h ek e yt e c h n i q u e so ff o c u s e dc r a w l i n gi n c l u d et o p i cd e s c r i p t i o n ,w e bp a g e s s e g m e n t a t i o n ,p r i o r i t i z i n gu r l st ob ev i s i t e da n df o c u s e dc r a w l i n ga l g o r i t h m t h e g o a lo ff o c u s e dc r a w l i n gr e s e a r c hi st op r o d u c et h eg e n e r a lt e c h n i q u e sa n da l g o r i t h m s f o rv e r t i c a ls e a r c he n g i n e sa n dt ol o w e rt h ec o s to fc o n s t r u c t i n gav e r t i c a ls e a r c h e n g i n e t h i ss t u d ym a i n l ys u p p o r t e db yt h ek e ys c i e n c e - t e c h n o l o g yp r o j e c to f s h a n d o n gp r o v i n c ef o c u s e so nt h ek e yt e c h n i q u e so ff o c u s e dc r a w l i n gm e n t i o n e d a b o v e t h em a i nc o n t r i b u t i o n so ft h i st h e s i sa r ed e s c r i b e da sf o l l o w s : ( 1 ) ac o n t e x t u a lt o p i cd e s c r i p t i o nm e t h o db a s e do nt a x o n o m y ( c t d di s c t d - td e s c r i b e st o p i c sb a s e do no d p ( o p e n d i r e c t o r yp r o j e c 0 t h ec o n t e x t u a l t o p i ck e yw o r d s ( c a x w ) a n dt o p i cd e s c r i p t i o n ( t d ) a r ef i r s td e f i n e df o ra n yg i v e n t o p i cn o d ei no d eh o w e v e r , al o to fn o i s en o d e sw i l lb ei n t r o d u c e di nc t k wi fi ti s d i r e c t l ye x t r a c t e df r o mo d ea c c o r d i n g l y , am e t h o db a s e do ni n v e r s ep a t hf r e q u e n c y i sg i v e nt os o l v et h i sp r o b l e m i na d d i t i o n ,t o p i ca n di t sc o n t e x t u a lt o p i c si nc t k w a r ee f f e c t i v e l yw e i g h t e di nt e r m so ft h e i rr e l a t i v eh i e r a r c h i e si no d et h er e l e v a n c e b e t w e e nap a g e ( a na n c h o rt e x t ) a n dc t k wi su t i l i z e dt og u i d et h eo n l i n ef o c u s e d c r a w l i n g o nt h eo t h e rh a n d ,t h er e l e v a n c eb e t w e e nap a g ea n dt di su s e dt oe v a l u a t e o f f i i n et h ep e r f o r m a n c eo fd i f f e r e n tf o c u s e dc r a w l i n ga l g o r i t h m s ( 2 ) a no n l i n ep a g es e g m e n t a t i o nm e t h o df o rf o c u s e dc r a w l i n g ( o p s 4 f c ) i s p r e s e n t e d v i i ti sp o i n t e do u tt h a tt h e r ea r et w ok i n d so fb l o c k s ,i e t e x tb l o c ka n dl i n kb l o c k , 山东大学博士学位论文 i nap a g ew h i c hs i g n i f i c a n t l ya f f e c t st h ep e r f o r m a n c eo faf o c u s e dc r a w l e r f u r t h e r m o r e ,l i n k b l o c k sa r ec l a s s i f i e di n t ot h r e eg r o u p s :r e l e v a n tl i n k b l o c k , n a v i g a t i o nl i n kb l o c ka n dn o i s y - a d v e r t i s i n gl i n kb l o c k t h eg o a lo fo p s 4 f ci st o r e c o g n i z ea n de x t r a c tt h et o p i c a lt e x ta n dr e l e v a n tl i n kb l o c k so fap a g e f i r s t , ag i v e n p a g ei sp a r s e di n t oad o m ( d o c u m e n to b j e c tm o d e l ) t r e e t h e n ,t h et o p i c a lt e x to f t h ep a g ei sc o n c a t e n a t e db yc o m p u t i n gt h es e m a n t i cr e l e v a n c ea m o n gd i f f e r e n tt e x t b l o c k s f i n a l l y , a l lr e l e v a n tl i n kb l o c k so ft h ep a g ea r er e c o g n i z e db yc o m p u t i n gt h e s e m a n t i cr e l e v a n c eb e t w e e nt h et e x to fe v e r yl i n kb l o c ka n dt h et o p i c a lt e x t i ti s e f f e c t i v et of i l t e ro u tn o i s et e x ta n dl i n k so fap a g ei no p s 4 f c a c c o r d i n g l y , o p s 4 f c c a ns i g n i f i c a n t l yi m p r o v et h ep e r f o r m a n c eo faf o c u s e dc r a w l e r ( 3 ) a na p p r o a c hp r i o r i t i z i n g u r l si n m u l t i - g r a n u l a r i t i e s ( p u m g ) i s i n t r o d u c e d t h eb a s i ci d e ao faf o c u s e dc r a w l e ri st oc o m p u t ev i s i tp r i o r i t i e so fc a n d i d a t e u r l si nac r a w l i n gf r o n t i e ra n di d e n t i f yt h em o s tp r o m i s i n gu r lt oc r a w la te a c h s t e p t h e r e f o r e ,h o w t op r i o r i t i z ee v e r yc a n d i d a t eu r li st h ek e yo ff o c u s e dc r a w l i n g p u m gu t i l i z e ss i xf e a t u r e si n c l u d i n gs i t e ,p a g ec o n t e n t ,r e l e v a n tl i n kb l o c k ,a n c h o r t e x t , u r la d d r e s sa n dl i n kt y p e ,r e s p e c t i v e l y , t op r i o r i t i z eau r li nf o u rd i f f e r e n t g r a n u l a r i t i e s ,i e s i t e ,p a g e ,b l o c ka n dl i n k ,b a s e do nc t d - ta n do p s 4 f c s e v e r a l s u b c o n t r i b u t i o n si np u m ga r ea sf o l l o w s : a ) a na p p r o a c ht op r i o r i t i z ec a n d i d a t eo r e si ns i t eg r a n u l a r i t yi sp r e s e n t e d i f t h en u m b e r ( r e l e v a n td e g r e e ) o fr e l e v a n tp a g e so no n ew e bs i t es li sl a r g e r ( h i g h e r ) t h a nt h a to fa n o t h e rs i t es 2 ,t h en u m b e r ( s u mo fr e l e v a n c e ) o fr e l e v a n tp a g e sc r a w l e d o fs 1m a yi n c r e a s em o r er a p i d l yt h a nt h a to fs 2d u r i n gt h ed y n a m i cc r a w l i n gp r o c e s s t h e r e f o r e ,t h ei n c r e a s e ( o rt i m ed e r i v a t i v e ) o ft h en u m b e r ( s u mo fr e l e v a n c e ) o f r e l e v a n tp a g e sc r a w l e dc a nb eu s e dt op r i o r i t i z et h e s ec a n d i d a t eu r l sw e l l b ) t h et o p i c a lt e x ta n dt e x t so fa l lr e l e v a n tl i n kb l o c k si n s t e a do fc o m p l e t e c o n t e n to fap a g ea r eu s e dt op r i o f i t i z et h i sp a g e sc a n d i d a t eu r l s i ti so b v i o u st h a t t h ep r i o r i t i e so ft h e s eu r l sa r em o r ea c c u r a t eb e c a u s em o s tn o i s yi n f o r m a t i o ni nt h e 山东大学博士学位论文 p a g eh a sb e e nf l t e r e do u ta f t e rp a g es e g m e n t a t i o n c ) p r i o r i t i z i n gu r l si nb l o c kg r a n u l a r i t yi sb a s e do nt h ea s s u m p t i o nt h a tl i n k s i na p a g et e n dt ob ec l u s t e r e di nb l o c k sa n dp a g e sp o i n t e dt ob yl i n k si nt h es a m el i n k b l o c ku s u a l l ys h a r et h es a m et o p i c t h i sm e t h o dc a nf i n dt h e s eo r e si nar e l e v a n t l i n kb l o c kw h o s ea n c h o rt e x t sa r en o tr e l e v a n tt ot h et o p i ce x p l i c i t l ya n df i l t e ro u ta l a r g en u m b e ro fn o i s yl i n k se f f e c t i v e l y d ) u r l so fm o s tp a g e sa r ea s s o c i a t es e m a n t i cm e a n i n g s 谢mt h ep a g e sc o n t e n t t h et o k e n si nak n o w nu r lm a yb eu s e dt op r i o r i t i z et h eu r l f i s t ,t h em o s tt o k e n s o fc h i n e s eu r l sa r ec l a s s i f i e di n t of o u rg r o u p s ,i e f u l le n g l i s hw o r d , a b b r e v i a t i o n o fe n g l i s hw o r d ,f u l lp i n y i na n dt h ef i r s ti e t t e r so fp i n y i n t h e n ,at o p i c t o k e n m a p p i n gt a b l e ( t t m p ) i sd e r i v e db ys t a t i s t i c a l l ya n a l y z i n gt h e s et o k e n si n35 7 0 0 0 0 u r l sa n dm a n u a l l ya s s o c i a t i n gt h e m 谢t l lc o r r e s p o n d i n gt o p i c s f o rag i v e nt o p i c , t h ec o r r e s p o n d i n gt o k e n sa r eg o tf r o mt t m t f o rag i v e nu r l ,i ti sp a r s e di n t o t o k e n si nt e r m so ft h es e p a r a t o r so f 广a n d “”t h e n ,t h ep r i o r i t yo ft h eu r li s c o m p u t e db yt h em a t c h i n gs t r e n g t hb e t w e e nt h et o p i c st o k e n sa n dt h eu r l st o k e n s e ) a m e t h o db a s e do nau r l sl i n kt y p ei sd i s c u s s e dt op r i o r i t i z et h eu r l a c h i l dp a g ei n h e r i t st h er e l e v a n c eo fi t sp a r e n tp a g et oa t o p i c f i r s t , l i n k sa r ec l a s s i f i e d i n t of i v et y p e si nt e r m so ft h er e l a t i v el o c a t i o n so ft h e ma n dt h e i rp a r e n t si nt h ew e b g r a p h t h e n ,f i v eh e u r i s t i cr u l e sa r ep r e s e n t e dt oi n f e rt h et o p i c a lr e l a t i o no fap a g e p o i n t e dt ob yau r l t oi t sp a r e n tp a g ea n dp r o d u c ea ni n h e r i t i n gf a c t o ri nt e r m so f l i n kt y p e s f i n a l l y , t h eu r l sp r i o r i t yi sd e t e r m i n e db yt h ep r o d u c to fi t sp a r e n tp a g e s r e l e v a n c ea n dt h ei n h e r i t i n gf a c t o r ( 4 ) a na d a p t i v ef o c u s e dc r a w l i n ga l g o r i t h mb a s e do np u m g ( a f c - p u m g ) i s p r o p o s e d s t a r t i n gf r o ms o m ep r e d e f i n e ds e e du r l s ,a f c - p u m gs e g m e n t sav i s i t e dp a g e i no p s 4 f c t h e n ,c a n d i d a t eu r l se x t r a c t e df r o mt h i sp a g ea r ep r i o r i t i z e di np u m g a n da d d e dt ot h ec r a w l i n gf r o n t i e ri nt h eo r d e ro ft h e i rp r i o r i t ys c o r e s t h eu r lw i t h t h eh i g h e s tp r i o r i t ys c o r ei nt h ef r o n t i e ri ss e l e c t e dt o v i s i ta te a c hs t e p ap a t h 山东大学博士学位论文 e x p l o r i n gd e p t h ( p e d ) f u n c t i o ni si n t r o d u c e dt oc o m p u t ee a c hc a n d i d a t eu r l sp e d , d e p e n d i n go nt h er e l e v a n c eo ft h eu r l sp a r e n tp a g et ot h eg i v e nt o p i c t h u s , a f c - p u m gc a r lc o n t r o lt h ee x p l o r i n gr a n g ea n dd e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摄影色彩基础知识培训课件
- 摄影后期初期课件
- 期货技术考试试题及答案
- 2025合同终止劳动赔偿标准
- 《2025年解除合同协议书范本》
- 2025年物流行业合同法若干关键问题
- 2025设备租赁和维护管理合同协议书
- 公司防洪避险知识培训课件
- 公司金融知识培训大纲课件
- 搬运工培训课件
- 2025年士官套改理论考试题库
- 2025学校预防基孔肯雅热实施方案范文一
- (2025)汽车驾驶员(技师)考试题库及答案
- 2025年人才发展常识试题及答案
- 成都盐道街中学实验学校数学新初一分班试卷含答案
- 2021-2022学年最新沪科版九年级物理第十三章内能与热机综合练习练习题
- 外科护理学教案骨科部分
- 用句子记住高考英语单词-200个句子涵盖了全部高中单词(共37页)
- 学校及附属设施建设施工方案 (1)
- 腰椎爆裂性骨折伴截瘫护理查房
- 田英章临欧楷《心经》
评论
0/150
提交评论