




已阅读5页,还剩73页未读, 继续免费阅读
(国际贸易学专业论文)基于本体的主题网络蜘蛛研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着网络技术及信息技术的迅猛发展,搜索引擎已成为人们获取信息的主 要手段。然而传统搜索引擎的查全率及查准率不高,搜索效率低下,越来越不 能满足人们的需要。因此,针对特定领域的垂直搜索引擎逐渐成为发展趋势, 它能更快速、准确的定位信息,提供更个性化、更专业的搜索服务。 主题网络蜘蛛是垂直搜索引擎的关键组成部分,直接决定了垂直搜索引擎 的质量。它能自动对u r l 进行主题识别,提取网页链接,下载相应的信息。目 前的主题网络蜘蛛大多采用传统的关键词匹配模式,无法识别关键词的一词多 义或者一义多词的情况,也无法从语义的层面来智能的识别搜索意图并对网页 进行智能分类。 本体可以解决语义异构的问题,促进知识共享,实现概念上的互操作。本 体论为语义搜索提供了可共享、概念化的知识体系,是语义搜索中实现知识理 解和推理的基础。因此将本体论与主题网络蜘蛛结合,可以提高网络信息服务 的智能化与自动化,为语义检索中实现知识理解和推理提供基础,为用户共享 知识提供便利。 本文从研究与设计的角度出发,以本体和垂直搜索引擎的理论为基础,分 析了主题网络蜘蛛的研究现状、不足之处、组成结构和工作原理,设计了基于 本体的主题网络蜘蛛系统,该系统能够对用户的真正意图进行识别,为用户提 供更规范及详细的结果输出。随后,本文介绍了该系统的开发环境、基本框架 及各模块的功能,包括页面抓取模块、页面分析模块、主题相关性分析模块及 排序模块,并对各重要模块的算法流程进行了详细说明。另外,本文设计并 实现了电子商务领域本体,主要分析了电子商务领域概念及概念间的语义关 系,详细解释了电子商务领域本体的需求分析和框架结构设计,采用本体编辑 工具p r o t 6 西构建了电子商务领域本体。最后,介绍了系统实现的关键技术, 包括主题相关度分析、网页排序、网页解析,中文分词和网页消重技术,重点 介绍了主题相关度分析和网页排序技术,提出了基于w o r d n e t 语义词典一电子商 务领域本体的主题相关度分析算法和基于本体的概念相似度计算方法 - p a g e r a n k 算法的网页排序算法。 关键词:主题网络蜘蛛,垂直搜索,领域本体,主题相关度 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e t w o r ka n di n f o r m a t i o nt e c h n o l o g y , s e a r c h e n g i n e sh a v eb e c o m et h ep r i n c i p a lm e a n sf o rp e o p l et og e ti n f o r m a t i o n h o w e v e r , t r a d i t i o n a ls e a r c he n g i n e s r e c a l la n dp r e c i s i o nr a t i oi sn o th i g h ,s e a r c he f f i c i e n c yi s l o w , a n di t c a nn o tm e e tp e o p l e sn e e d s t h e r e f o r e ,t h ed o m a i n s p e c i f i cv e r t i c a l s e a r c he n g i n e sh a v eg r a d u a l l yb e c o m et h et r e n d ;i tc a nl o c a t ei n f o r m a t i o nm o r e r a p i d l ya n da c c u r a t e l y , a n dp r o v i d em o l ep e r s o n a l i z e da n dp r o f e s s i o n a ls e a r c h s e r v i c e s t o p i cw e bc r a w l e ri st h ec r i t i c a lc o m p o n e n to fv e r t i c a ls e a r c he n g i n e ,a n d d e t e r m i n e st h eq u a l i t yo fv e r t i c a ls e a r c he n g i n e s i tc a ni d e n t i f yt h et h e m eo fu r l a u t o m a t i c a l l y , e x t r a c tw e bs i t el i n k s ,a n dd o w n l o a dt h ec o r r e s p o n d i n gi n f o r m a t i o n a tp r e s e n t , t o p i cw e bc r a w l e rm o s t l yu s et r a d i t i o n a lk e y w o r d sm a t c h i n gm o d e l ,i t c a nn o td i s t i n g u i s hp o l y s e m yo rs y n o n y mo ft h ek e y w o r d s ,i ta l s oc a nn o ti d e n t i f y s e a r c hp u r p o s ef r o mt h es e m a n t i c a s p e c ta n dc l a s s i f yw e b s i t ei n t e l l e c t u a l l y o n t o l o g yc a ns o l v et h ep r o b l e mo f s e m a n t i ch e t e r o g e n e i t y , p r o m o t ek n o w l e d g e s h a r i n g , a n dr e a l i z et h ec o n c e p t u a li n t e r o p e r a t i o n i tp r o v i d e sas h a r e a b l e ,c o n c e p t u a l k n o w l e d g es y s t e mf o rs e m a n t i cs e a r c h ,a n di s t h eb a s i so fr e a l i z ek n o w l e d g e u n d e r s t a n d i n ga n dr e a s o n i n go fs e m a n t i cs e a r c h t h e r e f o r e ,c o m b i n i n go n t o l o g y w i t ht o p i cw e bc r a w l e rc a ni m p r o v et h ei n t e l l e c t u a l i z a t i o na n da u t o m a t i o no f n e t w o r ki n f o r m a t i o ns e r v i c e s ,p r o v i d eab a s i sf o rr e a l i z ek n o w l e d g eu n d e r s t a n d i n g a n dr e a s o n i n go fs e m a n t i cs e a r c h ,f a c i l i t a t ek n o w l e d g es h a r i n gf o ru s e r s f r o mt h er e s e a r c ha n dd e s i g np o i n to fv i e w , t h i sp a p e rh a sa n a l y z e dt h e r e s e a r c hs i t u a t i o n ,t h ed e f i c i e n c y , t h ec o m p o s i t i o ns t r u c t u r ea n dt h ew o r kp r i n c i p l eo f t o p i cw e bc r a w l e r , d e s i g n e da no n t o l o g y b a s e dt o p i cw e bc r a w l e rs y s t e m ,b a s e do n t h et h e o r yo fo n t o l o g ya n dv e r t i c a ls e a r c he n g i n e t h es y s t e mc a l li d e n t i f yu s e r st r u e i n t e n t i o n ,p r o v i d em o r es t a n d a r d i z e da n dd e t a i l e do u t p u tf o ru s e lt h e n , t h i sp a p e r i n t r o d u c e dt h es y s t e m sd e v e l o p m e n te n v i r o n m e n t ,b a s i cf r a m e w o r ka n dt h ef u n c t i o n o f e a c hm o d u l e ,i n c l u d i n gp a g ec r a w lm o d u l e ,p a g ea n a l y s i sm o d u l e ,t o p i cr e l a t i v i t y a n a l y s i sm o d u l ea n ds o r tm o d u l e ,a n dd e s c r i b e dt h ea l g o r i t h mf l o w o fe a c h i m p o r t a n tm o d u l ei n d e t a i l i na d d i t i o n ,t h i sp a p e rh a sd e s i g n e da n dr e a l i z e dt h e n e - c o m m e r c ed o m a i no n t o l o g y ,m a i n l ya n a l y z e dt h es e m a n t i cr e l a t i o nb e t w e e n e - b u s i n e s sd o m a i n c o n c e p t s ,e l a b o r a t e d t h e r e q u i r e m e n t a n df r a m e w o r ko f e - c o m m e r c ed o m a i no n t o l o g y , a n dc o n s t r u c t e di t b yp r o t 6 9 6 f i n a l l y , t h i sp a p e r i n t r o d u c e dt h ek e yt e c h n o l o g yo fs y s t e m ,i n c l u d i n gt o p i cr e l a t i v i t ya n a l y s i s ,p a g e r a n k i n g ,w e ba n a l y t i c ,c h i n e s ew o r ds e g m e n t a t i o na n dd u p l i c a t e dp a g ee l i m i n a t i o n t e c h n o l o g y , e s p e c i a l l yt h ef i r s tt w o i tp r o p o s e dat o p i cr e l a t i v i t ya n a l y s i sa l g o r i t h m b a s e do nw o r l d n e ta n de - c o m m e r c ed o m a i no n t o l o g y , a n dp a g er a n k i n ga l g o r i t h m b a s e do no n t o l o g y b a s e dc o n c e p ts i m i l a r i t yc o m p u t a t i o na n dp a g e r a n ka l g o r i t h m k e yw o r d s :t o p i cw e bc r a w l e r , v e r t i c a ls e a r c h ,d o m a i no n t o l o g y , t o p i cr e l a t i v i t y 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:日期: 关于学位论文使用授权的声明 本学位论文作者完全了解武汉理工大学有关保留、使用学位论文的规定。 特授权武汉理工大学可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 研究生签名:堡攫导师 日期: 武汉理l :大学硕士学位论文 1 1 研究目的与意义 第1 章绪论 随着互联网的快速渗透,网络应用日趋丰富,网络已成为人们日常生活和 工作的必须平台,在促进网民获取信息、拓展入际交往、鼓励社会参与、提供 实际生活便利等方面发挥着积极作用。如表1 1 所示,根据中国互联网信息中 心公布的第2 5 次中国互联网络发展状况统计报告【1 j 可以看出,截止2 0 0 9 年1 2 月3 0 日,中国网民规模达到3 8 4 亿人,较2 0 0 8 年底年增长8 6 0 0 万人, 在总人口中的比重从2 2 6 提升到2 8 9 ,互联网普及率在稳步上升。如表1 1 所示,在网络使用率排名中,搜索引擎的使用率为7 3 3 ,较2 0 0 8 年增加了5 3 个百分点,超过了即时通信成为网民使用互联网的第三大应用。 搜索引擎已成为网民分享信息、获取信息的重要手段,深刻影响着网民的 网络生活和现实生活。但是海量信息在丰富了人们的信息来源的同时,也给人 们获取信息造成了困扰。网上的信息浩如烟海,网页信息的质量难以得到保证, 同时大量重复的网页,也增加了搜索的难度。如何在这些信息中找到自己所需 的信息是一件非常费时费力的工作。因此如何提高信息的搜索效率和搜索效果 成为亟待解决的问题。 表1 1 各类网络应用使用状况及用户增长 类型应用2 0 0 8 年使用率2 0 0 9 年使用率用户增长率使用率排名增长率排名 网络娱乐网络音乐8 3 7 8 3 5 2 8 8 11 1 信息获取网络新闻7 8 5 8 0 1 3 1 5 29 信息获取 搜索引擎 6 8 0 7 3 3 3 8 6 37 l 交流沟逶 即时通信 7 5 3 7 0 9 2 1 6 41 3 网络娱乐网络游戏6 2 8 6 8 9 4 1 5 56 网络娱乐网络视频6 7 。7 6 2 6 1 9 0 6 1 4 l 交流沟通 博客应用 5 4 3 5 7 7 3 6 7 78 + 交流沟通 电子邮件 5 6 8 5 6 8 2 9 o 81 0 泣流沟通。社交网站 4 5 8 9 武汉理l :人学硕十学位论文 表i 1 各类网络应用使用状况及用户增长( 续表) 网络娱乐网络文学 4 2 3 1 0 陵流沟通: 论坛b b s3 0 7 3 0 5 2 8 6 1 11 2 商务交易 网络购物2 4 8 2 8 1 4 5 。9 1 25 商务交易 网上银行1 9 3 2 4 5 6 2 3 1 34 商务交易网上支付 1 7 6 2 4 5 8 0 9 1 4l 商务交易网络炒股 1 1 4 1 4 8 6 7 0 1 53 商务交易旅行预订5 6 7 9 7 7 9 1 6 2 主题网络蜘蛛是垂直搜索引擎的关键部分,直接决定了垂直搜索引擎的质 量。主题网络蜘蛛在搜索i n t e r n e t 时会对u r l 进行主题识别,判断是否符合特 定领域的网站,可以减少无关页面文档的搜集,增加采集页面的规范程度,同 时节约带宽,提高信息搜索的效率。 但是主题网络蜘蛛也存在一些问题,主要有以下几点: ( 1 ) 现有的主题网络蜘蛛无法对网页进行智能分类; ( 2 ) 进行关键词搜索时,往往无法识别一词多义或者一义多词的情况,返回 的结果也不能让用户满意; ( 3 ) 无法对知识进行识别,无法理解用户所需,因此无法满足用户的需求: ( 4 ) 在搜索引擎的发展过程中,现有的大部分的搜索引擎都对于英文分词有 较高的识别度,搜索返回的结果比较令用户满意。然而中文远比英文复杂,就 中文分词而言,词不是以空格为界来区分,也不是由固定的两个字或三个字组 成,而是要考虑中文习惯及特殊语境等情况,因此,分词的难度和效果都制约 着中文搜索引擎的发展。同样中文的复杂性也影响着网络蜘蛛对信息爬取的有 效性。 基于以上分析,本论文希望通过对本体、垂直搜索和网络蜘蛛的研究,探 索一种新的更好的主题网络蜘蛛,使得网络蜘蛛能有效的搜索网上的信息,提 高搜索效率和搜索质量。本论文的主要目的是将本体与主题网络蜘蛛结合,使 其能在现在海量的网络资源中对知识进行发现、对信息进行智能化处理;设计 出一套基于本体的主题网络蜘蛛系统,使得这套系统能够对用户的真正意图进 行识别,明确并缩小搜索范围,减少对无用信息范围的检索,同时,对不同搜 索引擎返回的结果在语义上进行统一,从而整合知识的不同表达,为用户提供 2 武;疋理1 人学硕士学位论文 更规范及详细的结果输出。 本体的目标是捕获相关领域的知识,是实现知识发现和知识共享的关键技 术,网络蜘蛛的任务是在海量的无序信息中发现有用的信息,是垂直搜索中的 重要组成,将二者结合,可以提高网络信息服务的智能化与自动化,可以提供 对该领域知识的共同理解,为语义检索中实现知识理解和推理提供基础,为用 户共享知识提供便利。还可以为专注于行业信息的人提供更有价值的服务。 1 2 国内外研究综述 1 2 1 网络蜘蛛综述 网络蜘蛛( w e bs p i d e r ) 也称为网络爬虫( w e bc r a w l e r ) 或网络机器人 ( r o b o t ) ,是搜索引擎的重要组成部分【2 1 ,出现至今已经有十多个年头,发展 极为迅速。可分为通用网络蜘蛛与专必主题网络蜘蛛。主题网络蜘蛛从9 0 年 代中期的文本分类工作发展而来,是垂直搜索引擎的关键部分,直接决定了垂 直搜索引擎的质量,现在已成为一个热点的研究领域。 国内外网络蜘蛛的研究可以分为理论基础和应用技术研究,前者以优化网 络蜘蛛的搜索策略为重点,代表性的有f i s hs e a r c h l 引、i n t e l l i g e n tc r a w l i n g 和 p a g e r a n k 算法。后者以研究开发一些能改进现有搜索效率的系统为重点,代表 性的有c o r a l 4 , 5 1 、i b mf o c u s e dc r a w l e r 【6 7 】和g o o g e l b o t 。 c h a k r a b a r t i 是最早提出主题检索和聚焦检索概念的人之一,他采用巩固学 习的方法来对即将爬行的网页作出智能性判断与选择,实现了一个免定制和存 储管理的专业爬行器i 引。 最早的网络蜘蛛模型之一是由d eb r a 等人在1 9 9 4 年提出的f i s hs e a r c h l 习 系统。它是一个基于客户端的实时信息检索系统,基于相关页面在逻辑上彼此 接近的假设,采用深度优先算法搜索相关页面,并用一组关键词和短语判断页 面的相关性。随后在1 9 9 8 年和1 9 9 9 年出现了s h a r k 搜索系统1 9 l 和主题爬虫 f o c u s e dc r a w l e r i 彻。 国内对网络蜘蛛的研究相对国外来说起步要晚,但是也取得了不少成果。 理论研究方面,杨德仁等1 1 0 l 提出了一种知识相关度计算模型,可计算页面的知 识含量;钱榕等1 1 1 】介绍了c n ( c & s ) 算法,该算法采用加强学习判断网页与主题 3 武汉理i :人学硕七学位论史 的相关度,不仅实现了快速查找相关信息的智能化,还对爬过的网页进行了分 类;王晓伟【12 i 在其硕士论文中提出网络蜘蛛可以采用“加强学习”等人工智能 的方法来指导网络蜘蛛的页面抓取工作:罗立宏等1 1 3 j 综合通用搜索引擎与分类 目录的优势,对垂直搜索引擎进行了研究与分析,提出了搜索分析的新概念一 规则。应用技术研究方面,马亮等1 1 4 j 设计了一个处理中文信息的主题信息搜集 系统i r o b o t ,对已收集页面的主题相关度评价上,综合考虑页面的标题、锚文 本等对于页面评价具有较高价值的特征区域;曹忠等【1 5 l 主要从多线程并行下载 提高速度,并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间 需求这两方面来优化网络爬虫。 现在的应用技术研究主要偏向于通用的搜索引擎中的通用网络蜘蛛,没有 进行页面内容和链接间关系的分析,不能依据用户的兴趣或偏好提供个性化的 检索信息,信息实时性差,无法对异构数据进行协同,也无法对知识进行理解。 1 2 2 垂直搜索引擎综述 垂直搜索引擎也被称为专业搜索引擎,或主题搜索引擎【1 6 1 ,它并不是普通 搜索引擎的专业版,而是一种全新的搜索引擎服务模式,是搜索引擎的细分和 延伸。它是针对某一特定领域、某一特定人群或某一特定需求的专业搜索引擎。 目前许多针对特定领域的垂直搜索引擎应运而生,成为各类人士必不可少的专 业搜索工具,如g o o g l ec o d e 、2 5 8 c o m 商业搜索、去哪儿旅游搜索、酷讯生活 搜索和d e e p d o 找工作搜索等。 垂直搜索引擎相对于传统的搜索引擎来说,主要有以下几个优势: ( 1 ) 采集的学科范围小,总的信息量相对较少,可以保证用专家分类标引的 方法对采集到的信息进行组织整理,进一步提高信息的质量,以建立一个高质 量、专业的、能够及时更新的索引数据库; ( 2 ) 由于只涉及一个或几个领域,词汇和用语的一词或一字多义的可能性大 大降低,而且可利用专业词表进行规范和控制,从而大大提高了查全率和准确 率; ( 3 ) 信息采集量小,网络传输量小,有利于网络带宽的有效利用; ( 4 ) 索引数据库的规模小,有利于缩短查询响应时间,还可采用复杂的查询 语法,提高用户的查询精度; ( 5 ) 数据规模的降低可以节省搜索引擎的投资成本,用普通的计算机硬件即 4 武汉理 :人学硕七学位论文 可建立高质、高效的垂直搜索引擎。 垂直搜索引擎的应用方向很多,如企业信息搜索、求职信息搜索、购物搜 索、房产搜索、地图搜索、音乐搜索、图片搜索等等,几乎各行各业、各类信 息都可进一步细化成各种类型的垂直搜索引擎。 国外具有代表性的垂直搜索引擎有s c i r u s 、f o c u s e dp r o j e c t 系统【1 7 】和 c o l l e c t i o nb u i l d i n gp r o g r a m 等。 国内对垂直搜索引擎的研究主要有:李文涮1 8 】在个性化垂直搜索引擎研 究中结合h e r t r i x 和l u c e n e 设计并构建了一个面向手机产品信息的个性化垂 直搜索引擎的原型系统,他还提出基于本体知识库的个性化智能信息采集策略 的实现思路。刘金亮【1 9 j 在其毕业论文中,设计了一个基于搜索引擎n u t c h 和信 息抽取框架g a t e 的汽车行业垂直搜索系统原型,并制作出了一个名为“快搜车 汽车垂直搜索网一的网站的基本框架。吴柏林1 2 0 j 等引入本体的概念,构建基于 本体的垂直搜索引擎系统模型。该模型可对抓取的异构信息进行本体化描述。 王乐【2 1 】分析了信息检索的研究现状及现有技术的不足,提出将本体技术应用于 垂直检索服务,构建了一个电子消费品购物领域本体,提出一个基于领域本体 的垂直搜索引擎系统框架。胡晶晶等1 2 2 1 采用a j a x 技术和模板方式的网页抽取技 术,设计并实现了一个基于垂直搜索的机票比价搜索系统,该系统可以提供给 用户全面的机票信息。 1 2 3 本体综述 本体论是近来人工智能、知识表示、语义w e b 、信息检索和抽取等研究领 域的一个热点,被视为是建立智能系统( 或狭义地,知识表示系统) 的世界观, 是对应用领域概念化的说明。本体可以解决语义异构的问题,促进知识共享, 实现概念上的互操作。i n t e r a c t 搜索引擎技术是本体论应用比较多的领域。本体 论为语义搜索提供了可共享、概念化的知识体系,是语义搜索中实现知识理解 和推理的基础。 p e r e z 等人归纳出本体由概念类、关系、函数、公理和实例五种元素构成【矧。 其中概念可形成概念可形成一个分类层次,并通过关系、函数、公理来表达概 念之间或函数之间的关联、约束。因此,本体能够明确地描述领域概念的定义, 通过概念之间的关系反映概念的语义信息,并为简单的术语赋予明确的背景知 识,从而使隐含的关系明晰化,保障语义的一致性。本体能够在语义和知识层 5 武汉理1 人二硕七学位论文 次上描述信息,其本身具有良好的概念层次结构,支持逻辑推理。因此,本体 特别适合于智能搜索中对概念及其语义的处理。 本体在信息检索领域的应用研究始于2 0 世纪末。目前国内外已经把能描述 信息语义的本体论理念和技术引入到信息检索系统中。 在国外,由英国南安普顿大学与曼彻斯特大学合作开展的c o h s e 2 4 l 项目 的目标是大幅度提高检索互联网上各种文档的效率和有效性,该项目将本体服 务与开放式超媒体链接服务集成,形成了一个概念化的超媒体系统;j e n s g r a u p m a n n 等人p 】开发了一种富于表达能力的基于概念的且有上下文意识的查 询,实现了将x m l 查询语一言的表达能力整合到简单的网络搜索引擎当中。 在国内,文献陋】介绍了利用基于领域本体知识库和一阶谓词推理引擎构建 的语义互联网应用一铁路信息查询系统:袁占亭等人在文献【2 7 l 中提出了一种基 于概念的信息检索系统模型,并给出了它的理论模型和工作机制,其核心技术 是自然语言处理,在其内部,查询和索引都是建立在语义层次上的;孙登峰i 冽 介绍了结构化文档的结构索引以及语义检索中的“上下文共现分析技术,并 在此基础上提出了一个面向x m l 文档的概念检索原型系统;廖乐健等【冽从知 识表示与推理的角度研究了信息抽取智能性的途径,提出了将本体与模板规则 相结合的技术,设计了一个文本信息抽取系统,但是目前抽取的信息仅限于文 本。 1 3 研究内容与方法 1 3 1 研究内容 本文根据国家科技支撑计划“电子商务与现代物流共性集成技术研究开 发 和湖北省自然科学基金“网络环境下基于本体的电子商务推荐系统研究 的两项课题研究的需要,研究电子商务领域知识、本体集成技术等知识,结 合个人的一些研究想法和所掌握的计算机知识,对垂直搜索引擎及其相关技 术,从理论和系统设计的角度上,尝试进行一些有针对性的研究和探讨。 本文主要分析了主题网络蜘蛛的结构和工作原理,研究了本体的相关知 识,以及本体在信息检索中的作用,在主题网络蜘蛛模型的基础上,借助领域 本体,提出了基于本体的主题网络蜘蛛,设计系统的基本框架,并对系统中关 6 武汉理1 人学硕士学化论文 键模块的设计进行研究。 具体来说,本文研究内容主要包括: ( 1 ) 概述垂直搜索引擎、主题网络蜘蛛和本体的研究现状。 ( 2 ) 详细分析了垂直搜索引擎、主题网络蜘蛛和本体的定义、原理以及特点 等。 ( 3 ) 详细分析电子商务领域概念及概念间的语义关系,构建电子商务领域本 体。 ( 4 ) 使用本体把页面上的信息与某些知识结构和规则链接起来,可以较好的 解决信息检索过程中的词汇不匹配的问题,极大提高信息检索的效率和质量。 ( 5 ) 将基于本体的语义概念相似度算法引入到主题网络蜘蛛中。使得主题网 络蜘蛛可以更加智能的理解用户的需求,寻找与主题相关的信息。 ( 6 ) 设计基于本体的主题网络蜘蛛系统框架。通过该系统可以对网络中的信 息进行知识描述及知识发现,可以使爬行分析更加准确,爬行定位更加明确。 1 3 2 研究方法 本次研究采取由浅入深的方法,从了解本体、垂直搜索引擎和网络蜘蛛的 概念、结构等基础知识入手,逐步深入到如何构建本体、网络蜘蛛智能识别主 题的研究中,结合国内外最新的技术和研究成果对主题网络蜘蛛进行分析,取 其精华之处,并逐步形成自己的思想体系。 在武汉理工大学电子商务研究所的研究项目的基础上,针对电子商务领域 进行了详细的研究分析,设计并构建了电子商务领域本体。 在以上的研究基础上,基于综合的研究方法,设计一个基于本体的主题网 络蜘蛛系统。 本文以软件工程理论为指导,将本文的研究分为三个阶段:第一阶段为各 个基础理论研究阶段;第二阶段为系统需求分析阶段;第三阶段为系统详细设 计阶段。 本文的技术路线则从现有的调研成果中分析出所需的数据,根据国内外先 进的研究成果进行整合分析,提取其中和电子商务领域及主题网络蜘蛛相关的 资料进行研究,最终设计一个界面友好的、利于操作的主题网络蜘蛛。 7 武汉理i :人学硕十学位论文 1 4 论文组织结构 本论文的具体研究内容安排如下: 第1 章:绪论。主要介绍了垂直搜索引擎、网络蜘蛛和本体的当前研究 现状,分析总结了网络蜘蛛的不足之处,同时提出了本课题的研究背景和意 义。最后对本课题的研究方法进行了详细说明。 第2 章:主题网络蜘蛛相关理论介绍与分析。主要介绍与分析垂直搜索引 擎的概念与结构、网络蜘蛛的概念与工作原理及本体相关理论,包括本体的概 念、组成、分类、构建。 第3 章:介绍基于本体的主题网络蜘蛛的系统设计。主要包括系统总体结 构设计、系统各个模块设计。并对其中重要模块的流程进行算法说明。 第4 章:电子商务领域本体的设计与实现。主要对电子商务领域本体进行 需求分析和框架结构设计。重点研究其各个概念、属性之间的语义关系,并对 其具体实现进行详细说明。 第5 章:介绍本系统所采用的关键技术,包括主题相关度分析、中文分词、 网页解析等。 第6 章:全文总结与研究展望。对工作的结果进行了总结并探讨了下一步 的研究方向。 8 武汉理i 人学硕十学位论文 第2 章相关理论基础 2 1 垂直搜索引擎概述 2 1 1 垂直搜索引擎的概念 垂直搜索引擎,又称主题搜索引擎,是搜索引擎发展到一定阶段的产物, 是针对通用搜索引擎查全率和查准率低而改进的新的搜索引擎服务模式,是通 用搜索引擎的细化和延伸。它保证了对某领域信息的完全收录与及时更新, 能为用户提供针对性更强、精确性更高的信息检索服务。 垂直搜索引擎是针对某一个行业、某一特定人群或某一特定需求的专业搜 索引擎。它将网页中的某一类专门信息进行结构化信息抽取,将网页中的非结 构化数据抽取成特定的结构化信息数据,然后将这些数据进行深度加工处理( 如 去重、分类、分词、索引等) ,抽取其中极具针对性的、有价值的具体信息,最 后再以搜索的方式返回给用户。 其服务模式如图2 1 所示: 更换搜索工其 不; 将检 用户 索结 一是 需求 果返的得 回给到满 用户足 图2 1 垂直搜索引擎的服务模式 为了更容易理解,现举例来具体说明,比如比较购物搜索引擎 w w w s m a r t e r c o m ,它提供网上商家全方位的信息比较,帮助消费者做出明智的 购物选择,其界面如图2 2 所示。s m a r t e r 暂时只支持英文搜索。 9 武汉理】凡宁硕十学位论文 - n t t 螨髋 掣回一,。岛 盥蟹 w p d 岬 , 一”一一i q 图2 2 s m a a c r 界面 它所抓取的数据来源干其关注的一些行业站点,抓取网页后,对网页中的 信息进行结构化的抽取,抽取出商品名称、品牌、价格等,然后对信息进行去 重、分类等再加工处理,最后通过信息检索功能,返回用户所需的商品市场情 况。 一一一n :二 “ 嗣掣“翟:鲻 武汉理i 上学碗t 学位论空 该网站将电脑细分成品牌、型号、颜色、内存、硬盘,疑示器、重量等等, 当在搜索条件处输入c p u 时,页面j 二显示出了所有符合搜索条件一“c p u ”的 商品,包括该商品的名称、简介、价格等基本信息。最终的搜索结果如图2 3 所示。 2 1 2 垂直搜索引擎的结构 随着搜索引擎研究的越来越多,许多研究人员都设计了垂直搜索引擎系统。 不同的设计者,不同的设计领域和设计目的,都使得所设计的垂直搜索引擎的 结构太不相同。但是一个垂直搜索引擎最少包含以下三大部分,如图2 4 所示: 抓取系统索引系统和搜索系统: 信息搜集信息整理信息查询 网络资源 t 一_ 匡三三旮 一、 i 迎墼型 碰壶稿碰盏岿每双 图2 4 垂直搜索引擎系统结构 查询界面 ( 1 ) 抓取系统,也就是蜘蛛程序,是搜索引擎的重要组成部分主要负责从 信息源抓取数据。它的性能决定了搜索引擎索引网页数量、质量和更新周期及 搜索内容的好坏。蜘蛛程序通常是基于预先构造的模板工作的,无模扳的蜘蛛 程序只能处理结构相对简单的信息。抓取系统涉及的关键技术主要有爬行路径 分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整 合、自动标引等; ( 2 ) 索引系统,主要功能是把蜘蛛程序抓来的信息进行分析,提取网页信息, 包括u r l 、编码类型、页面内容中的关键词、网页生成时间、大小、链接数目 武汉理工人学硕t 学位论文 等等,根据页面内容的相关程度,建菠类似书目的数据文件,以便于实现高速 检索,提高查询性能。索引系统涉及的关键技术主要有分词技术、预评分和后 评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等; ( 3 ) 检索系统, 主要提供用户检索界面,根据用户的查询要求,在信息数 据库中快速检索出与之相关的所有信息集合,将检索出的信息与查询要求进行 相关度评价,然后按照一定的规则,将信息反馈给用户。目前,搜索引擎返回 的结果主要是以网页链接的形式显示的,通过这些网页链接,用户便能到达含 有自己所需资料的网页。 2 2 主题网络蜘蛛概述 2 2 1 主题网络蜘蛛的概念 网络蜘蛛( w e bs p i d e r ) ,又称网络爬虫( w e bc r a w l e r ) 或网络机器人 ( r o b o t s ) ,是指在互联网上不间断的执行搜索信息的软件程序。它可以为搜索 引擎自动提取网页,是搜索引擎的重要组成部分。 关于s p i d e r 的定义,目前在学术界没有很明确的说法,但是通用的说法有 广义与狭义两种i 则: 从狭义上来说,w e bs p i d e r 是一个软件程序,它采用标准的h r t p 协议, 根据超链接和w e b 文档检索的方法遍历互联网信息库。 从广义上来说,所有利用h 1 曙协议检索w e b 文档的软件都可以称为w e b s p i d e r 。 主题网络蜘蛛( f o c u s e dc r a w l e r ) 是一个自动下载网页的程序,专门采集 某一学科、某一主题、某一行业范围的信息资源。它根据预先设定的领域进行 主题识别,有选择的访问网络上的网页及相关链接,抓取既定的目标,用详细 和专业的方法对信息资源进行标引和描述,获取所需要的信息。 主题网络蜘蛛是垂直搜索引擎的重要组成部分,是为了解决通用网络蜘蛛 搜索范围大、信息广泛却不精、页面更新不及时等问题而提出的。它能对既定 领域进行更深入的挖掘和更及时的数据更新,充分利用有限的计算机资源将无 限的网络数据资源中用户所关心的信息返回给用户,提供更为专业的信息检索 服务。 武汉理 人硕 学位论文 2 2 2 主题网络蜘蛛的工作原理 传统的网络蜘蛛从一个或一系列初始网页的u r l ( 通常是各个网站的首页) 开始,不断的从当前的页面上抽取新的u r l ,并读取网页的内容,然后一直重 复此过程,直到满足系统设定的条件彳停止,如系统遍历完该网站的所有网页, 就停止该程序。详细流程如图2 5 所示: 、主题网络蜘蛛是以通用网络蜘蛛为基础的,是对通用网络蜘蛛的扩充,因 此相较于通用网络蜘蛛来说,主题网络蜘蛛还需要解决三个主要问题: 抓取目标的设定。 对抓取的网页或数据进行分析与过滤。 1 3 晏 武汉理l :大? 硕 学位论文 网页链接搜索策略的制定。 因此,虽然主题网络蜘蛛是对通用网络蜘蛛的扩展,其工作流程也是在通 用网络蜘蛛的基础上进行改进的,但相较于通用网络蜘蛛来说,主题网络蜘蛛 的工作流程较为复杂,其复杂之处首先在于需要根据抓取目标的设定,来决定 网页分析算法与网页链接爬行策略;其次在于需要对抓取下来的网页进行筛选, 根据计算出的各个网页之间的相关度,按照相关度大小来删除与主题无关的链 接,只留下与主题相关的网页;最后在于对于剩下的、与主题相关的链接,需 要根据候选链接排序算法来决定爬行顺序的先后,可以按照主题相关度大小来 依次访问,相关度大的优先访问。 c塑) 臣自 运行待爬行u r l 队列 了 臣圃 图2 6 主题网络蜘蛛流程图 1 4 面 武汉理l :大学颁十学何论文 但是主题网络蜘蛛与通用网络蜘蛛对于如何爬取网页的摹本原理是相似 的。都是在抓取网页的h t m l 文档后,抽取其中的特征信息和超链接信息,然 后进行网页分析和过滤。其详细流程如图2 6 所示。 在整个爬行过程中所有被抓取的网页都将被系统存储在指定地方,然后会 将这些网页进行一定的分析、过滤,去掉重复的链接、内容等,将最终的结果 建立倒排索引,以便之后的查询和检索所用。对于主题网络蜘蛛来说,在这一 过程中得到的分析结果还可以对以后的爬行过程提供反馈和指导。 2 2 3 主题网络蜘蛛的结构 随着垂直搜索引擎的发展,关于主题网络蜘蛛的研究越来越多,也越来越 深入,不同的研究人员根据不同的需求,研究设计了许多种主题网络蜘蛛,每 一个主题网络蜘蛛都有其独特之处。但是一般来说,一个主题网络蜘蛛最少要 包括以下三个关键组成部分: ( 1 ) 爬行模块。该模块是任何网络蜘蛛都不可缺少的通用模块,是网络蜘蛛 所有工作的基础。一般的网络蜘蛛都设有初始爬行的u r l 库,爬行开始时,从 初始爬行u r l 库中的u r l 开始,不停的抓取页面,利用唧协议下载相应 的网页,解析该网页中的u r l ,将该u r l 相应的网页爬行到本地。然后,将 该页面交给网页相关度分析模块处理,判断其与主题的相关性。 ( 2 ) 网页相关度分析模块。为了保证主题网络蜘蛛抓取的网页是与设定的主 题相关的,必须对网页的主题相关性进行确定。根据主题相关度的计算结果来 确定,若计算出来的值大于或等于给定的阈值,则该页面与主题相关,可以将 该页面放入页面库中,否则将其删除。 ( 3 ) 网页链接分析模块。主要用于分析在爬行过程中得到的页面与主题的相 关程度,并提供相关的网页链接爬行策略来指导网络蜘蛛的爬行过程。主题网 络蜘蛛的爬行策略一般采用主题相关优先( t o p i c f i r s t ) 策略。根据页面与主题 的相关度值的大小来确定候选链接的排序。u r l 的优先权值越高,则在候选链 接队列中的位置就越靠前,爬行的优先级就越高。反之,若发现某链接与主题 无关,则将该u r l 及其隐含的子链接都删除。 武汉理l :大学吹十学位论文 2 3 本体理论 2 3 1 本体的定义 本体( o n t o l o g y ) ,即“本体论”或“存在论”,是一个哲学上的概念,指 的是客观存在的一个系统的解释和说明,客观现实的一个抽象本质。近来随着 知识表示、语义w e b 等研究领域的发展,本体被视为是建立智能系统( 或狭 义地,知识表示系统) 的世界观,是对应用领域概念化的说明,是一个领域知 识的规范化描述。 本体在知识工程领域的定义最先由斯坦福大学知识系统实验室的g r u b e r 提 出:“本体是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、 可互操作的系统通信协议和特定领域理论的表示协议。在知识共享环境中,本 体以定义表达词汇的形式来获得描述。 【3 l j 而后德国卡尔斯鲁厄大学的s t u d e r l 3 2 】 等学者对这一概念进行精化,提出:“本体是共享概念模型的明确的形式化规范 说明 。1 3 3 j 这个概念被认为是迄今为止最准确的定义,被大部分研究学者广泛引 用。 f e n s e l 和s t u d e r 等学者对此定义进行分析总结后,认为本体的概念包括以 下4 个主要方面【蝴l : ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) 或概念化:通过抽象出客观世界中一些 现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环 境状态; ( 2 ) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定义; ( 3 ) 形式化( f o r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设计风格应用规范
- 2025西安外事学院辅导员考试试题及答案
- 2025辽宁税务高等专科学校辅导员考试试题及答案
- 2025贵州黔南科技学院辅导员考试试题及答案
- 2025茅台学院辅导员考试试题及答案
- 2025福州黎明职业技术学院辅导员考试试题及答案
- T/ZGZS 0308-2023废活性炭热处理再生技术规范
- 机器人学导论 课件 第二章-2.1节-位姿描述与变换
- 儿童性心理卫生
- 房地产管理员考试试卷及答案2025年
- 低龄儿童龋的临床管理专家共识
- 2023年生药学应考试题库有答案
- 公共机构节能量保证型、能用费用托管型合同能源管理项目合同文本模板示例
- 普鲁士蓝类正极材料未来可期
- 智能吓数纸培训手册
- 未带有效居民身份证考生承诺书
- 原子分光光度法测定水中重金属镉的含量
- 学生实习安全及突发事件应急预案
- 新教材高一必修下册《游园》教案
- DIN1783厚度在0.35mm以上冷轧的铝及铝塑性合金带材和板材、尺寸
- 低风险FOF产品方案设计目标最大回撤3%以内的投资策略
评论
0/150
提交评论