(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf_第1页
(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf_第2页
(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf_第3页
(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf_第4页
(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于行业的个性化搜索引擎的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 目前的搜索引擎大多是综合性的,收录各方面、各学科和各行业的信息,在反映专 题或专业化信息方面很难做到全、快、准。因此课题完成了基于行业的个性化搜索引 擎。 该论文总体分为六个部分,首先实现了网络爬虫。网络爬虫从网络上不断爬取网 页,分析网页中包含的链接并且进入链接爬取相关联网页,爬取到的网页保存在本地机 器中;接着进行网页分析。对网络爬虫爬取到的网页加以分析,去除网页中的控制命令 和格式,只保留内容;然后进行切分词语。对保存的内容做中文的词语切分,形成单体 的关键词;然后使用倒排表和散列表相结合的技术,对经过切分词语分析之后的网页内 容建立词索引;接下来是检索器。对用户输入的查询内容做词语切分,查找网页,对查 找的结果进行全面分析并评分,排序输出;最后,将最新的行业信息通过邮件的方式发 送给相关的用户。另外,课题还实现了动态的扩展词库,能单个或者批量的添加新词。 论文将搜索引擎与行业结合,通过两种方法体现了行业的特性,首先,抓取网页的 网络爬虫选用的初始网页是某个行业的中心网页,通过这个行业中心网页可以链接到很 多与行业有关的网站;其次,选用这个行业的词库来建立倒排索引。比如医药行业,需 要选择医药行业的一个中心网页作为网络爬虫的初始网页和一个医药词库。论文的创新 点在于个性化的体现,用户能够通过邮件的方式及时准确的得到感兴趣的行业信息。 基于行业的个性化搜索引擎的建立,使查询结果更加行业化、个性化。 关键词:搜索引擎,医药行业,网络爬虫,倒排索引 北方工业大学硕士学位论文 h l d i v i d u a ls e 鲫c he n g i l l e 铷) p l i c a t i o nb a s e do ni 1 1 d u s 时 a b s 仃a c t a tp r e s 饥t ,l 湘s to f m eq m 均n ts e a r c h 咄c sa r ec o l i r 呻既咖觚dc o n t a i l la l l 唧c c t s o fm ed i s 咖l 幽a n d 埘u :哪敞嘞撕o n ,砌c ha r ev 吖d i 伍叫tt ob e 劬,触觚d c 啷l t ei l lr e n e c t i n g 吐圮白o p i co fi 1 1 】勋m a l i o n n 嵫娟) r e ,l n ys i i b j o c t 、) l ,i n 矗n i s hm es 髓r c h e 苴:四m eb 硒e do ni 1 1 d l l s 时 7 1 1 1 er e s e a r c ha b o u t 圮s e 砌le l l g i i l eb a s e do ni n d i l s t 巧i sd i v i ( 1 i 甜h 炯丘v ep a n s , w e b l w l e r 1 w lo nm ep a g ea l lm e 妇位,a 1 1 a l y z em el i l l k si l l c l u d e d 证 m ep 学锄d 训i l 】幻m e 蛐t 0 鲥m ep a g e s 驯o a d e di nm e1 0 c a lm a c h m ; s i i n p h 眠知1 a 1 ) i z e 1 ep a g 髂砌c ha 阳c r a _ w l e db yw e b c h w l e r ,砌:1 1 0 _ 鸭n l ec o n 舡o lo r d e f a n d 角n 1 1 a to nt l l ep a g pa i l d 凇n a i nt h ec o n t e n t0 1 1 l y ;a 砌y z e r 王x e c u t em es e 酉玳埴i t a d o no f t h ec 1 1 m e s ew o r d sb 鹪。do nd l er e m a i l l 血gc 0 嫩t si no r d 盯t o 向m k 毋w o r d s ;c 】鼢t ei n d e x 、) i ,i mm ek e 刚l ,o r d sb ym c 砌i n a l i o no f i l l :删t a b l e 趾dh a s ht a b l e ;s e a r c h e x 训ew 矾 s 唧e i _ 出血o nb yt 1 呤u s e f sq l l a 叮,缸dm ep a g p ,a n a l y z e 吐1 er 豁_ u l t sc c i 盯呻口i s j v e _ l y 姐d s c o r e ,蕊dt 量l e ns o 啦o u 圭;f i i l a l l y ,s 甜l d 吐l el a :t e s ti i l 出l s 臼黟i 1 1 a 矗o nt 0 幽er e l 删1 】s e 据b y e m a i l h la d d i 石。玛1 es u b j e c ta l s oa c m c v ead y l l a l l l i ce x p a l l s i o no f 吐1 ev o c a 枷a 巧w k c hy o u c a 咀a d ds i l l 酉e w o r d o r a n e w ba :t c :h o f w o r 凼 t h e p a p l e ri sac 0 i 1 b i i l a 墩mo f i l l d l l s 时锄ds 翩r c h 既i 西n e 田h a r et w ow a y st 0a 1 1 b o d y t 量l ec h 娥i c t 嘶s t i c so f 1 ch i u s 仃y ,缸t l y ,坨i i l i t i a lp a g cc h o o s e db yw e b c i m w l e ri sac 胁眈 w e b s i t c 址i o u t 廿l ei i l d l l s 仃y ,w 1 1 i c :hc a l ll i r 墩t om 锄yi 1 1 d l 蚓町,州a t e ds i t 锊;s e c o n d l y ,c r e a t e i 1 1 v 瞰o di n d e xb yv o c 批l a 巧曲o u tm ei i l d l l s 时t 址i i l gt l l ep l 捌1 i 】烈飙l t i c a li i l d l l s 时弱a n e ) 【锄p l e ,y ( mn e e dai 面t i a lp a g e 蕊dav o c 址越a 黟曲 o m 也ep l l a n n a c 础i e a l 如d l l s 时t h e i n n ( ) v a 虹o np o mo fm ep 印i 盯i s 也e 既n b o d i i l l 咖o f p 瓢删i 够l l s e f sc a n 耐i i l 觚t e di n d l 啪, i i l :断m 撕o n 血1 e l ya n da c a l r a 埘yb ye 胁a i l t h ee s t a b l is :1 1 i i l e n t 砒1 0 u tt l l es e 疵he l :l 垂n eb a s e do ni i l d l l s 时m a k e sm es e a r e hr e s u l t s m o f ep r o 慨s i 伽l a l 锄di 1 1 d i 讥d l l a l k e yw o r d s :s e a r c he n g i n e ,n i a 朋唿c e u 廿c a lh d u s 旬呵,w 曲c r a w l e r h v e r t a d i l i d e 墨 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得j 丝友王些太堂或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名多豸,签字日期:坼歹月垆 学位论文版权使用授权书 本学位论文作者完全了解j 曼友王些太堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权j 生友工些盔堂可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:少玛、 签字日期磷歹哆日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字魄蹲歹哆 电话: 邮编: 北方工业大学硕士学位论文 1 引言 本章主要说明课题的背景和来源,国内外相关课题的研究情况,本文工作以及论文 大纲。 1 1 论文的研究背景 互联网络从早期的a r p a n e t 到目前的i n t e r n e t 已经发展了近五十年,它的迅速发 展和广泛普及导致网上信息爆炸性增长。据u n i v e r s i t yo fi o w a 最近一项调查显示, 截至2 0 0 5 年1 月全球可以索引的网页已经达到至少1 1 5 亿。如果这些信息能被有效地 利用,互联网将是一个巨大的信息宝库。但由于i n t e r n e t 是一个开放、分布、异构的 信息空间,i n t e r n e t 这个“数字时代的图书馆”并不像真正的图书馆那样支持有组织 的信息管理和检索。它本身固有的3 个特点已经明显地阻碍了人们充分使用i n t e r n e t 上的信息资源: ( 1 ) i n t e r n e t 上的信息无组织、无固定结构、分布无规律性; ( 2 ) i n t e r n e t 是一个动态性极强的信息源; ( 3 ) i n t e r n e t 上的信息量每天呈指数增长,而对用户个体而言只有少数相关。 由此看来,虽然i n t e r n e t 是一个广阔的信息海洋,但漫游其间而不迷失方向有时 会是相当困难的。如何快速准确地在网上找到需要的信息已变得越来越重要。搜索引擎 是基于上述原因而产生的,它以一定的策略在互联网中搜集、发现信息,对信息进行理 解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,是用户打 开互联网这个信息宝库的一把钥匙【l l 。 但是,随着网络信息资源的不断丰富和发展,现有的搜索引擎日益暴露出其本身难 以克服的缺点: ( 1 ) 信息过量:现有搜索引擎不考虑用户信息偏好,对不同用户提供相同的界面和 服务,检索出成千上万、良莠不齐的结果。例如在“百度中查询“信息检索 技术 ,共找到相关网页约1 1 0 ,0 0 0 篇,若阅读每个链接平均耗时3 s ,则阅 读完所有的检索结果,一刻不停地看下去也要9 1 7 个小时,使得用户在寻找 自己所需的信息时如同大海捞针。 北方工业大学硕士学位论文 ( 2 ) 面向关键字的检索:目前搜索引擎技术大多是对关键字进行简单的匹配,用户 常常不能准确地描述所要查询的内容,使得搜索返回的结果中包含许多无关的 信息,查准率不高。 ( 3 ) 不能满足个性化的信息检索:现有的搜索引擎基本上采用“一个搜索适用所有 用户”的模型,不能对用户的行为和兴趣进行跟踪学习没有形成个性化的信息 检索系统。 由于上述原因,在i n t e r n e t 上进行检索经常会出现“信息过载”和“资源迷 向 ,即网上海量和无组织的信息使得用户不知如何更有效地利用i n t e r n e t 资源( 2 1 。 通常,不同领域背景、不同知识结构的用户对文档相关性的判断以及检索结果的要 求是不同的,即使同一个用户,在不同时期也有所侧重如何将这种“个性化”体现在信 息检索中,减少垃圾信息,提高查准率是当前研究的重点。因此,未来的搜索引擎,必 将趋子对个人信息、知识的需求满足,它应该能够根据用户背景、兴趣爱好、行为、检 索目的等信息,检索出适量的、高质量的查询结果,即搜索引擎的个性化【3 4 】。也就是 说用户从一开始使用了网站的资源,网站就会自动记录与分析用户的行为特点和喜好, 并根据用户的需求,自动的有选择性的提供信息与服务。而识别用户在检索过程中的行 为及需求特征,记录、学习并且维持用户的潜在需求偏好,及时了解用户需求信息的更 新状况,这些都依赖于用户兴趣挖掘技术的发展。 本课题相当于对垂直搜索引擎的研究,垂直搜索引擎概念的提出,就是针对性的为 某一特定领域、某特定人群或某一特定需求提供有一定价值的信息和相关服务。可以 简单的说成是搜索引擎领域的行业化分工。众多专业性网站、行业网站独立的服务于互 联网的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定了 其不能满足特殊领域、特殊人群的精准化信息需求服务。 垂直搜索对于消费者的意义是显而易见的。随着互联网用户和网上的内容急剧增 长,通用信息源向专用信息源的过渡是很自然的。利用b a i d u 、g o o g l e 寻找一辆二手车 就像是在玻璃花瓶中寻找一粒沙子,那么有没有单刀直入,一招中的的方法呢? 这就要 寄希望于新兴起来的垂直搜索。搜索领域有旬明言:就是用户无法描述道他要找什么, 除非让他看到想找的东西。 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽 取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网 页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化 数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、 北方工业大学硕士学位论文 分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构 化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回 给用户。 垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、 房产搜索、人才搜索、地图搜索、m p 3 搜索、图片搜索几乎各行各业各类信息都可 以进一步细化成各类的垂直搜索引擎。 1 2 国内外研究现状 搜索引擎是随着w e b 信息的迅速增加而发展起来的,是一种网民查询互联网信息 的搜索型工具,通过为用户提供信息检索服务,起到导航信息的目的。搜索引擎的基本 概念出现于2 0 世纪7 0 年代,但它真正发展和应用却是9 0 年代的事情,并在9 0 年代中 期得到快速的发展。目前网上的搜索引擎有1 6 0 种以上,其中比较著名的7 个全球性导 航站有y a h o o ,a i ,t a s 1 a ,【y c o s ,h o ,1 1 e l o t ,小o s e ,w e b c r a w i ,e r , e x c n e 。据q 州i c 于2 0 0 5 年1 月发布的统计资料,搜索引擎的使用己占到网络应用 的6 5 o ,并成为中国当前第二大互联网应用,仅次于收发e m a i l 【卯。搜索引擎的发展 主要经历了一下以下几个阶段: ( 1 ) 第一代搜索引擎 第一代搜索引擎出现于1 9 9 4 年。这类搜索引擎一般索引少于1 0 0 万个网页,极少 重新搜集网页并去刷新索引,检索速度非常慢,一般要等待l o 秒甚至更长时间。主要 代表有:舢洲s t a 、h 面s o e k 、l y s 、y a h 0 01 等。 ( 2 ) 第二代搜索引擎 大约在1 9 9 6 年出现的第二代搜索引擎系统大多采用分布式方案( 多个微型计算机 协同工作) 来提高数据规模、响应速度和用户数量,一般都保持大约5 0 0 0 万网页的索 引数据库,每天能响应1 0 0 0 万次用户检索请求。这一代搜索引擎的特征是使用了一系 列新技术,特别是自然语言处理技术,使搜索更加智能、查找信息更快更容易、给用户 的信息服务更综合。主要代表有:g o o g l c 、h l l d x 加i 、a s k j v 嚣、g o t o 、w e b c a t e 等。 g o o 哲e ( 鲤塾盟:g q q 醴鱼:鱼q ! 旦) 由埘a g e 和s 哪r e ) r b l j i l 设计,于1 9 9 8 年9 月发布测试版,一年后正式开始商 业运营。g 0 0 酉e 由于对搜索引擎技术的创新而获奖无数,现为全球8 0 多家门户和终点 网站提供支持,客户遍及2 0 多个国家。g b o 酉e 提供一系列革命性的新技术,包括完善 的文本对应技术和先进的p a g e 胁1 1 【排序技术,同时还提供一项很有用的服务一“网 北方工业大学硕士学位论文 页快照功能,当搜索内容站点或网页不存在时,用户可调用g 0 0 西e 事先为用户储存 的大量应急网页,经g o o 弭e 处理后,搜索项均用不同颜色标明,另外还有标题信息说 明其存档时间日期,并提醒用户这只是存档资料【6 1 。目前国内已有网易( 1 6 3 蝴) 、 中文等采用g o o 酉e 作为搜索引擎。 g o t 0 望q 幽型:g q 垃:堡q 兰堕) 使用了超链分析与根据用户的点击行为来分析与重排序,搜索得到的结果相关性程 度较高,而且比较符合用户的点击习惯。 ( 3 ) 第三代搜索引擎 自1 9 9 8 年到现在,出现了搜索引擎空前繁荣的时期,一般称这一时期的搜索引擎 为第三代搜索引擎。其索引数据库的规模继续增大,一般商业搜索引擎都保持在几千万 甚至上亿个网页,目前互联网上的搜索引擎已达数千种,仅中文搜索引擎就达上百种, 可谓百花争艳。搜索引擎正向着智能化、个性化、专业化、多媒体检索等适应不同用户 需求的方向发展。 智能化搜索引擎 搜索引擎的智能化体现在两方面:一是对搜索请求的理解,二是对网页内容的分 析。它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息 搜集过滤,将用户感兴趣的、对用户有用的信息通过电子邮件或其它方式,提交给用 户。它重视查询结果的精度,提高检索的有效性【7 】。 目前,国外一些科研部门、高等院校、商业公司都在对智能化网络信息检索进行研 究,并且己经开发出了一系列成功的产品,如:m m 的基于规则和知识、使用启发式的 策略和简单自然语言的g 1 0 b e n e t 系统;基于机器学习的智能系统w e :b w a t c h e r 吲( 卡耐 基梅隆大学) 和f a b 系统【9 1 ( s t a i 面m 大学) ;基于用户查询行为和兴趣的寻找特定信息 的专用智能软件w e b d o g g i e ( c m m 等。 个性化搜索引擎 搜索引擎个性化的显著特点是用户能够从多个信息源中获得最贴近自己需要的信 息。其核心是通过跟踪分析用户的浏览行为,充分地利用这些信息来提高用户的搜索效 率【l o 】。个性化信息检索服务是在原有的搜索引擎提供服务的基础上,加入个性化的元 素,根据用户点击的各种信息来确认搜索到的信息与用户需求的相关度,并进行排序, 提高用户获取信息的效率。如卡内基梅隆大学推出的基于w 曲w a 瞄瞄的p 踬舳a l w 曲w 妇【1 1 1 。系统针对特定用户,通过学习用户以前的浏览模式来得到用户兴趣模 型,在用户浏览网页时提供帮助,将用户感兴趣的链接突出显示出来。g 0 0 哲e 是搜索引 - 4 北方工业大学硕士学位论文 擎的代表,无论从技术上还是用户规模上都是互联网上最有影响力的搜索引擎。 s t a l l 矗) r d 的g l e n j c h 和j 锄i 向w i d o m 在原有g o o 西e 技术的基础上,作了大量的关于个 性化网页搜索的研究。另外,目前许多搜索引擎开始提供个性化定制服务。例如m y l y c o s ,m yh o t l ) o t ,m yy a l l 0 0 ,m ye x d t e 等,它们允许用户设置自己喜欢的页面颜色 和结构、定制自己感兴趣的信息内容、根据自己的需要设置信息的接收方式等。虽然许 多网站和商家都声称向用户提供个性化服务,但是大部分还只是形式上的,而用户需要 的是真正内容上的个性化服务。 专业化搜索引擎 随着网上信息量的不断增加,利用通用搜索引擎查找某一行业、某一学科专业、某 一主题和某一地区的信息越来越困难,返回信息过多,与主题相关性不强,甚至返回无 用的信息,检索率不高。针对这种情况,专业搜索引擎应运而生,如商务查询、企业查 询、人名查询、电子邮件地址查询和专业信息查询等。这种专业化的搜索引擎是将来的 方向之一。 多媒体搜索引擎 随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查询图像、声 音、图片和电影的搜索引擎是一个新的方向。现在有很多搜索引擎已经提供了网页、新 闻、图片、音乐等资源搜索,当然范围还可以更广,再如可以搜索新闻组、软件、 m 、f l 础、论文等【1 2 1 。与国外的搜索引擎相比,国内搜索引擎起步较晚,1 9 9 4 年4 月中国科学院首次与互联网互联。由于发展时间较短,加之中文信息的处理较英文信息 更为复杂,因而中文搜索引擎的研制开发、投入使用也是近几年才开始的,这就不可避 免地存在一定的差距:国外的搜索引擎能搜索上亿的网页,而国内的搜索引擎目前只能 搜索到2 0 0 0 余万个网页,速度也与几家大型搜索引擎有一定的距离。另一方面,我国 的搜索引擎技术正在迅速发展,据“中文导航及搜索引擎指南”网站统计,到今天的十 几年时间里,国内已出现的较完备的搜索引擎有1 31 个,其中较好的有百度、天网、若 比邻、悠游、世纪永联( w 、) l ,w 舯f l - h o u s e c o m 咖等。其中百度的知名度已能和国际名牌 g o o 皿e 相比肩。国内对个性化的网络信息检索也进行了相关的研究,如南京大学研制的 w 曲a 优签s 系统,它应用了机器学习、自然语言处理、超文本等技术;清华大学研制的 p 玳s 系统和b o 出n a 出系统,能自动收集和记录用户的习惯和兴趣,跟踪用户的信息需 求等。但国内的智能网络信息搜索系统大多只是支持简单的自然语言理解和概念检索, 对机器学习、智能a g 瞰t 、信息挖掘等技术研究的较少。个性化的信息检索技术是帮助 北方工业大学硕士学位论文 人们快速获取信息的有效手段。建立一个优秀的个性化搜索引擎是一项庞大复杂的工 程,有待于科技的进一步发展和研究者的不懈努力。 1 3 本文工作及论文大纲 ( 1 ) 本文工作 本文的工作就是实现基于行业的个性化搜索引擎,主要包括如下几个部分: 网络爬虫 粗分网页,修改切词器 建立倒排索引 检索器 动态扩展词库 关键字定制 ( 2 ) 论文的组织结构 本文由六章组成,各章内容如下: 第一章:绪论。主要说明课题的背景和来源,国内外相关课题的研究情况,本文工 作以及论文大纲。 第二章:搜索引擎技术概述。本章主要介绍搜索引擎的定义,搜索引擎的分类,搜 索引擎的工作原理,搜索引擎的发展趋势。 第三章:课题研究所需的技术和知识。本章主要介绍网络蜘蛛,倒排索引,网页评 分,分词技术,散列表。 第四章:整体设计。主要介绍基于行业搜索引擎的设计目标,系统整体结构图,模 块功能描述。 第五章:详细设计与实现。具体介绍了网络爬虫、网页粗分、格式转化、中文切词 器、倒排表、检索部分、关键字定制以及动态扩展词库的具体设计与实现。 第六章:结论。对本课题的工作做总结,并提出下一步的工作内容。 北方工业大学硕士学位论文 2 搜索引擎概述 本章主要介绍搜索引擎的定义,搜索引擎的分类,搜索引擎的工作原理,搜索引擎 的发展趋势。 2 1 搜索引擎的定义 搜索引擎是一种在w e b 上应用的软件系统,它以一定的策略在w 曲上搜集和发现 信息,在对信息进行处理和组织后,为用户提供w e b 信息查询服务。从使用者的角度 看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很 快返回一个可能和用户输入相关的信息列表( 常常会是很长一个列表,例如包含1 万个 条目) 。它包括信息搜集,信息整理和用户查询三部分。 2 2 搜索引擎的分类 2 2 1 按检索工具发展过程分类 按照检索工具的发展过程可分为:第一代搜索引擎、第二代搜索引擎和下一代搜索 引擎。 ( 1 ) 第一代搜索引擎以灿谢以s 协、y a l l o o 和h 墒s o e k 为代表,出现于1 9 9 4 年前 后,搜索结果的好坏往往用反馈结果的数量来衡量,也就是说,第一代搜索引 擎“求全”。 ( 2 ) 第二代搜索引擎以g o o 酉e 和d j r o c t h i t 为代表,还包括中国的百度、天网搜索 等,这些引擎的主要特点是提高了查准率,可以用“求精”来描述。 ( 3 ) 下一代搜索引擎目前尚无产品出现,只是处于研究和探讨阶段,有资料称下一 代搜索引擎将是“求专 和“求易 ,可以理解成专业化和智能化;也有学者 称下一代搜索引擎的方向是智能化和个性化。 2 2 2 按检索范围分类 按照提供的信息服务范围与用途的不同,搜索引擎可分为综合性搜索引擎和专业性 搜索引擎。 ( 1 ) 综合性搜索引擎 北方工业大学硕士学位论文 即综合性的信息检索系统,利用它几乎可以检索任何方面的信息资源,但有时会出 现字形相同而实际上互不相关的内容,或因检出的内容太泛而无法一一过目。 ( 2 ) 专业性搜索引擎 则是专业信息机构根据专业需求,将因特网上资源进行筛选整理、新组织而形成的 专业性的信息检索系统。专业性搜索引擎能针对用户特定需求来提供信息,特定用户只 要登录到相应的搜索引擎即可迅速、准确地找到符合要求的精准信息。因此,高质量专 业性搜索引擎是学科专业领域的研究人员获取网上信息资源的重要工具,是因特网搜索 引擎研究开发的方向。 2 2 3 按工作方式分类 按照其工作方式主要可分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元 搜索引擎。 ( 1 ) 全文搜索引擎 国外具有代表性的有g ( ) o 呈沁、瑚渤蚵、t m a 、w i s 心i u t 等,国内著名的有百度 ( b a i d u ) 。都是通过从互联网上提取的各个网站的信息( 以网页文字为主) 而形成的 数据库中,检索与用户查询条件匹配的相关记录,然后按一定的顺序将结果返回给用 户。 ( 2 ) 目录索引类搜索引擎 虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的 网站链接列表而已。用户完全可以不用关键词( 凡狮o r d s ) 查询,仅靠分类目录也可找 到需要的信息。索引中最具代表性的莫过于大名鼎鼎的雅虎a l l o o ) ! 。其他著名的还有 d m o z 、伽k s r n 越、a b o u t 等。国内的搜狐( 搜狗) 、新浪搜索( 爱问) 、网易搜索 也都属于这一类。 ( 3 ) 元搜索引擎 在接受用户查询请求时,同时在其他多个引擎上进行搜将结果返回给用户。著名的 元搜索引擎有幽s p a c c 、d o g p n e 等,其中d o 础e 为目前最受欢迎的元搜索引擎,它 可以调用l e 、m s n 、a s k j e e v 鹤、l 0 0 k s m a r t 等2 0 多个独立搜索引擎,中文元 搜索引擎中具代表性有万纬搜索、北斗搜索等。 上述三大类引擎外,还有以下几种并非主流形式。 ( 1 ) 集合式搜索引擎 北方工业大学硕士学位论文 在2 0 0 2 年底推出的h o 旧o t 。该引擎和元唧a ) 搜索引擎类似,区别在于不是同 时调用多个引擎进行搜索,而是由用户从提供的3 个( 、1 ) ,( 幻。咖和m s n ) 当中选择,因此叫它“集合式”搜索引擎更准确。 ( 2 ) 门户搜索引擎 如a o l s 锄r c h 、m s n s 铡油等虽然提供搜索服务,但自身即没有分目录也没有网 页数据库,其搜索结果完全来自其他引擎。 2 3 搜索引擎的工作原理 2 3 1 搜索引擎的体系结构图 图2 1 搜索引擎体系结构图 2 3 2 搜索引擎的工作流程 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库, 搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。 真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网 页中的每一个文字( 即关键词) 进行索引,建立索引数据库的全文搜索引擎。当用户查 找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜 北方工业大学硕士学位论文 出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依 次排列。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还 分析索引所有指向该网页的链接的i j i 也、a n c h o r t e x t 、甚至链接周围的文字。所以, 有时候,即使某个网页a 中并没有某个词比如“恶魔撒旦”,但如果有别的网页b 用链 接“恶魔撒旦”指向这个网页a ,那么用户搜索“恶魔撒旦”时也能找到网页a 。而且,如 果有越多网页( c 、d 、e 、f ) 用名为“恶魔撒旦”的链接指向这个网页a ,或者给 出这个链接的源网页( b 、c 、d 、e 、f ) 越优秀,那么网页a 在用户搜索“恶魔撒 旦”时也会被认为更相关,排序也会越靠前【1 8 】。 ( 1 ) 全文搜索引擎工作流程 全文搜索引擎的“网络机器人或“网络蜘蛛”是一种网络上的软件,它遍历w 曲空 间,能够扫描一定p 地址范围内的网站,并沿着网络上的链接从一个网页到另一个网 页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓 取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定 的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到 的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询 时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定 的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相 同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。 搜索引擎的工作流程,可以看作三步:从互联网上抓取网页一建立索引数据库一在 索引数据库中搜索排序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的s p i d e r 系统程序,自动访问互联网,并沿着任 何网页中的所有也爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括网页所 在u 】u 、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与 其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到每一个网页 针对页面文字中及超链中每一个关键词的相关度( 或重要性) ,然后用这些相关信息建 立网页索引数据库。 在索引数据库中搜索排序 北方工业大学硕士学位论文 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词 的所有相关网页。因为所有相关网页针对该关键词的相关度已经算好,所以只需按照现 成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的 链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的s p i d e f 一般要定期重新访问所有网页( 各搜索引擎的周期不同,可能是 几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率) ,更新网页索引 数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页 文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询 的结果中。 ( 2 ) 目录搜索引擎 和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和 查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目 录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都 是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交 的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分 析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存 放在一个“索引数据摩中。用户在查询信息时,可以选择按照关键词搜索,也可按分类 目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联 程度排列网站。需要注意的是,分类目录的关键词查询,它的查询结果也只是被收录网 站首页的u i 也地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各 个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详 细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找 到相关目录,就完全可以找到相关的网站( 注意:是相关的网站,而不是这个网站上某 个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间 顺序决定的) 。 2 4 搜索引擎的发展趋势 随着人工智能技术的进一步成熟和信息服务的多样化,未来搜索引擎将向着智能、 高效、易用、准确等方向发展。 ( 1 ) 提供个性化服务 北方工业大学硕士学位论文 提高搜索效率的一个有效途径是提供个性化的搜索,通过分析用户行为的意图,获 取用户感兴趣的相关信息及感兴趣的感性程度,使得个性化搜索更符合每个用户的需 求。 ( 2 ) 实现智能搜索 搜索引擎向智能化方向发展是毫无疑问的。未来的智能搜索引擎除能提供传统的全 网快速检索、相关度排序等功能外,还能提供用户角色登记、用户兴趣自动识别、自然 语言理解、智能化信息过滤和推送等功能,为用户提供一个真正个性化、智能化的网络 信息搜集工具。 ( 3 ) 关联式的综合搜索 关联式综合搜索,就是将关联信息整合在一起,提供一站式的搜索服务,它使得网 民在搜索时只需输入一次查询目标,即可在同一界面得到各种有关联的查询结果。 ( 4 ) 垂直主题搜索引擎 由于专业化的搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优势,基 于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。垂直搜索引擎面 向某一特定专业领域,专注于自己的特长和核心技术,保证了对该领域信息的完全收录 与及时更新。 ( 5 ) 多媒体搜索引擎 随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声 音、图片和电影的多媒体搜索引擎是信息检索发展的一个新方向。搜索引擎涉及人工智 能、计算机网络、分布式处理、并行计算、数据挖掘、知识发现、自然语言处理等多项 技术,富有综合性和挑战性。随着搜索技术的不断完善与发展,更好满足用户需求的搜 索引擎也必将出现。 北方工业大学硕士学位论文 3 课题研究所需的技术和知识 本章主要介绍网络蜘蛛,倒排索引,网页评分,分词技术,散列表等技术。 3 1 网络蜘蛛 3 1 1 网络蜘蛛概述 ( 1 ) 网络蜘蛛概念 网络蜘蛛州e b c i m w l 神,是一个非常形象的名字。把互联网比喻成一个蜘蛛网,那 么s p i d e r 就是在网e 爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站的某一个页面( 通常是首页) 开始,读取网页的内容,找到在网页中的其它链接地 址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有 的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原 理把互联网上所有的网页都抓取下来。 ( 2 ) 实现网络蜘蛛的关键技术 r r t p 访问和多线程的能力对于蜘蛛程序来说都是非常关键的。构造一个蜘蛛程序 要解决的关键问题:( 1 ) h n 沮,分析:需要某种m m l 的解析器来分析蜘蛛程序遇到的 每一个页面。( 2 ) 页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保 存到磁盘,或者进一步分析处理。( 3 ) 多线程:只有拥有多线程能力,蜘蛛程序才能真正 做到高效。( 4 ) 确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤 其是在多线程环境下。 ( 3 ) 网络蜘蛛抓取网页时的策略 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数 据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中 的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的 链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小 为2 0 k 计算( 包含图片) ,1 0 0 亿网页的容量是1 0 0 2 0 0 0 g 字节,即使能够存储,下 载也存在问题( 按照一台机器每秒下载2 0 k 计算,需要3 4 0 台机器不停的下载一年时 间,才能把所有网页下载完毕) 。同时,由于数据量太大,在提供搜索时也会有效率方 面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候 评价重要性主要的依据是某个网页的链接深度。 北方工业大学硕士学位论文 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是 指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继 续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛 并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接连着一 个链接的跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方 法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明 确。 广度优先的抓取顺序: a b c d e f h g i 深度优先的抓取顺序: a f g e h i 图3 - 1 网络蜘蛛深度优先和广度优先示意图 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这 就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页 面是新增页面,哪些页面是已经过期的死链接。搜索引擎的更新周期对搜索引擎搜索的 查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期 过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网 络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网 北方工业大学硕士学位论文 站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网 站,更新的周期就长,可能一两个月才更新一次。一般来说,网络蜘蛛在更新网站内容 的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性 ( 主要是日期) ,把得到的属性和上次抓取的属性相比较,如果一样则不用更新。 ( 4 ) 如何利用网络蜘蛛 由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的 层数。例如,在上图中,a 为起始网页,属于o 层,b 、c 、d 、e 、f 属于第l 层, g 、h 属于第2 层,i 属于第3 层。如果网络蜘蛛设置的访问层数为2 的话,网页i 是不 会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不 能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多 的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网 页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取, 但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免 费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通 过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的 时候,同样需要搜索者提供相应的权限验证。 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网 页包括各种格式,包括h 臼:1 1 1 、图片、d o c 、p d f 、多媒体、动态网页及其它格式等。这 些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信 息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它 链接有一定影响。对于d o c 、p d f 等文档,这种由专业厂商提供的软件生成的文档,厂 商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的 提取文档中的文本信息和文件其它相关的信息。h 蹦l 等文档不一样,h n 江l 有一套 自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,提取文本 信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的 规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同 步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页 面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于h n m ,网 页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文 本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某 北方工业大学硕士学位论文 个网站有 产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接, 在搜索”产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。 过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些 重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。 对于多媒体、图片等文件,一般是通过链接的锚文本( 链接文本) 和相关的文件注释来 判断这些文件的内容。例如有一个链接文字为”张曼玉照片”,其链接指向一张b n 峰格式 的图片,那么网络蜘蛛就知道这张图片的内容是”张曼玉的照片”。这样,在搜索”张曼玉 ”和”照片的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性, 考虑这些属性也可以更好的了解文件的内容。动态网页一直是网络蜘蛛面临的难题。所 谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快 速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带 来一些麻烦。由于开发语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论