(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf_第1页
(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf_第2页
(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf_第3页
(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf_第4页
(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)中文搜索引擎的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 中图分类号 3 9 学科分类号 5 2 0 6 0 论文编号 1 0 0 1 0 2 0 0 7 0 9 0 4 密级 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名江慧娜学号 2 0 0 4 0 0 0 9 0 4 获学位专业名称 计算机应用技术 获学位专业代码 0 8 1 2 0 3 课题来源其他项目研究方向 智能系统与智能信息处理 论文题目 中文搜索引擎的关键技术研究 关键词搜索引擎,新词识别,网页去重,文本分类,粒子群 论文答辩日期 2 0 0 7 年6 月7 日枣论文类型 应用研究 学位论文评阅及答辩委员会情况 姓名 职称 工作单位学科专长 指导教师张国英副教授北京石油化工学院计算机技术 评阅人1赵英教授北京化工大学计算机技术 评阅人2 评阅人3 评阒人4 评阅人5 徽员蝴赵英教授北京化工大学计算机技术 答辩委员1林小竹教授北京石油化工学院图像处理 答辩委员2张宁教授北京石油化工学院通信技术 答辩委员3 京有明 副教授北京石油化工学院计算机技术 答辩委员4 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b t1 3 7 4 5 9 ) ( 学科分类与代码中 查询。 四论文编号由单位代码和年份及学号的后四位组成。 4帆6洲5 帆0 1_81y 摘要 中文搜索引擎的关键技术研究 摘要 随着互联网技术的快速发展,网上信息的迅速增加,人们越来越 依赖于搜索引擎来获取互联网上有用的信息。搜索引擎在给用户获取 信息带来方便的同时也把用户带入了信息过载的窘境。如何充分利用 网络资源,把更有效、更准确的信息提供给用户,这已成为搜索引擎 技术研究的热点问题,也是本文的研究初衷。 本文针对搜索引擎系统中若干关键技术进行了较深入的研究,研 究内容主要包含以下几点: 二 ( 1 ) 提出了一种利用网页链接文本作为语料库的新词识别方法。 将解析出的链接文本经过分词和频次统计后,计算相邻两词或字的互 信息值,将互信息值大于某个阈值的相邻词或字的组合视为新词,并 对识别出的新词经过进一步的排错处理。 ( 2 ) 提出了一种基于关键词提取的网页去重算法。提取网页标 题的关键词,以标题关键词为种子,利用窗口搜索方式在正文中查找 与标题关键词相关度高的其它关键词,将搜索到的所有关键词组成该 网页文档的关键词集,计算两篇网页文档关键词集的重叠率,重叠率 大于某个阈值则将这两篇网页文档视为重复网页。 ( 3 ) 设计了一种搜索引擎排序机制,利用搜索引擎数据对象的 结构化信息计算词的权重,以倒排索引的方式建立索引库,并为用户 北京化工大学硕士学位论文 提供与检索和或检索两种检索方式以方便用户使用。 ( 4 ) 提出了基于粒子群优化算法的文本分类算法:p s o s v m 和 p s o k n n 。s v m 文本分类的核心是一个有约束的高维优化问题, p s o s v m 算法利用粒子群优化算法来解这个高维优化问题,用粒子 种群的有指导的随机搜索技术,在样本空间内并行搜索,降低了计算 代价,提高了文本分类的速度。p s o k n n 算法在搜索k 近邻的过程 中,粒子群跳跃式移动,可以快速的找到测试样本的k 个近邻,使 得在保持k 近邻法分类性能不变的情况下,分类的效率得到很大的 提高。 关键词:搜索引擎,新词识别,网页去重,文本分类,粒子群 a b s t r a c t r e s e a r c ho fk e yt e c h n o l o g i e si n c h i n e s es e a r c he n g i n e a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , s e a r c he n g i n e h a sb e c o m ean e c e s s a r yt o o lf o rp e o p l ew h ow a n tt oo b t a i ni n f o r m a t i o n f r o mi n t e r n e t h o wt oo b t a i nt h eu s e f u li n f o r m a t i o nf r o mv a s tc o n t e n t s q u i c k l ya n da c c u r a t e l yi s ap r o b l e mf o rp e o p l ew h oa r ee n jo y i n gt h e c o n v e n i e n c eo ft h ei n t e m e t t h i st h e s i sw i l lf o c u so nt h e s ep r o b l e m so f t a k i n gg o o da d v a n t a g eo ft h ei n f o r m a t i o na n dp r o v i d i n gu s e r s am o r e e f f e c t i v ew a yt om o r ee f f i c i e n ts e a r c h i n g t h o s ea r eh e a t e dp r o b l e m s b e i n gd i s c u s s e di nt h ef i e l do f s e a r c he n g i n et e c h n o l o g y t h et h e s i sc e n t e r so nt h ek e yt e c h n o l o g i e so fc h i n e s es e a r c he n g i n e s y s t e m t h ef o l l o w i n gp o i n t sa r ec o n c e r n e d : ip u tf o r w a r dan e wa l g o r i t h mo fn e ww o r d sr e c o g n i t i o nb yu s i n g w e b p a g eh y p e r l i n kt e x t s a sc o r p u s a f t e rs e g m e n t a t i o na n df r e q u e n c y s t a t i s t i c sf o rt h ep a r s e dh y p e r l i n kt e x t s ,t h em u t u a li n f o r m a t i o n ( m i ) o f 。 , r d si sj c u l a t e d i ft h em iv a l u e h i g h e rthanthet w on e i g h b o r i n gw o r d si sc a l c u l a t e di tt h en i lv a l u ea r en i g h e rt t l a na d e f i n e dl e v e l ,t h ec o m b i n a t i o no ft h en e i g h b o r i n gw o r d sa r ec o n s i d e r e d a sn e ww o r d s ,t h e ne x c l u d et h ev e r b a lm i s t a k e sb y a u t o m a t i ca n dm a n u a l m e t h o d s i i p r e s e n ta na l g o r i t h mo fe l i m i n a t i n gd u p l i c a t e dw e b p a g eb a s e d o nm ee x t r a c t i o no fk e yw o r d so f t h ew e b p a g e a f t e re x t r a c t i n gt h ek e y w o r d so fw e b p a g et i t l e s ( t i k w :k e yw o r d si nt i t l e ) t h eo t h e rk e yw o r d s o ft h et e x t ( t e k w :k e yw o r d si nt e x t ) a r ef o u n db ym e a n so f w i n d o w s e a r c h i n g t h et e k w a r ec l o s e l yr e l e v a n tt ot h et i k w a f t e ra l lt h ek e y w o r d sh a v i n gb e e nf o u n d ,t h er e p e t i t i o n r a t eo ft h ek e yw o r d si s c a l c u l a t e d i ft h ed u p l i c a t er a t ei so v e r t h ed e f i n e dl e v e l ,t h et w o t e x t sc a n b ec o n s i d e r e da sd u p l i c a t e d i i id e s i g nas o r ta l g o r i t h mo f s e a r c he n g i n e t h ew e i g h t so fw o r d s a r ec a i c u l a t e db ys t r u c t u r ei n f o r m a t i o n t h es e a r c he n g i n es y s t e m o f f e r t w os e a r c h i n gm e t h o d s :a n ds e a r c hm o d e a n do rs e a r c hm o d e p u tf 0 刑a r dt w ot e x tc l a s s i f i c a t i o na l g o r i t h m s ( p s o s v ma n d p s o k n n ) b a s e d o nt h ep a r t i c l es w a r mo p t i m i z a t i o nm e t h o d ,w h i c h h a s r a n d o ma n dd i r e c t e dg l o b a ls e a r c ha b i l i t y t h ec o r ep r o b l e m o fs v mt e x t a b s t r a c t t h a to fk n nc l a s s i f i c a t i o na l g o r i t h m k e yw o r d s :s e a r c he n g i n e ,n e ww o r dr e c o g n i t i o n ,d u p l i c a t e d w e b p a g ed e l e t i o n ,t e x tc l a s s i f i c a t i o n ,p a r t i c l es w a r m o p t i m i z a t i o n v 目录 目录 摘要。i a b s t r a c t i i i 第一章绪论。1 1 1 研究背景和意义1 1 2 搜索引擎概述2 1 2 1 搜索引擎概念2 1 2 2 搜索引擎分类2 1 3 中文搜索引擎的现状3 1 4 本文的主要工作3 1 5 论文组织4 第二章搜索引擎及相关技术概述5 2 1 搜索引擎系统5 2 1 1 搜索引擎系统组成5 2 1 2 搜索器6 2 1 3 索引器6 2 1 4 检索器7 2 2 检索结果排序8 2 2 1 检索结果排序算法9 2 2 2p a g e r a n k 算法1 0 2 2 3p a g e r a n k 算法的改进1 l 2 2 4 眦t s 算法1 2 2 2 5h i l l t o p 算法1 3 2 3 文本分类概述。1 4 2 3 1 文本分类概念1 4 2 3 2 文本分类过程1 5 2 3 3 文本分类的特点1 6 2 4 文本表示17 2 4 1 向量空间模型1 7 2 4 2n - g r 硼模型1 8 2 5 特征选择l 8 v i l 北京化t 大学硕上学位论文 2 5 1 特征词的文档频率1 9 2 5 2 信息增益方法1 9 2 5 3 互信息方法2 0 2 6 文本分类算法2 0 2 6 1 类中心向量法2 0 2 6 2 朴素贝叶斯方法2 1 2 7 本章小结2 2 第三章新词识别和网页去重。2 3 3 1 新词识别2 3 3 1 1 新词识别方法2 3 3 1 2 一种基于链接文本的新词识别方法2 4 3 1 3 实验结果分析2 5 3 2 网页去重2 6 3 2 1 网页去重算法2 7 3 2 2 基于关键词提取的网页去重算法2 7 3 2 3 实验结果2 8 3 2 4 实验结果分析2 9 3 3 本章小结3 0 第四章站内搜索引擎系统实现3 1 4 1 站内搜索引擎概述3l 4 2 权重计算3 2 4 2 1 抽取结构化信息3 2 4 2 2 权重计算方法3 3 4 3 倒排索引3 4 4 3 1 倒 j 索弓l 3 4 4 3 2 倒排索引建立3 4 4 4 检索结果排序机制3 7 4 5 本章小结3 8 第五章基于粒子群优化算法改进的文本分类算法3 9 5 1 粒子群优化算法3 9 5 1 1 粒子群优化算法概述3 9 5 1 2 粒子群优化算法4 0 5 2p s o s w l 文本分类算法4 l 5 2 1s 方法4 l 5 2 2p s o s v m 分类算法4 4 v i ii 目录 5 2 3 实验结果4 4 5 3p s o k n n 文本分类算法4 5 5 3 1k n n 分类算法4 5 5 3 2p s o k n n 分类算法4 6 5 3 3 实验结果及讨论4 7 5 4 本章小结4 8 第六章总结与展望:4 9 6 1 总结4 9 6 2 展望5 0 参考文献5 1 致谢5 5 研究成果及发表的学术论文5 7 作者和导师简介5 9 ix - c o n t e n t s c o n t e n t s c h i n e s ea b s t r a c t i a b s t r a c t i i i c h a p t e r 1i n t r o d u c t i o n 1 1 ir e s e a r c hb a c k g r o u n d 1 1 2s u m m a r yo f s e a r c he n g i n e 2 1 2 1c o n c e p to fs e 2 1 2 2s o r t so fs e 2 1 3p r e s e n ts t a t u so f c h i n e s es e 3 1 4s e a r c ho f p a p e r 3 1 5s t r u c t u r eo f p a p e r 4 c h a p t e r 2s u m m a r yo fs et e c h n o l o g i e s 5 2 1s e a r c he n g i n es y s t e m 5 2 1 1s t r u c t u r eo f s e 5 2 1 2c o l l e c t e r 6 2 1 3i n d e x e r 6 2 1 4s e a r c h e r 7 2 2s o r t i n gm e t h o d s 8 2 2 1s o r t i n ga l g o r i t h m 9 2 2 2p a g e r a n k 1 0 2 2 3a d v a n c e dp a g e r a n k 11 2 2 4h i t s 1 2 2 2 5h i l l t o p 13 2 3s u m m a r yo f t e x tc l a s s i f i c a t i o n 1 4 2 3 1c o n c e p t 1 4 2 3 2p r o c e s s i n g 15 2 3 3c h a r a c t e r 1 6 2 4t e x te x p r e s s i o nm o d e l 17 2 4 1v e c t o rs p a c em o d e l 17 2 4 2n g r a mm o d e l 18 2 5c h 纠r a l c t e rs e l e c t i o n 18 北京化工大学硕士学位论文 2 5 1d o c u m e n tf r e q u e n c y 19 2 5 2i n f o r m a t i o ng a i n 1 9 2 5 3m u t u a li n f o r m a t i o n 2 0 2 6t e x tc l a s s i f i c a t i o na l g o r i t h m 2 0 2 6 1c l a s sc e n t e rv e c t o r 2 0 2 6 2n a i v eb a y e s 2 1 2 7s u m m a r y 2 2 c h a p t e r 3n e ww o r d r e c o g n i t i o n d u p l i c a t e dw e b d e l e t i o n ”2 3 3 1n e ww o r dr e c o g n i t i o n 2 3 3 1 1n e ww o r dr e c o g n i t i o nm e t h o d s 2 3 3 1 2n e wm e t h o d sb a s e do nh y p e r l i n kt e x t s 2 4 3 1 3r e s u l t so f e x p e r i m e n t 2 5 3 2d u p l i c a t e dw e b p a g ed e l e t i o n 2 6 3 2 1d u p l i c a t e dw e b p a g ed e l e t i o na l g o r i t h m 2 7 3 2 2d u p l i c a t e dw e b p a g ed e l e t i o nm e t h o d sb a s e do nk e yw o r d s 2 7 3 2 3r e s u l t so fe x p e r i m e n t 2 8 3 2 4a n a l y s i so fr e s u l t s 2 9 3 3s u m m a r y 一3 0 c h a p t e r 4s eo fl i b r a r y 3 1 4 1s u m m a r yo f t h es e 31 4 2w e i g h t sc a l c u l a t i o n 3 2 4 2 1e x t r a c t i o no fs t r u c t u r ei n f o r m a t i o n 3 2 4 2 2w e i g h t sc a l c u l a t i o nm e t h o d s 3 3 4 3i n v e r s i o nl i s t 3 4 4 3 1i n v e r s i o nl i s t 3 4 4 3 2b u i l d i n gi n v e r s i o nl i s t 一3 4 4 4s o r t i n gs y s t e mo f t h es e 3 7 4 5s u m m a r y 3 8 c h a p t e r5t e x tc l a s s i f i c a t i o nb a s e d o np s o 3 9 5 1p s o 3 9 5 1 1s u m m a r yo fp s o “3 9 5 1 2p s oa l g o r i t h m 4 0 5 2p s o s v m 4 1 5 2 1s v m 4 1 5 2 2p s o s v ma l g o r i t h m 4 4 x i i c o n t e n t s 5 2 3r e s u l t so fe x p e r i m e n t 4 q l 5 3p s o k n n 4 5 5 3 1kn n 4 5 5 3 2p s o k n n a l g o r i t h m 4 6 5 3 3r e s u l t so fe x p e r i m e n t 4 7 5 4s u m m a r y 4 8 c h a p t e r 6s u m m a r ya n dp r o s p e c t 4 9 6 1s u m m a r y 4 9 6 2p r o s p e c t 5 0 r e f e r e n c e ! ;1 t h a n k s 5 5 r e s e a r c hp r o d u c t i o na n dp a p e r 5 7 i n t r u d u c “o no fa u t h o ra n dt u t o r 。5 9 x l ii 第一章绪论 1 1 研究背景和意义 第一章绪论 随着互联网技术的不断发展以及计算机相关硬件设备价格的不断下降,越 来越多的信息被放到互联网上,人们也越来越多地依赖搜索引擎来获取互联网 上的信息,对搜索引擎的研究目前已成为信息检索领域研究的热点。由于搜索 引擎系统涉及到人工智能、信息检索、数据挖掘、计算机网络、自然语言处理 等多领域的知识和技术,所以对搜索引擎的开发研究是一项具有挑战性、综合 性的工作。 自1 9 9 4 年第一个搜索引擎w e b c r a w l e r ( 网络八爪鱼) 在网上正式发布并 开始服务以来,搜索引擎已经成为发展最快、最引人注目的网络服务之一。当 时的搜索引擎数据库容量小,查询算法简单,效率不高,但却改变了传统的检 索方式。到1 9 9 5 年,真正商业化的搜索引擎开始大规模的开发并投入使用( 如 y a h o o 、e x c i t e 、i n f o s e e k 、a l t a v i s t a 等) 。由于商业动力的驱使,搜索 引擎技术在不断地发展与更新,近几年来中文搜索引擎也得到了快速发展,出 现了很多中文搜索引擎,如百度、g o o g l e 中文搜索、中搜、搜狗、网易搜索j 天网等等。这些搜索引擎的出现使得用户能够方便地从互联网上获得大量的信 息。 然而搜索引擎给用户获取网上信息提供方便的同时,也把用户带入了另一 种窘境:在搜索引擎中随意输入一个关键词,我们可能会得到成百上千、上万 个检索结果,而其中绝大部分可能是和用户的实际需要不相关的,而用户真正 需要的信息可能被淹没在长长的列表中。由于大多数搜索引擎的搜集范围是综 合性的,它们的网页抓取器尽其可能地把各类网页“抓回来,这样造成搜索 引擎返回给用户的检索结果在数量上远远超阶级过了用户的吸收和使用能力, 让人感到束手无策。这也就是现在经常谈论的“信息过载一或“信息超载现 象。 当前,搜索引擎正经历着从材数量累积一到。质量精炼 的变革。随着互 联网上信息数量呈指数级增长,如何向用户提供质量好且数量适当的检索结果 成为搜索引擎技术发展的方向之一。本文将从网页数据预处理、检索结果排序 及检索结果分类几个方面来讨论如何提高搜索引擎搜索的检索效率。 北京化工大学硕士学位论文 1 2 搜索引擎概述 1 2 1 搜索引擎概念 为了快速准确地从互联网上获得需要的信息,人们开发了搜索引擎系统, 以帮助用户从i n t e r n e t 的海量信息中自动查找相关网页。 从狭义角度来说,搜索引擎是指对w w w 站点资源和其他网络资源进行标 引和检索的系统,由信息收集软件、索引数据库和查询接e l - - - 部分组成。从广 义角度来说,是指因特网上具有检索功能的一类网站,搜索引擎是在w e b 中主 动搜索信息、自动标引w e b 网页、存储标引内容,提供用户检索接口。 1 2 2 搜索引擎分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三类: 目录式搜索引擎( d i r e c t o r ys e r v i c e ) 、机器人搜索引擎( r o b o ts e a r c he n g i n e ) 、 元搜索引擎( m e t as e a r c he n g i n e ) 。 ( 1 ) 目录式搜索引擎 最具代表性的目录搜索引擎是y a h o o 。目录式搜索引擎采集不同范围的 , i n t e m e t 信息并进行相应的人工处理,做出各个站点的分类索引以及介绍,将网 站分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词检索, 也可按分类目录逐层查找。按关键词检索,是和数据库内人工处理的网站名称、 类别信息、介绍内容进行匹配,然后根据信息关联程度返回检索结果。按分层 目录检索,用户无需输入关键词,仅靠分类目录的指引就能找到所需要的信息。 因为在目录搜索引擎中某一目录下网站的排名一般是按编辑推荐的顺序或者是 结合网站标题字母顺序显示,当用户使用时,目录式搜索引擎指引用户逐层选 择,在感兴趣内容的站内位置找到所需的信息。 目录搜索引擎的优点是信息准确、导航质量高,缺点是需要人工介入、维 护量大、信息量少、信息更新不及时。 ( 2 ) 机器人搜索引擎 又称全文搜索引擎或第二代搜索引擎,是目前主流的搜索引擎,典型代表 有g o o g l e 、百度等。这类搜索引擎主要不是靠人工发现和整理信息,而是由网 络机器人( 也口l l 网络蜘蛛s p i d e r ) 在网络中搜索,并从互联网上把原始的网页抓 取下来,放到本地数据库上,然后对这些原始网页进行预处理,在后台建立网 页索引数据库。在查询阶段,系统在后台索引数据库中查找与用户搜索关键词 匹配的网页,对这些匹配网页按一定的排序算法进行排序处理,然后按顺序将 2 第一章绪论 若干个网页结果返回给用户。用户在搜索引擎界面上直接输入关键词,即可查 找i n t e m e t 上相关网页信息。 机器人搜索引擎的优点是信息量大、更新及时、不用人工干预,缺点是抓 取的网页太多,索引库的规模庞大,带来了很多技术难题,同时返回信息过多, 其中有很多无关信息。 ( 3 ) 元搜索引擎 考虑到i n t e m e t 上信息量过大,任何一个搜索引擎都不可能将其全部覆盖, 1 9 9 5 年出现了元搜索引擎。对于用户提交的搜索请求,元搜索引擎负责将其转 换处理后提交给多个预先选定的独立搜索引擎,并将各独立搜索引擎返回的查 询结果,集中起来进行处理,再返回给用户。 元搜索引擎的优点是能够提供比较全面的结果给用户,但其本身并不存储 关于网页的信息,搜索结果的准确性主要依赖于它选定的独立搜索引擎的搜索 结果准确性。 本文所研究和讨论的内容是基于机器人搜索引擎。 1 3 中文搜索引擎的现状 随着互联网信息的爆炸式增长,搜索引擎已经成为人们检索互联网信息的 主要工具。搜索引擎系统的出现,给人们查找互联网信息带来了很大方便。但 是,仅仅依靠目录式搜索引擎提供的目录分类导航,其搜索结果并不十分理想。 原因是目录式搜索引擎一般采用人工的方式对网页进行分类,因此被分类的网 页资源相当有限,这也大大降低了目录搜索引擎的使用价值。对于机器人搜索 引擎,用户输入一个关键词,搜索引擎系统一般都会返回大量的网页链接,其 中有很多网页内容重复,并且很多网页并不是用户想要的,用户需要在庞大的 返回结果中进一步寻找有用的信息,这增加了用户的负担。 因此如何充分利用网络资源,把更有效、更准确的信息提供给用户,已成 为目前搜索引擎技术研究的热点问题。 1 4 本文的主要工作 本文以提高搜索引擎的效率为主要研究内容,主要工作包括以下几个方面: ( 1 ) 研究分析了目前已有的新词识别方法,并提出了一种基于网页链接文 本为语料库的新词识别方法。该方法利用了链接文本的特点,回避了大规模的 语料库,实验表明该方法具有很好的效果。 3 北京化工大学硕士学位论文 ( 2 ) 研究分析了目前已有的文档去重算法,并提出一种基于关键词提取的 网页去重算法。该方法充分利用了网页文档的内容信息,考虑了文档中对主题 贡献大的非高频词,实验表明该算法具有一定的优势。 ( 3 ) 设计并实现了一种索引和检索机制,该机制使用倒排索引的方式建立 索引库,利用检索对象的结构化信息计算词在文档中的重要性( 即权重) ,并为 用户提供了两种检索方式:与检索和或检索。 ( 4 ) 研究了文本分类及其相关技术,提出了基于粒子群优化算法的两种文 本分类算法:p s o s v m 和p s o k n n 。利用粒子群优化算法快速逼近最优解的优 势,提高了s v m 和k n n 分类算法的分类速度。 1 5 论文组织 本文共分为六章,主要结构和内容如下: 第一章:重点介绍了本文的研究背景及意义,介绍了搜索引擎的概念、分 类,分析了目前搜索引擎的问题及本文所做的工作。 第二章:重点介绍了搜索引擎相关的技术,包括搜索引擎的体系结构、网 页抓取原理、索引建立方法、检索结果排序算法等内容。 第三章:重点介绍了新词识别和网页去重这两种技术,介绍了这两种技术 目前的研究状况,并提出本文对两种技术上的改进算法。 第四章:重点介绍了我们设计的站内搜索引擎的索引和检索机制。 第五章:介绍了文本分类相关的技术,重点介绍了k n n 和s v m 两种文本 分类算法,提出了基于粒子群优化算法的文本分类算法p s o s v m 和p s o k n n , 并给出实验结果及分析。 第六章:对本文所做工作进行了总结和展望。 最后是参考文献和致谢。 4 第二章搜索引擎及相关技术概述 第二章搜索引擎及相关技术概述 随着互联网信息的快速增长,人们越来越依赖搜索引擎来获取互联网上的 信息,搜索引擎已经成为人们工作学习中不可缺少的获取信息手段。同时,人 们对搜索引擎系统的要求也越来越高,如何有效地利用网络资源,提供给用户 更有效、更方便的检索服务是目前搜索引擎领域研究的热点问题。本章将从搜 索引擎系统组成、检索结果排序以及文本分类等方面来介绍搜索引擎及其相关 技术。 2 1 搜索引擎系统 2 1 1 搜索引擎系统组成 搜索引擎是一个技术集成度高的网络应用系统,包括网络技术、数据库技 术、自动标引技术、检索技术和机器学习技术等。其基本结构一般包括数据采 集、数据索引、数据检索三个功能模块( 如图2 1 所示) 。 数据采集模块 数据检索模块 搜索引擎 图2 - 1 搜索引擎系统 f i g 2 - 1t h es e a r c he n g i n es y s t e m 数据索引模块 数据采集模块,即从互联网上抓取网页的过程。系统通过一类自动搜索软 件( 搜索器) 按照一定的方式和要求向w w w 站点提出页面搜索请求。w w w 5 北京化工大学硕士学位论文 站点将有关数据( 如w w w 页面或文档) 作为应答提交给搜索引擎,形成一个 网页数据库。 数据索引模块,即建立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论