（计算机应用技术专业论文）移动中文新闻搜索引擎的设计与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：76 大小：2.14MB 积分：0 举报 版权申诉

已阅读5页，还剩71页未读，继续免费阅读

（计算机应用技术专业论文）移动中文新闻搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

六七s t r a c t ab s t r a c t w i t h t h e r a p i d d e v e l o p m e n t o f t h e i n t e r n e t , t h e i n t e rn e t h a s b e c o m e a n i m p o r t a n t w a y t o a c c e s s t o n e w s a n d i n f o r m a t i o n . h o w t o a c c e s s r e l e v a n t i n f o r m a t i o n m o r e c o n v e n i e n t l y , m o r e c o m p r e h e n s i v e l y a n d m o r e a c c u r a t e l y h a s b e c o m e a n i s s u e . a s t r a d i t i o n a l n e t w o r k m e d i a w i t h d e d i c a t e d w e b s i t e s n o l o n g e r s t a t i s f y t h e n e e d s o f u s e r s , t h e n o t i o n o f n e w s s e a r c h e n g i n e e m e r g e s . w i t h g r o w i n g p o p u l a r i t y o f m o b i l e p h o n e s a n d c o n t i n u a l i m p r o v e m e n t o f i t s u s a b l i l i t y , m o b i l e n e w s s e a r c h i s b e c o m i n g a t r e n d. i n t h i s p a p e r , . n u m b e r o f k e y t e c h n o l o g i e s o f t h e m o b i l e s e a r c h e n g i n e o n c h i n e s e n e w s h a v e b e e n d e e p l y a n a l y z e d a n d r e s e a r c h 喊 a n d a p r o t o t y p e s y s t e m h a s b e e n r e a l i z e d . t h e s t u d y i n c l u d e s t h e f o l l o w i n g m a i n p o i n t s : 1 ) d e s i g n a n d i m p l e m e n t a t i o n o f a t e x t e x t r a c t i o n a l g o r i t h m f o r h t m l n e w s p a g e s b a s e d o n t h e c h a r a c t e r i s t i c s o f h u m a n v i s i o n . t h e a l g o r i t h m i s b a s e d o n t h e j u d g m e n t o f t e x t . a c c o r d i n g t o f a c t o r s i n c l u i n g t h e c o u n t o f c h i n e s e c h a r a c t e r s , t h e c o u n t o f h o t w o r d s , t h e c o u n t o f h y p e r l i n k s , c e r t a i n p a r a g r a p h p a tt e r n s o f t e x t c a n b e d e t e r m i n e d . t h e n b y u s i n g t h e r e l a t i o n s h i p o f h t m l n o d e s , t h e t e x t o f t h e n e w s p a g e s c a n b e e x t r a ct e d . e x p e r i m e n t s i n d i c a t e t h a t w i t h t h i s m e t h o d , t e x t o f t h e n e w s p a g e s c a n b e a c c u r a t e l y e x t r a c t e d , a n d o t h e r r e d u n d a n t s e c t i o n s s u c h a s a d v e r t i s e m e n t s c a n b e r e m o v e d a s w e l l , u n l i k e t ra d i t i o n a l e x t r a c t i o n me t h o d s , w i t h o u t p r e - l e a rn i n g , t h a t u n n e c e s s a r i l y a d j u s t c o n f i g u r a t i o n a c c o r d i n g t o d i ff e r e n t w e b s i t e s a nd d i ffe r e nt c ha n r e l s . 2 ) d e s i g n o f a m o b i l e s e a r c h e n g i n e o n c h i n e s e n e w s , a n d t h e a c t u a l r e a l i z a t i o n o f t h i s p r o g r a m a n d a p r o t o t y p e w i t h a n u m b e r o f i m p r o v e m e n t s m a d e a c c o r d i n g t o u s e r s e x p e r i e n c e i n t h e s e c o n d w o r k p h a s e . k e y w o r d : m o b i l e s e a r c h e n g i n e o n c h i n e s e n e w s ; h t m l t e x t e x t r a ct i o n ; l u c e n e 内容目录图目录图2 .1搜索引攀工作流程图. _:.“ :.” ” ” . ” 二 ; . . .; .; . . . . . 8 图3 .1系统架构图二 _ - - .- - . - ” . _ . . 一 “ . .一 ” ; . . .; .; . 2 3 图4 .1 采集模块工作流程图_ 一_“ _. ” . _ 二一 - . 2 8 图4 .2 r s s 的x m l示例_ _二 -3 3 图4 3加工模块工作流程图_ _ _ _. _二_ 3 5 图4 .4 h t ml新闻页面正文提取流程图二 _. _ _ ” 3 ，图4 .5 h t ml 页面实例._二 _ . _._. _- . .- 4 1 图4 .6 d o m树实例” 二_一_-4 2 图4 . 7数据库中各表关系图一_ _ _ _ _s o 图 4 .8 l u c e n e的结构组织. . 一 _- - 一 _ _ _ -5 2 图4 .9 l u c e n e 索引文件概念结构一 _. _. _一 5 3 图4 . 1 0移动中文新闻搜索首页. 二 ” . ” . _. 二 - -.- .- . -. 6 3 图4 . ll 点击 “ 更多”后的“ 焦点新闻” 效果图. ” 一 _ .- . - . - - . 6 4 图4 . 1 2搜索 “ 物权法，后的结果页面 . . . 一“ ” . 一 ” _” ” . 二 6 5 内容目录表目录表3 .1元搜索方式与全文搜索方式的比较- - - - - - - - - - - - - 2 2 表 4 . 1频道定义表 . - - - - - - - - - - - - - - - - - - - - - - - - 一，一，一个，一，一。 tt tt ，一 ” 一 ” . . . . - - - - - - . . - - * * . 2 6 表4 .2数据源定义表- - - 一- - - - - - - - 一，一， . . . . . . . . . . . . . . . 2 6 表 4 3 频道表一 + 一， - - - - - - 一一- - 一， - - - - 一一一，一 - - - - - - - - - - 一 :. . . 2 6 表 4 . 4频道视图- - - - 一一一 - 一 _一+，一， * * * * * * * * * * * * * * * * * * * * . . . . . . . . . . . . 2 7 表 4 . 4 h t ml转义字符- - 一一，一一一 _ ，一，，一 :. . . . 3 7 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文; 学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名 : 幻3 立 2 刃年工月 2 8 日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名: 愧一 t . 学位论文作者签名 : n k 解密时间:年月日各密级的最长保密年限及书写格式规定如下: !一.一 ! :内部5 年 ( 最长5年，可少于5 年) 一秘密 i 。年( 最长 ;。年，可少于 ; 0 年 ) ! 机密 2 。年( 最长 : 。年，可少于 2 0 年 ) (_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 南开大学学位论文原创性声明本人郑重声明: 所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名 : 月弓立 “ 。夕年i 月。 : 日绪论第一章绪论第一节研究背景随着互联网技术的不断发展，越来越多的新闻在互联网上发表，人们越来越依赖网络以获得相关的新闻资讯。d c c i互联网数据中心发布的 i i f m r et g u i d e 2 0 0 7 中国互联网调查报告显示， 2 0 0 6 年使用过新闻这项互联网服务的用户总人数为 1 . 1 7 亿，占整个中国互联网用户的比例为 8 5 . 6 7 %。面对如此规模的用户需求，传统的网络媒体为网民获取新闻提供了相当的便利。而随着信息的爆炸式增长，信息量越来越大，某一单个网络媒体很难网罗全部新闻。垂直搜索引擎的出现和发展给新闻带来了新的发展契机，用户可以在单一入口处浏览多家媒体的新闻内容，同时也可以利用关键词查找感兴趣的新闻。传统的互联网有其自身的固定性，即必须通过网络插线才能接入。如何让用户能够更便捷地获取新闻信息成为一个鱼待解决的问题. 手机作为使用率最高的移动终端，它无须上网设备，只要一部普通手机就可以随时随地入网而不必受网络插线的限制。根据著名手机企业诺基亚的预测，到2 0 1 0 年，全球手机用户将突破3 0亿。而全球电脑用户只有手机用户十分之一，其中还有相当一部分不能上网。中国手机用户现已超过 4亿人，随着手机的普及，利用手机获取新闻自然成了一种趋势，移动中文新闻搜索引擎应运而生。第二节研究意义目前对于搜索引擎的关注点已经从如何找到更多的信息转移到如何更便捷地找到准确、有用的信息，提高便捷性与准确率已经成为众多搜索引擎的首要目标。垂直搜索引擎是一种专用领域的搜索引擎，它从某一专题出发，有针对性的搜集互联网上的专题信息，采用优化后台信息集合、优化用户查询界面等措施，以高效的检索到所需信息。移动搜索技术，由于其无法比拟的便捷性，被越来越多的消费者所接受，其发展空间是有无限潜力的。两种技术的结合无疑会为绪论用户获取信息带来更大的便利。移动搜索引擎是信息时代崭新的指路人，通过对移动中文新闻搜索引擎的研究与应用，必然会对搜索引擎的发展产生影响，必然会更好的方便用户获得所需信息。第三节应用现状现今新闻服务的竞争己经不仅仅是在新闻网站之间，搜索引擎在新闻搜索领域的竞争也越来越激烈。移动中文新闻搜索引擎作为一个新的研究领域，目前已经有一些较好的 w a p 应用出现: 1 ) 百度新闻搜索 i 百度新闻搜索提供两种方式查看新闻:关键字搜索、焦点新闻分类浏览。新闻源较多，内容较丰富。关键字搜索为按全文搜索，未提供按标题搜索.每条新闻只能浏览部分内容，不能浏览全文。 2 ) 爱问新闻搜索冈爱问新闻搜索提供两种方式查看新闻: 关键字搜索、最热新闻浏览。关键字搜索提供了按标题搜索和按全文搜索两种方式。最热新闻按照频道分类，每类3 条。 3 ) 搜狗新闻搜索 3 搜狗新闻搜索提供两种方式查看新闻:关键字搜索、最热新闻浏览.关键字搜索提供了按标题搜索和按全文搜索两种方式.默认为标题方式。最热新闻显示在首页，共 1 0 条，未按频道分类. 第四节本文内容组织移动中文新闻搜索引擎是当今各 wa p中文网站竞争的热点之一。本文从搜索引擎基本技术开始，逐步研究了垂直搜索引擎的构造，结合新闻的特点，设计了移动中文新闻搜索引擎的系统架构，并实现了移动中文新闻搜集引擎的基本功能。本文的结构和内容如下: 第一章:重点介绍了本文的研究背景、研究意义及应用现状。绪论第二章: 首先介绍了搜索引擎的分类和发展历程，然后分析搜索引擎的组成、工作流程，阐述了搜索引擎的相关技术，介绍了搜索引擎中的重要分支一垂直搜索引擎，对垂直搜索引擎的产生原因及特点进行了分析，进而引出移动新闻搜索引擎，阐述了新闻搜索引擎的产生背景、移动搜索的特点及移动新闻搜索引擎的发展前景。第三章: 重点对移动中文新闻搜索引擎进行了系统分析，建立了系统的基本架构. 第四章: 实现了一个系统原型，详细介绍了系统各组成部分的实现工作，重点介绍了本文提出的基于视觉特征的 h t ml新闻页面正文提取算法。第五章:对本文所做工作进行了总结和展望。最后是参考文献、致谢及个人简历。搜索引擎第二章搜索引擎第一节搜索引擎的概述 2 . 1 . 1搜索引擎的概念搜索引擎是指以一定的策略搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的系统。搜索引擎实际上就是在用户 ( 搜索引擎的使用者) 和互联网资源 ( 搜索引擎的搜索对象) 这两者之间建立起一个联系，将用户真正想要的内容呈现给用户，同时用户不想要的内容不呈现给用户。我们称这一要求为 “ 所得即所需，( wh a t y o u g e t i s wh a t y o u w a n t ) 。从使用者的角度看，搜索引擎提供一个包含搜索框的页面，在搜索框输入词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回与用户输入内容相关的信息。 2 . 1 . 2 搜索引擎的分类搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎 ( f u ll t e x t s e a rc h e n g in e ) 、目录索引类搜索引擎 ( s e a rc h in d e x / d ir e c to ry ) 和元搜索引擎 ( m e ta s e a r c h e n g in e ) 14 1 . 1 ) 目录索引类搜索引擎基于目录的搜索引擎以人工分类的目录为主。互联网发展早期，以y a h o o 为代表的网站分类目录查询服务非常流行。现在这种方式依然还在采用。它的工作原理是: 网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下，允许用户通过各种方式找到想要的网站，这类搜索引擎一般提供目录导航和关键词检索两种方式。优点:由于目录的构建一般由人工完成，所以分类比较准确，被收编的网站质量也较高，用户搜索出来的结果往往比较准确。缺点:由于目录分类、网站收录大都由人工完成，因此收集的网页是有限的，而且更新的周期也比较长，维护代价较大。搜索引擎 2 ) 全文搜索引擎全文搜索引擎是名副其实的搜索引擎，人们一般所说的搜索引擎都是指全文搜索引擎，这是目前主流的搜索引擎，典型代表如百度、 g o o g l e 、搜狗等。工作原理: 使用网络蜘蛛s p id e r 程序从互联网上抓取各网站信息 ( 以网页文字为主 ) ，放到本地的数据库中，然后对这些原始的网页进行加工处理，并且建立网页内容的索引。通过检索索引，查询与用户查询条件匹配的网页，按一定的排列规则进行排序处理，然后将结果返回给用户。优点:全文搜索引擎信息量大，更新及时、无需人工干预。缺点: 返回信息较多，查全率有所提高，但有很多无用信息，查准率很难保证，用户必须从结果中进行筛选。 3 )元搜索引擎元搜索引擎也被成为搜索引擎的搜索引擎。它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的 ( 甚至同时利用若干个 ) 搜索引擎来实现检索操作，是对分布于网络的多种检索工具的全局控制机制。工作原理: 一个真正的元搜索引擎由三部分组成，即: 检索请求提交机制、检索接口代理机制、检索结果显示机制。 “ 请求提交，负责实现用户 “ 个性化” 的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。 “ 接口代理” 负责将用户的检索请求 “ 翻译”成满足不同搜索引擎 “ 本地化”要求的格式。 “ 结果显示” 负责所有源搜索引擎检索结果的去重、合并、输出处理等。著名的元搜索引擎有in f o s p a c e , d o g p i le , y v is im 。等优点:一般不需存储索引库，硬件与技术的代价比较小，而且由于它返回的结果是由多个独立搜索引擎提供的，所以信息的查全率较高。缺点:这类搜索引擎的检索结果很大程度上依赖于其它搜索引擎。同时，由于搜索建立在多个独立的搜索引擎之上，所以检索响应速度没有独立搜索引擎快。第二节搜索引擎的发展搜索引擎是伴随着互联网的发展而产生和不断发展的，互联网已经成为人们学习工作和生活中不可缺少的平台，几乎每一个上网的人都会使用搜索引擎。搜索引擎大约经历了三代的发展l i1 5 1 ，下面逐一介绍。搜索引擎 1 ) 第一代搜索引擎目录索引类搜索引擎，现在这种方式依然还在采用。 2 ) 第二代搜索引擎随着网络应用技术的发展，客户不再满足于对网站分类和摘要的简单查找，更希望对内容进行查找，于是就出现了关键字查询，即第二代搜索引擎。最成功的、最有代表性的是 g o o g l e .该搜索引擎不仅使用关键字搜索网页，内容可以覆盖互联网的大量网页内容，并且它将自身建立在网页链接分析技术之上，这项技术可对网页的重要性进行较客观的分析，将最重要的搜索结果首先呈现给用户。 3 )第三代搜索引擎随着网络信息的急骤膨胀，人们希望在大而全的基础上，为信息减肥，使信息查找更加精炼、准确和快捷。在此基础上第三代搜索引擎应运而生。第三代搜索引擎的主要特征是智能化、个性化、专业化。相对前两代，第三代搜索引擎主要关注的是如何为用户提供更便捷的有效搜索，更注重智能化和个性化，采用自动分类、自动聚类等人工智能技术，使用内容分析技术以及区域智能识别技术，增强了搜索引擎的查询能力。它的最大特点是大量采取人工介入，实现人工和技术的完美结合，以提高搜索水平。第三节搜索引擎的组成及工作流程前面介绍了搜索引擎的分类及各自的原理，下面重点介绍一下全文搜索引擎的系统构架和关键技术。为叙述方便，下文中提到的搜索引擎如无特殊说明都是指全文检索搜索引擎。 2 .3 . 1 搜索引擎的组成搜索引擎由搜索器( r o b o t ) 、索引器( i n d e x e r ) 、检索器( s e a r c h e r ) 和用户接口 ( ul) 等四个部分组成s 6 . 系统首先由搜索器收集网页的内容; 然后索引器分析收集的内容，建立索引; 再由检索器响应用户的检索请示，用户输入关键字后，搜索器用关键字与建立的索引器匹配，作相关性排序后通过用户接口将结果返回给用户。搜索引擎 2 . 3 . 1 . 1 搜索器搜索器在互联网中漫游，发现和搜集信息。它是一个计算机程序，日夜不停地运行。它要尽可能多、可能快地搜集各种类型信息，同时由于互联网信息更新很快，还要定期更新已搜集过的旧信息，以避免死连接和无效连接。搜索器常用分布式并行计算技术，以提高信息发现和更新的速度【6 2 . 3 . 1 . 2 索引器索引器理解搜索器所搜集的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表6 。索引器读入待索引的全文，首先进行分词处理生成索引项，并作归并排序，生成i n v 和i n d e x 文件 6 . i n v 文件为倒排表，即由索引项查找相应的文档; i n d e x 文件存储分词与倒排表的对应关系，内容为分词在倒排表中相应的文档块起始地址，含有该词的文档数量等信息。索引器使用集中式索引算法或分布式索引算法。当数据量很大时必须实现及时索引，否则将跟不上信息量急剧增加的速度。索引算法对索引器的性能 ( 如大规模峰值查询时的响应速度) 有很大的影响，一个搜索引擎的性能在很大程度上取决于索引器的质量 i 气 2 .3 . 1 .3 检索器检索器根据用户的查询在索引库中快速检索出文档，进行文档与查询的相关度评价，对要输出的结果进行排序。检索器通常支持多种语法规则，如逻辑操作符“ a n d . o r . n o t . + , 气” 、连接号、通配符、逗号、括号或引号等。对于每个索引项，匹配i n d e x 文件，查询倒排表中包含该索引项的文档，并对所有找出的文档进行集合运算，结果集基于内容和链接分析的方法进行相关度评价并排序，最大限度保证检索结果与用户查询串的高相关性，将最终形成的有序文档结果集合返回给用户接口。 2 .3 . 1 .4 用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。搜索引擎 2 . 3 .2 搜索引擎的工作流程搜索引擎的工作流程一般由抓取网页、加工整理、查询服务三个阶段构成【 6 抓取网页阶段:网络蜘蛛程序每隔一定时间自动启动，从 u r l数据库中取得 u r l列表，在蜘蛛规则的控制下按照抓取策略抓取各u r l所指定的网站，将抓回的网页存入网页数据库，并将新发现的u r l 放入u r l 数据库。加工整理阶段: 网页抓回后，通过分词等预先处理，对网页文档建立倒排索引，并将索引更新至大的索引数据库。同时，提取网页中的链接信息，存入链接数据库，为网页评级做好准备。查询服务阶段: 查询服务器接受用户的查询请求，对用户输入的信息进行分词处理，检索索引数据库，找到满足条件的记录，通过网页评级对结果记录进行排序处理，最后将排序后的记录反馈给用户。图2 . 1 给出了一般搜索引擎的处理流程。图 2 . 1搜索引擎工作流程图搜索引攀第四节搜索引单若干关键技术概论 2 .4 . 1 网络蜘蛛把互联网比喻成一个蜘蛛网，那么专门用于抓取网页信息的搜索器程序就象蜘蛛一样在网络间爬来爬去。因此，搜索引擎的搜索器程序又被称为网络蜘蛛 ( w e b s p i d e r ) . 网络蜘蛛，实际上是一个基于h t t p 协议的网络应用程序，其功能是自动搜索 i n t e r n e t 上的网站或网页。该程序在 i n t e r n e t 上漫游，通过网页间链接顺序地搜索新的地址，当遇到新的网页时，就给该页上的某些字或全部字作上索引并把它加到搜索引擎的数据库中，从而搜索引擎的数据库得以添加和更新。网络蜘蛛在搜索引擎中占有重要地位，对搜索引擎的查全、查准都有影响，决定了搜索引擎的数据容量，而且网络蜘蛛的好坏直接影响搜索结果页中的死链接 ( 即链接所指向的网页已经不存在)的个数。 2 .4 . 1 . 1 网页抓取策略将互联网作为一个有向图处理，将页面看作图中的节点，页面中的超链接看作图中的有向边，可以使用有向图遍历算法 ( 深度优先算法、宽度优先算法、启发式方式)对其进行遍历。在抓取网页的时候，网络蜘蛛一般有以下几种策略: 1 ) ip 地址搜索策略先赋予网络蜘蛛一个起始的ip地址，然后根据i p 地址递增的方式搜索本 ep 地址段后的每一个1 : 1 : 1 : 9 地址中的文档，它完全不考虑各文档中指向其它w e b 站点的超级链接地址。优点是搜索全面，能够发现那些没被其它站点引用的信息源;缺点是不适合大规模搜索。 2 ) 深度优先搜索策略深度优先搜索是一种在网络蜘蛛早期使用较多的方法。它的目的是要达到被搜索结构的叶结点，即那些不包含任何超链接的h t m l 文档。在一个h t m l文档中，当一个超链接被选择后，对被链接的h t m l 文档执行深度优先搜索，即在搜索其余的超链接结束之前必须先完整地搜索单独的一条链。深度优先搜索沿着h t m l 文档上的超链接走到不能再深入为止，然后返回到某一个h t m l文搜索引擎档，再继续选择该 h t m l 文档中的其他超链。当不再有其他超链接可选择时，说明搜索已经结束。该策略的优点是能遍历一个w e b 站点或深层嵌套的文档集合; 缺点是w e b 结构可能相当深，造成一旦进去，再也出不来的情况发生。 3 )宽度优先搜索策略在宽度优先搜索中，先搜索完一个 w e b页面中所有的超级链接，然后再继续搜索下一层，直到底层为止。例如，一个 h t ml文档中有三个超链，选择其中之一并处理相应的h t m l 文档，然后不再选择其下h t m l 文档中的任何超链，而是返回并选择第二个超链，处理相应的h t m l文档，再返回，选择第三个超链并处理相应的 h t ml文档。一旦一层上的所有超链都己被处理，就可以开始在刚才处理过的 h i ml文件中搜索其余的超链。这就保证了最浅层的首先处理。当遇到一个无穷尽的深层分支时，不会导致陷进 1 : 1 : 1 : 9 中的深层文档中无法出来的情况发生。宽度优先搜索策略还有一个优点，即它能在两个h t m l文档之间找到最短路径。宽度优先搜索策略通常是实现网络蜘蛛的最佳策略，因为它容易实现，而且具备大多数期望的功能。但是如果要遍历一个层次很深的站点，用宽度优先搜索策略则需要花费比较长的时间才能到达深层的h t ml文档。 2 .4 . 1 . 2 功能模块根据抓取过程，网络蜘蛛主要分为三个功能模块，一个是网页读取模块，主要是用来读取远程w e b 服务器上的网页内容，另一个是超链分析模块，这个模块主要是分析网页中的超链接，将网页上的所有超链接提取出来，放入到待抓取 u r l列表中，再一个模块就是内容分析模块，这个模块主要是对网页内容进行分析，将网页中所有超标志去掉，只留下文字内容。 2 .4 . 1 . 3 r o b o t 协议 w e b站点管理员和网页作者采用 r o b o t e x c l u s i o n p ro t o c o 】协议或 r o b o t me t a t a g 指令来控制网络蜘蛛对站点网页的访问 . 1 ) r o b o t e x c l u s i o n p r o t o c o l 协议 w e b 站点管理员可以使用ro b o t s . t x t 文件为来访的网络蜘蛛提供一个标准的访问策略，指出站点的哪一部分可以被访问。这个文件存储在 w e b 站点的根目录。所以当网络蜘蛛访问一个站点时，应该首先检查 ro b o t s .t x t ，如果这个文件存在，它便会按照这样的记录格式去分析: 搜索引攀 u s e r - a g e n t : . d i s a l lo w : / c g i - b i n / d i s a ll o w: a m 训 u s e r a g e n t 开头的行: 指出下面的禁止行适用的网络蜘蛛， . 意味着该网站适用于所有的网络蜘蛛。 d i s a ll o w开头的行: 指出禁止访问的目录或子目录，列出的路径以及它下面的子路径都对网络蜘蛛关闭， d i s a ll o w :/ 表示整个站点对外关闭。如果该站的r o b o t s . t x t 文件限制网络蜘蛛的访问，则网络蜘蛛应不对该站点进行处理。刀r o b o t me t a t a g r o b o t m e t h ta g 允许h t m l 网页作者指出某一页面是否可以被索引，或是否可以用来查找更多的h t m l 文档。该m e t a ta g 放在h t m l 文档的h e a d 中 . 其格式如下: r o b o t m e t h t a g 指令使用逗号隔开，可以使用的指令包括【n o i n d e x和 n o f o l l o w. i n d e x 指令指出网络蜘蛛是否可以对本网页进行索引: f o l l o w 指令指出网络蜘蛛是否可以跟踪本网页的链接。网络蜘蛛应该遵守这些协议，避免访问r o b o t s .t x t 以及r o b o t m e t a t a g 内禁止访问的网页。 2 . 4 . 2 信息的预处理信息的预处理包括信息的格式支持、转换以及信息过滤。目前，加抚功 d上的信息发布格式多种多样，这就要求搜索引擎支持多种文件格式。从实际的情况看，所有的搜索引擎都支持h t m l格式，而对于其他文件格式的支持则有所不同，最多的能支持 2 0 0多种文件格式。同时搜索引擎还应具备信息格式转换功能，以保证不同格式的数据均能在网络中流通。信息过滤也是搜索引擎的一项重要技术。在i n t e r n e t 上，存在着大量无用信息，一个好的搜索引擎应该尽量减少垃圾站点的数量，这是信息过滤要着重解决的问题。搜索引擎 2 . 4 . 3 中文分词 2 .4 .3 . 1概念词是最小的能够独立活动的有意义的语言成分。众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思，词语之间没有明显的区分标记。例如，英文句子勺a m a s t u d e n t ，用中文则为: “ 我是一个学生” 。计算机可以很简单通过空格知道 s t u d e n t ” 是一个单词，但是不能很容易明白“ 学” 、 “ 生” 两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，也称为切词。 “ 我是一个学生”的分词的结果是:“ 初卿一个/ 学生” 。 2 .4 . 3 . 2 中文分词与搜索1 1 . 目前的搜索引擎，大多是基于一种称为倒排索引的结构门 .以何作为索引的键值直接影响到整个搜索引擎的准确度、召回率、速度。下面我们先看看不使用中文分词的情况。如果不使用中文分词，可以采用单个汉字索引方式。例如， “ 网络” ，先索引 “ 网” 字，然后再索引 “ 络”字。对于一篇文档，把所有的汉字都单独索引一次，并记录他们的位置。搜索过程中，也是先找包含 “ 网”字的所有文档，再找包含 “ 络”字的所有文档，然后做交叉与运算，即包含这两个字，并且只有位置连续的文档才符合查询要求。这种方式是最基本的索引方式，现在有些小引擎还在使用。但这里存在一个问题:对于访问频繁的大数据量搜索引擎来说，进行与操作的计算量会相当大，这无疑是对硬件和算法的极大挑战。考虑到速度问题，如果不使用分词，还有另外一种选择: n 元组合索引方式，如2 元、 3 元等。拿2 元来说，中国人，先索引“ 中国” ，再索引“ 国人” 。同样，对于一篇文章，以2为单位，把所有相邻的汉字都索引起来，并记录他们的位置。搜索过程中，也是先找包含 “ 中国”的所有文档，再找 “ 国人”的所有文档，然后做交叉与运算，即包含这两个单元，而且位置连续的文档。这样以两个字做为索引单元，大大减少了搜索过程中的计算量。以上两种方式，都不需要分词，也实现了搜索引擎的索引和检索。但这里存在一个不可忽视的问题:准确度。一个很常见的例子:和服，如果按照上面两种方式，都会查到包含 “ 主板和服务器” 的文档: “ 北大” 也会得到“ 东北大学气搜索引擎对于大数据量的搜索引擎来说，每次搜索一般都会有成千上万的结果，用户己经很难挑选真正想要的信息，如果这里还要增加许多错误，用户体验会极差。所以，中文搜索引擎需要进行中文分词处理。以词为单位做为搜索引擎的索引键值，会大大提高搜索引擎结果的准确度，同时保证了搜索过程中较少的计算量。同时，对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太大意义，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。 2 . 4 . 3 3 中文分词技术现有的分词算法可分为三大类: 基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1 )基于字符串匹配的分词方法参这种方法又叫做机械分词方法，它是按照一定的策略将汉字串与一个充分大的机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功 ( 识别出一个词) 。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配; 按照不同长度优先匹配的情况，可以分为最大 ( 最长)匹配和最小 ( 最短) 一匹配;按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 正向最大匹配法 ( 由左到右的方向) 逆向最大匹配法 ( 由右到左的方向 ) 最少切分 ( 使每一句中切出的词数最小) 还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为 1 / 1 6 9 ，单纯使用逆向最大匹配的错误率为 1 / 2 4 5 。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需利用其它的语言信息来进一步提高分词的准确率。一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析的字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串搜索引擎分为较小的串后再进行机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。对于机械分词方法，可以建立一个一般的模型，在这方面有专业的学术论文，这里不做详细论述。 2 ) 基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分: 分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。 3 ) 基于统计的分词方法从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字x , y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个闭值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法. 但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如 “ 这一” 、“ 之一” 、“ 有的” 、 “ 我的” 、 “ 许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典 ( 常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。搜索引攀 2 .4 .4 倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址，由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）移动中文新闻搜索引擎的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）移动中文新闻搜索引擎的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档