(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)基于主题信息服务的垂直搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文 北京邮电大学硕士研究生学位论文 独创性( 或创新性) 声明 肿i l l lll l j l lli i i i iijiif y 17 5 8 7 6 8 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:菌丛 日期:乙仄爻,乙, 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 气结- 、 日期:之! ! :主:! 垒 日期: 。垒! 芝;。! k 扩 o a 3 j 北京邮电大学硕士研究生学位论文 基于主题信息服务的垂直搜索引擎的设计与实现 摘要 随着网络的普及,互联网应用正逐渐渗透到经济,社会,生活的 各个领域,特别是搜索引擎技术的出现,促进了信息的整合。垂直搜 索是针对某一个固定行业的专业搜索引擎,是搜索引擎的细分和延 伸,是对网页库中的某类信息进行一次整合,即搜索领域的行业化分 工。主题信息服务是指用户可以对一类信息的集合进行搜索。城市管 理包括政治的、经济的、社会的和市政的管理,它贯穿于城市规划、 指挥、建设、运行、安全监督和协调的全过程之中。将垂直搜索技术 和主题信息服务应用到城市管理科学决策中,会有效提高效率和准确 度。 本文来源于和某研究中心的合作项目,主要完成了以下工作:( 1 ) 分析了搜索引擎特别是垂直搜索引擎的发展现状,阐述了相关技术的 优点和缺点,介绍了本系统的工作原理和工作流程;( 2 ) 根据城市管 理实际工作需求,改进了当前主题信息搜索的设计思想,并根据城市 管理基本词典设计了一套主题词元数据标准,引入了主题词库和主题 相关词库的概念;( 3 ) 设计并实现了一个基于网页数据和期刊论文数 据的全文搜索引擎系统,实现了词频统计,用户个性化搜索,网页去 重,缓存机制等功能;( 4 ) 针对城市管理过程中的海量数据,运用数 据挖掘的相关理论,设计了主题相关搜索算法,并将此算法应用到城 市管理全文搜索引擎中,实现了面向主题的搜索服务。( 5 ) 最后统计了 一段时期内系统应用的实际工作情况。 城市管理全文搜索引擎已经在某研究中心投入使用,目前系统运 行效果良好。 关键词:主题信息服务垂直搜索城市管理决策个性化搜索主 题相关搜索算法 、j 卜 , f , 北京邮电大学硕士研究生学位论文 t h e d e s i g na n di m p l e n e n l a t i o no fav e r t i c a l s e a r c he n g i n eb a s e do nt o p i cd 师o r m a t i o n s e r v l c e a b s t r a c t w i t ht h ep o p u l a r i t yo ft h en e t w o r k , t h ei n t e r a c ta p p l i c a t i o n sa r ei n c r e a s i n g l y p e n e t r a t e di n t ot h ee c o n o m i c ,s o c i a l ,a n dl i f ei na l la r e a s ,e s p e c i a l l yt h ee m e r g e n c eo f s e a r c he n g i n et e c h n o l o g yf a c i l i t a t e si n f o r m a t i o ni n t e g r a t i o n v e r t i c a ls e a r c hi sa p r o f e s s i o n a ls e a r c he n g i n ea g a i n s tac e r t a i nf i ) 【e di n d u s t r y , i t s as u b d i v i s i o na n d e x t e n s i o no fs e a r c he n g i n e ,i t sai n t e g r a t i o no fc e r t a i nt y p eo fi n f o r m a t i o ni nt h e l i b r a r yo fw e bp a g e , t h a tt h ei n d u s t r i a l i z e dd i v i s i o ni nt h ea r e ao fs e a r c h t o p i c i n f o r m a t i o ns e r v i c ei sak i n do fs e a r c hs e r v i c et h a tu s e rc a ns e a r c hat y p eo f i n f o r m a t i o nc o l l e c t i o n u r b a nm a n a g e m e n t , i n c l u d i n gp o l i t i c a l ,e c o n o m i c ,s o c i a la n d m u n i c i p a lm a n a g e m e n t , l u l l st h r o u g ht h ee n t i r ep r o c e s so fu r b a np l a n n i n g , c o m m a n d , c o n s t r u c t i o n , o p e r a t i o n , s a f e t ys u p e r v i s i o na n dc o o r d i n a t i o n a p p l y i n gt h ev e r t i c a l s e a r c ht e c h n o l o g ya n dt o p i ci n f o r m a t i o ns e r v i c et os c i e n t i f i cd e c i s i o n m a k i n gi n u r b a nm a n a g e m e n tw i l le f f e c t i v e l yi m p r o v et h ee f f i c i e n c ya n da c c u r a c y t h i sa r t i c l ei sb a s e do nac o o p e r a t i o np r o j e c tw i t har e s e a r c hc e n t e r , m a i n l y c o m p l e t e st h ef o l l o w i n gw o r k :( 1 ) a n a l y z et h ec u r r e n t , i np a r t i c u l a rt h es t a t u so ft h e d e v e l o p m e n to fv e r t i c a ls e a r c he n g i n e ,d e s c r i b et h ea d v a n t a g e sa n dd i s a d v a n t a g e so f t h ec u r r e n tr e l a t e dt e c h n o l o g y , i n t r o d u c e st h ew o r k i n gp r i n c i p l ea n dw o r k f l o wo ft h e s y s t e m ;( 2 ) a c c o r d i n gt o t h en e e d so ft h ep r a c t i c a lw o r ki nu r b a nm a n a g e m e n t , i m p r o v et h ec u r r e n tt o p i ci n f o r m a t i o ns e a r c hd e s i g ni d e a s ,a n da c c o r d i n g t ot h eb a s i c d i c t i o n a r yo fu r b a nm a n a g e m e n t ,d e s i g nas e to fm e t a d a t as t a n d a r d so ft h et o p i c w o r d s ,i n t r o d u c eac o n c e p to ft o p i cw o r dl i b r a r ya n dt o p i cr e l a t e dw o r dl i b r a r y ;( 3 ) d e s i g na n di m p l e m e n taf u l l - t e x ts e a r c he n g i n es y s t e mb a s e do nw e b b a s e dd a t aa n d j o u r n a la r t i c l e sd a t a , a c h i e v et h ew o r df r e q u e n c ys t a t i s t i c s ,u s e r sp e r s o n a l i z e ds e a r c h , d e l e t i o no fd u p l i c a t e dw e bp a g e s ,c a c h i n gm e c h a n i s m sa n do t h e rf u n c t i o n s ;( 4 ) f o r m a s sd a t as e a r c hi nu r b a nm a n a g e m e n t ,u s er e l a t e dt h e o r i e so fd a t am i n i n g ,d e s i g nt h e t o p i cr e l e v a n c es e a r c ha l g o r i t h m ,t h i sa l g o r i t h mi sa p p l i e dt ot h eu r b a nm a n a g e m e n t f u l l - - t e x ts e a r c he n g i n et oa c h i e v et h et o p i c - - o r i e n t e ds e a r c hs e r v i c e ;( 5 ) f i n a l l y , c o u n t 北京邮电大学硕士研究生学位论文 t h ea c t u a lw o r ko ft h es y s t e ma p p l i c a t i o n sw i t h i na p e r i o do ft i m e t h es y s t e mh a sa l r e a d yb e e np u ti n t ou s ei nt h er e s e a r c hc e n t e ra n dc u r r e n t l y w o r k sw e l l k e yw o r d s :t o p i ci n f o r m a t i o ns e r v i c e , v e r t i c a ls e a r c h ;u r b a nm a n a g e m e n t d e c i s i o n ;p e r s o n a l i z e ds e a r c h ;t o p i cr e l e v a n c es e a r c ha l g o r i t h m i v 北京邮电大学硕士研究生学位论文 目录 第一章绪论l 1 1搜索引擎简介l 1 1 1什么是搜索引擎l 1 1 2搜索引擎的发展趋势2 1 2垂直搜索引擎3 1 2 1垂直搜索引擎概念3 1 2 2垂直搜索引擎的现状和发展方向4 1 3面向主题的垂直搜索引擎5 1 4城市管理中的问题及垂直搜索的应用5 1 5本文的工作6 第二章系统概要设计8 2 1系统结构8 2 2工作原理l o 2 2 1 工作流程1 0 2 2 2 工作原理1 l 2 2 3 体系结构1 2 2 3网络爬虫设计1 4 2 4主题搜索设计1 7 2 4 1主题特征提取1 7 2 4 2主题信息搜集1 8 2 4 3数据处理流程1 9 2 5全文搜索框架2 0 2 5 1 相关技术简介2 0 2 5 2 相关技术优势2 1 2 5 3 框架功能2 1 2 5 4 倒排索引2 3 2 5 5 为什么选用l u c e n e 2 5 2 6w e b 应用框架2 6 第三章 3 1 3 2 3 3 3 4 3 5 3 6 第四章 系统详细设计2 9 系统选型2 9 分词算法的选择3 0 词频统计模块3 2 文档去重模块3 6 用户个性化模块4 0 缓存机制4 4 主题信息服务设计与实现4 6 v 北京邮电大学硕士研究生学位论文 4 1主题词元数据标准4 6 4 2主题词典4 7 4 3主题相关词词典4 8 4 4主题相关搜索算法4 9 4 4 1搜索性能指标4 9 4 4 2主题相关搜索算法基本思想5 0 4 4 3一些基本概念5 l 4 4 4主题相关搜索算法5 5 4 5主题相关搜索算法示例5 7 第五章系统应用6 0 5 1知识库检索6 0 5 1 1基本检索6 0 5 1 2高级检索6 0 5 1 3检索结果6 1 5 2论文库检索6 l 5 2 1基本检索6 1 5 2 2高级检索6 l 5 2 3检索结果6 2 5 3高频词汇统计应用6 2 5 3 1热门词汇6 2 5 3 2用户关注热点6 4 5 4热门文章6 4 5 5国内外会议通知6 5 第六章总结6 6 参考文献6 8 致谢7 l 北京邮电大学硕士研究生学位论文 1 1 搜索引擎简介 1 1 1 什么是搜索引擎 第一章绪论 随着因特网在全世界以史无前例的速度和规模迅猛发展,w e b 信息也以惊 人的速度在迅速膨胀,用户查找相关信息的难度越来越大,如何检索查询这些信 息资源迫在眉睫,而搜索引擎技术的出现解决了这一难题,它可以为用户提供信 息检索服务。早在1 9 9 4 年,互联网发展早期,网络搜索引擎的先驱者y a h o o 公 司成功开发基于网站分类目录的查询模式,并成功应用于网络信息检索,这在当 时引发了一场搜索风暴。用户查询时,通过一层层的点击来查找自己想找的网站。 但从严格意义上讲,它并不是搜索引擎。正是由于互联网用户对搜索准确性和效 率的迫切需求,各种搜索技术如雨后春笋般浮出水面,各大搜索引擎公司应运而 生。最著名的如百度,g o o g l e ,二者市场占有率领先,合计在北京和上海占有超 过8 0 的市场份额。 搜索引擎技术现阶段主要可以分为三大类【1 j : ( 1 ) 全文索引:从互联网提取各个网站的信息( 以网页文字为主) ,建立起 数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序 ( i n d e x e r ) ,俗称“蜘蛛”( s p i d e r ) 程序或“机器人 ( r o b o t ) 程序,能自建网 页数据库,搜索结果直接从自身的数据库中调用,上面提到的g o o g l e 和百度就 属于此类;另一类则是借用其他搜索引擎的数据库,并按自定的格式排列搜索结 果,如l y c o s 搜索引擎。 ( 2 ) 目录索引:网站分类目录由人工整理维护,完全依赖手工操作。用户提 交网站后,目录编辑人员会根据套自定的评判标准,甚至编辑人员的主观印象, 在审查你的网站后决定是否接纳,之后将网站分门别类地存放在相应的目录中, 并简要描述。用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。 上文提到的y a h o o 即是此类型。 ( 3 ) 元搜索引擎:也叫m e t a 搜索,是指搜索引擎之后或之上的搜索引擎, 即可以同时查询多个搜索引擎内容的网站。元搜索引擎( m e t as e a r c he n g i n e ) 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名 的元搜索引擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等。 北京邮电大学硕十研究生学位论文 1 1 2 搜索引擎的发展趋势 搜索引擎已经深入每一个互联网用户的生活,已成为一个重要的研究开发领 域。它具有很强的综合性,涉及到信息检索、人工智能、分布式处理、数据挖掘、 自然语言处理、计算机网络等很多领域的理论和技术【3 4 】【引。它具有很强的实用 性,在数据量急剧膨胀的今天,由于信息存储成本的降低,信息的增长速度还会 继续加快,搜索必将在一段时期内仍然处于热门地位。它具有很高的经济价值, 拥有大量的用户。因此引起了计算机科学领域和信息产业界的高度关注,下一代 的搜索向何方向发展,业界众说纷纭,出现了很多值得注意的动向。 提高信息查询的精度和有效性是人们一直努力的方向。用户在搜索引擎上查 询信息,并不十分关注返回结果的多少,而是关心所得结果是否和自己的需求吻 合。现如今传统的搜索引擎已经可以做到返回几十万条查询结果,但大多重复, 用户不得不在这样庞大的结果中筛选,有时甚至找不到合适的,很浪费时间。解 决这种现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中 表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使 用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关,哪些不相 关,通过多次交互逐步求精。二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果 分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是 进行站点类聚或内容类聚,减少信息的总量。 其次是智能化个性服务。当前的搜索引擎,所有用户输入同一个关键词的返 回结果是一样的,但每个人从事的职业不同,背景不同,地域不同,所需要的查 询信息也是不尽相同的。下一代的搜索引擎致力于人工智能服务,依据用户的相 关信息进行个性化处理。使用获得的用户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤,甚至包括兴趣过滤和不良信息过滤,并自动地 将用户感兴趣的、对用户有用的信息提交给用户。智能化具有不断适应新信息和 用户信息动态变化的能力,从而持续提供个性化的服务。 再有就是交叉语言检索的研究和开发。交叉语言信息检索是指用户用母语提 交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题 的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目 前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不 确定性。对于经济全球化、文化全球化的今天,无疑具有很重要的意义。 如何解决搜索的精度和准度是当前搜索引擎一直在关注的问题,也是急需解 决的问题。从技术角度讲,当系统规模到达一定程度时,必须要采用分布式方法, 以提高系统性能。如g o o s e ,i b m 等致力发展的云计算,搜索器可以在多台机 2 北京邮电大学硕士研究生学位论文 1 3 面向主题的垂直搜索引擎 面向主题信息服务建立在主题信息垂直搜索服务的基础之上,应用垂直搜索 引擎自动获取大量的、权威的专题资源索引库,并不断更新这个资源索引库,在 这个索引库基础上进一步运用数据挖掘策略,挖掘出用户感兴趣的相关信息,然 后将结果推送给用户。主题搜索引擎一般面向某一特定的专业领域,应用这种模 式,确保了对领域信息搜集的完备,更新更快,更加适用于专业研究人员【9 l 。 主题搜索是指用户对一类信息的集合的搜索,主题信息是指具有这一类别特 征的文档集合表达的主要信息,比如“十七大一作为一个主题,不直接含有“十 七大关键词而含有“科学发展观一、“邓小平理论 的文档也属于这个主题范畴, 属于一个主题文档集合。 主题搜索的一个重要特征是自动研究一段时期内主题信息的变化及分布特 征,即一个主题的内容是随着时间的变化而变化的,需要每隔一段时间更新,分 析这一时期内哪些时事信息与主题关系最紧密,哪些属于冷门信息暂时不需要关 注,这就需要运用数据挖掘领域的知识处理搜集到的信息,如何及时准确更新主 题信息是主题搜索中的重点和难点。 1 4 城市管理中的问题及垂直搜索的应用 城市是城市管理的空间实体,是一个随社会生产力发展而不断发展变化的社 会经济有机体。现代城市的内在特征主要有城市功能日趋多样化、城市生产活动 日趋智能化、城市活动日趋社会化、城市系统日趋开放化,这些变化从根本上对 现代城市管理的内涵提出了新的要求。广义的城市管理是指对城市一切活动进行 管理,包括政治的、经济的、社会的和市政的管理,它贯穿于城市规划、指挥、 建设、运行、安全监督和协调的全过程之中。狭义的城市管理基本等同于市政管 理,主要是指政府部门对城市的公用事业、公共设施等方面的规划和建设的控制 和指导。城市管理是城市发展的永恒主题,是以城市的基本信息流为基础,依靠 法律、行政和技术等手段,对城市运转过程中产生的问题及时反馈、处置、解决, 以维护和强化城市功能,满足城市发展和人民生活的需要1 2 j 。 北京应该充分利用自身丰富的城市管理的科技资源和优势,将城市管理相关 的科学决策方法、理论、信息,科学决策成果及决策失败案例等内容,通过决策 信息平台为各级城市管理的政府部门和各类决策者提供学习、交流服务。同时, 北京作为首都,其示范作用不言而喻,北京城市管理科学决策的成功程度对于其 他城市发展有很大的示范作用。 s 北京邮电大学硕士研究生学位论文 城市管理当前存在的问题6 i 7 1 8 1 : ( 1 ) 从整体层面上看国内许多城市管理水平明显滞后于社会经济发展的要 求,城市管理工作在管理水平、管理机制和管理模式方面远远不能满足飞速发展 的城市现代化建设需要。 ( 2 ) 管理者搜集民众舆情信息速度慢,时效性差,准确性低,难以及时作出 应对和反馈。 ( 3 ) 数字化和信息化程度不高,面对互联网海量信息,很难从中分析和挖掘 出民众真正关心的问题,取小放大。 ( 4 ) 大多数城市管理仍然依赖于个人的判断,“人治 烙印明显,没有真正 认识到科技资源对科学决策的意义。 ( 5 ) 即使解决上诉问题,无法对信息准确定位,无法以科学分析手段帮助决 策者制定相关政策,仍然是城市管理亟待解决的难点。 解决办法: 对城市活动进行决策,首先需要及时搜集相关信息,提取有用部分,筛选, 整合,聚类,随着互联网的飞速发展,网络为城市管理提供了相当大的便利,一 部分资源可以通过通用搜索引擎找到,但正如文中提出的问题,依靠这种方式, 决策者需要从海量数据中挑选对自己有用的信息,效率非常低,如果不能及时应 对发生的紧急状况,无疑没有任何意义,而且网络信息可靠性比较低,仅仅依赖 互联网,常常会影响决策者的判断。设计一种面对城市管理的主题搜索引擎,可 以有效地解决这个问题。某研究中心致力于提高城市管理效率,深度挖掘网络舆 情,科学决策,为了响应十七大提出的科学民主决策,为了确保及时有效应 对北京城市管理中可能发生的问题,深入开发和广泛利用信息资源,不断 完善城市服务功能,提高城市管理、人民生活和城市环境的质量,该研究 中心决定开展本文的研究课题。我们实验室在这个背景下,参与了此课题 的研究,主要负责平台的搭建与功能的实现。 1 5 本文的工作 本人参与了与某研究中心合作的基于城市管理系统海量数据的分析与挖掘 项目。在了解了搜索引擎领域的各种概念、算法的基础上,设计并编程实现了一 个垂直搜索引擎平台,实现了主题信息服务,互联网信息库数据搜索,论文库数 据搜索( p d f 搜索) ,高频词汇统计分析,用户个性化等等一系列功能。本文所 完成的垂直搜索引擎平台来源于与某研究中心合作项目,目前已经投入使用,用 于城市管理中的决策支持,使用效果良好。其主要工作在于: ( 1 ) 从城市管理行业垂直搜索遇到的具体问题和实际情况出发,研究了这一 6 北京邮电大学硕士研究生学位论文 器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可 以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的 机器上进行文档的并行检索,以提高检索的速度和性能。从应用角度讲,垂直搜 索引擎的出现可以更好的帮助某一行业,某一需求的用户提高搜索的准确度和效 率。 当然,搜索引擎作为当今互联网最热门的话题,还有许许多多的发展方向。 如移动化,不仅是手机,未来电视、汽车等所有能上网的产品都将具备搜索功能; 如智能化,当用户输入“我想买一张电影票 ,选座位,购票,送票等功能就会 自动实现,用户仅仅等待送货上门即可。 1 2 垂直搜索引擎 1 2 1 垂直搜索引擎概念 正是由于用户对当前千篇一律的传统搜索引擎所查询的结果不满意,追切需 要搜索个性化,智能化,从而导致了垂直搜索概念的产生。 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提 出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特 定需求提供的有一定价值的信息和相关服务,具有行业色彩。垂直搜索引擎和传 统的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网 页的非结构化数据抽取成特定的结构化信息数据,它不是以网页为最小单位,而 是将结构化的数据作为最小单位,对这些数据进行进一步的筛选,整合,处理, 再建立索引以满足特定用户的查询需求。整个过程中,数据由非结构化数据抽取 成结构化数据,经过进一步加工处理后以非结构化的方式和结构化的方式返回给 用户。它有如下特点: ( 1 ) 用户服务简单化 针对用户的信息需求垂直搜索引擎可直接提供特定范围的特定形式的组织 化信息,提供的结果是与用户需求相关的,不需用户再进行分析和判断的结果。 垂直搜索引擎对用户检索关键词的要求很简单,直接输入检索词,无需进行相关 度判断,对用户的要求较低,不需要不断调整的过程。 ( 2 ) 服务内容精准化 信息服务内容对用户来说至关重要。垂直搜索引擎提供的搜索结果是结构化 的数据,几乎不需要打开具体网页就能判断是否需要。搜索结果的描述针对性强, 从多个角度描述用户查找的特定信息。结果的排列方式也可由用户设定,直接提 高了信息服务的精准程度。 3 北京邮电大学硕士研究生学位论文 ( 3 ) 服务策略专业化 垂直搜索引擎在特定主题的网站上查找信息,对这些非结构化的信息进行提 取。然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索 引提供用户搜索。通过分析挖掘提供市场行情报告,垂直搜索引擎在信息服务策 略上采用的技术有:元数据采集技术、分词技术、索引技术等,这些信息处理技 术比较专业,保证了搜索的有效性。 1 2 2 垂直搜索引擎的现状和发展方向 当前不论在国内国外,垂直搜索引擎已经成为关注的热点。很多大型的搜索 引擎公司相继推出了自己的垂直搜索产品,如百度推出的地图搜索和法律搜索, 腾讯s o s o 推出的视频搜索和博客搜索,网易有道推出的购物搜索,甚至出现了 一些垂直搜索网站,如搜房网( w w w s o f u n c o m ) ,读书网( w w w d u s h u c o m ) 等。 垂直搜索因为具有传统搜索引擎无法比拟的准确率而受到广大用户的青睐, 其搜索质量更高,相关性更高,必将是搜索领域重要热点之一。针对目前搜索引 擎存在的问题和网络信息资源检索的要求,下一代垂直搜索引擎将有以下几种发 展方向: ( 1 ) 目录进一步分类 早期的基于目录的搜索引擎与垂直搜索类似,选取某一特定行业,某一特定 话题对目录进行细化分类,抓取行业相关站点的信息提供专业化的搜索服务。用 户可以通过主题浏览等方式,迅速知道自己想要什么,点击目录即可。 ( 2 ) 深度挖掘型搜索 通过对元数据信息进入深度加工,该类垂直搜索引擎为用户提供网页搜索引 擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布 互动功能,能很好地满足用户对专业性、准确性、功能性、个性化的需求。 ( 3 ) 本地化拓展 各大搜索引擎g o o g l e 、y a h o o 、百度都推出了自己的地图搜索,本地搜索的 关键需求在于人们大多是在本地购物,就餐,娱乐,地图仅仅作为指向工具,而 用户关心的是某家餐馆是不是好吃。总体来说国内的本地搜索在数据挖掘、开放 接口、信息共享方面和国外比存在很大差距,国外的垂直搜索已经形成了事实上 的数据供应链关系。 ( 4 ) 交易平台拓展 垂直搜索引擎由于对行业的专注,使得它可以提供行业信息深度和广度的整 合,提供更加细致周到的服务。将垂直搜索与电子商务相结合,推出针对某一行 业的搜索交易平台,可以获得更好的效果。 4 北京邮电大学硕士研究生学位论文 领域涉及到的方法和工作流程,以及用到的相关工具软件和业务知识。 ( 2 ) 根据分析垂直搜索引擎具体行业用户的研究方法和遇到的实际问题,设 计了一套完整的搜索模式,用于解决该领域的重要问题。 ( 3 ) 根据城市管理实际工作需求,改进了当前主题信息搜索的设计思想, 并根据城市管理基本词典设计了一套主题词元数据标准,引入了主题词库 和主题相关词库的概念。 ( 4 ) 以j a v a 语言为主,j 2 e e 框架为辅,以现有的搜索引擎架构l u c e n e 框架 + 网络爬虫为基础,应用多种相关计算机技术,设计并实现了面向主题信息服务 的垂直搜索引擎平台;对搜索高频词汇在城市管理决策中的价值进行了分析和挖 掘,将热点词汇,热点文章等绘制成图表并生成简报;对垂直搜索个性化进行了 尝试,用户可以根据自己的兴趣选择要生成的简报样式,系统可以将简报和邮件 发送给用户。 ( 5 ) 针对城市管理过程中的海量数据,运用数据挖掘的相关理论,设计 了主题相关搜索算法,并将此算法应用到城市管理全文搜索引擎中,实现了 面向主题的搜索服务。 ( 6 ) 统计了一段时期内系统应用的实际工作情况 需要注意的是,本文中涉及到的文档转换,文档结构化,网页去噪等 功能在本项目另一篇关于文档转换模型中详细介绍。 7 北京邮电大学硕士研究生学位论文 2 1系统结构 第二章系统概要设计 现代城市管理是多元的城市管理主体依法管理或参与管理城市地区公共事 务的有效活动【5 l 。现代城市管理包括广泛的经济、文化、教育、基础设施、社会 福利、公共安全、交通、环境与卫生、城市住房、公用事业、游想设施等公共事 务【6 l 。城市管理是以城市这个开放的复杂巨系统为对象,以城市基本信息流为基 础,运用决策、计划、组织、指挥、协调、控制等一系列机制,采用法律、经济、 行政、技术等手段,通过政府、市场与社会的互动,围绕城市运行和发展进行的 决策引导、规范协调、服务和经营行为【7 l 。 某研究中心的城市管理系统是一套完整的舆情信息系统,以政策、法规和标 准等为保障,以计算机网络及硬件平台为依托,在公共服务体系平台上构建人才、 技术、需求管理信息系统,在数据中一1 5 和数据交换体系的支持下,各类管理信息 系统中的各项业务通过城市管理技术支撑公共服务内部网站和外部网站,形成对 社会的应用与服务和管理,同时整个公共服务体系必须要在切实的安全体系下运 行。系统总体结构如图2 1 所示。 系 统 管 理 维 护 中 心 f 鑫 息 处 理 舆情铃理人员 内部州户普通抖 户 i 新闻监测il 论坛分析ll 焦点跟踪il 决镱支持i 图区圆圈圈 l 内容管理平台 i l 自动消重 i 自动分类 l l 自动摘要 ili i 数化泵集格式转换标弓l 卜拔 l 田圈田园 ( 一1 = 一 身 份 认 知 l i : 识 体 管 系 理 技 :亡: 柬 移1 幸 王l 坦 体 系 , 网 幸, 络 权 抓 : 取 删 技 体 术 ; 、l, 安 食 体 系 图2 - 1 城市管理系统总体结构图 其中的全文信息检索系统即为本文介绍的面向主题信息服务的垂直搜索引 8 网幽同圆冈凼 北京邮电大学硕士研究生学位论文 擎,分为两类,一类为以论文数据为基础的论文库检索,另一类为以网页文档为 基础的知识库检索,如图2 2 。 图2 - 2 信息检索系统分类结构 每一部分检索系统有其自身的功能结构,如图2 - 3 ,2 - 4 。 图2 - 3 论文检索系统功能结构 9 北京邮电大学硕士研究生学位论文 2 2工作原理 图2 - 4 网页检索系统功能结构 由于本系统属于全文搜索引擎类型,所以只选择全文搜索引擎的工作原理进 行介绍。 2 2 1 工作流程 现代高质量的搜索引擎一般采用三段式的工作流程,即网页搜索阶段,预处 理阶段,查询阶段引,如图2 - 5 。 网页搜集几、预处理 几j 、 用户查询 厂 厂 图2 - 5 搜索引擎三段式流程 三个阶段联系紧密,相辅相承,缺一不可。每一个阶段都有自身的任务,为 北京邮电大学硕士研究生学位论文 下一阶段服务,同时又向上一阶段反馈信息,促进整体搜索效率的提升。 2 2 2 工作原理 每一个搜索引擎只能搜到它的网页索引数据库里储存的内容,所以当你在任 何一个搜索引擎输入同样的关键词的时候,返回的结果不尽相同,原因就是虽然 互联网只有一个,但每一个搜索引擎的能力和偏好不同,搜集网页规则不同,背 后的网页索引数据库也是不同的,网页排序算法不同,你所看到的返回的网页链 接顺序也是不同的。 网页搜集阶段:当前互联网信息如大海般广阔,不可能每次用户输入查询, 系统就到网上寻找一次,这样既不能满足快速响应用户查询,也给服务器带来很 大负担。因此,现今所有大规模搜索引擎服务都是直接或间接地预先搜集一定数 量的网页。 搜集方式主要有三种【1 讲。种是定期搜索,即每隔一段时间( 通常是2 0 至 3 0 天) ,搜索引擎主动派出s p i d e r 程序,对一定口地址范围内的互联网站进行检 索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另 一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内 定向向你的网站派出s p i d e r 程序,扫描你的网站并将有关信息存入数据库,以备 用户查询。还有一种是增量搜集,开始搜集一部分,以后的工作只需要搜集新出 现的或有所改变的网页,这是基于有些网站的变化更新周期很长,没有必要搜集 的频率太快,特别是一些专门性质的网站,服务器很少,搜集的网页也很少,一 般的网络条件即可达到要求。搜索引擎的s p i d e r 一般要定期重新访问所有网页 ( 各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网 页有不同的更新频率) ,更新网页索引数据库,增加新的网页信息,去掉已删除 的页面,并根据网页内容相关度重要度和链接关系的变化重新排序。这样,网页 的具体内容和变化情况就会反映到用户查询的结果中,用户搜索查询的体验就更 好。 预处理阶段:主要包括关键词提取,网页去噪处理,重复转载网页消除,链 接分析,重要度相关度计算。由分析索引系统程序对收集回来的网页进行分析, 提取相关网页信息( 包括网页所在u r l 、编码类型、页面内容包含的关键词、 关键词位置、生成时间、大小、与其它网页的链接关系等) ,根据一定的相关度 算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键 词的相关度( 或重要性) ,然后用这些相关信息建立网页索引数据库。这个阶段 是最重要的阶段之一,用户能不能得到满意的搜索结果很大程度上取决于这个阶 段的效率。比如网页中有很多无用的j a v a s c r i p t ,图片,广告,删除这些不必要 1 1 北京邮电大学硕十研究生学位论文 的元素再存入数据库;比如一篇文章几家网站同时转载,只保留其中一个链接即 可。针对这些技术难点,业界提出了很多著名的算法,如h i t s 算法,已经可以 很好的求出网页的权值排序。 查询阶段:这是用户关注的重点。经过预处理阶段处理过的网页应该包含一 些基本信息,文档,u r l ,日期,标题,关键词列表,重要度,相关度。在查询 服务中,查询方式是指用户提交查询的方式,现阶段的搜索还是以关键词为主, 即用户需要什么输入什么,如输入“北京”,有可能用户是想了解北京哪里好玩, 也有可能想知道如何乘坐火车飞机到北京,这是完全不同的两种需求,这很大程 度上取决于用户输入的技巧。很多大型搜索引擎公司已经提出了几种解决的方 法,如问答式,直达式等等,即便用户搜索技巧不高,也可以得到自己满意的结 果。还有就是对结果的排序,一般是以列表的形式,也有的如v i v i s m i o 将结果 以类别形式呈现。早期人们以词汇出现的频率为标准,但由于网页编写过程中自 发性,随意性比较强,仅仅针对词的出现次数排序表现出明显的缺点。每家大型 搜索引擎公司都有自己的排序算法,p a g e p a n k 算法是g o o g l e 用于用来标识网页 的等级重要性的一种方法,是g o o g l e 用来衡量一个网站的好坏的唯一标准,它 将查询过程中形成的相关性指标结合成最终的排序,这样得到的结果基本符合实 际需求。最后用户查询需要返回网页的基本元素,如标题,网址,摘要。摘要的 生成是自然语言理解领域的一个重要课题,但由于语言理解的困难,复杂的语言 理解花费时间太多不符合高效处理海量信息的要求,因此当前搜索引擎在生成摘 要时并没有太多关注这个问题,可以归纳为两种方式: ( 1 ) 按照一定的规则,如截取网页正文开头5 1 2 个字节,或者第一段第一个 句子,但有时这样组成的摘要与用户查询无关。 ( 2 ) 动态组织文档,根据用户查询关键字在文档中的位置,提取附近文字, 并将关键词高亮显示。大多数搜索引擎采用的即是这种方式【8 l 。 除了基本搜索外,本系统还支持高级搜索。即用户最多可以添加5 个搜索条 件,选择这几个条件间“与”“或“非”的关系,用户可以很方便的输入几个查 询关键词组成一个查询条件,使用户更清楚地将自己的需求转换为查询语句。 2 2 3 体系结构 根据上文关于搜索引擎原理的介绍,我们可以设计出本系统的体系结构,如 图2 - 6 所示。还需要指出的是,网页量较大的话,如达到百万千万数量级,效率 的问题尤为突出,在网页搜集的过程中,应该注意并发性。将分布式计算引入网 页搜集是当前超大型搜索引擎的通常做法,在全世界各地布置多台计算机,从而 解决带宽问题,但随之而来的设备维护也是相当麻烦的。其中也涉及到一些效率 北京邮电大学硕士研究生学位论文 和质量的问题。 图2 - 6 系统体系结构 影响搜集效率的其中一点原因发生在网络的服务器端【9 l 【1 0 l ,它可能来不及提 供所需的页面。这除了有些w e b 服务器所处的网络条件比较差,或者有太多其 他人访问外,搜索引擎发出页面请求太频繁也是一个重要原因。落实到技术上, 就是要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论