(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf_第1页
(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf_第2页
(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf_第3页
(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf_第4页
(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(信息与通信工程专业论文)网络信息雷达系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 摘要 脏着网终信息的迅猛发展,网络信息的搜索已经成为人们获取有用信爨灼零 用手段。传统搜索引擎关注垒网内容的采集_ j f 搜索,不适用于专业学科领域。本 文分析和研究了传统搜索引擎的优缺点。设计了适威于专业学科领域的搜索要求 搜索模型“网络信息雷达”。 网络信息雷达是搜索引擎的一种,怒对传统搜索的补充和扩充。网络信息嚣 达提供了信息从采集、分类、保存、加工、检索、统计到个性化服务的套完熬 解决方案。信息甭达系统由信息采集和馓控、信息分析和标引、自动分必、数据 缎织、信息检索、信息加工与发布、信息挖獭与服务、用户权限分级等模块构成, 各模块之间相对独立叉稻五关联。 文章结合搜索技术详细分析了系统韵整体结构和核心的算法,葡时结合j a v a 港言缡程实琥了系统鹣美键功能模块,簸霜瓣两络倍怠雷达的发展方商绳出了自 蠢静设想。 主题词:网终俊患霉达搜索b i 擎 第i 页 国防科学技术大学研究生院学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m c t ,i n f b 衄a t i o ns e a r c hh a sb e c o m et h cc o r m o i l l y u s e dm e a n st 0o b t a i nu s e f u li n f o n a 垃o n t r a d i t i o n a ls e 盯c he n 西n e sa r cn o ta p p r o p r i a t c f o rs p e c i a ld i s c i p l i n e sb e c a u s em e yf o c u so nt 1 1 ec 0 1 l e c t i o na n ds e a r c ho fa l lc o n t e n t s a v a 订a b l eo nt h ei n t e m e t i nt l l i sm e s i s 、v ea i l a l y z e dt r a d i t i o n a ls e 甜c he n g i n e sa n dt i l e i r n a w s ,a 1 1 dt h e nd e s i g r l e dan o v e ls e a r c hm o d e l ( n e t w o r ki n f 0r a d a r ) t 1 1 a tm e e t st h e r c q u i r c m e n t so f i n f o n n a t i o ns e a r c hi ns p e c i a ld i s c i p l i n e s t h ep r o p o s e dn e t w o r km f 0m d a ri sac o m p l e m e n 谢l ya n d 弛e x t e i l s i o nt o t r a d i t i o n a ls e a r c he n g i r l c s i tp r o v i d e sac o m p l e t es o l u t i o nf o ri n f o n n a t i o nc o l l e c t i o n , c l a s s m c a t i o n ,s t o r a g e ,p r o c c s s i n 舀证d e xa n dp c r s o n a l i z e ds e r v i c e s t h en e t w o r ki n f o r a d a ri sc o m p o s e do fm o d u l e sf o ri n f 0 肌a t i o nc o l l e c t i o na i l dm o n i t o r i n g ,i n f o 蛐a t i o n a j l a l y s i sa 1 1 di n d e x ,a m o m a t i ci n f o m l a t i o nc l 髂s m c a t i o n ,d a t ao r g a 岫i 刎o n ,i n f o n a t i o n i n d e x ,i n f o m l a t i o np r o c e s s i n ga n dp u b l i s h i n g ,m f o 珊a t i o nm i m n g 觚ds e r v i c e ,a n du s e r a u m o r i z a t i o n e t c w h e r e 也e s em o d l l l e si n t e r a c tw i t l le a c h0 t 1 1 e r c o m b i n i n gw i t l lt h es e 盯c ht e c l l l l o l o g y t h i sp a p c rf i r s t l ya i l a l y z e st l l es ”t e m s t m c t u r ea n dc o r ea l g o r i 恤n si nd e t a i l ,t l l e n p m p o s e sag e n e r a lm e t h o d f o r i m p l e m e n t i n gm ek e ys y s t e mf h n c t i o n sb a s e do nj a v ap r o 伊a n u n 协gl a n g u a g e ,a n d f i n a l l vd r e s e n t st h e 向t u r e 、v o r l ( o nm en e t w o r ki n f - or a d a r k e yw o r d s : n e t i i v o r ki n f o 哺d a rs e a m he n g j n e 第j i 页 独创性声明 本人声鹱舞羹交簿擎筏论文是鬟本人在辱帮鼗尊下避嚣辩爨窕羞搏爱象褥 酌研究成果。尽我所知,滁了文中特剃加以标泣和致谢的地方外,论究中不包含 其蚀人晓经发表和撰霹过龅研究成果,也不包含舞获键国防辩学技嫩必学袭其它 教寅瓿褥媳学位鬟证每秀餐蔑过戆麓辫。毒裁一凌王撵跨麓志砖零鼹毙爨彀弱任 何贾猷均g 在论文中髂了螭确魏说臻著袁零谢意。 学位论文题鞫:匿绫黛摄蓬这基蕴煎班登童谯盐 学披论文雅豢签名:嚣裳:善脚f 年f 点r 鹾 学位论文版权使用授权书 本入宠垒了薅嚣跨辩擎搜拳天攀鸯关傣蘩、茨麓学整逶文趣糕怒。零天袭觳 馨游科学技术大学可瑗保罄辩离鬻家有关部门蹴梳蒴送交论文酶鬣帮件和毫子 文档,允许论文被查阕和储阏;可以将学位论文的套部或部分内容端入有关数搬 蓐遴程援豪,丐淡幕鬟影玲、绺黟蠛罄摇莓夔割手段豫毒,笼编学靛埝文 ( 保密学位论文露麟密薅逶用本攒敦氟) 学位论文邀稀:题整蕊蕊蓬这爱红煎麓巍麓澈蓝。 学像论文作者签名: 髂喾掺导教簿鏊露: 霹辩:g b 歧每f 毋月i 器 鞋蘩:0 万年 手蘑鑫 p 以一 国防科学技术大学研究生院学位监文 11 1 研究背景 第一章绪论 1 1 研究背景及课题来源 信息是人类社会发展的源动力之一,人类对知识的学习就是一个不断摄取信 息,消化信息,产生新信息的过程。九十年代以来,i n t e m e t 以惊人的速度发展起 来,尤其是以w w w ( w o r l dw i d ew e b ) 为核心的网络应用迅速普及,互联网上 的信息急剧增加,并且深入到了人们生活的各个方面,改变了人们生活方式和思 维方式。 国际互联网上容纳了海量的各种类型原始信息,包括文本信息、声音信息、 图像信息、影像信息等,全球目前的网页超过l o o 亿,每天新增加数百万网页 根据美国n e c 研究院研究人员的报告,预计截止到2 0 9 0 年2 月,网络上可索引 的刚页将达到1 0 0 0 亿,有专家认为w w w 的规模正在以每四个月增长一倍的速度 迅速扩大。在未来,下一代网络建立在l p v 6 基础上,使可用i p 地址剧增,网站及 信息资源也将会几何级的增长。 信息急剧膨胀,但来的最为直接的问题就是如何收集、管理和索引这些信息, 如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大 目标。装备科技的发展是国防发展的重要指标,通过互联网及时跟踪和监控国外 应用于武器装备领域先进技术的研究和发展是获取信息的一个重要手段,传统的 信息采集技术缺乏针对性,因此需要适用于专业学科领域的信息采集的方法。 1 12 课题来源 本课题起源于2 0 0 2 年总装信息集成化服务软件支撑平台项目,该项目2 0 0 3 年获得全军科技进步二等奖,作者在其中负责信息检索和处理部分模块的研究与 丌发。由于项目的研究获得了专家的认可,并认为可以在指定学科的信息采集和 搜索方面作进一步的研究,因此在2 0 0 4 年申请了装备技术基础项目网络信息 雷达系统设训与研究,项目的主要目标是基于搜索技术建立网络信息雷达的搜索 模型。该搜索模型用来搜集和组织专业性较强的学术信息资源索,系统功能包括: 网络信息实时监控、采集,网页信息内容的分析和标引,全文信息的存储和检索, 文档自动分类和中文分词,网页内容的分析和排序,信息挖掘和高级检索,用户 文档自动分类和中文分词,网页内容的分析和排序,信息挖掘和高级检索,用户 权限管理等。 第l 页 国貉科学技术大学磅究生浣攀经论文 l 。2 课题研究的相关技术及研究现状 国际互联网( i n t e m e t ) 是目前全球最大的信息资源库,当前在互联网上的信 息存在以下特点: ( 1 ) 来源广泛e 蔓联网信息灞凝速毒世赛各逸,璇程戴稍足不出户遥嫩置联网 麓够涛翘到全整孬且吾今鞠家豹主凝资源; ( 2 ) 信怠格式丰富。网络上存在的信息资源有多种格式,并遵循不同格式标准, 常见网页格式有h t i l l i 、s h t n l l 、p h p 、j s p 、唧、x m l 等文本格式商戗t 、d o c 、 w p s 、p d f 、p p t 等,图片文件格式有舀f 、j p g 、p n g 、b 唧、s w f 等,声音影 像文俘掊式有m 撼、w a v 、m o v 、m 路、r f n 、甜i 、n n v b 等: ( 3 ) 存在方式多撵。信怠虢轰秘方式存在予霹终羔撬供溺络爱声莛攀,鬻茺熬 有w w w 、f t p 、电子自b 件、新闻讨论组、p 2 p 个人终端、瞬绦硬盘还有 共事文件必等: ( 4 ) 更新滤度快。对比原来的报纸、电视、广播镩信息载体,互联网突破了地 域界激,势且降低了维护成_ 本,使褥信患能够快速更新。2 0 0 l 颦纽约9 1i 事终麓驾飞程撞壹繁贸大瀵1 0 分镑之瑟,麓渡翔主裁专了第一条稳关 报遴。 但是由予最初互联网设计的目标就是为了方便资源信息的共享,所以缺乏规 范和组织,阑此信息源存在很多不规范因素,体现在: ( 1 ) i n t e r n e t 上信息的超载:刚上发布信息的自幽性及商业化使得信息以成倍 瓣送凌无限暴l 遗增加: ( 2 ) 大爨嚣瘸信惠的产玺;浚露磁叛衽或者籀关税梅豹严格把关,大黛笼溜甚 至虚假的信息在网上自由地发布; ( 3 ) 盗版信息及重复信息:飘联网上没有版权的限制,使得信息的盗用和转载 情况大壤发生,一篇好的文章可能被上百家网站同时原文转载; f 4 ) 不墩确瓣信息豹发毒:宽菸俊褥重视豹是随意发布可能造戒严鬣簸暴的错 误蔫惫,翔不准确翡医蓊信患; ( 5 ) “短命信息”的出现:国予缺乏有效的维护警段,部分信息很快会消失, 其中媳型的是部分个人盘页,往往出现几十个月或几年就不知去向,甚至 有的只有几天的寿命。 鉴予信息资源的以上特点,魏静姥够有效的组织、采集和检索海量的鲻上信息 匏是攫素弓l 繁技术,接索孳l 擎是嚣联灏熬篱二大核心技零,涉及剜德怠竣索、人 工智能、计算耩网络、分布式处瑗、数据库、数据挖獭、数字图书馆、爨然语言 处理等多领域的理论和技术,具澍综合性和挑战性。 第2 页 豳舫科学技术火学研究生院学位论文 课题研究的主簧方向怒使用传统搜索弓l 擎技术,剖建适合予专韭学术领壤蔼 息的采集和管理的信息雷达系统,课题研究涉及到的相关技术有: l 、计箨视网络及通讯搜术 计算机网络是现代通信技术岛计算机技术相绌合的产物。所谓计算机网络, 就蹙把分稚在不弼趣瑾送域鼢诗籍撰写专门静癸鄢设备薅遴蔼线鼯互联袋一个袈 模大、功能强的网络系统,从而使众多的计算机可以方便地互相传递信息,共享 疆件、较佟、数撂络患等资漾。逶俗来浚,溪终就是逶过建缆、惫话凌、藏无线 通讯等互联的计算机的集含。通过网络,您可以和其他连到网络上的用户一起共 享瓣络资灞,兹磁鑫兹文谗及努臻极、璇剃超瀵器等,瞧哥淡狂键翅亘棱交接 数抛信息。 霹绍土黪诗冀爨之耀交换售惠戆方法,载缘载霞说诿耀某戤瀵言一榉,在网 络一t 的各舒计算机之间也有种语言,这就是网络协议,不同的计算机之间必须 搜爝握囊熬鄹整携议瑾一躯遴行通信。翘络换议也煮缀多张,t c p 张u d p 怒当前最 常用的两个网络协议。t c p ( t m n s m i s s i o ne o t r o lp r a t o c 0 1 ) 是传输控锖协议,怒 一糖基于逡接的协议,剥照它进行通信对,首先要建立连接以保诞同步、准确的 信息通信。u d p ( u s e rd a t a g r a mp r o t o c 0 1 ) 用户数据报协议剃是一种基于秃连接的 协议,采用“数攒报”的短信息来传输,传输时不管传输的正确以及各数据报的 f 确次序。两种协议被用于不同的领域,p 是一种可纛的协议,通常爝子文律 传输、远稷连接等需要数据被可靠传输的领域:u d p 相对简单而鼠容易臀理,被 应用在一臻局域网的应舔系统中。 2 、信息检索技术 硷索技术产釜予2 0 嫠纪5 0 年代,遴入2 l 整纪,夔蓍诤算援技寒熬不聚进多、 信息量的融大膨胀,检索技术飞速发展。传统检索技术,可以提高人工选择信息 酶效率,节省丈鬃瞬闻。凝霞检索技零,除了遴一步提蠢人工检索效率,更籀麓 智能化、海量化等各方面企方位发展。在传统检索技术撼础上发展起来的智能检 索,螽售惑挖藕、螽动椽镪、鑫动分类、穗要、聚类梭素等技零辩售息避纷塑动 而非人工挖掘,谶一步解放了人力,促进了人类工作方式的更新变革。 诗冀撬检索,燕言之,就是遗过诗算楗进行瓣裘捡寻找数据傣息。 按结构来划分,信息一般有两种类型。一种怒结构化数据,指有一定规则的 数摅,另一秘是非结构化数搀。诸如金她辫务账爨、客户信息、她务操作数据等 具有明显结构化特性的数据,另一种是非结构化数据,包括扫描文档图像、传真、 照片、计葵枧生成的报告、字处联文档、电子表格、演示文稿、语音和视频片段 等。根据业界分析报告,非结构化数据占有整个债息量的8 0 阻上。对于自茸者, 计算枫可根据规则建立普通索引宓现精确匹配检索,如农网上银行,帐户名与帐 第3 页 国防科学技术大学研究生院学位论文 户情况一一对应,输入帐户名和密码,系统可以通过此帐户名直接定位,帐户情 况一目了然。对于非结构化的数据,相互之间很难找到规律。比如想要在所有新 闻稿件中找出报道“足球”的稿件,如果让系统在每一篇文章中通过全文精确匹 配逐个去找“足球”,可能机器运转一天也给不出结果。这时就必须用到全文检 索。好的全文检索技术,在千万级信息量中进行查询,一般秒级内就可以给出结 果。根据专家研究,目前信息检索技术正向两个方向发展:一是传统信息检索向 全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理 和组织信息的能力,如自动抽词、自动索引、自动检索、自动文摘、自动分类、 自动翻译等;二是信息资源的网络化和分布化,面向i n t e n l e t 中浩瀚无垠的资源, 在广度上提高信息管理和组织能力。简言之,一是在功能上更完善、更智能,二 是在性能上更优秀。 3 、数据库技术 数据库技术是本世纪6 0 年代开始兴起的一门信息管理自动化的新兴学科,是 计算机科学中的一个重要分支。随着计算机应用的不断发展,在计算机应用领域 中,数据处理越来越占主导地位,数据库技术的应用也越来越广泛。数据库是数 据管理的产物。数据管理是数据库的核心任务,内容包括对数据的分类、组织、 编码、储存、检索和维护。随着计算机硬件和软件的发展,数据库技术也不断地 发展。从数据管理的角度看,数据库技术到目前共经历了人工管理阶段、文件系 统阶段和数据库系统阶段。目前w e b 技术与数据库管理系统( d b m s ) 相互融合 领域的研究已成为热点方向之一,数据库厂家和w e b 公司也纷纷推出各自的产品 和中间件支持w e b 技术和d b m s 的融合,将两者取长补短,发挥各自的优势,使 用户可以在w e b 浏览器上方便地检索数据库的内容。所谓w e b 数据库管理系统是 指基于w e b 模式的d b m s 的信息服务,充分发挥d b m s 高效的数据存储和管理 能力,以w e b 这种浏览器朋鼹务器( b s ) 模式为平台,将客户端融入统一的w e b 浏览器,为i n t e m e t 用户提供使用简便、内容丰富的服务。 4 、自动分类技术 网络信息的自动分类。系指计算机辅助人或代替人对分类的对象进行分析, 并归人已确定分类体系的相应类目。自动分类是建立在语词共现原理的基础上, 通过抽取网络信息的内容特征并进行统计分析,判别出能代表其信息内容的语词。 然后与分类体系的主词类集进行相似性分析,确定其属于哪一个类或几个类,赋 予一定的知识分类标识。 根据目的性,网络信息自动分类分为自动聚类和自动归类鼯种类型。自动聚 类是由计算机系统对待分类文本进行分析并提取有关的特征,然后对提取的特征 进行比较根据一定规则将具有相同或相近特征的对象定义为一类;自动归类是 第4 页 国防科学技术大学研究生院学位论文 由计算机系统对分类文本提取有关特征,然后与既定分类系统中对象所具有的公 共特征进行相关性比较,将对象归入其特征最相近的类中。自动归类通常分为基 于词的自动分类( 词典法) 和基于专家系统的自动分类( 知识法) 两大类。自动归类技 术被广泛应用于搜索引擎中。 5 、中文分词技术 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词技 术其实包含于检索技术,但是对于中文,我们知道在英文的行文中,单词之间 是以空格作为自然分界符的。而中文只是字、旬和段可以通过明显的分界符来简 单划界,唯独词没有一个形式上的分界符,所以当同样面对短语的划分问题时, 在词这一层上,中文比英文要复杂得多且困难得多。 中文分词技术属于自然语言处理技术范畴,是语义理解过程中最初的一个环 节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如 何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后 期语义分析的质量和速度的重要前提。对于一句话人可以通过自己的知识来判 断哪些是词,哪些不是词,但计算机如何也能理解? 其处理过程就称为分词算法。 现有的分词算法可分为三大类:基于字典、词库匹配的分词方法、基于词的频度 统计的分词方法和基于知识理解的分词方法。 1 3 课题研究的主要内容及成果 根据项目的要求,课题研究的主要内容如下: l 、分析研究传统搜索引擎的结构和工作原理,在此基础上建立适用于专业学 科领域信息采集和搜索的新搜索模型。 2 、分析研究常见网站结构和网页的h t m l ( x m l ) 语言,使用h t m l 链接 分析技术,建立信息雷达监控和采集工具,负责按照指定的周期扫描监控网站上 信息的变化情况,发现新的信息后立刻采集到本地。研究网页内容解析技术,采 用i a v a 编程语言实现网页全文的自动内容过滤、内码转换、分类、去重等一系列 操作。将b i g 5 内码网页和u n i c o d e 内码网页自动转换为g b k 统一管理:自动 过滤网页中的正文内容,剔除垃圾信息。 3 、研究多线程并发搜索技术,保证采集过程高效准确:研究数据库技术,实 现采集到的网页信息内容自动进行全文存储和数掘标引。 4 、研究网页内容排序算法。按照专业学科领域的要求,增加网页链接评价因 素修正传统的p a g c r a i l k 算法,提高检索的精度。 5 、研究采用智能化自动分类和相似性检索技术,采用统计学理论和支持向量 机实现,具有较高的准确性以及与语言无关的特性,对采集的网页信息提供多种 第5 页 国防科学技术大学研究生院学位论文 分类手段:用户自定义分类和智能自动分类:可以实现中文、英文或者中英文混 合分类和相似检索以及其它语种的自动分类和相似检索等功能:采用基于词库的 分词方法,提供对中文关键词的分析和全文检索。提供分类训练工具,允许用户 根据自己的分类需求和数据特点自行设定分类结构和生成特征模板,适应不同的 需求。支持专题定制,用户可以通过定义关键词来设定专题,特别是装备科技信 息专题。 6 、研究服务器客户机的系统编程技术,实现系统的b s 方式管理。 课题的研究结果体现为实现一个完整的网络信息雷达系统,系统主要功能为: 指定网站内容信息的监控和采集,网页信息内容全文检索和高级检索,网页信息 的自动分类和相关处理( 信息提取、编码、去重、排序、快照等) ,基于b ,s 方 式的系统管理,网页信息的二次加工使用,使用用户权限管理实现分权限的信息 数据使用等。 1 4 论文的编写及组织 论文一共包含五章。每章内容如下: 第一章绪论。主要介绍论文研究的背景和课题来源,课题研究的相关技术和 研究现状,课题研究的主要内容及成果形式,最后介绍了论文编写的结构。 第二章搜索引擎技术概述。对课题研究涉及到的主要技术搜索引擎的工 作原理和实现技术进行了全面的介绍,分析了传统搜索引擎在专业学科领域存在 的问题和不足,探讨了搜索技术的发展方向,为网络信息雷达搜索模型的建立提 供现实及理论依据。 第三章网络信息雷达结构设计。完整提出网络信息雷达的模型,对比传统搜 索引擎技术,给出了网络信息雷达的设计目标和性能指标;通过深入分析传统搜 索引擎的结构,将信息雷达系统结构分为信息采集和监控模块、信息分析和标引 模块、信息自动分类模块、信息数据组织模块、信息检索模块、信息加工与发布 模块、信息挖掘与服务模块、用户权限分级模块等八大模块,并对每个模块的工 作原理及核心技术作了探讨。最后设计出完整的网络信息雷达的体系结构。 第四章网络信息雷达核心算法研究。根据网络信息雷达设计的要求对网页 解析、自动分类算法、网页排序、中文分词等系统的核心算法进行了学习和深入 研究,给出了网页h t m l 递归下降分析算法及针对x m l 的改进算法。并针对传 统的网页评级( p a g e r a n k ) 算法按照专业学科信息组织的要求进行了改进。 第五章信息雷达系统的实现。介绍课题研究的具体编程实现和研究成果,介 绍作者在系统开发期间所作的工作。 结束语是对作者工作的总结,以及对项目未来发展的展望。 第6 页 国防科学技术大学研究生院学位论文 第二章搜索引擎技术概述 2 1 搜索引擎概述 搜索引擎( s e a r c he n g i n e s ) 就是指在w w w ( 、o r l dw i d ew e b ) 环境中能够响应 用户提交的搜索请求,返回相应的查询结果信息的技术和系统,是互联网上的可 以查询网站或网页信息的工具。 1 9 9 0 年以前。没有任何人能实现搜索互联网的功能。互联网发展早期,信息 量较少,互联网用户多为专业人士那时查找信息要相对容易。伴随互联网爆炸 性的发展普通网络用户想找到所需的资料简直如同大海捞针这时为满足大众 信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯到1 9 9 0 年由蒙特利尔m c g i l l 大学学生a l a ne n l 诅g e 、p e t e rd e u t s c h 、b i l lw h e e l a n 发明的 灯c h i e ( a r c h i ef a q ) 。虽然当时w o r l dw i d ew e b 还未出现,但因为当时网络的主 要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散布在各 个分散的f r p 主机中,查询起来非常不便,因此a l a ne m t a g e 想到了开发一个可 以以文件名查找文件的系统,于是便有了舭l l i e 。 1 9 9 3 年美国内华达s y s t e mc o m p u t i n gs e i c e s 大学开发了一个与a r c h i e 非 常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。1 9 9 4 年4 月, 斯坦福( s t a i l f b r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致远( g e r i yy a i l g ) 共 同创办了超级目录索引y a l l o o ,并成功地使搜索引擎的概念深入人心。从此搜索引 擎进入了高速发展时期。 1 9 9 8 年,斯坦福大学的两位博士生l a h yp a g e 和s e r g e yb r i n 开发出了现在世 界上最大的搜索引擎g 0 0 9 1 e 。通过对2 0 多亿网页进行整理,g o o g l e 可为世界 各地的用户提供适需的搜索结果而且搜索时间通常不到半秒。现在g o o 硝e 每天 需要为世界各国用户提供1 5 亿次查询服务,g 0 0 9 l e 已经成为全球最具影响力的 网络工具。 1 9 9 7 年1 0 月2 9 日,北大天网正式在c e 鼢姬t 上向广大i n t e m e t 用户提供 w c b 信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九 五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,受到 学术界广泛好评。 2 0 0 0 年1 月,两位北大校友,1 ; i n f o r s e c k 资深工程师李彦宏与加州大学伯克 利分校博士后徐勇在北京中关村创立了百度( b a i d u ) 公司。历经5 年的高速发展后, 在近两年时问里,百度高居全球网站流量前八名的位置,已经成为全球十大网站 之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求,中国9 4 0 0 万 第7 页 国防科学技术大学研究生院学位论文 网民几乎每天使用1 次百度。“有阏惩吾度一下”蠢经成为孛雷阙络漉行语之一。 搜索引擎的发展和搜索技术的发展是分不开的,每次技术的突破,都带来了 搜索静革命。 2 2 常见搜索技术及分类 按照信息搜集方法、服务提供方式和系统结构的不同。搜索引擎系统可以分 秀不闷的类别,工佟梳铜及分类如圈l 所示。常觅瓣援索蔽米及分蹙育; 图】1 搜索机制及分类 l 、目录式搜索引擎( c a t 扭i o gs e a r c h ) 戳爻工方式或半囊凄方式搜集穰患,自缀辑员袁看痿惑乏惹,又王形成售息 摘要,并将信息景于事先确定的分类框架中。信息大多面向嗣站,提供目录浏览 骚务稳壹接捻索服务。该类援索g | 擎因羹热入7 入驰鏊毙,掰疆傣感准确、导靛 质量商,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜 索弓l 擎魏代表是:y 熊o o 、b o k s m 烈、0 p e nd i r e e t o 秽、( 迅g u i d e 等。 般多用于网站的搜索( 区别予网页内容的搜索和全文的搜索) ,目激索引 则完全依赖警工操作。用户提交网站后,耳滚编辑人员会亲自浏览弥豹网站,然 第8 页 重黪辩学授寒大学研定生貔擎控论文 后根掘一套自定的评判标准甚援编辑人员的主观印象,决定是否接纳你的网站。 2 、全文搜索毒l 擎( 辊器入搜索零l 擎) b b 稚 全文搜索引擎由一个称为蜘蛛( s p i d e r ) 或爬虫( c r a w i ) 的机器人程序以某种 蒺路蠡韵遮在互联嬲审躞集嚣发瑷售患,囊索孳l 鬃势援集裂鹃痿惑建立索弓| ,鑫 检索嚣根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是 瑟向慰夏的全文检索服务。该类搜索学l 擎的优点是信慧量丈、更疑及拜幸、毋辩人 工干预,缺点怒返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 这类搜索引擎的代表楚:a l 州i s t 鑫、n o r t ml i g h t 、淑c i t e 、l n 如s e e k 、i n k t o m i 、 f a s t 、l y c o s 、g o 0 9 1 e i 国内代表为:“百度”、“天网”、悠游、o p e n f i n d 等。 这类搜索的自动信息的搜集分成两种: i ) 定期,定范围搜索:搜索弓i 擎郢每隔一段时间( 比如( 轴o g l e 一般是2 8 天) , 搜索引擎主动派出“蜘蛛”程序,对一定i p 地址范围内的互联网站进行检索,一 奠发现新的网滔,它会自动摄敬网站酌信息和潮址加入自己静数据库。或者搔定 的网站栏目进行跟踪和检索。 2 ) 提交秘涟援索,瑟潮滔籀有者燕动寇援索弓l 擎疆交弼缴,宅程一定时闽肉 ( 2 天划数月不等) 定向指定的网站派出“蜘蛛”程序,扫描你的网站并将有关信 息存入数据疼,戳备鬻户套谗。 3 、元搜索引擎( 搜索引擎的搜索引擎) m e t as e a r c he n g i n e 这怒一耱躲夔攘索方式。这类搜索萼l 擎没蠢鑫己瓣数据,瑟是将蘧户熬纛键 请求同时向多个搜索引擎递交,将返回的结果进行重复排除、煎新排f | 葶等处理后, 终为爨瑟数缝暴返回给翅户。窀的主螫糖力放程提褰搜索逮发、餐能纯处理援索 结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较 离。暇务方式为露向鼹更的全文检索。这类援索弓l 擎朗优点是返回结祭鲍售惠譬 更大、疆全,缺点是不能够充分使用所使用搜索引擎的功能,用户需鼹做更多的 筛选。这类搜索弓l 擎的代表是w e b c r a w l e 、l n f 。知纽b t 等。 4 、信息检索a g 聃t 是智能化蛇信息检索程序,8 够学羽用户鬟求,其露智能性,主动 生,协傍性 等特点。 5 、对等搜索引擎( 基于p 2 p 技术的搜索引擎) 另个颇受瞩目豹搜索技术就是将p 2 p 技术应用到两页静检索中。通过共享 所有硬擞上的文件、目渌乃至熬个硬盘,用户搜索时无需通过w e b 服务器,不受 信惠文稻格式静鞭剃,鞠胃达列传统鹭泵式援索弓| 擎无露 援豹深疫( 传统弓| 擎只 能达到2 0 3 0 的网络资源) 。 第9 页 国防辩擎技术大学研究鬟院学位论文 2 3 搜索技术发展方向 搜索技术发展至今,面临糟更多元化的发展萁中发展的主流方向为: l 、东缀套询相关度,撼凝检索的有效性 翊户森援索弓| 擎主迸稃傣怠查灞露,劳不十努关注返回结采戆多少,焉是看 结果是番和自己的需求吻合。提高查询的相关泼,使得用户关心的内容出现在最 重要的位鼹,从而提高检索的有效性。 2 、撼于智能代理的信息过滤和个性化服务 信患镭能代理是另外一l 唾l 利用互联网信息的械铡。它使用自动获褥鲍颁域模 墅( 籀w e b 秘谖、售意楚璞、与霉户兴趣籀关熬绩惠资源、锈域缝织绩麓) 、瑟 户模型( 如用户背景、兴趣、行为、风格) 知识送行信息搜集、索弓| 、过滤( 包 括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户肖用的信息提 交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而 提供个性化的服务。 3 、爨多蔟塞痰客黪搜索 疆者嘲络的发展,僖意裁体越来越多,下一代攘索技术应关注鬟广泛的领域, 例如邮件的搜索,非文本备式的搜索和标引。 4 、浆用分布式体系结构搬商系统规模和性能 搜索弓l 擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 予载。健警系统麓模到达一定程度( 懿网页数达到亿级) 霹,必然整采用分希式 方法,以掇赢检索和采集穗熬。 s 、激视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库 中进行信息检索,返回能够阐祷用户问题的所有诺言的文档。如果樽加上机器翻 译,返隧络聚可戳用母语盛零。该技术髫前还处予扔步研究阶段,激要的困难在 于语言之潮在表达方式霸诱义瓣应主夔苓磷定懿。毽对手经济全球绽、嚣袋惩跨 越国界的今天,无疑具有檄薰骚的意义。 6 、适用于新的网络的搜索技术 目附我们使用的都是i p v 4 的网络,随着下一代i p v 6 网络的来临,网络传输协 议和网络地址组织方式都会发生变化,搜索技术_ 陂该适应于新的网络。 2 。4 传统搜索在专韭领域谣l 强的闯透 随着i n t e m e t 的强势发展网上庞大的数字化信息和人们获取所需信息能力之 问的矛盾同菔突出。国际数据公司( i d c ) 曾公布的一份报告表明,被大蹿意传为“使 第l o 页 量嚣辩学搜拳丈学研究生虢掌霞论文 用简便暴瘸,攘索结果丰富”酌搜索弓 擎技术正在被信患更集审瓣最域潮取代。 搜索引擎越来越不能满足挑剔的网民们的各种信息黼求。尤其是对于部分关注某 个领域的专业用户来说,传统搜索引擎表现出下几个方面的不足: l 、难以实现静实时更薪。 搜索霉| 攀收集懿弱夏疆凌稔蒸索摹l 鼗囊瘁) 瓣更鬻速寰存在饕苓霹谜窝爨 矛詹。我们上瞬整薅搜索雩| 擎,会经鬻碰妻l 无法打嚣缕聚的查谗。崮予搜索继患 采集范围很广。采集回来的信息索引建立的时间会随潜信息数量的增加黼增大, 网络信息时剿旋动,实时搜索几乎不可能。就是刚刚测览过的网页也随时都有 更新、过期、删除的可能。现有的搜索引擎需要定期( 一般是几周) 地访问网络 资源,毽戴辩予实霹搜索,一般的援素号l 擎都表蛰考感。 2 、嵇怠黪曩失。 我相信很多人有过檑丽的经掰;有时候我们森测上搜集瓢一些有丽的信怠, 但是没能及时保存,但是过一段时间之后,就再也找不到了。其主要原因是般 的搜索引擎只念关注网络上现存的资源信息,对予过时的信息( 或者融缀被删除 粒网夏) ,搜索葶 擎会垂动将其测除,虽然有豹搜索提供了嬲页抉爨麴璇戆,但 是螽采一量索零l 被更薪,这些秸慈就餐嚣夫海,再也找不裂了。 3 、多繇休内容静处理澎誉成熬。 对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。糖子语义 的多媒体搜索技术还不成熟,比如搜索图片时还熙能通过周围相关的文字进行判 断。两无法掇据圈片本身豹信息提供检索。但是在蒎些专业领域,例如豳像识别 摹望甏够搜索戮瑟为准确魏多媒体内容。 4 、秃法定彼鹣搜索缩果 对于一个意询,传统的搜索引攀动辄返回几十万、几百万篇文档,糟户不得 不在结果中筛选。有时候找到自融需要的内容需嚣撩糟数十页的查询结聚,准确 信息的定位十分豳难。 5 、专数游涎熬多语1 塞竣索翘避 诲多专娥领域有羞垂蠢鹣专数落汇,营逶蔑索零l 攀舞法躲遒逮婪专照谣汇夔 多语言的翻译结果,因此在搜索过程中就会忽略许多姬确的结果,例如v i r t u a l r e a l i t y 一词对成的中文含意是“虚拟现实”或者“廉拟实境”,如果谯g 0 0 9 l e 中 输入v i r t u a lr e a l 埘进行搜索,嶷簖上只匹配了v j r t u a lr c a l i t y 一词,掰猩中文的 菝索r = f ,势没霄辩“寝投现实”袋纛“纛援实境”微襁建鹣搜索。 6 、梭索深度不够 由于网铸掇源的庞大,秘滔结构复杂,一般戆公燕搜索弓 擎鬟戆辩网站内容 的一层或者商限的几层进行采熊,于是我们看到的搜索结果一般定位到粱个网站 第】页 藿貉秘学蔹零大学骚完生院攀经论交 的首页或者童疆频道,但是往徒一魑用户关心的专娥傣息在网页的深层内容中, 而这部分内容被往不被采集并标引。 7 、部分搜索无法支持动态网受查询 许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸泼去蹬不 _ 寒。然瑟,琢淤缓震凌态霸夏技拳绽袋乃是大事掰憋。熬决凌态网页套我豹麓逶 己经追在属睫。 由于搜索引擎在上述情况下存程明显不足,因此种专门为了专业学科领域 涉及的搜索引擎的出现成为必然。专业搜索引擎是特定学科的信息查询工矮,用 来搜集和组织专业性较强的学术储息资源。专业搜索引擎具有很强豹学科针对性, 能够撵除冗杂镶惑,在缀丈程度上壤少不攘关豹捡索缝莱,麸嚣提褰了梭索瓣套 准率。隧终髂慧霉达系统实际藏怒一种专盈薤索甄擎,毽它同时叉不楚一释简单 的搜索引擎,它建立在传统搜索技术基础之上,包含了信息监控、采集、搜索、 整理、加工等功能,有针对性地克服了传统搜索在某黢方面的不足,是一种新的 搜索系统模型。 2 。5 枣缝 本章我们介绍了搜索引擎技术特点和发展方向,分析目自 f 搜索引擎威用于具 体专业领域存在的不足,通过上述问题的分析,我们知道在新的网络环境下,搜 索技术要求越来越专业化,作者因此在传统搜索技术的基础上,建立了一种新的 搜索模型“潮络信息雷达”。 第1 2 页 圆防科学技术犬学研究生院学位论文 第三耄网络信息雷达结构设计 “只有站在巨人的肩膀上,才熊看得曼远”牛顿 这是我一妻缀罄欢戆一匀名言,瓣终豢达豹设诗也是一样,镶怠霉达系统豹 设计是站在传统搜索引擎这个“巨人的肩膀上”。 3 1 阏络信息雷达 3 。 。 悖么是霸络信意鬻达 网络接患雷达怒搜索引擎的一秘,是一釉服务鼍= 专业学科领域的搜索引擎, 是对传统搜索的补充和扩充,网络信息雷达系统的主要功能是实时监控和聚集目 标网站的内容,对采集到的信息进行过滤和自动分类处理,最终将最新内容及时 发布出来,实现统一的倍患导航功能,同时提供包括全文稔索、日期( 范糯) 检 索、标题检索、u i 检索等在内的全方位信息查询手段的系统。由于系统希望能 够实时监控两络信惠资源静交纯,掰潋我们胡“雷达”这令名词来描述系统特点, 关于“网络信息雷然”的具体摸型我们将在下面的文章中做仔细的分析。 潮络倍惫雷达攥供了僖怠获采集、努类、傈存、勰工、捡索、统诗裂个往伲 服务的一套毙整解决方案。尤其是在军队武器装备领域,军事装备研究人员需要 实对鼹踪全邀赛静武器装备懿发展辑究动两,逶j 妻阚络穰惑雷达懿建立,势军陵 武器装备科技信息的获取、分类和熬理提供了一个有效的乎段。 3 1 2 网络信意凿达与传统搜索对比 溺络穰患雷达馊蔫了缀多传统攘索零| 攀靛技零,主要魁括奎文援索技零,露 时又和传统搜索引攀在诸多方面存在不同。下表说明了二者之间的区别: 表2 1 阿络惰息雷达岛搜索引擎对比 萼毽i 穗巍囊囊i 麟烈熬麓粼黼黼燃麟添缀黪糕羹瓣i 灞藩;慧 支持全文检索 支持夏衙 支持目录搜索 支持不支持 信息采集方法自动、手工自动 信息采集范嗣 专业网站整个互联网 采集深度冤限 1 2 层 数据采集重点 嬲页全文、相关文献资料网页全文 第1 3 炎 国防辩学羧米大学研究生院学莅论文 信息标引方法全文摘要 信息分类 规则分类与自动分类相结合 不分类 语言支持多种语京支持支持指定语骞 数强暴黧蠲鞠傻霜登按瓣方法实薅更瑟 定鬟雯囊 数据组织 按照内容分类存放,数据除了索引按照数据格式分类,存储 之外,般露求同步存放在关系数于文件系统中 据中 信息去鬟信息按照内容基动去重信息按照链搂避址去重 毪素这凌溪袋浚速酾巍 要求离著发及浚速睡应 信息二次加工支持 不支持 复杂检索支持分类检索、二次检索、关键字一般只支持多种条件组合 过滤检索,多种条件组合检索以及 检索,不支持分类检索 更多的复杂检索 动态弼茭支持支持部分支持 信息生命周期永久 有对效性 用户范围某专业领域从业人员 互联网所有用户 离线查询支持不支持 相关性分掇支持不支持 对比网络雷达和全文搜綮引擎,两者主要区别在于: l 、浆懿的深度和广度。网络雷达关心的是网站的深度。传统搜索关心的是网 站的广度,如果说传统搜索魑水平搜索引擎的话,网络信息雷达就怒一种垂直搜 索引擎。网络霉达通过站点类聚蠛内容类聚,减少信息的总量,增加采集的深度。 2 、采集熬瘸颓。弼终霉遮逶过蕊控王翼对耀臻遴孬实蠢豹扫臻秘簸控,簧统 搜索使用凳期采集的方法,过期的数据会被删除,而且网络雷这对予信息内容的 标引是纯增量的,即便是被删除的网页,如果以前被标引过,其全文内容依然在 索引中和数据库中存在。 3 、倍感晦容的处理。刚络霹达将采集到的内容永久保存到关系数据库中,以 方便褰线稔索亵嚣瑟熬秀羹工绞诗,费绞搜索怼痿惑痰容瓣缳存戴其蠢实效毽。嚣 对弼络甏这提供自动分类功麓。 4 、信息检索。网络信息雷达关心的是搜索内释的精确性,不太关心搜索速度, 传统搜索熨燕心的是搜索的遮腋。同时对于传统搜索,搜索的结构好像一个正会 第1 4 页 国防科学技术大学研究生院学位论文 字塔,就是通过搜索能够搜索到大量的相关信息,而网络雷达正好相反,是一个 倒金字塔结构,就是能从大量相关信息中快速检索到用户所需要的准确内容。 网络信息雷达的主要作用是:对网站信息实行实时监控,大幅度提高检索的 准确性,信息的持久化保存。由此我们对比搜索引擎的性能指标,可以得到网络 雷达应该达到的性能指标。 3 1 3 网络信息雷达的性能指标 一个好的信息雷达系统,应该要参考以下的性能指标; 1 、实时监控要求,网站实时监控触发周期至少应到分钟甚至秒级; 2 、信息采集要求,对于某个具体网站,应能采集到网站及其下属子域名内的 所有信息内容,支持所有文本信息格式的采集和全文检索; 3 、自动分类要求,自动分类达到8 0 以上准确率; 4 、多语言要求,至少支持母语( 指的是亚洲多字符语言类型) 以及英语等两 种以上语言及语义的相关查询: 5 、提高检索的精度( p r e c i s i o n ) ,降低召回率( r e c a l l ) ,召回率是检索出的 相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统( 搜索引擎) 的查全率,精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检 索系统( 搜索引擎) 的查准率; 6 、检索速度符合一般要求,g 级数据集合上达到秒级检索速度: 7 、支持数据存入标准的关系数据库; 8 、符合一般搜索引擎的其他常见指标。 3 2 信息雷达的系统结构 根据前文对信息雷达的功能的分析,我们进一步完整提出网络信息雷达的系 统结构。 3 1 2 1 传统搜索引擎结构 既然信息雷达系统包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论