(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf_第1页
(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf_第2页
(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf_第3页
(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf_第4页
(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(管理科学与工程专业论文)基于本体的技术性贸易壁垒智能搜索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着经济全球化和贸易自由化进程的加快,技术性贸易壁垒已经成为阻止我 国出口的主要障碍,而且还在逐年加重。为了使企业及时了解国外7 r b t 情况,尽 早采取措施,将损失降到最低,我们当务之急的工作是及时收集、跟踪国外的技 术性贸易壁垒的有关信息,对出口产品的进口国将要出现或正在形成t b t 的信息 做到早监测和早发现,合理管理这些t b t 相关信息,保证玎预警系统自动进行 预警预测工作。 由于我国出口产品涉及国家多、产品种类多,t b t 的相关文档数据量大。如 何科学高效地搜索这些t b t 信息,使它在最短的时间内最大限度地发挥其价值, 这是我们开展预警预测工作需要解决的难题之一。 本文针对我国出口产品对t b t 预测预警系统的迫切需求,所需信息量急剧扩 大以及目前搜索引擎存在的种种局限性,提出采用o w l 语言创建t b t 领域本体 库;通过设计一个基于本体的搜索模型来解决海量数据搜索的问题。论文阐述了 该模型的逻辑结构,以及各个模块的功能。同时引入了j e n a 开放资源,通过应用 j e n a 更好地管理系统内部的o n t o l o g y 。 最后本文应用j b u i l d e rx ,建立了基于o n t o l o g y 库的智能搜索原型系统,并且 通过一些实验,来证实该搜索原型系统的有效性。本文针对目前所做工作中的不 足之处,提出了今后进一步研究的方向。 关键字:技术性贸易壁垒本体 j e n a语义检索搜索引擎 a b s t r a c t w i t ht h eq u i c k e n i n go ft h ee c o n o m i cg l o b a l i z a t i o na n dp r o c e s so fl i b e r a l i z a t i o n o ft r a d e ,t e c h n i c a lb a r r i e r st ot r a d eo m 3h a sa l r e a d yb e c o m et h em a i no b s t a c l eo f p r e v e n t i n go u rc o u n t r yf r o me x p o r t i n g a n dt b t s t i l lh a st h et e n d e n c yt oa g g r a v a t e y e a rb yy e a ra tp r e s e n t s ot h et a s ko f t o pp r i o r i t yi st oc o l l e c ta n df o l l o wt h er e l e v a n t i n f o r m a t i o no ff o r e i g nt b ti nt i m e ,a n dm o n i t o ra n df r e dt h ei n f o r m a t i o no ft b to f i m p o r t e ri ne x p o r tp r o d u c t , t h e nm a n a g et h en e w e s ti n f o r m a t i o no ft b t t oe n s u r et h e a u t o m a t i cw o r ko ft b tf o re a r l yw a r n i n ga n da l e r ti tm a k e se n t e r p r i s e sf i n do u ta b o u t f o r e i 弘t b ts i t u a t i o ni nt i m e ,t a k em e a s u l c $ a ss o o na sp o s s i b l e ,m i n i m i z el o s s e s b e c a u s et h ee x p o r t p r o d u c t so f o u rc o u n t r yi n v o l v em a n yc o u n t r i e s a n dt h e r ea m a n y k i n d o f p r o d u c t s s o t h e d o c u m e n t d a t a o f t b t i s l a r g e h o w t os e a r c h t h e t b t i n f o r m a t i o ne f f i c i e n t l y , a n de x e r ti t sf u r t h e s tw o r t hi nt h es h o r t e s tt i m e ,t h i si sa p r o b l e mt h a tw em u s ts o l v et od e v e l o pt h et b ti n f o r m a t i o ne a r l yw a r n i n ga n da l e r t a i m i n ga tt h eu r g e n tn e e di nc h i n ao nt h ei n f o r m a t i o no ft h en e w e s td y n a m i c t e c h n i c a lb a r r i e r st ot r a d e ( 1 1 3 1 3f o re a r l yw a r n i n ga n da l e r t , a n di tn e e d sm o r ca n d m o r ei n f o r m a t i o n h o w e v e r ,a tp r e s e n tt h es e a r c he n g i n eh a sl o t so f s h o r t a g e s ,s ot h i s p a p e rc r e a t e dt h ed o m a i no n t o l o g yf o rt b tb yo w ll a n g u a g e ,a n dd e s i g n e da s e a r c h m o d e lb a s e do nt h ed o m a i no n t o l o g y i tc f i l ls o l v et h ep r o b l e mo fm a g n a n i m i t yd a t a s e a r c h i n g t h ep a p e ra l s oe x p a t i a t e dt h el o g i cs t r u c t u r eo f t h em o d e l ,a n di ti n t r o d u c e d t h em a i nf u n c t i o no ft h es y s t e m sm o d u l e s t h ea u t h o rc o n t i n u e dt or e s e a r c hh o wt o r e a l i z et h es y s t e m sf u n c t i o no fw e bs e a r c h ,m o s t l ya u t h o ri m p o r t e dt h eo p e n i n g l e s o u r l t 七j e n a ,s ot h a tw ec 觚u s ej e n am a n a g et h eo n t o l o g yo f t h i ss y s t e mw e l l f i n a l l yt h i sp a p e ru s ej b u i l d e rx t oc r e a t eai n t e l l i g e n ts e a r c hm o d e lb a s e d0 1 1t h e d o m a i no n t o l o g y a n dt h r o u g hs o l n ee x p e r i m e n t si tc o u l dp r o v et h ev a l i d i t yo ft h i s s e a r c hm o d e l a l s oa i m i n gt h ew o r ka tp r e s e n tt h i sp a p e rb o u g h ts o m el i m i t a t i o na n d g a v et h ed i r e c t i o no f r e s e a r c hf r o mn o w o n k e yw o r d :t e c h n i c a lb a r r i e r st ol l a d eo b 1 3o n t o l o g y j e n a s e m a n t i cr e t r i e v a l s e a r c he n g i n e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:致占一日期:2 0 0 7 年5 月 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:砍占一导师签名:撂珐= ; 日期;2 。7 年5 月 第一章绪论 第一章绪论 1 1 选题的意义及背景 技术性贸易壁垒( t e c h n i c a l b a r r i e r s t o t r a d e ,简称t b t ) 是以国家安全 或保护人类健康和安全、保护动物或植物的生命和健康、保护环境、防止欺 诈为理由,以贸易保护主义为目的,凭借技术法规、标准、包装、标签、认 证、检验、检疫等规定程序,通过制订某些特殊的技术条件,为其它国家商 品自由进入本国市场设置障碍【l 】ot b t 包括:技术法规壁垒、技术标准壁垒、 质量认证( 合格评定) 壁垒、商品包装和标签壁垒、绿色壁垒、检验程序和 检验手续壁垒、计量单位制壁垒、条码壁垒等。随着我国加入w t o 以及经 济全球化和贸易自由化进程的加快,t b t 已成为阻止我国出口的主要因素, 而且还在逐年加重。 据统计,2 0 0 0 年,我国有6 0 的出口企业不同程度地受到国外t b t 的 限制,约4 5 0 亿美元的出口额受到影响,占年出口总额的2 5 以上,造成直 接和间接经济损失1 1 0 亿美元。2 0 0 2 年,我国企业受限比例高达7 1 ,出口 产品受限比例为3 9 ,损失金额为1 7 0 亿美元,问题相当严重。商务部于2 0 0 5 年5 月1 0 日指出,加入世贸组织以来,我国有2 3 的出口企业遭遇国外技 术性贸易壁垒,有2 5 的出口产品受到不同程度的影响,每年我国受技术 贸易壁垒所造成的贸易损失达到2 0 0 亿美元左右,问题相当严重【2 】。 基于上述问题,建立一个高效的预警平台是非常必要的,而建立t b t 预警平台,实时、准确的预警资料是必需的。目前,随着i n t e r a c t 的高速发 展,信息量在成倍的增加,如何自动收集各个相关w t o t b t 咨询站点的新 的t b t 相关文档,收集进口国新的或正在修改的相关技术标准、技术法规 和合格评定程序的细节,收集进口国相关行业、企业、机构和协会的有关信 息以及我国产品现行标准信息,如何保证收集到的资料保证实时性和准确 性,以及如何管理这些搜索到的资料,这些都是我们需要研究的内容。 但是目前现有搜索引擎存在这下面缺陷: a 、非实时性,随着时间推移,而现有信息会过时 b 、基于关键字搜索方式,会搜索出大量与用户初衷不一致的信息, 用户还得自己发挥大量的时间来鉴别信息。 c 、基于地址的寻址方式,如果网页目录结构发生了变动,会导致搜 北京工业大学管理学硕士学位论文 索失败州。 针对目前搜索引擎的缺陷,我们提出了一系列的改进措施,其中0 3 届孙 明提出了基于a g e n t 和o n t o l o g y 的搜索系统设计,做出了很多的研究,但 是孙明只是简单的提出了基于o n t o l o g y 的研究思路,并未深入研究,本文正 是在孙明的研究基础之上提出了基于o n t o l o g y 的智能搜索技术的设计,详尽 的提出了o n t o l o g y 库的理论及其设计,改变以往单纯基于关键词的搜索方 式,而变成基于知识( 概念) 的搜索方式,提高信息搜索的查全率和准确率。 最后我们再将研究成果应用于北京市自然科学基金技术性贸易壁垒的 辨识评估和监测预警,建立t b t 预警预测系统平台,希望能够为最大限度 地避免外贸出口受进口国t b t 的影响,为最大程度地规避由t b t 造成的经 济损失提供理论、技术和方法支持,这对扩大北京的贸易出口,提高本地区 企业的国际竞争力也有相当的促进作用。 1 2 本文的研究目标、方法及其研究思路 就目前而言,真正高效率、高准确度的t b t 预警预测系统并没有实现,与此 同时,关于在t b t 预测预警系统中占据着重要地位的t b t 文档搜索系统的研究就更 加稀少。鉴于以上情况,本论文的主要研究目标就是通过对o n t o l o g y 及其搜索引 擎现有分析,对现有搜索技术进行改进,构建t b t 领域本体,研究基于这个本体 的搜索体系,同时建立一个原型系统来做检验。 本论文拟采用的研究方法是运用面向对象的方法建立本体库,将本体库和搜 索引擎二者结合,建立搜索模型,并通过计算机技术将模型实体化。 根据论文研究目标及其方法,本论文确定了以下的研究思路,如图1 一l 所示, 本论文首先分析了国内外关于信息搜索方面的研究现状,并研究了现有的搜索技 术,提出了对部分动态网页进行抓取的搜索技术,同时该文分析 o n t o l o g y 的研 究现状,提出了建立t b t 领域本体库,并且在t b t 本体库的基础上应用j e n a 工具 对相关信息进行推理。在此基础上我们提出y 基t o n t o l o g y 的搜索引擎的设计方 案,建立基于o n t o l o g y 的t b t 支:档智能搜索系统,并将该实验成果应用于北京市 自然科学基金技术性贸易壁垒的辨识评估和监测预警中去,来为实现系统的 预测预警功能提供支持。 t b t 领域本体库的建立即是本论文的一个创新点,同时也是该文的难点, 由于建立本体库是一个十分庞大复杂的过程,建立的本体库并不一定为最优,因 第一章绪论 此该玎本体库的建立是一个漫长的过程,我们需要在本体的各个概念关系、 属性等等各个方面进行反复优化,这样可以大幅度提升搜索效率。此外尽管国内 外的智能搜索技术的已有相当的发展,但是关于对动态网页的搜索问题仍然存在 很大的不足,如何设计并开发适合贸易领域的基于0 n t o l o g y 的t b t 预警预测需 求的智能搜索系统同样是一个难点。 国内外本体理论现状分析l国内外信息搜索技术现状分析 研究现有搜索引擎技术,研究了 对部分动态网页的抓取技术 基于o n t o l o g y 的i b t 智能搜索系统 实现1 b t 智能搜索模块并应用于技术性贸易壁垒预警预测系统 1 3 本章小结 图i - i 论文研究思路 f i g u r e l ir e s e a r c hm e n t a l i t yo f p a p e r 本章首先从贸易技术壁垒近年来对我国出口贸易的影响出发,阐述了建立贸 易技术壁垒预测预警系统的重要性,明确了实时的t b t 相关信息对整个预警系 统重要作用,提出了建立采集实时t b t 文档信息系统的必要性。然后说明了本 论文的研究目标,所使用的方法及其研究思路。 北京工业大学管理学硕士学位论文 第二章本体理论及在信息检索中应用 2 1 本体的基本理论 2 1 1 本体的概念 o n t o l o g y 最早是一个哲学上的概念,从哲学的范畴来说,o n t o l o g y 是客 观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。1 9 9 3 年, c n - u b e r f 4 给出了o n t o l o g y 的一个最为流行的定义,即“o n t o l o g y 是概念模型 的明确的规范说明”后来,b o r s t 5 在此基础上,给出了o n t o l o g y 的普遍认 可的一个定义:“o n t o l o g y 是共享概念模型的形式化规范说明”。s t u d c r 6 等对 上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形 式化规范说明。这个定义包含了概念模型、明确、形式化、共享4 层含义, 即本体是通过抽象出客观世界中一些现象的相关概念而得到的模型, 而这 些概念和使用这些概念的约束都有明确的定义,本体所体现的是相关领域 共同认可的知识,且能够应用计算机进行处理1 7 1 。 2 1 2 本体的作用 建立本体的目标就是捕获相关的领域知识,提供对该领域知识的共同理 解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些 词汇和词汇之间相互关系的明确定义【8 9 】。m u s c h o l d 1 0 1 认为本体的作用主要 有以3 个方面:信息交换、互操作和系统工程。具体说来,本体为人们或者 组织之间的交流提供了通用术语;使领域内不同系统、不同模型之间能够 实现互操作和集成;帮助系统工程实现重用、可靠性和规范描述。 2 1 3 本体建模元语 o n t o l o g y 共包含5 个基本的建模元语o “o d d i n gp r i m i t i v e ) 1 1 1 这些元语 分别为:类( c l a s s e s ) ,关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和 实例( i n s t a n c e s ) 。 c l a s s 也可以写为c o n c e p t s ( 概念) ,它的定义比较宽泛,可以指任何事 务,比如工作描述、功能实现,推理过程等等。一般用框架结构,包含概念 第二章本体理论及在信息检索中的应用 的名称,与其它概念之间的关系,以及用自然语言对概念的描述。关系代表 的是在领域内概念之间的交互作用。关系有4 类:继承关系 k i n d - o f ”,整体 与部分之间的关系 p a r t - o f ”,实例和对象之间的关系 i n s t a n c e - o f ,表达某个 概念是另外一个概念的属性 a t t r i b u t e - o f 。函数是一种特殊的关系,在这种 关系中前n 1 个元素来唯一决定第n 个元素。公理是永真的,比如概念乙 属于概念甲的范围,实例代表元素。 2 1 4 本体语言 在具体的应用中,本体的表示方式可以分为4 大类:非形式化、半非形式 化、半形式化、形式化语言k i l l 。也就是说本体可以采用自然语言来描述,也 可以用框架、语义网络或逻辑语言等来描述。本体语言不仅要有描述能力, 同时也应具备推理能力,因此它一般都是基于某种逻辑语言的,一般来说, 大部分本体语言都是基于一阶谓词逻辑和描述逻辑的。 一阶逻辑0 2 1 :一阶逻辑是一种形式语言系统,研究的是假设与结论之间 的蕴含关系,即用逻辑的方法研究推理的规律。但是一阶逻辑作为一种形式 语言,还远远不能表示人类自然语言所能表达的全部知识。 描述逻辑1 3 】【1 4 】:描述逻辑是一种基于对象的知识表示的形式化,也叫概 念表示语言或术语逻辑。它建立在概念和关系之上,其中概念解释为对象的 集合,关系解释为对象之间的二元关系。描述逻辑是一阶逻辑的一个可判定 的子集,具有合适定义的语义,并且具有很强的表达能力。它包含以下算子: 交( n ) ,并( u ) ,非( 1 ) ,存在量词( 9 ) ,全称量词( v ) 。 与一阶谓词逻辑不同的是,描述逻辑系统能提供可判定的推理服务,它 保证推理算法总能停止,并返回正确的结果。一阶逻辑虽然具有很强的表达 能力,但其推理过程复杂,不利于本体的检验;而描述逻辑的推理复杂度 可知,更适用于本体检验。并且,描述逻辑的语法容易转换成x m l r d f 形 式,因此基于描述逻辑的本体模型更适合于网络环境下的概念建模与知识共 享【1 5 1 。基于一阶逻辑的本体语言有c y d 1 6 1 ,o n t o l i n g u a 埘,l o o m 堋,这些本 体语言并未能在描述资源方面得到广泛的应用。目前应用比较多的是基于描 述逻辑的本体语言d a m l + o i l ,o w l 。 一 o i l t l 9 1 ( 本体推论层) 语义是建立在描述逻辑,语法建立在r d f 之上。 o i l 提供本体工程中基于框架方法中广泛采用的建模原语,以及描述逻辑中 的规范语义和推理支持。这是最早的基于r d f 的本体描述语言。 d a m l 2 0 1 ( 代理标识语言1 1 l cd a r p aa g e n tm a r k u pl a n g u a g e ) 是美国国 北京工业大学管理学硕士学位论文 防部高级研究计划局( d a r p a ) 于2 0 0 0 年8 月启动的一个项目, 目标就是 使a g e n t 能够动态地标识和理解信息资源,并为a g e n t 之间的语义互操作提 供支持,建立一种促进语义w e b 发展的语言和工具。d a m l 是x m l 和r d f 的扩展,以描述逻辑为基础,结合了o i l 的优点。 d a m l + o i l 的不足之处主要体现在:( i ) 约束表达能力较弱,只能表 示属性值的基数约束,不能表示属性值的区间约束;( 2 ) 不能表示任何规 则,而无论是约束表示还是规则表示对本体都是非常重要的1 2 l j 。 因此,w 3 c 网络本体工作组研究设计了一种以d a m l + o i l 为基础的网 络本体描述语言o w l t 2 2 ( w e bo n t o l o g yl a n g u a g e ) ,用于构造更加完备的本 体。o w l 采用面向对象的方式来描述领域知识,即通过类和属性来描述对 象,并通过公理( a x i o m s ) 来描述这些类和属性的特征和关系。 2 1 5 基于o n t o l o g y 的信息检索建立步骤 在o n t o l o g y 信息检索过程中,其步骤主要是以下3 个”“1 : ( 1 ) 在领域专家的帮助下,建立相关领域的o n t o l o g y 。 ( 2 ) 收集信息源中的数据,并参照已建立的o n t o l o g y 把收集来得数据按规 定格式存储在元数据库中。 ( 3 ) 对用户检索界面获取的查询请求,查询转换器按照o n t o l o g y 把查询请 求转换成规定的格式,在o n t o l o g y 的帮助下从元数据库中匹配出符合条件的 数据集合,然后返回给用户。 2 2o n t o i o g y 在信息检索中应用的研究现状 多信息源的信息检索成为o n t o l o g y 的一个重要应用领域,多信息源有很 多的问题,比如,在不同信息源所得到的信息表示不一致,以及得到的信息 量非常巨大,难以处理。因此应用o n t o l o g y 建立一个共享信息的o n t o l o g y 库,可以减少信息转换的难度,同时还为信息集成提供了统一的模式 2 5 1 0 此外,基于关键词的信息检索已不能满足当前用户对于信息和知识的深度需 求,本体由于具有良好的概念层次结构和对逻辑推理的支持而在信息检索( 特 别是在基于知识的检索) 中得到了广泛的应用。 目前国际上应用本体主要项目有:( o m o ) 2 a g e “驯( 一a no n 龇g y b a s e d w w wb r o k e rt os e l e c to n t o l o g i o s ) 、o n t o b r o k e r 2 7 ( - - - o n t o l o g yb a s e d a c c e s s t od i s t r i b u t e da n ds c m i s m m m r e di n f o r m a t i o n ) 和s k cp s i ( t h es c a l a b l e 第二章本体理论及在信息检索中的应用 k n o w l e d g ec o m p o s i t i o np r o j e c t ,) ,这3 个项目的研究各有侧重。( o n t o ) 2 a g e n t 的目的是帮助用户检索网上已有的本体,主要采用了参照本体,利用 它保存网上现有本体的元数据。而o n t o b r o k e r 目的是为用户检索到所需要的 网页。o n t o b r o k e r 是德国卡尔斯鲁厄大学应用信息学与形式描述方法学院 ( a i f b ) 的一个研究项目,该项目建立了一个用来处理h t m l 、x m l 和r d f 格式的信息源和信息源语义描述的系统,其核心是用形式化本体描述背景知 识,并明确网页的语义,以便综合利用本体的表达能力和推理机制。s k c 是斯坦福大学目前正在进行的一个项目,主要研究如何用代数学方法来合成 不同领域的主体,解决信息系统语义异构的问题,实现异构的自治系统之间 的互操作。 国内研究o n t o l o g y 虽然比较晚,但是有很多人对此做了大量的工作。万 捷例等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩 充,并用文档分析器对检索文档进行过滤,因此增加了检索结果的准确性, 更加符合用户的检索需求。徐振宁3 0 1 等人则把本体作为信息检索系统的核 心,通过构造形式化的领域本体,提出了一种将知识表示和知识处理引入互 联网信息处理的方法,为互联网上半结构化数据和关系数据库提供了统一的 语义模型。武成岗n 等人也提出了基于本体和多智能主体的信息检索服务 器,该系统利用本体协助智能主体对网络上的各类信息进行领域分类,并 规范用户信息检索的模式,由于仅提供给用户所关注领域的资源索引,因而 检准率较高。 2 3 本章小结 本章重点介绍了o n t o l o g y 的概念由来、作用、建模元语及其o n t o l o g y 语言,同时也对国内外关于o n t o l o g y 的研究做了详细的分析,为本文建立关 于t b t 的领域本体库做好了理论基础。 北京工业大学管理学硕士学位论文 第三章搜索引擎技术的发展现状及其趋势 3 1 搜索引擎的发展历史 互联网的迅猛发展使其所含的信息数量激增。为了帮助用户顺利检索和 查找所需的网络信息,一大批搜索引擎应运而生。网络搜索引擎的研究与开 发已成为当今网络信息检索的热点,搜索引擎技术越来越引起人们的关注。 搜索引擎已日益成为人们日常生活中必不可少的一部分,成为人们在信息海 洋中进行“大海捞针”的工具。 现在的搜索引擎技术主要分为三类:基于网页名称的搜索策略,基于网 页内容的搜索策略,元搜索策略。基于网页名称的搜索策略是最早出现的基 于w w w 的搜索引擎技术,例如雅虎就属于这一类。雅虎主要通过人工发现 信息,依靠专家来给网站分类。由于信息分类和信息搜集有人的参与,因此 其搜索的准确度是相当高的,但其查全率并不是很好,自动化程度不高。基 于网页的搜索策略则是搜索引擎使用r o b o t 程式,让它在网上存取资料,并 自动将资料存入资料库中。但它存在着一个非常大的缺点,搜索到的记录太 多,以致无法精确的找到正确的资料。元搜索引擎在接受用户查询请求时, 同时在其他多个引擎上进行搜索,并将结果返回给用户。 然而目前搜索引擎又面临一系列的挑战,如网络信息量迅猛增加,已经 无法对它们进行有效的分类、索引和利用;简单的关键词搜索,返回的信息 量过大,已经让用户无法承担;网络信息组织的无序性;信息有用性评价困 难;网络信息日新月异的更变;信息媒体的多样化:带宽等其它因素的制约, 这些都给因特网信息的获取造成了极大的阻碍。这就给了智能搜索引擎出现 的机遇,也给了它发展的空问。 3 2 搜索引擎技术的发展现状分析 由于现有搜索技术的缺陷,搜索引擎缺乏知识处理和理解能力。把信息 检索从目前基于关键字层面提高到基于知识( 概念) 层面,是解决问题的根 本和关键。智能搜索引擎较之传统的搜索引擎有如下优势:( 1 ) 主动性( 2 ) 交互性( 3 ) 智能性( 4 ) 合作性( 5 ) 个性化 第三章搜索引擎技术的发展现状及其趋势 3 2 1 通过对个性化搜索访问行为的研究探讨智能化搜索引擎 国外对个性化引擎的研究十分广泛,g l o r i ae p h i l l i p s w r e n ,g u i s s e p p i a f o r g i o n n e “2 1 建立了一个面向病人的智能搜索引擎,它通过智能a g e n t 提 供了一个信息决策系统以对病人提供各种有效信息,并且用远距离医学来展 示这种搜索引擎的潜在发展。m i r c os p e r e t t a ,s u s a nc o u c hb 加针对用户搜 索历史记录研究了个性化搜索,通过代理服务器来获取网络测览记录和桌面 工具来获取用户在个人电脑上的行为建立用户档案,应用这些档案来对用户 提供更加准确,个性化的服务。国内对个性化的搜索引擎也有一些研究,张 卫丰等人提出了个性化代理系统的结构( p s a ) 3 4 1 ,韩立新等人利用用户的访 问模式、类层次结构和多关键词构造个性化信息检索系统等等d 5 。杨炳儒旧卵 等提出利用w e b 挖掘技术,特别是用户访问信息挖掘技术,发现用户的访问 兴趣,为用户提供个性化的搜索结果。在发现用户的访问兴趣之后,应用智 能代理技术,随时搜索网上相关信息以及监控信息的更新,然后通过主动推 动技术,提供个性化信息服务的框架思想,提出一种个性化智能搜索引擎的 整体框架。 现在的个性化检索的研究存在不足,表现在:1 ) 不能综合考虑用户的浏 览行为与用户检索页面的内容;2 ) 对用户多方面兴趣的考虑仍不够;3 ) 个性 化检索的自动化程度不高,需要利用机器学习技术对用户提供大量的反馈信 息进行训练;4 ) 不能准确把握用户的信息需求且不能很好地适应用户需求的 变化。 3 2 2 通过对分布式智能化信息获取方法的研究探讨智能搜索引擎 研究人员引入分布式系统和a g e n t 的概念,针对普遍存在的可扩展性、 可靠性、可获得性和查询服务智能性关键技术展开研究,试图构造面向 i n t e m e t 的智能化分布式信息检索系统。l u ,j ,r a h m a n ,u ,c h e n ,h k 3 7 1 在基于语义的搜索引擎的概念模型和系统原型的基础上,借助o n t o l o g y 和智 能a g e n t 技术在x m l 网页中用r d f 和d a m l 进行操作,以实现搜索引擎 的语义查询功能。w e i - p ol e e ,t s u n g c h et s a i 3 鄹提出了一个多a g e n t 交互 框架,该系统能够反复收集、分析用户的反馈,逐渐获取用户查询内容的有 效描述。该框架采用了一种进化算法来不断改进查询表述的概念模型。a n i t a f e r r e i m ,j o h na t k i n s o n 口鲫针对w e b 信息过量问题,利用w e b 使用者和搜 索系统的交互来过滤过量的信息,该过滤算法结合了n l p 方法和智能a g e n t 北京工业大学管理学硕士学位论文 技术,提出了采用自然语言的智能搜索a g e n t 。目前这种基于a g e n t 的搜索 面临着一些缺陷,主要是a g e n t 之间的通讯机制及安全标准并不健全,需要 统一其标准。 3 2 3 基于k d d 方法的智能化信息获取方法的研究 数据挖掘,也称为数据库中的知识发现k d d ,是近几年来随着数据库 和人工智能发展起来的一门新兴的数据库技术,帮助人们从庞大的目标数据 集合中抽取出可信的、新颖的、有效的并被人们理解的知识。w e b 挖掘技术 主要是对信息分析模块实施改进,挖掘所搜集资料的深层次信息;w e b 挖掘 分为:w e b 内容挖掘,w e b 结构挖掘,w e b 访问信息挖掘。 利用w e b 挖掘技术,可以提高搜索引擎获取信息的准确性,并可以对用 户搜索结果进行相关处理,提高查准率和查全率,可以在智能门户搜索引擎 中的应用: l 、文档的自动分类:最常用的文档分类方法为朴素贝页斯分类与k 最 邻近参照分类,前者由于速度快,而适合于在联机模式下创建分类器。 2 、自动文摘的形成:目前只是截取前几句话,不能涵盖文档的内容。 3 、检索结果的聚类:z g 眦i h e 和z t z i o n i 提出了一种利用搜索结果所提 供的信息( 如:u r l 、标题、网页的第一行描述等) 对文档进行聚类的技术。 4 、查询结果的相关度排序;s t a n f o r d 大学研究了p a g e r a n k 算法来计算 页面的p a g e r a n k ,以及相应的w e b 规格化链接矩阵的主特征向量,以此来 确定查询结果的相关度排序。 5 、实现个性化的搜索引擎 目前知识发现领域的研究已经有个许多成果:例如,s s a n a n d 等开发 的m k s ( m i n i n gk e r n e ls y s t e m ) 集成了用于知识发现的基本数学工具( 如 统计学、信息论、证据理论、知识表示、集合操作等) 和几种知识发现算法 ( 如分类、关联、强规则归纳等) 。它的i n c a s 系统应用于医学临床有关的 知识发现,提高了治疗效果。陈福集,杨善林4 将k d d 的思想和方法引入 w e b 搜索引擎,提出了一种面向用户的检索覆盖面广、质量高的w e b 搜索 引擎框架。对用户提交的查询,通过分析影响因素,优化选择效益好的搜索 引擎进行信息检索,从而充分利用信息资源,挖掘出有效信息。 目前的研究成果还存在以下不足,主要表现在发现的规则的可用性还不 理想( 模式和规则中领域知识、信息不够) 。 第三章搜索引擎技术的发展现状及其趋势 3 2 4 基于o n t o l o g y 的智能搜索引擎研究 由于本体( o n t o l o g y ) 具有良好的概念层次、支持逻辑理解,目前应用 o n t o l o g y 研究智能搜索也成为了一个发展趋势。n o r i k ok a n d o ,t c m h i t o k a n a z a w a ,a k i r am i y a z a w a 利用o n t o l o g y 技术建立了一个信息检索系统 j u n i ip l u s ,用来对整个日本大学以及其他科研机构的网络图书馆的元数据提 供导航。j o s e a r o y o ,e d u a r d om e n a & j o r g eb e m a d ,a r a a t z a i l l a r r a m e n d i 4 2 1 应用语义网和o n t o l o g y 技术,把关键字进行语义化处理,得到该关键字的同 义词,概念的歧义等等,从而在搜索的过程中减少信息丢失。t a o s h c nl ia n d t m g h a n 在文献m 1 中,在语义网和本体理论的基础上提出了智能搜索模型, 该模型以x m l 作为数据源文件格式,以x m l r d f 来表示知识,以本体来 构建概念模型,将本体作为底层数据集成和搜索过程语义的标准,应用本体 作为人机接口语言。周立柱,林玲1 采用领域本体表示信息,对网页分析 方法提出了改进,从而提高搜索效率。目前基于o n t o l o g y 的研究国内外都做 了大量研究,但是大部分研究者都只是提出了理论化的研究,对于将 o n t o l o g y 真正的应用到搜索中还存在很大差距,因此此后的研究工作将集中 在o n t o l o g y 的实际应用中,此外,o n t o l o g y 的编制规范以及标准也将是研究 热点。 3 2 5 基于p 2 p 技术的智能搜索引擎 p 2 p 是p e e r t o p e e r 的缩写,意为对等网络,长久以来,人们习惯的 互联网是以服务器为中心,人们向服务器发送请求,然后浏览服务器回应的 信息,而p 2 p 技术的核心就是使联网中各个独立的电脑能够进行数据交换, 实现信息资源的共享,p 2 p 技术使用户能够深度搜索文档,而且这种搜索无 需通过w e b 服务器,也可以不受信息文档格式和宿主设备的限制,可达到 传统目录式搜索引擎( 只能搜索到2 0 3 0 的网络资源) 无可比拟的深度 ( 理论上将包括网络上的所有开放的信息资源) ,可以说p 2 p 技术为搜索引擎 的发展提供了一条新的道路。第三代搜索引擎p a n d a n g o 采用的正是p 2 p 对 等网络搜索理念。长久以来,如何将搜索结果按照相关性进行排序一直是困 扰搜索引擎技术的一大难题,p a n d a n g o 搜索引擎从一个新的角度尝试解决了 这一问题,即通过大规模检查网络计算机的访问纪录决定搜索结果的排序顺 序( 在搜索的过程中,以点击率为基准,以降序来排列搜索结果) 。h i r o y u l d a n dk a w a n o 开发了日语的w e b 搜索引擎“m o n d o n ( r c a a u ) ”系统,该系 北京工业大学管理学硕士学位论文 统建立在数据挖掘技术基础上,并在文献“5 1 中探讨了该系统的w e b 存储系 统以及在p 2 p 分布式主题驱动搜索中的应用,提出了存储策略,为p 2 p 提 出了基于智能分类器和蒸馏搜索策略的智能索引机制,目前正在研究系统中 挖掘结果的可视化问题。 3 3 搜索引擎的发展趋势 完美的搜索结果不仅仅需要新兴的技术支持,还涉及搜索技术的发展方 向。这里就对搜索引擎的发展趋势谈谈个人见解,而且通过对智能搜索技术 发展趋势的研究,为本课题的迸一步研究打下良好的基础。 ( 1 ) 人机交互界面技术 人机界面技术的不同往往使得搜索引擎表现出不同的特色。当前搜索引 擎涉及的人机界面技术主要有四类:搜索请求提交技术、搜索结果表现技术、 搜索向导技术和搜索行为分析技术。搜索请求提交技术中有几种很有用的技 术,包括多语言查询技术、编码转换技术、模糊语义查询、精确语义查询以 及采用自然语言的搜索请求提交界面。搜索结果表现技术包括搜索结果的准 确度及相关度、搜索 结果的母语评价等。搜索向导技术则纯粹是网站设计上的界面技术。通 过具有亲和力、易用型的界面,时刻帮助来方便网民的搜索。搜索行为分析 技术核心是跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜 索效率。搜索行为分析技术提高搜索效率的途径主要有两种:群体行为分析 和个性化搜索。 ( 2 ) 对等搜索技术 互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器 回应的信息,而对等搜索技术p 2 p ( p e e rt op e e r ) 将以用户为中心,所有的 用户都是平等的伙伴。相隔万里的用户可以通过p 2 p 共享硬盘上的文件、目 录甚至整个硬盘。所有人都共享了他们认为最有价值的东西,这将使互联网 上信息的价值得到极大的提升。把这一理念具体运用到搜索引擎技术上来: p 2 p 将使用户能够深度搜索文档,而且这种搜索无须通过w e b 服务器,也可以 不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引擎无可比拟 的深度。这种对等搜索技术将成为下一代搜索引擎的发展方向,它的诞生将 第三章搜索引孳技术的发展现状及其趋势 有可能对在该领域领先的6 0 0 9 l e 搜索引擎形成强大压力。 ( 3 ) 多媒体搜索技术 随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查 寻图像、声音、图片和电影的搜索引擎无疑是一个新的方向。目前瑞典一家 公司已经推出被称作“第五代搜索引擎”的动态的和有声的多媒体搜索引擎。 ( 4 ) 更精确的搜索技术 搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。要想 大幅度地提高搜索引擎的效率和搜索结果的准确度,应考虑这样几个方向: 智能化搜索、个性化搜索、结构化搜索、专业化搜索和本土化搜索等。如 目前基于o n t o l o g y 的技术是解决这个问题的方法之一。o n t o l o g y 技术融入 到传统信息检索技术中去,加入了o n t o l o g y 对概念关系进行处理的优点, 可以用来处理语义信息,并且具有较好的自然语言接e l 。因此,o n t o l o g y 技术必定会成为研究热点之一,其中w 3 c 组织在这方面已经做了大量的工 作,提出了一些应用系统,如o n t o b r o k c r 4 6 1 ,面向w w ,上的网页资源, 来帮助用户检索他所关心的网页。 智能化搜索准确的搜索应建立在对收录信息和搜索请求的理解之上, 也就是说,必须处理语义信息。显然,基于自然语言理解技术的搜索引擎, 由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的 结果也更加准确。 个性化搜索提高搜索精确度的另一个途径是提供个性化的搜索,也就 是将搜索建立在个性化的搜索环境之下,通过对用户的不断了解、分析,使 得个性化搜索更符合每个用户的需求,而不仅仅是准确。 结构化搜索所谓结构化搜索,是指充分利用x m l 等技术使信息结构化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论