已阅读5页,还剩71页未读, 继续免费阅读
(计算机软件与理论专业论文)基于领域本体的个性化智能信息检索系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华东师范大学硕士学位论文基于领壤奉体的个性化# 能信息检索系统的设计与实现 摘要 随着i n t e m e t 技术的不断发展及其应用的深入,w e b 俨然已经变成全球最大 的虚拟资料库,可用的信息正呈指数级的增长。对于一个普通的用户,面对信息 的海洋,要检索出所需要的文档变得越来越难。目前的w e b 信息检索系统大多 是基于关键字匹配的搜索引擎技术,没有考虑到对检索关键词进行语义上的分析 和处理,不能充分挖掘出用户的检索意图。并且,不同领域背景、知识结构的用 户对文档相关性的判断也是不同的。w 曲信息检索技术应提供智能化、个性化、 专业化的服务,才能更好地满足用户从i n t e r a c t 上有效获取信息资源的要求。 本体( o n t o l o g y ) 是描述概念及概念之间关系的概念模型,通过概念之间的关 系来描述概念的语义。由于本体具有良好的概念层次结构,因而在信息检索中得 到了广泛的应用。本文首先对本体的相关理论进行了深入研究,探讨本体在智能 信息检索中的应用。接着使用w 3 c 的r d f r d f s 技术构建了领域本体,提出了 一种计算本体语义相关度的方法,在信息检索领域,利用语义相关度的计算方法, 量化了概念之间的关系,可以使用查询关键字扩充和修正技术,通过和用户的交 互,改进查询的准确度。在此基础上,本文设计并实现了一个基于领域本体的个 性化智能信息检索系统0 n t o h c l p 盯,这个系统工作在客户端,利用计算本体 概念相关度的方法,对检索关键词进行语义上的分析和处理,能够用来提高用户 检索时的联想能力和精确性,系统采用了元搜索引擎的工作方式。同时对用户的 兴趣偏好进行建模,综合使用“搜索引擎信任度评级”和“个性化评级”的计算 方法来对检索页面进行排序。 与传统的搜索引擎方式相比,o n t o h d p c r 系统具有智能程度高和针对性强的 特点,在信息检索时既满足了信息的广度需求又适应了用户个性化需求,适合于 成为个人w e b 信息检索助手,有着很好的实际应用价值。 关键词:本体,概念相关度,信息检索,个性化,r d f ,r d fs c h e m a 华东师范大学硕士学位论文基于领域奉体的个性化智f j 信息i 塑壁墨统的设计与实理 a b s t r a c t w i t ht h ef a s td e v e l o p m e n to fi n t e r n c tt e c h n o l o g y , w e bh a sb e c o m et h eb i g g e s t v i r t u a li n f o r m a t i o nd a t a b a s ei nt h ew o r l d a st h en u m b e ro fa c c e s s i b l ew e bp a g e s g r o w s i ti sb e c o m i n gi n c r e a s m 啦yd i f f i c u l tf o ru 娜t of r e dd o c u m e n t st h a t a r e r e l e v a n tt ot h e i rp a r t i c u l a rn e c l d s c u r r e r aw e bi n f o r m a t i o nr e t r i e v a ls y s t e m sa r c a l m o s tb a s e do nt h et e c h n o l o g yo fs e a r c he n g i n e sw h i c hm a t c ht h ed o c u m e n tb y k e y w o r d s t h e yd on o ta n a l y z et h ek e y w o r d ss e m a n t i c a l l ys ot h a tt h e yc a l ln o td i go u t t h ei n t e n t i o no fi k s e l 苫q u e r i e s a n du s e r sw h oh a v eq u i t ed i f f e r e n tb a c k g r o u n d so f d o m a i nk n o w l e d g ej u d g et h er e l e v a n c eo fd o c u m e n td i f f e r e n t l y t h ew e bi n f o r m a t i o n r e t r i e v a ls y s t e mi s 吼l p p o s e dt op r o v i d et h ei n t e l l i g e n t , p r o f e s s i o n a la n dp e r s o n a l i z e d s e r v i c e a no n t o l o g yi saf o r m a l i z a t i o nt h a tr e l e s e n t sc o n c e p t sa n dt h e i rr e l a t i o n s t h e m 曲n i n go fac o n c e p ti sd e a e r i b e db yi t sr e l 幽o nw i t ho t h e rc o n c e p t s b e c a u s e o n t o l o g yh a sw c l l - o r g e n i z c dh i e r a r c h yo fc o n c e p t s ,i th a sb e e nw i d e l yu s e d i n i n f o r m a t i o n 化 a i e v a la i 饿t h i st h e s i sb 盹q l d i e st h er e l a t e dt h e o r i e so fo n t o l o g ya n d d i s c u s s e st h ea p p l i c a t i o no fo n t o l o g yi ni n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l o n t o h e l p e r , ad o m a i no m o l o g y - b a s e dp e r s o n a l i z e di n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e mi s d e s c r i b e d i nt h i ss y s t e m ,w eu s et h et e c h n i q u eo fr d f r d f st ob u i l dd o m a i n o n t o l o g y , a n a l y z ea n dh a n d l et h ek e y w o r d ss e m a n t i c a l l yb ym e a n so fc a l c u l a t i n gt h e r e l e v a n c eb e t w e e nt w oc o n p t so f d o m a i no n t o l o g y t h es y s t e ma c t sa sam e t as e a r c h e n g i n ea n ds e t su pu s c rp m f i l ea c c o r d i n gt oe a c hu s e f t si n t e r e s t i tm a k e sg e n e r a lu s e o f “s e a r c he n g i n et r u s tg r a d e a n d p e r s o n a l i z e dg r a d e t os o r tt h ew e bp a g e s r e t r i e v e d c o m p a r e dw i t hc o n v e n t i o n a l s e a r c he n g i n e s ,o n t o h e l p e ri s i n t e l l i g e n ta n d t a r g e t e d 砒t h eu s c r si n t e r e s t i tn o to n l ym e e t st h er e q u i r e m e n to ft h ew i d e r a r e ao f i n f o r m a t i o nb u ta l s oe d i t st ot h ep e r s o n a l i z e dr e q u i r e m e n t s o n t o h e l p e rm i d e s i n t e l l i g e n ta n dp e r s o n a l i z e ds e a r c h i n ga s s i s t a n c e ,a n di th a sap r o m i s i n ga p p l i c a t i o n f o r e g r o u n d 1 i 华东师范大学硕士掌= 芷论文基于领域本体的个性化智能信息检索系统的设计与实现 k e yw o r d s :o n t o l o g y ,c o n c e p tr e l e v a n c e ,i n f o r m a t i o nr e t r i e v a l , p e r s o n a l i z e d ,r d f ,r d fs c h e m a i i i 华东师范大学硬七学位论文 接于领域奉体的个性化智能信息帻索系统的设计j 实现 学位论文独创性声明 本入所呈交的学位论文是我在导师的指导下迸行的研究工作及取得的研究 成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意。 作者签名; 衫日期抑a 占 一 日期:! :! :。 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保 留学位论文并向国家主管都门或其指定机构送交论文的电子版和纸质版。有权 将学位论文用于非纛利目的的少量复制并允许论文进入学校图书馆被查阅。有 权将学位论文的 汇编出版。保密 学位论 日期: 复 竺壅! ! 蔓盔堂堡主兰堡堡苎 苎主塑蔓查苎箜尘堡些塑塑堕璺塑鲞墨望塑堡生兰塞墨 o r i g i n a li t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o rt h em a s t e r sd e g r e ea t e a s tc h i n an o r m a lu n i v e r s i t y , 1w a r r a n tt h a tt h i st h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e s p r e s e n t e di nt h et h e s i sh a v eb e e n 地u r c do u tb ym e a n yo ft h er e f e r e n c e st ot h ec o p y r i g h t , t r a d e m a r k , p a t e n t , s t a t u t o qr i g h t , o rp r o p r i e t yr 蛳o f o t h e r sh a v eb e e ne x p l i c i t l ya c k n o w l e d g e d a n di n c l u d e di nt h er e f e r o w e gs e c n 帆a tt h ee n do f t h i st h e s i s s i 弘a t u r e :弘哆。把:扣a 6 c o p y r i g h tn o ti c e ih e r e i na 即et h 址t h el i b r 甜yo f e c n u s l l a l l 删i k c 溉c o p i e sf r e e l ya v a i l a b l ef o ri n 删o n if u r t h e rn g r e et h a te x t e m i v ec o p y i n go f t h et b e s i si sa l l o w a b l eo n l yf o rs c h o l a r l y p u r p o s e s ,i n p a r t i c u l a r , s t o r i n gt h ec o n t e to f t h i st h e s i si n t or e l e v a n td a t a b a s e s ,拈w e l la sc o m p i l i n ga n d p u b l i s h i n gt h et i t l ea n da b 疵a e to f t h i st h e s i s , c o n s i s t e n tw i t h ”f a i ru s e ”a sp r e s c r i b e di nt h e c o p y r i g h tl a wo f t h ep e o p l e sr e p u b l i co f c h i n a s i g a a t u r e :幽! 哳d 。协:神d 华东师范大学硕士学位论文 基于领域奉体的个性化智能信息检索系统的设计与实现 第一章引言 随着信息技术革命的进行i n t e r a c t ( 因特n ) i e 潜移默化地改变着人类的生活方式,而 i n t e r a c t 能有今日如此火爆的局面很大程度上是由于w w w ( w o r l d w d e w e b ,简称w w w 或w e b ) 的出现。在约十年左右的时间里,w e b 已经发展成为一个巨大的全球化信息空间, 拥有上亿用户、上千万个站点,信息量高达t b 级别而且正在高速递增。w e b 俨然已经变 成全球最大的虚拟资料库 面对信息的海洋,用户试图通过测览w e b 页面来发现需要的信息已经成为一个耗时、 困难的过程。如何有效地检索w e b 信息,帮助用户从浩瀚的信息资源中快速、准确、有效 地找到所需要的文档子集,已经成为一项重要而追切需要解决的研究课题从最早的目录主 爱型的搜索引擎发展到检索型的搜索引擎、元搜索引擎,现在发展到应用人工智能、数据挖 掘等技术的智能搜索引擎,以及各种智能信息获取系统,从而使得用户可以更好地从w e b 中获取需要的信息资源 本章将酋先分析当前的w e b 信息检索的研究现状,介绍现有信息检索模型,然后阐述 论文研究a 孽背景现实意义,明确本课愿主要研究内容和论文组织,最后讨论了相关工作。 1 1w e b 信息检索系统现状 人们在信息检索领域的研究由来已久。早在本世纪5 0 年代,当图书馆等部门使用计算 机技术来存储和管理文档时,信息检索就作为一个研究领域诞生了【l 】。到8 0 年代,信息检 索领域已经在文档内容表示、索引模型等方面取得了丰硕成果。并成功开发了一些系统而 到现在,i n t e r a c t 技术迅譬发展,网络信息和知识不断膨胀,数据仓库、数据挖掘等技术方 兴未艾这些趋势都说明:信息资源越来越丰富,信息量越来越大,并且仍将持续性地爆炸 性增长,信息检索日益成为信息社会中不可缺少的一种工具手段。w e b 信息检索是指对w e b 上存储的信息( 主要是h t m l 文档) 进行规范化处理和识别以查找用户所需要的信息和知识 的过程w e b 信息检索可以说是信息检索科学在信息化和数字经济时代的新发展,w e b 上 的信息具有海量性、异构性、动态性、分布性等特点,给传统的信息检索技术带来了新的挑 战,需要在传统信息检索基础上针对w e b 的特点展开新的研究。 目前i n t e m e t 上已经出现了许多w e b 信息检索系统按照与信息源的接近程度。可以把 华东师范人学硕土学位论文基于领域本体的个性化智能信息检索系统“设计实现 现有的w e b 信息检索系统大致分为三类:搜索引擎和目录、元搜索引擎和信息检索a g e n t i “。 其中搜索引擎和目录处于最底层直接面对信息源,元搜索引擎和信息检索a g e n t 是建立在 搜索引擎和目录之上的。如图l 一1 所示 用户 i 智能a g e n t ,i 元搜索引擎 il 搜索引擎目录 w e b 1 1 1 搜索引擎和目录 圈1 - - tw e b 信息检索系统层次分类 人们通常所称的。搜索引擎”这个术语实际上同时包括基于爬虫( c r a w l e r - b a s e d ) 的搜索 引擎和人工维护目录两层含义,但是实际上它们建立索引的方式在根本上是不同的 基于爬虫的搜索引擎使用r o b o t 来遍历w e b 将w e b 上分布的信息下载到本地文档库; 然后分析文挡内容。自动地建立索引;当用户提交检索请求时。通过检商索引找出匹配的文 档或链接并返回给用户典型的这类搜索引擎有g o o g i e p l 等。这类搜索引擎的优点在于真正 提供了用户对i n 钯m e t 上所有信息资源进行检索的手段。给用户全面广泛的搜索结果;缺点 在于:1 ) 可供选择的信息太多反而会降低命中率:2 ) 由于缺乏分类那样清晰的层次结构,给 人一种繁多、杂乱的感觉,3 ) 虽然r o b o t 在日以继夜地工作,但是搜索引擎中的数据库无法 保证随着网络中文档的动态变化及时更新,不能保证将最新的信息提供给用户;4 ) r o b o t 需 要不问断地遍历w e b 收集信息也增加了网络负担。 人工维护目录,例如y a h 0 0 1 4 1 ,o p e n d i r c c t o r y 【等,则依赖于人工:它们并不使用r o b o t 下载w e b 文档,而是人工收集或者由w e b 站点的作者主动提交:然后人1 :对w e b 站点和文 档进行评价、分类和给出简要描述。经过上述处理的w e b 信息资源按照主题分类并以树状 的形式加以组织,用户可以通过浏览目录中的分类来查找需要的信息。随着信息量的增多目 录也变得庞大,因此目录往往也提供检索机制从w e b 冲浪的角度来看,这种方式有助于 2 # 东师范大学硕士学位论文基于领域本体的个性化智能信息检索系统的设计与实现 逐步缩小主题或者查找某个主题的常见的、质量较高的信息同时检索结果也是语义相关组 织的。当然这种方式的缺点也很明显:1 ) 需要大量的人力来对网站进行分类而且特定的分 类规则可能并不为所有用户认可,因此可能会发生系统建了索引但用户却找不到的情形;2 ) 目录往往不是免费的,所以不能保证所有的站点被索引到;3 ) i n t e r n e t 上信息源的增长速度 很快目录很难保证及时的更新。 搜索引擎和目录这两种w e b 信息检索系统各有长短,目前一些将两者结合的混合系统 也开始出现,比如m s n s e a r c h 6 1 l o o k s “7 1 等,而现在一些著名的搜索引擎和目录也呈 现出逐渐融合的趋势。由于它们都提供搜索查询服务,本文将基于爬虫的搜索引擎和人工维 护目录统称为“搜索引擎”。 1 1 2 元搜索引擎 搜索引擎在很大程度上方便了用户在i n t e r n c t 中获取信息,但是随着i n t e r n e t 上的信息 呈指数膨胀,尽管备大搜索引摹采用了许多先进豹算法来改进搜索弓l 擎工作机制( 如g o o g l e 采用了基于超级链接相关度捧序的机制) ,用户通过搜索引蘩查找信息却显得有点力不从心 l a w r e n c e 等人1 9 9 9 年发表韵一份研究报告啦表明。任何一个搜索引擎对w e b 的覆盖度都不 超过2 0 。“近期的研究显示:w e b 发展和改变的速度使褥建立一个完整的索引事实上是不 可能1 9 j 。”即使建立一个完整的索引是可能的,不同搜索引肇由于检索算法不同,返回的检 索结果也不尽相同用户面临的问题是如何选择一个对他们来说最好的搜索引擎,而要用户 去学习每个不同的搜索引擎的用户接口,重复相同的检索显然是一个耗时的过程。 元搜索i 擎( m c t a - s e a r c he n g i n e ) 解决了上述问题,基本思想为f 2 j : ( 1 ) 对用户查询请求进行预处理分刺将其转换为若干个底屡搜索; 擎能处理的格式 ( 2 ) 向各个搜索引擎发遥查询请尜,并等待其返回检索结果 ( 3 ) 对检索坊果进行后处理,包括:组合各个搜索引擎返回的检索结果,消除重复项,对结 果进行排序等 ( 4 ) 向用户返回经过组合争处理后的检索结果 这类系统典型的有m e t a c r a w l c r i ”】,p r o f u s i o n l l 4 1 等。对用户而言,元搜索引擎屏蔽了各 个搜索引擎的位置接口等细节。同时提高了检索的召回率;对系统构建人员而言,不需要建 立和维护庞大的索引数据库只需要对各个搜索引擎的检索结果进行处理 华东师范大学预士学位论文基于领域率体的个性化智能信息检索系统的设计与实现 1 1 3 信息检索a g e n t 搜索引擎和元搜索引擎对用户而言是普遍适用的,因而力求索引主题的覆盖面尽量r 泛,所以对具体的用户而言针对性就比较差,并不考虑用户的信息偏好羊u 用户的不同。事实 上不间领域背景、知识结构的用户对文档相关性的判断、对检索结果的要求是不同的,但搜 索引擎不可能为了适应不同的用户需求而去改变检索策略由于a g e n t ( i n t e l l i g e n t a g e n t ,本 文简称a g e n t ,中文称智能代理,也称智能主体) 具有自主、动态、自适应等特征智能a g e n t 技术应用于信息检索服务中可以解决一般的搜索引擎等无法解决的问题。 a g e n t 是一种具有智能性并且可进行高级、复杂的自动处理的代理软件,是一种或多 种软件技术实现的人工智能产品,是人工智能( a d 领域近年来研究的一个热点在过去的十 年里基于a g e n t 的技术引起了人们的广泛兴趣,a g e n t 技术被用于各个领域,包括系统与 明络警理、信息服务、移动计算、协同工作、教育和娱乐等等a g e n t 技术应用于信息检索 领域之后,成为开发簧能化、个性化信息检索的重要技术之一。其主要特点包括1 2 1 ; ( 1 ) 适应性:信怠检索a s o n t 糟够从用户日常的检索、测茏等行为中学习用户的兴趣。推理用 户的需求,为每个用户建立个性化的p r o f i l e ( 2 ) 主动性:信息检索a g e n t 能够主动地根据用户的兴趣需求从讹b 上检索相应信息。甚至 能够监控信息灏的变化,及时地报告培用户这些工作的开展不需要用户的参与,而由a g e n t 利用自身的拄制机制、知识等进行任务规球问题求解 ( 3 ) 协作性:信息检索a g e n t 之间可以共享和交流信息。实现协作式信息检索倒如,一个 用户的 g o n t 可从具有相同兴趣需求用户的a g e n t 那儿获得很多有用信息。 ( 4 ) 移动性:信息检索a g e n t 能够移动到远程服务嚣上,并在服务器上进行信息检索,以避 免将信息下栽到客户端 注意:对第4 个特征,由于目前缺乏一个广为接受的、安全的基础运行环境,移动性仍处于 实验阶段。 人们在进行w e b 信息检索的时候,一是期望找到所有与感兴趣的主题相关的文档,即 期望获得高查全率( r a 吼二是希望不要包含和主题无关的文档,即高查准率( p r e c i s i o n ) 查全率和查准率也是衡量信息检索系统性能的最经典的标准。然而目前的w e b 信息检索系 统离这两个标准还有一定距离用户在使用搜索引擎的时候,经常遇到提交一个查询条件 返回成千上万条文档或链接,却只有很少一部分是所需要的情况要正好找到用户需要的信 4 华东师范大学硕士学位论文基于领域本体的个性化智能信息检索系统的设计与实现 息是困难的,因为认知的限割,用户往往不能够很准确地表述他们到底需要些什么。有些时 候用户指定了某个关键字进行查询,虽然有一些文档和用户的要求非常相关却因为不包含 这个关键字而没有被检索到。 出现这些衄题的原因一是由于w e b 上信息文档数量庞大且没有良好的结构,受w e b 检 索工具功能的限制,与数据库查询相比,w e b 检索的质量明显要差很多:还有一个很重要的 原因如果我们从检索思想的本质入手分析以上各种检索方式,可以看出它们基本上是基于 串匹配手段,没有考虑到对检索关键词进行语义上的分析和处理,不能充分挖掘出用户的检 索意图,因此不能很好地保证高查准率和高查全率。 1 2 论文主要研究内容 在w e b 信息检索过程中,人们逐淅认识到使用语义帮助检索是一种提高查全率和查准 率的有效途径,但是要真正实现语义检索,需要完备可靠的自然语言表示和对应的理解系统。 而这在现阶段是不可能做到的本体( 埘咖l 嘴y ) 是描述概念及概念之问关系的概念模型,通 过概念之间的关系来描述概念的语义。作为一种能在语义和知识层次上描述信息系统的概念 模型建模工具,本体被广泛应用到计算机科学的众多领域,如知识工程、信息检索、语义 w e b 等在信息检索中引入本体的概念,可以将目前基于关键字的检索提高到基于知识 检索的层蔼,满足用户在语义和知识上对检索的寻求。 另外,不同领域背景、知识结构的用户对文档相关性的判断是不同的,即使是同一个用 户,在不同时期也有所侧重。这就要求信息检索系统提供个性化的服务,为用户建立兴趣模 | ! l ! ! ,用于保存用户兴趣以实现检索结果的个性化 所以我们认为w e b 信息检索的发展应沿着智能化、个性化、专业化的方向发展,才能 满足用户从i n t e r n e t 上有效获取信息资源的要求从这个研究背景出发,本文主要研究了本 体的相关理论问题。探讨本体在智能信息检索中的应用,提出了基于领域本体的个性化智能 信息检索系统0 1 t o h e l p e r 的设计与实现。 o n t o h e l p e r 系统工作在客户端,通过使用r d f 和r d f s 技术建立领域本体,当用户进 行信息检索时,利用本文提出的领域本体语义相关度计算方法,对关键字进行基于语义相关 度的扩充,采用与用户交互的方式来获取更进一步的语义信息,通过用户对反馈的选择更深 入地领会其查询意图帮助用户更好地设定检索关键字的准确性和适当性。然后将处理后的 轰询发送给各个标准搜索引擎对检索返回的页面集台进行综合“搜索引擎信任度”和“个 5 华东师范大学硕士学位论文基于领域本体舻个性化智能信息检索系统的设计与实现 性化”的评级捧序,以保证最相关且最符合用户个性化兴趣需求的页面处在前列,这种做法 既考虑到了信息检索的广度,还能提供检索的个性化服务同时允许用户提供示例样本,系 统可咀从这些样本中学习,及时修正用户的个性化兴趣模式,使下一次的检索更加准确。 1 3 论文章节安排 本文内容的章节安排如下: 第一章为引言主要介绍论文研究的背景和现状,明确论文的主要研究内容,并讨论了 相关工作 第二章对本体的定义、建模原语等相关理论进行系统的阐述,介绍了几种典型的本体以 及本体在信息检索、语义网中的应用 第三章介绍使用r d f 和i 列i ) f s 技术构建的镬壤本体。提出了一种计算领域本体概念相 关度的方法和基于领域本体的语义检索思想 第四章介绍基于领城本体的个性化智能信息检索系统o n t o h e l p e r 的设计,该系统应用 了基于领域本体的语义检索思想,并综合使用“搜索引擎信任度”和“个性化“评级方法对 检索返回页面捧序 第五章是实现,介绍了o n t o h e l p e r 系统实现的环境和一些关键技术,并给出了操作界 面和实验分析 第六章总结了论文的研究工作,指出了进一步的工作。 1 4 相关工作介绍 为了提高对w e b 上信息的高效利用,一些学者将人工智能技术引入到信息获取中,研 究了各种发现和过滤方法提出了许多智能信息获取系统的模型。本节主要从用户使用的角 度讨论当前w e b 上的智能信息获取系统的现状,并讨论一些已经出现的引入本体技术的系 统。目前这些领域还报年轻。但就如w e b 本身一样它们的发展非常迅速。 一些可以称之为浏览助手仍m 邺i n ga s s i s t a n t s ) 。当用户使用传统的浏览器( 如n e t s c a p e ) 上月浏览时,这些系统观测用户行为,推荐一些超级链接。它们通常和单个的用户交互,不 断地学习用户的兴趣在哪里,然后提供建议典型的系统有卡内基梅隆大学的 w e b w a t c h e r “l ,w e b w a t c h e r 是一个非常著名的导航器,介于用户与w e b 之间它接受请求 后用一个嵌入了w e b w a t c h e r 命令菜单的界面替换当前页面。往w e b w a t c h e r 伴随用户浏览 6 牛东师范人学碰十学位论文基于颁域本体的个性化智能信息检索系统的设计j 实现 网络。它将不断地给用户推荐一系列站点并建立超链接w e b w a t e h e r 可以记录下数以万计 的用户数据来训练自己从而不断更新知识。如果用户指示某次检索结果是成功的- w e b w a t c h e r 会对每一个超链接用代表用户兴趣的关键词加以注释,并存入知识库,以提高 将来的搜索技巧它采用的学习算法属于一种强化学习算法。麻省理工学院的l e t i z i a 【1 ”遥 行在客户端,它收集有关用户浏览习惯的信息,熟悉用户的必趣爱好,并使用各种启发式策 略对现有的知识进行推理,给用户提供个性化信息和导航建议。l e t i z i a 综合使用了信息挑拣 与信息过滤策略。信息过滤使用的是一个被动的用户模型,即由系统除去不太相关的资料; 而信息挑拣则使用一个主动的用户模型用户的查询被设计成在一组相关的数据中进行的选 择。尽管其开发者已认识到理解自然语言的重要,l e t i z i a 的搜索分析能力目前只限于关键词 匹配和对一组感兴趣的链接按优先权顺序捧列。 我们知道,通常搜索引擎需要用户输入检索词,以便于搜索引擎检索相关信息,而据研 究显示,通常用户向搜索引擎输入的检索关键词仅为2 _ 2 个单词,这使得搜索引擎较难定位 相关文档i n f o f i n d e r 从这个问题入手试图改进检索的质量,它要求用户提供一些样本文档 接着搜索相关文档返回给用户样本文档提供给i n f o f i n d e r 关于期望的文档单词频度的信息 以及常用短语的模式,这些都有助于更好追对最终文档集合的排序 文【1 9 】提出的a m a l t h a e a 系统是一个基于遗传算法的多a g e n t 信息发现和过滤的进化系 统( e v o l u t i o n a r y s y s t e m ) ,它能根据用户的兴趣爱好,从分布的节点上发现有用的信息并进行 过滤,然后以摘要的形式提交给用户在运行过程中,能在用户兴趣改变后。根据用户的反 馈和自身的“显形”和“基因型”的值,修改其“适应度”,达到“进化”的目的。 w e b m a t e 2 0 】是一个帮助用户高效测览和检索w e b , a g e n t ,它可以监测用户的行为,自 动构建用户配置文件( p r o m e ) b t 提供个性化潮览和检索服务w e b m a t e 在现有基于w e b 的信息 获取技术上作了许多扩展第一,它使用7 多t f o i d f 向量模型来跟踪用户在不同领域的兴 趣。这些领域是w e b m a t e 自动学习的第二使用“触发对模型”自动提取关键字来精确文 档检索。第三。在检索过程中,用户可以提供多个类似或相关的页面来指导检索。使j i 上述 的技术,w e b m a t e 提供了高效的浏览和检索服务同时还能够自动搜索新的资源,发送给用 户,提供个性化报纸服务。 还有一些采用了移动a g e n t 技术来帮助进行信息检索移动a g t 技术融合了分布式计算 和人工智能使信息服务更好地适应网络环境的多样性文【2 1 提出将用户按兴趣分组,检 索采用向量空间模型,将移动a g e n t 派往信息源进行信息的收集与过滤。这种做法灵活性与 扩展性得到了提高,改善了检索质量,但是需要信息源提供一个支持移动a g e n t 的平台文 7 华东师范大学硕士学位论文基于馁域本体的个性化智能信息检索系统的设计i 实现 2 2 】提出了基于领域专家的信息检索技术,领域专家通过现有的搜索引擎来查看w e b 上是否 增加了新的文档以及原来的文档是否被删除,然后派出移动过滤a g e n t 到相应的w e b 站点上 的移动a g e n t 平台,这个过滤a g e n t 幔据掌握的领域知识。判断新的文档是否属于该领域专家 所在的领域,是的话便将其带回领域专家分析后把该文档插入文档知识库中。这种方法实 现了对文档知识的预过滤,用户可以得到更加精确的结果。缺点在于覆盖面有限而且也需 要信息源提供一个支持移动a g e n t 的平台,可行性受到限制。并且,移动a g e n t 的安全性问题 也是一个重要的问题 基于关键词或主题内容的搜索机制已不能满足用户的查询需求,对此国内外已经提出基 于本体的一些改进方法和策略。即把能描述信息语义的本体论理念和技术引入到信息检索系 统中,并把其作为系统的棱心构件。 通过使用本件或概念图来组织信息的系统近年来已经开始出现一个典型的例子是 o n t o s o e k 2 3 1 ,它是一个基于内容的趴在线黄页和产品目录中进行检索的系统。o n t o s t m k 使用 简单的概客图表用于查询和蚤海的描述系统使用的是s m s n s e 本体,这是一个语言学词典 本体,由类似分类的结构组成,含有大约7 0 , 0 0 0 + 节点o n t o s e e k 谴;图将本体论和大词典库 相互集成,以便提供一个可以用领域内任意词汇进行交互式语义查询的系统。文【2 4 】提出的 系统把y a h o o 的分类作为本体,使用y a h o o 的类别来对文档内容进行描述,给w 曲页面进行语 义的注释。 以上两个饲子使用的本体仅是一些简单的概念层次结构。一个功能更大、描述内容更丰 富的项目是s h o e ( s i m p l ch n 也o f o l o 彰e x t e n s 沁n s ) 啦”。s h o e 提供了一套h t m l 语言的本 体扩展,允许w w w 页面作者使用s h o eo 砒o l o 科对网页进行语义标注。s h o e 作为h t m l 的一个扩展将机器可读的语义知识结合迸h t 度档( 或其他w 曲文档中) ,它允许直接在 当前w e b 的基础上设计和应用本体s h o e 使得a g e n t 能够收集有意义的w e b 页面和文档的信 息从而改善了检索机制和知识收集 1 5 小结 本章介绍了w e b 信息检索现状,分析现有的信息检索模型通过相关工作可以看到。 为了帮助用户在信息的海洋中找到需要的信息,研究人员已提出许多智能信息系统的模型, 并开始把能描述信息语义的本体论理念和技术引入到信息检索系统中在第二章中,将介绍 本体的定义和相关的理论,并讨论本体的一些应用 s 华东师范大学硕士学位论文基于镁域本体的个性化智能信息检索系统的设计与实砚 第二章本体 睫着计算机在社会生活中的广泛应用,信息技术面临着种种新的挑战,如知识的表示、 信息的组织等等尤其是i n t e m e t 的迅速发展,使得如何组织、管理和维护海量信息并为用 户提供有效的服务成为项迫切需要解决的课题本体( o n t o l o g y ) 作为一种能在语义和知识 层次上描述信息系统的概念模型建模工具,在计算机的许多领域得到了广泛的应用,包括知 识工程、知识表示、质量建模、自然语言处理、数据库设计和集成、信息获取和挖掘、面向 对象设计、基于a g e n t 的系统设计、语义网和电子商务等大量领域“。 本章对本体的定义、构造方法准则及分类进行系统的阐述,接着介绍它在语义网和信息 检索领域中的作用 2 1 本体的定义 本体( o i 怕l o 科,小写“0 ”) 是从哲学上的一个概念本体 轮( o n t o l o g y ,大写“0 ”) 由而来从哲学的范畴来说,本体是客观存在的一个系统的解释或说明。关心的是客观现实 的抽象本质。它在哲学上属于形而上学理论的分支与认识论( e p i s t e m o l o g y ) 相对在人工 智能界,最早给出本体定义的是n e c h e s 等人。在文献【2 7 】中,他们将o n t o l o g y 定义为“给 出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延 的规则的定义”。1 9 9 3 年g r u b e r 给出了本体的一个最为流行的定义,即“本体是概念模 型的明确的规范说明”。后来b o r s t 在此基础之上稍做修改,提出“本体是共享概念模型的 形式化规范说明”。 s t u d e r 等对上述两个定义进行了深入和研究,认为本体是共享概念模型的明确的形式化 规范说明。该定义包括4 层含义眇l : 概念化通过抽象出客现世界中一些现象的相关概念而得到的模型,其含义独立于具体 的环境状态: 明确所使用的概念及使用这些概念的约束都有明确( 显式) 的定义; 形式化知识本体是计算机可读的( 即能被计算机处理) 共事知识本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集它所针 对的是团体而不是个体本体的目标是捕获相关的颌域的知识,提供对谈领域知识的共 同理解,确定谊领域内共同i k - - j 的词汇,并从不同层次的形式化模式上给出这些词汇( 术 9 华东师范大譬硕士学位论文基于领域本体的个性化智能信息检索系统的设计与实现 语) 扣词汇之间相互关系的明确定义 目前,人工智能领域主要从以下三个方面对本体展开研究: 基于本体的知识表示一方面研究如何创建特定领域的本体( 领域知识) ,一方面研究通 用本体的创建方法: 奉体的形式化毒示及推理研究用于表示各种本体的知识表示象境,提供形式化方法和 工具,促进本体的共享和重用;基于特定领域和通用本体的知识推理方法和实现手段: 不同奉体素示之目的转换和暴成主要研究提供不同拳体的比较框架,研究不同本体的 转换和集成方法,捉供不同本体间互操作的手段 2 2 本体的建模原语 概念化建模方法属于知识库系统( k n o w l e d g eb a s es y s t e m , k b s ) 的开发,但普通开发k b s 的方法不能完全适用于本体建模因为开发知识本体的目的是用于人类、计算机对知识的共 事和重用。它相对稳定地独立于具体应用h 弼一归纳出用于描述本体的5 个基本的建模原 语( m o d e l i l i gp r i m i l i v e s ) : 奏( c l 螂嚣) 或概念( n o e p 扛) :指任何事务,如工作描述功能、行为、策略和推理过程 从语义上讲,它表示的是对象的集合,其定义般采用框架( f r a m e ) 结构。包括概念的名 称,与其他概念之间的关系的集合,以及用自然语言对概念的描述 关( r e l a t i o n s ) :领域中概念之间的交互作用,形式上定义为1 1 堆笛卡儿积的子集:r :c l x c 2 g i 如子类关系( s u b c l a s s - o f ) 在语义上关系对应于对象元组的集合 鼬t ( f e n e t t o n s ) :一类特殊的关系该关系的前n 1 个元素可雌唯一决定第n 个元素 形式化的定叉为f c l xc 2 x c “一已。如f a t h e r - o f 就是一个函数,f 砒h e r - o f ( x ,y ) 表示 y 是x 的父亲 公理佃i l o m 时:代表永真断言如概念乙属于概念甲的范围 实例( i n s t a n c e s ) :代表元素从语义上讲实例表示的就是对象 从语义上讲基本的关系共有4 种: p a r t - o f 表迭概念之间部分与整体的关系 k i n d - o f 表达概念之间的继承关系,类似于面向时象中的父类与子类之问的关系 i n s t a n c e - o f 表达概念实例与概念之间的关系,类似面向对象中对象和类之间的关系 a t t r i b u t e * o f 表达某个概忿是另一个概念的属性如“价格”是桌子的一个属性 华东师范大学硕士学位论文基于额域奉体的十性化智托信息检索系统的设计与实理 在实际的应用中,不一定要严格地按照上述5 类原语来构造本体,同时概念之间的关系 也不仅限于上面列出的4 种基本关系可以根据特定领域的具体情况定义相应的关系,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年人力资源管理师领导与团队动力学专题试卷及
- 2026年普法活动法律知识竞赛题库及答案
- 2026年美容美体专业试题及答案
- 剧场安全应急处置演练脚本
- 2026年湖北省潜江市高三历史下册期末考试自测卷(夺冠)附答案
- 2026年湖南省临湘市高三历史上册期末考试测试卷(培优B卷)附答案
- 2025年江苏省太仓市高三历史下册期末考试试卷必考题附答案
- 2026届宜宾市高三第三次测评语文试卷含解析
- 2026年山西省侯马市高考历史测试卷及参考答案【研优卷】
- 2026年福建省龙海市高二历史上册期末考试试卷附完整答案【全优】
- 2026版《特种作业目录》深度解读
- 2026重庆市涪陵区人民政府龙桥街道办事处选聘本土人才2人笔试参考题库及答案解析
- 炎性肠病患者饮食指南
- 2026年“安全生产月活动”《安全知识》培训考试题库及答案
- 2026年中招科技特长测试题及答案
- 浙江名校新高考研究联盟(Z20+名校联盟)2026届高三第三次学情诊断数学试卷(含答案)
- 总体取值规律的估计课件(二)2025-2026学年高一下学期数学人教A版必修第二册
- 香港雇佣合同范本
- 管道试压与严密性检测方案
- 2026春季学期国开机电专科《可编程控制器应用实训》一平台在线形考形成任务1至6答案
- TCHNRISC耐火材料单位产品能源消耗限额
评论
0/150
提交评论