已阅读5页,还剩107页未读, 继续免费阅读
(管理科学与工程专业论文)个性化信息获取方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
个性化信息获取方法的研究摘要随着i n t e r n e 技术的发展,信息获取对于人们的工作生活越来越重要。目前,针对极度膨胀的信息资源,人们主要使用搜索引擎( s e a r c he n g i n e ) 或是一些智能代理软件( i n f o r m a t i o nr e t r i e v a ls y s t e ma n df i l t e r i n gs y s t e mo ra g e n t ) 来获取网上的信息资源。但是由于传统查询模型的限制,信息搜索的精度不高是人们经常遇到的问题,因此使用“用户特征信息”进行个性化信息搜索是今后信息获取工具的发展方向。但是目前不论是个性化信息需求特征的研究、个性化信息挖掘算法的研究、还是个性化信息获取系统的研究都存在很大的不足。本文针对个性化信息获取的问题,从几个方面对其相应的理论与算法进行了研究,主要研究工作如下:( 1 ) 个性化信息获取特点和方法的研究。首先研究了个性的概念,然后分析了个性化信息获取的特点和方法,探讨了在个性化信息获取过程中个性化知识的运用,提出了用户特征模板的概念,进行了模板基本结构及应用分析,并给出了模板的示例。( 2 ) 个性化信息获取实证方法的研究。对个性化信息获取系统的实验方法进行研究,充分考虑由于个性信息的差异带来的干扰因素,给出一个通用的、无实验者偏见的,对个性化信息获取系统和算法进行检验的实验方法。从查询结果的个性化评价角度,建立了对个性化信息服务系统性能及算法效率进行评价的指标体系。( 3 ) 基于奇异值分解的个性化信息挖掘算法的研究。本文在研究了数据挖掘和模式识别技术在个性信息挖掘中的应用之后,提出了基于奇异值分解的个性化信息挖掘算法,并应用此算法进行了个性化信息挖掘实验,分析及提出了算法改进的方向。( 4 ) 奇异值分解算法和神经元网络法相结合的模式识别算法的研究。研究了神经网络法,并结合s v d 算法,提出一个使用用户信息需求特征构造个性化空间,同时改良样本空间和搜索空间,进行个性化信息检索的算法。( 5 ) 应用遗传算法进行个性特征提取算法的研究。个性化信息获取方法的研究研究了特征提取算法和遗传算法,提出了两种基于用户特征文档集合的用户个性特征提取算法,并通过实验验证了算法的效率。本文通过对个性化信息获取的评价方式、实验方法和挖掘算法等几方面的研究,为今后个性化信息服务打下了基础。关键词:个性化;数据挖掘;模式识别:信息获取;文本分类算法;奇异值分解:个性化信息获取方法的研究a b s t r a c tw i t ht h ed e v e l o p m e n to fi n t e m e t ,t h ev o l u m eo fi n f o r m a t i o na n dt h en u m b e ro fi n f o r m a t i o ns o n r c e sa r ec o n t i n u o u s l yi n c r e a s i n g ,i n f o r m a t i o nr e t r i e v a l ( 1 r ) h a sb e c o m eo n eo ft h em o s ti m p o r t a n tj o b so fo u rd a i l yl i f e n o w ,u s i n gt h ea d v a n c e di tt e c h n o l o g y ,m o s ta c t i v i t i e so fi ra r ea c c o m p l i s h e dt h r o u g ht h es e a r c he n g i n e ,i n f o r m a t i o nr e t r i e v a ls y s t e m ,f i l t e r i n gs y s t e mo ra g e n t t h u s ,i ti sc r i t i c a lt oh a v ea ne f f i c i e n tt o o lf o rr e t r i e v i n gi n f o r m a t i o nf r o mv a r i o u sd a t ar e p o s i t o r i e ss u c ht h a tc o r r e c ti n f o r m a t i o nc a nb ec o l l e c t e dw i t h i nr e a s o n a b l et i m ed u r a t i o n i no r d e rt ob ee f f i c i e n t ,ar e s e a r c ht o o lm u s tb ea b l et of i l t e ri n f o r m a t i o na n dr e f i n et h es e a r c hi na c c o r d a n c ew i t ht h ep r o f i l eo ft h eu s e r s ot h en e e df o ri n f o r m a t i o nm a n a g e m e n ts y s t e mo ri n f o r m a t i o nr e t r i e v a ls y s t e mt h a tp r o v i d e sr e l e v a n ti n f o r m a t i o nf o rs p e c i f i cp e r s o ni se m e r g i n g b u t ,t h ec u r r e n ta n dc o n v e n t i o n a ls e a r c hm e t h o d sh a v em a n yp r o b l e m sb e c a u s eo ft h ec h a r a c t e r i s t i c so ft h ei n t e r n e te n v i r o n m e n t sa n dt h ed i s a d v a n t a g eo ft h es t u d yo fp e r s o n a li n f o r m a t i o nr e t r i e v a lm e t h o d t h i sd i s s e r t a t i o ni n v e s t i g a t e st h et h e o r ya n dm e t h o df o rp e r s o n a li n f o r m a t i o nr e t r i e v a lf r o ms e v e r a lp e r s p e c t i v e s t h em a i nr e s e a r c hw o r ki sa sf o l l o w ( 1 ) i n v e s t i g a t i o no ft h ec h a r a c t e r i s t i ca n dt h em e t h o do fp e r s o n a li n f o r m a t i o nr e t r i e v a l t ob e g i nw i t h ,t h ec o n c e p t i o no fi n d i v i d u a l i t ya n dp e r s o n a l i t yi ss t u d i e d t h e nt h em e t h o da n dc h a r a c t e r i s t i co fp e r s o n a li n f o r m a t i o nr e t r i e v a li sd i s c u s s e d s t u d i e dt h ea c t i o no fp e r s o n a lk n o w l e d g ei nt h ec o u r s eo fi n f o r m a t i o nr e t r i e v a l ap a t t e r np l a t eo fi n d i v i d u a lc h a r a c t e ri sp r e s e n t e d a n a l y z et h es t r u c t u r eo ft h ep l a t e ,a n dg i v ea ne x a m p l eo f t h ep l a t e ( 2 ) i n v e s t i g a t i o no ft h ee v a l u a t i o na n de x p e r i m e n tm e t h o d so fi n f o r m a t i o nr e t r i e v a ls y s t e mo ra l g o r i t h m c o m b i n e dw j t l lt h ec h a r a c t e r i s t i co fp e r s o n a li n f o r m a t i o nr e t r i e v a l ,a ne x p e r i m e n t ,w h i c hc a nj u d g ea n de x a m i n et h ep e r f o r m a n c eo fs y s t e mo ra l g o r i t h m ,i sp r e s e n t e d b a s e do nt h ep e r s o n a lp o i n t ,p r e c i s i o n ,r e c a l la n ds y n t h e s i z e df a c t o r ,a l le v a l u a t i o nm e t h o da n da ni n d e xs y s t e mt oj u d g et h e全丝些堕璺茎垒查些竺塑壅p e r f o r m a n c eo fs e a r c he n g i n ea n do t h e ri n f o r m a t i o ns y s t e m sa r ep r o p o s e d ( 3 ) i n v e s t i g a t i o no ft h et h e o r yo fp e r s o n a ld a t am i n i n ga n dp e r s o n a li n f o r m a t i o np a t t e r nr e c o g n i t i o n ,p u tf o r w a r da na l g o r i t h mt h a tb a s e do ns v dt or e a l i z ep e r s o n a li n f o r m a t i o nr e t r i e v a l ,a n dv e r i f yt h ee f f e c t i v e n e s so ft h ea l g o r i t h mt h r o u g ht h ee x p e r i m e n tt h a ti sg i v e na b o v e s t u d i e da n dg i v e nt h ei d e at h a th o wt od e v e l o pt h ea l g o r i t h m ( 4 ) i n v e s t i g a t i o no ft h et h e o r yo fa r t i f i c i a ln e u r a ln e t w o r k p u tf o r w a r da n n - s v da l g o r i t h mt or e a l i z ep e r s o n a li n f o r m a t i o nr e c o g n i t i o n i tc a r lm a k en s eo ft h eu s e rp e r s o n a li n f o r m a t i o nt oc o n s t r u c tp e r s o n a li n f o r m a t i o ns p a c e ,a n da c c o m p l i s ht h ed o c u m e n t s r e c o g n i z i n ga n dm a t c h i n g ,a n dr e a l i z i n gp e r s o n a li n f o r m a t i o nr e t r i e v a l ( 5 ) i n v e s t i g a t i o no ft h et h e o r yo ff e a t u r ee x t r a c t i o na n dg e n e t i ca l g o r i t h m t w of e a t u r ee x t r a c t i o na l g o r i t h m st h a tb a s e do nu s e rf e a t u r ed o c u m e n t ss e t sa l ep r o p o s e d ,e x a m i n et h ef e a t u r ee x t r a c t i o np e r f o r m a n c eo f o u ra l g o r i t h m t h i sd i s s e r t a t i o ni n v e s t i g a t e st h et h e o r ya n dm e t h o df o rp e r s o n a li n f o r m a t i o nr e t r i e v a lf r o me v a l u a t i o nm e t h o d ,e x p e r i m e n tm e t h o d ,p e r s o n a li n f o r m a t i o nm i n i n ga l g o r i t h m ,a n ds oo i l t h ec o n c l u s i o no ft h i sp a p e rc o u l db eaf o u n d a t i o no fp e r s o n a li n f o r i i l a t i o ns e r v i c ef o rt h ef u t u r e k e yw o r d s :p e r s o n a l ;d a t am i n i n g ;p a t t e r nr e c o g n i t i o n ;i n f o r m a t i o nr e t r i e v a l ;t e x tc l a s s i f i c a t i o na l g o r i t h m ;s i n g u l a rv a l u ed e c o m p o s i t i o n 个性化信息获取方法的研究1 1 前言第一章绪论随着i n t e r n e t 的普及发展,人们已经进入了一个信息化社会,信息对日常的生活起到了越来越重要的作用,人们可以方便地接触到大量的信息,信息资源不足的问题再也不存在。但是人们也感觉到,目前最大的问题不是信息的缺乏或不足,而是信息量的严重膨胀,信息查询的困扰,人们突然发现他所面对的信息远远超出其处理能力。现代社会已经进入了一个“数据爆炸”和“信息丰富,但有用信息获取困难”的社会【h 1 。目前i n t e r n e t 上的信息资源主要有以下几个优点【s 】:内容广泛,涉及到人类生活的各个领域。从娱乐休闲、学习、体育运动到科学研究几乎无所不包。例如y a h o o ,其主页就是按字母排列的1 4 个大主题,大主题又被分为更小的主题。又如w w w 的虚拟图书馆,其分布式主题目录几乎包括了所有的学科范围,从天文地理到生物制药等,每个学科的研究者都有可能从中得到有价值的资料。新颖,生动,更新速度快。绝大多数的信息定期更新。有些网站的内容几乎每时每刻都在更新。网页上除了文字还有图片、音乐和动画等多媒体文件。检索简单、方便,不需要专门的检索技巧。其中,商用机检系统虽然有复杂的检索指令和检索规则,但是有专门的情报人员、图书馆工作人员去专门学习,一般信息需求者可以借助图书情报人员的帮助,获得所需的信息。但是互连网上的信息资源也有一定的缺点:信息重复率高。由于大量的信息是免费的,而且没有统一的规划,所以各个站点间存在着大量的重复信息,这造成了信息查询过程中对相同信息的重复检索,浪费了网络资源和用户的时间。个性化信息获取方法的研究信息结构化程度低。信息相互间没有明显的关联,不同站点间信息的组织方式千差万别,没有统一的组织方式。不同的搜索引擎之间的检索策略也不尽相同。针对不同的信息资源,用户需采用不同的信息搜集方式,加重了用户的工作负担。现在,利用个人的p c 是人们获得新信息的主要手段,但是面对日益庞大的信息资源,用户怎样从中找到他所喜好和偏爱的信息,而且如何管理那些有用的信息只益成为信息工作者所关注的问题。目前基于i n t e m e t 的信息服务方式从根本原理上分主要有两种:信息发布,又称信息推送技术;信息采集( 获取) ,又称信息拉取技术。1 2 信息推送i n f o r m a t i o np u s h ( 信息的“推送”) ,是指利用信息推送软件,主动的或是根据用户在初次使用时设定的信息频道,将经过整理的定制信息通过w e b 自动传播给客户,而用户不必每次提出请求【6 7 】。,在信息推送技术问世之前,人们需要主动地在i n t e m e t 上进行信息搜寻。一方面,面对浩如烟海的信息,人们难以找到自己所需要的信息;而另一方面,信息的提供者希望将信息及时地发送给感兴趣的用户。信息推送的主动一方是信息的发布者,被动一方是信息的获得者。我们可以把信息“源”看作是动态的,而信息的接收者看成是静态的。推送技术是根据用户的信息需求特征,把相关信息主动发送到用户的计算机中,使用者不必上网搜索。信息推送软件由批处理模块和实时智能推送模块组成,前者的主要任务是从f 1 志文件中发现网站访问者的浏览模式,或是从用户的使用记录中发现用户的兴趣爱好,通过对这些模式、爱好的筛选过滤,选择适当的模式为实时推送模块建立模式库;后者的任务是:实时观察用户的访问请求,识别当前每个在线用户信息需求的特征属性,然后根据批处理模块中建立的用户行为模式库,为每个用户自动地推荐其可能感兴趣的页面或信息8 、9 1 。个性化信息获取方法的研究推送技术也可以采用一种广播的模式,英特点是以频道“广播”的方式使尉上用户得到相同的信息。通常,在网络服务器上有专门的推送软件,可用来制作欲推送出去的信息。在客户端则利用安装在个人电脑中的软件,来接收从网络上传来的信息。当有新的信息到达时,“推遴”软件会以发送e m a i l 、播放声音、在屏幕上显示消息等方式通知用户。而另一种简单的推送技术是用户在特定的网站填写一些个人资料,个人定制一些感兴趣的主题,并且填写自己的电子邮件地址,网站定期把最新的信息发送到这个指定的信箱中。这样用户就不用费心地寻找自己需要的信息,只需在信箱中进行信息的查询即可。p u s h 技术的出现,为现有的信息服务带来了新的发展方向。考虑到现在和将来网上信息量的巨大,甚至有专家认为未来i n t e m e t 中占主流的应该是p u s h ,“告别浏览器”等说法也频频出现,p u s h 技术带来i n t e m e t 革新的观念已经深入人心。目前已有的推送软件有:p o i n t c a s t 公司的p o i n t c a s t 、w a y f a r e r 公司的i n c i s a 、加利福尼亚a c o m m o n 公司的d o w n t o v f l l 等。1 3 信息拉取信息拉取( i n f o r m a t i o np u l l ) 与信息推送不同之处在于,其主动一方是信息的获得者,被动一方是信息的发布者。我们可以把信息源看作是静态的,而信息的使用者看成是动态的。信息拉取是信息的需求者根据自身的需求和实际状况,主动地在i n t e m e t 上搜寻所需要的信息。信息推送与拉取的模式如图l i 所示。在i n t e r a c t 发展的最初阶段,由于网上的信息资源比较少,人们通常直接登陆到要查询信息的网站进行信息查询,进行信息拉取。但是随着网上信息的极度膨胀,每天新增的信息数以千万记,而且用户通常并不知道所需信息的具体位置,也不知道新增加了哪些信息,人们不得不借助一些信息查询工具进行查询,其中利用最多的就是搜索引擎( s e a r c he n g i n e ) 1 1 0 。1 2 】。个性化信息获取方法的研究1 3 1 搜索引擎蒙特利尔大学学生艾伦伊米杰在1 9 9 0 年发明的a r c h i e 算是现代搜索引擎的雏形。当时经常需要在网络中传输大量的文件,由于这些文件大多散布在分散的f t p 主机中,查询起来非常不便,因此艾伦伊米杰开发了一个可以通过文件名来查找文件的程序,于是便有了a r c h i e 。a r c h i e 的工作原理与现在的搜索引擎很相似,它依靠脚本程序自动搜索网上共享的文件,然后对相关信息进行索引,以供使用者查询。不过此时的搜索工具还只限于文件索引功能,随后出现的一些类似于a r c h i e 的搜索工具加入了检索网页的功能。图1 - 1信息推送与信息拉取的模式f i g 1 - 1t h ep a t t e r no f i n f o r m a t i o np u s ha n di n f o r m a t i o np u l l第一个真正意义上的现代搜索引擎出现在1 9 9 4 年7 月,美国斯坦福大学的两名博士生,大卫菲勒和美籍华人杨致远共同创办了大家熟知的超级目录索引y a h o o ,从此搜索引擎进入了高速发展的时期。目前,互联网上大大小小的搜索引擎已达数百家,其检索的信息量与从前相比,也不可同日而语。但是随着互联网规模和信息量的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索服务提供商”】。个性化信息获取方法的研究1 3 2 搜索引擎的工作原理虽然各个搜索引擎具体实现的方式不尽相同,但一般都包含6 个基本部分 1 6 - 18 :搜索信息的网上蜘蛛( w e bs p i d e r ) 、信息分析器、索引器、数据库、检索器、用户界面,如图1 2 所示。图1 - 2 搜索引擎基本组成f i g 1 - 2t h es t r u c t u r eo f s e a r c he n g i n e网上蜘蛛网上蜘蛛也称r o b o t ( 电脑“机器人”) 、c r a w l e r 或w a n d e r ,它指的是某个能够不问断地执行某种任务的软件程序。由于专门用于检索网络信息的“机器人”程序像蜘蛛一样在网络问爬来爬去,因此通常被称为“蜘蛛”程序。世界上第一个用于监测互联网的“机器人”程序是马太杰瑞开发的w o r l d w i d ew e bw a l l d e r e r 。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与杰瑞的w a n d e r e r 程序相对应,马丁科斯特于1 9 9 3 年1 0 月刨建了a l i w e b ,它是a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人”程序,而是依靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的y a h o o等网站。网上蜘蛛一般采用广度优先( 或者深度优先) 的策略对w e b 进行遍历并下载文档。系统中维护一个超链队列( 或者堆栈) 。其中包含一些起始u r l 。网上蜘蛛从这些u r l 出发,下载相应的页面,并从中抽取出新的超链加入到队列( 或者堆栈) 中。上述过程不断重复直到队列( 或者堆栈) 为空。为了提高效率,搜个性化信息获耿方法的研究索引擎中可能会有多个网上蜘蛛进程同时遍历不同的w e b 子空闻。信息分析器对网上蜘蛛下载的页面文档进行分析,建立索引。文档分析技术一般包括:分词、过滤和转换等。这些技术往往与具体的语言以及系统的索引模型密切相关。在分词时,大部分系统从全文中抽取词条,面有些系统仅从文档的某些部分( 例如t i t l e ,h e a d e r 等) 中抽取。词条的类型也有多种,包括:字、词或者短语等。分词后通常要使用禁用词表( s t o p l i s t ) 来去除对于区别文挡作用很低的词条,有一些系统还对词条进行单复数转换、词缀去除( s t e m m i n g ) 、同义词转换( c o n f l a t i o n ) 等工作。索引器索引器将文档表示为一种便于检索的形式,并存储在索引数据库中。例如,在矢量空间索引模型中,每个文档d 被表示为一个规范化矢量矿p ) = o 。,w 。p l ;f 。,w j p l ;f 。,0 ) ) ,其中,为词条项,p ) 为,在d 中的权值,一般被定义为,在d 中出现频率f o ,) 的函数。索引质量是w e b 信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护,检索速度快,空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括:倒排文档、矢量空间模型、概率模型等。索引器在建立好索引之后,进行扩充和更新数据库。数据库用来存放已经建立的索引,完成分类的信息,供检索器进彳亍检索。检索器当用户使用搜索服务时,检索器的作用是从索引中找出与用户查询请求相关的页面文档。首先,采用与索引文档相似的方法来处理用户查询请求,然后在数据库中进行搜寻,如果找到与用户查询内容相符的信息,便采用特定的算法计算出各网页的关联程度,比如说网页中关键词的匹配程度、出现的位置频率等。然后根据关联程度高低,将关联程度大于闽值的所有网页按照相关度递减的顺序排列,按顺序将这些网页返回给用户。例如,在矢量空间索引模型中,查询口也被表示为个矢量v ( q ) = o 。,0 l ;r ,0 x ;,。,如) ) 。相关度可以表示个性化信息获取方法的研究为奄询矢量矿( g ) 与文档矢量矿p ) 之间的夹角余弦,式1 一l 。当然,搜索引擎的相关度计算并不一定与用户的需求完全吻合。c o s ( 嗽删= 蹦耥c l t ,用户接e l用户接1 5 1 为用户提供可视化的查询输入和结果输出。在查询输入界面中,用户按照搜索引擎的查询语法指定检索词条及各种检索条件。在输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,其中包含文档的标题、摘要和u r l等信息。由于检索结果中相关文档和不相关文档相互混杂( 相关度计算的结果通常与用户的请求不吻合) ,用户需要逐个浏览以找出所需信息。标准搜索引擎的自动信息搜集功能一般通过两种方式实现:一种是定期搜索,即搜索引擎定期主动派出“蜘蛛”程序,对一定i p 地址范围内的网站进行检索,一旦发现更新或新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是由网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内专门向该网站派出“蜘蛛”程序,扫描并将有关信息存入数据库。w 曲信息是动态变化的,旧的页面不断被更新( 包括内容改变、位置移动等)和删除,新的页面不断出现。因此网上蜘蛛、分析器和索引器模块每隔一段时间要重复运行以更新索引数据库。搜索引擎的索引更新周期通常约为几个月,索引数据库越大,更新也越困难。1 3 3 搜索引擎的分类搜索引擎按其运行机制可以分为以下几种 2 0 埘1 :独立搜索引擎独立搜索引擎通常由用户界面、信息分析器、索引器、检索器、数据库、独立的网上爬虫组成。这种引擎由网上爬虫定期自动的在网上搜索新文档,然后由信息分析器进行分析,索引器建立索引,扩充和更新数据库。用户由用户界面输入关键字,之后由检索器在数据库中进行检索。有代表的独立搜索引擎如下:个性化信息获取方法的研究a l t av i s t ae x c i t ci n f o s e e kg u i d e rl y c o s 等。综合式搜索引擎2 4 、2 5 】综合搜索引擎又称组合搜索引擎、元搜索引擎。由于网上的资源过于庞大,单个的搜索引擎只能覆盖一小部分资源。因此,要想获得一个比较全面、准确的检索结果,就必须反复调用多个搜索引擎。综合搜索引擎的出现,在一定程度上解决了这些问题。综合搜索引擎基本上由三部分组成,即:检索请求处理模块、检索接口代理模块、检索结果显示模块。“请求处理模块”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理模块”内置与多个搜索引擎分别对应的接口,将用户的查询请求转换成各个搜索引擎可以识别的搜索请求,同时启动多个搜索引擎进行查询。“结果显示模块”负责对所有搜索引擎检索结果的去重、合并和排序。严格意义上来讲,综合搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。多数综合搜索引擎在处理其它搜索引擎的返回结果时,只提取每个搜索引擎结果中的前面1 0 5 0 条,并将这些条目合并在一起返回给用户,因此最后结果的数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量。代表的综合搜索引擎如:m e t a c r a w l e rh a r v e s ts y s t e mb y t e s e a r c hm a m m ap r o f u s i o n 等。代理搜索引擎代理搜索引擎的主要特点是有一个本地的数据库。在收到用户的查询请求后,先在本地数据库内检索,如果找不到要求的信息,则再向其它的搜索引擎发出请求来获得查询结果,将结果返回给用户的同时,把查询结果存入本地数据库以备下一次查询。分布式搜索引擎【2 6 】在代理搜索引擎的基础上,又提出了分布式搜索引擎的概念。其核心思想是,一个搜索引擎在不同的地域上分别拥有子搜索引擎,这些子搜索引擎负责查询本地的信息。各子搜索引擎可以相互合作,构成分布式网络查询系统。每个子搜索引擎都有针对本地用户的小型信息库,当用户发出查询请求时,先在本地的搜索引擎中进行查询,如果没有结果,根据以往的经验有选择地向其它子搜索引擎发出请求,进行查询。分布式搜索引擎具有通过利用用户的反馈信息,了解用户信个性化信息获取方法的研究息需求特点的功能,可以通过学习本地用户感兴趣的主题,来提高检索效率。特殊搜索引擎特殊搜索引擎是针对特定领域的搜索引擎,也称专业搜索引擎。因为i n t e m e t匕的信息资源过于庞杂,在所有的领域要做到高的覆盖率是不现实的,而用户上网查询信息时的基本要求就是查准和查全,因而出现了针对特定领域的特殊搜索引擎。特殊搜索引擎只收集某个方面的网站或网页,例如文学、医学、体育、音乐、m p 3 【2 “、软件等等,其中的内容一般要比通用搜索引擎更好、更精确,因此很受用户的欢迎。建立特殊搜索引擎的成本要远小于通用搜索引擎,这也促进了它的发展。分类门户站点在搜索引擎发展的基础上出现了分类门户站点( 也叫导航站点) 。其与搜索引擎不同的是引擎体系中w e bs p i d e r 的部分工作由手工代替,由专业人员对w e b站点和文档进行评价、分类并给出简要描述。引擎只在对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中。分类门户站点在组织网页的方法上采用了按主题分类的树型结构,首先是大类,往下是予类,叶节点包含指向w e b 信息资源的链接。检索时,用户可以从大类丌始。按照自己感兴趣的内容,逐层向下检索。这样的信息查询精确高、可靠性好。但其同时存在两个缺点:一是分类由网站的设计人员完成,可能与使用者的习惯不相吻合,造成检索的困难;二是由于一部分工作由手工完成,所以网站的更新速度慢,不能及时的反映网上瞬息万变的信息资源,有的研究表明自从1 9 9 7 年底以来,门户网站的覆盖率越来越低,大约只有1 6 的网站可以经由门户网站连接。有代表的分类门户站点如下:a l i w e ry a h o oi n t e r c a t ( o c i c )1 4 对信息获取系统的评价指标对于不同的信息服务系统,由于所采用的技术和服务对象的不同,它们之问的各项性能指标会存在一定差异。因此,合理地评价一个信息获取系统,有利于个性化信息获取方法的研究用户的选择、使用,也有利于其本身的改进和发展。目前,这方面的研究已经开展了很多,基本上分为两个研究方向:一个是评价指标的研究,b i 4 - i 么样的指标能反映算法、系统研究者的设计目的,什么样的指标能综合比较各个不同系统之问的优劣,什么样的指标能真正反映用户的客观需求;另个方向是评价的实验方法的研究。主要是指:通过怎样的步骤、构造怎样的环境、由什么样的方式获得计算指标需要的数据。两部分是相辅相成、不可分割的,合理的指标必须通过合理的实验获得,指标的设计必须以实验能完成为基础。而对信息获取系统性能的评价指标研究又分为两个部分:一个是系统整体的评价,另一个是基本的评价指标( 或分类器的评价指标) 。整体性能的评价一般从系统整体的性能出发,综合考虑系统的运行时间、提供服务的种类等各个方面,制定一个整体的评价指标体系;而基本的评价指标一般是只考虑系统分类器的效率,其设计是否合理,或是是否具备特殊的功能等,目前主要从识别的准确程度来评价。识别的准确程度是参照专家思考后对文本分类结果的判断( 假设专家分类是正确的) ,与专家分类越相近,分类的准确度就越高。这些评价必须在一个标准的、公认的信息分类基础上进行。如果没有一个很好的信息分类体系,信息的存储和查询都将遇到困难,评价的指标也无从制定。目前,国内外有代表性的分类标准如下:圆内具有代表性的分类标准国家标准g b t1 3 7 4 5 9 2 学科分类与代码【2 8 】;中国图书馆图书分类法( 中图法1 9 9 9 年第四版) 1 2 9 1 ;中国科学院图书馆图书分类法( 科图法) :中国人民大学图书馆图书分类法( 人大法) 等。国外具有代表性的分类标准 d e w e yd e c i m a lc l a s s i f i c a t i o ns y s t e m ) ) ,杜威十进分类法; l i b r a r y o f c o n g r e s sc l a s s i f i c a t i o n ) ) 美国国会图书馆图书分类法: u n i v e r s a ld e c i m a lc l a s s i f i c a t i o n ) ) 国际十进分类法;美国科研系统常用分类法;联合国教科文组织大学学科分类法等。借鉴的分类体系个性化信息获取方法的研究学科分类与代码:y a h o o ! 中文网站分类目录;g o o g l e 使用的o p e nd i r e c t o r y 分类目录等。在这些标准的分类体系上,对于不同信息检索系统,有三种基本的检索效果评价指标,查准率( p r e c i s i o n ) 和查全率( r e c a l l ) 和综合效率【批33 1 。s w e e t 3 0 】在他的文章里给出了一个评价信息获取系统性能的变化表,见表1 - 1 ,而且陶跃华在“搜索引擎搜索结果的评价技术” 3 2 1 也对这个表给出的模型进行了详细的讨论,这个表显示了系统搜索结果和文档相关性评价之后的文档集合的状态。表l 一1信息查询结果评价表t a b l e1 - 1t h ee v a l u a t i o nt a b l eo f i n f o r m a t i o nr e t r i e v a l具甲r 代表查倒结果中的相关的文档数;l 为查询结果中不相关文档数;b为相关的文档但是没有被检索到;d 为不相关的文档,也没有被检索到。由表1 - 1可以得出查准率和查全率的表示为:p2 p 聊i s i 。”= 南= 面r ( 1 - 2 ),十f州r = r e c a l l 2 南= 言( 1 - 3 ),+ 6c搜索特殊率s ( s p e c i f i c i t y ) 定义如下:s :三:d ( 1 - 4 ),+ dl搜索的普通率参数p o ( t h ec o e f f i c i e n to f c o m m o n a l i t y ) 定义如下:p 02r + bc_ = 一= ( 1 5 ),+ ,+ b + dn o这些搜索特征和参数p o 不是独立的,s a l t o n ( 1 9 7 5 ) 通过运算发现了他们之问有如下关系:尸( 1 一s x l 一只) = g o e ) e 0( 1 6 )j 1个性化信息获取方法的研究查准率和查全率的准确定义如下:设 r e l e v a n t 为与某查询相关的文档的集合, r e t r i e v e d l 为系统检索到的文档的集合,而 r e l e v a n t r l r e t r i e v e d 是既相关又被检索到的实际文档的集合。则查准率是既相关又被检索到的实际文档与检索到的文档的百分比,而查全率是既相关又被检索到的实际文档与查询相关的文档的百分比。由于查准率和查全率反映的是算法或系统分类质量的两个不同方面,所以人们又提出了一种综合评价指标,来衡量算法的综合效率,如公式1 - 4 。综合效率= ( p r e c j 5 i o n r e c a l l 2 ) ( p r e c i s i o n + r e c a l l )( 卜7 )这样,在性能效率的评价中,就可以利用变化表定义的搜索特征进行评价。但是,评价搜索引擎效率,不能依靠单个搜索特征,有时即使知道各个特征值,也不能准确评价搜索引擎的性能:1 5 对信息获取系统的评价方式1 5 1 几种评价方式在确定要评价信息服务系统性能的各个方面之后。需要有合适的手段完成特定的考察、检验任务。使用不同的评价方式,会带来不同的评价结果:而对不同的评价方面,也需要有特定的评价方式来完成这个评价任务。以搜索引擎为例,根据比较评价方式的不同,可划分为以下几类【3 4 3 8 】:实验的方式实验的方式主要是针对某一个具体的评价指标,在一个开放的、无偏见的实验环境中,通过对系统或搜索算法的运行效率进行检验。实验应该具有基本的客观性、公正性、可比较性和可重复性等性质。本论文将主要讨论通过实验的方式,对系统和算法的个性化信息获取能力进行检验。以描述为主的评价方式个性化信息获取方法的研究这种评价方式是从搜索引擎的在线使用手册和个人的使用经验出发,集中在对搜索引擎的搜索效率、使用方法及特色服务的评价,一般不涉及搜索引擎中的搜索算法。由于其测试集往往是评价者自身实践的产物,对测试结果的评价也往往是评价者个人的结论,反映的是不同个体从自身的角度进行评价的结果,因而此类评价方法通常带有较多的主观因素。其参考价值在于忽略了引擎的整体性能,给出的是不同使用者的个性化评价,缺点是很难给出公认的合理的评价标准和结果,因此评价结果很难应用到搜索引擎的设计及开发中。不过由于个性化信息服务的发展,信息服务以用户需求为中心,个人用户即是信息需求的出发点,也是信息需求的归宿,所以这种评价方式还需要进行深入的研究。以查全率作为评价标准的评价方式莫斯科州立大学的a l e x a n d e rl e b e d e v 给出了以查全率为基本评价标准的评价方式。其评价方法的出发点是源于研究人员查找论文时,尽量多的获取前人有-用结论豹需要。因此,l e b e d e v 将查全率( r e c a l l ) 赋予性能评价中重要乃至首要的地位,并且在“b e s ts e a r c he n g i n e sf o rf i n d i n gs c i e n t i f i ci n f o r m a t i o ni nt h en e t ”中给出了较为详尽的实验结果和评价。但是,这也是这种评价方法的不足之处,即对大多数用户而言,通常情况下,查准率( p r e c i s i o n ) 而非查全率( r e c a l l )才是其关注的主要因素,搜索引擎返回的命中网页个数过多,恰好是用户不愿看到的。而且由于i n t e m e t 上信息资源成爆炸式的增长,客观上是不可能确定在一个特定主题下的所有相关信息的,所以这种评价方式不论在理论上,还是现实中的应用都有很大的不足。综合评判标准【39 j目前已经有很多的专家采用综合评价的方式来对搜索引擎进行评价。陶跃华利用系统工程的基本思想和层次分析法,给出了一种对索引网页的数目、索引更新间隔、用户交互的友好程度等的综合评判标准,提出了搜索引擎评价指标体系,建立了一个搜索引擎评价模型,并且对搜索引擎各指标的权重进行综合计算。另外刘正春建立了搜索引擎综合评价体系,采用多目标决策理论中的t o p s i s 方法。建立了评价搜索引擎综合性能指标的数学模型,较客观地对搜索引擎进行综合评价。叶中行在研究中认为要有效地评价各中文引擎,首要的评价标准为:( 1 ) 查全率,以免为了某一信息要查询多个搜索引擎;( 2 ) 查准率:即个性化信息获取方法的研究搜索得到的信息与用户所要求的信息的相关性高:( 3 ) 速度;( 4 ) 费用等。但这种方法存在的弱点在于,它是从系统实现角度而非用户角度进行评价,考虑用户的实际需要较少,缺少迸一步按照用户个人满意程度进行优劣评估的途径。1 5 2 目前对于信息获取系统性能进行检验的实验方法在信息系统所有的评价方式、方法中,实验和专家评价的方法是最常使用的方法 4 叫2 1 。专家评价的方法是由多人组成的专家组对整个信息系统的各个方面性能进行评判,分别给出一定的评价,然后综合这些分散的评价,利用事先确定好的评价模型进行整体的性能综合评价。实验的方法是构造一定的检索环境,然后使用这些系统进行特定主题的检索,考察检索结果与事先确定的最优结果之间的差距,衡量信息获取系统的检索性能。这种实验方法源于文档分类的实验,而文档分类的实验主要有以下几个步骤:1 ) 确定整个实验要分类的文档集合;2 ) 由专家确定要分类的类别,及各个类别包含的文档;3 ) 从各个类别中分别选出一些文档作为这个类别特征代表作为训练集,而剩余的文档作为测试集。通常训练集的文档数目要远多于测试集的文档,目的是尽可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员行测资料分析试卷及分析
- 营养师注册营养基础题库及答案
- 铜匠铜器錾刻题目及分析
- 机械工程金属工艺试题及解析
- 年产1万吨棉秆皮纤维水刺无纺布生产项目可行性研究报告模板立项申批备案
- 新生儿体温异常的护理
- 银行零售业务综合营销活动方案
- 防毒口罩打包采购合同
- 2026年3D打印珠宝的企业合作模式创新与实践
- 2026年心理咨询师远程咨询服务协议
- 焊工安全培训复审课件
- 液碱安全操作手册与注意事项
- 大学生干部培训课件
- 武汉市汉阳区(2025年)辅警考试公安基础知识考试真题库及答案
- 2025版临床用血技术规范解读课件
- 1、装饰工程投标述标模板
- GB/T 6462-2025金属和氧化物覆盖层厚度测量显微镜法
- 2025年刑事执行检察业务竞赛业务知识卷参考答案
- 2025年双碳目标实现路径探索项目可行性研究报告及总结分析
- 军事科技:量子点材料在特殊装备中的应用案例
- 保险销售培训课件
评论
0/150
提交评论