




已阅读5页,还剩128页未读, 继续免费阅读
(计算机应用技术专业论文)internet中多媒体信息过滤技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 fi n t e r n e t w w w 是一个巨大的、开放的、分布自治式的信息网络系统, 为入们提供了内容丰富、数量巨大的信息资源。用户以b r o w s e r s e r v e r 模式在w w w 中漫游,寻找自己所需的信息j 髓着i n t e r n e t w w w 的发展,大 量的新信息不断地加入i n t e r n e t w w w ,出现了日趋严重的信息过载现象, 使得以传统的b r o w s e r s e r v e r 模式在信息海洋中找到所需信息成为一项 越来越困难的任务;同时大量用户的并发上网也造成了网络拥塞和服务器 过载。因此有必要建立新的信息服务方式,它能将有用信息适时送到( 尤 其是网络空闲时) 所需要的用户处,并具有节约用户时间、节省网络带宽、 减轻服务器负载以及系统性能受网络规模、用户数影响较小等优点。信息 过滤正是具有上述优点的一种技术方案,本文对信息过滤中的一些关键技 术进行了研究,得出了如下创新性的成果: 2 建立了基于话题的信息空间与用户兴趣模型。伪向用户提供更优质的 服务,信息过滤技术将信息与用户信息需求进行比较匹配,为此需要对二 者的特征进行描述。已有的基于关键词的信息特征抽取和用户兴趣模型只 注重了语义的内涵,缺乏对语义外延的描述能力,不利于为用户提供更个 性化的服务。本文从话题的角度,对信息、信息的载体和用户的兴趣进行 了分析。通过挖掘用户感兴趣话题的外延特征扩展了传统的用户兴趣模型。 给出了以话题为单位的信息存储结构及定位、查询技术,提出了基于活动 的用户感兴趣话题的发现算法。 r y 7 二提出了可以高效处理大量u s e r - p r o f i l e 文件的多级索引结构及算法,用 背包问题模型来解决给用户提供恰当数量信息的问题。伍大规模信息过滤 系统中,高效地处理数量非常巨大的u s e r 。p r o f i l e 文件成为影响系统性能的 重要因素。论文提出了一种基于用户特征的多级索引结构及算法,使进入 信息只需与相关的u s e r - p r o f i l e 文件匹配,而无须与所有的u s e r p r o f i l e 文件 进行比较,从而可以极大地减少需要处理的u s e r - p r o f i l e 文件的数量,适用 于大规模信息过滤系统。针对人类精力有限的生理特征,建立了用户使用 信息的背包问题模型,以免用户被过多不需要的信息所困扰。户奄 弓提出t - - 种m 于ln t o r n o t 的三级信息发布体系结构。f 该体系结构的信 息发布分为三级:信源发布、i n t e r n e t 发布、本地网发布,旨在为用户提供 更广泛、全面的信息。卜厂 牛给出了一种i n t e r n e t 信息递送的体系结构及各部分的功能。,已有的信 息过滤体系是基于u s e r p r o f i l e 来构建的,难以适应大规模信息递送的需求。 本文在此基础上定义了表示用户群兴趣的s e r v e r p r o f i l e 机制,负责该体系 结构中递送服务器之间以及递送服务器与管理服务器之间的管理信息的处 理和传送,以提高网络吞吐率和系统效率。并设计了递送服务器在管理服 务器的支持下,相互之间进行信息订阅、发布的协作机制 , j 设计了一种本地网信息发布系统。f 其任务是e h 服务器将信息按内容分 频道向高速下行信道进行循环发送,用户代理倾听信息流并选择合适的信 息提供给用户。论文描述和分析了系统各部分的功能;在综合考虑信息的 长度、需求率、已被广播的次数、为再次发送而等待的时间和已存在的时 间等特性的基础上,提出了一种多盘广播调度算法,它可以更恰当地将有 效信息递送给用户并具有较短的平均访问时间。r , 6 设计了一个由用户代理、过滤器、本地信息库等组成的用户端系统。 舱文描述了用户端系统各部分的功能设计和特点。提出了一种以时间维作 为参量、依据在线用户的反馈信息、基于用户过程和系统过程的针对待发 送信息的调度算法,以减少信息的冗余发送。设计了一个便于用户使用本 地信息的用户界面。广一。 ,7 - 、 关键词信息空间y 话题,用户兴趣模型v 特征抽取了信息过滤? 信息递 送,。循环广播,个性化服务 a b s t r a c t i n t e r n c t w w wi sah u g e ,o p e n ,d i s t r i b u t e da n da u t o n o m o u si n f o r m a t i o n n e t w o r k s y s t e m t h a tp r o v i d e sp e o p l er i c ha n dn u m e r o u si n f o r m a t i o nr e s o u r c e s u s e r ss u r ft h ew w 、ma n dd i gt h en e e d e di n f o r m a t i o n sb yb r o w s e r s e r v e r m o d e l w i t ht h ed e v e l o p m e n to ft h ei n t e r n e t w w w :n u m e r o u sf r e s hr e s o u r c e s c o n t i n u o u s l yj o i n i n t ot h ei n t e m e t w w wt h a tm a k e st h e e m e r g i n g i n f o r m a t i o n - o v e r l o a d i n gp h e n o m e n o nm o r eo f t e n i t i sat o u g ht a s kt of i n d u s e f u li n f o r m a t i o n sf r o mt h ei n f o r m a t i o no c e a n b y b sm o d e l s i m u l t a n e o u s l y , n u m e r o u s u s e r s c o n c u r r e n t l ya c c e s s i n g t h es a m ew e b s i t e r e s u l ti nn e t w o r kc o n g e s t i o na n ds e r v e ro v e r l o a d i n g s oi ti s n e c e s s a r yt o i n n o v a t ea l o v e li n f o r m a t i o ns e r v i c em o d ew h i c hh a st h ee f f e c t i v e sa sf o l l o w s , a c t i v e l yd e l i v e r y i n gu s e f u li n f o r m a t i o nt ot a r g e tu s e r st i m e l y ;t i m e s a v i n ga n d b a n d w i d t h s a v i n g ;a l l e v i a t i n g s e r v e r p a y l o a d ;r e l a t i n gl e s s b e t w e e ns y s t e m p e r f o r m a n c ea n dn e t w o r ks c a l e u s e rn u m b e r i n f o r m a t i o nf i l t e r i n gt e c h n o l o g y i ss u c hat a c t i cs o l u t o nw i t ht h ee f f e c t i v e sm e n t i o n e da b o v e t h i sd i s s e r t a t i o n p r e s e n t s i n n o v a t i v ea c h i e v e m e n t so ns o m ek e yt e c h n o l o g i e so fi n f o r m a t i o n f i l t e r i n ga sf o l l o w s , b u i l d i n gt h ei n f o r m a t i o ns p a c em o d e la n dt o p i c - b a s e du s e ri n t e r e s t m o d e l t op r o v i d eu s e r sb e t t e r s e r v i c e ,i n f o r m a t i o n r e s o u r c e ss h o u l db e c o m p a r e d w i t hu s e r d e m a n d s ,a n df i l t e r e d t om a t c ht h o s ed e m a n d sw i t h i n f o r m a t i o nf i l t e r i n gt e c h n o l o g yi no r d e rt op r o v i d em u c hb e t t e rq u a l i t yo f s e r v i c e st o u s e r s s o ,b o t h i n f o r m a t i o na n du s e rd e m a n d sn e e dt ob e c h a r a c t e r i z e ds y s t e m a t i c a l l y t h ee x i s t e n tk e y w o r d s - b a s e di n f o r m a t i o nf e a t u r e e x t r a c t i o nm e t h o d sa n du s e ri n t e r e s tm o d e l sp a yo n l ya t t e n t i o nt os e m a n t i c c o n n o t a t i o nw h i l ei g n o r e du t i l i z a t i o no fs e m a n t i c e x t e n s i o n t h e r e b y , i ti s i n s u f f i c i e n tf o r p r o v i d i n g u s e r sw i t hm o r e p e r s o n a l s e r v i c e s f r o mt h e v i e w p o i n to fr e g a r d i n gt o p i c ,t h ei n f o r m a t i o nc h a r a c t e r s ,i n f o r m a t i o nm e d i a a n du s e ri n t e r e s t sa r ea n a l y z e di nt h ed i s s e r t a t i o n t h et r a d i t i o n a lu s e ri n t e r e s t m o d e l sa r ee x p a n d e db ye x t e n d i n gt h eu s e r - i n t e r e s t e d - t o p i c s t h ei n f o r m a t i o n s t o r a g es t r u c t u r e ,l o c a t i o na n dq u e r i n gt e c h n o l o g yo f i n f o r m a t i o nf i l t e r i n ga r e p r e s e n t e d ,a n d a l l u s e r - i n t e r e s t e d - t o p i c s d i s c o v e r i n ga l g o r i t h m b a s e do n b r o w s i n g b e h a v i o ri sg i v e n p r o p o s i n gt h em u l t i l e v e li n d e x i n gs t r u c t u r ea n da l g o r i t h mt h a t c a n e f f e c t i v e l y h a n d l et h eh u g eu s e r - p r o f i l ef i l e s ,a n d a d o p t st h e m o d e lo f k n a p s a c kp r o b l e mt os o l v et h ep r o b l e mf o rp r o v i d i n gs u i t a b l ev o l u m eo f i n f o r m a t i o nt ou s e r s i nm a s s i v ei n f o r m a t i o nf i l t e r i n gs y s t e m ,t oe f f e c t i v e l y h a n d l et h eh u g eu s e r - p r o f i l ef i l e sa s s o c i a t e sc l o s e l yw i t hs y s t e mp e r f o r m a n c e t h i sd i s s e r t a t i o np r e s e n t sam u l t i l e v e li n d e x i n gs t r u c t u r ea n da l g o r i t h mb a s e d o nu s e rc h a r a c t e r i s t i c w i t ht h ea l g o r i t h m ,i n c o m i n gi n f o r m a t i o nn e e do n l y m a t c hw i t ht h o s er e l a t e du s e r - p r o f i l ef i l e sb u ta l lp r o f i l ef i l e s s ou s e r - p r o f i l e f i l e sn e e d e dt ob ep r o c e s sc a nb eg r e a t l yr e d u c e dw h i c hi ss u i t a b l et ot h e m a s s i v ei n f o r m a t i o n f i l t e r i n gs y s t e m a i m i n g a t t h e p h y s i o l o g i c a l c h a r a c t e r i s t i co fl i m i t e dh u m a n k i n de n e r g y , t h em o d e lo fk n a p s a c kp r o b l e m f o ri n f o r m a t i o nc o n s u m i n gi sb u i l tt oa s s u r eu s e r s a w a yf r o mt h eu n u s u a l r e d u n d a n ti n f o r m a t i o ni nt h ed i s s e r t a t i o n p r o p o s i n ga t h r e e - t i e ri n f o r m a t i o n p u b l i s h i n g a r c h i t e c t u r ef o rt h e i n t e r n e t t h et h r e e - t i e ra r c h i t e c t u r ei sd e s i g n e dt op r o v i d eu s e r sm u c hb e t t e r c o m p r e h e n s i v e i n f o r m a t i o ns e r v i c e sw h i c hc o n s i s t so ft h r e ei n f o r m a t i o n p u b l i s h i n gs t e p st h a ti si n f o r m a t i o ns o u r c ep u b l i s h i n g ,i n t e r n e tp u b l i s h i n ga n d l a n p u b l i s h i n g p r e s e n t i n g a ni n f o r m a t i o n d e l i v e r ys y s t e m a n de a c h s u b s y s t e m f u n c t i o n su s e di nt h ei n t e r n e t t h ek n o w ni n f o r m a t i o nf i l t e r i n ga r c h i t e c t u r e w a sb u i l tb a s e do n u s e r - p r o f i l e w h i c hu n s a t i s f i e st h en e e do fm a s s i v e i n f o r m a t i o nd e l i v e r ys y s t e m b a s e do ni t ,s e r v e r - p r o f i l em e c h a n i s mt oe x p r e s s i n t e r e s t so f a n yc e r t a i nu s e rg r o u p si sd e f i n e di nt h ed i s s e r t a t i o n ,w h i c hc a nb e r e g a r d e d a s m a n a g i n ga n dt r a n s f e r r i n g t h ei n f o r m a t i o n sb e t w e e nd i f f e r e n t d e l i v e r y s e r v e r so rb e t w e e n d e l i v e r y s e r v e r sa n dm a n a g es e r v e r si nt h e i n f o r m a t i o nd e l i v e r ya r c h i t e c t u r e w i t ht h et a i l o r e dm e c h a n i s m ,t h en e t w o r k t h r o u g h o u t p u t a n d s y s t e me f f i c i e n c y o b t a i ne v i d e n t i m p r o v e m e n t - t h e c o o p e r a t i v ei n f o r m a t i o ns u b s c r i b i n g p u b l i s h i n g m e c h a n i s mo fe a c hd e l i v e r y s e r v e r si sa l s od e s i g n e dw i t ht h es u p p o r to fm a n a g e s e r v e r d e s i g n i n gal a n i n f o r m a t i o np u b l i s h i n gs y s t e m i nt h es y s t e m ,t h e s e r v e rc i r c u l a r l ys e n d si n f o r m a t i o n so nt h ed i f f e r e n th i g h s p e e dd o w n w a r d c h a n n e l sa c c o r d i n gt oc o n t e n t s ,a n dt h eu s e ra g e n tl i s t e n si nd a t as t r e a ma n d f i l t e r s a p p r o p r i a t ei n f o r m a t i o nt o u s e r t h ef u n c t i o n so fe a c hs u b s y s t e ma r e d e s c r i b e da n da n a l y z e d b yt a k i n gt h ei n f o r m a t i o nl e n g t h s ,r e q u i r e m e n tr a t e , b r o a d c a s t e dt i m e ,t i m ew a i t i n gf o rr e s e n d i n g ,e x i s tt i m e ,a na l g o r i t h mo f m u l t i - d i s kb r o a d c a s t s c h e d u l i n g i s p r e s e n t e d ,w h i c h c a n d e l i v e r y v a l i d i n f o r m a t i o nt ou s e r sm o r e f i t l yw i t hs h o r t e ra v e r a g ea c c e s s i n gt i m e d e s i g n i n ga nu s e r - e n ds y s t e mt h a ti sm a j o rc o n s i s t e d o fu s e ra g e n t , f i l t e r , l o e a l i n f o b a s e f u n c t i o n sa n df e a t u r e so fe a c h s u b s y s t e m o ft h e u s e r - e n d s y s t e m a r ed e s c r i b e d t or e d u c e r e d u n d a n c y t r a n s m i s s i o no f i n f o r m a t i o n ,a na l g o r i t h mt o s c h e d u l et h et r a n s m i t t i n gi n f o r m a t i o nq u e u ei s p r e s e n t e d ,w h i c ht a k e st h et i m e a s p a r a m e t e r ,a n db u i l d s o nt h ef e e d b a c k i n f o r m a t i o n o fo n - l i n e u s e r s ,s y s t e mp r o c e s s a n du s e r p r o c e s s a n u s e r f r i e n d l y i n t e r f a c ec o n v e n i e n tt ob r o w s el o c a li n f o r m a t i o ni sa l s o d e s i g n e d k e y w o r d s i n f o r m a t i o ns p a c e ,t o p i c ,u s e ri n t e r e s tm o d e l ,f e a t u r ee x t r a c t i o n , i n f o r m a t i o nf i l t e r i n g ,i n f o r m a t i o nd e l i v e r y , c i r c u l a rb r o a d c a s t ,p e r s o n a ls e r v i c e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得电子科技大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 签名;厶煎翌日期:刎三年弓月弓o e t 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位 论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以 将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:鱼圣导师签名: 日期:删z 电子科技查兰堡圭堡苎! ! 坐竺壁! 兰堡堡堕星苎鎏垫查塑堑塑 _ - 一一 1 1 研究背景和意义 1 1 1w w w 概述 第一章引言 建立于i n t e r n e t 之上的w o r l dw i d ew e b b e r n e r s - l e e l9 9 4 ( 简称 w w w ) ,是为帮助用户方便地共享信息而被创立的。w w w 信息是存储在 世界各地的i n t e r n e t 计算机上的数以亿计的相互关联的文档的集合。这些 文档具有半结构化或非结构化的特点,是由众多的用h t m l 书写的w e b 页组成的。每个w e b 页中可以包含多种媒体对象和指向其它w e b 页对象的 超链,这些超链将分布在世界各地的w e b 站点上的w e b 页链接起来。用户 沿着这些超链在w w w 中漫游,寻找自己所需要的信息。 w w w 上大量的信息以多种多样的格式和媒体形式存储在众多的地点 上,使w w w 成为一个庞大的、开放的、分布自治的、异构的信息系统。 在这个信息网络系统中,大多数信息都是动态变化的,都有其初始价值和 价值衰减率,这意味着信息是有其时效性的;同时,随着科学技术和人类 社会的发展,全世界的信息总量也在高速增长着。 一般来说,新产生的有用信息都具有价值。但随着时间的推移,其价 值会逐渐下降,出现信息“老化”现象。公式( 1 - 1 ) 描述了文献信息的 价值衰减规律 胡1 9 9 5 : v ,= vn e u 。月一1 p ( 1 - 1 ) 上式中v o 为初始时刻某类文献信息的统计价值,s 、r 为某类信息增长 的内部作用因素和社会控制因素。l s r i 越小,信息老化就越快。因此,新 产生的信息传播到使用者的时间越短,对使用者的价值便越高,越可能产 生更新的信息。反之,若信息传播不能做到准确及时,其价值将随信息类 别的不同而以不同的速度或快或慢地减少。特别是在当今,科学、社会发 展越快,信息的时效性便越高。 第一章引言 将信息与用户联系起来的桥梁是信息服务系统。由于因特网是一个巨 大的、动态变化的信息网络,因此信息服务质量的高低对其发展有着极为 重要的影响。目前,在w w w 上出现的搜索引擎和搜索技术都是旨在帮助 用户快速查找到所需的信息。这些技术都是基于用户方启动的 b r o w s e r s e r v e r 模式来访问信息,是被动服务,需要用户不断上网漫游以 跟踪w w w 信息的更新。 1 1 2 传统的信息服务方式及所面临的困境 已有的w w w 上的信息查询服务主要是依据u r l ( u n i f o r mr e s o u r c e l o c a t o r ) r f c 一1 7 3 8 原理:先由搜索引擎提供或由用户自己找来u r l 地址, 再根据得到的信息制定查询策略、选择查询路径,最后建立链接、逐一进 入提供这些信息的网站进行查阅。这种方式需要用户了解网络细节,是一 种白箱操作。从用户开始查询任务直到得到结果的时间等于搜索时间+ 查 询时间+ 传输时延。这样,用户“一次查询任务的时间开销”等于一个或多 个“搜索”、“查询”、“传输”步骤所花费的时间总和。 但这种传统的基于b r o w s e r s e r v e r 模式的信息服务方式越来越难以适 应w w w 的发展,使得用户要在合适的时间、合适的地点上得到正确的信 息越来越成为一个非常困难的任务 k s h i t i j l 9 9 9 1 。这是因为: 基于i n t e r n e t 的信息系统是一种不对称系统,客户数量远大于服 务器数量。随着网络规模的不断扩大,大规模用户上网造成的网络 拥塞和服务器过载现象日益严重、信息量大和通信信道容量小的矛 盾日益尖锐,使服务器没有足够的能力同时处理众多的用户请求、 上述三种时延也相应增加,甚至使用户难以忍受而撤消查询任务。 大量的新信息不断地加入w w w ,使w w w 规模迅速扩大,产生 了信息过载 a i l 9 9 8 b r a i n 2 0 0 0 和迷航等现象,使用户难以适时、 准确地获取所需的信息。 w w w 上传统的基于b s 的信息服务系统不具备记忆功能和智能, 因此用户需要反复地向信息服务系统提出自己的需求,而许多需求 都是相同或相似的。如果系统能自动发现用户的较为常规的需求并 2 电子科技大学博士论文:i n t e m e t 中多媒体信息过滤技术的研究 记录下来,就可以为用户提供主动的服务,避免用户的大量重复操 作。 当前用于大规模分布式信息系统的服务协议都是基于客户方的协 议。这些协议没有利用在服务器上积累的关于用户访问方式等方面 的知识。而这些知识对进行信息分发是非常有效的。 i n t e r n e t 和i n t r a n e t 的急剧增长、无线和卫星网络的发展、到用户家庭 的不对称和宽带的连接均促成了一种新的、范围广泛、面向信息分发应用 的发展。这些应用包括及时地发送数据给大群的用户,比如股票和运动信 息、交通信息、电子个性化报纸、娱乐信息的递送等。面向分发的应用有 其独特的特性,使得传统的基于b r o w s e r s e r v e r 的数据管理方法因面临如 下特性而举步为艰。这些特性主要有: 应用范围的大规模性 用户信息需求的高重叠度 从信源到用户的不对称的数据流 面向分发应用的这些特性需要一种高效的信息递送体系与机制。而传 统的h t t p 协议是基于一种查询响应或r p c 、单播( u n i c a s t ,i e , p o i n t t o p o i n t ) 的数据递送方法,它不适合于这种面向分发的应用。 1 1 3已有的解决方法及其局限性 i n t e r n e t 和w o r l dw i d ew e b 上爆炸式产生的、动态变化的信息,迫切需 要解决有关网络阻塞、访问瓶颈等问题的有效方法。为此,众多的机构、 研究人员提出了多种解决方案: 增加网络带宽,但这会遇到费用和技术方面的问题; 用新的服务器完全替代旧的服务器,这只是一种放弃已有投资的、 短期的解决方式; 服务器群是一种具有可扩展性、继承已有投资、长期的方法,管理 者可以通过逐步增加价格低廉的计算机到服务器群中,来适应不断 增加的对服务器性能的要求 t r e v o r 2 0 0 0 1 ; 3 第一章引言 c a c h e 方法,该法又可分为s e r v e r c a c h e 、n e t w o r kc a c h e 、c l i e n tc a c h e 三种。s e r v e rc a c h e 的主要目的是减轻服务器的负载。n e t w o r k c a c h e 可以提供对已访问信息的共享性,众多c l i e n t 可以共享n e t w o r k c a c h e ,即如果n e t w o r kc a c h e 包含一个c l i e n t 所需的页( 该页以前 被其它c l i e n t 访问过) ,则将它传送给这个c l i e n t ;若无,则再将该 c l i e n t 的请求传送给服务器 j e a n 2 0 0 0 】。c l i e n tc a c h e 是将用户访问过 的信息存储在本地机上,以方便用户的再次访问。这些方法的主要 目的都是为了减轻网络通信量和平衡服务器负载( 即把远端服务器 的任务分散到离用户较近的服务器上) 。 上述方法可以在一定程度上缓解网络拥塞、减轻服务器负担、提高响 应速度,但都还是基于b r o w s e r s e r v e r 或请求响应的服务方式,用户仍旧 需要反复上网访问服务器以保持对新信息的同步,需要在信息的汪洋大海 中漫游。因此,有必要提供一种新的信息服务方式,使用户从频繁的网络 访问中解脱出来,专注于他所需要的信息内容本身。这种方式就是主动信 息服务,或称信息过滤( i n f o r m a t i o nf i l t e r i n g i f ) 、“推”式技术。 1 2 信息过滤的提出 信息产品和网络规模的不断增长,使有关获取用户所需信息的研究、 特别是对信息过滤技术的研究正变得越来越受重视。国外开展了很多这方 面的工作,对信息过滤技术中的诸方面做了研究,包括:信息过滤的基本 概念、原理和体系结构 n i c h o l a s l 9 9 2 】【l o e b l 9 9 1 】【r e s n i c k l 9 9 4 】 p a u l l 9 9 7 】 l o e b l 9 9 2 】 g e o r g e l 9 9 8 】 p e t e r l 9 9 0 【l a n g l 9 9 5 】 d a n i e l l 9 9 6 】; 信息空间 模型与表示用户信息需求的用户模型【r o b e r t l 9 9 0 i r e n e l 9 9 2 l e e l 9 9 7 】 b e e r u d l 9 9 3 y a n 9 1 9 9 3 g o r d o n l 9 8 8 l a m l 9 9 6 m o u k a s l 9 9 7 】; 按内容过 滤的方法 f d t z l 9 9 0 f i s c h e r l 9 9 1 m a r k 0 1 9 9 7 】;协同过滤法 s u c h a k l 9 9 4 】 【d a v i d l 9 9 2 a 】 d a v i d l 9 9 5 b 】 u p e n d r a l 9 9 4 g e r a r d l 9 9 8 u p e n d r a l 9 9 5 】;基于 价格的过滤法 r o b e r t l 9 8 9 等。国内也正在开展这方面的研究,其中:卢 1 9 9 9 研究了用户模型;史1 9 9 9 在国家自然科学基金项目资助下,研究了 信息过滤技术在计算机分布交互仿真环境下的应用;田2 0 0 0 在国家8 6 3 高科技项目基金和i b m 中国研究中心基金资助下,研究了用户模型与过滤 4 电子科技大学博士论文:i n t e m e t 中多媒体信息过滤技术的研究 算法;林2 0 0 0 在国家自然科学基金项目资助下,研究了用户模型与过滤 方法;r 高1 9 9 9 高2 0 0 1 a 在中国工程物理研究院基金和国家计委重点科技 项目的资助下研究了信息空间模型。信息过滤技术( i f ) 的提出是为了更 好地为用户提供信息服务。i f 是一种信息分发机制,它使大量的有用信息 以共享信息流的形式从产生者那里被有组织、适时、主动地发送出去,由 用户代理从信息流中截取用户所需的信息提供给用户。这种机制具有:减 轻网络通信量,平衡服务器负载,带宽要求受网络规模和用户数的影响较 小,响应时间短,能按内容查询,提供信息主动服务等优点。 互联网将分散在世界各地的主机连接起来,体现了一种物理连接;而 w w w i f 系统则将信息的供方和需方按照信息的供需关系联系起来,形成 逻辑联接。w w w i f 系统既清楚地了解用户的需求、当前状态等信息,又 清楚地了解信源、信息空间的状态等有关信息,并据此为用户提供恰当的 信息服务。它是沟通用户和信源的桥梁,可以为用户提供个性化的信息服 务。 研究表明,用户对信息的访问( 或对信息项的需求的分布率) 具有明 显的局部性,符合z i f 法贝l je s u l 9 9 7 1 。即若将订条信息按访问概率从大到小 进行排序,则第i 条信息的访问概率y ( o = c i ,其中i = 1 ,2 ,n 并且 寺。乙;l 寺,如图1 1 所示。由图可见,较少数的热点信息吸引了大量的 图l 一1 符合z i f 法则的信息访问 用户,从而占用了大量的网络带宽和服务器资源,这是造成网络拥塞和服 务器过载的主要因素之一。因此用i f 系统来发布热点信息具有重大的意 义,它使需要占用大量带宽来多次重复传送的热点信息,以较少的传输次 数来使大量的用户得到这些信息,从而节省了大量的网络带宽。本文的主 5 第一章引言 要工作是在i n t e r n e “w w w 及宽带本地网( 如c a t v 、千兆以太网等) 环 境下,对i f 系统中的关键技术进行研究,旨在将i n t e m e “w w w 中丰富的 信息按照用户的需求适时地送给合适的用户,为用户提供高质量和个性化 的信息服务,并具有节约用户时间、节省网络带宽、减轻服务器负载以及 系统性能受网络规模、用户数影响较小等优点。为此,本文分两个方面对 信息过滤技术进行研究:信息提供和信息递送。在信息提供方面,通过将 信息与用户兴趣模型进行匹配来为用户自动地选择信息。在信息递送方面, 本文通过采用减少服务请求和减少信息发送量的方法,而不是增加网络带 宽和服务器性能的方法来减轻网络的通信量,使系统性能受用户规模影响 较小。即通过访问共享信息流的方式,使用户不必频繁地上网漫游,从而 减少信息服务请求的数量,减少网络连接数;通过以信息的冗余存储代替 信息的冗余发送等措施来减小信息的传送次数。 1 3 本文的主要工作和章节安排 论文是在中国工程物理研究院基金重大项目“信息共享的基础性结构 研究”( 编号9 7 2 0 4 4 ,部级) 和国家计委重点科技项目“高速电视信息系统” ( 国计委 1 9 9 6 1 9 7 5 号) 的支持下,对信息过滤中的一些概念、原理、关键 技术进行了研究和探索。论文是对作者研究工作的总结,主要工作包括: 从话题的角度,分析了信息的特征及用户兴趣模型。通过加入用户感 兴趣话题的外延特征而扩展了传统的用户兴趣模型。给出了基于语义的多 媒体数据库的结构及定位、查询技术,提出了一种基于活动的用户感兴趣 话题的发现算法。 设计了一种基于用户特征的多级索引结构及算法,使进入信息只需选 择有一定相关性的的u s e r p r o f i l e 文件进行比较和匹配,从而可以极大地减 少需要处理的u s e r p r o f i l e 文件数量,适用于大规模信息过滤系统。建立了 用户使用信息的背包问题模型,来解决人类精力有限的生理特征与信息量 不断增长的矛盾。 提出了一种新的面向w w w 的大规模的三级信息发布体系结构,包括: 信源发布、i n t e r n e t 发布、本地网发布。描述了它们的体系结构、功能与机 6 电子科技大学博士论文:i n t e m e t 中多媒体信息过滤技术的研究 制。设计了一套在管理服务器的支持下,递送服务器之间进行信息订阅、 发布的内部结构与协作机制。在综合考虑信息的长度、需求率、已被广播 的次数、为再次发送而等待的时间和已存在的时间等特性的基础上,提出 了一种多盘广播调度算法,可以更恰当地将有效信息递送给用户并具有较 短的平均访闯时间。给出了一种基于用户过程和系统过程的针对待发送信 息的调度算法。设计了个用户界面,以方便用户阅读由过滤系统提供的 信息。 论文的结构安排如下:第二章描述和讨论信息过滤系统中的关键技术; 第三章讨论信息特征、特征抽取和用户兴趣模型;第四章研究过滤算法; 第五章论述网络信息发布的体系结构;第六章讨论i n t e r n e t 信息发布的体 系结构与机制;第七章讨论本地网信息发布系统;第八章讨论在用户端处 对信息的接收、发送和使用方法;第九章是全文的总结和未来的工作。 7 第二章信息过滤技术概述 第二章信息过滤技术概述 信息过滤技术 n i c h o l a s l 9 9 2 】 p e t e r l 9 9 2 是以一种系统化的方法,将 用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户个性化 需求的信息并送给用户。相比于传统的信息检索模式,信息过滤技术具有 较高的可扩展性,适用于大规模用户群和海量信息的场合;可以为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025【各类企业合同范本】-【标准合同协议模板】解除合同最佳样本
- 2025年消防执业资格考试题库基础知识题库及答案
- 2025年注册会计师审计试题及答案
- 社会工作者初级水平考试2025年综合能力测试题(社会工作实务能力提升)
- 2025年企业安全生产事故案例分析试题
- 2025年安全生产考试题库:事故案例分析及安全责任追究与责任追究程序试题卷
- 2025年计算机二级考试题库含答案
- 甲苯磺酸奥马环素片临床应用考核试题
- 2025汽车租赁合同协议示范文本
- 政府采购评审专家考试试题库-判断题及答案
- 先心病介入封堵治疗
- 数控heidenhain说明书TNC直接提供两种加工孔模板的循环
- GB/T 42453-2023信息安全技术网络安全态势感知通用技术要求
- JJG 860-2015压力传感器(静态)
- GB/T 22231-2008颗粒物粒度分布/纤维长度和直径分布
- GB/T 18253-2000钢及钢产品检验文件的类型
- GB 5009.3-2016食品安全国家标准食品中水分的测定
- 液化气站安全生产目标考核与奖惩记录
- 高中生励志奋斗与梦想课件
- 《中职地理》配套教学课件
- 最全可自由编辑的中国各省市地图课件
评论
0/150
提交评论