(计算机软件与理论专业论文)用户模型的结构表示及其应用研究.pdf_第1页
(计算机软件与理论专业论文)用户模型的结构表示及其应用研究.pdf_第2页
(计算机软件与理论专业论文)用户模型的结构表示及其应用研究.pdf_第3页
(计算机软件与理论专业论文)用户模型的结构表示及其应用研究.pdf_第4页
(计算机软件与理论专业论文)用户模型的结构表示及其应用研究.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

承诺书 本人郑重声明:所呈交的学位论文, 是在导师指导下独立完成的,学位论文的 知识产权属于山西大学。如果今后以其他 单位名义发表与在读期间学位论文相关的 内容,将承担法律责任。除文中已经注明 引斥i 的文献资料外,本学位论文不包括任 何其他个人或集体已经发表或撰写过的成 祟。 学位论文作者r 签章j :也五连 2 0 0 年户月- l 。日 摘要 目前,随着在线电子资源的日益增多,w e b 逐渐成为巨大的信息资源 蕴含库。如何从如此庞大的信息库中找到用户个人感兴趣的信息成为学 术界日益关注的焦点和迫切需要解决的课题。互联网的目益发展,信息 的爆炸性增长,社会迫切需求有稳定成熟的信息服务系统诞生。信息服 务向专题集成和个性化用户服务方向发展,其中提供个性化服务已经成 为热点。个性化信息提供并不是指针对一个用户,而是提供用户真正需 要的信息,也就是精确过滤的问题。信息过滤系统其实是顺应当今以人 为本的理念,重点关注用户( 或用户群) 的个性,以提供个性化的服务 为目的。要实现这一目的,其中关键技术的处理直接制约其过滤效果的 好坏。本文讨论了信息过滤中和用户模型有关的关键技术。重点探讨用 户兴趣模型表示及其在突发事件新闻领域的应用。 随着信息技术的高速发展,世界各地发生的突发事件在互联网上得到 了快速、及时的报道。本文以互联网上报道的突发事件新闻为背景,以 提供个性化的信息过滤系统为目标,研究了特定领域的信息处理的关键 技术即用户模型的表示。其研究结果可以让用户尽早全面地掌握国内外 各种突发事件的发生情况和发展趋势,为国家和各级地方政府有关的职 能部门及时采取应急措施和制定防范计划等提供决策参考依据。而且对 于信息获取,互联网上的个性化信息服务,电子商务,知识表示等领域 也有重要的参考意义。 本文主要提出了用户的结构模型。首先给出了用户模型的形式化描 述,该模型的逻辑描述和计算机实现,在传统的算法上进行了更新模型 算法的改进,并和其它的模型作了比较。在该此基础上,研究了结构模 型在特定领域的应用情况。对特定领域用户兴趣变化,单主题反馈和多 主题相关的两种情况给予了分析,并对结构模型如何有效地处理这两种 情况作了尝试性探索。最后在实验的基础上评价了该模型。从查全率, 查准率以及用户负担三个标准的评价指标上评价了该模型并给出了结 论。最后初步分析了该系统的不足和缺点,并给予了进一步工作的展望。 关键宇:信息过滤;用户模型;兴趣变化;个性化服务 a b s t r a c t a tp r e s e n t ,w i t ht h ei n c r e a s i n go fo n l i n ee l e c t r o n i cr e s o u r c e sd 2 【yb yd a y , w e bb e c o m e st h ee n o r m o u sj n f o r n l a t i o nr e s o u r c e s 目a d u a l l y h o wt of i n dm e i n f o r r n a t i o nw h i c hu s e ri n t e r e s t e di n 舒o ms oh u g eai n f o r m a t i o ns t o r e h o u s e b e c o m e st h ef o c u sm a ta c a d e m i ap a y sc l o s ea t t e n t i o nt oa n du 唱e ms u b j e c tt o b es o l v e d t h ei n t e m e ti s 酽o w i n ga n di n c r e a s i n g t h es o c i e t yc a l l sf o rt h e s t e a d ya n dr o b u s ti n f o r m a t i o ns e r v i c es y s t e m n o wi n f o r m a t i o ns e r v i c eh a s s u c hat e n d e n c yt h a tp r o v i d e sp e r s o n a li n f o r m a t i o ns e r v i c et ou s e tp e r s o n a l i n f o r m a t i o ns e r v i c eb e c o m e sh o t s p o t 1 1 h ep e r s o n a li n f o r m a t i o ns e r v i c ec a n p r o v i d et h eu s e rw i t ht h e s o u r c et h a ti st ob en e e d e d t h a ti st os a yt h e q u e s t i o ni sf i l t e r i n ga c c u r a t e ly i n f o r n l a t i o n 矗l t e r i n gs y s t e mi sas y s t e mt h a ti s s u i t a b l et om ei d e ai nw h i c ht h ep e e ! p l ea r e 丘r s ta n di t sp a yc l o s ea t t e m i o nt o i nu s e r s si n t e r e s ta n dt h a to f r st h ei n d i v i d u a l i z e ds e r v i c ea so b j e c t i no r d e r t or e a l i z et h i s ,k e yt e c h n o l o g ya m o n gt h e mr e s t r i c t si t sq u a l i t yo ff i l t e r i n g r e s u l td i r e c t l y t h i sp 印e ri sa b o u tm eu s e rp m f i l ea n dr 印r e s e n t a t i o no f p r o f l l ea n di t sa p p l i c a t i o no f u s e rp r o f i l ei nt h ef i e l do fa c c i d e n t w i t ht h e h i g h s p e e dd e v e l o p m e n to ft h ei n f b 册a t i o nt e c 上1 i l o l o g y j t h e a c c i d e n th o m ea n da b r o a di sr e p o r t e di nt 1 1 ew e bi m m e d i a t e l yt h ep a p e rp u t s e m p h i c s o nt h eu s e rp r o f i l ei nt h eb a c k g r o u n dt h a tt h ea c c i d e n tn e w si s r e p o r t e di nt h ei m e m e ta n da i m st o 丘l t e r i n gs y s t e m t h er e s u l to fs t u d yc a n l e tu s e r sg r a s pt h es i t u “0 n sa n de m e 喀e n c ea n dt a k ef h ee m e 唱e n c ym e a s u r e a n dm a k et h ep l a no f t a k i n gp r e c a u t i o n sa ss o o na sp o s s i b l e t h er e s u l ti sa l s o t ob er e f e r e n c e di ne c o m m e r c e ,r e p r e s e n t a t i o no f k n o w l e d g ea n de t c t h i sp 印e rh a sp r o p o s e dt 1 1 es t i u c t u r a lp r o f l l e a tf i r s t ,i t p r o v i d e st h e f o r n l a ld e s c r i p t i o n ,t h el o g i cs t r u c t u r e ,i m p l e m e n ta n de i 血a n c e st h ea j g o r i t h m 0 nt h i sb a s i s ,p a p e rs t u d y st h es i t u a t i o no fs t r u c t u a lp r o f i l ea c c o r d i n gt ot h e t w ok i n d so fc h a n g e s d a t a sa n dn u m e b e r ss h o wt h ep e r f o e m a n c eo ft h i s s t r u c t u r a lp r o f i l e t h es y s t e ma l w a y sh a sn a w sa n ds h o r t c o m i n g f i n a l l y ,w e 1 0 0 kf o n v a r dt ot h ef h r t h e rw o r k k e y w o r d s :i n f o h l l a t i o nf i l t e r i n g ;u s e rp r o f i l e ;i m e r e s tc h a n g e ;p e r s o n a l i n f o r m a t i o ns e r v j c e 用户模型的结构表_ 及其戍用研究 第一章引言 1 1 面向个t j 生化的用户模型 传统的i n t e r n e t 服务为用户使用资源提供了一些可行的途径。然而,相对于巨 大、无序的i n t e r n e t 信息空阃,每个用户真正感兴趣的信息非常有限,仅仅是 i n t e r n e t 信息空间的沧海一粟。在传统i n t e r n e t 服务模式下,为了找到真f 感兴趣 的信息,用户要耗费大量的时间和精力。典型的例子是用户采用搜索引擎搜索信息。 当用户输入关键词后,搜索引擎返回的结果往往成百。i 二千,其中包含大量与用户兴 趣不相关、重复、甚至是过时的信息。由于每个用户的兴趣不同,从中找出真正感 兴趣的信息是一个既耗时又耗力的过程。用户迫切需要一种能够根据用户的特点自 动组织和调整信息的服务模式,即个性化服务。 1 1 1 信息过滤和个性化服务 信息过滤( i n f o 硼a t i o nf i i t e r i n g ) 是根据用户的信息需求,在动态的信息流中, 搜索用户感兴趣的信息,屏蔽其他无用的信息。在该领域中,每个用户都有自己特 定的、长期的信息需求,用这些信息需求组成过滤条件,从信息资源流中过滤出服 务需求的内容,屏蔽掉无用的信息并进行服务而用户需求的描述就是用用户模型来 表示的“一“。 信息过滤和信息检索的联系和区别:信息检索( 1 n f 。r m a t i o nr e t r i e v a l ) ,包括 信息的存储、组织、表现、查询、存取等各个方面。其核心为文本信息的索引和检 索。我们通常指的信息检索实际是指文本检索。而文本检索,已成为计算领域新的 增长点“。过滤和检索的联系是:大部分信息过滤的早期研究基于这样的一种设想: 有效的信息检索技术同样也是有效的信息过滤技术。许多过滤技术是建立在对过去 成功的检索方法基础之上的,如标引,匹配等。今天仍然有许多技术和理论在两者 之间相互借鉴和引用。过滤和检索的区别主要有三点”3 : ( 1 ) 在i f 中,用户p r o f i l e 表示用户的长期兴趣,而在i r 中,查询表示用户 的短期的信息需求: ( 2 ) i f 通常处理新收集的数据,而i r 检索新的和旧的数据: ( 3 ) i f 含有过滤后移去信息流的概念,而i r 只在信息流中查找信息。 个性化信息服务的含义:迄今为止,学术界对个性化信息服务的含义还没有达 成一个统一的认识,对其定义也有不同的理解。学术界以及人们对个性化普遍含义 的理解是:“个性化信息服务是指能够满足用户个体信息需求的一种服务,即根据用 由西文孥2 0 藏联七磺究生攀粒论史 户提出的明确要求提供信息服务,或通过对用户个性、使用习惯的分析而主动向用 户提供其可能需要的信息服务”。随着因特网的普及,人们每天可以从网上获取大萤 的信息。目前,利用传统的搜索引擎进行网上的信息查询,满足了人们一定的需要, 但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。不具 有智能性,不能学习用户的兴趣。对具有特定专业兴趣,信息需求在相当长一段时问 内保持不变或变化小大的用户,只能不断在网上反复查询相同的内容,这造成了许 多不必要的浪费。正是在这样的需求驱动下,个性化智能信息检索技术得到r 长足 的发展。信息过滤是一种“信息找人”即实现信息个性化主动服务的前提。个性化 服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的 需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现_ 二 三动 推荐的目的。个性化服务的实质是针对性,针对不同的用户采取不同的服务策略, 提供不同的服务内容。个性化主动服务将使用j 、1 通过尽可能小的投入获得尽可能好 的服务回报。个性化智能检索技术通过用户模型( u s e rp o f i l e ) 来描述用户兴趣 主题,对检索信息与用户模型进行相似度计算,将相关度高的信息发送给用户。但 存实验中,人们发现要清晰地描述用户兴趣是非常困难的。不仅信息的内容,而且 信息的新颖性、熟悉程度、紧迫性等,都是构造用户模型时需要考虑的重要因素。 112 相关的关键技术之一:用户模型 同前,信息提供服务逐渐向个性化用户服务方向发展。个性化信息提供并小是 指针对一个用户,而是提供用户真正需要的信息,也就是精确过滤的问题。信息过 滤系统其实是顺应当今以人为本的理念,重点关注用户( 或用户群) 的个性,以提 供个性化的服务为目的。要实现这一目的,其中有许多关键技术制约其过滤效果的 好坏。下面就重点讨论其中有关用户兴趣模型和信息表示的技术。 为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种合适 的表达方式,这种表达方式叫用户描述文件( u s e rp r o f i l e ) 用户描述文件刻画用 户的特征与用户之f 刊的关系。信息过滤系统中过滤条件的设定通常基于用户描述文 件。 从技术i ,说, 用户描述文件与用户模型是有区别的,用户模型不仅包含用户兴 趣的表示,而且包含对用户兴趣预测表示的说明“1 。本文没有严格区分用户模型和用 户描述文件,并且在本文中以通用的术语用户模型来指代这两个不加严格区分的概 念。r jc h 定义了这两类用户模型,由用户创建的精确模型和由系统基于用户行为创 建的隐含模型。 两个模型都出现于通常的过滤系统中”1 。 用户模型的结构表示及其应用研究 1 般地,在构建一个用户模型时需要考虑下面几个问题:有没有现成的标准? 收集什么数据? 收集的数据用于什么目的? 如何收集数据? 根据什么信息源来 收集? 收集的数据如何组织? 用户信息能否自适应地更新? 在文献“0 1 中明确回 答了问题,目前用户尚模型没有统一的标准。 用户模型可以是各种格式可以是各种格式”。它可以是预定义的关键词集( 加 权) ,或是层次概念或类别的集合。用户模型从内容| 二可以分为基于兴趣的和基于行 为的两种类型”1 基于兴趣的用户模型可以表示为加权矢量模型、类型层次结构模型、 加权语义网模型、书签和目录结构等基于行为的用户描述文件可以表示为用户浏览 模式或访问模式,在具体实现时可以综合基于兴趣和基于行为这两种表达方式 由于用户本身描述自己的兴趣很难:而且用户需求要经常改变,所以建造关于 用户兴趣的用户模型是信息过滤中研究的主要问题之一“”3 。 1 2 国内外研究现状 1 2 1 国内外研究现状 在早期的研究过程中,信息过滤和信息检索中的许多概念和技术是相互渗透和 借鉴的。 1 9 8 2 年,d e n n i n g 提出了信息过滤( i n f o r m a t i o nf i l t e r i n g ) 的概念。 1 9 8 7 年,m a l ( ) n e 等人发表较有影响的论文“,并且研制了系统“i n f o r m a t i o n l e n s ”。他提出了社会模式,目前也称之为协作过滤( c o l l a b o r a t i v ef i l t e r i n g ) 。 在社会过滤系统中,文本的表示是基于以前读者对于文本的标注或评价。 1 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年一次的 t r e c ( t e x tr e t r i e v a lc o n f e r e n c e 文本检索会议) t r f c 在最近的几次会议中,着 重于文本过滤的理论和技术研究以及系统测试评价方面。目前t r e c 的过滤任务要求 对用户的信息需求自适应地、实时地从具有时序的文本流判断每篇文本是否相关。 s t a n f o r d 大学的t a kw y a n 和h e c t o rg a r c i a m 0 1 i n a 开发了基于内容的过滤系 统s i f t ( s t a n f o r di n f o r m a t i o nf i l t e r i n gt 0 0 1 ) ,该系统用于因特网上新闻组的过 滤,它使用向量空间模型来实现用户信息需求与新闻资料之间的匹配它的用户模型 ( u s e rp r 。f i l e ) ,是由用户通过提交喜欢的词汇和想要避免的词汇手工建立的,并 且可以自我更新。s i f t 对于建立用户模型提供了非常便利的机制。s i f t 提供了一个 高效的过滤算法。由于将大量的用户模型与中心服务器上的因特网上的每条新闻相 比较,工作量很大,有效的方法是将用户模型分组,分组处理模型比起单个处理显 坐堕查堂! ! 鉴旦堡! 型! 塑竺堂焦笙苎一 然效率要高,这样可以将组文本分配给一组兴趣相同的用户”“。 s t e v e n s 研制了i n f o s c 。p e 系统,采用自动用户兴趣模型学习机制。它是基于精 确匹配规则的系统,通过观察用户阅读行为,如阅读花费的时间、是否选择保存等, 提出相应的过滤规则。i n f o s c o p e 为了减轻用户认知负担,极力避免用户对于每个文 本的明确取舍判断,由于受当时计算机处理能力的限制,它仅能处理每个文本的头 部信息,如主题、作者、新闻组名等信息”“。 ( 汀o u p l e n s 是m 订l e r 等人丌发的u s e n e tn e w s 协作过滤系统。g r o l l p l e 1 s 的贡 献在于模型学习机制。 美国n e c 公司n e c i 研究所于1 9 9 7 年开发研制了r e s e a r c h i n ( 1 e x 科技文献电子 图书馆( h t t p :w w w r e s e a r c h i n d e x c o m ) 系统“。在r e s e a r c h i n d e x 中,用尸1 模型, 即用户的兴趣信息需求通过多种形式来描述,它可以是用户自己添加的关键字,也 可以是用户关注的网址信息、还可以是用户在浏览文献时随时添加进来的自己认为 有价值的文献信息。 近年随着对a g e n t 的深入研究,a g e n t 技术在信息过滤和个性化服务中起到了一 定的作用。p a z z a mm “”等人提出的s y s k i l l & w e b e r t 系统是一个用来学习用户兴趣 的智能a g e n t 。由于a g e n t 可以对其所处的环境进行感知和觉察,所以该智能船e n t 对用户浏览行为进行了跟踪,并对用户进行反馈指示。 存圈内,复旦大学吴立德教授和黄萱菁博士等人参加了t r e c 1 1 会议的 f in e r i n g 子项目,利用t r e c 提供的规范语料库,他们利用传统的向量空间模型取 的了令人满意的效果“。 东北大学的姚天顺教授和林鸿飞等人进行了中文文本过滤技术的研究。在他们 提出的过滤模型中,用户模型采用文本的主题词表示,文本表示采用向量空间模型。 为了更好地排列满足闽值要求的文本,在对文本进行索引时,他们引进文本结构分 析技术,从文本中获取逻辑层次信息,以期提高文本片断检索时文档与查询的匹配 效率。另外,他们还进行了基于混合模式的文本过滤模型“1 。其基本思想是将基于内 容过滤方法和协作过滤方法结合起来。在此基础上,结合用户的个人兴趣,给出了 文本特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制。 清华大学自动化系的李衍达教授和卢增祥博士等人曾提出用潜在语义标引技术 进j ,过滤,目的是为他们的8 0 0 k m a r k 服务系统提供技术支持”。 中国科学院软件研究所的阮彤、冯东雷等博士进行了信息过滤研究,提出r 基 于贝叶斯网络的信息过滤模型b m i r ,描述了信息过滤的基本结构,提供了6 种节点 用户模型的结构表示及其应用研究 用于描述影响信息过滤的事件之间的关系,在此基础上,提供了b m i f 的各种使用方 法,将词法知识用b m i f 表示,以及将自动学习与手动交互结合,将协作过滤与内容 过滤结合等“。 我们课题组建立了中文科技文献信息过滤系统的原形。在研究中我们发现国外 信息过滤虽然起步较早,但是服务质量不高,并且目前不处理中文文献。而国内虽 然有部分过滤系统处理中文,并针对特定的领域进行研究。但是,由于自然语言理 解的特殊性在关键技术上仍然没有实质性进展。 1 22 本文的研究背景 随着w w w 应用的迅速发展,w e b 以其自身的时效性、交互性、丌放性、生动性、 丰富的资源优势易保存性、易检索性和多媒体性等,逐渐成为最重要的新闻媒体之 一。人们对个性化的新闻服务的需求越来越多,越来越广泛。例如:人们每天都关 心国内外发生的重大事件,有政治的,有经济的,有社会的,等等。每个人关心的 焦点各不相同。人们普遍关心“煤矿爆炸”,“火灾”,“地震”以及“翻车”,“沉船”, “飞机坠毁”等交通事故的新闻。“9 1 1 ”之后的“炭事件”,特别是“s a r s ”,“高 治病性禽流感”肆虐以来,生物安全成为国家安全的重要内容。2 0 0 4 年2 月1 1 日国 务院通过了关于改进和加强圈内突发事件新闻发布工作的实施意见。为了尽早地, 准确地,全面地掌握国内外各种突发事件的发生情况和发展趋势,为国家和各级地 方政府有关部门及时采取应急措施和制定防范计划等提供科学决策依据,拟尽快研 究突发事件新闻的信息过滤和个性化服务的理论和方法。 本课题的研究背景旨在对互联网上报道的突发事件新闻进行收集,整理,加工, 处理以便建立起基于突发事件新闻报道的动态的个性化服务系统。 本文想着重探讨信息过滤中的关键技术之一,用户模型的结构表示。以及在用 户模型的结构表示f 用户兴趣的变化的研究,以期望得到在特定领域的过滤系统中, 一个能有效服务于该领域的用户模型。 1 3 本文的主要工作 本文主要从两个方面对用户模型进行了研究 探索用户结构模型的表示方法。 2 基于突发事件领域的用户兴趣变化做一些研究。 1 4 论文的组织结构安排 第一部分重点叙述了国内外相关的研究和进展以及存在的问题。 山西人学2 0 0 5 届预l j i i f 究生学位论文 究。 第二部分着重叙述了用户模型的结构表示。 第三部分叙述了用户兴趣变化研究,即对用户兴趣进步的分类,细化进行研 第四部分着重叙述了结构模型在用户兴趣变化研究中的应用。 第五部分是实验和实验结果。 第六部分是结束语。 用户模型的结构表示及成用研究 第二章用户模型的结构表示 当前用户模型在各个原形系统中有多种表示方式。常见的,国外主流的个性化 服务系统中般的有以下几种,大体可以分为两类即基于内容的( c o n t e n t - b a s e d f i1 t e r i n g ) ,和基于协作的( c o l l a b o r a t jv ef i l t e r i n g ) 。以下主要介绍四种模型。 2 1 用户模型的四种表示方式 21 1 用户模型的含义 用户兴趣模型是在信息过滤系统中提出的,是对用户信息需求的一种描述形式。 用户兴趣模型用来表示用户对特定主题信息相对稳定的兴趣需求,它应该能够反映 出某用户在相当氏的一段时期内对信息需求的主要倾向。随着对用户反馈信息的收 集和对用户行为的跟踪,信息过滤系统将利用特定的更新方法对当前的用户兴趣模 型进行及时调整,以使其更好地反映用户兴趣,符台用户的真正需求。用户模型的 作用相当于信息检索中的查询请求,但用户兴趣模型与检索时用户提交的查询请求 并不相同。在各种原形系统中对用户模型的表示常见的有以下几种。 2 ,1 2 用户模型( u s e rp r o f i i e ) 的四种表示方式 ( 1 ) 向量空间模型 向量空间模型( v e c t o r s p a c em o d e l s ) 是6 0 年代末由s a l t o ng 等人提出的, 它是研究信息检索方法的一个分支“。其基本思想是按照信息中各个关键词的出现 频率,建立特征项及其相应的权值向量来表示文档,根据特征项向量在向量空间中的 央角确定用户文档与对象的特征向量的相似度,把最相似的对象返回给用户,通过用 户反馈,更新用户文档。该结构的特点是用户文档中的属性数量一般来说非常多,因 此,如何选取尽可能少而又能准确描述用户兴趣的特征项是这种结构的关键,通常的 做法是闽值控制。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论