(计算机软件与理论专业论文)个性化推荐系统研究.pdf_第1页
(计算机软件与理论专业论文)个性化推荐系统研究.pdf_第2页
(计算机软件与理论专业论文)个性化推荐系统研究.pdf_第3页
(计算机软件与理论专业论文)个性化推荐系统研究.pdf_第4页
(计算机软件与理论专业论文)个性化推荐系统研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)个性化推荐系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复巨 大学硕士 论文 摘 要 随着以电子期刊和在线文档形式存在的科技文献的不断增加, 对科研教学人员 来讲, 如何充分利用现有的网络信息资源, 从庞杂的电子文档中及时、 准确地获知 与自己 研究领域相关的最新科技信息就显得非常必要。 对于科教人员这一特定群体 来讲, 其信息需求倾向会在相当长一段时间内围绕一个主题基本保持不变, 所以他 们会长期关注某类信息的发展动态。 因此, 根据用户个人一贯的兴趣, 将用户真正 感兴趣的信息主动提供给他, 而尽量屏蔽那些不为用户喜欢的信息, 使之能够真正 做到 “ 各得所需” ,这正是个性化推荐系统的特征所在。 个性化推荐技术中用户需求信息的获取与学习、 用户需求的描述文件的表达与 更新、 资源描述文件的表达、 个性化推荐技术是关键。 文章对该领域的主要研究成 果进行了综述比较。通过比 较现有原型系统的实现方式, 深入讨论了实现个性化服 务的关键技术。 在第 3章详细介绍了复旦大学图书馆个性化推荐系统的用户建模、自 适应更 新、文档向量化和推送算法等关键技术。 并对实验结果进行了分析. 文章最后给出了基于w e b 挖掘的推荐系统框架。对w e b使用数据,w e b内容 数据和w e b 结构数据进行聚类分析,推荐引擎根据挖掘结果向用户提供有效的推 荐服务。 关键词:推荐系统、文本过滤、用户模型、w e b日 志挖掘 复旦人学硕士论文 a b s t r a c t a s t h e g r o w i n g u s e o f i n t e r n e t i n e v e r y f i e l d s , t h e e - d o c u m e n t o f s c i e n c e a n d t e c h n o l o g y i s e v e r y w h e r e i n t h e i n t e r n e t . i t i s b e c o m i n g m o r e a n d m o r e i m p o r t a n t f o r t h e r e s e a r c h e r s t o f i n d t h e n e e d e d i n f o r m a t i o n t h r o u g h t h e i n t e r n e t . a c t u a l l y r e s e a r c h e r s i n s p e c i a l f i e l d a l w a y s w a n t t o g e t t h e i n f o r m a t i o n r e l a t e d t o t h e i r r e s e a r c h f i e l d . t h e k i n d o f i n f o r m a t i o n t h e y n e e d w i l l n o t c h a n g e f r e q u e n t l y . w h a t a r e c o m m e n d a t i o n s y s t e m d o i s t o r e c o m m e n d w h a t u s e r s t r u l y n e e d a c c o r d i n g t o u s e r s s p e c i a l i n t e r e s t p r o f i l e t h e k e y t e c h n o l o g y o f p e r s o n a l i z a t i o n r e c o m m e n d a t i o n s y s t e m i s a c q u i r i n g a n d t h e l e a r n i n g o f u s e r s p e r s o n a l i n t e r e s t , t h e r e p r e s e n t a t i o n o f u s e r p r o f i l e , a d a p t i o n o f u s e r m o d e l . i n t h i s p a p e r t h e u p d a t e d r e s e a r c h w o r k i n t h e f i e l d i s s u m m a r i z e d . t h e i n d e p t h d i s c u s s i o n a n d s e a r c h o f t h e k e y t e c h n o l o g y i s a l s o r e p r e s e n t e d i n t h i s p a p e r . i n c h a p t e r 3 i t g i v e s t h e d e t a i l s o f t h e u s e r m o d e l i n g , a d a p t i o n , t h e v e c t o r i n g o f d o c u m e n t s a n d t h e r e c o m m e n d a t i o n a l g o r i t h m o f t h e r e c o m m e n d a t i o n s y s t e m i n f u d a n u n i v e r s i t y s d i g i t a l l i b r a r y . r e c o m m e n d a t i o n s y s t e m s h a v e e m e r g e d a s a n e w s t r a t e g y o f w e b s e r v i c e . i t i s r e p r e s e n t e d i n c h a p t e r 5 i n t e g r a t i n g w e b l o g m i n i n g t o g e t h e r w i t h w e b s i t e c o n t e n t m i n i n g a n d w e b s i t e s t r u c t u r e m i n i n g i n r e c o m m e n d a t i o n s y s t e m . k e y w o r d s : r e c o m m e n d a t i o n s y s t e m, t e x t f i l t e r i n g , u s e r p r o f i l e , w e b l o g m i n i n g 4 复旦大学硕士论文 1绪论 1 . 1研究背景 在网络环境下, 人们可以借助互联网上丰富的信息资源、 功能强大的搜索引擎 和快捷的传送手段, 使文献资料的搜集和获取变得十分容易, 然而, 在使用中人们 也发现要准确、 快速地查找自己 所需的信息却是越来越困难。 这其中有两方面的原 因:一方面,人们一次搜索得到的结果可能有成千上万条,但其中有用的却很少; 另一方面,由于不同类型、 不同载体的数据库大量增加, 使得网站的用户界面变得 十分复杂, 用户使用不同的资源往往需要使用不同的检索软件并需对路径及其他一 些参数进行必要的设置。 这就大大增加了用户检索和利用网上信息资源的麻烦。 面 对网络信息服务的现状, 人们在寻求一种将信息用户感兴趣的信息主动推荐给用户 的服务方式,也就是个性化的信息服务。 所谓个性化信息服务,最直接的概念就是 “ 以用户为中心”的服务模式。即 根据用户提出的明确要求,或通过用户个性、习惯的分析而主动向用户提供其可 能需要的信息和服务,也是培养个性,引导需求的服务。其根本就是尊重用户, 研究用户的行为和习惯,为用户选择更为重要的资源,提供特色服务。 个性化推荐服务的涵义是什么呢?其个性化的实质是针对性,即对不同的用 户采取不同的服务策略,提供不同的服务内容。 推荐的实质是主动性,即系统自 动按照用户的信息需求提供相应的服务。在信息领域,就是实现 “ 信息找人,按 需服务”的目 标。每个用户都有自己 特定的、长期的信息需求。用这些信息需求 组成过滤条件,对资源流进行过滤,就可以把资源流中符合需求的内容提取出来 进行服务,这种做法就叫做信息过滤。信息过滤是个性化服务的基础。 1 . 2相关研究 目 前存在着许多个性化服务系统, 它们提出了各种思路以实现个性化服务。个 性化服务系统根据其所采用的推荐技术可以分为两种: 基于规则的系统和信息过滤 系统。 信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。 基于规则的系 统如: i b m 的w e b s p h e r e , b r o a d v i s i o n , i l o g 等, 它们允许系统管理员根据用户的 静 态特征和动态属性来制定规则, 一个规则本质上是一个工 f - t h e n 语句, 规则决定了 在不同的情况下如何提供不同的服务. 基于规则的系统其优点是简单、 直接, 缺点是 规则质量很难保证, 而且不能动态更新, 此外, 随着规则的数量增多, 系统将变得越 来越难以管理。基于内容过滤的系统 如: c i t e - s e e r , i f w e b , s i f t e r , p v a , w e b m a t e , w e b a c e 和w e b p e r s o n a l i z e r 等, 它们利 用资源与用户兴趣的相似性来过滤信息。 基于内容过滤的系统其优点是简单、 有效, s 复旦大学硕士论文 缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源, 只能发现和用户已有兴趣相似的源。协作过滤系统 如: w e b w a t c h e r , g r o u p l e n s , f i r e f l y , 它 们 利 用 用 户 之间 的 相 似 性 来 过 滤 信 息 。 s t a n f o r d 大学的s i f t ( s t a n f o r d i n f o r m a t i o n f i l t e r i n g t o o l ) 系统主要是对 网络新闻进行过滤, 它使用向量空间模型来实现用户定制的信息需求与新闻资料 之间的匹配, 其用户的信息需求, 即用户需求模型, 是由用户事先提交其兴趣关键 词和非兴趣关键词的方法来创建的。由于s 工 f t 系统用户规模增长迅速,到1 9 9 6 年4 月,该系统需处理的数据规模己达到:每天必须为4 0 , 0 0 0 多个订阅请求推送 8 0 , 0 0 0 多篇新闻 报道。为提高系统的效率,s i f t 系统在实现新闻推送时,对用户 定制兴趣的处理采用了检索系统中通常对文献的处理方式, 即对所有兴趣主题词进 行标引,用倒排方式对系统中现有的订阅请求进行统一组织。但是,s i f t 系统没 有考虑用户兴趣的不定期更新这一客观需求, 所以上述方法对需要更新的用户兴趣 并不适用【, 、 , 。 n e c i 研究所于1 9 9 7 年开发研制了r e s e a r c h i n d e x 科技文献电 子图书馆( h t t p : / / w w w . r e s e a r c h i n d e x . c o m ) 系统【,一 ,zo o r e s e a r c h i n d e x目 前的 文 献规模己 经 达到 3 0 0 , 0 0 0 多篇原文文献、4 , 0 0 0 , 0 0 0 多篇引文资料,共5 , 0 0 0 , 0 0 0多个页面,而且 它己 经开始为全球的科研人员提供英文科技文献的全文服务。 r e s e a r c h i n d e x 系统 借鉴了新西兰w a i k a t o 大学计算机系开发n e w z e a l a n d d i g i t a l l i b r a r y 的 部分研 究成果( h t t p : 刀w w w . n z d l . o r g ) , 对p s 格式的英文科技文献转换为计算机可直接 处理的a s c 工 工 文本文件, 然后对a s c 工 工 文本文件进行统一标引。 但其整体设计思想 主要是借鉴t s c i ( s c i e n t i f i c c i t a t i o n i n d e x i n g )对科技文献的组织和评价方 法,特别是通过对文献引文的详尽分析,实现了科技文献全自动的引文索引 ( a u t o m a t i c c i t a t i o n i n d e x i n g ) 。 在科研人员看来, 通过r e s e a r c h i n d e x 电子图 书馆来获取科技文献很类似自己通常获取文献的方式,不但可以直接获取文献原 文, 还可以在系统的指导下很方便地获取其引文信息和内容相关的其他文献。 据相 关文献介绍, r e s e a r c h 工 n d e x 电子图书馆系统也提供了用户 p r o f i l e 机制,以期达 到通过 e m a i l 和 w e b界面实现新文献向注册用户推送的目 的。在 r e s e a r c h 工 n d e x 中, 用户的身份是通过h t t p 的c o o k i e 文件来验证、 保存和识别的。 用户p r o f i l e , 即用户的兴趣信息需求通过多种形式来描述, 它可以是用户自己添加的关键字, 也 可以是用户关注的网址信息、 还可以是用户在浏览文献时随时添加进来的自己认为 有价值的文献信息。 这几种兴趣的描述形式之间是逻辑或关系, 即如果新文献含有 指定的关键词信息, 认为该新文献与用户需求相关; 如果新文献引用了用户反馈的 兴趣文献之一, 认为该新文献与用户需求相关; 如果新文献与用户反馈的文献在内 容上相关, 也同样认为该新文献与用户需求相关。 尽管方法直观、 思路明确, 但该 复旦大学硕十论文 项服务因待处理信息的多样性和复杂性,在 r e s e a r c h 工 n d e x系统中并没有真正实 现。 p a z z a n i m . 等人提出的 s y s k i l l 在更新用户兴趣 时, 采用了 算法复杂度较低的贝叶斯分类法( 1a 7 t r e c 是t e x t r e t r i e v a l c o n f e r e n c e 的 缩写。 t r e c 通过提供规范的大规模语 料 ( g b 级) 和对文本检索系统性能的客观、公正的评测, 来促进技术的交流、发 展和产业化,同时促进政府部门、学术界、工业界间的交流和合作。 t r e c 会议上 两个传统的任务是路由寻径 ( r o u t i n g t a s k ) 和专项检索 ( a d h o c t a s k ) , 而过 滤( f i l t e r i n g t r a c k ) 是路由 寻径任务的重要子项目。t r e c在信息检索的理论和 技术研究以 及系统测试评价方面取得的结论和标准,对信息过滤的形成和发展提 供了强有力的支持。1 9 9 6年 t r e c - 4会议第一次将过滤列为路由寻径任务的一个 专项, 同样在规范的语料库基础上, 不同的过滤系统和过滤方法的性能可以 在t r e c 会议上进行对比评测。但过滤项目的内容随着研究试验的深入更切合实际应用。 在t r e c - 7 之前, 过滤项目 都是以大规模语料作为训练集, 使每一个主题 ( t o p i c ) 都有相应的相关文档集, 然后在新语料中进行测试。 从t r e c - 7 开始过滤项目 再度 细分, 可以 通过三种方式进行文本过滤,即适应性过滤 ( a d a p t i v e f i l t e r i n g ) . 批过滤( b a t c h f i l t e r i n g ) 和路由 寻径( r o u t i n g ) 。 特别是适应性过滤这种方式, 它能够模拟在线时间要求很紧的文本过滤应用。适应性过滤具体是指过滤的初始 起点是从某一主题的描述中提取出来的特征信息,而不是庞大的相关文档集。在 过滤时通过用户对推送文档相关程度的在线即时反馈,系统对反馈信息的学习后 得到一个对该主题更好的描述。与适应性过滤相比,批过滤和路由方法则是传统 的机器学习方法,通常是指以一批用户评价标识的训练文档集为起点。批过滤要 求用户必须立刻给出对被检出文档或确定接收或确定拒绝,而路由 任务则是返回 一个按相关性排序的文档列表 94 , 75 东北大学的姚天顺教授和林鸿飞博士等人进行了中文文本过滤技术的研究 ( 使用新闻资料作为其实验语料库) 。在他们提出的中文文本过滤模型中,用户 复旦大学硕士论文 需求采用基于实例文本的主题词表示, 文本表示采用向量空间模型, 需求与文本 的匹配技术采用向量夹角余弦作为相似系数。 为了更好地排列满足阐值要求的文 本, 在对文本进行索引时, 他们引进文本结构分析技术,从文本中获取逻辑层次 信息,以 期提高文本片断检索时文档与查询的匹配效率3 7 3 9 f a b 是s t a n f o r d 大学数字图书馆项目 组开发的基于内容的过滤和协同过滤的 复合型推荐系统, 用于推荐w e b 页面。 其特点是综合了基于内容过滤的推荐和协同 过滤推荐的优点, 同时支持两种类型的推荐服务。 f a b 系统主要包括页面收集代理, 个人推荐代理和中心路由器。页面收集代理从 w e b上收集特定主题的页面,个人 推荐代理从特定主题中选择用户感兴趣的页面推荐给用户。 个人推荐代理根据文档 内 容信息建立用户的用户档案, 然后根据用户档案之间的相似性搜索用户的最近邻 居。 产生的推荐结果可以基于用户档案中的文档内容信息, 也可以基于用户最近邻 居的评价信息(a a 7 数据挖掘技术在推荐系统中的应用。 各种数据挖掘技术, 包括关联规则 挖掘、 序列模式挖掘、聚类分析、b a y e s i a n分类等在推荐系统中得到了广泛的应用。基 于w e b 挖掘的推荐系统得到了越来越多研究者的关注。 1 . 3本文的内 容安排 为了实现个性化推荐, 首先需要通过一种合适的表达方式建立用户的兴趣,并 跟踪用户行为进行兴趣的自 适应更新。为了把资源推荐给用户, 必须组织好资源, 选取资源的特征, 并采用合适的推荐方式。此外, 还必须考虑系统的体系结构, 考虑 在服务器端、 客户端和代理端实现的利弊。 本文从用户兴趣模板的构造与更新、 文 献资料的组织表达、个性化推荐以及体系结构这4 方面讨论文献推荐系统的实现。 本文第一部分是引言, 介绍了 推荐系统的概念和特点, 并介绍了国内外相关研 究的 情况;第二部分部分详尽分析了 推荐系统的相关关键技术:用户兴趣的学习; 用户兴趣的模型; 用户模型的刷新。 第三部分介绍了复旦大学图书馆个性化推荐系 统所使用到的用户建模方法、模型自 适应更新算法、文献资源的处理和推送算法: 第四部分给出系统测试结果进行分析; 第五部分介绍了一个基于w e b 挖掘技术的推 荐系统。最后提出今后继续研究的方向。 复a 大学硕士论文 2 .用户需求模型技术研究 信息过滤是个性化推荐的基础, 推荐系统的本质是过滤系统。 信息过滤作为对 传统信息检索服务有益的补充, 不但设法提供给用户感兴趣的信息, 还对用户的兴 趣倾向进行跟踪记录并从中抽取其兴趣的特征。 当收集到新的与用户兴趣相符合的 信息时, 系统主动通知用户; 用户在接收到新信息的同时, 可以反馈给系统自己对 新信息的兴趣评价, 在用户与系统的互动中来提高用户获取信息的效率和质量。 其 关键技术是用户需求模型的构造,即用户建模技术。 2 . 1用户需求模型的涵义以及标准 2 . 1 . 1用户需求模型形式化描述 用户需求模型 ( u s e r p r o f i l e )是在信息过滤系统中 提出的,对用户信息需求 的一种描述形式。 其作用相当于信息检索中的查询请求, 但用户需求模型与检索时 用户提交的查询请求并不相同。 因为在信息过滤系统中, 用户的需求信息需要长期 驻留在系统服务器端, 该需求信息将随着用户兴趣的调整细化而及时更新; 在信息 检索系统或搜索引擎中, 用户的需求信息就是用户当前提交的查询关键词, 对检索 系统来讲两次查询之间互不相关, 检索系统服务器对此类信息不做也专门保留, 因 而是一次性的。 用户需求模型用来表示用户对特定主题信息相对稳定的兴趣需求, 它应该能够 反映出某用户在相当长的一段时期内对信息需求的主要倾向, 随着对用户反馈信息 的收集和对用户行为的跟踪, 信息过滤系统将利用机器学习方法对当前的用户需求 模型进行及时调整,以使其更好地反映用户兴趣,符合用户的真正需求。 信息过滤系统中的用户需求模型刻画的是: 用户的信息需求自 提交到注销这段 时间内, 对其某一兴趣需求的一体化描述, 其中包括用户需求模型随着需求调整进 行动态更新的过程,以 达到及时、 准确地反映用户的兴趣信息需求的目 的4 fi , 4 8 。 用 户 需 求 模 型 可 形 式 化 描 述为 一 个 三 元 组p : p = 少 , f , y ) 。 其中 , , 一 t, (0) , 1 (u , .i (i), . 了 , : 一 f ( , f cz , , , f w . f () j 甲 : i x 二 。 1 , (1 (i., 一 y (i , f ,u . ) , 一 。 ,1 ,.n ) 这里, 1 为该用户需求模型在刷新过程中产生的全部状态集; f为系统为该用户需 复旦大学硕十论文 求模型采集到的全部反馈信息集,其作用是驱动刷新过程;甲表示用户需求模型 的刷新函数。不难看出:i ( 0 ) 为该用户需求模型的初始状态;i ( ) 为经过 i次刷新 后的用户需求模型;f (。 表示对系统第 i次反馈的用以刷新i (w ) 的评价信息:而 i ( l) , . . , i ( ) 则表示用户需求模型的终结状态集。 2 . 1 . 2用户建模的分类方法 用户建模一般有三种分类方法。 1 .按照与特定领域知识的关系分类 按照用户建模与特定领域的关系来分, 可以把用户需求模型分为: 一种是建模 过程与特定的领域知识无关, 建模过程是一个独立的部分, 通过公共的接口与系统 的其他部分发生关系。 其特点是通用性好。 但在特定领域应用时, 模型所能代表和 提供的知识有限; 另一种是建模过程与特定的 领域知识无关, 借助特定的领域知识 定义特定的用户需求模型和模型的更新过程。 适用于特定的领域, 能代表和提供较 为丰富的信息。 2 . 按照用户参与程度分类 按照用户参与的程度, 可以把用户需求模型分为隐式和显示两种。 隐式建模时, 系统对用户建立一种框架, 设计者对用户的分类并不十分清楚, 用户的模型通过自 动过程得到创建和维护。 显式建模中, 个性化系统有一个用户模型嵌入其中, 系统 的设计者对用户有一个清楚的了解, 可以明确地分类和描述系统的访问者。 在这种 系统中, 如果不同的用户的偏好被识别出, 那么系统的行为容易被解释, 也容易被 修改。 3 .按照获取信息的方法分类 按照获取信息的方式来分, 可以把用户需求模型分为显式知识获取和隐式知识 获取。 前者是通过提问来获取知识。 许多系统采用提问来获取对用户的描述, 在得 到这些信息后就可以分类用户于当前的某一个类。 后者则通过分析用户的行为就可 以隐式地获取对用户的描述, 一般用于随后的用户交互, 所获取的知识可以 被用来 更新用户模型。 这两种方式可以结合起来使用。 通过对新用户的提问来获取用户的 初步信息, 并对该用户分到某一类中; 在用户交互过程中动态获取的规则不断地被 用于修改 其用户模型a n ) 一个用户需求模型的基本评价标准拟包括以 下3 个方面: 1 . 粒度: 是指用户需求模型是依据下面哪一种模式设计的或是哪几种模式组 合设计的, ( 1 ) 每一个用户一个模型, ( 2 ) 每一个用户多个模型, ( 3 ) 多个用户共 复旦大学硕上论文 享一个模型。 2 .修改能力:用户需求模型可以是静态的或动态的,一个静态模型在与用户 的交互过程中, 不发生改变。 而动态模型一旦学习到新的信息, 就及时修改。 静态 模型可以被预先嵌入一个系统中, 或者在系统的初始绘画阶段由用户建立。 动态模 型在整个交互过程中及时获取或修改。 3 .时效性:用户模型可以是短期的或长期的。短期模型建立在当前交互过程 中, 当前交互过程结束后, 可以被放弃。 长期模型可以从一个交互保持到另一个交 互过程中。 2 . 1 . 3现有的用户模型标准 在制定用户模型之前, 需考虑下面几个问题: 有没有现成的标准? 收集什 么数据? 收集的数据用于什么目 的? 如何收集数据? 根据什么信息源来收集? 收集的数据如何组织? 用户信息能否自 适应地更新?用户模型还没有一个统一 的标准。w 3 c 有两个涉及用户模型的 标准: p i c s ( p l a t f o r m f o r i n t e r n e t c o n t e n t s e l e c t i o n ) 和a p p e l i . 0 ( a p 3 p p r e f e r e n c e e x c h a n g e l a n g u a g e 1 . 0 ) , p i c s 是父母 和老师用来控制孩子的浏览能力的, 提供了过滤规则定义语言 p i c s r u l e s . a p p e l i . 0 可定义用户感兴趣的站点和过滤规则, 这些规则大部分是在p 工 c s r u l e s 的 基础上发展起来的。 此外, n e t s c a p e , f i r e f l y 和v e r i s i g n 曾向w 3 c 的p 3 p ( p l a t f o r m f o r p r i v a c y p r e f e r e n c e s ) 工作组提交了一个o p s ( o p e n p r o f i l i n g s t a n d a r d ) 草 案, 由于目 前 p 3 p版本不打算考虑如何进行数据传输, 因此该草案被搁置一边, o p s 描述了如何表示一个用户描述文件以及用户与w e b 站点交互的问题。 在收集用户的 信息之前, 首先需分析用户愿意提供什么信息, 用户一般都很注意个人信息的保密 性, w w w . c y b e r d i a l o g u e . c o m 的调查显示, 8 0 9 6 的用户愿意向w e b 站点提供自 己的 姓 名、性别、年龄、教育背景和兴趣, 但大多数用户不愿意提供私有、敏感的信息, 比如个人收入和信用卡号等, 该公司另一项调查显示, 2 8 % 的用户愿意w e b 站点向其 他w e b 站点共享自己的信息。为了规范w e b 用户信息的保密性, w 3 c 成立了p 3 p 工 作组来解决这个问题, 它允许用户有选择地向 w e b站点提供自己的信息, 从而达到 保护用户信息的目 的, 目 前己 有一些站点和浏览器支持了p 3 p , 比 如 www . w 3 c . o r g ,w w w, w w w . a o l . c o m 等站点和m i c r o s o f t / a t 通过收集用户感兴趣的领域, 有利于对用户感兴趣的内容进行分类; 通过分析 用户请求的顺序有利于预测用户将来可能的行为, 从而推荐合适的信息。 一般w e b 日 志挖掘可分为4 步: 首先清除w e b 日 志中无关的信息, 比如请 求失败信息, 页图片请求信息等等, 然后将剩下的数据存放到数据库中。 将 u r l 、动作、资源的类型、大小、请求的时间、请求者域名、用户、服务器状态 作为维变量构建数据立方体。 进行在线分析处理, 通过对数据立方体的切块和 切片, 分析用户在不同域的分布情况, 分析用户对资源的使用情况等等。 利用 各种数据挖掘方法来预测、分类和发现有意义的关系, 比如用户的行为模式、 用 户行为的变化、 不同用户群在使用和行为上的相似性等等。 下图图示了w e b日志 挖掘过程。 复旦大学硕十论文 尽 峪人门公抽处母 澳式发叹 日曰妙限武分析 2 . 3 用户模型表示机制 不同的个性化服务系统的用户模型各有其特点。 一般表示为关键词布尔模型, 空间向量模 型, 潜在语义索引 模型等。用户模型从内 容上可以划分为基于兴趣的和基于行为的两种类型。 基于兴趣的 用户模型可以 表示为加权矢量模型、 类型层次结构模型、 加权语义网 模型、 书签和 目 录结构等。基于行为的用户模型可以 表示为用户浏览模式或访问 模式。下表从用户模型, 学 习的信息源两方面比 较了几个典型的个性化服务系统。 表2 - 3典型系统在用户模型方面的对比 系统用户模型 学习的信息源 br o a d vi s i o n用户静态信息用户注册信息 p e r s o n a l we b wa t c h e r 基于加权关键词矢量, 隐式创建与更新利用指向 文档的超链内容 s y s k i l l 相关联,则表示这两个关键词必须同时包含在过滤文档中。如果两 个查询关键词之间用布尔操作符 = 相关联, 则表示对于这两个关键词, 其中有一个 包含在过滤文档中即可。 利用布尔模型构造的过滤系统在运算的环境下可取得显著的过滤效果。 更进一 步来说, 这种技术就是基于一系列的差与和来执行布尔操作的, 相对来说比较易于 理解。但是这种传统的布尔过滤技术也存在一些不足之处: ( 1 ) 对于一个给定的查询很难控制它的输出结果。有时会得出很多结果,可与 用户个性兴趣相一致的却很少。相反, 有时却得不到任何信息。 ( 2 ) 在一次查询所获得的文档中,没有把文档符合用户个性兴趣的相近程度表 示出 来,即:所有获得的文档都处于同 样的重要程度。 ( 3 ) 对于关键词来说, 没有标识其对文档或查询的重要程度的重要因子或权重。 即:所有文档中或查询中的关键词都处于同样重要的地位,没有主次之分。 ( 4 ) 布尔查询公式可能会产生有背于人们的直觉思维模式的结果。 鉴于传统的布尔模型存在这些不足, 有人提出了 扩展的布尔模型信息检索系统 s o 。 这个布尔模型信息检索系统是介于布尔查询处理和向 量处理模型之间。 它的查 询构架还是以 布尔模型为基础, 只是同时增加了关键词相对于查询或文档的重要程 复旦大学硕十论文 度,也称为权重。 2 . 3 . 2向量空间模型 向 量空间模型 ( v e c t o r - s p a c e m o d e l s即v s m )的主要思想是按照信息中各个 关键词的出现频率建立关键词向量, 根据各关键词向量在向量空间中的夹角确定用 户文档与对象的特征向量的相似度,把最相似的对象返回给用户,通过用户反馈, 更新用户文档。 该结构的特点是用户文档中的属性数量一般来说非常多, 因此, 如 何选取尽可能少而又能准确描述用户兴趣的特征项是这种结构的关键, 通常的做法 是闭值控制。这种改变可以通过相关度反馈学习来实现。 向量空间模型是6 0 年代末由s a l t o n g . 等人提出的, 它是近些年来所研究的信 息检索方法的一个分支 卜 “ 3 , 。由 于向 量空间模型是建立在规范的数学模型基础上 所以该模型在信息检索领域应用最为广泛。 其中最为著名的应用该模型的检索系统 是s m a r t 系统。 向量空间模型用特征项及其相应权值代表文档信息, 所以 其应用前 提是一篇文档的中心涵义能通过其中的词汇信息( 即 特征项) 体现出来。 在进行信 息检索时, 文档与查询请求之间的相关程度是通过向量运算来描述的。 如果将文献 过滤中的新文档和用户需求模型也用向量形式表示出来, 那么向量空间模型将同 样 适用于信息过滤领域。v s m 的基本概念如下: 1 .文档 ( d o c u m e n t ) :泛指一般的文献或文献中的片断,一般指一篇文章。 2 . 特征项( t e r m ) :当文档的内容被简单的看成是它含有的基本语言单位 ( 字、 词、 词组或短语等) 所组成的集合时, 这些基本的语言单位统称为特征项, 即文档 可以 用项集( t e r m l i s t )表示为d ( t 。 i t 2 i . . . , t , 二 , t ) ,其中t , 是第i 个特征项, 1 -i 9 2 1 - , 9 j . . . , 9 j, 9 , 是用户查询请求中第i 个特征项的 权值, 1互i 二n。 4 . v s m :给 定 一 文 档d = ( , , - , , . . . , ), 由 于 复旦大学硕士论文 t , 在 文 档中 既 可以 重复出 现又 应该 有 先 后次 序的 关 系, 分 析 起来 有 一定的 难 度。 为 简化分析, 可以 暂不考虑t , 在文档中 的 先后顺序并要求t , 互异 ( 即 没有重复) 。 这 时 可 把t 1 , t 2 , . . . , t 。 看成一个n 维的 坐标 系, 而w l , w z , - . , w n 为相 应的 坐 标值, 因 而 d ( w , , w 2 , . . , w . , . . . , w n ) 可以 看成是n 维空间 ( 特征项 文档空间,即t d空间) 中的 一 个向 量。 我们 称( w 1 , w 2 , . . . , w * , w) 为文 档d的向 量表示。 5 . 相似度 ( s i m i l a r i t y ) : 用来度量文档之间或用户的信息需求之间的( 内容) 相关程度。相应地,用户需求模型也表示为空间向量模型,表示为 u ( u 1 , u 2 , . . . , u , . . . , u n ) 文档d 与 用 户需 求 模 型u 向 量 之间的 相 似 度用 下式 来 计 算: s im ( d , u ) = 艺w k u k ( 2 - 1 ) 或用向量的夹角余弦值来表示: 艺 w k “ sim (d ,u )= cos b = 一言雨 ( 2 - 2 ) k = 1 k = 1 将文档表示成能单独加权和操作的特征项集合,再在 t d空间上计算文档向量 和用户需求模型之间的相似度,最后提供给用户一组按相似度降序排列的文档列 表。 向量模型具有如下优点: ( 1 ) 向量模型使得对查询向量中关键词权重的赋值成为可能; ( 2 ) 利用计算得到的相似度可以对获取的文档按照相关度排序; ( 3 ) 许多实验表明:向量模型比布尔模型能够得到更加正确的结果。 2 . 3 . 3 潜在语义索引模型 潜在语义索引模型已 被广泛地应用到信息检索领域中, 它是利用字项与文档 对象之间的内在关系形成信息的语义结构。 这种语义结构反映了数据间最主要的 联系模式, 忽略了个体文档对词的不同的使用风格。 这是挖掘文档的潜在的语义 内容,而不仅仅是使用关键字的匹配,是对字项文档矩阵使用奇异值分解 ( s i n g u la r - v a l u e d e c o m p o s it io n ,简 称为s v d ) 方 法 来 实 现的, 把小的 奇异 值 去 掉。 对于使用奇异值分解来实现信息过滤是给定一个字项文档矩阵x , x 有r 行c 复旦大学硕士论文 列。行表示文档集中关键字项的个数, 列表示文档集中文档的数量。对 x 进行奇 异值分解得 x = t s d 。其中t 是 r x m矩阵, 称其标准正交列为左奇异向量; s是m x m 的对角阵, s 中的正奇异值是以递减的顺序排列的, d 是m xc 矩阵, d 的标准正 交列可称为右奇异向量, m 是矩阵s 的秩。 通过对矩阵t , s 和 d的处理使 x 矩阵被重构。l s i 技术的关键在于只取矩阵 s 的k 个奇异值, 其它的值置零。 值k 是一个设置参数, 一般情况下经常设置在1 0 0 到2 0 0 之间。 原始矩阵x 可近似表示为x = t s d , 其中t 是具有标准正交列的r x k 矩阵, s 是一个k x k 的对角阵, d 也是具有标准正交列的c x k 矩阵。 无论是在l s 工 还是在关键字向量匹配方法中, 文档都是以多维向量来表示的。 关键字向量中的值表示字在文档中出现的频率。 l s 工 向量中的值是通过s v d 分解 得到的缩减了的值。 内容相近的文档它的向量也是相近的。 这也就是信息过滤的 本质所在。 2 . 4 用户需求模型的自 适应更新 在定制好一个用户需求模型之后, 系统可以让用户自 主修改, 也可以由 系统自 适应地修改, 这样, 兴趣模型就可以随用户兴趣的变化而变化。 系统要自 适应修改用户信息, 必须根据学习的信息源分析当前用户的行为, 从 而调整用户需求模型。 根据学习的信息源, 用户跟踪的方法可分为两种: 显式跟踪和 隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价, 从而达到学 习的目的。 隐式跟踪不要求用户提供什么信息, 所有的跟踪都由系统自 动完成, 隐式 跟踪又可分为行为跟踪和日 志挖掘。显式跟踪是简单而直接的做法, 系统可以要求 用户反馈自己 对推荐资源的喜好程度。 有些情况下, 用户无意提供自己的反馈信息, 这时候可以采用行为跟踪, 因为用户的很多动作都能暗示用户的喜好。用户行为可 以表现为查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、 前进、后退等等。研究表明, 简单的动作( 比如点击鼠标) 不能有效地揭示用户的兴 趣, 而浏览页面和拖动滚动条所花的时间可以 有效地揭示用户的兴趣。用户查询、 访问页面、标记书签能有效揭示用户的兴趣。目 前, 基于w e b日 志的挖掘技术发展 迅速, 利用w e b日 志可以 获得页面的点击次数、页面停留时间 和页面访问 顺序等信 息。通过分析w e b日 志可以获得相关页面、相似用户群体和用户访问模式等信息, 个性化服务系统可以利用这些信息创建或更新用户需求模型。 复旦大学硕士论文 3复旦大学图书馆个性化推荐系统 随着互联网技术向社会各个领域的不断渗透, 以电子期刊和在线文档形式存在 的科技文献几乎遍布于i n t e r n e t 的每个角落,加上信息时代科技文献的出版速度 逐年增加, 对科研教学人员来讲, 如何充分利用现有的网络信息资源, 从庞杂的电 子文档中及时、准确地获知与自己研究领域相关的最新科技信息就显得非常必要。 对于科教人员这一特定群体来讲, 其信息需求倾向会在相当长一段时间内围绕一个 主题基本保持不变, 所以他们会长期关注某类信息的发展动态。 借助现有的检索系 统或搜索引擎去获取他们关注的新信息, 他们只有不定期地向检索系统或搜索引擎 提交同样的查询请求, 这种信息获取方法显然给用户造成了许多不必要的浪费。 高 校图书馆的个性化信息服务就是针对这些科教人员的文献推荐服务。 3 . 1 高校图书馆个性化服务简介 高校用户信息需求的分析对高校情报工作而言,服务的重点是学校的中高层 管理人员和教学、科研人员。在信息环境中,这部分用户的信息需求呈现出广泛、 大量、高层次、高品位的特点,从内容到形式的多样性,使得用户不仅需要书刊 文献方面的信息,更需要信息服务部门对知识和信息进行二次开发、提炼后的信 息,这种信息服务有着明确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论