已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 曼曼曼曼曼曼曼曼曼曼曼曼曼皇曼鼍曼曼 m an ii 蔓鼍 摘要 随着互联网上信息的持续快速增加,传统的信息提供方式已不能满足人们的需要, 能够根据个人兴趣为用户提供个性化信息服务的网站得到人们的广泛关注。本文研究了 设计开发个性化网站的相关问题,主要包括各种用户建模技术及相应的个性化信息推荐 方式、基于本体的语义检索等。在深入讨论分析的基础上,设计开发了一个个性化服务 网站原型系统,网站的信息源为计算机领域学术论文,论文内容以x m l 格式存储,以 充分利用x m l 文档的结构化和富于语义的特性。原型系统实现的主要功能有:根据用 户的注册信息,能提供与用户兴趣相关的信息;随着用户访问时问的积累,在学习用户 兴趣的基础上能动态地调整用户的兴趣模型,进而根据用户兴趣模型提供个性化信息; 通过建立领域本体,为用户提供基于本体的语义信息检索;能够提供基于规则的信息推 荐。 关键词个性化;本体;内容过滤;w e b 日志;协作过滤;网站 a b s 仃a c t a b s t r a c t w i t ht h er a p i di n c r e a s i n go fi n f o r m a t i o no ni n t e r n e t , t r a d i t i o n a li n f o r m a t i o ns e r v i c ec a r l n o ts a t i s f yc u s t o m e r sa n ym o r e n ew e b s i t ew i n lp e r s o n a l i z e di n f o r m a t i o ns e r v i c ea c c o r d i n g t ou s e r s i n t e r e s ti sg i v e na t t e n t i o nw i d e l yb yp e o p l e t l l i sp a p e rd i s c u s s e st h ep r o b l e m sa b o u t h o wt oc o n s t r u c taw e b ;i tm a i n l yi n c l u d e ss o m eu s e rm o d e l i n gt e c h n i q u e sa n dt h e c o r r e s p o n d i n gp e r s o n a l i z e dr e c o m m e n d a t i o n , t h es e m a n t i cr e t r i e v a lo no n t o l o g ya n ds oo n w ed e v e l o p m e n tap r o t o t y p es y s t e m 、) l ,i t hp e r s o n a l i z e di n f o r m a t i o ns e r v i c e ,t h ei n f o r m a t i o n r e s o u r c e so nt h ew e ba t es c i e n t i f i ca n dt e c h n i c a lp a p e r s ,a n dt h ep a p e r s c o n t e n t sa t e m e m o r i z e di nx m lf o r m a tf o ri t sg o o ds e m a n t i cf u n c t i o n sa n de x c e l l e n tc o n s t r u c t i o n s 1 1 1 e u s e rm o d e li sm o d i f i e da u t o m a t i c a l l yb yt h ew e ba c c o r d i n gt ou s e r s v i s i t i n gb e h a v i o r s , t h e r e f o r et h ep e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c e sa r ea p p l i e d ;w ec o n s t r u c tad o m a i n o n t o l o g ya n du s ei ta p p l yt ou s e r ss e m a n t i ci n f o r m a t i o nr e t r i e v a lo no n t o l o g y ,n l ew e ba l s o c a l la p p l yt ou s e r sr e c o m m e n d a t i o ni n f o r m a t i o nb a s e do nc o l l a b o r a t i v ef i l t e r i n g ,b a s e d0 1 1 c o n n e c t i o nr u l e sa n ds oo n k e y w o r d sp e r s o n a l i z a t i o n ;o n t o l o g y ;c o n t e n t f i l t e r i n g ;w e b - l o g ;c o l l a b o r a t i v e - f i l t e r i n g w 色b s i t e 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其它人已 经发表或撰写的研究成果,也不包含为获得河北大学或其它教育机构的学位或证书所使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了致谢。 作者签名:盖辉j 鳞一 日期:上瘁年五月业日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 1 2 、不保密。 ( 请在以上相应方格内打“4 ”) 作者签名: 导师签名: 日期:牢年月_ l 日 日期:! z 年上月上日 第1 章绪论 m l i liii i ii_in 1 1 问题的起源 第1 章绪论 随着互联网的快速发展和计算机应用的广泛普及,网上各种信息持续地快速增加, 传统的信息提供方式越来越难以满足用户从互联网上获取信息的需要,因为一个特定用 户只是对其中很小一部分信息感兴趣。传统的信息提供方式,更多的着眼于用户的共性 要求,既不能很好地满足特定用户的个性化需求,也不具备提供主动信息服务的功能, 互联网上的信息的海量化,使得针对用户的个性化需求主动提供信息服务是信息服务领 域必须面对的挑战。随着互联网上信息的持续快速增加,利用传统的信息检索方式,越 来越难以找到用户需要的特定信息,信息检索效率和检索到的信息的质量都难以满足用 户的要求,有效解决这些问题的一个重要手段,就是在获取用户兴趣的基础上,为用户 提供个性化的信息服务,以满足用户在信息检索效率和信息质量上的要求。 自1 9 9 3 年以来,随着计算机网络技术、计算机软硬件技术的快速发展和计算机应 用的广泛普及,互联网一直在快速发展,一方面,连入互联网的国家、单位和计算机快 速增加,从最早仅仅连接美国的少数几所大学和科研机构,到现在已经深入到人类生活 的各个领域。互联网在我国也得到了快速发展,据中国互联网络信息中心的最新统计报 告显示,目前,中国互联网用户超过1 3 亿人,网站数量超过8 4 万个。综合国内外的 发展来看,互联网已经成为世界范围的、规模巨大、方便快捷的数字信息源。 互联网是一个高度开放、异构、分布式的信息空间,没有统一的管理机制,各种信 息杂乱地散布在各个站点上,而且每天以极快的速度更新。互联网的这种高度无序和不 可管理特性给获取信息带来了很大的困难,一方面,用户知道互联网是一个十分丰富的 信息源,自己所需要的信息就在其中;另一方面,却很难找到自己所需要的信息。 传统的信息检索服务为用户使用互联网信息资源提供了方便,特别是在互联网上信 息相对较少时,这种信息服务机制还是比较有效的。然而,随着互联网上信息的快速增 加,互联网已成为为一个海量的数字信息源,相对于巨大的互联网信息空间,每个用户 真正感兴趣的信息非常有限,仅仅是整个互联网信息空间的很小很小一部分。在传统互 联网信息服务模式下,为了找到自己所需要的信息,用户需要耗费大量的时间和精力, 在大量的杂乱信息中去查找混在其中的有用信息。以人们常用的搜索引擎技术为例,当 1 河北大学工学硕士学位论文 用户输入关键词后,目前的搜索引擎返回的结果往往非常庞杂,其中有用户需要的信息, 但也包含着大量的、与用户检索要求不大不相关、甚至是不相关的信息,还有许多重复 的、过时的信息。由于每个用户的兴趣不同,从中找出真正感兴趣的信息不是一件容易 的事情,有时只好放弃。传统的互联网信息服务模式没有考虑用户的差异,使得每个用 户面对同样的检索结果,很难满足用户的个性化需要,网上信息越是丰富,这种现象越 是明显。例如,不管用户的真正兴趣是什么( 学术研究、浏览软件广告、购买图书等) , 只要在某一搜索引擎中输入“数据挖掘 ,都能得到1 2 7 万条相关信息。这说明,传统 的信息服务模式已经越来越难以适应迅速增长的互联网信息资源,用户迫切需要一种能 够根据用户的兴趣,自适应地调整信息的服务模式并提供有针对性的信息服务,个性化 信息服务应运而生,个性化信息服务将为用户提供有针对性的、高质量的信息服务。基 于上述原因,个性化信息服务研究得到人们的广泛关注,是目前网上信息获取领域的研 究热点。 l ,2 个性化信息服务的研究现状 1 2 1 个性化信息服务的含义 个性化信息服务是指针对不同用户提供不同的服务内容的服务模式,它具有以用户 为中心、对用户需求进行挖掘、灵活多样和主动将信息推送给用户的特点。 首先它应该是一种能满足用户的个体信息需求的服务,即根据用户提出的明确要 求,或通过对用户个性、习惯的分析而主动向用户提供其可能需要的信息;其次它应该 是一种培养个性,引导信息需求的服务,以此促进信息业的多样化和多元化发展。 传统的信息检索是针对所有用户,也就是用户输入同样的检索关键词,对所有人来 说,输出的是同样的结果;或者用户需要浏览大量的数据后才能够查询到有用的数据。 个性化服务的目的是针对每个用户,发现用户的兴趣,然后主动向用户推荐信息;或者 向用户推荐与用户的兴趣相似的用户检索过的信息。用户的兴趣往往是根据用户以往访 问的历史记录通过数据挖掘或者其他的方法得到。个性化信息服务的系统是“智能化 , “人性化”的,更加懂得用户的喜好和心理,向用户推荐信息。 1 2 2 个性化信息服务的形式 第1 章绪论 曼曼曼曼曼曼曼皇! ! ! 曼量晕皇曼量曼曼曼曼曼舅l m l mm l 曼曼曼蔓曼曼曼皇舅曼皇曼曼曼曼曼曼蔓曼曼皇曼蔓曼曼舅曼舅曼曼量曼曼曼曼曼曼曼曼 一些大型网站推出了以减少用户浏览负担、提高用户访问效率为目的的个性化信 息服务。由于这种个性化信息服务形式是网站提供并以提高网站易用性为目的,因而我 们称这种个性化信息服务形式为个性化网站。 随着i n t e r n e t 中信息量的急剧增长,i n t e r n e t 信息检索系统的检索效率日益受到 关注。为不同的用户提供有针对性的检索结果,也即个性化信息检索,成为一种新的个 性化信息服务形式。个性化服务的形式往往是推荐的方式。对信息的内容过滤,首选符 合用户兴趣的信息,然后返回这些信息。应用个性化服务技术的系统可以在很大程度上 提高检索的效率,避免用户陷进信息的海洋。 1 2 3 个性化信息服务的相关技术 不同的服务形式需要相应的技术来支持。例如要实现个性化推荐,就需要相应的个 性化推荐技术;要实现个性化网站,就需要数据挖掘技术和网站自适应技术,还需要相 应的安全技术,以实现对用户隐私的保护。在个性化信息服务的相关技术中,数据挖掘 技术目前已经发展得较为成熟,已经被很多个性化信息服务系统所采用。保护用户隐私 的安全技术可以借鉴现有的很多安全机制。用户建模和个性化推荐是个性化信息服务特 有的技术,虽然取得一些研究成果,但仍有许多问题有待研究解决。 1 2 4 个性化信息服务的应用 个性化信息服务的技术早在十几年前就已经被提出,1 9 9 7 年b a l b a n o v i c 和s h o h a m 提 出了基于内容推荐和协作推荐的方法,1 9 9 9 年协作推荐的方法被g o o d ,s c h a f e r 等人深化 和发展。每一种推荐方法都有各自的优缺点,所以很多学者都尝试着融合多种方法,建 立综合的推荐模式。 目前,应用个性化服务的系统有斯坦福大学的l i r a 和f a b 、麻省理工学院的 l e t i z i a 、加州大学的s y s k i l l w e b e r t 和n e w s d u d e 、卡内基梅隆大学的w e b w a t c h e r 、 p e r s o n a lw e b w a t c h e r 和w e b m a t e 、a t & t 实验室的p h o a k s 和r e f e r r a lw e b 、德国国家 研究中心的e l f i 、n e c 研究院的c i t e s e e r 、明尼苏达大学的g r o u p l e n s 、i m a n a 公司的 s i t e s e e r 、a g e n t s o f t 公司的i n f o f i n d e r 等川。此外,很多电子商务站点也采用了个性 化推荐技术,向用户推荐满足用户兴趣的商品,如a m a z o n 、e b a y 、b e s tb u y 等。 个性化服务在美国高校图书馆中已相当普遍,典型的如康奈尔大学图书馆,该馆基 1 问北大学工学硕士学位论文 于该校有关即将就读的新生必须阅读些指定著作的政策主动与新生进行联系,为此还 建立了一个网页进行专门辅导。该校另一项著名的个性化服务,即专设了m y l i b r a r y 站 点,提供m y l i n k 和m y u p d a t e s 两项服务。其中m y l i n k 是为用户个人搜集和组织数字化 资源的一种工具,用户可以将个人所需的资源组织在自己专门的m y l i n k 中,以后可以用 任意一台电脑方便地上网登录,而不用局限于一台电脑中。m y u p d a t e s 则是将图书馆新到 资源及时通知用户的一种工具,用户将需要定制的信息或其他要求输入m y u p d a t e s ,系统 就会定期检索图书馆新到资源的联机目录,如发现有新的资源,即自动发送电子邮件通 知用户,用户就可将这些资源组织到自己的m y l i n k 中。哥伦比亚大学的“新书通知服务” 则是一项用户协议驱动的服务,每周向用户提供e - m a i l 通知,通知的内容既包括新编目 的图书,又包括电子资源以及和用户的研究学习兴趣相匹配的其他媒体。面r i c e 大学的 i n f o r m a t i o n s e s s i o n ,也是按照教师和学生的个人需求定做的。d u k e 大学的 e n d n o t e b i o l i o g r a p h i c s o f t w a r e ,则可以帮助用户建立一个尾注式的个人化图书馆。 t 。由清华大学和清华同方主办的中国知识基础设施工程n k i 工程,长期致力于知 研 识信息资源的全社会共享共建,致力于利用互联网进行互动协同学习、工作平台的建设, 积累了大量的知识信息资源,开发了一系列的知识信息服务、知识服务与知识管理技术, 搭建了基于互联网和卫星网覆盖全球的“c n k i 数据库交换服务中心 。近日,c n k i 工程 做出决定,正式向全社会各类机构和个人开始实施个性化服务。其中对个人的服务除了 提供内部整体的知识信息需求的采集、制作的专业知识库,还提供个人全面获取、处理 知识信息的工具卟人数字图书馆( i d l ) 和在网上协同工作平台( c o _ w o r k ) 。在数字化 图书馆中,可以开展订阅型推送服务、检索型推送服务和提示型推送服务。订阅型服务 主要用于期刊报纸类电子读物的订阅,系统定期将资料通过电子邮件系统发送给用户。 检索型推送服务需要用户详细给出自己的检索要求,系统定期将最新的相关资料发送给 用户。这两种服务都是异步服务。此外,还有专业搜索引擎,面向i n t e r n e t 的搜索引擎 是从各种网络资源中浏览和检索信息的工具。随着i n t e r n e t 发展,专业搜索引擎迅速发 展,通过用户制订特殊的搜索需求,大大提高了搜索质量。 随着w e b 领域内人工智能技术、数据库技术、知识发现技术的不断完善和发展, 个性化信息服务将不再仅仅停留在大众化的娱乐性或专业性资讯类信息的提供上,而是 把用户的许多个人业务处理也加入到服务的范畴。w e b 信息将扩展为真正的个人信息, 并帮助用户理解和管理这些信息,这种新的服务将成为一种深入到用户个体生活工作各 4 第1 章绪论 个层面的辅助性工具,将会成为互连网发展的一个新热点。 个性化服务在我国正逐渐发展,在我们的信息服务理念中,应确立满足用户个性的 目标,并不断地寻求实现信息服务发展的新路径。 1 3 本文结构 第一章是绪论。介绍个性化服务的起源、含义、应用和相关技术。 第二章阐述了个性化推荐技术,深入讨论了各种个性化推荐技术。 第三章介绍用户的识别和用户访问信息的收集和处理。用户分为注册用户和非注册 用户。注册用户的识别较容易,因为这个账号在系统中是唯一的。对于非注册用户,可 以使用一些判别算法识别用户。用户访问信息的收集和处理是实现个性化推荐的必要条 件,也是个性化服务的重要前提。用户在访问网站的时候,访问行为包括浏览次序、浏 览时间、是否保存等反应了用户对页面的喜好程度,这是用户建模的重要依据。 第四章阐述了用户建模过程。用户建模是个性化信息服务的重要组成部分,从建模 方式上可以划分为用户手工定制建模、示例用户建模和自动用户建模。 第五章阐述了本体、语义网的概念,以及它们和个性化信息服务的关系。 第六章介绍了个性化服务网站原型系统的开发。在我们设计的原型系统中,实现了 一定程度的个性化信息服务,如能够根据不同用户的不同兴趣,显示不同的检索界面; 对于同样的检索词,能够根据不同用户的不同兴趣检索出不同的结果;对于用户输入的 检索词,不是机械地匹配出检索结果,而是能够基于本体检索出语义相关的结果;使信 息检索能够更好地满足用户的需要。 第七章是总结部分,对全文工作进行了总结,并提出了今后的研究内容。 河北大学工学硕士学位论文 第2 章个性化推荐技术 个性化推荐是个性化信息推荐的简称,其基本思想是根据可计算描述的用户兴趣模 型,为用户提供与其兴趣模型匹配的信息,或者在确认具有相近兴趣的用户群的基础上, 使兴趣相近的用户相互推荐自己感兴趣的信息。个性化推荐的实质是一种“信息找人” 的主动信息服务模式,可以有效地减少用户寻找感兴趣信息的时间,提高用户检索信息 的效率,同时可以有效提高提供给用户的信息的质量,提高用户的满意度。 个性化推荐可以分为基于内容过滤、基于协作过滤和基于规则的推荐方式,人们早 在1 9 9 7 年就已经提出了内容过滤和协作过滤的个性化技术【2 】。不同的环境根据需要采取 单一的推荐方式或者混合的推荐方式。 2 1 基于内容过滤的推荐技术 基于内容过滤的系统是通过比较资源与用户描述文件来推荐资源的,其关键问题是 相似度计算,其优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能 为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。 表2 - 1 用户描述文件 系统用户描述文件关于用户信息的来源 b r o a d v i s i o n 用户静态信息 用户注册信息 p e r s o n a l 基于加权关键词矢量,隐式创建与更新利用指向文档的超链接内容 w e b w a t c h e r s y s k i ll & w e b e r t表示为兴趣类,基于加权关键词矢量,隐式创建,显式反馈更新 用户显式反馈的信息 l e t i z i a用户隐式反馈的信息,访问和 基于加权关键词矢量,隐式创建与更新 标记某网页等行为 c i t e s e e r 一个文件的集合,集合中每个文件可以包含关键词,u r l s ,引用 用户行为和对推荐文档的反应 等,允许显示或隐式创建,允许显示或隐式更新 i f v e b 基于加权语义网,表达关键词和它们之间的上下文关系,考虑用 户感兴趣和不感兴趣的内容 用户显式和隐式反馈的信息 p v a 表示为个人视图,是一种类型层次结构,表达领域的知识,隐式 创建和更新 p r o v y 日志信息 w e b p e r s o n a li z e r 从w e b 访问日志和站点文件脱机产生的u r l 聚类用户浏览行为 g r o u p l e n s用户个性信息放在数据库中,基于关键词矢量,显式创建、显式显式反馈信息和用户在某页 反馈或隐式更新所花的时间 阅读的文档、阅读文档所花的 s e l e c t 基于加权关键词矢量,显式创建、显式反馈或隐式更新 时间和添加书签等行为 书签、引用文件的内容、用户 s i t e s e e r用户书签和目录结构等信息,显式反馈、显式更新 定义的目录类型 w e b s i f t用户浏览记录,隐式创建与更新 e b 访问日志 a n a t a g o n o m y 基于加权关键词矢量,显式创建、显式反馈或更新用户行为和显式反馈信息 第2 章个性化推荐技术 不同个性化服务系统的用户描述文件各有其特点。用户描述文件从内容上可以划 分为基于兴趣的和基于行为的两种类型。基于兴趣的用户描述文件可以表示为加权矢量 模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述 文件可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和基于行为 这两种表达方式。表2 1 给出不同原型系统及其用户描述文件。 基于内容的方法是从资源本身抽取信息来表示资源,使用最广泛的方法是用加权 关键词矢量。对文档来说,关键的问题是特征选取,特征选取要达到两个目标:一是选取 最好的词:二是选取的词最少。要抽取特征词条,需要对文档进行词的切分,在切分的同 时,利用停用词列表( s t o pw o r d ) 从文档特征集中除去停用词,在完成词切分后,接着除去 文档集中出现次数过少和过多的词。经过这些处理后,特征数目一般还很大,还需对特征 进行进一步的选取,以降低特征的维数,特征选取的方法很多,比较简单的做法就是计算 每个特征的熵,选取具有最大熵值的若干个特征;也可以计算每个特征的信息增益 ( i n f o r m a t i o ng a i n ) ,也就是计算每个特征在文档中出现前后的信息熵之差;还可以计 算每个特征的互信息( m u t u a li n f o r m a t i o n ) ,也就是计算每个特征和文档的相关性:还 可使用x2 统计方法。文献 3 的对比研究表明,信息增量方法和x2 统计方法表现较好, 但这两种方法的计算量比较大。在完成文档特征的选取后,还需要计算每个特征的权值, 使用最广泛的是t f i d f 方法,对某一特征,t f ( t e r mf r e q u e n c y ) 表示该特征在文档中出 现的次数,i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 表示l o g ( 所有文档数包含该特征的文档 数) 。矢量模型的代价是比较大的,有时为了加快处理速度,可以只考虑t f 一项,文献 4 对比研究了矢量模型在只考虑t f ,i d f 以及没有考虑t f 和i d f 等几种情况,该研究 表明,单独考虑t f 或i d f 时都使效果显著下降。 实际中一般的方法都是基于一个矢量空间模型来描述网页文档集中的内容的。首 先利用停用词表将文本中的停用词去除,然后将主题词表中只在一个文本中出现的词去 掉,然后根据主题词表与文本进行匹配,找出可代表文本特征的关键词,这些关键词代 表了文档集的特征,即用户的兴趣。不过,预先定义好主题词表需要做大量的工作,而 且其覆盖的范围也有限,更简单的做法就是直接利用从文档中抽取的词来表达用户兴趣 【5 一。文档集合可表示为一个矢量,表示每个单词的维用一个权重来表示。 关键词的权重可用t f i d f 方法来表示,一个项t 。的t f i d f 计算公式定义如下: t f i d f ( t ;) = t f ( t ;) * l o g ( n d f ( t ;) ) t f ( t ;) 为项t t 在所有文档中出现的次数,d f ( t ;) 为出 7 河北大学工学硕士学位论文 现t ,的文档数,如果t i 在越多的文档中出现,说明t 。区分这些文档的能力越差,r l 为文 档的总数。用户兴趣可表示为一个关键词权重的向量。u = w ,w 2 ,w 3 ,w 。) ,w ,表示第i 个主题词的权重。向量的维数n 是固定的,这就保证了文档和用户兴趣之间相似性计算 的精度。向量d = ( d ,d 2 ,d 。,d 。) ,其中,d ;表示关键词t i 在文档d 中出现的次数。 i u l 表示用户的兴趣模型,是个矢量,它的维是由可表示用户兴趣的属性组成的, 表示用户兴趣的关键词组。l d i 是代表文档的一个矢量,它的维和表示用户兴趣的 u i 是 相同的,并且维的排列次序也是相同的。 用户u 和文档d 的相似度阴可表示为: s i m ( u ,d ) = u d | | u 1 1 1 id i l( 2 1 ) 计算用户兴趣和网页文本的相似度,根据相似度的降序排列将网页推荐给用户。将 与用户最相似的网页文档推荐给用户。 但是,如果用户的描述文件没有正确描述用户的兴趣和行为,那么该方法推荐的数 据可能和用户真正的兴趣无关。 2 2 基于协作过滤的推荐技术 协作过滤是根据用户的相似性来推荐资源,它与基于内容的过滤技术不同,它比较 的是用户描述文件,而不是资源与用户描述文件。其关键问题是用户聚类。首先把用户 分组,在组内找出与用户最接近的用户,把这些用户曾访问的信息推荐给用户。它是根 据相似用户来推荐出新的感兴趣的内容。找出与用户具有相似兴趣的用户,将他们访问 的内容推荐给用户。 聚类是一种根据事物之间的相似性把事物聚集成不同类别的技术,得到的聚类结果 中同类之间相似度较高,而不同类之间的相似度较低。这样,聚类技术就可以把大数据 集合中相似度较高的对象聚集在一起。聚类是一个正在蓬勃发展的领域,有着广泛的应 用【8 】= 数据挖掘、统计分析、压缩技术和行为识别等。 聚类被人们认为是数据挖掘中知识发现的基本工具。它应用在无导师学习、语音 识别、图像划分以及人脸识别等方面。聚类技术可以解决以下问题:哪类顾客喜欢哪类 商品,喜欢同一类商品的人之间有什么共同点,哪类用户决定购买商品是基于价格,而 又有哪类用户购买商品是基于商品的质量等问题。聚类技术应用在w e b 挖掘中,可以进 第2 苹个性化推荐技术 曼曼曼曼皇曼曼nin , i n n ui n _ 曼皇舅曼曼舅舅舅曼曼曼舅曼曼! 曼曼曼曼鼍 行网页和用户的聚类。 聚类算法主要有以下几种类型:划分方法、层次方法、局部方法和基于模型的方 法。 划分方法是把集合u 中的n 个对象划分成给定的k 个子集,使得在同一集合中的 对象相似,而不同的集合中的对象相似度较低。最知名的划分方法是k m e a n s 算法和 k m e d o i d s 算法。 层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类。它可 以分成自顶而下、自底向上和基于网格的三种层次聚类。b i r c h ( b a l a n c e di t e r a t i v e r e d u c i n ga n dc l u s t e r i n gu s i n gh i e r a r c h i e s ) 【9 】方法是自顶而下的方法,而c u r e ( c l u s t e r i n g u s i n gr e p r e s e n t a t i v e s ) n 0 1 是自底向上的方法;w a r e c l u s t e r t l l l 方法是基于网格的方法。 局部方法主要有基于密度的方法和随机分布的方法。基于密度的方法最著名的是 d b s c a n ( d e n s i t y b a s e ds p a t i a lc l u s t e r i n go f a p p l i c a t i o n sw i t hn o i s e ) 算法:随机分布的方法 最著名的是d b c l a s d ( d i s t r i b u t i o nb a s e dc l u s t e r i n go fl a r g es p a t i a ld a t a b a s e s ) 算法。 基于模型的方法主要有两种【1 2 】:统计方法和神经网络方法。 大多数概念聚类都采用了统计方法,也就是利用概率参数来帮助确定概念或聚类。 每个所获得的聚类通常都是通过概率描述来加以表示的。 神经网络聚类方法是将每个聚类描述成一个例证,每个例证作为聚类的原型。然 后根据某种度量,将新的对象分配到最相似的聚类之中。神经网络聚类主要的方法有: 竞争学习方法【1 2 1 和自组织特征映射方澍13 1 。 2 3 基于规则的推荐技术 基于规则的系统一般分为3 部分:关键词层、描述层和用户接口层。关键词层提 供上层描述所需的关键词,并定义关键词间的依赖关系。描述层定义用户描述和资源描 述,由于描述层是针对具体的用户和资源,所以描述层的个性化规则是动态变化的。用 户接口层提供个性化服务,根据下面两层定义的个性化规则将满足规则的资源推荐给用 户。根据已经制定好的规则,向用户提供信息。规则包括前后两项,根据规则,如果用 户当前点击某个网页,系统通过算法得出用户的规则,根据此规则,将规则的后项推荐 给用户。 洞北大学工学硕士学位论文 规则可以通过统计的方式得到,对以往的历史记录进行统计,包括用户的浏览次数、 停留时间等,由于在这些情况下,往往不准确,用户对一些网页的访问可能是访问其他 网页的前提,或者停留在此网页上但不在浏览状态下,所以通常使用关联规则。 规则也可以由用户定制,很多情况下用户不会主动向网站提供其兴趣规则。可以利 用基于关联规则的挖掘技术来实现【1 4 l 。利用规则来推荐信息依赖于规则的质量和数量, 基于规则的技术其缺点是随着规则的数量增多,系统将变的难以管理。基于关联规则的 技术利用算法对前一定时期内用户的兴趣关联规则进行挖掘。 关联规则生成可用于找出在某次服务器会话中最经常一起出现的网页,在w e b 使用 挖掘中,发现的关联规则往往是指支持度超过预设阈值的一组网页。这些网页之间可能 并没有超链接直接互相连接。例如,a p r i o r i 算法发现关联规则可能会发现访问关于网 络的文章可能会访问关于数据库的文章。用户关联规则的挖掘有助于网站设计者重新组 织和设计网站结构。 a p r i o r i 算法【1 5 1 利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。 这一循环方法是利用k 一项集来产生( k + 1 ) 一项集。具体做法就是:首先找出频繁卜项 集,记为l ,;然后利用l 。来挖掘l 2 ,即频繁2 一项集;不断如此循环下去直到无法发现 更多的频繁k 一项集为止。此算法的性质:一个频繁项集中任一子集也应是频繁项集。 算法利用层次循环发现频繁项集。 算法输入:w e b 日志中用户所访问的内容的标识,记作d 算法输出:d 中的频繁项集 算法: ( 1 ) l , = f i n d _ f r e q u e n t _ 1 一i t e m s e t ( d ) :发现卜项集 ( 2 ) f o r ( k = 2 :l k 一。! = 空集;k + + ) ( 3 ) c k = a p r i o r _ g e n ( l h ,m i n _ s u p ) :根据频繁( k 一1 ) 项集产生候选k 一项集 ( 4 ) f o re a c ht d 扫描数据库,以确定每个候选项集的支持频度 ( 5 ) c t = s u b s e t ( c t ,t ) :获得t 所包含的候选项集 ( 6 ) f o re a c hc c ic c o u n t + + 。4) ( 7 ) l k = c c k ic c o u n t m i n s u p ) 关联规则x 硝对事物集d 的支持度( s u p p o r t ,) 定义为d 中包含有会话x 和y 的 百分比。关联规则x j y 对会话集合d 的置信度( c o n f i d e n c e ) 定义为d 中包含有x 的 1 0 第2 章个性化推荐技术 会话数与同时包含y 的百分比。即: s u p p o r t ( x j y ) = ( 包含x 和y 的会话数会话总数) x1 0 0 ( 2 2 ) c o n f i d e n c e ( x j y ) = ( 包含x 和y 的会话数包含x 的会话数) x1 0 0 ( 2 3 ) 置信度和支持度均大于给定阈值( 即最小置信度阈值和最小支持度阈值) 。即:。 s u p p o r t ( x j y ) = m in s u p c o n f id e n c e ( x y ) = m in c o n f 的关联规则称为强规则,否则称为弱规则【1 5 】。 数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某 些数据之间的关联程度。 关联规则挖掘即给定一组i t e m 和记录集合,挖掘出i t e m 间的相关性,使其置信度 和支持度分别大于用户给定的最小置信度和最小支持度。 关联规则的挖掘主要被分解为下面两步: 第1 步:找出所有的频繁项集,即找出支持度大于或等于给定的最小支持度阈值的 所有项集。可以从1 到k 递归查找k 一频繁项集。 第2 步:由频繁项集产生强关联规则,即找出满足最小支持度和最小置信度的关联 规则。对给定的l ,如果其非空子集a c l ,s u p ( l ) 为l 的支持度,s u p ( a ) 为a 的支持度, 则产生形式为a j l - a 的规则。 根据所获得的频繁项集,产生相应的强关联规则。 系统将所生成的关联规则存储在数据库中,在用户访问系统时,根据关联规则,向 用户推荐信息,帮助用户更快找到有用的信息。 河北大学工学硕士学位论文 3 1 信息的来源 第3 章访问信息的收集与识别用户 w e b 用户访问数据可以从3 方面收集:服务器端( s e r v e r ) 、客户端( c l i e n t ) 和代理 端( p r o x y ) 。 在w e b 挖掘中最常用的数据源是服务器端的数据。网站服务器中一般有3 种类型 的日志文件用来记录用户的访问行为:a c c e s s l o g ,r e r f e r l o g 和a g e n t l o g ,有的系统还 记录有c o o k i e l o g 。以下主要介绍介绍h c c e s s l o g ,r e f e r l o g 和c o o k i e l o g 。 ( 1 ) a c c e s s l o g :访问日志文件,详细记录了每个用户的访问行为,是w e b u s a g e m i n i n g 的主要数据源。a c c e s s l o g 的文件结构包括域和描述两项,如表3 1 所示。 表3 一ha c c e s s l o g 文件结构 日期( d a t e )请求页面的日期时间 客户端的i p远程主机的i p 或d n s 入口 用户名( u s e rn a m e )远程登陆的用户名 字节( b y t e s )传递的字节 服务器( s e r v e r ) 服务器i p 地址的端口 请求( r e q u e s t )u r l 查询和 状态( s t a t u s )返回给h t t p 状态标识 服务名( s e r v i c en a m e )用户请求的服务的名称 耗用时间( t i m e ) 完成浏览的时间 协议版本( p r o t o c o lv e r si o n )传输用的协议版本 用户代理( i s p )服务提供者 c o o k i e c o o k i e 标识号 参照页( r e f e r r e r )本页的上一页 ( 2 ) r e f e r l o g :记录了用户请求页面信息的情况,用户什么时间访问以及访问路径的 形式都记录在r e f e r l o g 中,r e f e r l o g 可用于用户识别,路径补充等。 ( 3 ) c o o k i e l o g :由w e b s e r v e r 产生的标记号,并由客户端持有,用于识别用户和用户 会话。虽然通过用户的标记号,易于识别用户,但是由于h t t p 协议的无序性和用户的隐 私问题,跟踪用户仍然不是一件易事。使用c o o k i e l o g 要经用户同意。 在w e b 服务器中除了以上3 种文件,还有用户提交的查询信息、注册信息等。 客户端数据收集可以使用远程代理或修改现有浏览器的源程序提高浏览器数据收 集能力来实现。实现客户端数据收集需要用户的合作,允许启用j a v a s c r i p t s 和j a v a a p p l e t s 功能,或者需要用户自愿使用修改过的浏览器。由于客户端数据收集在c a c h e 第3 章访问信息的收集f 识别用户 和会话识别等方面的改进使它优于服务器端数据收集。 w e b 代理是客户浏览器和w e b 服务器之间的缓冲中介。它可以减少w e b 下载时间和 服务器端和客户端的网络流量负载。代理服务器的性能取决于它正确预测页面请求的能 力。代理追踪可能会暴露从多用户到多w e b 服务器的真实h t t p 请求,可以为表征一组 使用同一代理服务器的匿名用户浏览行为的数据源服务。 3 2 收集信息的方式 在用户第一次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息 和感兴趣的内容,系统也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系 统可以让用户自主修改,也可以由系统自适应地修改。系统要自适应修改用户信息,必须 根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次 结构。 用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对 推荐的资源进行反馈和评价,从而达到学习的目的。隐式跟踪不要求用户提供什么信息, 所有的跟踪都由系统自动完成,隐式跟踪又可分为行为跟踪和日志挖掘。显式跟踪是简 单而直接的做法,系统可以要求用户反馈自己对推荐资源的喜好程度。一般情况下,这种 做法不容易收到实效,因为只有少量用户主动向系统表达自己的喜好。比较实际的做法 是行为跟踪,因为用户的很多动作都能暗示用户的喜好。用户行为可以表现为查询、浏 览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等等,文献 1 6 的研究表明,简单的动作( 比如点击鼠标) 不能有效地揭示用户的兴趣,而浏览页面 和拖动滚动条所花的时间可以有效地揭示用户的兴趣。文献 1 7 的研究表明,用户查询、 访问页面、标记书签能有效揭示用户的兴趣。 3 3 对信息的处理 目前,基于w e b 日志的挖掘技术发展迅速f 1 8 2 0 j ,利用w e b 日志可以获得页面的点 击次数、页面停留时间和页面访问顺序等信息。通过分析w e b 日志可以获得相关页面、 相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新描 述用户兴趣的用户描述文件。w e b 日志挖掘中最常使用的方法是根据网页的点击次数来 洞北大学工学硕士学位论文 曼i ! 一一 i 皇曼寰曼鼍皇舅曼! 曼曼曼寰曼量量曼曼曼曼皇曼蔓曼曼曼皇曼皇暑皇曼曼曼曼曼曼曼曼量曼曼皇曼曼鼍曼曼曼曼 评价用户对该网页的兴趣,该方法可用于辅助其他日志分析技术。尽管w e b 日志的信息 不够全面,但还是可以从中发现许多有意义的信息,比如通过收集用户顺序请求的日期 和时间,可以分析出用户在每个资源上所花费的时间,从而可以推断用户对该资源感兴 趣的程度;通过收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类;通过分 析用户请求的顺序有利于预测用户行为。 一般w e b 日志挖掘可分为以下几步: 将u r l 、动作、资源的类型、大小、请求的时间、请求者域名、用户、服务器 状态作为维变量构建数据立方体。 进行在线分析处理,通过对数据立方体的切块和切片,分析用户在不同域的分布 情况,分析用户对资源的使用情况等等。 利用各种数据挖掘方法来预测、分类和发现有意义的关系,比如用户的行为模式、 用户行为的变化、不同用户群在使用和行为上的相似性等。 用户对页面的访问次序表明了页面的相互关联关系,因此用户的访问顺序应该被记 录和研究。 我们采用会话( s e s s i o n ) 技术为当前用户会话提供信息,提供对可用于存储信息 的会话范围的缓存的访问,以及控制如何管理会话的方法。 用户访问信息的收集和过滤过程,是一个信息抽取和挖掘的过程,不同的系统根据 需要提取的内容不同。 3 4 用户识别中的问题 个性化服务系统首先要能准确的识别出用户,这是为用户建立模型和实现向用户推 荐信息的前提。 对于信息服务系统来说,用户可以分为两类:注册用户和非注册用户。用户在系统 中注册,注册时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025车辆抵押借款的合同
- 2025二手汽车交易合同样本
- 湖北会计从业考试题目及答案解析
- 2025-2030绿色建筑认证对门窗产品升级要求分析报告
- 基本护理技术简答题题库及答案解析
- 2025-2030绿色建筑产业市场现状供需平衡与投资风险评估分析报告
- 2025-2030绿氨作为氢能载体的储运经济性比较专项报告
- 2025-2030绿氢制备电解槽技术路线选择与设备厂商格局分析报告
- 河北安全员考试题库测评及答案解析
- 2025-2030纳米涂层材料在电子防护领域的技术迭代与市场空间测算
- 小鲤鱼跳龙门电子版
- 审计资料交接清单
- 10-第10章-彩色图像处理
- 2023年安徽省中考历史试卷及答案开卷
- GB/T 33636-2023气动用于塑料管的插入式管接头
- 工程审计手册完整版
- 2019年11月中石油招聘考试笔试真题及参考答案
- 以工代赈乡村公路建设项目可行性研究报告(完整版)资料
- SB/T 10952-2012实木复合门
- GB/T 17632-1998土工布及其有关产品抗酸、碱液性能的试验方法
- 2020年餐饮连锁加盟店营建手册
评论
0/150
提交评论