(计算机软件与理论专业论文)协同过滤技术在个性化图书馆中的应用研究.pdf_第1页
(计算机软件与理论专业论文)协同过滤技术在个性化图书馆中的应用研究.pdf_第2页
(计算机软件与理论专业论文)协同过滤技术在个性化图书馆中的应用研究.pdf_第3页
(计算机软件与理论专业论文)协同过滤技术在个性化图书馆中的应用研究.pdf_第4页
(计算机软件与理论专业论文)协同过滤技术在个性化图书馆中的应用研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复日大学硕士学位论文 摘要 信息时代科技文献的出版速度逐年增加,科技文献以电子期千u 和在线文档形 式遍布于i n t e r n e t 之上,对科研教学人员来讲,如何充分利用现有的网络信息资 源,从庞杂的电子文档中及时、准确地获知与自己研究领域相关的最新科技信息 就显得非常必要。 网络技术的发展催生了电子商务,商业利益的驱动要求网站迎合用户的兴趣 和发掘用户的需求,为其提供个性化的信息,技术的发展又促成了网站将a g e n t 技术、w e b 数据挖掘技术等应用于针对单个客户的个性化的推荐系统中。当个性 化服务理念和技术延伸到教育、科研领域,图书馆界也开始研究以用户为中心的 个性化信息服务。 本文首先详细论述基于内容过滤的推荐技术中关键的用户兴趣建模技术,进 而提出一种基于中图法的用户兴趣模型,使用形式化的描述刻画了用户兴趣模型 的动态更新过程,并在此基础上设计和实现一个科技文献过滤系统,在应用中取 得了不错的效果。 为了进一步优化系统性能,提高文献推荐服务质量,我们又研究了其他常用 的推荐技术,重点是协同过滤技术及其在个性化推荐系统中的实现过程。在分析 基于内容过滤的推荐系统和协同过滤推荐系统各自在实际应用中存在的不足之 处之后,针对这些问题本文提出了一种基于内容过滤与协同过滤相结合的复合式 推荐算法,能够有效的解决了协同过滤技术中出现的评分数据过于稀疏,缺乏初 始评价,系统难于扩展等问题,成功的将协同过滤技术应用于该科技文献过滤系 统。最后通过实验证明了该系统提高了文献推荐的品质,加快了用户兴趣模型的 学习和更新,从而使模型能更精确的描述用户的实际兴趣。 关键词:数字图书馆,基于内容的推荐,用户兴趣模型,中图法,协同过滤 中图法分类号:t p 3 9 1 复旦人学硕士学位论文 a b s t r a c t s c i e n c ea n dt e c h n o l o g yd o c u m e n t s p u b l i s h i n gi sg e t t i n gm o r ea n dm o r e r a p i di nt h i si n f o r m a t i o na g e ,e d o c u m e n to fs c i e n c ea n dt e c h n o l o g yi s e v e r y w h e r ei nt h ei n t e r n e t i ti sv e r yv i t a lf o rt h er e s e a r c h e r st of i n d t h ea c c u r a t ew a n t e di n f o r m a t i o nq u i c k l yt h r o u g ht h ei n t e r n e t i ne - c o m m e r c e ,d r i y e nb yp r o f i tm o t i v e ,w e bs i t e sc a t e rt ow h a tu s e r s a r ei n t e r e s t e d ,m i n ew h a tt h e yn e e da n dp r o v i d et h e mw i t hp e r s o n a l i z e d i n f o r m a t i o n w h e nt h ei d e aa n dt e c h n o l o g yo fp e r s o n a l i z e ds e r v i c er e a c h t oe d u c a t i o na n ds c i e n c er e s e a r c h f i e l d ,u s e r o r i e n t e dp e r s o n a l i z e d i n f o r m a t i o ns e r v i c ei sr e s e a r c h e da n dd e v e l o p e di m m e d i a t e l yi nd i g i t a l 1 i b r a r y t h i sp a p e rf i r s td i s c u s s e st h ek e y t e c h n o l o g yo fc o n t e n t b a s e d r e c o m m e n d a t i o n ,u s e ri n t e r e s tm o d e l i n g t h e ni tp u t sf o r w a r dau s e r p r o f i l em o d e lb a s e do nc h i n e s el i b r a r yc l a s s i f i c a t i o n ,f o r m a l l yd e s c r i b e d t h i sm o d e la n di t sm o d i f y i n gp r o c e s s f o rf u r t h e ro p t i m i z a t i o n ,t h i sp a p e rs e l e c tc o l l a b o r a t i v ef i l t e r i n g f r o mm a n yr e c o m m e n d a t i o nt e c h n o l o g i e s a n di tp r o p o s e sa na l g o r i t h m c o m b i n e dc o n t e n t b a s e dr e c o m m e n d a t i o nw i t hc o l l a b o r a t i v ef i i t e r i n g e x p e r i m e n t sp r o v et h i sa l g o r i t h ms o l v e ss p a r s e n e s s ,f i r s tr a t e r ,a n d e x t e n s i b i l i t yp r o b l e mt h a tm a yo c c u ri nc o l l a b o r a t i v ef i l t e r i n g a n ds h o w t h a tt h i sc o m b i n e dr e c o m m e n d a t i o ns y s t e mi m p r o v e st h eq u a l i t yo f r e c o m m e n d e dd o c u m e n t s ,f a s t su s e rp r o f i l em o d i f y i n gp r o c e s s s oi tm a k e s u s e rp r o f i l em o d e l sd e s c r i b eu s e ri n t e r e s tm o r ea c c u r a t e k e yw o r d s :d i g i t a ll i b r a r y ,c o n t e n t b a s e dr e c o m m e n d a t i o n ,u s e rp r o f i l e c o l l a h o r a t i v ef i i t e r i n g c h i n e s el i b r a r yc l a s s i f i c a t i o n c i a s s i f i o a t i o nc o d e :t p 3 9 1 2 复旦大学硕上学位论文 1 1 研究背景 第一章引言 数字图书馆( d l ) 是能以馆减和网络上的数字信息为工作对象,以i n t e r n e t 为传输通道,为全球用户提供全方位电子信息服务的社会机构,它作为一种数字 文化平台,对发展民族文化、提高国民素质、开发利用信息资源、促进经济增长 具有重要的战略意义。 美国政府于1 9 9 0 年最先意识到d l 的重要性并开始建设,我国从1 9 9 5 年开始d l 的相关技术研究,1 9 9 8 年国家图书馆提出的“中国数字图书馆工程”被纳入到国 家“十五”计划。 网络技术的发展催生了电子商务,商业利益的驱动要求网站迎合用户的兴趣 和发掘用户的需求,为其提供个性化的信息,技术的发展又促成了网站将a g e n t 技术、w e b 数据挖掘技术等应用于针对单个客户的个性化的推荐系统中。当个性 化服务理念和技术延伸到教育、科研领域,图书馆界也开始研究以用户为中心的 个性化信息服务。 随着互联网技术向社会各个领域的不断渗透,以电子期刊和在线文档形式存 在的科技文献几乎遍布于i n t e r n e t 的每个角落,加上信息时代科技文献的出版速 度逐年增加,特别对科研教学人员来讲,如何充分利用现有的网络信息资源,从 庞杂的电子文档中及时、准确地获知与自己研究领域相关的最新科技信息就显得 非常必要。而目前信息查询主要采用的传统的基于关键词检索的搜索引擎,由于 不具有智能性,不能学习用户的兴趣,使得具有特定专业兴趣,信息需求在相当 长一段时间内保持不变或变化不大用户,比如科教人员,只能不断在网上反复查 询相同的内容,这造成了许多不必要的浪费。正是在这样的需求驱动下,信息过 滤技术得到了长足的发展。如果把信息检索看作是一种“人找信息”的信息服务 形态,那信息过滤就是一种“信息找人”的信息服务形态,即实现信息的个性化 主动服务。 协同过滤是信息过滤和推荐系统中很受欢迎的一项技术,与传统的基于内容 过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到与指 定用户兴趣相似的用户,综合这些相似用户对某一信息的评价,形成系统对该指 复旦大学硕十学位论文 定用户对此信息喜好程度的预测。 1 2 相关研究 按照用户是否明确告知系统其个性化信息需求偏好,图书馆界提供的个性化 信息服务主要有以下两种方式: 1 、显式反馈方式 这种方式是指系统根据用户明确提交的信息需求偏好来提供服务。当前主要 有两种服务形式。 ( 1 ) 个性化信息定制;信息定制是指根据用户的需求,搜寻并提供符合用户 需求的特定信息,同时使用安全认证技术保护用户的隐私。信息定制服务系统运 行于服务提供者的w 唧服务器上,系统的定制功能通常使用一系列模块( 程序) 来 实现,定制的内容包括系统资源和系统界面,系统资源又包括所有馆藏数字资源、 网络资源、服务信息等,系统界面则包括页面风格选择和各定制模块的布局。 其中较典型的是美国康奈尔大学( t h ec o r n e l lu n i v e r s i t y ) 图书馆【1 1 开发使 用的m yl i b r a r y 系统提供个性化联接m yl i n k s 和个性化更新m yu p d a t e s 两部分服 务。系统用j a v a 动态n 建h t m l 页面,运用o r a c l e 。数据库技术存储大量的用户信 息。系统采用k e r b e r o s 认证机制执行用户认证服务,用户通过功和口令认证登陆 自己的m yl i b r a r y 系统,根据需要进入m yl i n k s 或m yu p d a t e s 界面。 m yl i n k s 用于收集和组织由用户定义的资源,其基本设计思想是利用文件夹 包含个人选择的w e b 地址联接,用户可对任何选择的资源和文件夹命名,按重要 性由高到低排序,并可从中增删资源,在资源地址变化时也可进行编辑修改,用 户可从本馆收集资源或从任意w e b 资源中进行选择,所有个性化选择都存在服务 器端,用户在任一机器上登录都可享受此类服务,又称“移动的书签”。m yu p d a t e s 允许用户设定自己感兴趣的领域,系统将在与这些领域相关的图书馆资源变化时 及时通知用户。 ( 2 ) 基于电子邮件的个性化信息服务方式。系统根据用户订阅情况提供相应 的栏目内容,定期或不定期地发送到其个人信箱里。国内一些高校图书馆现己开 始尝试提供这种个性化服务,例如,根据注册用户的专业、研究方向,用电子邮 件发送与之相关的最新数字资源和服务动态,使用户及时获取有价值的信息。 基于这种服务模式的国外机构有i n g e n t a 2 1 ,国内如中国科学院文献情报中 4 复旦人学倾+ 学位论文 心的联合西文期刊篇名定题服务,中国科学院上海文献情报中心的新书信息推送 和西文现期目次推送等。 2 、隐式反馈方式 隐式反馈是指用户不须明确提交其信息需求偏好,而由个性化信息服务系统 根据一定的规则与算法自动捕捉用户的兴趣与变化,提供相应的信息与服务。 目前d l 中采用这种方式的个性化信息服务系统主要基于如下思想:人们在阅 读、写作和归类文档时的行为特征通常反映了他们特定的任务和需求,因此可以 通过分析用户组织个人文件的行为来建立用户p r o f i l e ,从而利用该p r o f i l e 实现 用户与其他信息源交互时的个性化。典型的研究有: ( 1 ) 瑞典计算机科学研究所的t o m a so l s s o n 等人将个性化的图书馆集成进用 户日常的文件管理环境中,建立了一个用于管理用户电子邮件的个人图书馆原型 系鲥4 1 。因为用户通常是根据自己的相关性判断来对电子邮件进行整理归类,借 助此类信息,系统可以基于其工作背景( w o r kc o n t e x t ) 发掘信息,建立服务,如 根据当前的活动文件夹来归类从一个检索中所获得的结果信息。 ( 2 ) 日本h i r o s h i m a 大学的c h a m p aj a y a w a r d a n a 等人建立了一个数字图书馆 的个性化信息环境( ap e r s o n a l i z e di n f o r m a t i o ne n v i r o n m e n t ) 【5 。 根据对传统图书馆中用户活动与需求的调查分析,设计者提出系统在两个层 次上的个性化,即信息资料的个性化( m a t e r a 1p e r s o n a l i z a t i o n ) 和信息收集的 个性化( c o l l e c t i o np e r s o n a l i z a t i o n ) 。其开发的原型系统主要有三部分组 成:p e r s o n a ld o c u m e n te d i t o r ,d lb r o w s e r 干口a d d r e s sa c c u r a c yd e t e c t o r 。 其中p e r s o n a ld o c u m e n te d i t o r 提供m a t e r i a lp e r s o n a l i z a t i o n 的工具,d l b r o w s e r 提供c o l l e c t i o np e r s o n a l i z a t i o n 的工具,它类似于一个普通的w e b ;c g 览 器,一旦用户登录进入d l ,它就会引导用户在o l 资源中航行,并提供个性化的检 索和过滤。系统设计思想如下:信息收集个性化既要基于用户的兴趣,又要基于 用户的工作背景( w o r kc o n t e x t ) ,而在m a t e r i a lp e r s o n a l i z a t i o n 层面,用户会 根据自己的信息需求来发掘和组织资源,因此系统可以考察所有p e r s o n a l d o c u m e n t s 的内容来发现用户的兴趣。而用户的当前工作背景可以通过考察当前 打开的用户个人文件的内容来捕捉。在此基础上,系统为每个p e r s o n a ld o c u m e n t 建立一个独立的p r o f i l e ,其中包含该文件中基于内容的和基于背景的用户信息, 利用这些p r o f i l e s ,生成关于一个用户的兴趣p r o f i l e ,其中包含了用户感兴趣 的关键词、短语和背景信息,并计算出其相对该用户的重要性的权值。当用户每 次进入其个性化信息环境时,系统都会将根据这些信息过滤得到的相关资源呈现 复旦大学硕上学位论文 在系统界面的下方。a d d r e s sa c c u r a c yd e t e c t o r 是一个a g e n t ,用于保持信息用 户在d l 中所收藏的个人文件( p e r s o n a ld o c u m e n t s ) 的链接的有效性。 美国n e c 公司附属的n e c i 研究所于1 9 9 7 年开发研制了r e s e a r c h l n d e x 科技 文献电子图书馆( h t t p :w w w r e s e a r e h i n d e x c o m ) 系统【6 _ i n 】。r e s e a r c h i n d e x 目前的文献规模已经达到3 0 0 ,0 0 0 多篇原文文献、4 ,o o o ,0 0 0 多篇引文资料,共 5 ,0 0 0 ,0 0 0 多个页面,而且它已经开始为全球的科研人员提供英文科技文献的全 文服务。r e s e a r c h l n d e x 系统借鉴了新西兰w a i k a t o 大学计算机系开发n e w z e a l a n dd i g i t a ll i b r a r y 的部分研究成果( h t t p :w w w n z d l o r g ) ,对p s 格 式的英文科技文献转换为计算机可直接处理的a s c i i 文本文件,然后对a s c i i 文本文件进行统一标引。但其整体设计思想主要是借鉴了s c i ( s c i e n t i f i c c i t a t i o ni n d e x i n g ) 对科技文献的组织和评价方法,特别是通过对文献引文的 详尽分析,实现了科技文献全自动的引文索引( a u t o m a t i cc i t a t i o ni n d e x i n g ) 。 在科研人员看来,通过r e s e a r c h l n d e x 电子图书馆来获取科技文献很类似自己通 常获取文献的方式,不但可以直接获取文献原文,还可以在系统的指导下很方便 地获取其引文信息和内容相关的其他文献。据相关文献介绍,r e s e a r c h l n d e x 电 予图书馆系统也提供了用户p r o f i l e 机制,以期达到通过e m a i l 和w e b 界面实现 新文献向注册用户发送的目的。在r e s e a r c h l n d e x 中,用户的身份是通过h t t p 的c o o k i e 文件来验证、保存和识别的。用户p r o f i l e ,即用户的兴趣信息需求 通过多种形式来描述,它可以是用户自己添加的关键字,也可以是用户关注的网 址信息、还可以是用户在浏览文献时随时添加进来的自己认为有价值的文献信 息。这几种兴趣的描述形式之间是逻辑或关系,即如果新文献含有指定的关键词 信息,认为该新文献与用户需求相关;如果新文献引用了用户反馈的兴趣文献之 一,认为该新文献与用户需求相关;如果新文献与用户反馈的文献在内容上相关, 也同样认为该新文献与用户需求相关。尽管方法直观、思路明确,但该项服务因 待处理信息的多样性和复杂性,在r e s e a r c h l n d e x 系统中并没有真正实现。 p a z z a n im 等人提出的s y s k i l l & w e b e r t 系统是用来学习用户兴趣的智能 a g e n t 【l “。该系统首先从用户提交的兴趣文档中识别出特征词信息或接受用户直 接提交的带权兴趣词信息,将其作为创建初始用户兴趣的依据。之后 s y s k i l l & w e b e r t 智能a g e n t 通过跟踪用户的浏览行为,提供给用户对浏览页面 兴趣或非兴趣的反馈指示,为初始的兴趣类收集特征页面。如果用户不知道应该 沿哪条超链继续浏览时,可以征求智能a g e n t 系统的建议。系统将在服务器端采 用简单贝叶斯分类法对初始兴趣进行更新学习,并给出当前页面上每个超链相对 于当前兴趣的相关程度,来指导用户在网络上的相关信息获取。由上述的分析可 见,该系统的用户兴趣是通过用户反馈提交兴趣或非兴趣文档和直接提交的加权 复邑人学硕士学位论文 关键词来描述的;在更新用户兴趣时,采用了算法复杂度较低的贝叶斯分类法, 在相同语料条件下实验,其平均准确率与决策树i d 3 算法、神经网络b a c k p 算法 相比要高出2 。5 。 在传统的基于内容的过滤技术之外,各类个性化推荐系统对如何提高推荐的 品质和效率进行了很多方面的探索和实践,采用了多种新颖的技术,其中主要有; 贝叶斯网络( b a y e s i a n n e t w o r k ) 、关联规贝t | ( a s s o e i a t i o nr u l e s ) 、聚类( c l u s t e r i n g ) 、 h o r t i n gl 虱( h o n i n gg r a p h ) 、协同过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 等。其中协同过 滤技术是推荐系统技术中应用最早和最为成功的技术。t y p e s t r y 1 3 】是最早提出来 的基于协同过滤的推荐系统,目标用户需要明确指出与自己行为比较类似的其他 用户。g r o u p l e n s “l 是基于用户评分的自动亿协同过滤推荐系统,用于推荐电影 和新闻。r i n g o 推荐系纠1 5 】和v i d e o 推荐系统【”j 通过电子邮件的方式分别推荐 音乐和电影。b r e e s e 等人【l 对各种协同过滤推荐算法及其改进进行了深入分析。 1 。3 本文工作 本文的研究内容是协同过滤技术在个性化图书馆中的应用,主要是针对应用 于服务高校科研工作者的数字图书馆。 高校用户信息服务的重点是学校的中高层管理人员和教学、科研人员,这部 分用户的信息需求呈现出广泛、大量、高层次、商品位的特点,从内容到形式的 多样性,使得用户不仅需要书刊文献方面的信息,更需要信息服务部门对知识和 信息进行二次开发、提炼后的信息,这种信息服务有着明确的针对性,满足用户 对某一问题、某一知识领域、某一知识单元的特殊要求,也就是个性化、专门化 的特点。在这样的需求下,我们首先开发了一个基于内容过滤的科技文献过滤系 统,在应用中取得了不错的效果。 为了进一步优化系统性能,提高文献推荐服务质量,我们研究比较了大量其 他的个性化推荐方法,决定采用协同过滤技术。但在应用初期遇到了评分数据过 于稀疏,缺乏初始评价,系统难于扩展等问题,经过不懈的努力与思考,最后作 者提出了一种基于内容过滤与协同过滤相结合得复合式推荐算法,解决了上述问 题,成功的将协同过滤技术应用于该科技文献过滤系统,提高了文献推荐的品质。 复旦大学硕士学位论文 1 4 本文组织 第一章简要介绍本文的研究背景以及相关研究工作。 第二章详细论述基于内容过滤的推荐技术中关键的用户兴趣建模技术,进而 提出一种基于中图法的用户兴趣模型,使用形式化的描述刻画了用户兴趣模型的 动态更新过程,并在此基础上设计和实现一个科技文献过滤系统。 第三章介绍其他常用的推荐技术,重点研究了协同过滤技术及其在个性化推 荐系统中的实现过程。 第四章分析基于内容过滤的推荐系统和协同过滤推荐系统各自在实际应用 中存在的不足之处,针对这些问题本章提出了一种基于内容过滤与协同过滤相结 合的复合式推荐算法,能够有效的解决其中大部分的问题。 第五章通过实验证明了该系统的先进性。 第六章总结全文工作并指出未来的研究方向。 8 复旦大学硕士学位论文 第二章用户兴趣建模技术研究 基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) 是基于内容抽取项目特 征属性的推荐技术。在基于内容的推荐系统中,项目或对象是通过相关的特征属 性来定义的。如:个性化图书馆系统中使用关键词信息作为文档的特征属性。在 这类方法中,历史信息用来反映项目之间的关系,利用用户一项目矩阵分析每个 项目的相似性,在这个基础上计算被推荐的前n 个项目。 基于内容的推荐系统是基于用户评价对象的特征,学习用户的兴趣,s c h a f e r k o n s t a n 和r i e d l 称这种方法为项目一项目相关关系法【l 引。由于这种方法不需要 去识别那些邻近的用户,所以推荐算法的速度比较快。基于内容的推荐对项目的 属性特点的历史信息进行学习,其优势在于提高了推荐的可测量性,并且能够对 推荐结果做出比较好的解释。基于内容的推荐能发现用户感兴趣的项目。 基于内容过滤的信息推荐技术使用用户兴趣模型( u s e rp r o f i l e ) 来描述用 户兴趣主题,将信息与用户兴趣模型进行相似度计算,将相关度高的信息推送给 用户。在信息过滤推荐技术中,关键是用户兴趣模型的建立和学习。 2 1 用户兴趣模型 用户兴趣模型( u s e rp r o f i l e ) 是在信息过滤推荐系统中提出的,对用户信 息需求的一种描述形式。其作用相当于信息检索中的查询请求,但用户兴趣模型 与检索时用户提交的查询请求并不相同。因为在信息过滤推荐系统中,用户的需 求信息需要长期驻留在系统服务器端,该需求信息将随着用户兴趣的调整细化而 及时更新;在信息检索系统或搜索引擎中,用户的需求信息就是用户当前提交的 查询关键词,对检索系统来讲两次查询之间互不相关,检索系统服务器对此类信 息不做也专门保留,因而是一次性的。 用户兴趣模型用来表示用户对特定主题信息相对稳定的兴趣需求,它应该能 够反映出某用户在相当长的一段时期内对信息需求的主要倾向,随着对用户反馈 信息的收集和对用户行为的跟踪,信息过滤推荐系统将利用机器学习方法对当前 的用户兴趣模型进行及时调整,以使其更好地反映用户兴趣,符合用户的真正需 复旦大学硕上学位论文 求。 2 1 1 用户兴趣模型的表示 用户兴趣模型刻画的是:用户的信息需求从提交到注销这段时间内,对其某 一兴趣需求的一体化描述,其中包括用户兴趣模型随着需求调整进行动态更新的 过程,以达到及时、准确地反映用户的兴趣信息需求的目的。用户兴趣模型可形 式化描述为一个三元组p :p = ( ,f ,甲) 。其中, ,= p “,p ) ,人) ,a ,p ) ) f = 舻m ,f ”,af af v :i x f 斗,o ) = v ( ) ,( ) ,i = 0 , 1 ,h ) ( 公式2 一l a ) ( 公式2 一l b ) ( 公式2 1 c ) 这里,为该用户兴趣模型在学习调整过程中产生的全部状态集:f 为系统 为该用户兴趣模型采集到的全部反馈信息集,其作用是驱动学习过程;甲表示 用户兴趣模型的学习函数。不难看出:,( o 为该用户兴趣模型的初始状态;i “1 为 经过i 次学习调整后的用户兴趣模型;f ( 。表示对系统第i 次反馈的用以调整“) 的评价信息:而 ) ,a ,” 则表示用户兴趣模型的终结状态集。 2 。1 2 用户兴趣模型建立方法的分类 用户兴趣模型的建立方法一般有如下三种分类方法。 ( 1 ) 按照与特定领域知识的关系分类 按照用户建模与特定领域的关系来分,可以把用户兴趣模型分为:一种是建 模过程与特定的领域知识无关,建模过程是一个独立的部分,通过公共的接口与 系统的其他部分发生关系。其特点是通用性好。但在特定领域应用时,模型所能 代表和提供的知识有限;另一种是建模过程与特定的领域知识无关,借助特定的 领域知识定义特定的用户兴趣模型和模型的更新过程。适用于特定的领域,能代 表和提供较为丰富的信息。 ( 2 ) 按照用户参与程度分类 按照用户参与的程度,可以把用户兴趣模型分为隐式和显示两种。隐式建模 时,系统对用户建立一种框架,设计者对用户的分类并不十分清楚,用户的模型 复旦大学硕士学位论文 通过自动过程得到创建和维护。显式建模中,系统有一个用户模型嵌入其中,系 统的设计者对用户有一个清楚的了解,可以明确地分类和描述系统的访问者。在 这种系统中,如果不同的用户的偏好被识别出,那么系统的行为容易被解释,也 容易被修改。 ( 3 ) 按照获取信息的方法分类 按照获取信息的方式来分,可以把用户兴趣模型分为显式知识获耿和隐式知 识获取。前者是通过提问来获取知识。许多系统采用提问来获取对用户的描述, 在得到这些信息后就可以分类用户于当前的某一个类。后者则通过分析用户的行 为就可以隐式地获取对用户的描述,一般用于随后的用户交互,所获取的知识可 以被用来更新用户模型。这两种方式可以结合起来使用。通过对新用户的提问来 获取用户的初步信息,并对该用户分到某一类中;在用户交互过程中动态获取的 规则不断地被用于修改其用户模型。 2 1 3 评价用户建模的基本标准 一个用户兴趣模型的基本评价标准拟包括以下三个方面: ( 1 ) 粒度:是指用户兴趣模型是依据下面哪一种模式设计的或是哪几种模 式组合设计的: 每一个用户一个模型: 每一个用户多个模型; 多个用户共享一个模型。 ( 2 ) 修改能力:用户兴趣模型可以是静态的或动态的,一个静态模型在与 用户的交互过程中,不发生改变。而动态模型一旦学习到新的信息,就及时修改。 静态模型可以被预先嵌入一个系统中,或者在系统的初始绘画阶段由用户建立。 动态模型在整个交互过程中及时获取或修改。 ( 3 ) 时效性:用户模型可以是短期的或长期的。短期模型建立在当前交互 过程中,当前交互过程结束后,可以被放弃。长期模型可以从一个交互保持到另 一个交互过程中。 2 1 4 现有的用户模型构造方法 用户兴趣模型的构造依据可以是关键词集和兴趣文档集,这种方式通常需要 用户积极参与( 或是直接提交兴趣信息或是间接反馈兴趣评价) ,过滤系统服务 器端利用信息抽取技术和机器学习方法从其构造依据中获取当前用户兴趣的特 复旦人学硕士学位论文 征信息,以使得该用户兴趣模型可以与待推送的新文献之间进行相关度计算。通 过该方式获取用户兴趣后,对用户兴趣模型的更新和维护在很大程度上可以借助 对新文献的处理技术,在理论上可以依据信息抽取领域、机器学习领域和信息检 索领域中的方法和技术,所以在实践上这种构造用户兴趣模型的技术也是可行 的,而且它对单模型系统和多模型系统同样适用。本文介绍的科技文献过滤系统 就是依据这一方法进行设计和实现的。 还有一种方法它不需要用户做任何事情来描述自己的信息需求。用户的信息 需求是系统根据用户访问资源的历史记录自动分析出来的。近年来,出现了一些 以用户兴趣为核心的电子商务站点,他们通常是从网站经营的角度出发,分析大 多数用户在网站中的浏览路径,根据用户对页面的访问次序、访问频度和访问时 间等信息,动态调整页面结构以更好地满足访问者的需求,其中对服务器端w e b 日志的分析是得到用户潜在需求兴趣的主要依据。但该方法或是将用户看作是单 个的兴趣载体,或是把所有用户看作一个整体不做区别进行处理。所以这种方法 不适合信息过滤或信息检索用的用户兴趣模型构造。 2 2 基于中图法的用户兴趣模型 2 2 1 中国图书馆分类法 分类法就是根据信息内容的学科性质和特点类分信息的方法。对信息进行分 类的目的是便于管理和利用它们。为了保证信息分类的准确性和一致性,必须预 先编制一部合适的分类体系。从近现代分类法的编制方式看,其类型主要有以下 三种: ( 1 ) 等级体系分类法 它是以信息内容的学科性质为对象,运用概念概括与划分的方法,按照知识 门类的逻辑次序从一般到具体、从简单到复杂层层划分,所形成的一种等级体系, 它是以数字字母( 即分类号) 作为表达信息的学科内容的标识,并以此标识编排组 织和查找信息的一种排检方法。 ( 2 ) 分面组配分类法 它是运用概念可分析和综合的原理,将可能构成信息主题的概念分析成为单 元或分面,设置若干标准单元的类表分面公式,使用时,结合信息内容和分 面公式,用综合的方法组配形成类号。即通过概念的组配可将有限的基本类目扩 充,组配成无限的主题概念的散组式分类法。 复巨大学硕士学位论文 ( 3 ) 混合式分类法 这是介于上述两种分类法之间,既应用概念划分和概括的原理,又应用概念 分析和综合的原理而编制的分类法。根据侧重面不同,又有体系一组配分类法和 组配一体系分类法之分。 中国图书馆分类法( c h i n e s el i b r a r y c l a s s i f i c a t i o n ) ,简称中图法, 就是一种典型的等级体系分类法。它是我国第一部集中了全国图书馆和信息部门 的力量共同编制的一部综合性大型文献分类法。中图法由类目表、说明和索 引三部分组成,设置类目数万条。对于中图法中的每个类别,使用中图 法分类号进行标记。中图法分类号采用拉丁字母和阿拉伯数字相结合的混合 号码。另外,还相应采用了一些特殊符号,以作为辅助标记类目或辅助类号 组合之用。 中图法作为我国唯一的一部系列化的文献分类法,在国内拥有9 4 以上 的用户,其第四版修订完成并于1 9 9 9 年出版。在多数国家核心期刊上发表的科 技文献,都按照中图法分类号对其所属学科类别进行统一标识。 2 2 2 中国分类主题词表 主题法是以自然语言中的词语或规范化的词语作为揭示信息主题的标识,并 以此标识编排组织和查找信息的排检方法。主题指信息所具体论述的对象和研究 的问题;表达主题概念的词语就叫主题词。主题词有自然语言中的词语,也有从 自然语言中优选出的规范化词语。优选出的词语必须词义明确,避免其多义性, 并受特定的词表控制。 根据选词的不同,主题法可以分为标题词法、单元词法、关键词法和叙词法 等。 ( 1 ) 标题词法和标题词表 标题词法是以标题词( 规范的事物名称、名词术语) 作为信息主题内容的标识 和检索标识的先组式主题法。标题法的主要特征是事先编表,标题词以固定的组 合方式组织在词表中,检索按既定组配执行。 ( 2 ) 单元词法 单元词法主张用最基本的、不能再分的词汇单元词做主题词。单元词从 文献内容中抽出,再经规范,能表达一个独立的概念。比如“计算机软件”不是 单元词,而“计算机”和“软件”才是单元词,在英语中单元词经常是一个单词。 复旦大学硕士学位论文 单元词法的突出特征是:强调词汇的单元化;强调后期组配。由于它过分强调词 汇单元化,词汇处理方法又不甚合理,易发生错误组配,误检率较高,故实用性 不是很好。 ( 3 ) 关键词法 关键词法是直接从文献题名、文摘或全文中抽取出来的有实际检索意义的信 息单元( 关键词) 作为主题词。关键词排序可组成供主题检索的索引系统。由于关 键词法的词语不规范,影响了信息的查全率和查准率。 ( 4 ) 叙词法 叙词法是以叙词做主题词的后组式主题法。叙词是一种以概念为基础的,经 过优选的规范化名词术语,具有单义性,组配性能好的特性。叙词法的显著特点 是:检索时可由多个叙词形成任意合乎逻辑的组配,构成多种检索提问式。叙词 法在其发展过程中,继承了单元词法后期组配原理,借鉴了分类法按学科范畴分 类的原理,吸收了标题法中对标题词进行严格规范化控制,按字顺组织文献信息 的原理以及设立参照系统的措施。可见,叙词法是对前述几种类型主题法原理的 继承和发展,其科学性和实用性都大大前进了一步,并在文献检索中得到广泛的 应用。目前,国内外大多数检索工具和数据库都采用叙词法。汉语主题词表 就是采用叙词法编辑而成的一部大型综合性叙词表。 为把信息分类标引和主题标引结合起来,从而为信息标引工作的开展创造良 好的条件,1 9 9 4 年我国出版了由1 6 0 多位专家、学者历时6 年编写的中国分 类主题词表( 简称主题词表) 。这是一部中国图书馆图书分类法与汉 语主题词表两者兼容的双向对应表,也是我国第一部大型的、综合性的分类与 主题兼容的工具书。中国分类主题词表共收录5 万余条类目、2 1 万条主题词 及主题标题,包括哲学、社会科学和自然科学所有各个领域的学科和主题概念, 类目表实际上是一棵分类树。图2 1 就是中图分类体系中“计算机技术”及其 子类别的主题词列表。例如:“t p 3 9 1 信息处理( 信息加工) ”中,t p 3 9 1 是类 别的一个中图法分类号,“信息处理”和“信息加工”是这个类别的主题词。 复旦大学硕士学位论文 图2 1 主题词表不例 f i g 2 1a ne x a m p eo ft h e s a u r u s 选择中图法和主题词表,一方面为信息推送提供规范的依据,更重 要的是将其作为构造用户兴趣的初始模板,为用户兴趣模型的构建提供参照依 据,使得用户需求信息与系统资源之间建立有效“联接”。而且主题词表中 的词具有单义性,非常适合描述用户的兴趣主题。 2 2 。3 初始用户兴趣模型的构造 初始用户兴趣模型通过一个中图法分类号来确定。当用户在首次登录系统 时,系统要求用户提供能表征其兴趣主题的类别信息。用户依据中图法的分类体 系,选择某一类别作为初始的兴趣类别,注册的类别不一定是中图法最底层的类 别。在实际应用中,用户与兴趣之间是多对多关系,即一个用户可以拥有多个兴 趣,一个兴趣可以被多个用户共同拥有。但对信息过滤系统来讲,有意义的是兴 趣而非用户,所以信息的推送是基于兴趣的。如果某一用户同时注册多个兴趣, 系统会为其建立多个用户兴趣模型;也有可能不同的用户注册了相同的兴趣类别 信息,即他们采用了相同的兴趣模板,系统将收集所有注册了该兴趣类的用户信 息,并将其附带提供给该兴趣类的所有注册用户,以便具有相同兴趣的用户之间 进行交流与学习。 初始的用户兴趣模型p 可以表示为一个二元组 i o = ( n ,w ) = ( 彬,既,呒,) ( 公式2 - 2 a ) ( 公式2 2 b ) 其中,表示用户兴趣模型对应的中图法分类号,一旦确定后不允许改变;表 示用户兴趣特征,由彬、睨、呒、啊四部分组成;彬表示中图法分类号对 应的主题词;玎,n 表示中图法分类号对应类别的父类的主题词,一般只取两级 父类的主题词,因为随着级别的增高,主题词与用户兴趣的相关性变得越来越小: 呒表示由用户手动添加到兴趣模型中的特征;彬表示用户兴趣模型在经过i 次 学习和调整后新增的特征,在初始的用户兴趣模型,( o 中,还没有利用反馈信息 对其进行刷新,所以孵是一个空集。 彬、睨、睨、彬都是一个二元组的集合,表示为 , ,a , 其中表示一个特征,这个特征可能是一个字、词、短语、n - g r a m 项等;w ,代 表特征t ,的权重,是一个e o ,1 之间的值。彬、睨、睨、彤间不存在重复的 特征,即对于来说,它们之间的交集为空。彬、睨、既中的特征不会随着用 户兴趣模型的学习和调整而增加或减少,但是它们的权值可能会发生变化。彬中 的特征及其权值,会随着用户兴趣模型的学习和调整发生较大的变化。 当彬、睨、睨中的特征确定之后,需要为每个特征分配一个权重。对于彬、 中的特征,设置每个特征的权值为;对于呒中的特征,设置每个特征的权值 为6 ;对于既中的特征t ,使用( 公式2 - 3 ) 计算它的权值。 里呈盔堂堡主兰竺堡苎 胛) 。方, o ,1 2 ) ( 公式2 其中,为主题词对应类别与中图法分类号对应类别在中图分类体系结构中相 差的层数。通常口、6 、c 的值都设为1 。 2 。2 。4 新信息的推送算法 新信息的推送算法是基于向量空间模型的。向量空间模型用特征项及其相应 权值来表征信息的语义,新信息和用户兴趣模型都表示为一个向量。在需要给用 户推送新信息时,新信息和用户兴趣模型的相关程度是通过向量运算来描述的。 在文本信息过滤中,一般使用向量之间的夹角余弦来计算它们的相似度。 本文中,用户兴趣模型由一个中图法分类号和一个兴趣特征列表组成。 将矿表示为一个向量,就可以使用夹角余弦公式来计算用户兴趣模型和新信息 的相似度。不过,我们希望在计算相似度的时候,能够利用中图分类号,所以对 相似度计算方法进行了改进。设矿( 表示用户兴趣模型,( 。的兴趣特征列表, 为新信息对应类别与中图法分类号对应类别在中图分类体系结构中相差的层 数,则文档d 和用户兴趣模型的相似度计算公式如( 公式2 4 ) 所示。 咖p 】) 甜毒咿高 厶 l r ,l l l 其中,口+ = 1 ,七为一个常数,一般取值为1 。 ( 公式2 4 ) 如果新信息中本身包含一个中图法分类号,那么可以轻松地计算出( 公式 2 4 ) 中,的值。如果新信息中没有中图法分类号,那么可以通过层次分类技术 获得新信息的中图法分类号。 2 2 5 用户兴趣模型的更新 用户兴趣模型要能够及时准确地反映用户的兴趣,除了在初始的建立阶段要 全面考虑之外,还需要能够根据用户的浏览行为和兴趣变化进行动态的修改,这 就需要充分利用用户的反馈信息。我们可以将用户的反馈信息分为两种: ( 1 ) 显式反馈信息 现有的系统普遍采用“相关反馈”作为用户和系统交互的主要手段。给定一 个评价标准,如:完全符合要求、相关、无关、完全无关,或给定一个评价数值, 如:+ 5 弋5 ,+ 5 代表完全符合要求,一5 代表完全无关,当用户查看推送过来的文 l7 复旦大学硕士学位论文 档时,根据这些评价标准对文档做出评价,然后系统利用这种相关反馈信息实现 对用户兴趣模型的学习和更新。其中最常用的更新方法是s a l t o n 和b u c k l e y ”1 所提出的公式: e ,d 。 矿( ) :( 一) + 一 e , j ( 公式2 - 5 ) 其中,( ,表示用户兴趣模型的兴趣特征,e ,代表用户对文档d ,的评价 等级。这个方法使用简单,但增加了用户的负担,用户也很难准确地使用评价等 级对推送的文档做出评价,而且不同的用户对评价等级有不同的认识,也会导致 降低这种方法的性能。 ( 2 ) 隐式反馈信息 用户在浏览推送过来的文档时,可以通过跟踪记录用户的浏览行为,得到用 户对文档感兴趣的程度,如:浏览时间、保存操作、打印操作等行为都是用户对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论