




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学信息资源个性化推荐系统的设计与模型研究 摘要 信息资源个性化推荐系统,是一种新型的信息资源服务形式,它主要的作用 是辅助用户在海量的信息中,最快、最有效的发现自身所需的信息。而其所采用 的个性化服务推荐技术,是一种在特定类型的数据库中进行知识发现的应用技 术,它使用多种数据分析方法向用户主动、及时、准确地提供所需信息,并能根 据用户对推荐内容的反馈进一步改进推荐结果。常用的个性化服务推荐技术包括 三种:信息检索与信息抽取、基于内容的过滤和协同过滤、数据挖掘与知识发现。 其中协同过滤被认为是至今为止在信息资源个性化推荐系统中最常用、最成功的 一种个性化推荐技术。 本研究的目的是针对医学信息资源的特点,采用一种新型的主题词概念分层 的协同过滤算法,对于传统的协同过滤算法的缺陷进行改进,提高推荐的效果和 质量。并以此为基础,构建一个医学信息资源个性化推荐系统的实例- - m e d p r s 实验系统。 m e d p r s 系统由四部分组成,分别为用户子系统、资源检索子系统、资源推 荐子系统和暂存信息库。其中资源推荐子系统作为整个系统的核心,主要负责本 实验系统中主题词概念分层协同过滤推荐算法的实现。它首先通过主题词概念分 层对数据进行预处理,继而对不同的目标资源赋予不同的权重系数,然后采用常 用的相似性算法,生成最终的推荐结果,并通过不断的重复操作优化推荐结果的 质量。 经过初步的测试分析,主题词概念分层协同过滤推荐算法可以显著的提高查 询效率和推荐结果的质量。 关键词:医学信息资源个性化服务推荐系统主题词概念分层 中图分类号:g 2 5 0 7 3 医学信息资源个性化推荐系统的设计与模型研究 a b s t r a c t p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mo fi n f o r m a t i o nr e s o u f l 瑚i san e wm o d e lo f i n f o r m a t i o ns e r v i c e s ,w h o s em a i nf u n c t i o ni st oa s s i s te n dt l s 盯st od i go u ti n f o r m a t i o n n e e d e db yt h e mm o s tr a p i d l ya n de f f e c t i v e l yf r o ma b u n d a n ti n f o r m a t i o nr e s o u r c e s t h er e c o m m e n d a t o r yt e c h n o l o g yf o rp e r s o n a l i z e ds e r v i c ei n t r o d u c e db yp e r s o n a l i z e d r e c o m m e n d a t i o ns y s t e mo fi n f o r m a t i o nr e s o u r c e si sa na p p l i e dt e c h n o l o g yf o r d i s c o v e r i n gk n o w l e d g ef r o ms o m es p e c i f i cd a t a b a s e s ,w h i c hc a np r o v i d eu s e r sa c t i v e , c u r r e n t , a c c u r a t ei n f o r m a t i o nb yav a r i e t yo fd a m - a n a l y z i n gm e t h o d sa n di m p r o v e q u a l i t yo fr e c o m m e n d a t o r yr e s u l t ss t e pb ys t e pa c c o r d i n gt ou s e 璐f e e d b a c kf o r r e c o m m e n d a t o r yc o n t e n t s t h e r ea r et h r e ec o r l l n l o np e r s o 删r e c o m m e n d a t o r y t e c h n o l o g i e s :i n f o r m a t i o n r e t r i e v a la n de x t r a c t o r , c o n t e n t - b a s e d f i l t e r i n g a n d c o l l a b o r a t i v e f i l t e r i n g ,d a t am i n i n g a n dk n o w l e d g ed i s c o v e r y a l lo ft h e m , c o l l a b o r a t i v ef i l t e r i n gi sr e g a r d e da sm o s tp o p u l a ra n ds u c c e s s f u lp e r s o n a l i z e d r e c o m m e n d a t o r ya l g o d t h r ai np e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m t h ep u r p o s eo ft h i ss t u d yi st or e f o r mt h ew a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h ma n di m p r o v et h ee f f e c ta n dq u a l i t yo fr ;e o 眦啪a l d 螂r e s u l t sb yw a yo f a p p l y i n gan e w e o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mn a m e da st h e s a u r u sc o n c e p th i e r a r c h y c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mw h i c ha i m sa tt h ef e a t u r eo fm e d i c a li n f o r m a t i o n k d p r sm o d e ls y s t e mw h i c hi sa l li n s t a l l e go f p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m o f m e d i c a li n f o r m a t i o nr e s o u r c e sa n db a s e do nt h i ss t u d yi sc o n s t r u c t e d t h e r ea r ef o u rc o m p o n e n t si nm e d p r s ,n a m e l y , u s e rs u b s y s t e m , r e t r i e v a l s u b s y s t e m , r e c o m m e n d a t i o ns u b s y s t e ma n di n t e r i md a t a b a s e r e c o m m e n d a t i o n s u b s y s t e mi s c o r eo ft h ew h o l es y s t e m , w h i c hi m p l e m e n t st h e s a u r u sc o n c e p t h i e r a r c h yc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mb ys e v e r a ls t e p s f i r s t l y , i td e a l sw i t hd a m i na d v a n c eb yt h e s a u r u sc o n c e p th i e r a r c h y ;s e c o n d l y , i tg i v e sd i f f e r e n tw e i g h t sf o r d i f f e r e n tt a r g e ti n f o r m a t i o nr e s o u r c e s ;t h i r d l y , i tc a l c u l a t e st h er e c o m m e n d a t o r y r e s u l t sb ya d o p t i n gt r a d i t i o n a ls i m i l a r i t ym e a 飘玳m e t h o d s ;f i n a l l y , i to p t i m i z e sq u a l i t y o f r e c o m m e n d a t o r yr e s u l t sb yc o n t i n u a lp r o c e s s t h e s a u r u sc o n c e p th i e r a r c h yc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mi m p r o v e ss e a r c h e f f i c i e n c ya n dq u a l i t yo fr e c o m m e n d a t o r yr e s u l t ss i g n i f i c a n t l yw h i c hi sp r o v e db y e l e m e n t a r yt e s ta n da n a l y s i s k e y w o r d s :m e d i c a li n f o r m a t i o nr e s o u r c e s , p e r s o n a l i z e ds e r v i c er e c o m m e n d a t i o n s y s t e m t h e s a u r u sc o n c e p th i e r a r c h y 4 医学信息资源个性化推荐系统的设计与模型研究 1 研究背景 引言 二十一世纪是知识与信息的时代。特别在网络环境下,信息扮演着与物质和 能量相提并论的角色,带有普遍性、共享性、社会性和动态性等人们认可的基本 属性和特征。这些属性和特征决定了信息具有广泛的社会功能,同时也是信息对 社会发展产生影响和发挥作用的前提。因此人们对于知识与信息的需求与e t 俱 增,但随之而来的获取难度增加,速度和准确性降低的问题,却始终困扰着人类 前进的步伐。为了解决这些问题,科技人员们进行了多种尝试和创新,信息资源 的数字化和网络化、数据库和搜索引擎的出现及功能不断强大便是其中的典范。 这些技术极大的提高了信息资源获取的效率和质量,进而不断改变着人类生活和 工作的方式。 在我们享受着网络和数字信息资源带给我们的种种便利的同时,我们又面临 着新的困境。首先是现有数字信息资源的组织方式存在问题。目前的数字资源主 要包括数据库资源和网络资源两大部分。数据库资源种类多,但交叉重复严重, 信息空间相对独立,内容组织程度不高,查询方式有限并有较大差异;而网络信 息资源数量庞大,内容杂乱无章,数据对象多存在异构异质等现象。这些问题在 相当程度上影响了人们对于信息资源进一步处理的需求。此外,从现有数字资源 的获取方式来看,也存在以下的一些问题:如仅提供固定的简单检索,不能自动 跟踪信息内容的变更;对于相同检索词,给出的查询结果完全相同,不能根据用 户的兴趣需求来个性化检索结果等等。 为了从根本上解决这些问题,个性化信息资源的概念便逐渐被人们所接受和 重视。首先个性化的含义是使其个性凸显。这里包含了两层含义,其一,个性是 需要经过培养而逐步形成的,这个过程我们可以称之为是个性化的一个过程;其 二,个体总是具有一定的个性的,让这种个体得到别人的认可,并在一定的空间 中得以体现、展示是每个个体都拥有的潜在需求,这个过程我们也称之为个性化 的过程“1 。个性化信息资源可以基于信息用户的使用行为、习惯、偏好、特点及 特定需求,向用户提供满足其个性化需求的信息内容和功能。其次个性化信息是 指反应人类个性特征的一切信息,这些信息包括了这个个体的各种属性的描述; 个性化信息也指由人类个性所决定的其对信息的需求的一种信息组合,也就是 由人类个性对信息需求的决定关系而产生的一系列对个体有用的信息。 医学信息资源个性化推荐系统的设计与模型研究 而现实生活中大部分人的工作中都需要依靠大量的信息资源,但他们往往都 不是信息检索的专业人员,并且对他们来说没有大量的时间来检索信息,这样使 得很大一部分信息资源失去了应有的价值,造成不同程度的资源浪费。医学信息 资源极其丰富,更新速度快,用户对于获取医学知识的准确性、实时性、全面性 要求均较高。同时不同的用户有着不同的兴趣爱好与信息需求,而且这种基本稳 定的兴趣与需求在不同的时间段还可能有一定的变化。即使相同信息在不同用户 中体现的价值也不同,人们只对自己认为有用的信息也就是知识感兴趣。所以, 信息检索系统必须向用户提供贴近其需求、符合其特点的信息。然而当前的信息 检索系统往往对所有的用户呈现同样的界面,用户所需求的信息往往混杂在大量 无关信息中,使得毫无经验的个体被溺身其中,缺乏外来的帮助,总是“所得非 所求”,获取到的总是无用的信息,大大降低了工作的效率和继续检索的兴趣。 为了在最短的时间内、最有效的找到所需的信息,人们对个性化信息的需求越来 越迫切。因此一种新型的信息资源服务形式一信息资源个性化服务推荐系统,日 益受到重视并逐渐在实践中得到发展和应用。而医学信息资源,组织形成早,发 展迅速,其在数量庞大、种类繁多的同时,又具有良好的分类标引体系,因此构 建相应的医学信息资源个性化服务推荐系统就具有更大的紧迫性和可行性。 2 个性化推荐系统的研究现状 近几年国内外对于信息资源个性化服务推荐技术和实践的研究逐渐增多,但 由于不同学科的资源分布特点、发展进程存在很大不同,同时现有的推荐算法也 存在不同程度的缺陷,因此并无真正成熟有效的系统出现,研究的重点也主要集 中在推荐算法的改善和扩展,应用领域也多为电子商务。现在国内外信息资源个 性化服务推荐系统主要有:斯坦福大学数字图书馆项目的f a b 系统、印第安那 州大学的s i f t e r 个性化推荐系统、t a p e s t r y 系统、中国人民大学数字图书馆个 性化推荐系统d l p e r s 。 1 f a b 系统脚是s t a n f o r d 大学开发的数字图书馆项目。它的设计思想是,从 用户已经评价的文档中抽取一定特征组成用户概况表,一个用户具有一个用户概 况表,使用t f i d f 向量表示。同时也使用t f i d f 向量来描述文档,最后计算用户概 况信息与文档间的相似度,把与用户概况表内容相似度高的文档向用户推荐。此 外,系统也会比较两个用户概况表内容的异同,得到两个用户问的相似度,把和 某一用户相似的其他用户的意见向该用户推荐。综合这两种推荐得到对特定用户 6 医学信息资源个性化推荐系统的设计与模型研究 的推荐结果。f a b 体系结构如图1 所示。 用 户 图1 f a b 体系结构 2 s i f t e r ( s m a r ti n f o r m a t i o nf i l t e r i n gt e c h n o l o g yf o re l e c t r o n i c r e s o u r c e ) 是由美国印地安那州大学计算机信息科学学院和图书情报科学学院的 工作人员和学生进行的一个多学科间的研究合作项目嘲。这个项目的主要目的是 基于人工智能、信息检索及分布式计算领域的先进概念和技术开发一种信息代 理。这种代理能够根据用户的动态需求,从分布在各个地点的复杂资源中挑选出 用户所需信息,并且进行分析、综合、为用户提供个性化定制。 s i f t e r 系统提供的主题词库来自于m e s h ( 美国国家医学图书馆的医学主题词 表) 。它对用户需求的获取方式及表达用户需求质量这二个方面给予了充分重视, 采用了三种用户模型来比较用户需求的获取情况;( 1 ) 显式地创建用户模型:这 种方式需要用户直接填写表单构建模板。用户用关键词明确清晰地表达出所需信 息,然后系统利用关键词匹配等方法在动态的信息源中找出与用户的信息需求相 匹配的信息,按照相关度排列把资源推送给用户。( 2 ) 隐式地创建用户模型:用 户对系统所给定的主题词用o 一1 0 ( o 代表不感兴趣,1 0 代表非常感兴趣) 进行等级 划分,以此表示他们的兴趣喜好从而间接地构建出用户模型。然后s i f t e r 系统把 用户每次与系统会晤时的“访问痕迹”作为相关反馈数据,利用机器算法不断维 护更新用户模型。( 3 ) 显式与隐式相结合创建用户模型:最初用户直接填写表单 构建模型,系统依此初始模型查找到资源后按相关度排序把信息推送给用户,然 后系统再通过跟踪用户浏览行为,利用相关反馈技术反复修改模型以此不断更新 用户模型,以便能更准确地为用户提供个性化信息。 有1 8 位用户自愿参与到s i f t e r 个性化推荐系统的用户模型构建实验中。将这 7 医学信息资源个性化推荐系统的设计与模型研究 些用户分成三组每组6 人分别采用上述三种用户建模方式,在这1 8 位用户1 5 次访 问系统后,可以用图2 来揭示出这三种模型的比较结果。如果用查准率作为评价 机制来对这三种模型进行评估,结果如下:显式地创建用户模型最初表现出了很 强的优势,而隐式地创建用户模型和显式与隐式相结合创建用户模型则稍逊于 它;但从长远发展来说,显式与隐式相结合的模型表现出了很好的发展前景,而 显式建模的方式则有明显的下降趋势。 嚣 豫 堪 咐l 量o r ,一朋- i 呻加哺* p 一_ 嘲崩喇- 饰 _ 细h h _ 事_ _ f m 蕾舢l i 啊啊由 图2s i v i 酣- 性化推荐系统中三种用户模型的实验结果比较 3 t 印e g 时系统1 4 l 是在1 9 9 2 年g o l 曲e r g 等人首次提出了关于“协同过滤”的 描述的基础上,研制了从文集中检索特定文章的t a p e s t r y 系统。t a p e s t r y 系统允 许用户对阅读过的文章发表意见,其他用户不仅可以根据关键字检索文章,还可 以根据用户的评注意见决定阅读哪些文章。在t a p e s t r y 系统中,设定的前提是每 一个用户相互了解,这样用户知道哪些人的评注意见值得参考;t a p e s t r y 不是自 动地根据用户的兴趣向用户推荐,而是需要用户构造复杂的查询才能得到检索结 果。其体系结构如图3 所示。, 8 医学信息资源个性化推荐系统的设计与模型研究 4 d l p e r s 嘲系统是以协同过滤技术为主,利用基于内容的过滤,解决“冷 启动问题”,利用资源的分类信息克服矩阵的高维稀疏问题,从而改进推荐结果 的质量。它可根据您填写的研究方向和兴趣偏好而主动地向您推荐图书或论文资 料,用户既可浏览资源的基本信息,查询其借阅状况,还可直接阅读全文,如果 用户利用系统提供的“我的收藏夹”模块,可对历史推荐资源进行自助性的组织 和管理,建立起个人的小型“网上图书馆”。主要功能包括:用户注册,用户填 写研究方向,用户“基本信息”查看及修改,用户“研究方向”的查看及修改, 用户定量定性评价及信息反馈,显示本次推荐结果,评价历史推荐结果,推荐资 源管理,定制页面形式,e - m a i l 推荐,查看及推荐“个人常用网站”等。 3 本研究的定位 目标定位: 乱针对医学信息资源的特点。 b 遵循信息系统设计基本原理。信息服务系统本身也是一个信息系统,因 此个性化信息服务推荐系统的设计应该遵循信息系统的基本原则、模式和设计方 法。 c 具有灵活配置功能。个性化信息推荐系统应是一个开放性系统,系统结 构的功能灵活多变,可根据使用者的需求随时进行组合和变更。 d 以用户为中心。个性化信息推荐系统应根据数字图书馆学科专业用户需 求及学术资源的特征进行设计,采取总体设计,分布实旌”的技术方案,使推 荐系统始终与用户的实际需求紧密结合。 资源定位: 用户对数字学术资源的获取主要来自两方面:图书馆数据库资源和网络信息 资源获取。然而,网络资源信息量大、内容繁杂,数据对象的异构、异质等特征, 难以对之进行有效的组织和检索;图书馆数据库资源种类多样,数据交叉重复, 内容组织程度高,各自独立的信息空间和有限查询方式,导致有效信息获取的费 时费力。这两类资源的组织与获取都存在一个共同问题,即不能自动跟踪信息内 容的变化,不能根据用户的兴趣需求来定制检索结果。所以,一个优秀的信息推 荐系统应该立足于实现网络动态学术资源和图书馆数据库学术资源主动而准确 9 医学信息资源个性化推荐系统的设计与模型研究 的推荐。 功能定位: 乱提供交互式查询。充分考虑用户使用推荐系统的行为方式,把推荐系统 的诸多功能集成在一个界面友好的环境中,为用户浏览和查询提供方便,并能和 用户进行交互以帮助问题的求解;能对用户提出的各种复杂的查询请求进行处 理,以提高查询的准确率。同时,能够提供对检索结果的知识评价,激发用户新 的需求兴趣。 b 具备智能化信息分析与处理。主要表现为系统的主动性推荐和协作性推 荐上。主动性推荐是指主动采集并跟踪用户需求的信息并及时处理发布;能从用 户日常检索浏览中主动学习用户的兴趣,推理并预测用户需求。协作性推荐是指 根据用户之间的相同或相似性进行信息推荐,使需求相同的用户之问共享信息查 询结果。 c 推荐精确系统的知识。能够过滤、屏蔽无关无用的冗余信息,推荐精确、 有效、真正具有针对性的信息;能自动地、智能地将大量的数据转变为具有规律 性、系统化的知识,形成具有内在关联的信息链和知识链,并以易于理解的模式 推荐给用户。 l o 医学信息资源个性化推荐系统的设计与模型研究 第一章个性化推荐系统的相关理论与技术分析 1 1 个性化服务概述 个性化信息服务是指在大范围内,为独立的个体创造量身定制的服务。它既 是一种个性化服务,又是一种信息服务,是指能够满足用户的个体信息需求的一 种服务,即用户可以按照自己的目的和需求,在某一特定的网上功能和服务方式 中,自己设定网上信息的来源方式、表现形式、特定网上功能及其他的网上服务 方式等,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的 信息服务。 个性化信息服务包括两方面内容:个性化信息和个性化服务。个性化信 息是反映个体个性特征( 如追求新奇) 的一切信息,同时还包括个体特定的信息 需求组合,如追求新奇而表现的对新潮前卫信息的需求组合。个性化服务包括服 务时空的个性化( 在用户希望的时间和地点得到服务) ,服务方式的个性化( 根据 用户个人偏好提供服务) 和服务内容的个性化( 用户各取所需,不再千篇一律) 。 作为信息提供者要能提供符合个体的个性特征的信息,这样的信息才能给个体带 来价值。个性化信息服务不仅要能对用户提出的要求提供最贴切的信息服务,还 要能依据个体个性特征,主动收集个体可能感兴趣的信息,甚至预测个体可能的 个性发展,提前收集相应的信息,最后以个性化方式显示给个体。整个过程是个 负反馈闭环系统,如图4 所示,个体显式的信息需求及潜在的信息需求作为输入, 同个性化信息服务系统提交给个体的信息进行比较,作为比较器的个体就产生一 定的反映和评价,该反馈信息会直接影响信息服务单元的信息检索策略,从而导 致下一步更趋向于输入的信息输出。 图4 个性化信息服务的反馈实现 开展个性化信息服务的意义:开展个性化信息服务是在网络环境下的发 展方向。首先,数字化时代的到来,是信息服务展现个性,倡导创造力的一个崭新 医学信息资源个性化推荐系统的设计与模型研究 契机。这种新的个性化信息服务便成为一种深入到用户个人生活工作各个层面的 辅助性工具,成为以往很多分别实现各种功能的工具的一种集成环境,为个性发 展提供广阔的发展空间。其次,个性化信息服务是推动信息服务业的动力,是满足 用户需求的服务,是培养个性、表现个性的信息服务。只有这样的服务才能真正 满足用户的需要,尤其是信息时代人的全面发展的需要。最后,从社会信息化的发 展过程来看,个性化信息服务引导用户的信息需求,吸引用户步入信息世界,真正 成为信息的使用者和提供者,这对加速信息社会的成长具有十分重要的意义。 个性化信息服务表现形式:目前存在着许多个性化服务系统,它们以各 种思路实现不同的个性化服务。依据所依赖和采用的技术,个性化信息服务包括 逐次递进的三种形式。 第一种形式:个性化推送服务或个性化定制服务。即根据用户的特性提供具 有针对性的信息。这种服务所利用的技术如信息推拉技术已较为成熟,已开始在 一些商业网站和数字图书馆领域中提供服务。其方式大致有两种:一是提供定制 的w e b 页面、信息频道或信息栏目,实施查询代理服务;另一种是基于电子邮件 的信息推送,根据用户的定制提供相应的信息栏目,定期或不定期地发送到用户 电子信箱。 第二种形式:个性化推荐服务。即不仅能根据用户的特性提供具有针对性的 信息,还能通过对用户专业特征、研究兴趣的智能分析而主动地向用户推荐其可 能需要的信息。个性化推荐( p e r s o n a l i z e dr e c o m m e n d a t i o n ) 是一种特定类型 的数据库中知识发现的应用技术,根据系统结构不同分为基于内容的推荐系统和 协同推荐系统两类。基于内容推荐是利用资源与用户兴趣的相似性来推荐资源, 协作推荐则利用用户之间的相似性来推荐资源,目前一些个性化推荐系统综合了 基于内容推荐和协作推荐技术的优势,以优化和提高资源推荐的精确性。 第三种形式:个性化知识决策服务。即利用数据挖掘、知识发现等技术,对 有用的信息内容再进行深层次的分析与挖掘,向用户提供能够用于决策支持、智 能查询、科学研究、解决问题的规则和模式。 个性化信息服务发展的关键问题:目前尽管出现了一些个性化服务系统, 但大部分都是研究原型,尚没有成熟的研究报道和应用实例。在个性化服务相关 技术方面仍有许多需要深入研究和探讨的。 a 用户兴趣和行为的获取和分析。现有个性化服务系统多是通过用户显式 描述方式获取用户兴趣,缺乏主动学习、提取用户行为和个性特征的能力。用显 式描述方式获取的用户兴趣是静态的、粗略的,而用户的兴趣则是多方面的,是 不断发展变化的。如何动态跟踪、分析预测用户的个性需求和潜在需求是个性化 1 2 医学信息资源个性化推荐系统的设计与模型研究 服务系统需要解决的重要问题。 b 用户兴趣特征模型的建立。对资源分类可采用通用的分类方法,而对用 户分类特别是对个性化特征很强的用户兴趣的分类,则不能采用固定规则。综合 分类、类聚、关联等分析方法对系统内资源信息、用户信息和用户兴趣信息进行 科学的分类和类聚,找出不同类别之间的关联关系,是系统能否提供精确的推荐 结果的重要问题。 c 个性化信息过滤技术。基于内容过滤与协同过滤技术在资源发现和推 荐上各有所长和不足。虽然协同过滤在实践中得到广泛的承认和应用,但其自身 固有的一些缺陷也严重制约了其进一步的发展。如何针对不同的资源与用户特 征,选择和优化推荐技术,仍旧是较难解决的问题。 d 资源统一检索。异构资源统一检索平台的构建是个性化服务系统的重要 组成部分,一方面可满足用户不同的查询需求,同时也是个性化推荐服务的资源 基础。信息抽取和数据集成是这方面关键技术。目前不少研究部门和厂商都在研 究使用中间件技术实现资源统一检索。但数字图书馆资源类型多样,对不同载体、 不同存储方式、不同使用方式的数据库的处理方式也会不同,资源整合的技术实 现难度也相应较大。 1 2 个性化服务推荐技术 个性化服务推荐技术是一种在特定类型的数据库中进行知识发现的应用技 术,它使用多种数据分析技术为用户更好的服务,向用户主动、及时、准确地提 供所需信息,并能根据用户对推荐内容的反馈进一步改进推荐结果。 推荐系统实现的主要技术分析: 信息检索与信息抽取 信息检索是响应用户提交的搜索请求,返回相应查询结果的信息技术。查 询结果大多数根据查询匹配相似度的高低排序。一般络搜索引擎比如y a h 0 0 、 a l t a y i s t a 、g o o g l e 等均是流行的信息检索系统。目前信息检索的正确率较低, 需要人工自己进行判断。另外,信息检索系统只能回答用户询问的问题,是通用 的、非个性化的服务。信息抽取是根据用户抽取信息的要求,按照特定的信息对 象模板自动识别与抽取信息的技术。抽取的信息主要包括信息实体的抽取、信息 实体关系的抽取、事件信息的抽取等。信息抽取虽能准确地抽取出用户所需要的 具体信息,但其所依赖的模板仅能表示某一领域中的信息结构,因此信息抽取被 局限于特定领域。信息检索采取关键词匹配法,准确率不高;信息抽取面向特定 领域,查全率有限。把信息抽取加入到信息检索过程中,结合两者之优势,克服 医学信息资源个性化推荐系统的设计与模型研究 信息抽取技术领域的局限性,提高个性化信息获取的全面性与准确性,是构建数 字图书馆个性化信息推荐系统时需要研究的。 基于内容过滤与协同过滤 基于内容过滤与协同过滤是两种不同的个性化信息过滤技术。基于内容过 滤是按照信息的内容特性,采用向量空间法来选择信息。应用于不同领域的 a g e n t s 系统就是典型的信息过滤系统。基于内容过滤加入了用户个人信息,是一 种有效的个性化技术。但其局限性也是显而易见的。首先,由于匹配的不精确性, 难以区分具有相同特征的不同对象的质量好坏。其次,不能提供偶然发现,如关 注“数据仓库”、“数据库”、“数据挖掘”的用户也许会喜欢与这些专题相关 的其它内容,但基于内容的过滤技术不能满足这种需求。其三,对声音、图像、 视频等介质的资源则不能采用内容理解的方法。协同过滤是依据其它用户的评价 来选择信息的一种十分有效的网络信息过滤技术。它不依赖于内容,仅依赖于用 户之间的相互推荐。这种方法避免了基于内容过滤的不足,不仅能保证信息的推 荐质量,同时能推广至其它介质的过滤,而且能够提供偶然发现。上述两种个性 化过滤技术应用背景不同,适用的场合也有所不同,但它们在实现个性化推荐上 各有所长。如何综合基于内容过滤和协作过滤技术的优势,是个性化信息推荐系 统在设计上需要关注的重要问题。 数据挖掘与知识发现 知识发现是从数据中发现有用知识的整个过程,数据挖掘则指的是知识发 现整个过程中的一个特定步骤,是知识发现中最核心的部分。因此,知识发现和 数据挖掘往往作为同义词使用,一般指运用关联分析、序列模式分析、分类分析、 聚类分析以及o l a p 等知识发现算法,对信息源进行智能处理和知识抽取,发现数 据间隐藏的依赖关系,并以法则、规则、科学定律、方程或概念网等特定方式表 示抽取的知识。数据挖掘所发现的知识最常见的有广义型知识、特征型知识、关 联型知识和预测型知识。数据挖掘不同于信息挖掘,信息挖掘侧重提取有用的信 息和知识,数据挖掘则是对有用的信息内容再进行深层次的分析与挖掘,按知识 的内容特性聚集并以特定的方式表示。这些知识能够用于决策支持、智能查询、 信息管理、科学研究、过程控制以及其它方面。数据挖掘与知识发现技术已成功 地应用于商业领域,随之又迅速地扩展到社会保险、医学、电信等领域。数字图 书馆的出现为它提供了一个新的应用领域,将数据挖掘和知识发现的原理与技术 应用于数字图书馆个性化信息推荐系统中,实现数字学术资源的深层挖掘并提供 有效的知识服务,是数字图书馆个性化信息服务的发展趋势。 1 4 医学信息资源个性化推荐系统的设计与模型研究 1 3 协同过滤算法 1 3 1 协同过滤算法的概述与实现 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 是推荐系统技术中应用最早和最为 成功的技术之一,也称为面向用户( u s e r - b a s e d ) 的技术嘲。它是基于这样的 假设:为一用户找到他真正感兴趣内容的好方法是首先找到与此用户有相似兴趣 的其他用户,然后将他们感兴趣的内容推荐给此用户,即t o p - n 推荐。协同过滤 推荐系统就是基于其他用户对某一信息的评价来向用户进行推荐,用户获得推荐 是系统从用户购买模式或点击行为等隐式获得的,不需要用户努力地找到适合自 己兴趣的推荐信息,如填写一些调查表格等。基于协同过滤技术的推荐过程可分 为3 个阶段:数据表述,发现最近邻居,产生推荐数据集。 数据表述:在一个典型的基于协同过滤技术的推荐系统中,输入数据通常 可以表述为一个m n 的用户一项评估矩阵r ,m 是用户数,n 是项数,r ,是第i 个用 户对第j 项的评估数值,评估值与项的内容有关,如果项是电子商务中的货品, 则表示用户订购与否,例如1 表示订购,0 表示没有订购:如果项是w e b 文档,则 表示浏览与否,用户对它的兴趣度有多高,这样的评估值可以有几个等级,如1 5 等。 发现最近邻居:基于协同过滤技术的推荐系统的核心是为一个需要推荐 服务的当前用户寻找其最相似的“最近邻居”集( n e a r e s t - n e i g h b o r ) ,即:对一 个用户u ,要产生一个依相似度大小排列的“邻居”集合n = n 1 ,n 2 ,n t j ,u 不 属于n ,从n l 到n t ,s i m ( u ,n k ) 从大到小排列。 图5 邻居的形成过程 图5 演示了协同过滤中邻居的一种形成过程:当前用户0 和其它用户之间的相 似性被计算,如计算欧几里得距离。图5 中与点0 为中心的k = 5 个最近用户被选择 为邻居。 1 5 滚 医学信息资源个性化推荐系统的设计与模型研究 性、相关相似性以及修正的余弦相似性m 。 州“净c o s 2 桷( 圳 州= 去等等等 酬咿赤等簖埘 设用户u 和相应的已选项集i u ,则其对任意项t ( 涎l u ) f l 勺兴趣度值如下式表示: e ( c o r r o 1 6 医学信息资源个性化推荐系统的设计与模型研究 u 是用户u 对项的平均评估值,i 是“最近邻居”集的用户。o i ) l t i 是用户l 痢用户i 之间的p e a r s o n 系数,r a t i n g i 是用户i 对项t 的评估值。7 是用户i 对项的平均评估值。 b t o p - n 推荐集的产生 为了得到t o p - n 推荐集,分别统计“最近邻居”集中的用户i 对不同项的兴趣度, 可以用访问频率来衡量,取其中n 个排在最前面,$ i g s :i u 的项作为t o p - n 推荐集。 1 3 2 协同过滤算法存在的问题 尽管协同过滤技术在个性化推荐系统中获得了极大的成功,但随着站点结 构、内容的复杂度和用户人数的不断增加,协同过滤技术的一些缺点逐渐暴露出 来,主要有数据稀疏性问题和算法的可扩展性问题鸭 数据稀疏性问题 协同过滤技术的实现首先需要使用用户一项矩阵( 评价矩阵) 对用户信息进 行表示,尽管这在理论上很简单,但实际上许多电子商务推荐系统要对大量的数 据信息进行处理,而在这些系统中一般用户购买商品的总量占网站总商品量的1 左右,因此造成了评价矩阵非常稀疏。在这种数据量大而且又稀疏的情况下,一 方面难以找到最近邻居用户集,另一方面进行相似性计算的耗费也会很大。同时, 由于数据非常稀疏,在形成目标用户的最近邻居用户集时,往往会造成信息的丢 失,从而导致推荐效果的降低。例如:邻居用户关系传递性的丢失,用户a 与用 户b 相关程度很高,用户b 与用户c 相关程度也很高,但由于用户a 与用户c 很少对 共同的产品进行评价,而认为两者关联程度较低,由于数据的稀疏性,丢失了用 户a 与用户c 之间潜在的关联。 算法的可扩展性问题 分析协同过滤算法,全局数值算法能及时利用最新的信息为用户产生相对准 确的用户兴趣度预测或进行推荐,但是面对日益增多的用户,数据量的急剧增加, 算法的扩展性问题( 即适应系统规模不断扩大的问题) 成为制约推荐系统实施的 重要因素。虽然与基于模型的算法相比,全局数值算法节约了为建立模型而花费 的训练时间,但是用于识别“最近邻居”算法的计算量随着用户和项的增加而大 大增加,对于上百万的数目,通常的算法会遇到严重的扩展性瓶颈问题。基于模 型的算法虽然可以在一定程度上解决算法的可扩展性问题,但是该类算法往往比 较适于用户的兴趣爱好比较稳定的情况,因为它要考虑用户模型的学习过程以及 模型的更新过程,对于最新信息的利用比全局数值算法要差些。协同过滤在推荐 系统的实现中,要获得最近邻居用户,必须通过一定的计算获得用户之间的相似 度,然后确定最佳的邻居个数,形成邻居用户集。而在这一过程中,如果对全部 1 7 医学信息资源个性化推荐系统的设计与模型研究 数据集进行相似性计算,虽然直接,但是运算量和时间花费都极大,无法适应真 实的商务系统。如果通过对训练集数据( 整个数据集的某一子集) 进行实验获得, 虽然不必对整个数据集进行计算,但是必须通过将多次实验结果统计出来才可能 得到,这无疑也增加了推荐结果获得的代价和误差。并且如果考虑到数据集的动 态变化,这一形成最近邻居用户集技术的实际应用价值越来越小。因此,考虑使 用更为有效的最近邻居用户形成办法,对于协同过滤的应用非常必要。 1 3 3 协同过滤算法的改进 l s i s v d 降维嘲 为了较好地解决协同过滤在推荐系统实现中存在的数据稀疏、同义词( 同类 产品使用不同的名称进行描述,而无法发现这一相关性) 等问题,目前提出了使 用在信息检索中被广泛使用的、用于解决同义词和多义词问题的降维技术隐 性语义索引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 。通过降维可以提高数据的密度, 发现更多的隐性的用户评价信息。l s i 使用奇异值分解( s i n g u l a rv a l u e d e c o m p o s i t i o n ,s v d ) 作为其矩阵分解的算法。s v d 可以很好的与协同过滤技术结 合,从而有效的降低数据噪声、发现潜在的关联,而且s v d 计算可以离线进行。 s v d 可以将一个m n 矩阵r 分解为3 个矩阵: r = 了毛d o s - = d 叼 d - ,口r l ( 式1 5 ) 其中,0l 0r 0 ,t o 和d 。分别是m x r 和n x r 的正交矩阵,r 是矩阵r 的秩( r m i n ( m ,n ) ) 。s 。是一个r x r 的对角矩阵,所有的0r j k 于0 并按照大小顺 序排列,称为单值。通常t o ,d 0 ,s 。必须是满秩的,将s 。简化为仅有k 个单值的矩 阵( k r ) 。因为引入了0 ,可以将s 。中的值为0 的行和列删除,得到一个新的对角 矩阵t o ,d 。同样据此简化得到矩阵t ,d ,那么有重构的矩阵r f t s d ,磁一r 。单值分 解能够生成初始矩阵r 的所有秩等于k 的矩阵中与矩阵r 最近似的一个。 基于维数简化的算法较好的解决了数据稀疏性的问题,同时因为k i n i t i a l _ s i z e ,从t i 中随机选 i n i t i a l - s i z e 数目的用户形成初始的用户集t l ,对于每一个t 。中的剩余用户u ,如 果u 的评价值不能通过预测公式在t ,范围内正确的预测到,那么将u 加入t 1 ,这样, 对于每一项i 都有了其相应的缩小了的评价过该项的用户集t l 。如果评价值采用 从0 到5 来进行描述,一般认为如果预测值与实际值的误差范围在0 5 以内,则认 为预测是正确的。i n i t i a l _ s i z e 一般设置为1 5 0 。 该算法的优点是: 充分考虑到了邻居用户的评价值相互之间不一致时,用户评价值变化比 较明显的那部分用户; 避免了由于多数用户评价值过于集中造成的误差,因为由于数量多,这些 值往往会比其他最近邻居用户特别是关键的最近邻居用户产生更大的影响,从而 导致偏差; 对于新的用户偏好模式能及时根据判断加入到最近邻居用户集中。 实验证明该算法能有效减少每一项进行预测计算的用户数,提高了预测速 2 1 医学信息资源个性化推荐系统的设计与模型研究 度和准确度。但是算法也存在不足,由于过多考虑到了评价值比较例外的用户, 往往会把一些用户作为最近邻居用户加入,这样的用户对目标项的评价值,即使 通过该用户本身对其他项的评价值也无法进行解释,如同数据噪音,导致了预测 的失败。另一个不足就是从算法中可以看到由于对t 。中的每一用户都要计算在当 前最近邻居用户集t ,下的预测值,当数据集很大时,这种耗费会很大。因此该方 法往往与其他方法结合,首先进行了一定程度的用户过滤以后,再考虑使用该方 法进行进一步的用户过滤。 b 选取具有合理描述( r a t i o n a lp r o f i l e ) 的用户。该算法的主要集中解决 的问题是:对任一用户,能否通过他在数据集中的数据较好地描述出来。为方便 起见,假设预测用户对项i 的评价值,k 。表示用户u 对项i 的评价值,t 。中用户对 项i 的评价表示为v 。用户u 对其它项的评价值集合表示为f ( u ,i ) 成为用户t l 的描 述项集。t l 中用户对描述项集中项的评价值集合表示为v p “i ) a 互信息表示项与项的相关性,综合考虑用户描述项与目标项的相关性来进行 用户的选择,但实际上并不是用户的描述项越多,用户与目标项之间的合理度 ( r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 时间与空间课件观看
- 旭格门窗专业知识培训课件
- 计算机算法设计与数据结构知识点详讲:大学计算机基础课程教案
- 《新编商务应用文写作》第八章 习题参考答案
- 合同外约定补充协议
- 早教牙科科普知识培训课件
- 早教教师知识培训总结课件
- 2025年无损检测员(高级)职业技能鉴定重点试题解析
- 基于生物技术的农业发展示范基地合作协议
- 2025年期货从业资格考试期货市场风险管理与投资决策试卷
- 2025至2030中国微流控芯片行业发展态势与投资规划研究报告
- 房屋市政工程施工现场安全风险分级管控与防范措施清单
- 房屋市政工程生产安全重大事故隐患判定检查表(2024版)
- 2025至2030国PLM市场深度调查与未来前景预测研究报告
- 抖音公会合同协议
- 装配式预制场管理制度
- 轮胎维修安全管理制度
- 2025年资料员考试试题题库(100题)附答案
- 更换纸尿裤的操作流程
- GB/T 37133-2025电动汽车用高压连接系统
- 2025中国建设银行房屋按揭贷款合同书
评论
0/150
提交评论