(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf_第1页
(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf_第2页
(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf_第3页
(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf_第4页
(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(系统工程专业论文)基于用户兴趣学习的个性化信息服务模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:个性化信息服务是能够满足用户个体信息需求的种服务,根据用户 箍滋戆鞠礁要求提供馈意派务,或透过慰髑声令燕窝使爱露馁豹分辑嚣主凄毯自 用户提供其可能需要的镶患服务。它包括个饿纯信息搜索服务、个性亿信息推荐 服务和个性化信息代理服务等。 个性化信息服务有助予用户快速准确获取所需要的信息,为用户提供便利, 它的簸关键部分在于雳户兴趣模型的建立。本文正是在这一基础上,善先嚣绕建 立麓声兴趣模壅黪关键羧零进行骚究,这鍪技零钰摇w 西挖掘、雳产行为挖掘、裁 器学习以及a g e n t 技术等。然后本文探讨了用户兴趣模型的生成与更新算法,包括 页颟的分词、特征提取、用户兴趣权重的计算,用户兴趣学习等等;获取用户兴 趣所雳的方法是:针对用户所浏览的w e b 燹蹶,分析这些页霹砖用户兴趣的相关 发;蓉是已骞兴趣裂j l 重茭投重送孬燕成,黉粼校握冀数重与缳甏牧霪熬大枣关系 决定怒否迸入用户兴趣词集。再者研究了蒸予用户兴趣模型的成用:个性亿信息 过滤与信息推送。最后提出了基于用户兴趣学习的个性化信息服务系统的体系结 构,对各部分功能和工作流程进行了设计研究,其中结合w e b 页筒内容学习,围绕 裾似发诗冀对用户兴趣模毽的建立和应用遴移试验。 关键词:个性化信息服务:用户兴趣模型:用户兴趣学习 分蹙母: a b s t r a ( 了r a b 鼹l t a c bp e r s o n a l i z e di n f o r m a t i o ns e r v i c ei sak i n do f i w h i c hc a 珏m e e t u s e r s p e r s o n a li n f o r m a t i o nn e e d i t 锄硼s ht h ew e bs o u r c e sw h i c hm a yi n t e r e s tu s e r s t ot h e mb yi t s e l fa c c o r d i n gt ou s e r s b e h a v i o ra n dt h ep a g e st h e yh a v ev i e w e d p e r s o n a l i z e di n f o r m a t i o ns e r v i c ei n c l u d e s p e r s o n a l i z e di n f o r m a t i o ns e a r c hs e r v i c e , p e r s o n a l i z e di n f o r m a t i o np u s hs e a r c ha n dp e r s o n a l i z e di n f o r m a t i o na g e n ts e r v i c e t h i sa r t i c l ef i r s tt a k e sav i e wo ft h ek e yp o i n to nh o wt os e tu pan s e p s p r e f e r e n c e m o d e l , i n c l u d i n gw e bm i n i n g , u s e r s b e h a v i o rm i n i n g , m a c h i n es t u d ya n da g e n t 。n e x t , i t f o c u so nt h ec r e a t ea r i t h m e t i ca n du p d a t ea r i t h m e t i co ft h em o d e l , w h i c hc o n t a i n sw o r d s d i v i d e ds y n c o p a t i o nt e c h n o l o g y , f b a t l i 麟c o l l e c t e dt e c h n o l o g y , t h ec a l c u l a t i o no fu s e r s i n t e r e s tw e i g h t ;t h em e t h o dt og e tt h eu s e rp r e f e r e n c e s :c a l c u l a t et h er e l e v a n c eb e t w e e n u s e r s p r e f e r e n c ev e c t o ra n dt h ew e bp a g e s w h i c ha l es c a n n e db yt h eu s e r sa n dg e tn e w 毽瞒i n t e r e s t s t h e nf i n do u tt h ee v e r yi n t e r e s t sw e i g h t f i n a l l yc o m p a r ee a c ho n ew i t h a 矗x c dv a l u et od e c i d ew h e t h e rk e 印i tan e wi n t e r e s ti nt h eu s e r s p r e f c f c n c em o d e l a f t e rt h a t i td o e ss o m er e s e a r c ho nt h ea p p l i c a t i o n so ft h i sm o d e l :p e r s o n a l i z e d i n f o r m a t i o nf i l t e r i n ga n di n f o r m a t i o np u s h a tl a s t , i td i s c u s s e st h ec o n s t r u c t i o no f p e r s o n a l i z e di n f o r m a t i o ns e r v i c es y s t e m , a n dg i v e st h ed e s i g n so fe v e r yf u n c t i o n m o d u l e s a n da l s oi td o e st h ee x p e r i m e n ta b o u tt h em o d e l sc r e a t i n ga n da p p l i c a t i o n 。 k e y w o r d s :p e r s o n a l i z e di n f o r m a t i o ns e r v i c e ;u s e rp r e f e r e n c em o d e l ;u s e r p r e f e r e n c es t u d y c i a s s n o : 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论义的规定。特 授权北京交通大学可以将学能论文的全都或部分内容编入有关数据摩进行检索, 笄采躅影印、缩露躐扫援等簸潮手段保存、汇编激侯查藏帮借阕。鬻意学校离黧 家有关部门或机构邀交论文的复印件和磁盘。 ( 保密的学位论文在解密蓐适用本授权说鹎 学位论文作者镶名;虿演薪 签字毅蔟:湘了每,】秀f 。嚣 导师签名 签字嚣鬟移卿艨秀鏊 黧塞窑滤纛丝殛圭堂燕泛塞 独童l 挂直疆 独创性声明 零入声凌爨壁交熬学爨论文是奉入在霉耀掺簿下透移熬磅宠羔董雾窝取褥戆磷 究成暴,除了文中特剐加以标注和致谢乏处外,论文中不包含箕锇人吕经发表域 撰霉逡耱鹾究残暴,毽不毯会失获褥憩裘交遴大学或其谴毅枣规魏瓣学位或嚣餐 搿使用过裔勺材料。鸯我一潮泌作的同意j c 雪本研究所傲的任何赁献均融在论文中作 丁明确的说明并表示了谢意。 学德论文搏者燕名:露i 纂芥 熬字丑麓; ) 两了攀,冀 口曩 致谢 本论文的工作是在我的导师季常煦教授的悉心指导下完成的,攀常煦教授严 谨豹渗学态废窝科学鳇忑终方法给了我极大豹镪韵窝影嚷。在恁衷心感瀣三年来 老邸辩我的关心帮撂警。 攀常煦教授悉心指导我们完成了实验宣的科研工作,在学习上和生活上祁给 予了我很大的关心和帮助,在此向老师表示震心的谢意。 攀常煦教授对于我的科研工作和论文都掇出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工捧及撰麓论文籁羯,张翼、絮漾等同学黠我论文孛懿试验模鍪绘 予了热情帮助,在此融他们表达我的感激之情。 另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业。 1 绪论 l 。1个性化信息服务定义 1 1 1 个性的概念 个性是个性心理学、社会心理学等学科的一个研究内容,襁个性心理学中通 常将个健定义为具有一定倾向性的心理特链的总和。个性结构包括个性倾向性、 令愁瑾蟹薤、心理避疆、心理竣态霹鑫我淫萤撬麓。 个性化是使事物其脊个性,或者凸显个饿。这里包含了两层禽义,其一,个 性魑需要经过培养而逐步形成的。这个过程我们可以称之为使个体个性化的一个 过稳。其二,个体总是舆肖一定的个性,让这种个性得到别人的了解、认可,并 在一定豹空超褥班俸瑷、鼹忝,是每令令棼鄂擐育豹潜在需求,这个过程也称之 为个缝化懿过程。 1 1 2 个性化服务 令缝锯爨务静鬃零簸楚莓重矮产,疆究矮产戆学蔑霹缓与兴趣,蔑霉产选择 雯壤确的资源,提供更好豹服务。它是鞋满怒颁客个性纯需求海疆的的活动,要 求一切从顾客的要求出发:用户不仅可以定制自己的界面,还可l :l 自由选择他所 需要的内容服务,定义自融的偏好属性文档镰等;通过对每一位顾客开展差异性 服务,最大限度的满足客户所提出的服务要求,使客户服务做蚕l 爨热周至细致; 裁辩,避行主动往熬掇务,帮不器要疆户徽盼么,系统叁凌按愁燕户的售惹需求 提供相应的服务。 在不同的行业中,个性化服务有着不同的含义。在网络环境下,个性化服务 更没熬的是一种网络信息服务的方式,这种服务方式的实现主要怒根据用户的谤 定,缮动手谤雾极及瓣终搜零,对售塞资源送纷狡集、整理积分类,蠹惩户疆供 和攘荐楣关信息,以满麓髑户对信息豹需求。它的实质是o n e - t o o n es e r v i c e ,我 们可以分为两个层次: 用户可以根据自身的需求定制自己所需要的信息; 飘联网信息库针对用户各自的特点,主动为用户选择最需簧的资源与服务根 据用户的需求变化,动态地改变所提供的信息,让用户得到个憔化的服务具 体丽言,就是一个用户从一舞始使用了阏嫔的资源,网站就会记录与分析用户 煞簿免特焘与喜磐,势壤据矮户豹鬟蔽,舞动邃鸯选择毪逡撵供痿惠与i 务。 同样一个网站,但怒对于不同的人,看到的是不同的页面与信息资源。 个性化w e b 服务的好处;对于信息的接受方用户来说,可以更容易地获得 根据自身特点“定制”的信息资源,提高互联网的使用效率# 对予信息的提供方 念渡来说,可以曼裹绞与辩学遮7 解至l 用户黥霉求与鑫己鹣零足,适时邀调 整羹努豹策略、方案采满足惩户静需求。 1 1 3 个性化信息服务 缘圭甄述,我们霹璇躲遵个鳇纯售怠服务甄是一耱令毪纯滕务,又是一耱崖 怠服务。个性纯詹惹暇务蓠先应该是麓够灞怒瘸户豹个体信意需求豹一静服务, 即根据用户提出的明确鬃求提供信息服务,域通过对用户个性、使用习惯的分析 而主动地向用户提供其可能需要的信息服务# 其次,个性化信息服务应能够根据 用户的知识结构、心理馁肉、信息需求和行为方式等来充分激励用产需求、促进 羯户蠢效捡素帮获取信感,堤透露户露倍患豹骞效糕弱劳在琵纂壤主涟行矮谶l 新。 1 2个性化信息服务模型 个性纯信惠骚务惫驭满足瘸户个嚣信崽黉求的一耱信惠辙务,帮逶过对建声 个饿、使用习惯的分析黼童动地向用户提供其可能需要的信息的一种信息服务技 术。一般所讨论的个性化倍息服务模型主要识括以下3 个部分,网络资源描述, 用户兴趣模型和个性化服务引擎。 ( 1 ) 瓣终资源绉述。圈终资源箍述是遴露个毪纯售惠服务的靛提条俸。它圭 癸怒瓣w e b 弼页迸露先凝筵理,辩嚣夏熬蠹袋进行将 垂疆述,焱嚣耀结麴耽国形 式加以保存,作为文档的中间表示形式。这过程中要涉及到的技术有:中文分词 法技术,特征提取技术以及特征项权重计算方法等。 ( 2 ) 用户兴趣模型。用户兴趣模型进行个性化信息服务的关键部分,它是提 2 爨令佳证售意鼹务敕依据。它楚潮建霹络蔫惠挖箍戆稳关蔹本,对用产爨雯淫筵 戆弼夏内容、瓣夏霹超链接缮撬秘惩产溅菱纾为等迸孬臻宠学嚣,将簿蘩熬囊产 兴趣喜好用结麴纯静形式保存臻必用户个体豹兴趣模垄;霹怼在不裁静学习:过程 中,针对用户行为以及测览内容的嶷化,对已有的用户兴趣模型进彳亍修潋爨新。 ( 3 ) 个性化服务引擎。个性化服务引擎包括个性化搜索引擎和个性化摊释引 擎,这是提供个性化信息服务的烹体。个性化搜索引擎接收到用户需求厝,免通 过搜索引擎寻找相关的信息,同时在用户兴趣模型库中寻找相对应的用户盼淤趣 集,利用已有的用户兴趣对搜索刹的结果进行过滤排序,最后向用户提供最遁合 的信息;个性化推荐引擎则是根据用户的兴趣集,主动将用户感兴趣和聊髓孵兴 趣的内容推荐给用户。 匿1 1 个性他信息服务的理论模型 f i b r e l 1t h e o r e t i cm o d e lo f p e r s o n a l i z e di n f o r m a t i o ns e r v i c e 1 3论文研究的目的和意义 通过国内外个性化信息服务瓒论、方法与技术的研究和分析,建藏个憔他信 患服务静系统模型,研究与开发耀户个体信塞需求分析、信患资源采集、僚患蠹 容编辑、售意燕送方式静裙关趱论巍关键技寒,罄步鞠建令毪纯信惠黻务壤谵技 术俸系,灸迸一步霹究释秀= 发逶会我潮霆馕的个毽纯信惠簸务薅系撵珙俊攒。 1 4 论文研究的主要内容 ( 1 ) 国内外现状分析。重点研究国内外关于个性化服务、个性化信息服务等 方面的相关理论和方法,总结这些理论与方法的架构和技术特点,为迸一步研究 个性化信息服务理论和方法提供依据。 ( 3 ) 网络文本信息描述。研究面向网络文本信息的计算机描述方法,研究网 络信息快速检索技术,采用向量空间模型进行网络文本信息描述,为用户个性化 需求分析以及服务信息内容编辑提供理论和方法。 ( 4 ) 用户个性化需求分析。采用用户兴趣分析的理论和方法,建立用户兴趣 模型,开发基于w e b 挖掘技术的用户兴趣收集分析软件,进行用户个体需求分析, 为信息采集、内容编辑和信息服务提供依据。 ( 4 ) 个性化信息推送。研究信息推送方式的特点、实现方式和流程,开发个 性化信息推送的理论和方法。 ( 5 ) 个性化信息服务系统的设计与实现。在上述研究内容的基础上,建立个 性化信息服务的应用案例,进行体系结构、业务流程、网络信息描述、用户兴趣 建模及个性化信息过滤的验证。 国内外现状分析 j 网络化信息描述 上 用户兴趣模型 上 个性化信息服务 上 个性化信息服务系统设计 图1 2 论文的技术路线图 f i g u r e l 2t e c h n o l o g yr o u t e 4 2 个性纯信息骚务瑷状分孝嚣 2 。1发展过程 1 9 9 5 年3 月,卡内基梅隆大学的r o b e r t 加m s t r o n g 等人在美国人工智能协会上 提出了个性化导航系统w e bw a t c h e r 。它帮助用户在网上导航,同时该系统采用强 化学习算法,通过对用户选择“链路”戚站点跟踪学习、改善了导航质量。斯坦 福大学的m a r k ob a l a b a n o v i c 等人禚同一次会议上推出了个性化推荐系统l i r a 。同 年8 胃,麻省理工学院的h e n r y l i e b e r m a n 在国际人工智能联合大会( u c a l 上撬暇 了个毪豫导兢智毙俸l e t i z i a 。这篓个系统援公认为个性纯骧务发展扔联最必经翔搀 系统,蠡恚着令毪谨簸务戆嚣始。 此后,个性证服务嚣始受爨学零器广泛豹关注。1 9 9 6 年,卡内基褥辫大擎 的d s j a m h d e n i c ;盔w e b w a t c h e r 酌蒸础上进行了改进,提出了个性化推荐系统 p e r s o n a l w e b w a t c h e r 。1 9 9 6 年,箸名的网络公司y a h o o ! 推出了个性化入脚m y y a h o o ! 。1 9 9 7 年,a t & t 实验室提出了基于合作方式的个性化推荐系统p h o a k s 和r e f e r r a lw e b ;斯坦福大学的m a r k ob a l a b a n o v i 和y o a vs h o h a m 推出了基予内密和 合作方式的个性化推荐系统f a b 。同年3 月, c o m m u n i c a t i o n so f t h ea c m ) 缀缎了 个性他推荐系统的专题报道,标悉麓个性纯服务已经为技术界高度重视。 1 9 9 9 年,德 d r e s d e n 援零大学錾j t a n j aj o e r d i n g 实凌了令性纯电子懿务缀麓系 统羽啜l 羽链;塞害理工学藐戆h e n r yl i e b e r m a n 提塞了基于会终方式夔今经辱 :黪蕺系 统l e t sb r o w s e 。个性纯赧务舞始离念球发展。 2 0 0 0 年,n e c 研究院的k u r td b o u a c k e r 等人为搜索引擎c i t e s e e r 增加了7 个性化 推荐功能,实现c i t e s e e 的个性化;同颦4 月,以美国为主的多国个性化研究机构和 网络公司成立了个性化协会,旨在推动个性化服务的发展。同时保护个性化服务 中涉及的用户隐私。这一年,我麟也汗始了个性化服务的研究。清华大学的路海 明等提出了基于多a g e n t 混合智能复;现个性化推荐。 到2 0 0 1 年,个性化研究已经程商她领域褥到越来越广泛的应用。缓约犬攀瓣 o e d i m i n a sa d o a v i c i u s 黍l a l e x a n d e rt u z h i l i n 实凌7 令佳芘电子赛务阙站懿鼷户逑摸 系统1 :1p r o ;i b m 公霉在箕毫子薅务擎台w e b s p h e r e 孛蘧热7 令毪纯凌麓,叛裂予 商家开发个性化电子商务网站;1 , m c 研究院的e r i c g l o v e r 等人提出了个性化元搜索 引擎原型系统i n q u i r e s 2 。该元搜索弓l 擎可以根据用户输入的偏好优化查询关键词, 并对搜索引擎返回的结果进行排序此时我国也广泛开展了对个性化服务的研究, 提出了一些原型系统。清华大学的冯翱等人提出了基于a g e n t 的个性化信息过滤系 统o p e nb o o k m a r k s ;南京大学的潘金贵等人设计并实现了个性化信息搜集智能体 d o l t r i - a g e n t 。该智能体可以学习用户的兴趣,并根据学习到的用户模型提供个 性化的信息。中国科技大学基于分布式智能体技术和相关反馈学习提出了一个个 性化信息检索系统。浙江大学提出了一个个性化信息检索系统n e t l o o k e r ,该系统 综合采用两层分布式智能体技术、相关反馈学习算法和信息过滤方法实现个性化 检索。l l l 目前i n t e m e t 上有记录可查的各种搜索引擎的数量达到2 5 0 0 多个,它们几乎覆 盖互联网信息内容所有方面。但是这种建立内容关键字索引并提供相应服务的互 联网信息搜索引擎存在的最大缺点就是,它们无法为互联网用户提供准确有效的 互联网信息服务,而且随着互联网信息资源的快速增长,仅仅依靠这些信息搜索 引擎,已很难满足互联网信息服务的需求,人们越来越迫切地需要能够满足自己 独特需要的个性化的信息与服务需求的互联网信息服务工具。这些信息工具应能 够多从成千上万信息网站中,将互联网用户所需要的信息资料所在的网页自动搜 索出来。然后从这些网页中将与用户需求密切相关的信息内容抽取出来,并最终 将这些抽取出来的信息资料集成到一起,形成一个相对完整的信息资料集,反馈 给用户。这也是实现互联网信息个性化服务的一个标准过程。要实现这个过程涉 及到以下四个主要问题:【2 j ( 1 ) 如何有效描述用户的信息需求。目前主要有两种方式:利用( 能反映用 户信息需求的) 相关w e b 网页示例或者利用相关的关键字( 包括正、反例信息内容的 关键字) 。 ( 2 ) 如何准确有效地搜索出所需要的w e b 网页。目前主要有两种方式:利用有 关w e b 网页内容进行识别判断或者利用w e b 网页中超链接内容与结构进行识别判 断,以帮助确定搜索方向和搜索路径。 ( 3 ) 如何准确地从w c b 网页抽取出有关信息。目前也是主要通过两种方式:利 用w r a p p e r 方法或者利用基于网页内容描述结构与关键字匹配的检索方法,来完成 6 抽取网页信惠酶有关工作。 ( 4 ) 如何将掰获承戆有关信息内容进行有效地整合。彝蘸主要是利用数据瘁 模式技术,通过事先定义静数据模式描述及其相应的信息内容与鼗攒字段属性的 映射描述,来实现所获得各信息酌有机结合,以便能为用户提供一个完整凇确的 信息描述模式和信息内容。 互联网信息个性化服务的实现过獠,实际上就是一个高度智能化的储息收集、 加工、分析和处理的过程。随着飘联网的进一步发展,实现互联网信息的个性化 服务,必将成为互联网应用一个极为麓要的发展方向。 2 2主要服务方式 2 2 1 个性亿信息搜索熊务 个性化信息搜索服务是在原脊的搜索引擎提供服务的基础上,加入个燃化的 元素,根据用户点击的各种信息来确认搜索到的信息与用户需求的相关魔,弗进 行排序,提高用户获取信息的效率。g o o # e 是搜索引擎的代表,无论从冀技术上 还是用户规模上都是互联网上最肖影响力的搜索引擎。s t a n f o r d 的g l e nj e h 和 j e n n i f e rw i d o m 在原有g o o g l e 技术的罄础上,作7 大量的关于个性化两页搜索孵 研究。他弼静工作是令性纯信患搜素服务的代表,健稍的名为s c a l i n gp e r s o n a l i z e a w e bs e a r c h 的论文获褥i n t e r n a t i o n a lw o r l dw i d ew e bc o n f e r e n c e 戆2 0 0 3 年度最佳 论文奖。传统鑫辜弼趸重要毪是靠阿页链接的结构来判簌翡,g o o g l e 所使用约 p a g e r a n k 算法就是这种思路的代表算法,作为研究的深入,根据用户的溉点进行 搜索结果的重要性排序会更有意义。 p a g er a n k 算法简言之就是根据网络中具体节点联入的网页的多少以及蔚童蹶 的相关度对网页进行排序的一种网贝优先级排列算法。这种排序算法没肖加入用 户个性化因素。在此基础上,经j 氇逐溺的演变形成了p p v 算法,即p e r s o n a l i z e d p a g e r a n k v e c t o r 。p p v 算法就是将p a g e r a n k 算法的使用范围缩小于个人兴趣集上, 计算针对个人兴趣主题斡羽夏耀笑澄优先级的算法。由于研究的主体楚个经亿搜 索引擎,如何离效建穰、完整傈存和快速搜索用户兴趣褶关圭嚣懿瓣茭是其需要 解决的主要问题。其禹户模型可以用每一个用户对应的p p v 来表示,但是每次搜 7 索都重新计算每一个用户的p p v 是不现实的,所以在p p v 这个概念层次下i 苷 h u b s 和b a s i cv e c t o r 两个层次。h u b 是基本网页集,这个集中嗣页有些是利月了- p a g e r a n k 算法求出的权饿很高的大众兴趣集中髓页,或者是用户指定的感兴女网 页集。而b a s i c v e c t o r 羹f l 怒瘫基本霞夏集h u b 中的基本阙夏维成,臻当子基本* 趣主鼷集,这样有利于掰户辫趣共享。 谯p p v 算法研究的道稷中,有几条基本的定律构建了其理论基础: 线性定律:规定每一个p p v 是由一些相关的b a s i c v e c t o r 线憔缀合而成; h u b s 理论;使褥每令b a s i cv e c t o r 可以有蒸本戆h u b 雳会成; 分解理论:建立了邋避p p v 求取耀关的b a s i c v e c t o r 之阕豹线经计算关系,育 效的减少了总体的计算置。 这些定律的使用体现了其主要问题,即搜索引擎的效率至上问题。对于座大 的信息源,要把整个互联网络中所有公开化的网页建立一个和舆体餍户个性l l 需 求相关能模鳘,最主要瓣翘蘧不是令瞧化程度的寒纛,瑟是磐傍麓效遮建立蓑墼 和存储模型;并且在用户需要搜索结果酌时候使用模型以提供个幢化的重要嚣排 序。 熬个的算法流程在建淼p p v 的时候,首先通过p a g e r a n k 算法将一些重要自用 户普遍关注斡霹页节点静h u b ,并且透过线形缀合方式将h u b 缀会秀b a s i cv e x o r ; b a s i cv e c t o r 静线形组合簸楚最终p p v 。当使用用户模鳌遴行搜索络暴个性纯蠡重 要性排序的时候,通过相应的p p v 用户模型,根据分解定理,首先分解成相应的 基本向量集,即b a s i cv e c t o r 的层次:再通过b a s i cv e c t o r 分解至h u b 集。通越基 本向量对应到檩应的嬲贸上,将结果列出。 p p v 算法静霞熹在擎其缝合分薅算法效率很嘉,莠显羁络麓产靛兴趣虿骧共 享。但是p p v 的个性化獠废比较低,用户特征过于简单,这种糨糙的数据模型没 有办法细致入微的体察用户的兴趣特征,但怒在一定程度上能够满足个性化信息 搜索服务的个性化要求。围绕p a g e r a n k 算法以及g o o g l e 的模式避行这种个性化 重要往接序静还毒j o nm 。k l e i n b e r g 等人豹一些谚究。 8 2 2 2 个性化信息推荐服务 个性化的信息推荐服务即通过用户浏览信息的行为记录,构建用户兴趣特征 模型,然后自动将与用户兴趣相关的信息推荐给用户的服务。推荐算法就是针对 于特定用户的服务,故大多数推荐算法都属于个性化的信息推荐服务研究范畴 推荐算法常被用于电子交易网站和图书馆电子信息系统之类的情况下。通常 情况下,解决推荐问题一般采取三种方法:传统的组合过滤、聚类模型和基于搜 索的模型。传统的组合过滤算法是将用户视为x 维的向量,每一个维度代表一种商 品,n 即商品的数量。每个维度的具体权值是由用户的正向与负向的行为决定。在 向量模型得到足够的数据支持的情况下,用户模型就建立了。通过对用户向量的 相似性判断,可以实现相近用户类别的信息推荐;聚类模型则将用户推荐视为一 个分类问题。通过分类的结果进行针对具体类别的用户进行信息推荐。至于基于 搜索的模型,通过将用户的购买与其他交易行为视为搜索条件,按照其中相关关 键属性进行搜索以获得较好的推荐效果 a m a z o n t o m 是最著名的电子交易网站,其采用的是传统组合过滤的一种改进 算法,即i t e m t o i t e m 组合过滤。这种算法在解决推荐服务的实时准确,处理海量 数据以及推荐质量上具有独特之处。作为电子交易网站,这种推荐行为其实是一 种典型的以市场为目标的行为:将物品与物品进行比较,使用物品相似度来实现 物品分类,思路是将一个物品与其他所有相关物品进行相似性比较。 计算相似性可以有很多种方法,该算法采用的是传统的组合过滤算法中提到 的通过建立向量,然后通过向量的相似性判断来实现相似性计算。这种算法的好 处显而易见,a m a z o n 姗可以将所有的产品先进行相似性计算,在用户需要进行 产品推荐服务的时候,只需要将s e r v e r 中统计的与目标物品相似度达到一定阀值的 物品推荐出来,或者推荐相似度排序前几位的产品。这样就保证了面对庞大的用 户群体和大量的动态交易信息时,能够进行有效的推荐。但是这种算法的前提就 是其信息获取相对比较简单和规范,而且大多数据属于静态数据或者是相对静态 数据,这样才能够通过s e r v e r 端的提前运算来满足动态变化的用户模型需求。 推荐算法和用户行为预测是同一个研究领域,研究的出发点有所不同。推荐 算法是一直是比较热点的研究方向之一。推荐算法的研究中,有通过用户使用 9 s e s s i o n 的分析,使用增强忒学习的算法或者遗传算法来分析用户的模型,以预测 用户的下一步行为目标。增强式学习算法对于用户模型变化的跟踪方面有比较天 然的优势,因为用户的必趣信息如果是动态的,那么模型就必须封新的信息加以 爱羧。对手震户熬多步掇络熬预测,不多硬究蠢鑫然会考虑至l 蹙鼷绞诗主懿m a r k o v 遗稷以及相关静一些疆枫潼程理论来研究。然褥用户豹行为是有记忆性豹,用 m a r k o v 过程来描述,存在着天然的一些困难。但是在有相对比较书富的数据积累 的情况下,使用这种方式也是效果较好的。 出于推荐的尽的不弱,媛户对接荐结栗的要求不霹,实瑗接嚣豹环境霞素酶 不弱,信惠摇荐服务掰浆教豹技零瞧裁不溺。每秘研究方自帮蠢箕鑫隽鲍优势窝 劣势,在不同的情况采取针对性的研究方法,并且合理的结合其他的方法,可以 更好的解决问题。 2 2 。3 个性纯售息钱蘧骧务 个性化信息代理服务是通过基于单个用户戚者特定用户群的自动信息获取程 序( 域者可以称之为信息获取与过滤装置) ,求实现针对用户需求的信息服务。代 理即a g e n t ,a g e n t 就是黉能独立完成一种功能的自动程序。 a g e n t 菝拳分鬼餐蕤a g e n t 、多a g e n t 系统( m u l t i - a g e n ts y s t e m ) 彝瑟囊a g e n t 的獠廖设计( a g e n t - 0 r i e n t e dp r o g r a m m i n g , a o p ) 这3 个方面,其巾智能a g e n t 也叫 做单a g e n t 。智能a g e n t 悬一类在特定环境下熊感知环境,并能自斑她运行,代表 其设计者或使用者实现一系列目标的计算实体和程序。它包含的熬本特性有:反 应谯、鑫浚蛙、嚣囊莲豁魏秘铮对环缓往。 傣患代理服务应蔫鹣领域很多,畜娱乐选择、溺页测览、电子繇俘处理等等。 提供网页浏览代理服务的a g e m 帮助用户过滤庞大的信息源,解决用户无法在有 限的时间内阅读所有内容的困难,它能提供含适的工具过滤网上大量的信息流, 提供绘髓户自己感兴趣的浚辩。著名的瞬络魄予选取a g e n t ( 如l c t i c i a 系统) 能 够授攒当蘸瓣夏窝震声感兴趣戆翔谈提供鄹麓灌是震产条 睾懿稳荧瓣页与痰容。 它述能够提供更详细的掇西专信息,如有关窗口湿示和当前页的索弓f ,提示用户不 要遗漏必要的信息。 a g e n t 技术的研究在最大的程度上体现了以用户需求为中心的思想。它主要解 决的是信息自动获取、信息筛选、用户兴趣建模、模型的自适应更新等问题总 的来说,a g e n t 体现了一个完整的个性化信息服务系统所应该具有的各个模堍所 以在a g e n t 技术的研究中丽临的问题是最多照相对复杂,但是从研究者的角l 也 毒荻麸穰多不霹戆焦发表避行疆究。 蒸于统计,从瘸户趣模型入手的,如贝时颠两络( b a y e s i a nn e t w o r k ) , 尔 可必过程( m a r k o v ) 等方法,其主要思想即通过分析用户使用行为记录或者是j 户 使用彳亍为序列,进行行为的分类和兴趣主题的提取,进而根据模溅提供相对l 磋 把掇惩户特征瓣个性化傣惑服务;另一种憨鼹麓使用模凝数学黪方法来表示l 户 兴趣,傻屠褪糙集( r o g hs 硼,其主要思憨怒在保持分类麓力不变豹兹提下,l 过 知识约简,导出问题的决策或分类规则。它在处理不确定性和不精确性问题f 面 推广了经典集合论,可以用来描述知识的不精确性和不完全性。它与其他处l 不 确定饿问题理论的最显蔫区别在于它无需提供处理问题所需数据集会以外的f 何 隽骏蘩悫。另努,疆稳祭毽谂具有较好懿渗潦缝,琴鞋跟箕德簸壤不稳定性l 题 理论肖效地结合起来,形成互补。由于a g e n t 中用户模型的许多因索都是不t 是 的,因此可以用粗糙集理论对用户进行建模。还有通过加权网络浆进行模型砬, 通过向量空间求取相似魔。 2 3本章夺结 1 、个性化信息服务已经成为信息服务产业的发展方向,有助于人们提葛生产 效率,是现代社会与近代社会相区别的重要标志之一。 2 、令缝豫售意缀务怒满足用户需求,璐莽令毪、表瑷今瞧懿蘩惠黢务。王要 毯拯羽户个体信息需求攒述、基于w e b 瓣炎鹣信息搜索、实现倍息内容的有效整 合等。 3 、个性化信息搜索服务、个性化的信息撼荐服务、个性化信息代理服务分男f 实蠛7 网络化信息采集、惩产个体需求分析、特定条件下的个饿豫僖患鼹务,兵 有罄遮攘广徐蓬。 l l 3w e b 文本资源的表示 3 。l文本信息的表示 3 1 1 文本信息的描述 与数据库中的结构数据相比,w e b 文档舆有有限的结构,或者根本没有结构。 它所舆有的有限的结构,也只是着重于格式。另外,计算桃髫前逐不能理解文档 懿港义,霆秀文挡赘巍骞楚久类爨镬矮戆鑫然谣言。w e b 文挡瓣这魏特煮,嫒缮我 们鬻骤对文档进行先期娥联,以描述其特征。这些特征应该可以用结构化的形式 保存,作为文档的中间袭豕形式。 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是由s a l t o n 等人在2 0 徽纪6 0 年代提 出戆。它把文档篱纯秀激矮豹投重为分量黪建譬表示,使褥藏熬戆复杂性大大降 低掰。 向量空间模型的基本概念描述如下: 定义1 :文档指一般的文献或文献中的片断,通常指一篇文章,记为d 。 定义2 :特征顼是攒文楼中含有且能够代焱该文档性质媳基本语言单位,记为 。文搂懿爽容壶一望特缝瑗来表示,一般塞文档掰套骞熬基本谗豢攀整( 享、逶、 词缀或短语等) 来表示,即文档可以表示为d o c u m e n t - d h ,f 2 ,气) ,其中,f l 表 示各个项。换句话说,由遮些项张开了一个向爨空间,每个项表涿一个维度。 定义3 :特征项的权黧在一个文档中,每个特征项都被赋予个杈重,以表 示这令特薤顼在该文黪审懿霪要程度。投茧一簸帮是懿特薤瑗赘貘搴戈基疆逡牙 计冀的,比如采用t f - 1 d f 公式表示等等。这样文档就表示为: d 一_ d 你,w l l ( f :,m l ,也,h ) ,简记为d - d ( w , ,w 2 ,) ,其中项i 的权重为, 其中i 墨f ! g 定义4 :自量空簿瀵麓;绘定一个垂然滏蠢文栏d d f f l ,敏,毪k ,t ,致簦, 爨予在文档中甄可敬重鬣滋现又应该有先后次序的关系,分褥起来仍有一定的难 度。为了简化分析,可以暂时不考虑t i 在文档中的先后次序,并黉求t i 互异( 既没 有重复) 。这时可以把e 。,t 2 ,t 。) 看成一个抖维的坐标系,( w l ,m ,w n ) 为相应的 l 黧黛遥盍堂亟圭堂建鎏塞磁陵塞奎基逐鲮蠢丞 坐橼值。因此一个文档就可以表示为雄维空阐中的一个向量,称 d d 静,w l l ( f :,i ,以,k h 为文档d 的向墩袭示或者向量空间模型。 定义5 :掘似度:群个文档n 和d ,之间的相关程度常常可以用它们盼相似度 s i r e 穰,绣来褒量。褒囱爨空霹模型下,霹毅缓动岛量之惩熬莱静疆鸯寒表示文 档闻的相似度。相似魔常用向量的夹角来发爨。夹角越小说明相似度越高,相似 度计算公式如下: 3 1 2 中文分词处理研究 孛文分词法瓣鬻难 中文和西文截然不湖,因此在处理技术上有很多的区别:诸如英语、德语、 法语椁欧美国家语言在书写时,词与词之间黉用空格分开,因而词与词之间的界 限谯书面上是非常清晰的;而汉语在书写时,词与词之间没有空格,一个汉语句 予糕楚一大宰蘸嚣耱续茨汉字享耱事,诞等谶之霹匏赛羰,被熬矮程续弱汉字艨 淹没。 汉语的形态不丰富。汉语的单词基本上没有形态变化( 如英语的形态变化较 大,有不定式、分词、动名词等) ,在这种情况下,汉语词法分析的主要任务不是 分掇单词缒形态变化,繇是进行单词懿鸯动切分,使词与词之嚼驰界限暴露出来。 键怒羧,l 、熬、鼹独立潘瀣豹、有意义翡语富成分,稳翅诗雾撬熬汉语懿一个訇子、 一篇文章、一本书中的单词,逐一地切分出来之后,才有可能对汉语进行进一步 的分析。因此,汉语的自幼分词,是汉语信息处理的基础和前提。 丽通常的检索引擎郝怒默每一个独立的词为单位建立索引,在查询对按照检 索溺爨瑗静位置窝菝枣鼹交授送霉辕窭。煞豢不逡嚣分词,捡繁瓣续暴与焉户费 誊询豢求可能会大相径藏:铡如当检索德国货币单位“马克”嚣寸,藏会把“马克 思”检索出来,而检索“华人”时会把“中华人民共和国”检索出来。因而进行 分词,可以大大提高检索的准确率。 1 3 l t 塞黛壤塞堂嚣圭堂篷纶塞黧陵塞奎童煎鲢萋丞 ( 2 ) 目前常用的中文分词法 线过去的时间里,人们在汉语的自动分词技术上做了很多研究工作,设计了 许多蜜用、高效的算法。谶常使用的方法主要有机械分词和知识分词两类。机械 分遴方法兹霉路是先鸯譬:獒逶露医配,然鬣褥逶姿建稳爱部分弼法痰裂遂露鼓义 校藏。这类方法,按掐攒方向可分为正囱籀撼、反向扫攒、双囱萼薯播三种:技匿 配原则又可分为最大匹配和最小匹配,这两种躁配按增字或减字叉可将其分为两 种类黧。知识分词与机械分词方法的根本区别在于它不仅仅只是邋过词典匹配, 两藏还要聪用词法、句法蔟至语义等方瑟的知识。知识分词不仪科惩翘识的范围 更,焉显还稳蔫入王餐麓技本迸行接莲,势曩姆分运与“躞义校正”舍秀丽一 过程,而不是像机械分词加歧义校正法那样先分词再校正。此外,知识分词中的 分词程序和知识库设计受舆相对独立性,有利予知识库的维护。 露见的分词算法如下: 1 则令n l e t t - r l e i 一1 ,稃从待切分字串 中驳字长为n l e n 的字串船,返回到s 钯p 2 ;琴粥,得到长度必1 的摹字词,指是 赞韬分字事戆密锌鸯嚣移动l 令汉字,返鏊多j s t e p1 。 m m 方法优点:1 ) 该法扫描方向是从左剿蠢,从长到短的顺序避行匹配;2 ) 该法的原理简单,易子猩计算机上实现,时问复杂度也比较低。 m m 方法缺点:1 ) 必然会忽视“诃中有词”的现象,导致切分镄误。例如对字 簿枣“幼,b 霆逛节嚣”避 孬锈分嚣,m 鹾方滚戆甥分缝票是“幼,b 霾遂节嚣”, 蔼菠确魏切分结果应该燕“幼) l 园地节毯”;2 ) 最大词的长发鼹予确定,如巢 定得太长,则匹配时花的时间多,算法的时间复杂度明显提高。如果定得太短, 则不能切分长度超过它的词,从而导致切分藏确率降低。 1 4 ( 2 ) 逆向最大匹配法( r e s e r v em a x i m u mm a t c h i n gm e t h o d ) 通常简称为r m m 法。r m m 法的基本原理与m m 法相同。不同的是分词的扫描 方向,它是从右至左取字串进行匹配。统计结果表明,单纯使用诞向最大匹配的 锤谖搴为1 1 6 9 ,萃缝馒惩逆巍最大莲酝瓣镑谖搴为1 2 4 5 ,r m m ;陵在凌分熬准璇 率童皖m m 法有很大提离。 ( 3 ) 双向匹配法 对同一个字符串分别采用m m 法和r m m 法两种方法进行切分处理,如果所得 结果秘露,剐认为切分成姥,否雯| l 认为有疑杰,照时霹采用上下文信息,校据切 势绽义规受g 进行捧蔹;躐蠢进行夭工予预,选取一释正确豹挠分方法。 优点:此法克服了m m 方法中的忽视“词中有词”的弊端。如用双向匹配法对 “幼儿园地节目”进行切分处理时分别使用m m 方法和r m m 方法得到的两个切分 结荣憋“钫儿园地节露”和“幼) h 园地带鼹”,切分系统会报错误,而不是 将镑裁疆,影确其德戆添富楚瑾。 缺点:算法的复杂度较高;为了支持芷匈和逆向两种顺序豹飘配和搜索,词典 的结构比一般的分词词戴鼹复杂得多。 ( 4 ) 最佳匹配法 农糗藏分词方法孛,最佳匹配法( 包摇溅怒帮逆囱) 实际上霹骧强势裂正惫最 大嚣怒法襄遂商最大题鬣法。因为它与上述掰类方法的嚣剐仅莰怒对词典中豹词 序作丁适当的调整( 按词频排序) ,以求缩短对分词词典的检索时间,以降低分词 时间炭杂度,加快分词遴度。实际上,这是澍分词词典的一种预加工,也不是纯 粹意义上的一种分词方法, ( 5 ) 逐锈逮历法 宦是把词典中的词按照汉字数从多到少递减的顺序逐个搜索熬个待处理材 料,赢到把全部的词切分出来为止,则完成分词处理。在最坏情况下,即使处理 材料很少,也得用词典中的全部词逐字匹配待处理材料。 ( 6 ) 韬分捧志法 切分标志法的基本憨怨是通过建立自然鞫非囊然切分标恚豹一个底表来识剐 所有的切分标志。这样,一个句子链随即化为若干个短链,然后掰借助其他方法 进行细加工。设立切分标志法还不是一种分词方法,只不过是自幼分词一种预处 璎方式而己。用切分标恚把文本切成短链,融被证明无助于提高切分精度,而且 增加了一遍扫描“切分标恚词典”的时空复杂性,还要增加存储空间存放那些切 分标虑,甚至还会引起本不应产生的切分错谈,以至切分糖度下降。 ( 7 基于谡菝戆缓诗方法 统计方法一般不依赖鼍:词典,而是将原文巾任意前后紧邻豹两个字作为一个 词谶行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频 率超过某个预先设定的值时,就将其作为一个词进行索引。这种方法的优点是能 够鸯效遮提取出未登象键。局限性在于会经黎撼出一些出现频发辩、毽芳不是逶 豹鬻惩字组,并且慰鬻麓弼戆谖剐耪度差,辩空开镑丈。实际藏耀豹统计分词系 统都骚使用一部基本的分词词典( 常用词词舆) 进行串匹配分词,同时使用统计方 法识别一些新词,即将串频统计和串匹配结含起来。既发挥匹配分词切分速度快、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论