




已阅读5页,还剩108页未读, 继续免费阅读
(计算机软件与理论专业论文)个性化的web信息采集技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
个性化的w e b 信息采定技术研究: 摘要 摘要 随着w e b 信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信 息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需要,但由于其 通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。个性 化w e b 信息采集就是针对这个问题而提出来的。个性化w e b 信息采集的研究目标在于 充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集w e b 信 息,充分利用网络信息,以更好地服务于用户的个性化需求。 围绕个性化w e b 信息采集系统p s e a r c h ,论文的主要工作包括以下几个方面: ( 1 ) 用户兴趣个性化信息的获取。分析了用户兴趣个性化信息的收集和更新,重点 从用户需求扩展、特征选择,以及文本聚类分析三个方面来做了分析和实验。 当捕获用户当前的浏览行为时,根据用户当前浏览内容的计算结果,选择那 些跟用户需求关键词相似度最大的词扩展进来,从而保证了扩展词的质量。 实验结果表明,通过这样的需求扩展确实获得了用户的当前个性化兴趣。 隐式收集用户兴趣在本质上与文本分类中的特征选择问题相似隐式收集用 户兴趣可以借鉴文本特征选择方法来实现用户兴趣的收集。实验结果表明在 用户兴趣个性化信息的获取中,信息增益方法效果较佳。 如果能够对用户浏览的页面聚类,就能够得到用户具体感兴趣的主题。隐式 收集用户兴趣可以借鉴文本聚类分析来实现用户兴趣的收集。实验结果表明 在用户兴趣个性化信息的获取中,b i s e c t i n gk - m e a n s 是一个合适的选择。 ( 2 ) 待采页面的选择。根据页面在w e b 上的分布特征,分析了个性化w e b 信息采集 系统p s e a r c h 的种子u r l 设置、页面采集过程、已采页面与用户兴趣的相关度 判定和待采u r l 与用户兴趣的相关度预测,提出了p s e a r c h 页面选择算法。实 验结果表明p s e a r c h 页面选择算法的采集准确性要明显优于广度优先算法。 ( 3 ) 相关度的判定。借鉴了信息检索中的分类过程,实验结果表明,在p s e a r c h 的相 关度判定中k n n 的性能较佳。提出了p s e a r c h 页面推荐算法。较之g o o g l e 返回 的检索结果,p s e a r c h 推荐给用户的页面和用户的当前兴趣更相关,实现了为用 户提供个性化服务的目的 ( 4 ) 个性化w e b 信息采集的性能优化。分别从优雅采集、页面采集、页面刷新、分 布式采集等几方面详细分析了p s e a r c h 的性能优化在页面采集中分析了多线 程、d n s 缓存、持续连接、重复网页、采集器陷阱和网页的存储。 关键词:个性化服务,个性化w e b 信息采集,用户兴趣,个性化w e b 信息采集系统 p s e a r c h ,搜索引擎 i 个性化的w e b 信息采集技术研究; a b s l r a c l r e s e a r c ho nc u s t o m i z e dw e bc r a w f i n g w ul i h u i ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yb a is h u o w i t ht h ee x p l o s i o no fw e bi n f o r m a t i o n , h o wt oi m m e d i a t e l ya n de x a c t l yf i n dt h en e e d e d i n f o r m a t i o nf o re a c hl l s e i h a sb e c o m eat o u g hp r o b l e m a l t h o u g ht r a d i t i o n a lt e c h n o l o g i e so f s e a r c he n g i n em e e ts o m ed e m a n d so f u s e r s , t h e yc a n n o tf u l f i l lt h ep e r s o n a l i z e dr e q u i r e m e n t so f u s e r si nv a r i o u sb a c k g r o u n d s ,w i t hd i v e r s ei n t e n t i o na n da td i f f e r e n tt i m e c u s t o m i z e dw e b c r a w l i n gh a sb e e nb r o u g h tf o r w a r df o ra d d r e s s i n gt h i si s s u e b yt a k i n gf u l la d v a n t a g eo f u s e r s p e r s o n a l i z e di n f o r m a t i o n ,t h er e s e a r c ho nc u s t o m i z e dw e bc r a w l i n ga i m st op r o v i d eb e t t e r s e r v i c e sf o ru s 盯a n dt og a t h e ri n f o r m a t i o nw i t hs u p e r v i s i o no ri n t e r a c t i o no f u s e r si n t e r e s t s a r o u n dt h ec u s t o m i z e dw e bc r a w l i n gs y s t e m , p s e a r c h , t h em a i nc o n t r i b u t i o n so ft h i s d i s s e r t a t i o nc a l lb es u m m a r i z e da sf o l l o w s : ( 1 ) a c q u i r e m e n to fu s e r sp e r s o n a l i z e di n t e r e s t s a f t e ra n a l y z i n gt h ec o l l e c t i o na n d u p d a t eo fu s e r si n t e r e s t s , t h i sd i s s e r t a t i o ne x p e r i m e n t a l l ys t u d i e su s e rr e q u k e m e n t e x p a n s i o n , f e a t u r es e l e c t i o nm e t h o d sa n dd o c u m e n tc l u s t e r i n g a n a l y s i si n t h e a c q u i r e m e n to f n s e r sp e r s o n a l i z e di n t e r e s t s o nc a p t u r i n gc u r r e n tb r o w s i n ga c t i o no fu s e r 9c u s t o m i z e dw e bc r a w l i n gc a l l s e l e c ta n de x p a n dt h ew o r d sm o s ts i m i l a rt ot h ek e y w o r d sr e p r e s e n t i n gu , s e r $ n e e d sb yc o m p u t e dr e s u l t so f b r o w s e dc o n t e n t s t h ee x p e r i m e n t a lm s d t si n d i c a t e t h a tu s e r sc u r r e n tp e r s o n a l i z e di n t e r e s t sa r er e a l l yo b t a i n e db ys u c hr e q u i r e m e n t e x p a n s i o n t h ee s s e n c eo fa u t o m a t i cc o l l e c t i o no fu s e r si n t e r e s t si ss i m i l a rt ot h a to ft h e m e t h o d so ff e a t u r es e l e c t i o ni nt e x tc a t e g o r i z a f i o mu s e r si n t e r e s t sc a l lb e o b t a i n e db yt h em e t h o d so ff e a t u r es e l e c t i o n f o u rm e t h o d sa r ee v a l u a t e d , i n c l u d i n gt e r ms e l e c t i o nb a s e do nd o c u m e n tf r e q u e n c y ( d nm u t u a li n f o r m a t i o n 似d ,i n f o r m a t i o ng a i n ( i g ) ,a n dz 2 - t e s t ( c h 0 w ef m di gm o s te f f e c t i v ei n o u re x p e r i m e n t s u s e r si n t e r e s t sc a nb eo b t a i n e di f t h ep a g e sb r o w s e db yu s e ra r ec l u s t e r e d t h e y c a l lb ea c h i e v e db yd o c u m e n tc l u s t e r i n ga n a l y s i s f o u rm e t h o d sa r ee v a l u a t e d , i n c l u d i n gk - m e a n s ,k m e d o i d s ,m a x d i s ts a m p l i n gc l u s t e r i n ga n db i s e c t i n g k - m e a n s w ef m db i s e c t i n gk - m e a n sm o s te f f e c t i v ei no u re x p e r i m e n t s ( 2 ) s e l e c t i o no f t h eo r d e ri nw h i c hac r a w l e rs h o u l dv i s i tt h eu r l si th a ss e e l i a c c o r d i n g t ot h ed i s t r i b u t i n gc h a r a c t e r i s t i c so f w e bp a g e s ,t h i sd i s s e r t a t i o na n a l y z e ss e t u po f s e e d u r l s ,p r o c e s so fp a g er e t r i e v a l ,s i m i l a r i t ye v a l u a t i o nb e t w e e nr e t r i e v e dp a g e sa n d i 个件化的w e b 信息采集技术研究: a b s t r a c t u s e r si n t e r e s t s ,s i m i l a r i t yp r e d i c t i o nb e t w e e nu r l st ob er e t r i e v e da n du s e r s i n t e r e s t s ,a n dp r o p o s e sp s e a r c hp a g es e l e c t i o na l g o r i t h m t h ee x p e r i m e n t a lr e s u l t s s h o wt h a tt h ep r e c i s i o no f t h ea l g o r i t h mi sb e t t e rt h a nt h a to f b r e a d t hf i r s ta l g o r i t h m ( 3 ) e v a l u a t i o no f s i m i l a r i t yb e t w e e nr e t r i e v e dp a g e sa n d u s e r si n t e r e s t s t h r e ec l a s s i f i e r s a r ee v a l u a t e d , i n c l u d i n gc e n t r o i d - b a s e dc l a s s i f i e r , k - n e a r e s tn e i g h b o ra n dw i n n o w r e f e r r i n gt oc l a s s i f i e r si ns e a r c he n g i n e w ef i n dk - n e a r e s tn e i f g h b o rm o s te f f e c t i v ei n o u re x p e r i m e n t s t h i sd i s s e r t a t i o np r e s e n t sp s e a r c hw e bp a g e sr e c o m m e n d a t i o n a l g o r i t h m c o m p a r e d w i t ht h er e t r i e v a lr e s u l t sr e t u r n e d + b y g o o g l e ,p a g e s r e c o m m e n d e db yp s e a r c ha r em o r es i m i l a rt ou s e r sc u r r e n ti n t e r e s t s t h ea l g o r i t h m a c h i e v e st h ee f f e c to f p r o v i d i n gp e r s o n a l i z e ds e r v i c e sf o ru s e r ( 4 ) p e r f o r m a n c eo p t i m i z a t i o no fc u s t o m i z e dw e bc r a w l i n g t h i sd i s s e r t a t i o na n a l y z e s p o l i t ec r a w l i n g ,p a g er e t r i e v a l ,p a g er e f r e s ha n dd i s t r i b u t e dc r a w l i n g m u l t i - t h r e a d i n g , d n sc a c h i n g ,p e r s i s t e n te o n n e e t i o n , d e t e c t i o no fd u p l i c a t ec o n t e n ta n ds p i d e rt r a p s , t e x tr e p o s i t o r ya r ed i s e u s s e di np a g er e t r i e v a l k e y w o r d s :p e r s o n a l i z e ds e r v i c e s ,c u s t o m i z e dw e bc r a w l i n g ,u s e r si n t e r e s t s ,p s e a r c h , s e a r c h e n g i n e 个件化的w e b 信息采襞技术研究:心日录 图2 1 图2 2 图2 3 图目录 p s e a r c h 的w e b 信息采集模型 用户当前浏览网页 用户当前浏览网页的需求扩展 图2 4 用户浏览历史的需求扩展 图2 5d f 、c h i 、i g 、m i 的f i 值( 英文文档) 图2 6d f 、c h i 、i g 、m i 的平均特征提取时间( 英文文档) 图2 7d f 、c h i 、i g 、m i 的f l 值( 中文文档) 图2 8d f 、c h i ,i g 、m i 的平均特征提取时间( 中文文档) 图2 9k - m e a n s 、m a x d i s ts a m p l e 、b i s e c t i n gk - m e a n s 、p a m 的f 值 图2 1 0k - m e a n s 、m a x d i s ts a m p l e 、b i s e c t i n gk - m e a n s 、p a m 的平均聚类时问3 6 图3 1p s e a r c h 的w e b 信息采集流程 图3 2 待采页面的选择问题 图3 3 广度优先和深度优先采集 图3 4 元搜索引擎的结构图 图3 5 图3 6 图3 7 小金手元搜索引擎的检索界面 用户当前浏览网页中的相关链接 在小金手元搜索引擎上检索关键词 图3 8 小金手元搜索引擎返回的检索结果 图3 9 广度优先和p s e a r c h 页面选择算法的采集准确率 图4 1p s e a r c h 的相关度判定。 图4 2k n n 、向量中心法、w m n o w 算法的f l 值( 特征个数较少) 图4 3k n n 、向量中心法、w i n n o w 算法的f i 值( 特征个数较多) 图4 4p s e a r c h 和g o o g l e 检索的前2 0 个推荐页面 i x ” m 笱 筋 如 孔 孔 弱 剪 “ 甜 铝 钙 “ 卯 始 酡 :2 鹋 刀 个忤化的w e b 信息采集技术研究:l j f i 目录 图4 5p s e a r c h 和g o o g l e 检索的前4 0 0 个推荐页面 图5 1d n s 缓存 图5 2 页面刷新策略 图5 3 s t r h a s h 、t i a n l h a s h 、e l f l m s h 、h f l p 、h f 的一阶哈希冲突率 x 7 4 8 0 8 4 9 1 个抖化的w e b 信息采定技术研究:表目录 表目录 表1 1 著名搜索引擎的采集器分布 表2 1 特征选择的实验数据( 英文) 表2 2 特征选择的实验数据( 中文) 。 表2 3 信息检索系统的评价标准: 表2 4 文本聚类分析的实验数据 表3 1p s e a r c h 的页面采集过程 表3 2 一个典型的网页h t m l 源代码 表3 3p s e a r c h 选用的h n 也标记及其相应的权重 表3 4p s e a r c h 页面选择算法 表3 5 小金手元搜索引擎检索返回的前5 0 个种子u r l 表3 6 表3 7 种子u r l 页面与用户当前浏览页面的相关度 种子u r l 页面与用户当前兴趣关键词的相关度 表4 1p s e a r c h 推荐给用户的前5 0 个页面u r l 表5 1 一个典型的r o b o t s t x t 8 表5 2 一个典型的r o b o t sm e t a 标记7 9 表5 3 一个典型的采集器陷阱 表5 4s t r h a s h 、t m n l h a s h 、e l f h a s h 、h f l p 、h f 的二阶哈希冲突率 x i 8 3 9 2 勰 勰 鹞 弘 如 豇 亚 铂 鼹 印 记 弛 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 作者躲昊两样 日期珧口 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 作者签名:昊砖| | 手导师签名: 加夸日期:2 卯r 矗3 口 第一棠0 i 青 第一章引言 1 1 个性化w e b 信息采集的研究背景及意义 随着因特网( i n t e m e t ) 的迅速发展与普及,网络已发展成为我们经济、社会、文化、 教育以及娱乐等几乎各个方面的重要组成部分。万维网( w o r l dw i d ew e b ,简记为w 曲) 包含了从技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息,为用户 提供了一个极具价值的信息源。由于其直观、方便的使用方式和丰富的表达能力,w e b 已成为人们获取信息的一个重要途径,给人们带来了巨大的方便,使得人们可以跨越时 间和空间的界限来共享大量的信息。而w w w 本身作为一个庞大的分布式异构超文本文 档库,从1 9 9 1 年诞生至今,其信息容量呈爆炸性的增长。根据文献1 4 3 1 ,到2 0 0 2 年, w e b 上的静态页面数量已达到2 0 b i l l i o n ,动态页面数量已达到1 3 0b i l l i o n 。根据天网搜 索引擎【2 】在中文网页的收集工作中统计得到的数据,到2 0 0 3 年4 月,中国拥有的网页 数已经超过了一亿。到2 0 0 4 年1 1 月,g o o g l e 搜索引擎索引的网页数已经超过8 0 亿【l 】, 而且还将在相当长的一段时间内快速地增长。 拥有海量网页信息的w e b 就像一本无所不包的百科全书。由于没有主编,人们可以 很随意地向这本书提交任何信息,这样就导致了这本书在内容组织上的杂乱无章。如何 快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。当人 们需要获取或查询某方面的信息时,一种方式是打开浏览器,输入想要访问的网页或网 站的地址,通过浏览w e b 网页来寻找目标信息;另一种方式就是借助于搜索引擎的帮助。 面对规模如此庞大的信息海洋,人们试图通过测览w e b 网页来发现自己感兴趣的目标信 息已经变得犹如大海捞针般困难。搜索引擎是最普遍的辅助人们检索信息的工具,比如 g o o g l e 、y a h o o ! j 3 、s o h u 4 1 、s h a 5 l 等。根据c n n i c 截止在2 0 0 4 年6 月底的统计【4 8 1 表明,6 4 4 的互联网用户最常使用的网络服务是搜索引擎,仅次于电子信箱服务。 为了解决网上信息检索的难题,人们在信息检索领域进行了大量的研究,开发了各 种搜索引擎。这些搜索引擎通常使用一个或多个w e b 信息采集器从i n t e m e t 上采集各种 数据,包括w w w 、f t p 、e m a i l 、n e w s 等,然后在本地服务器上为这些数据建立索引, 当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息 4 2 1 。搜索引 擎的使用给网络用户带来了很大的便利,已成为i n t e r n e t 上一项极为重要的服务。作为 这些搜索引擎的基础和重要组成部分,w e b 信息采集正发挥着举足轻重的作用。由于搜 索引擎只能搜到它网页索引数据库里储存的网页文字信息,所以搜索引擎的w e b 信息采 集器一般要定期重新访问所有网页( 各搜索引擎的周期不同,可能是几天、几周或几月, 也可能对不同重要性的网页有不同的更新频率) ,更新网页索引数据库,以反映出网页文 字的更新情况,增加新的网页信息,去除死链接( 即链接所指向的网页已经不存在) ,并 l 个性化的w e b 信息采集技术研究 根掘网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况爿会反映到 用户查询的结果中随着应用的深化和技术的发展,w e b 信息采集也越来越多的应用于 站点结构分析、页面有效性分析、w e b 图进化、内容安全检测、用户兴趣挖掘以及个性 化信息获取等多种服务和研究中 搜索引擎技术满足了人们一定的需求,但由于其通用的性质,仍然不能满足不同背 景、不同目的和不同时期的查询请求。首先,在使用搜索引擎时,只要使用相同的关键 词检索,返回的结果就是相同的,它并不考虑不同用户的信息偏好和不同兴趣,使得每 个用户面对同样的信息空间。然而在巨大、无序的信息空问里,每个用户真正感兴趣的 信息却只是沧海一粟。而且,由于每个用户的目标信息不同,其关注的信息子空间也就 不尽相同。其次,搜索引擎返回的结果往往成千上万,良莠不齐,其中包含大量与用户 兴趣不相关、重复甚至是过时的信息。为了提高查全率,人们不得不忍受大量的垃圾数 据;而要想使检索到的内容都不跑题则往往意味着遗漏了许多有用的信息。比如,用户 想了解“搜索引擎原理”方面的知识,在g o o g l e 上输入“搜索引擎”,可得到5 , 7 6 0 ,0 0 0 项检索结果。即使是在g o o g l e 上输入“搜索引擎原理”,也得到了1 5 1 , 0 0 0 项检索结果。 面对如此庞大的检索结果,用户很难逐一打开链接查看;而且,检索结果中包括了许多 与“搜索引擎原理”不相关的信息,甚至还有一些无法打开的死链接。结果可能是用户 花费了不少的时间,却收获甚少。 此外,i n t e r a c t 信息的分散存储、管理和动态变化也是困扰着搜索引擎的问题之一。 由于信息源随时都可能处于变化之中,搜索引擎必须不停地刷新数据,但仍不能避免出 现检索结果指向一个已不存在的页面的情况。根据文献【4 4 】的调查发现,一些最常用的 搜索引擎的查询返回结果中,1 4 9 的目标页面已经失效了。由于w e b 信息的动态变化, 用户已获得的信息在相当短的时日j 内就可能过时、失效。用户想要获得w e b 上的最新信 息,只能不断地在网络上查询同样的目标内容,这必然会耗费用户大量的时间和精力。 可见,在w e b 用户和w e b 信息资源之间确实出现了巨大的鸿沟:一方面,w e b 资源中 蕴含着极其丰富的有价值的信息和知识;另一方面,用户却无法有效地获取这些信息和 知识。 究其原因是由于w e b 上的信息是无组织的、多结构多形式的,且分布在全世界的各 个站点上,具有分布、结构复杂等特点。加之信息源的动态变化,以及潜在有用信息的 不断更新问题,使得人们寻找有用信息存在很大的困难。对检索系统比较了解的用户, 可能会用较好的关键词构造查询( q u e r y ) ,获得较理想的检索结果;而大多数检索系统 用户很难贴切地表达自己对网上资源的需求,也不知道如何准确有效地去寻找,即所谓 的信息迷失问题。传统的人找信息的服务模式已经越来越难以适应快速增长的i n t e r a c t 信息资源。用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式,而 有力的基于用户个性化的w e b 信息采集技术就是针对这个问题而提出来的。 个性化的实质是针对性 6 】,即对不同的用户采取不同的服务策略,提供不同的服务 内容。个性化服务是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动 2 第一章引言 推荐的一种服务。实际上,个性化服务不是一个现在爿唷的新概念。古语所说的。因材 施教”,就是教育领域中一种典型的个性化服务i n t e m e t 个性化服务,是个性化服务在 i n t e m e t 中的拓展,也是个性化服务新的应用和发展领域用户是个性化服务的享用者, 同时用户对个性化服务的反馈也可以用于优化个性化服务系统。比如用户可以直接修改 自己的兴趣,以提高个性化服务系统的性能;系统也可以根据用户对信息内容的选择改 进个性化服务的质量。 w e b 信息采集( w e bc r a w l i n g ) 1 2 0 ,主要是指通过w e b 页面之问的链接关系,从w e b 上自动地获取页面信息,并且随着链接不断向所需要的w e b 页面扩展的过程。实现这一 过程主要是由w e b 信息采集器( w 曲c r a w l e r ) 来完成的。根据应用习惯的不同,w e b 信息 采集器也常称作w e bs p i d e r 、w e br o b o t 和w e bw o r m 。个性化的w e b 信息采集 ( c u s t o m i z e dw e bc r a w l i n g ) 的目标就是通过用户兴趣制导或与用户交互等灵活手段来采 集信息,其目的就在于充分利用网络信息,以更好地服务于用户的个性化需求。 相对于个性化的w e b 信息采集,大多数的传统搜索引擎都是基于客户n 务器模型 的在线搜索模式,并在服务器后台维护着预定义、海量的信息数据库,这种结构对信息 数据库和网络存在着过多的依赖性。 首先,搜索引擎采用一套预定义的分类手段,并不考虑用户的特殊选择,因此用户 得到的搜索结果可能会与期望结果大相径庭; 第二,搜索引擎通常不具备学习功能。无法从广阔的信息空间动态的收集信息; 第三,由于集中存储的数据过于庞大,很难对其进行及时的维护和更新; 第四,搜索引擎一般不支持结果的异步传送,要求在提交请求和回送结果的过程中 保持良好的网络连接; 最后,传统的搜索引擎强调以引擎为中心,而忽视了不同背景和不同兴趣的用户的 需求。 而在个性化的w 曲信息采集中,通过对用户反馈信息的学习,可以有效地改进信息 搜集的效率,正好弥补了传统搜索引擎的这些不足之处,因此有必要开展个性化的w e b 信息采集的研究。 和普通的、c b 信息采集相比,个性化的w e b 信息采集更强调用户兴趣制导和与用 户的交互。和大多数搜索引擎采用的分布式的基于整个w e b 的信息采集不同,它的采集 目标不是整个w e b ,它是一种轻型的采集系统,目标在于为单个用户的个性化需求提供 更好的服务。它的特点包括: 它是用户兴趣制导的,针对性强: 它是个性化的,结合了用户的反馈; 它考虑了系统的扩散度,只采集与用户兴趣相关的数据: 它是单机、轻型的采集系统。 个忖化的w e b 信息采囊技术研究 1 2 个性化技术的研究现状 1 2 1 个性化的定义 广义地讲,大干世界中,不同的人、事物均呈现不同的特征。在我们的日常生活中, 每个人的饮食习惯、衣着服饰、兴趣爱好甚至家具装饰都表现出有别于他人的风格,这 就是个性化。个性化就是用户存在个性差异,也就是个人的学习能力、个人兴趣与习惯、 个人学习基础、努力程度等都存在的差异。而正是个性化为我们展现了一个多姿多彩、 生动活泼的世界。 如今,个性化技术研究已经成为当前学术界和产业界研究开发的热点,各大计算机 公司和著名网站纷纷推出个性化服务和个性化开发工具例如,雅虎公司推出的m y y a h o o ! 网站,允许用户选择所希望查看的主题以及主题中特定的栏目,并且可以指定展 示顺序,为自己构造出专用的网页,此后系统能够进行内容自动更新维护。i b m a l m a d e n 研究中心开发的中间件系统w b i 7 ,支持w e b 服务器和浏览器之间的信息流转换,实 现w e b 个性化功能的开发。 个性化服务是能够满足用户的个体信息需求的一种服务,即根据用户的使用行为、 习惯、爱好和特点等,向用户提供满足其个性化需求的一种信息服务。实现个性化服务 需要跟踪和学习用户的兴趣和行为,并研究用户兴趣的表达方式。首先,需要决定学习 的信息源和收集的方式。由于需要用户的参与,考虑到用户信息的敏感性,只能搜集用 户公开和反馈的信息。因此,必须研究有效的学习机制,从而充分地把握用户的个性化 需求。为了把资源推荐给用户,还需要选取资源的特征,并采用合适的个性化推荐方式。 如何把资源推荐给用户也是一个关键问题,即如何根据用户的兴趣来推荐相关的资源。 此外,还需要考虑个性化服务的体系结构。由于在服务器端、代理端和客户端所能搜集 到的用户信息是不同的,因此所能应用的个性化服务也是有所不同的。 个性化支持可以分为初级和高级两种方式。初级方式是由系统在网页上提供选项, 由用户对网页的形式和内容进行定制。高级形式是系统具有某种主动学习的功能,通过 概括和分析用户的行为,能够在一定程度上自动地实现个性化。 1 2 2 个性化推荐的实现方式 当前,个性化推荐的实现方式可以分为三类【8 】【9 】,第一类方法是基于规则的技术 ( r u l e - b a s e dt e c h n o l o g y ) ,第二类方法是基于内容的过滤技术( c o n t e n t - b a s e df i l t e r i n g ) ,第 三类方法是协同过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 。 1 2 2 1 基于规则的技术 基于规则的技术【1 0 】是由w e b 站点管理员,根据用户统计数据、静态特征文件或会 话历史。指定若干规则,系统根掘这些规则为特定的用户提供特定的内容及网页结构 规则也可以由用户定制,或利用基于关联规则的挖掘技术来发现。一个规则本质上是一 4 第一章引言 个i f - t h e n 语句,规则规定了在不同的情况下如何提供不同的服务实现个性化信息推 荐时,首先根据当前用户阅读过的感兴趣的内容,通过规则估计出用户还没有阅读过, 但很有可能感兴趣的内容,然后根据规则排序,将这些内容推荐给用户 比如,如果事先生成的适合于某用户的购买规则是“如果购买了牛奶,就会同时购 买面包0 那么当用户再次浏览牛奶相关的商品时,网站就会同时向用户推荐与面包相关 的信息基于规则的推荐方式较多地应用于电子商务网站。根据用户浏览和购买的日志 生成规则,向用户推荐感兴趣的商品。 利用规则来实现个性化推荐依赖于规则的质量和数量,简单、直接,其缺点是规则 质量很难保证,且随着规则的数量逐渐增多,系统将变得越来越难以管理。典型的基于 规则的系统如m m 的w e b s p h e r e 1 1 1 ,b r o a d v t s i o n 1 2 1 ,i l o g 1 3 等。在i l o g 系统中, 系统管理员只定义业务规则,系统的核心是规则引擎,它用于解释规则,并为站点的访 问者产生符合其兴趣的动态内容。i l o g 是作为一个中间件形式提供的,提供r u l e s ( c + + ) 和i r u l e s ( j a v a ) 两种组件用于第二次开发。此外,i l o g 还提供了一种业务规则定义语言。 1 2 2 2 基于内容的过滤技术 基于内容的过滤技术【7 9 】是通过分析用户历史上访问的内容或者用户给出的兴趣描 述,得出用户关心的内容,向该用户推荐新的类似的或相关的内容。基于内容的过滤技 术是目前个性化推荐的主流。 基于内容的过滤技术是通过比较资源与用户兴趣来推荐资源的,其关键问题是相似 度判断对于向量空间模型来说,通常采用的方法是向量内积。由于基于内容的过滤技 术需要进行相似度计算,因而较多地应用于可计算的文本领域,如浏览页面的推荐、新 闻组中的新闻推荐等采用基于内容的过滤技术来实现个性化推荐的优点是简单、有效, 缺点是不能为用户新产生的兴趣发现资源,只能发现和用户已有兴趣相似的资源。 一般是用用户特征文件o j s e rp r o f i l e ) 来描述用户兴趣的。通常用户兴趣都难以准确描 述,是因为其中涉及了大量因素:用户兴趣可以简单地用关键词列表来描述,但用户曾 经读过哪些文章、工作经历、买过哪些书等对用户兴趣都有影响。比如,在向用户推荐 书时,毫无疑问,书的主题和内容对于判定用户是否感兴趣是很重要的,但书作者的知 名度、文章内容的新颖性等也是相关因素。 典型的基于内容过滤的系统如p e r s o n a lw e b w a t c h e r 1 4 1 ,l e t i z i a 1 5 】,s y s k i l l & w e b e r t 4 0 等。p e r s o n a lw e b w a t c h e r 是美国卡耐基一梅隆大学开发的一个系统,其个性 化服务是在服务器端提供的它主要由代理服务器和学习器组成,代理服务器是用户 w e b 浏览器与w e b 之间的桥梁,它保存了所有访问过的u r l 地址;学习器主要是为系 统提供用户模型用户的请求和响应,都要经过代理服务器p e r s o n a lw e b w a t c h e r 在收 集训练事例时假设:用户当前浏览w e b 页面上的超链都是训练事例,它们有两个类标签, 一个是用户有兴趣,另一个是用户无兴趣凡是被用户选择了的超链类标签,都被认为 是用户有兴趣的,而没被用户点击的超链类标签,都被认为是用户无兴趣的之后就可 个性化的w e b 信息采集技术研究 以采用文本学习的方法,建立文本分类器,形成用户配冕文件。然后就可以对用户当前 浏览页面上的超链进行推荐。 1 2 2 3 协同过滤技术 协同过滤 1 1 3 ,又称社会过滤( s o c i a l 丘l t c r i n g ) ,其基本思想十分直观:在日常生活 中,人们往往会根据亲朋好友的推荐来做出一些选择,如购物、阅读、音乐等。协同过 滤系统就是将这一思想运用到网络信息服务的信息推荐中,基于其他用户对某一信息的 评价来向某一用户进行推荐。通常系统选取与指定用户有相似兴趣的用户作为参考对象。 与基于内容的过滤技术不同,协同过滤技术并不是比较资源与用户兴趣的相似性, 而是通过用户之间的相似性来推荐信息。它基于的不是某个用户自己的访问历史,而是 许多具有相同或相似访问行为用户的访问历史。该方法的核心是如何发现具有相同兴趣 的用户兴趣小组。当用户对某信息感兴趣时,该信息就可以推荐给同一用户兴趣小组中 的其他用户。协同过滤技术的优点是能为用户新产生的兴趣发现资源。缺点是存在稀疏 性,即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价 来发现相似的用户。 典型的协同过滤的系统有g r o u p l e n s 1 6 】、s i t e s c e r 1 7 】、w e bw a t c h e r 3 9 】等。 g r o u p l c n s 是一个应用于u s e n e t 新闻的协同过滤系统。系统分为两部分:客户端和服务 器端客户端是一个新闻阅读器n e w s r e a d e r ,服务器端提供协同过滤。n e w s r e a d e r 一 般连接到本地n n t p 服务器,同时也连接到g r o u p l e n s 服务器共享过滤信息,只要用户 下载一篇文档。n e w s r e a d e r 都会向g r o u p l e n s 服务器发送消息请求对该文档内容的预报, 也就是其他用户对该文档的评价。此外,用户也可以评价文档,n e w s r e a d e r 会将该用户 评价发送到g r o u p l e n s 服务器上进行处理,以提供给其他用户浏览,g r o u p l e n s 会利用 这些信息调整该用户和其他用户的相关性 w e b w a t c h e r 是美国的卡耐基梅隆大学开发的一个基于服务器端的w e b a g e n t 系统, 它建立的用户模型是当前大多数用户的普遍访问模式。w e bw a t c h e r 记录用户从登录服 务器到退出系统这一段时间内,用户浏览过的页面序列、选择过的超链及停留的时间。 如果用户点击了菜单栏上的按钮“e x i t :g o a lr e a c h e d ! ”和“e x i t :g o a ln o tf o u n d ! ”,用 户就对此次浏览过程做出了正面或反面的评价。通过对大量训练事例的分析,可以得到 当前大多数用户普遍的浏览方式。当一次新的浏览开始时,w e bw a t c h e r 基于大多数用 户过去的浏览经历,对用户浏览的当前页面上的超链进行推荐。 基于内容过滤的系统和协同过滤系统都是由系统自动生成动态的用户特征文件,实 现的是高级的个性化支持这些系统的特点是通过对用户访问历史的分析,获得该用户 的访问模式,再将该模式解释成内容需求,将其与u r l 结合,形成用户的个性化服务 还有一些个性化服务系统同时采用了基于内容过滤和协同过滤这两种技术,目的是 克服各自的一些缺点例如w e b s l f t 1 8 ,加嘲n o m y 【1 9 】等。 6 第一章弓i 言 1 2 3 隐私问题 个性化服务是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推 荐的一种服务实现个性化服务首先就需要跟踪和学习用户的兴趣和行为,并研究用户 兴趣的表达方式由于用户兴趣是多方面的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三基医院感染课件
- 三只小猪的绘画课件
- 经尿道前列腺电切术配合
- 小儿静脉输液外渗课件
- 小儿药量课件
- 多领域人机关系面试题库版
- 大学生车间顶岗实习报告
- 大一新生入学教育感悟
- 小儿肾病课件
- 小儿用药基础知识培训课件
- 2025年急诊急救试题(附答案)
- 贵州航空产业城集团股份有限公司旗下子公司贵州安立航空材料有限公司招聘笔试题库2025
- 2025年医师节临床知识竞赛题库
- 2025年校长职级考试题及答案
- 2024兴平市辅警招聘考试真题
- 2025年保育员初级考试试题试题(含答案)(完整版)
- 2024年江苏镇江市科学技术局遴选事业单位人员2人笔试高频难、易错点备考题库及参考答案详解1套
- 成都市二手房买卖合同房屋交易税费缴纳及减免协议
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- NB-T 47013.15-2021 承压设备无损检测 第15部分:相控阵超声检测
- 公路工程质量检验评定jtgf80-1
评论
0/150
提交评论