(计算机应用技术专业论文)用户网页浏览兴趣模型建模方法的研究.pdf_第1页
(计算机应用技术专业论文)用户网页浏览兴趣模型建模方法的研究.pdf_第2页
(计算机应用技术专业论文)用户网页浏览兴趣模型建模方法的研究.pdf_第3页
(计算机应用技术专业论文)用户网页浏览兴趣模型建模方法的研究.pdf_第4页
(计算机应用技术专业论文)用户网页浏览兴趣模型建模方法的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, 一 嬲嬲必 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 。留县 本人签名: 缸幺 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 羔乏。日期:坦仝。厶坌 本人签名: 盈丞。 日期:坦f 仝- 厶坌 导师签名: 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 气 t 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 用户网页浏览兴趣模型建模方法的研究 摘要 互联网的迅猛发展已经把我们带入了信息爆炸时代,互联网数据 呈现出越来越明显的海量、高速和动态等特性。网络在给用户带来了 大量信息的同时,也带来了一些新的挑战,使得如何在如此庞大的数 据中查找到适合不同用户的信息,为用户提供个性化的互联网信息服 务( w e bi n f o r m a t i o np e r s o n a l i z a t i o ns e r v i c e ) 成为研究的热点。 而在为用户提供个性化信息服务的研究中,能够正确反应用户意图的 用户兴趣模型的研究成为了很多互联网应用的重点。提高用户兴趣模 型的表达准确度和表达能力,使现有的个性化信息服务系统在服务质 量上有所提高,对互联网的进一步发展有着至关重要的意义。 本文首先介绍了本研究的研究背景和研究意义;其次介绍了数据 挖掘,w e b 挖掘,关联规则,聚类技术,个性化推荐和空间向量模型 v e c t o rs p a c em o d e l ( v s m ) 。针对空间向量模型存在的局限性,本文 引入了基于关键词附属关系的用户兴趣模型,该模型通过以关键词为 顶点,以关键词间关系为连线建立的图结构来表征关键词之间的语义 联系,并且给出了关键词( 节点) 权重和附属关系( 节点问连线) 权 重的计算思想和计算方法。在本文所做理论工作的基础上,开发了用 户网页浏览兴趣挖掘系统的系统原型,系统原型的架构为用户界面层 ( 表现层) ,数据采集层,数据预处理层和逻辑层( 分析功能) 四层 分层结构。最后,本文通过具体的实验验证,证明了该建模方法的有 效性。 本文希望通过在原有研究基础上,通过提出新的用户兴趣模型建 模方法来弥补原有技术的不足,希望对w e b 挖掘和个性化服务的研究 有所贡献。 关键词数据挖掘,w e b 挖掘,用户兴趣,空间向量模型,关键词, 附属关系 一1 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 r e s e a r c ho nm o d e l i n gu s e r 、e b p a g e b r o w s i n gi n t e r e s t a b s t r a c t t h er a p i dd e v e l o p m e n to fi n t e r n e th a si n v o l v e du si nt h ee r ao f i n f o r m a t i o ne x p l o s i o n ,a n di n t e m e td a t a sf e a t u r e so fh u g e n e s s ,s p e e d a n dd y n a m i cb e c o m em o r ea n dm o r ev i s i b l e t h ec y b e rb r i n g sam a s s o fi n f o r m a t i o n m e a n w h i l e ,i tb r i n g sn e w c h a l l e n g et o o h o wt os e a r c h t h ei n f o r m a t i o nw h i c hf i t sd i f f e r e n tu s e r sa n dp r o v i d ew e bi n f o r m a t i o n p e r s o n a l i z a t i o ns e r v i c ef o rd i f f e r e n tu s e r sm a k e st h eh o tr e s e a r c h m i l et h er e s e a r c ho nu s e ri n t e r e s tm o d e lw h i c hc a nr e f l e c tu s e r s i n t e n t i o nw e l lb e c o m e st h eh i g h l i g h to fi n t e r n e ta p p l i c a t i o ni nt h e p e r s o n a l i z a t i o n i n f o r m a t i o ns e r v i c er e s e a r c h t oe n h a n c et h e e x p r e s s i o na c c u r a c ya n da b i l i t yo f u s e ri n t e r e s tm o d e l ,a n di m p r o v et h e s e r v i c eq u a l i t yo fp e r s o n a l i z a t i o ni n f o r m a t i o ns e r v i c es y s t e mm a k e s i g n i f i c a n tc o n t r i b u t i o nt ot h ef u r t h e rd e v e l o p m e n to fi n t e r n e t f i r s t l y , t h er e s e a r c hb a c k g r o u n da n ds i g n i f i c a n c ew e r ep r e s e n t e d ; s e c o n d l y d a t am i n i n g ,w e bm i n i n g ,a s s o c i a t i o nr u l e s ,c l u s t e r i n g t e c h n o l o g y , p e r s o n a l i z e d r e c o m m e n d a t i o nt e c h n o l o g ya n dv e c t o r 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 s p a c em o d e l ( v s m ) w e r ei n t r o d u c e d f o c u s i n go nt h el i m i t a t i o n so f v e c t o r s p a c em o d e l ( v s m ) ,t h i sd i s s e r t a t i o n i n t r o d u c e st h eu s e r i n t e r e s tm o d e lb a s e do nk e y w o r d sd e p e n d e n c yr e l a t i o n s h i p t h em o d e l r e p r e s e n t ss e m a n t i cr e l a t i o nt h r o u g hag r a p h i cs t r u c t u r ei nw h i c ht h e k e y w o r d sa r ed e f i n e d a sn o d e sa n dt h er e l a t i o n s h i pa m o n g k e y w o r d si s d e f m e da sl i n e sa m o n gn o d e s t h i sd i s s e r t a t i o na l s oi n t r o d u c e st h e c a l c u l a t i o ni d e a sa n dm e t h o d so fk e y w o r d s ( n o d e s ) w e i g h t sa n d d e p e n d e n c yr e l a t i o n s h i p ( 1 i n e sa m o n gn o d e s ) w e i g h t s b a s e do nt h e t h e o r e t i c a lc o n t e n t ,w ed e v e l o p e du s e rw e b p a g eb r o w s i n gi n t e r e s t m i n i n gs y s t e mp r o t o t y p e t h es y s t e mp r o t o t y p e s s t r u c t u r ei s f o u r - l a y e r e d ,a n dt h ef o u rl a y e r s a r e l a y e ru s e ri n t e r f a c e ( l a y e r r e p r e s e n t a t i o n ) ,l a y e rd a t aa c q u i s i t i o n ,l a y e rd a t ap r e t r e a t m e n ta n d l a y e rl o g i c ( a n a l y s i sf u n c t i o n ) a tl a s t ,t h i sd i s s e r t a t i o np r o v e dt h e v a l i d i t yo f t h em o d e l i n gm e t h o dt h r o u g has p e c i f i ce x p e r i m e n t t h i sd i s s e r t a t i o na i m st op r o p o s eo n en e wu s e ri n t e r e s tm o d e l i n g m e t h o dt oi m p r o v et h ep r e s e n tt e c h n o l o g y , t h e r e b yt op r o v i d en o v e l i d e a sa n dm e t h o d sf o rt h er e s e a r c ho fw e bm i n i n ga n dp e r s o n a l i z e d s e l v l c e k e y w o r d sd a t am i n i n g ,w e bm i n i n g ,u s e ri n t e r e s t ,v e c t o r s p a c em o d e l ( v s m ) ,k e y w o r d s ,d e p e n d e n c yr e l a t i o n s h i p 厂 。 ,l 卜 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 目录 第一章绪论1 1 1 课题研究的背景1 1 2 课题研究的意义2 1 3 论文的主要内容以及组织结构2 1 4 本章小结4 第二章用户兴趣挖掘与个性化推荐技术分析5 2 1 数据挖掘5 2 2 数据挖掘的对象5 2 3w e b 挖掘8 2 4w e b 挖掘分类9 2 5 个性化推荐技术1 0 2 6 关联规则与a p r i o r i 算法1 2 2 6 1 关联规则1 2 2 6 2a p r i o r i 算法1 3 2 7 聚类技术与k 均值算法1 5 2 7 1 聚类技术1 5 2 7 2k 均值算法乜羽1 6 2 8 本章小结1 7 第三章基于关键词附属关系的用户兴趣模型建模1 8 3 1 向量空间模型1 8 3 2 向量空间模型存在的问题1 9 3 3 基于关键词附属关系的用户兴趣模型i 2 1 3 3 1 相关概念2 1 3 3 2 节点及连线的权重计算2 2 3 3 2 1 节点及连线的权重计算思想2 2 3 3 2 2 节点及连线的权重计算公式2 2 3 3 3 关键词附属关系模型构建示意2 5 3 4 本章小结2 7 第四章系统原型及其实现2 8 4 1 系统原型介绍和架构2 8 4 2 用户界面层( 表现层) 2 9 4 3 数据采集层3 0 4 3 1b h o 介绍3 l 4 3 2i em o n i t o r 的工作流程3 3 4 4 数据预处理层3 4 4 5 逻辑层( 分析功能) 3 4 4 5 2v s m 建模模块3 6 4 5 3k 均值聚类模块3 6 4 5 4 附属关系建模模块3 7 4 6 本章小结3 8 1 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 第五章实验及结论4 0 5 1 实验数据来源4 0 5 2 实验结果4 0 5 3 实验结果分析4 1 5 4 本章小结4 5 第六章总结和展望4 6 6 1 总结4 6 6 2 展望4 6 参考文献4 8 附录l 图索引5 0 附录2 表索引5 1 致谢5 2 攻读学位期间发表的学术论文5 3 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 1 1 课题研究的背景 第一章绪论 根据中国互联网络信息中心的统计报告,截至2 0 0 8 年1 2 月3 1 日,中国网 民总数已达到2 9 8 亿,超过全球平均水平,中国网站总数已达到2 8 7 8 0 万,较 2 0 0 7 年增长了9 1 4 ,是2 0 0 0 年以来增长最快的一年,中国网页总数超过1 6 0 亿,较2 0 0 7 年增长了9 0 n 1 。这些数据都在说明互联网技术的迅猛发展已经把我 们带入了信息爆炸时代,互联网数据也呈现出越来越明显的海量、高速和动态等 特性。 然而,网络在给用户带来了大量信息的同时,也带来了一大堆的问题:如信 息过量难以充分消化;信息真假难以准确辨识;信息安全难以得到保证,信息形 式难以统一处理等。如何准确且快速地获得有价值的网络信息,如何利用已有的 历史数据预测用户未来的行为,如何从这些海量数据中发现知识,以及如何能够 在较短的时间内找到自己最需要的信息,已成为用户和各运行商越来越关注的事 情。 目前,大部分w e b 网站所采用的方法都是传统的普适( o n e s i z e - f i t s a 1 1 ) 方法,即所提供的信息完全没有考虑到不同用户需求和爱好的差异,w e b 站点一 般都是被动的,用户需要自己去检索所需求的信息在哪里,操作繁琐而且不方便。 用户非常希望w e b 站点能够为不同的用户提供个性化的服务,从而可以更方便快 捷地定位到自己感兴趣的信息。一种改进的方法是:将w e b 站点的内容组织为层 次结构,w e b 站点的访问者可以手工定制w e b 站点显示选项,系统将分别存储 单个用户的定制数据,并在该用户再次登录时进行相应的调整。这种方法为用户 提供了一定的方便,对原有的服务质量进行了一定的改善,但这种方法所提供的 类别极其有限,难以实现真正意义上的个性化定制服务,而且缺乏灵活性。自适 应w e b 站点正是为解决这一问题而提出的,其工作原理为,利用挖掘工具对w e b 服务器日志数据中详细记录的用户信息进行挖掘,并从中学习用户访问模式,根 据特定的用户,智能地改进w e b 站点上的信息组织结构。解决这种问题的另一途 径是将i n t e r n e t 由被动接受浏览者的请求转化为主动感知浏览者的信息需求, 实现i n t e r n e t 对访问者的个性化主动服务。 为满足从海量数据中高效地获取有用知识,从迅速出现的信息中及时获取最 新信息,提高信息智能检索与推送水平等需求,使得创建基于服务器端或者客户 端的智能系统成为当今的主流发展方向,利用这类系统来有效地挖掘互联网上的 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 信息资源,即所谓的w e b 挖掘。从广义上讲,w e b 挖掘是从互联网上的相关网 页和活动中提取潜在的对用户有用的模式及一些隐藏的知识。个性化信息服务是 未来信息服务的趋势,它实现的是“信息找人,按需服务”。即把现有的w e b 网 站从以“网页为中心转换为以“用户为中心圆。其基础之一就是建立真正反 映用户的兴趣爱好和个人需求的个性化用户兴趣模型。 1 2 课题研究的意义 现有网站以“网页”为中心的运作模式存在不能为用户提供个性化信息服务 的缺陷。个性化推荐技术就是针对这一问题提出的,它通过收集并分析用户的相 关信息,学习用户的期望,从而对每个用户提供不同的服务,满足不同用户相应 的需求。个性化服务系统可分为基于规则的,基于内容过滤的和协作过滤系统三 种制。 个性化推荐系统具有良好的应用和发展前景。而实现个性化服务的过程中需 要能够完整的得到正确反应用户兴趣和需求的网页浏览历史数据,经过对这些数 据的分析和挖掘,进入w e b 挖掘很关键的一步,即对用户兴趣进行准确的建模, 使之能够准确地表达用户的兴趣,进而应用该用户兴趣模型来为用户进行高效, 准确的个性化信息服务。 随着互联网经济的迅猛发展,w e b 个性化推荐技术最终将成为一种为用户提 供个性化信息服务的有效手段,将会在人们的社会和经济生活中发挥越来越重要 的作用。本文希望通过在原有w e b 挖掘研究和应用的基础上,提出新的方法和思 路,进而弥补原有技术的不足,从而为w e b 挖掘和个性化推荐技术的研究提供新 的思路和方法。本文的研究工作旨在针对个性化信息服务技术中传统的用户兴趣 模型建模存在的一些局限性,通过引入新的方法来解决实际问题,提高原技术的 用户兴趣表达准确度和表达能力。 1 3 论文的主要内容以及组织结构 本文的组织结构如下: 1 ) 第一章绪论:介绍了本课题的研究背景和研究意义,以及全文的主要内 容和组织结构。 2 ) 第二章用户兴趣挖掘与个性化推荐技术分析:介绍了数据挖掘,w e b 挖 掘,关联规则和聚类等概念和技术,定位了本研究所处的研究领域。 3 ) 第三章基于关键词附属关系的用户兴趣模型建模:详细介绍了引入关键 2 产 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 词附属关系模型建模方法的目的和意义,关键词( 节点) 和附属关系( 节 点间连线) 的权重计算方法及模型的构建方法示意。 4 ) 第四章系统原型实现:详细介绍了用户网页浏览兴趣挖掘的系统原型实 现,包括系统原型架构,分层和各层所包含的模块。 5 ) 第五章实验及结论:介绍了实验数据来源,实验环境及实验结果,并对 实验结果进行评估分析。 6 ) 第六章总结和展望:对本文进行总结并提出对未来工作的展望。 本文的主要研究内容基于已有的用户兴趣模型建模过程,在向量空间模型的 基础上,针对该模型的不足进行分析,引入了基于关键词附属关系的用户兴趣模 型建模方法来强调关键词之间的语义联系,并通过开发用户网页浏览兴趣挖掘系 统原型,根据实验结果证明该方法的研究价值。 本文的主要内容和研究工作如下: 1 ) 综述 本文综述了用户网页浏览兴趣模型建模方法所处的领域数据挖掘 ( w e b 挖掘) 相关的概念及技术,包括数据挖掘,w e b 挖掘,关联规则,聚类 技术,个性化推荐技术,向量空间模型等概念;a p r i o r i 算法和k 均值聚类方 法等相关的技术。 2 ) 理论工作 。 本文针对现有个性化服务技术中的用户兴趣模型建模过程中传统技术 所存在的一些问题,指出向量空间模型存在的一些局限性,引入新的方法来 改进模型,提出基于关键词附属关系的用户兴趣模型,该模型通过以关键词 为顶点,以词间关系为连线建立的图结构来表征关键词之间的语义联系。并 且给出了关键词( 节点) 和附属关系( 节点间连线) 权重的计算思想和计算 方法( 通过数学计算公式给出) 。本文还通过一个例子给出了关键词附属关 系模型的建模过程。 3 ) 开发工作 本文基于所做的理论工作,开发了用户网页浏览兴趣挖掘系统的系统原 型。系统原型由用户界面层( 表现层) ,数据采集层,数据预处理层和逻辑 层( 分析功能) 四层组成,各层主要由数据预处理模块,a p r i o r i 模块,v s m 建模模块,k 均值聚类模块和附属关系建模模块以及i e m o n i t o r 插件等构 成。系统采用c + + 语言进行开发。 4 ) 实验工作 本文通过采集1 0 个志愿者用户的网页浏览记录,进行了历时6 0 天的用 户兴趣模型评价实验,通过对实验数据的分析,证明了该研究的有效性。 3 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 1 4 本章小结 本章主要介绍了本课题的研究背景和研究意义,并且概括介绍了论文的 主要内容以及组织结构。 4 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 第二章用户兴趣挖掘与个性化推荐技术分析 2 1 数据挖掘 简单地说,数据挖掘( d a t am i n i n g ) 是指从大量数据中提取或“挖掘 知识。 该术语实际上有点用词不当。注意,从沙子或矿石中挖掘黄金被称为黄金挖掘, 而不是砂石挖掘。因此,数据挖掘应当更正确地被命名为“从数据中挖掘知识 , 遗憾的是这个词有点长。“知识挖掘 是一个较短的术语,但不能反映是从大量 的数据中进行挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加 工的材料中发现少量宝贵金块这一过程的特点。这样,“数据挖掘成了流行术 语。还有一些术语具有和数据挖掘类似但稍微有所不同的含义,如从数据中挖掘 知识、知识提取、数据考古、数据捕捞和数据模式分析腩1 。 更广义的一种说法是:数据挖掘哺1 意味着在一些事实或观察数据集合中寻找 模式的决策支持过程。数据挖掘的对象不仅是数据库,也可以是文件系统,或其 他任何组织在一起的数据集合,例如,本文的挖掘对象可以是万维网信息资源。 从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和知识发现技术 ( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 有着很大的重合度h 1 ,大部分学者认 为数据挖掘和知识发现是等价的概念,在人工智能领域习惯称k d d ,而数据挖掘 领域习惯称数据挖掘。有学者把k d d 看作知识发现的完整过程,而数据挖掘只是 这个过程中的一部分。这里,我们倾向于前一种观点,即认为数据挖掘从理论和 技术上继承了知识发现领域的成果,同时又有着其独特的内涵,数据挖掘更侧重 于设计高效的算法以实现从巨量的数据中发现知识的目的。与数据挖掘关系密切 的研究领域包括机器学习( m a c h i n el e a r n i n g ) 和统计( s t a t i s t i c s ) 。特别是机 器学习,被认为和数据挖掘有着最为密切的关系。二者的主要区别在于数据挖掘 的任务是发现可以理解的知识,而机器学习关心的是提高系统的性能,因此训练 神经网络来控制系统是一种机器学习的过程,但不是数据挖掘,数据挖掘的对象 是大型数据库,一般来说机器学习处理的数据集要小,因此效率问题对数据挖掘 问题来说是至关重要的。 2 2 数据挖掘的对象 数据挖掘的传统对象主要为数据仓库和关系数据库,这是典型的结构化数 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 据。随着数据挖掘技术的发展,数据挖掘对象也逐步扩展到半结构化或非结构化 数据,这主要是文本数据、视频与图像数据以及w e b 数据等陋1 。 1 ) 关系数据库 目前,已建立的数据库都是关系数据库,数据仓库的数据存储仍然是关系数 据库。数据挖掘方法也主要是研究数据库中属性间的关系,挖掘出多个属性取值 间的规则。由于关系数据库的特点,促成了数据挖掘方法的改善。数据库的特性 包括动态、不完全、数据噪声、冗余、稀疏和海量特性,现具体介绍如下: 数据的动态特性 数据的动态特性是数据库的一个主要特点。由于数据库的修改和存取,使得 数据的内容经常会发生变化,这就要求数据挖掘的方法能够适应这种变化。渐增 式数据挖掘方法就是针对数据内容变化后,挖掘的规则知识能够满足变化后的数 据库内容。 数据的不完全特性 该特性主要反映在数据库中记录的域值丢失或者不存在( 即空值) 。这种不 完全的数据给数据挖掘带来了困难。为此,必须对数据进行预处理,填补该数据 域丢失的可能值。 数据噪声特性 由于数据录入等原因,造成错误的数据,即是数据噪声。挖掘含噪声的数据 会影响数据获取模式的准确性,并且增加数据挖掘的困难程度。 在数据挖掘中要考虑并且去除数据噪声的影响。 数据的冗余特性 这表现在同一信息在多处重复出现。函数依赖是一种通常的冗余形式。冗余 信息有可能造成错误的数据挖掘结果,至少有些挖掘的知识是用户不感兴趣的。 为了避免这种情况的发生,在数据挖掘时,需要知道数据库中有哪些固有的依赖 关系。 数据的稀疏特性 这表现在多维数据空间中存在着大量的稀疏数据,稀疏数据会使数据挖掘丢 失有用的模式。 海量数据特性 数据仓库中的数据在不断增长,已出现很多海量数据仓库。数据挖掘的方法 需要逐步适应这种海量数据和迅速增长的数据挖掘,如快速查询方法和建立有效 的索引机制等。 2 ) 文本 文本是被表示成文字串形式的数据。文本分析包括:关键词或特征提取;相 6 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 似检索;文本分类和文本聚类等。 关键词或特征提取 在一篇文本中,标题是该篇文本内容的高度概括。标题中的关键词是该标题 的核心内容。关键词的提取对于掌握该文本的内容至关重要。 文本中的特征,如人名、组织机构名、地名等是某些文本中的主体信息,特 征提取对掌握该文本的主要内容很重要。 相似检索 文本中的关键词检索是了解文本内容的一种重要方法。例如“人工智能”与 “专家系统 两个关键词之间是有一定的联系的。研究专家系统的文本一定属于 人工智能的研究领域。 文本分类 将文本分类到各个文本类中,一般需要采用某一算法。这类算法包括近邻算 法、分类器算法等。这一过程需要按文本中的关键词或特征的相似度来进行区分。 文本聚类 对文本标题中的关键词( 主题字) 进行相似匹配是对文本聚类的一种简单方 法。定义关键词的相似度将便利文本的简单聚类,使类中的文本均满足关键词的 相似度阈值,使类间文本的关键词一定超过相似度阈值。 3 ) 视频与图像数据 图像与视频数据是典型多媒体数据。数据以点阵信息及帧形式存储,数据量 很大。视频与图像的数据挖掘包括视频与图像特征提取、基于内容的相似检索、 视频镜头的组织与编辑等。 基于内容的相似检索 根据视频、图像特征的比例、分布等进行基于内容的相似检索,可以将视频 和图像数据进行聚类以及分类,也能完成对视频或新图像的识别,如对视频或遥 感图像的识别。这种应用非常广泛,例如森林火灾的发现与报警,河流水灾的预 报等等。 视频与图像的特征提取 视频与图像的数据特征包括颜色、形状和纹理等。这些特征提取用于基于内 容的相似检索。海滩黄色、海水蓝色、房屋的颜色及形状,需要从大量的视频和 图像数据中提取。 视频镜头的组织与编辑 镜头代表一段连续的动作( 视频数据流) 。典型的镜头编辑,如足球赛中的 射门,某段新闻节目等,通常需要在冗长的视频数据流中进行自动裁取。 经过编辑的镜头,按照某种需要重新组织,将形成特定需求的新视频节目, 7 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 如足球的射门集锦、某个新闻事件的连续报道等等。 4 ) w e b 数据 随着互联网的发展和普及,网站数目的高速增长以及上网人员的急剧增多, 使得网络数量呈指数增长。w e b 数据挖掘已经成为新的课题和热点。w e b 数据挖掘 的具体特点我们将在下一节中进行更加详细地介绍。 2 3w e b 挖掘 万维网是一个巨大的、全球性的、分布广泛的信息服务中心,涉及新闻、广 告、消费者信息、教育、金融管理、电子商务、政府和许多其他信息服务。w e b 还包含了丰富和动态的超链接信息,以及w e b 页面的使用和访问信息,这些都为 数据挖掘提供了丰富的资源。然而,基于w e b 挖掘以下的特点,w e b 对有效的资 源和知识发现也提出了巨大的挑战哺1 。 1 ) 对有效的数据仓库和数据挖掘,w e b 似乎太庞大了。 w e b 的数据量以兆兆字节计算,并且仍在迅速增长。许多机构和社团把各自 的、面向公众的信息置于w e b 上。几乎不可能构造一个数据仓库来复制、集成或 存储w e b 上的所有数据( 有一些工作在致力于存储或集成w e b 上的所有数据。例 如,在h t t p :w w w a r c h i v e o r g 上访问巨大的因特网档案) 。 2 ) w e b 页面的复杂性远比任何传统的文本文档大。 w e b 页面缺乏统一的结构,它包含了远比任何一组书籍或其他文本文档多的 内容和风格。w e b 可以被看作是一个巨大的数字图书馆;然而,这个图书馆中巨 大数量的文档并不是根据任何特定的分类次序来组织的。既没有分类索引,也没 有按标题、作者、目录、扉页等组织的索引。在这样的一个图书馆中搜索需要的 信息是极具挑战性的。 3 ) w e b 面对广泛形形色色的用户群。 目前,因特网上连接上亿台工作站,且其用户群仍在快速的膨胀。各个用户 可以有不同的背景、使用目的和兴趣。大部分用户并不了解信息网络的结构,不 清楚特定搜索的高昂代价。他们极容易在“黑暗”的网络中迷失方向,或在“跳 跃式”访问和不耐烦地等待某一段特定信息的过程中变得烦躁起来。 4 ) w e b 是一个高度动态的信息源。 w e b 不仅以极快的速度增长,而且w e b 上的信息还在不断地更新。w e b 上的 新闻、股市、天气、购物、公司广告、体育和大量其他w e b 页面都在定期更新。 访问记录和链接信息也处在频繁的更新当中。 5 ) w e b 上的信息只有很小的一部分是相关的或是有用的。 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 据说9 9 的w e b 信息对于9 9 的w e b 用户来说是无用的。虽然这看起来并不 是很明显的,但一个人只是关心w e b 上很小一部分信息的确是事实。w e b 所包含 的其余信息对用户来说是不感兴趣的,而且可能淹没希望得到的搜索结果。 正是w e b 挖掘所带来的这些挑战推动了有效地发现和利用因特网资源的研 究工作。 w e b 挖掘的过程即是将数据挖掘的技术应用于w e b 上,从大量类型丰富的w e b 数据中挖掘隐含知识的过程田1 。 2 4w e b 挖掘分类 根据w e b 挖掘对象的类型不同,w e b 挖掘可分为三类:w e b 内容挖掘、 w e b 结构挖掘和w e b 使用挖掘。 图2 - 1w e b 挖掘分类 f i g 2 - 1w e bm i n i n gc l a s s i f i c a t i o n 1 ) w e b 使用挖掘 w e b 使用挖掘又称为w e b 日志挖掘,即通过探索和分析w e b 日志记录中的规律, 来发现用户访问w e b 页面的模式,w e b 挖掘可以识别网站用户的喜好、忠实度、满 意度等,并可以挖掘潜在用户,增强站点的服务竞争力以及改进w e b 服务器的系 统性能等。w e b ) j 艮务器通常对w e b 页面的每次访问登记日志项( w e bl o g ) 进行挖掘。 它包括所请求的u r l ,发出请求的i p 地址以及时间戳。除w e b 服务器日志外,w e b 使用挖掘的对象还包括代理服务器日志、用户注册信息、浏览器端使用日志、用 户会话和交易信息、用户查询、c o o k i e 中的信息、鼠标点击行为等所有用户与站 点之间可能发生的交互记录。热点的w e b 站点登记的w e b 日志记录多达每天数百兆 9 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 字节。可见w e b l o g 数据库提供了有关w e b 动态的丰富信息。 2 ) w e b 结构挖掘 w e b 结构挖掘主要的挖掘对象为w e b 页面文档内部结构以及文档间的组织结 构。该思想始于引文分析,即通过分析网页的链接以及被链接的对象和数量来建 立w e b 自身链接的结构模式。网站的w e b 文档页面之间通过超链接形成结构连接, 通过w e b 结构挖掘可以发现页面内容以外的结构信息,如平行、隶属、引用和被 引用关系等文档间的联系。 3 ) w e b 内容挖掘 、 w e b 内容挖掘的主要挖掘对象为视频,音频,文本文档,图像等各种类型的 非结构化数据以及h t m l 文本等半结构化数据。w e b 内容挖掘即为通过对这些w e b 上大量的文档集合数据进行预处理、分类、聚类、关联分析等操作,从w e b 文档 内容或其描述中抽取用户可理解的、有价值的信息和知识的过程。在当今庞大的 互联网中,w e b 文本为信息传递的主要方式,h t t p 数据流已经占到了互联网数 据总流量的4 6 n 们,加之文本处理技术相对比较成熟,因此基于w e b 文本数据的 w e b 内容挖掘在研究和应用上都比较普遍。w e b 内容挖掘主要应用于个性化信息 服务系统中。在如何构建个性化的用户模型方面大量采用了w e b 内容挖掘技术。 本文所研究的用户网页浏览兴趣模型的建模方法即将w e b 内容挖掘作为研究重 点。 2 5 个性化推荐技术 个性化推荐的本质是特殊、定制和针对。即为不同的用户提供不同内容的服 务。个性化推荐是互联网技术的一个发展趋势。如果说过去的十年是搜索技术大 行其道的十年,那么个性化推荐技术必将成为未来十年中最重要的技术革新之一 1 l 】 o 一个优秀的个性化推荐系统必须能够满足以下要求。 1 ) 能够提供基于用户兴趣爱好的高质量推荐内容 2 ) 用户兴趣爱好的收集需在对用户带来尽可能少的影响的前提下进行 3 ) 能够根据用户兴趣的变迁动态自适应的进行推荐内容和推荐行为的调整 1 2 儿1 3 】 个性化推荐并不是一个现在才有的概念。古语中所说的“因材施教 既是根 据学生的兴趣、性格、能力等具体情况而采用不同的教学方式,传授其不同的教 学内容,实质上这就是一个个性化推荐的过程。“个性”一词来源于拉丁语 p e r s o n a ,其原意是指希腊罗马时代的戏剧演员在舞台上戴的假面具,它代表剧 1 0 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 中人的身份n 4 1 。随着社会的发展,“个性一一词被赋予了新的含义,即更多地用 于形容个人与他人不同的特性。 关于个性化推荐服务不少专家都提出了自己的观点,综合现有的观点,可以 看出个性化推荐服务具有以下特点: 1 ) 针对性:个性化推荐服务的本质就是以用户为中心,所有的推荐服务必 须以满足用户需求、方便用户使用为前提。通过研究用户的行为、兴趣、习惯和 爱好等来自动组织信息内容和调整推荐模式,以便为用户提供更具针对性的信息 推荐服务。 2 ) 主动性:个性化推荐服务必须能够主动分析出不同用户的个性化信息需 求,并将用户所需要的信息及时推送给用户。这种“信息找人 的主动服务模式 与传统“人找信息 的被动服务模式截然不同。 3 ) 可定制性:个性化推荐服务允许用户充分表达个性化需求,创造适应个 人知识结构、信息需求和心理倾向的信息活动环境,从而进行量身定制的信息推 荐服务。 4 ) 智能性:个性化推荐服务中采用了推理反馈、机器学习和数据挖掘等人 工智能技术,能够通过跟踪用户的兴趣偏好和使用模式,理解用户的兴趣爱好领 域,不断挖掘用户潜在的兴趣特征,实现信息的智能推荐和智能过滤,从而显著 提高信息推荐服务的质量。 个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m sf o re c o m m e r c e ) 最早应用于电子商务领域,其正式的定义是由r e s n i c k & v a r i a n 于1 9 9 7 年给出 的“它是利用电子商务网站给客户提供商品的信息和建议,帮助用户决定应该 购买什么产品,模拟销售人员帮助客户完成购买的过程川1 5 1 。现在这个定义己被 广泛引用。目前,个性化推荐系统己被广泛应用到各个行业中,推荐的对象包括 书籍、网页、音像、新闻、文章等。 个性化推荐的研究方向和内容主要包括:推荐技术研究、实时性研究、推荐 质量研究、多种数据多种技术的集成、数据挖掘技术在推荐系统中的应用、用户 隐私保护研究和推荐系统可视化研究等。 个性化推荐技术可分为基于内容推荐,协同过滤推荐,基于效用推荐,基于 知识推荐和基于关联规则推荐等几种。其中基于内容的推荐在个性化推荐技术发 展的过程中得到了广泛的应用【1 6 】【1 7 】。基于内容的推荐具有如下优点:如单一定 制用户数据,不存在冷开始问题;可为特殊兴趣爱好用户提供非流行的推荐内容; 以及推荐结果直观,容易理解,不需要领域知识等。当然基于内容的推荐技术也 面临着一定的挑战,即要求所有内容能够抽取成有意义的特征,且要求特征项之 间具有良好的结构性,并且用户的喜好必须能够用表达能力强的用户兴趣模型来 一 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 表达。本文即将研究重点放在这一方面。 2 6 关联规则与a p r lo ri 算法 2 6 1 关联规则 关联规则挖掘n 印是数据挖掘中最为活跃的研究方法之一。最早是由a g r a w a l 等人于1 9 9 3 年提出n 引,其目的是为了发现交易数据库中不同商品间的联系规则, 这些规则刻画了商品销售过程中顾客的购买行为模式,可用来指导商家科学地安 排进货、库存以及货架设计等。关联规则挖掘可以发现存在于数据库中的数据之 间预先未知的和被隐藏的关系,可以辅助人们进行市场运作( m a r k e t i n g ) 、商业 管理( b u s i n e s sm a n a g e m e n t ) 、决策支持( d e c i s i o ns u p p o r t ) 和网站设计( w e b s i t ed e s i g n ) 等。 北京邮电大学硕士学位论文用户网页浏览兴趣模型建模方法的研究 指定最小置信度,有若s u p p o r t ( x j y ) m i n s u p p o r t 且c o n f i d e n c e ( x j y ) m i n c o n f i d e n c e ,称关联规则x j y 为强关联规则,否则称关联规则x y 为弱 关联规则。 定理2 1 定义若s u p p o r t ( x ) m i n s u p p o r t ,则称x 为频集,否则称x 为非频集。则有: ( 1 ) x c _ y js u p p o r t ( x ) s u p p o r t ( y ) 。 ( 2 ) x c _ y j 如果x 是非频集,则y 也是非频集。 ( 3 ) x y j 如果y 是频集,则x 也是频集。 2 6 2a p rio ri 算法 a p r i o r i 算法是r a g r a w a l 和r s r i k a n t 于1 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论