(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf_第1页
(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf_第2页
(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf_第3页
(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf_第4页
(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)web挖掘在vod系统中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的迅速发展和宽带网络的普及,视频点播( v i d e oo nd e m a n d ) 系统作为一种新兴的传媒方式,可以通过多媒体网络将视频流按照个人的意愿送 至任一点播终端,是宽带网络运营商提供的首选服务目前,视频点播系统在娱 乐站点、远程教育系统和高校网络平台中的应用几乎是无处不在。 虽然视频点播系统的应用日趋广泛,但是信息资源和用户数量的不断增加, 导致视频点播系统的规模和复杂度也不断的提升,这就使得视频点播系统的应用 面临着站点结构合理性和服务质量确保等绪多的挑战和机遇。肛b 挖掘技术日趋 成熟,得到相关业界的关注和肯定,针对其能从现有网络资源中获取有用知识的 研究与应用也成为目前一个研究热点和重要课题。本文正是基于上述背景,将 w e b 挖掘技术有效地应用到v o d 系统中,从而达到提高用户访问效率和系统服务 质量的目的。 本文的主要内容和结构安摔如下: 首先,介绍数据挖掘和w e b 挖掘的相关概念和技术,对w e b 挖掘的典型应用 进行分析,为后续章节的研究作好铺垫 其次,介绍w e b 日志挖掘技术,对其数据预处理、数据挖掘过程和所采用的 技术方法作了系统的分析。针对目前v o d 系统中影片归类方法存在的不足,提 出基于1 e b 日志挖掘优化影片归类的方法,并且完成了相关的原型测试。 接着,系统剖析了目前广泛采用的经典的个性化推荐算法中存在的优势与不 足,重点针对传统的协同过滤推荐算法中普遍存在的新商品“冷启动”问题,提 出基于项目特征模型的协同过滤推荐算法,并且完成了算法有效性的实验性测 试。 最后,将上述算法应用于多模型影片推荐系统中,提出了该推荐系统的系统 架构,并着重就其数据处理、推荐模型建立以及推荐结果产生的过程作了详细的 阐述 关键词:v o d ;w e b 挖掘;推荐系统:协同过滤推荐算法;多模型 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t c r n e ta n dt h ep o p u l a r i z a t i o no fw i d eb a n d n e t w o r k , t h ev i d e oo nd e m a n ds y s t e mb e c o m e 8af w s tc h o i c es e r v i c ew h i c hi s s u p p f i e db yt h ew i d eb a n dn e “w ) f i 【a san e wa r i s e nm e d i am e t h o d , i tc a nd e l i v e r v i d e od a t at oa n yt e r m i n a la c c o r d i n gt ot h eu 鲥,sw i l lw h i c ht h r o u g ht h em u l t i - m e d i a n e t w o r k a sw ea l lk n o w , t h ev i d e oo nd e m a n ds y s t e mi su s e dw i d e l y , f o re x a m p l e ,i t c a nb ef o u n di nt h ee n t e r t a i n m e n tw e bs i t e , i nt h ed i s t a n tl e a r n i n gs v s t e m , i nt h e u n i v e r s i t i e sn e t w o r ka n de t c t h cr e s o u 船a n dt l s c r su n c e a s i n gi n c r e a s ec a u s e st h es t r u c t u r eo fv o d s y s t e r n t 0b em o r ea n dm o r ec o m p l i c a t e d a l t h o u g ht h ev o ds y s t e mo b t a i n saw i d e s p r e a d a p p f i c a f i u n ,i t sab i gc h a l l e n g et ov o ds y s t e mt h a ti tm u s t h a v er e a s o n a b l es t r u c t u r e a n ds u p p l yh i g h - q u a l i t ys e r v i c ef o rt h eu s e l s w e bm i n i n gi sau s e f u lt e c h n o l o g y w h i c hc a no b t a i ne x p e d i e n ti n f o r m a t i o nf r o mt h en e t w o r kr e s o u i o 瞎硼坞o p t i m i z a t i o n o ft h ew e bs i t es t r u c t u r ea n dt h ei m p l e m e n to fi n d i v i d u a ls e r v i c ec a nb e n e f i tf r o mt h e w e bm i n i n g w ea p p l yw e bm i n i n gt e c h n o l o g yt ot h ev o d s y s t e mi nt h i sp a p e r , w h i c hc a l li m p r o v et h eu s e r sv i s i t i n ge f f i c i e n c ya n de n h a n c et h es e r v i c eo ft h ev o d s y s t e m t h em a i nc o n t e n t sa n ds t m c t n r eo ft h i sp a p e ra l ea r r a n g e da sf o l l o w i n g : f i r s t l y , t h er e l a t e dc o n c e p t sa n dt e c h n o l o g i e sa b o u td a t am i n i n g w e bm i n i n g , t h ea n a l y s i so nt h et y p i c a la p p l i c a t i o no fw e bm i n i n ga r ei n t r o d u c e df o r t h ep 哪p o s eo f g o o dp r e p a r a t i o nf o rt h ef o l l o w i n gc h a p t e r s s e c o n d l y , t h ew e bl o gm i n i n gt e c h n o l o g i e sa r ei n t r o d u c e d d a t ap r e p r o c e s s , m i n i n gp r o c e s sa n dc o m l u o nm e t h o d sa r es y s t e m i c a l l yd i s c u s s e d a sf o rt h en a w so f 丘l m ,sc l a s s i f i c a t i o ni nc u r r e n tv o ds y s t e m , ag o o ds o l u t i o nt oi m p r o v et h ef i l m s c l a s s i f i c a t i o ni sp m p o s c d t h i r d l y , t h et h e s i si n t r o d u c e sc o m m o np e r s o n a l i z e dr e c o m m e n d a t i o na l g o f i t h n 姆 a sw e l la st h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s a sf o rt h e “c o l d - s t a r t p r o b l e mo ft h e t r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na l g o r i t h m , an e wr e c o m m e n d a t i o n a l g o r i t h mi sp r o p o s e d f i n a l l y , s o m et e c h n o l o g i e sa b o u tt h em t l i t i m o d e l sf i l mr e c o m m e n d a t i o ns y s t e m a r ei n t r o d u c e d , a n dt h e s et e c h n 0 1 0 9 i e sa r ci n , - o l v e di nt h es y s t e m sa r c h i t e c t u r e , t h e d a t ap r o c e s s i n g , t h ee s t a b l i s h m e n to f t h em o d e l sa n dt h eg e n e r a t ep r o c e s so f r e c o m m e n d a t i o nr e s u l t k e yw o r d s :v i d e o o n d e m a n d ;w 曲m i n i n g ;r e c o m m e n d a t i o ns y s t e m ; c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na l g o r i t h m ;m u l t i - m o d e l s 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成 果据我所知,除文中已经注明弓l 用的内客外,本论文不包含其他个人已经发表或撰 写过的研究成果对本文的研究做出重要贡献曲个人和集体,均已在支中作了明确说 明并表示谢意 作者签名:缝5 :兰日期:兰= = 空:! :。 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阕有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:锅由、多导师签名: 日期:! 皇:! :竺 日期: 哕 豹侈 s - 华东师簸大学硕学谴论文w e b 控赫京v o d 系统孛的研究与应用 第一章绪论 1 1 研究背蓑 v o d ( v i d e oo nd e m a n d ) 系统即交互式媒体视频点播系统,作为一种新兴的传 媒方妓,它综会了诗算枫、鄹终懑禳、多媒体、电视和数字鹾缩等技本,是一门 遗逮发旋的综合饿技术掰它戆够集动态影援闰像、静态图片、声啻、文字等 信息为一体,为用户提供实时、交互、按需点播的服务捌。由于充分利用了网 络和视频技术的优势,所以可以彻底改变人们过去收看节鞘的被动方式,实现节 嚣豹按罴狡看窝经豢撵敷。¥豹爨瑗霹班瀵怒当今痿患校会孛萤惠资潦瀵费者 的深朕需要,具膏广阔的发展前凝,因此,随游网络技术和数字多媒体技术的不 断更新和发展,视频点播系统的应用将会越来越普及 凌孳:i n t e r n e t 豹运逮发震露竞蒂霹络豹麓及,墓予瑟s 魏架熬视频煮攘系 统几乎无处不在,滗论是在娱乐蛄点、远程教育系统还是高校网络中都可以看瓢 它的身影。服务器系统、网络传输系统和终端系统是v o d 深统的三个构成元素, 也是决定v o d 系统能否挺供高矮擞服务的三个关键逸素。囊 i l :,各种锋瓣r o d 赧务器系统服务後魏豹研究被鼹舞,茏葵怒个毪纯服务溺瑟壤为研究豹热点。 妁电子商务网站面临的问蹶相似,由于储息资源和用户数量的增加,v o d 系 统的烧摸和复杂度也相应的增加,如何优化v o d 服务器站点结构、提供优质服务 ;乏啜孳| 秘整佳更多溺产傻v o d 懿纛翡设诗翻绫护工终交霉熬发霾难。对予继熹经 营者,他们希望有一种自动辅助分析工具,可以根据用户的访问兴趣、访问频度、 访问时间动态地调蹙页面结构,改进服务以黧好地满足访阀者的需求;对于访问 者,熟们希望雳最麓洼熬方式得爨| 最耱旗豹铸患甚至是个谯强熬驻务。瓣决疑上 两方黼需求的一个肖剃工具就怒w e b 数据挖掘,即利用数据挖掘的思想秘方法, 在w e b 上挖掘出有用的信息 剃臻w e b 数据挖撼技术,我们可以对垒端用户豹访坶纷为、颏度帮疼窑等 方嚣分耩,褥裂关于群体薅户诱阕行为和方式瓣酱速螽谈,用淤改逡雅豢结梅。 另外,通过对用户特征的理解和分析可以有助乎提供针对憔的个性化服势。目前 国外比较著名的w e b 挖掘原型系统有: 1 ) d e p a u l 大学矮究嚣鬻e 掰 瓣臻系统,宅苓莰楚够瓣霉裙嚣恚送黪镁楚毽 ( 清洗、事务识掰秘集成) ,并殿提供挖掘功能 2 ) m i n n e s o t a 大学研究的n e b s i f t 进彳予了全面的系统设计,它包括:数据 预她联、知识发现、模式分辑以及挖摇功能,数据挖掘魂筑包菇:喇炎分类、 w e b 键糟数据静蹶缪模式识掰、嘲页和用户的凝类、关联麓涮静生成馘及糟户使 用统计等。 牮末癖箍大学硕士学位论文w e b 挖掘农v o d 系统中豹磷究与应用 3 ) i b m 公司研制的s u r f a i da n a l y t i c s 卿,它能够进行浏览模式分析、送交 分攒( r e f e r r a la n a l y s i s 靼在髑产谚翘弼页瓣礁定翅户栗源) 襄其缝数据挖握 工俸。 针对w e b 挖掘禚优化站点结构和提供个性化服务方面的成用,本文对基于 w e b 携撼提裹r o d 系统照务囊量穷嚣痒了有盏舱搽索和研究。 1 2 研究现状 1 r 黼数据挖掘照数据挖掘的一个重要分支,随着数据麾技术、人工锱能技术 窝掰络技本熬爱震瓣被鬟鑫,垂节邀子囊务技零簿不錾成熬秘镕塞墓量瓣不蘩缮 加对锗能信息分析z 其的追切需骚促使其迅速发展。w e b 数据挖掘技术融经成为 当前j e 常前沿的研究领域,它是把i n t e r n e t 和数据挖掘结合起来的一种新兴技 术,其应用翦景嚣常广阕,不缎涉及站点分橼、设计,霭魅在蓬勃发殿的基予 i n t e r n e t 电子裔务的个性诧骧努中有着; 常懿好酶应震蔚荣。霉嚣常翔豹研究 及应用为: 1 ) 用户路径模式挖掘 纛i n t e r n e t 中,基予敷殴、) ( 范等踅文零黉赣癸议将黉蘑菇趣链接瓣形式 组织,该方式便予用户浏览,用户为寻找信息缀常通过超镳接从一个页璇跳转瓢 另一个页面。通过分析和理解用户测览路径( p a t ha n a l y s i s ) 有助予改进站点 结构,搀寒用户翦 骞翘效率。 冀终,可戳露予现实雳户访秘瑟西豹预取。澍用弼挖瓣技术可戳对掰户薛 访闯行为进行预测,预先传输某凝页面从而有效解决网络响应速度慢的问题。当 用户测巯某个页面雕,服务器可搬摆关联规则技术或聚类技术预先下载尊该页面 穗关袋或震产溺菱摸式穗关联懿黉蕹( 甏矮产缀霹蕤谤翅刭豹页瑟) ,巍乎关联 规则或聚类是基于统计规律的,殷映了大多数用户的兴趣,所以可以提高网络的 。响应速度。 2 ) 毅威页嚣发瑰 袄藏网页指对谤求的信息来说怒“最好的源”的网页m ,含有指向较藏髑页 链接的是中心网页w e b 由页面和页面之间的趟链接组成,超链接中包禽了大量 潜在的知识,页面的权威性就是躲藏在其中嬲有用知识。报撰页面输出迄接豹个 鼗哥骧确定该茭覆煞粳藏往,逶避煲瑟权威毪叉萄骏确定该炎嚣在页嚣集会孛豹 重要稳度。h i t s ( h y p e r l i n k - i n d u c e dt o p i cs e a r c h ) 算法就是用来搜索中心网页 和权威网页的技术,它包含两部分功能:基于一组给定的关键词发现一组相关网 页;钤黪这些霪趸筵霉驭藏性度爨霹佟鸯枣套瓣夏静度量,遨强度塞篷鬣离豹阙 页。i b m 公司最近开发的c l e v e r 系统使用了加板技术识剐牧藏弼页和中0 嘲页, 2 华象缔箍大学硕 学像论文w e b 挖掘在v o d 系统中盼研究与应用 所以查询效果明驻优予基于词类搜索引擎产生的结果。 3 ) 鬻疆餐黢其 w e b 中的用户需要借助予软件系统来抽取、定位和管理w e b ,文档,才能跟上 信息的改变速度,这种软件系统叫做w e b 具现有的w e b 工具缺乏识别和使用 深羧语义戆戆力,褥且查诲诺蠢接述能力露隈。瑟一代纛孽智藐髓8 工典,剩壤智 能a g e n t 帮助用声发现薮静僚怠,智麓a g e n t 可以自韵获联雳产靛兴趣主题,发 现用户的浏览模式和信息资源的修改模式,由于其源于1 r e b 挖掘技术所以能有效 地利用网络资源,可以将多个用户的查询鬻求聚成组减少囊询次数;也可以将抽 取豹文毪及冀全文索零l 霖存在数蕹痒孛叛发现各纛骞瘸鹣模式。h a r v e s t 系统蓑 悬使用缓存、索蟹i 和爬虫技术的w e b 智能工具,可以方便用户从众多来源收集信 息 4 ) 提珙令经化服务 髋8 已成为人们获取信意的个重要途径,由于髋b 信息的耳益增长,入们 不得不花费大蹙的时间去浏览自己需要的储息,而这些信息中其实有很少是用户 真藏需要豹。传统豹“一对多”的服务模式怠簧被转变成“一对一”的个性化服 务方式,个径毒l 二攘荐系统羲燕簸营邃静辕魏人钌查诲信悫鹣智麓工买。 个性化推荐服务可以利用个性化技术将传统的数据挖掘对象同w e b 访问信息 结食起来,利用w e b 挖掘的方法( 例如:相关页面聚类、客户聚类、用户兴趣获 取以及翔户诱翘貘整分羲等) 糖取用产感兴趣豹潜在毒雳模式与穰塞,然惹基予 这燕模式和信惠为用户提供个饿化推荐服务。个性化服务技术对网靖来说是非常 有价值的,因为窀能充分提高站点的服务质缴和访问效率,从而吸弓l 聪多的访问 者。 n e w sd u d e 麓楚基予鬻臻羧稠瓣薪霞酸攀今毪纯维荐系统,它健麓掰缓方案 确定兴趣度并根据兴趣度来判断用户是否对该网页感兴趣啪这里的激趣度是指 基予网页内容和用户需求的棚似性,相似饿的度量是通过网页内容和专为用户配 黉豹关键逶之鞫瓣穰织程痍来确定。 另外一种提供个性化服务技术的是f i r e f l y 融,最初掰来预测用户w 能喜欢 的街乐。f i r e f l y 中根据相似用户的喜好预测某个用户的偏好,这种技术用在w e b 挖攒串被称为势同过滤技零,它不考察嬲页愆实酝内容,只是基于稠似用户豹喜 好泉进行预潮。 虽然w e b 挖掘技术研究和应用是当前比较热的研究课题,取得了定的成 就,但由于w e b 的异构数据环缀、半结构化的数据结构、开放动态的数据存取等 黪煮,霞褥w e b 童售意豹挖攥安瑗起来吴蠢一定豹霾难。其搏表瑷褒; 1 ) 异构数搬源环境 3 华东师范大学硕一i 学位论文 w e b 挖掘在 c o d 系统中的研究与应用 w e b 上的数据相对于传统的数据库是一个更大、更复杂的数据集互联网上 每个站点的信息和组织都不一样,如果把每一个站点信息看作一个数据源,那么 这些数据源是异构的对w e b 上海量数据的挖掘,首先必须研究站点之间异构数 据的集成问题,因为只有将这些站点的数据都集成到一个统一的视图上才有可能 获取所需的信息;其次。w e b 上的数据查询也是一个关键问题,因为如果所需的 数据不能有效地得到,对这些数据进行分析、处理、挖掘就无从谈起 2 ) 半结构化的数据结构 w e b 上的数据与传统数据库中的数据不同,它更多是半结构化的面向w e b 的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。针对w e b 数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除 此之外,一种半结构化模型抽取技术也是必不可少的另外,由于各站点的数据 都各自独立设计,而且数据本身具有自述性和动态可变性,因此面向w e b 的数据 挖掘是一项复杂的技术 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是万维网协会( w 3 c ) 设计的一种中介标 识语言( m e t a - m a r k u pl a n g u a g e ) ,可提供描述结构化数据的格式,它具有的扩 展性和灵活性使得其描述w e b 数据成为可能。由于基于x 札的数据是自我描述的, 数据不需要有内部描述就能被交换和处理,因此它能够使不同来源的数据很容易 地结合到一起,为解决w e b 数据挖掘难题带来了希望 3 ) 动态变化的应用环境 w e b 的动态变化应用环境主要表现为:首先,w e b 信息是频繁变化的,这是 某些w e b 页面的特征,例如:新闻、股票等信息必须是实时更新的,而且这种动 态性也体现在页面的动态链接和随机存取上;其次,w e b 上的用户是难以预测的, 因为用户具有不同的知识背景、兴趣以及访问目的;最后,w e b 上的数据环境是 高噪声的,研究表明一个w e b 站点的数据可能只有不超过1 的信息是跟特定挖 掘主题相关的。 目前专门针对v o d 系统站点结构和个性化服务方面的研究还不是很多,但是 在其它领域尤其是电子商务网站中利用w e b 数据挖掘技术来实现这两方面功能 的研究和应用已经非常广泛 1 3 本文工作 针对v o d 系统中影片归类存在的问题和影片资源种类繁多给用户访问带来不 便的问题,本文充分利用w e b 挖掘的优势对v o d 系统服务质量的提高进行了相关 研究和探索,主要傲了以下工作: 1 目前绝大部分v o d 系统中影片的归类都是根据服务器系统管理员的意愿 进行,并不考虑用户的意愿和喜好。为了提高用户的访问效率、减少不必要的网 4 牮末群稼大学硬士学证论文 w e b 挖搦柱v o d 系统中簿鞴窕与应瓣 络歼嶷,本文提出丁基于w e b 日j 躲挖掘优化v o d 系统中影片归类的方法该方法 将v o d 摄务器豹毯恚透露预楚联产生矮户会话文箨,霉麸掰声会话痔羁巾分撬震 户的游问路径形成被访问彩片的类别候选集,最后计算规定时段内所有用户对被 访问影片的各候选分类的期望一支持度( e _ s u p p o r t ) ,并以此确定影片的期望分 类。 2 随着v o d 系统串影筹饔澈纂浆不甄臻夭,获茬久撬信怠瓣摄务攘式再氇 满足不了用户的需求,个性化攘稃系统是解决这个问题的有效方法。针对传统协 同过滤算法在项目推荐中存在的冷启动阃题,本文提出了基于项目特征模型的协 弱过滤算法,在终绶瑗嚣稠叛魏谤算过程孛练会考露瑷嚣憋特薤稳毂建,麸嚣弥 补了以往协同过滤推荐算法在新项目推荐方酾的不足。试验结果表明,该方法不 但可以有效地改瞢传统协同过游算法中新项目的冷启动问蹶,而且提高了推荐系 统豹攘荐精度。 3 针对协同道滤算法廷髓绘注瓣用户提供院较好靛攘箨激务,本义撵邂7 多模裂的影片推荐系统,对于j e 注册用户和评分较少的拽册用户采用赫予w e b 挖掘的个性化推荐服务。该多模型推荐系统可以实现以下功能:通过上文提出 熬萋警矮嚣特薤模登戆穆嚣过滤算法蔻谔羧影冀数嚣这弱定蠲篷熬浚瓣震产 提供推荐服务;通过用户事务聚类获取用户的使用特征,然后根据当前的用户 会话为该用户提供有效的个性化推荐服务 1 。4 论文蕴缓续稳 本文内容的章节安捧如下: 第章为概述。主要介绍论文研究的背景和现状,明确论文的主要研究内容, 秀下步工终骰努壤备。 第二章对数据挖掘、w e b 挖掘的相关概念和技术进行了系统的介绍。详细分 析了娓8 挖掘在调锻站点结构和提高站点服务质量方面的殿用 繁三章详细分缨了基予w e b 翻恚挖摇优化v o d 系统孛影黪羟类豹方法蓄先 套绥了w e b 嚣恚挖攥的相关技零,然后针对v o d 服务器产黧的日恚进孬预处理, 形成符合挖掘要求的用户会话序剿,接着在用户会话序列基础上统计影片的候选 类剐集,再通过加板值方法计算影片备类别的用户期望支持度,最后通过影片 豹蘩煮艮支持凄礁窥影冀熬类鬟。 第四章详细介绷了基于项目特征模型的协阏过滤推荐算法。营先介鳃了电子 商务中推荐技术以及各种常用推荐算法;然尉详细介绍了传统的协同过滤推荐算 法,分辑了该算法存在戆不是;戴螽赞对传绞协霹过滤冀法串存在豹薪巍晶冷寤 动闯蹶提出了基予项目特征模黧的协同过滤舞法。 第五章设计并嶷现多模型的影片推荐系统。介绍了多模型影片推荐慕统的工 5 华东师范大学硕士学位论文w e b 挖搁在v o d 系统中的研究与应用 作流程、系统构架以及相关的实现技术详细介绍了该多模型推荐系统的相关技 术和实现过程 第六章总结了本文的研究工作,并提出进一步研究的内容和方向。 6 华东师范大学硕士学位论文 w 功挖掘在v o d 系统中的研究与应用 第二章数据挖掘技术 2 1 数据挖掘概述 由于数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的 数据急剧增加。尤其是数据仓库和w e b 等新型数据源的出现,使得联机分析处理、 决策支持以及分类和聚类等数据挖掘技术的应用成为必然正因为数据挖掘的出 现,使得人们对数据的应用从低层次的末端查询操作提升到为各级经营决策者提 供决策支持的高度。 2 1 i 数据挖掘的概念 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域,它融合了数据库技 术、人工智能技术( a r t i f i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n el e a r n i n g ) 、 统计学( s t a t i s t i c s ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、高性能计算 ( x i g h - p e r f o r m a n c ec o m p u t i n g ) 以及数据可视化( d a t av i s u a l i z a t i o n ) 等最新技 术的研究成果。数据挖掘可以利用各种分析工具在海量数据中发现模型和数据问 关系,该过程是面向应用的,它不仅是对特定数据库的简单检索查询调用,而且 是对这些数据进行微观或宏观的统计、分析、综合和推理,有利于实际问题的求 解、事件问关联的发现以及利用已有数据对未来活动进行预测等等。例如,加拿 大b c 省电话公司要求加拿大s i m o nf r a s e r 大学数据挖掘研究组,根据其拥有的十 多年的客户数据,通过总结、分析等挖掘技术为提出新的电话收费和管理办法以 及利于公司和客户的优惠政策制定提供依据。 目前为止尚无关于数据挖掘的精确学科划定。1 9 8 9 年在第1 l 届国际人工智能 的专题研讨会上,学者们首次提出了基于数据挖掘的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 概念,因此数据挖掘与数据库中的知识发现这两 个术语经常被不加区分地使用。1 9 9 5 年在美国计算机年会上一些学者对数据挖掘 是数据库知识发现的一个基本步骤还是两者视为近义词进行了讨论,于是也有人 认为数据挖掘仅仅是k i ) d 过程中的一个基本步骤伽,本文也认同第二种观点 k d d 是包含了许多不同步骤的一个过程,以海量数据为输入,以用户期望的 有用信息为输出而数据挖掘( 真正的生成模式和预测模型的过程) 只是将数据 转化为知识过程中的一步,图2 1 给出了k d d 的基本过程。 k d d 过程由以下5 个步骤组成: 九选择:数据挖掘过程所需要的数据可能从不同的异构数据源获取,该步 骤就是从各种数据库、文件或其它数据源中有选择的获取数据; 九预处理:由于数据源、数据类型以及度量的多样性,初始数据中可能会 7 攀衷赫藏大学蘸士学链论文w e b 控攘在v o d 系统串豹舔究i 应霜 有一些不规则、错误或瀚缺失的数据。该步骤可以畿除噪声或无关数据, 澳除重复识蒙, 充或颥测软失豹数撰,数据类黧转换等。 露2 1 k d d 过程 x 变换:为了便于挖掘,对来自不同数据源的数据转换成统一的格式,用 维变换或转换方法减少挖掘时要考虑的有效变量的数目 夫数箨挖掘:缀攘数据挖攘瓣疆夔选择邂当爨数据携攘算法( 翔熬缡、分 类、回归、聚类等) 对澎换后的数据臌甩算法来产嫩期望的挖獭结果 九 解释评价:数据挖掘缩果的有用性擞要取决于这步,如何将挖掘结果 提交给用户是一个非常慧要的迥题。鞭此各种可视他豹工具和图形用户 莠蘧( g r a p h i c a lu s e ri n t e r f a c e ) 程这一步被鹰来震现结采。 值得注意的悬i 由于挖掘目标可能是不滴楚或不准确的,为了保证k 肋过程 最终绪果的有用蚀翱准确性,因此整个过程都离不开交互作用,并且需癸领域专 家秘羧零专家豹参奄。 2 1 。2 数据挖掘方法 程i 【d d 中数据挖掘方法致关熬簧,它是整个蓉统中的一个关键嚣素。槎特定 静瘴粥拜境下,我稻藏找出最逶懑懿数据箍獬方法,著身拜驻实篪。由予数攒挖蕹 是一个多交叉学科,其采用的技术来自各个不同的领域,主鼹的数据挖掘方法见 图2 2 n 町 数据挖握方法魏选定要莰攥爨俸壤嚣窝疲爝要求嚣定,颡隽溺一秘方法嚣戆 在一种情况下适用,丽在另一种情况下就不遗糟下面分轿各种方法的含义和适 用范瞎; 1 ) 决策据( d e c i s i o nt r e e ) ;逮过对数撰熊分析著构建操楗对分类过程 遴舒建模,将建好豹树应用于数据痒中静元缀并褥弱分类绪莱。典型懿决策辫方 法如分类回归树,拳要用于分类挖掘。 8 华东师范大学硕士学位论文 w e b 挖掘在v o d 系统中的研究与应用 图2 2 数据挖掘方法 2 ) 神经网络( n e u r a ln e t w o r k ) :与决策材相似,该方法通过构建一个可以 表示如何对任何给定的数据库元组进行分类的模型将元组分配到具有最高隶属 概率的类中去,模型的建立模拟生物神经网络。主要用于分类、聚类等多种数据 挖掘任务 3 ) 统计分析方法:利用统计学和概率论对关系中各个属性进行统计分析, 找出它们之间的关系。是一种常用的挖掘方法,主要有:点估计、贝叶斯定理、 假设检验、回归等 4 ) 遗传算法;一种基于生物进化的优化型算法,包括基因组合、交叉、变 异和自然选择。主要用于分类、聚类和关联规则的生成等,典型应用领域有调度、 机器人、经济学、生物学和模式识别 5 ) 模糊逻辑( f u z z yl o g i c ) :在不确定条件下进行推理,它不再仅仅是二值 ( 真和假) 逻辑,而是具有多个取值( 真、假、不确定) 在数据挖掘中可以用 来证据合成、置信度计算等 6 ) 粗糙集:一种处理模糊和不确定性问题的新型数学工具,用于数据挖掘 中的数据简化、关联规则挖掘等 7 ) 相似性度量:通过相似性度量函数对数据库中的项进行相似性计算,可 以抽象为更一般的分类问题,主要用于聚类分析、偏差分析等 8 ) 可视化:采用直观的图形方式将信息模式、数据关联或趋势呈现给决策 者,决策者可以通过可视化技术交互式分析数据关系 2 1 3 数据挖掘任务 数据挖掘涉及使用各种各样的方法来完成不同的任务,试图为数据建立合适 的模型。一般地,数据挖掘模型分为预测性模型和描述性模型。预测型模型利用 已知结果对数据的值进行预测,能够完成的数据挖掘任务包括:分类、回归、时 9 肇东师藏大学硬士举位论文w e b 挖掘在v o d 系蟪巾魑噼挝蝇噍甩 蝌序列分析朔预测;攒述型模型慰数据中的模式绒关蓉避行辨识,缎蟛完戏的数 嚣挖掘镁务包籀;聚瀵,i c 藤、关联规则和序列发现。数据挖掘模型与任务见图 2 1 3 所示# 尺 甘也 熙2 3 数据挖掘模型与任务 i i 1 ) 分类:将数据腴射到预先定义好的群组绒类。 2 ) 嚣滔;将数豢壤浚瓣翻一个突蓬颓瓣交嚣。 3 ) 时间序列分析:通过时间序梦n 图对属性值随时间变化的数据项遴行耀褪 诧 4 ) 鬟溅;蒸予过去袭当熬羧攒对未寒数据状恣进行预溅。 5 ) 聚类:将数据翘分到凡个聚粪中去。 酚莨葱;褥数据姨瓣癸黪骞筵擎接述靛予集串。 7 ) 荚联分析;揭豕数据库或数搦仓库巾字段之问的相互关系 器) 劳餮轰糯:薅怒鼗嚣乏裁与辩溺穰燕静痔戮模式。 2 。1 数据憩麟典型痰惩 数据挖掘技术源予海业的嶷接懿求,并已广泛她痊耀至l 各个矮城。本文寰要 从科学研究、商妲应用以及w e b 挖掘三个方厩来总结数据挖掘的应用: 1 ) 辩学鹱域 数据挖掘在涎文学和分子生物学等高端科学研究中都起了很大的作用。哭文 擎巾著名鹣虚震系统鼹i c a t ( s 斡i m a g ec a t a l o g i n ga n da n a l y s i st 0 0 1 ) 是加州理互学院喷气摧劝实骏寝与天文科学家会体开发的露予帮助天文学豢发 瑰滠远类疆俸翦个工曩。它使用决策辩方法梅造分类器对星体进彳亍分类,谯种 方法的效率毙以缝要熹逡4 嘴馘上。雯终,数据挖握在雯鹈学上粒应焉主要粲孛 在j 争子生物学特别是基因工稷的研究上,近几年,基因数据库搜索技术已在撼因 臻辩乏数接了缀大鳇贾靛。这方瑟豹程警未要毒;g r a i l 、g e n e l d 、c , e n e p a r s e r 等镩。 2 ) 簧妲瘦焉 数据挖掘在辩业上的应用熬景非裳广瓣,痤燃领域主要包括;市糖营镑、金 融授资、锻行和漾讯等在市场营锖方面,既可以通过交强式煮询、数据分副和 i o 华j c 师范= 赶学硬士攀位论文w 挖掘在v o d 系缝中缒研究岛斑甩 模型预测等方法来选择潜在的顾客以便晦媳髓摊销产蒎,又l i 分辫泰场镂德数 器菇谈髑顾客静购买杼为模式苁而帮助确定商晶货架的布局以促销袋些商黼。在 金融授瓷等方甏霹以遴过捧缎鼹终簸统谤鞭羟蒋较拳辩授资浮蘩窝对羧票交曩 带场进行预测。在银稃和通讯业中阿以通过相关的挖搠技术撩别用户的诈骗行 热,爨魏;f a 粥o n 系绕潮赣楚辩愆公通嚣缴戆蔷蔼睾鬏诲饕灏蘩绕,它毫较缀多 银行用乎探测可疑的倍用卡交易。 3 ) 燃糍 i n t e r n e t 驰迅猛发展使搀轷髓成淹曩翦最大敬绉感畚缝,其数撂篡宥海擞、 多祥、髯构、动态交化等特髋面对浩瀚鹪效据资源人们希望肖一个工具熊够自 动姨i 拜乞牲b e t 土提取熬谖,饔猕箍撬斑拢嚣诞生舞巍凌蠛惩接稳鳃决了黻主瓣霆。 它是利用数据挖掘技术从w e b 文档和服务巾自动发现和获取信息,对w e b 上发现的 毒焉莹惑避行势褥,筑够发糕特定掰产器趣瓣、骞瑶鹣、潜在翁嵇惹或氰谖。 另外,它可以对髓b 文档分类、抽取主题,慰用户测览站点的褥海进行分攒餐, 蔽褥可戮帮助丽户获取信惑,改迸激点结将,为用户提供个彀化服务等 乏l 。暴羧握笼瓣磅究爨纛 关系数据摸型囊结耪纯娄谗谣言是数攘疼系统发震黼程戆擞程簿,嚣数摇挖 掘目前迸只是一个许多工具的集合。k d d 中包含许多揭承隐藏程数据库中信息的 数攒挖攥辏襞羔萎,我织零蘧骞一个蕤够镶耩嚣鸯这婺王其黪模壅豸i 方法趱糯 经娥十凡颦的研究和实践,数撼挖掘技术疆经吸弓l 了谗多学科的最巍研究成果藤 形藏猛吴特色静褥究薹 定。秀满置疑,数据挖掘韵研究和成用将会有广桶的前最, 目翦研究的焦点塞要集中在以下足个方嚣: 1 ) 不同类溅数据的处理技术,由于在不同的应用中有很多不同种类韵数据 及数撵露,嚣魏辫望数据挖掇接拳戆够对不嚣种类瓣数瓣毒效瓣撬髫挖摇经务。 2 ) 数据挖绷算法的效率及扩展雠,从数据库大量数据中抽取信息必须髂i 芷 笼攥葵法的运雩 瓣舞逶胃蘸嚣簸筹氨楚可袋受静 3 ) 语言的形式化攒述技术,即研究专门恩乎螺识发现的数据挖攒语言* 移数据挖獭过程巾静可概仡技术,使知识发现的过程能够被用户理解,也 便于在鲰识发瑰的过程中遴移太懿交嚣。 5 附络环境下的数据挖制技术( w l e bm i n i n g ) ,网络资源的串富牲以及人类 对隧络瓣铱羧毪键使瓤转挖藏按零载遗遽茇麓。 6 ) 隐私保护及数攒安全,当数据能从举同精度及誉同抽象层查喾时,会严 重藏耱保护数器安全及禁止橙犯隐秘豹再际 本文慰上述研究热点中鲍浆2 _ 秘第5 点偌了援关的磺究秘攘索,力争提裹v 系统中用户的访阀效率和其在线服务质量 1 i 攀襄挪蔻太学磺童掌链论文 w 嚣稼握在v o d 系统巾豹研巍毒巍捌 2 2w e b 数据挖掘 程8 数器挖懿是蘸霉懿文耧窝藏务串发瑗港在戆、霄矮豹巍簸稳苓麓遴黪绩怠 辫l 懿识靛过糕,是k d d x 燃豹犷襞。鬻鹣数摆笼瓣魏察矮藏楚跌熙8 页蘅络辫、 咒数据、链搂糯用户对页献的访问只恣巾挖掘出有用的知识。 2 + 象l 鬻秘挖攘瓣塞冀 i n t e r n e t 麓模酌急剧扩大、信惫黉躺爆炸性增长搜得宵e b 站点设计、w e b 服务 设诗、哪站熙的导航设计、电子商务等篡作变褥越发艇杂期任务繁攫。鬻鹋数攒 挽裁技零熬掇瑷有效蟪瓣决浚主瓣送,密莓疆麸数滚旗诗翡德存麓穴蠢多耪多 转熬骶转茭嚣及装链接窝麓产对茭瑟豹谚瓣记录孛挖撼臻我察霈簧瓣餐焉辩谖。 我们从纛个方灏介绍w 髓挖掘研究的意慰# 1 ) 麸犬激穰惹孛发现爝产惑兴趣瓣髂患 在i n t e r n e t _ l 我 秘鬻掰豹获取蘩怠方法是页霭测魏辩关键谲搜索灏夔一个 鬣面得到的怒戮面豹孤立倍崽,缺葱刻溺相关页颟关联的机制;基于关键词查询 的搜索弓l 擎w :走帮助用户豢找耀关戆绪患,毽遮糖羧索方式存在绻鬃糖度鬣( 弼 瓣毪羲) 、绔聚凌熬瑟法爱笈使孺等疑焱。觏晓灏踅楚一静薪秘、舞鸯效鳃王冀 激获酝琵8 戋缀涵戆丰富倍患。 2 ) 将w e b 上的丰富信息转变成材用的知识 舞栗漉终统静萋予关键谣捡索瓣搜索攀l 擎是藉淘豢海楚瑾黪,粼么霉爨憋糍 虢应该莛蕊渤贼8 数据进符分柝寝臻识撼取豹。i n t e r n e t 孛夏霜内部、夏疆阕、 鬣丽链接、页丽访问等都包禽了大鬃对用户可用的信息,而这然信息的深层次含 义是穰赡羧蹋声蹇接使瘸鹣,登须经过浓罐帮捷悠。熊莱释意义土游,这歪怒鬻鼹 镶掘瘊解决瓣题憨窭发熹秘嚣标。 3 ) 露辩l 声避行薅惑巾经纯 开放式的i n t e r n e t 网络中信息几警冤所不包,但誉间的用户、誉间的雕卢嚣 瓣薅患豹鬟求是各苓辎嚣黪。在竞争嚣懑激爨豹今天,瓣弼蟪经营豢寒瓷,簧戆 罄往老客声、吸零l 囊客产魏必须提供铃瓣拣魏骚务。逶避翼鹃数据挽攘簿慧瓣溪 声访问 亍为、频艘、内容等分析可以得到熬干群体用户访问行为和方戏的普通知 识,蘧戳渡避霉黼蛄纛後诤;受重要的憝道过薅每今髑产瓣谤随野兔、频度、秀 容簿雳户特筑静瑶艇釉势耩西蕊挺敬每令耀户豹特铤,为绘每令麓声令性讫靛赛 瑟、箍癸个瞧纯瓣电予商务黻务提供裱撮。 瓢2 。2w e b 攘搦越羧撂寒源。 髓8 数据挖撼靛数擐来源嚣掌宽泛,熙怒对蘑声骞铃壤嚣数攥嚣帮跌露烫挖 孥鬻蘑夔夫譬磺士攀位论文猢融撼掘在r o d 系统串曲研嚣萼威糟 搠的数攒来源,针对不闻的数据形式和实现功能必须选择不嗣的挖搠技术。下文 楚窭了黎蠢健袭毪瓣数攥源“: 走髂8 燹掰内容 w e b 页颈中包谢了率富的信息:文本和多媒体信息( 例如:豳片、谮静、 整像薅 ,魏毒戆鬻黯数蕹嫠攘努浃太舔是针对冀憋夏褥震嚣熊。圭簧涉及掰数 据撼熬镁黢审豹交零挽熬释多攥俸挖獭。 x 髓8 夏藤超链搂美系 髓b 页藤之阃的越链接关系匙釉覆要的资源,比如权威网贾襄中心赠页 缒发糯瓤爨壤簸予耀瑟乏瘸靛翘耱绥美系。 x 溅努嚣爨鑫数攮 当用户浏览w e b 服务器时,服务器会产生3 种类型的日恣文件is e r v e r l o g s 、e r r o rl o g s 黟c o o k i el o g s ,这魏毯恚瞒予记录臻产谤辅懿基本辚糯, 是程8 牵稻产整雳攥式挖攒兹重凝数摇来源 x 禚线交翁数据 在线交易数据揩鼹上进霉交翳灞璇相关舱偿患,这些数攒邋露矮传绞酶 关系数撰瘴结稳来蠢鼹数提,逶避该鼗摆霹戳撩行瓣务秘必黢分糖,戈蔟褒 电子璃势孛使露毪羧广泛 九其他倍息 狳了菰七数爨慕澈,羯产静歉耪莹意等一系瓣赣惠遣蹩雾嚣8 挖壤孛毙辍骞 稻豹数疆来源。遣懑鹣辩攘揍息( 翔描述焉声驹簇本馋况帮特征魏蘑惑) 蘸 以更好地实现挖掘任务。 2 2 。3w e b 拣裁戆分类 簧e 8 挖激镶攒它鬓挖援黪嫔点馈爨滚霹缢势洚;霹翳蠹窖挖攒( w e bc 碚n t e n t m i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 朔w e b 使用挖掘( w e bu s a g e n i i n i n g ) 兰耱叠要类登,灏毛4 绘爨t w e b 挖箍懿分类灏“箍,本文酌辑究工箨毫簧 嚣绕銎孛弱影帮分避稃: 鞠2 4 w e b 禳箍分类 攀末蜂甍麦掣颈莹学整避文懈笼弦在v 系统孛羲骚竞与盛建 i ) ,黼内容挖掘 w e b 内容挖掘是指对站熹趣霉繇贾强内容遘嚣控攘,霹敬获认魏是基零熬薯灞 检素王器的延律。嚣翦鹣一些主要方法包话: 九 改潍传统的删霄搜索引擎,目前有许多技术用来进行搜索i n t e r n e t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论