(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf_第1页
(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf_第2页
(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf_第3页
(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf_第4页
(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机科学与技术专业论文)彩铃专项分析系统铃音推荐模块的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

彩铃专项分析系统铃音推荐模块的设计与实现 摘要 彩铃业务是移动运营商的一项重要增值业务。当前由于彩铃用户 普及率趋向饱和,用户活跃性降低,运营商为吸引用户使用和更新彩 铃,经常开展各项彩铃营销活动向用户推荐铃音,但由于传统营销缺 乏针对性,推荐的成功率不甚理想。 基于关联规则进行商品推荐是目前应用最为广泛的推荐模式,目 前在彩铃推荐方面应用的多是根据单维度的“铃音辛铃音 的关联规 则进行相应的关联推荐。这样的推荐模式在应用过程中具有一些不 足,例如对新上线铃音的推荐力度不足、对重点铃音的推荐力度不足 等。 彩铃专项分析系统中的铃音推荐模块有效地解决了以上问题。铃 音推荐模块主要由e t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) 子模块、关联 规则子模块、推荐权重调整子模块及推荐子模块组成。铃音推荐模块 采用了多维关联规则进行推荐,变“铃音辛铃音 的关联规则为“分 类辛分类的关联规则,有效解决了对新上线铃音的推荐力度不足的 问题。另外,本模块在推荐时充分参考了铃音的“推荐权重 。通过 系统自动或用户手动调整推荐权重,重点铃音的推荐强度能够得到加 强,故有效解决了对重点铃音的推荐力度不足的问题。 铃音推荐模块支持基于铃音进行铃音推荐、基于用户进行铃音推 荐、基于铃音进行用户推荐等推荐模式。在具体推荐应用时,支持离 线和在线两种应用方式。其中离线方式可以生成用于群发的推荐清 单,提供给营销执行平台( 如短信平台) ;在线方式提供w e bs e r v i c e s 供彩铃平台调用,用于开展在线的实时推荐。 铃音推荐模块所采用的推荐模式不仅适用于彩铃推荐,也适用于 无线音乐、多媒体回铃音等相关产品推荐,在其它产品的推荐方面也 具有一定参考价值。 本文首先在第一章介绍了相关背景,包括彩铃业务及发展现状简 介、e t l 过程简介、关联规则数据挖掘理论简介、w e bs e r v i c e s 核心 技术简介、彩铃专项分析系统简介等;在第二章中,对于铃音推荐模 块进行了概述,主要内容是模块需求分析以及模块总体设计说明;在 第三章中,对e t l 子模块进行了介绍,e t l 子模块负责保证从数据 源定时同步数据,并将数据转换为系统所需格式,是后续数据挖掘的 基础;在第四章中,对于关联规则子模块进行了介绍,关联规则子模 块的主要功能是基于彩铃定制立方体,挖掘出有效的彩铃定制多维关 联规则;在第五章中,首先提出了推荐权重的概念,然后对于推荐权 重调整子模块进行了介绍,推荐权重调整子模块的主要功能是通过系 统自动或用户手动的方式,设定铃音的推荐权重;在第六章中,对于 推荐子模块进行了介绍,推荐子模块的主要功能是基于多维关联规则 和推荐权重,实现多种方式的铃音推荐,如基于铃音进行铃音推荐、 基于用户进行铃音推荐、基于铃音进行用户推荐等,并提供对离线与 在线两种推荐方式的支持。 关键词:多维关联规则彩铃精细化营销数据立方体推荐e t l d e s i g na n di m p l e m e n l 陷l t i o n o fc o l o rr i n gr e c o m m e n d a t l 0 nm o d u l e 0 f c r b tp r o f e s s i o n a la n a l y s i ss y s t e m a b s t r a c t c o l o r - r i n g - b a c k t o n e ( c r n t ) s e r v i c eh a sb e c o m eo n eo ft h em o s t i m p o r t a n tv a l u e a d ds e r v i c e so ft e l e c o m m u n i c a t i o no p e r a t o r s b u tt h e u s e rn u m b e ro fc r b ti sm e e t i n gt h el i m i t ,a n dt h ea c t i v i 田o fu s e r si s d e c r e a s i n g i no r d e rt oa t t r a c tt h eu s e r st oo r d e rc o l o rr i n g sm o r e f r e q u e n t l y , + t e l e c o m m u n i c a t i o no p e r a t o r s o f t e ns t a r t s c a m p a i g n s t o r e c o m m e n ds o m ec o l o rr i n g st ot h eu s e r s b u tt h et r a d i t i o n a lc a m p a i g n s a r eo fl e s sp r e c i s i o n ,s ot h er e s u l t sa r eo f t e nn o ts u c c e s s f u l i t i st h em o s tp o p u l a rr e c o m m e n d a t i o nm e t h o dt or e c o m m e n d p r o d u c t sb a s e do na s s o c i a t i o nr u l e s b u tm o s to ft h e s er e c o m m e n d a t i o n s a r eb a s e do nt h es i n g l e d i m e n s i o n a la s s o c i a t i o nr u l e s t h i sm e t h o dh a s s o m e l i m i t a t i o n s ,f o re x a m p l e ,i tc o u l dn o te m p h a s i z eo nt h e n e w l y 。o n m er m g sa n ds o m es p e c i a ln n g s t h ec o l o r r i n g r e c o m m e n d a t i o nm o d u l eo f c p a s ( c r b t p r o f e s s i o n a la n a l y s i ss y s t e m ) s o l v e st h e s ep r o b l e m se f f e c t i v e l y t h e m o d u l ec o n s i s t so fe t l ( e x t r a c t ,t r a n s f o r ma n dl o a d ) s u b m o d u l e , a s s o c i a t i o nr u l es u b - m o d u l e ,r e c o m m e n d a t i o nw e i g h ta d i u s ts u b m o d u l e a n dr e c o m m e n d a t i o ns u b m o d u l e t h em o d u l ea d o p t sm u l t i d i m e n s i o n a l a s s o c i a t i o nr u l e a l g o r i t h m t o s u p p o r t t h er e c o m m e n d a t i o no f n e w l y - o n l i n e r i n g s i nt h e p r o c e s s o fr e c o m m e n d a t i o n ,t h e r e c o m m e n d a t i o nw e i g h to ft h er i n g ,w h i c hi sd e c i d e db ya l g o r i t h m sa n d c a nb em o d i f i e db ys y s t e mu s e r , i sa ni m p o r t a n tp a r a m e t e ni nt h i sw a y , t h es p e c i a lr i n g sw h i c hn e e dt ob ep r o m o t e dc o u l db ee m p h a s i z e dd u r i n g t h er e c o m m e n d a t i o n t h e r ea r e m a n yt y p e s o fr e c o m m e n d a t i o ni nt h em o d u l e f o r e x a m p l e ,t or e c o m m e n dr i n gb a s e do nr i n g ,t or e c o m m e n dr i n gb a s e do n u s e r , t or e c o m m e n du s e rb a s e do nr i n ga n de t c t h em o d u l ei sa b l et o s u p p o r to f f l i n er e c o m m e n d a t i o na n do n l i n er e c o m m e n d a t i o n i nt h e p r o c e s so f o f f l i n er e c o m m e n d a t i o n ,t h em o d u l eo f f e r st h e p r e c i s i o n m a r k e t i n gr e c o m m e n d a t i o nd a t at ot h eo t h e rp l a t f o r m ,e g s m s ( s h o r t m e s s a g es e r v i c e ) p l a t f o r m ,t oe x e c u t et h ec a m p a i g n i nt h ep r o c e s so f o n l i n er e c o m m e n d a t i o n ,c r b tp l a t f o r mc o u l dg e tr e c o m m e n d a t i o n sv i a w e bs e r v i c e so f f e r e db yt h em o d u l e t h er e c o m m e n d a t i o nm e t h o du s e db yt h em o d u l ei sf i tf o rn o to n l y c r b t , b u ta l s ow i r e l e s sm u s i ca n dm r b t ( m u l t i m e d i ar i n gb a c kt o n e ) i tc o u l db e h e l p f u li nt h er e c o m m e n d a t i o np r o c e s so fo t h e rp r o d u c t s 1 h ef i r s t c h a p t e ro f t h i sp a p e rs h o w ss o m eb a s i c k n o w l e d g e , i n c l u d i n gt h ec r b t s e r v i c ea n di t sd e v e l o p m e n t e t l , a s s o c i a t i o nr u l e t h e o r y , w r e bs e r v i c e sa n dc p a s t h es e c o n dc h a p t e ro ft h ep a p e rs h o w sa b r i e fi n t r o d u c t i o no f c o l o r r i n gr e c o m m e n d a t i o nm o d u l e i n c l u d i n g r e q u i r e m e n ta n a l y s i sa n db r i e fd e s i g nd e s c r i p t i o n n et h i r dc h a p t e ro ft h e p a p e ri n t r o d u c e se 1 1 ls u b m o d u l e t h ef u n c t i o n so ft h ee t ls u b m o d u l e a r et os y n c h r o n i z ed a t af r o md a t as o u r c e ,a n dt ot r a n s f o i i nt h ed a t at o m e e tt h en e e d s i ti st h eb a s i co ff o l l o w u pa n a l y s i s t h ef o r t hc h a p t e ro f t h ep a p e ri n t r o d u c e sa s s o c i a t i o nr u l es u b m o d u l e t h em a i nf u n c t i o no fi t i st om i n i n gm u l t i d i m e n s i o n a la s s o c i a t i o nr u l e so fc r b tf r o mt h ec o l o r r i n go r d e r d a t ac u b e 。乃ef i f t hc h a p t e ro ft h ep a p e ri n t r o d u c e st h ec o n c e p t o fr e c o m m e n d a t i o n w e i g h t ,a n d r e c o m m e n d a t i o n w e i g h ta d j u s t s u b m o d u l e t h em a i nf u n c t i o no fi ti st os e tt h er e c o m m e n d a t i o nw e i g h t o fe a c hc o l o rr i n g t h er e c o m m e n d a t i o nw e i g h tc a nb es e tb yn o to n l y a l g o r i t h m sb u ta l s os y s t e mu s e r t h es i x t hc h a p t e ro ft h ep a p e ri n t r o d u c e s r e c o m m e n d a t i o ns u b m o d u l e t h em a i nf u n c t i o no fi ti st o a p p l y r e c o m m e n d a t i o nb a s e do nm u l t i d i m e n s i o n a la s s o c i a t i o nr u l e sa n d r e c o m m e n d a t i o nw e i g h t t h e r ea r em a n yt y p e so fr e c o m m e n d a t i o n ,f o r e x a m p l e ,t or e c o m m e n dr i n gb a s e do nr i n g ,t or e c o m m e n dr i n gb a s e do n u s e r , t or e c o m m e n du s e rb a s e do nr i n g ,e t c t h es u b m o d u l ei sa b l et o s u p p o r to f f l i n er e c o m m e n d a t i o na n do n l i n er e c o m m e n d a t i o n k e yw o r d s :m u l t i d i m e n s i o n a la s s o c i a t i o nr u l e ,c r b t , p r e c i s i o n m a r k e t i n g ,d a t ac u b e ,r e c o m m e n d a t i o n ,e t l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 某人签名: 整至: 本人签名: 缝笠: 本人承担一切相关责任。 日期:挫皇! 三:丝一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 一某人签名:壁盘日期:! 兰兰! :i :! 兰本人签名:堡盘日期:! 兰兰! :i :! 兰 铆签名:陛丛 日期:卫丑l 生一 北京邮电大学硕士学位论文 彩铃专项分析系统铃音推荐模块的设计与实现 第一章概述 1 1 彩铃业务简介及发展现状 1 1 1 彩铃业务功能 彩铃业务是将主叫用户在呼叫过程中所听到的普通回铃音替换为丰富多彩 的音乐、音效铃声的电信增值业务【1 1 。经过几年的发展,彩铃业务受到了移动用 户的青睐,为运营商带来了很大的业务量。 彩铃业务功能概括起来可以分成基本功能和增强功能。 彩铃业务的基本功能主要是指被叫用户申请以后,系统根据被叫用户的设 置,根据不同的规则向主叫用户播放不同的回铃音。 彩铃业务的基本功能满足了大部分用户的基础需求,而更多的个性化需求推 动了彩铃增强功能的设计。彩铃业务增强功能是利用彩铃业务平台与用户、数据 库交互的能力以及其它系统支持( 如语音识别、文本转换等) ,为方便用户使用、 增强用户粘性和忠诚度、提升用户体验而开发的在原有彩铃基础上的新功能。典 型的彩铃增强功能有: 集团彩铃功能 面向集团用户,根据集团用户的要求向其提供与该集团相关的集团铃音,并 根据要求允许集团内每个申请了彩铃业务的用户将集团铃音设定为个人的个性 化铃音,或者在规定的时间内将集团铃音作为集团内用户该时段的默认铃音【羽。 铃音盒功能 将多个回铃音打包形成一个铃音盒,由服务提供商( s e r v i c ep r o v i d e r ,s p ) 定期对铃音盒中的铃音进行更新,用户可以按照一首铃音对铃音盒进行定购、设 置,并且可以计为一首铃音存在个人铃音库中。用户可选择对该铃音盒的铃音进 行随机播放或轮播。轮播即按一定规则轮换播放铃音盒中的铃音,该功能无需受 理,随着彩铃业务的生效默认开通【2 j 。 铃音复制功能 1 北京邮电大学硕士学位论文彩铃专项分析系统铃音推荐模块的设计与实现 当主叫用户希望获得被叫用户正在使用的铃音时,主叫用户可以通过设置, 使之成为自己的彩铃音。设置操作的途径可有多种,如w w w ( w o r l dw i d ew | e b ) 网站、w a p ( w i r e l e s sa p p l i c a t i o np r o t o c 0 1 ) 网站、拨打1 2 5 3 0 语音接入以及i v r ( i n t e r a c t i v ev o i c er e s p o n s e ) 单键复制等【2 1 。 赠送功能 当彩铃用户a 希望为移动用户b 订购彩铃业务或铃音且代为支付费用时, 用户a 可通过w w w 网站、w a p 网站和拨打1 2 5 3 0 语音接入等途径完成赠送功 能。赠送包括功能赠送和内容赠送。功能赠送指赠送彩铃功能,并由发起赠送的 用户为其支付一定时期内的功能费。内容赠送指赠送某首彩铃的使用权,并由发 起赠送的用户为其支付彩铃信息判2 】。 彩振功能 当主叫用户a 听到被叫用户b 的彩铃音,希望将该铃音设置为自己的手机 振铃音时,可以使用彩振功能,将该铃音下载到自己的手机上,从而完成该项操 作【3 】。 除了以上功能外,还有彩铃d i y 、彩铃随心贴、彩铃加加等丰富的增强功能 类型。 1 1 z 彩铃营销活动 针对彩铃基本功能和各项增强功能,运营商需要经常开展营销活动,以提升 用户活跃度。营销活动可按多种方式分类。 按开展时间 可分为多种类型,如春节、中秋等重大节日期间举行的节日型铃音促销,不 定期的新用户入网彩铃促销,以及在换季节时举行的具有季节特色铃音的优惠活 动。 按资费类型 如对经典的或最流行的铃音开展免费定制,或对已有铃音提供减价的定制, 还有和其它业务结合的捆绑资费方式。 按活动类型 比较常见的有参与抽奖式的营销,从每期参与的用户中抽取若干名,提供手 机或其它奖品,以刺激更多的用户产生订制操作。也可以通过降低资费的方式吸 2 北京邮电大学硕士学位论文彩铃专项分析系统铃音推荐模块的设计与实现 引用户参与活动。 按宣传渠道 如通过w w w 网站提供活动的宣传图片和链接,该类型受众广,但针对性 不强。还可以通过向特定用户发送营销短信,进行精细化营销。该类型受众较少, 但因为接收短信用户具有更强的消费潜力,因此往往响应率更高,产生的订制操 作也较高。 除了按以上方式分类外,还可以依据铃音提供商、铃音类型、地域、宣传目 标、受理渠道等各种属性进行不同的分类。 :i t 1 3 彩铃受理渠道 灵活多样的业务类型对受理渠道也提出了多样化的要求。 目前主要的业务受理渠道有1 2 5 3 0 语音接入、短信接入、w w w 网站、w a p 网站、u s s d ( u n s t r u c t u r e d s u p p l e m e n t a r ys e r v i c ed a t a ) 等用户自助服务方式, 以及营业厅等直接的受理方式。 1 1 4 彩铃发展现状 2 0 0 2 年3 月,韩国s k 电信公司最先推出了手机彩铃业务,并立即在韩国受 到了用户的欢迎和追棒。很快,韩国的另外两大电信运营商l g 电信与k i t 在 见到s k 电信公司在此新业务上获得如此之大的利润后,也陆续推出了自己的彩 铃业务。到了2 0 0 2 年年底,此业务在韩国的用户总量突破3 5 0 万,占该国手机 用户总人口数量的约1 2 。这对于一个发展不到1 0 个月的新业务来说,比例是 相当大的。说明了彩铃成为了电信行业增长最快的一项业务。 2 0 0 3 年,中国移动通信集团公司率先将彩铃业务在上海、广东、北京和浙 江四省市开展。同样,这项业务一经推出就赢得了广大用户的支持,中国移动公 司表示,在其新业务中,彩铃业务收益是增长最快的一部分,从2 0 0 4 年的8 4 8 亿元增长到2 0 0 5 年的3 4 2 亿元。2 0 0 5 年,彩铃下载次数超过3 0 0 0 万。自2 0 0 3 年该公司开展彩铃服务以来,这已成了全国性的成功业务。中国联通的利润增长 幅度更大。2 0 0 5 年末,其彩铃业务的使用者飙升至2 1 9 5 万人,而2 0 0 4 年末仅 为2 8 万人【4 j 。 在“2 0 0 7 年手机多媒体应用大会上,中国移动的管理者表示,中国移动 彩铃业务收入发展迅猛,。2 0 0 6 年增长到6 7 亿。中国移动在彩铃业务推出以后, 数字音乐市场呈现了很大的增长趋势。从2 0 0 5 年到2 0 0 6 年,彩铃业务收入翻一 番增长9 7 2 。中国移动推出的无线音乐的俱乐部,从2 0 0 6 年7 月到2 0 0 6 年 3 北京邮电大学硕士学位论文彩铃专项分析系统铃音推荐模块的殴计与实现 底,用户数就达到5 0 0 0 万。2 0 0 6 年彩铃订购次数超过4 7 亿次,2 0 0 6 年销量最 大的歌曲秋天不回来被订购1 7 0 0 万次。彩铃业务的发展趋势如表1 - 1 所示: 表1 - 1 彩铃业务的发展趋势 j 时阕, 2 0 0 3 ,2 0 0 42 0 0 52 0 0 62 0 0 7 彩铃用户数2 0 0 万3 4 0 0 万 6 8 9 5h9 2 3 0 一瓦1 2 亿 运营商收入 1 6 0 0 万元 8 4 8 亿元 3 4 2 亿元6 7 亿元8 0 亿元 可见,经过多年的发展,彩铃业务已经得到很好的普及。据多家机构预测, 彩铃业务仍将是一个持续增长的市场,到2 0 1 0 年,彩铃用户数将达1 6 亿【4 】。 1 1 5 彩铃业务发展遇到的问题 彩铃业务经过迅速增长期之后,进入相对平稳的发展阶段。随着彩铃用户群 的不断扩充,一些问题不断暴露出来【4 】: 首先,新用户增长趋势放缓,业务普及率己较高,市场趋向饱和。 其次,一些用户因为新鲜感降低,退订彩铃业务。另有一些用户因为移动业 务绑定,或活动营销时短期订制彩铃,之后未能培养成忠诚用户,而选择退订彩 铃业务。 再次,沉默用户增加。沉默用户是指已订制了彩铃业务,但长期内不更换彩 铃或使用默认铃音,而不下载彩铃的用户。该类用户除彩铃月租费用外,不产生 其它彩铃相关的消费,如不及时开发用户的彩铃消费潜力,该类用户还有转为退 订用户的可能。 1 2e t l 过程简介 数据获取的核心内容是从数据源中抽取数据,然后对这些数据进行筛选、加 工,最终加载到目标数据库或者数据仓库中去,这就是e t l ( e x t r a c t , t r a n s f o r m ,l o a d ) 过程。e t l 是支撑数据仓库系统正常运转的基本技术1 5 j 。 e t l 过程通过数据抽取、转换、装载,逐步实现数据的集成和重构,是数据 仓库实施的重要步骤。高效的e t l 过程需要合理的元数据。元数据是“关于数 据的数据”,如传统数据库的数据字典就是一种元数据。元数据的一致性和完备 性对e t l 过程的规则设计有着关键性影响,关联性较高的元数据能有效反映数 4 北京邮电大学硕b 学位论文 彩铃专项分析系统铃音推荐模块的设计与实现 据之间的逻辑,从而得到更有价值的目标数据【6 】。 e t l 的实施要求按照一定的规则对数据进行管理,包括源系统数据到数据仓 库的映射关系、e t l 程序结构信息、数据转换和清理规则等。e t l 规则的主要 内容除了描述源数据到仓库数据的数据处理过程信息外,还有抽取规则,主要的 规则有:抽取条件( 前置条件和数据条件) 、抽取周期( 日、月等) 、抽取时间和 抽取方法( 增量、全量) 等。 e t l 过程搭建起业务数据库和数据仓库之间的桥梁,为数据仓库持续地输入 具有高度一致性的最新业务数据,屏蔽了复杂的业务逻辑,为数据仓库的分析应 用提供了统一的数据接口。 1 3 关联规则数据挖掘理论简介 1 3 1 数据挖掘概述 随着人们认识和管理水平的提高,对客观世界的描述越来越全面,存储的数 据量也越来越大,然而,对数据库中数据的开发应用主要是检索查询,效率很低, 此外,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降 低。简单的数据查询或统计虽然可以满足某些低层次的需要,但人们更为需要的 是从大量数据资源中挖掘出对各类决策有指导意义的一般知识,这些知识是对大 量数据的高度概括和抽象。一方面,面对庞大的飞速增长的数据量,人们需要新 的处理工具,以便能自动化地把搜集的数据转化为有价值的信息和知识;另一方 面,剧增的数据中有可能隐藏着许多重要的信息,人们希望能够对已经占有的信 息进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统虽然可以 较好地实现数据的录入、查询和统计等功能,但尚不支持对海量数据背后重要信 息的挖掘,从而导致了“数据丰富,知识贫乏,1 7 】的现象。快速增长的海量数据 收集存放在若干大型数据库中,如果没有强有力的工具来帮助,其结果是重要的 决策不是基于数据库中丰富的信息,而是基于决策者的直觉。 为此,决策者迫切需要从海量数据库中提取有价值知识的工具,数据挖掘 ( d a t am i n i n g ,简称d m ) 技术正是为满足上述要求而产生的。它不但可以帮助 人们从数据库特别是数据仓库的相关数据中提取出所感兴趣的知识、规律或更高 层次的信息,而且也可以帮助人们从不同程度上去分析它们,从而可以更有效地 利用数据库或数据仓库中的数据;它不仅可以用于描述过去数据的发展过程,而 且还能进一步预测未来的发展趋势。因此,数据挖掘正成为一个新的、日益受到 5 北京邮电大学硕士学位论文彩铃专项分析系统铃音推荐模块的设计与实现 重视的热点研究领域。目前在国内外的许多高校和研究机构都在从事此领域的研 究工作,并产生了大量的研究成果。 数据挖掘是人们多年来对数据库技术进行大量研究和开发的成果,在2 0 世 纪8 0 年代末有了很大的发展。数据挖掘是指从数据库或数据仓库的大量数据中 揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程,这个定义是由 w j f r a w l e y 、g p i a t e t s k y s h a p i o r 等人提出的【剐。它作为知识发现过程中一个特定 的步骤,是一系列技术及其应用,或者说是对大容量数据及数据间关系进行考察 和建模的方法集。它的目标是将大容量数据转化为有用的知识和信息。目前,数 据挖掘技术已经在许多行业都得到应用并取得了一定的实效。 1 3 2 关联规则简介 1 3 2 1 概述 关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,它是在1 9 9 3 年 由a g r a w a l 等人首先提出的 9 1 ,是k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 研 究的重要内容。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发 现事务数据库中不同商品之间的联系规则。这些规则刻画了顾客购买行为模式, 可以用来指导商家科学地安排进货、库存以及货架设计等。以后诸多的研究人员 对关联规则的挖掘问题进行了大量的研究。关联规则是形式如下的一种规则,“在 购买面包和黄油的顾客中,同时有9 0 的人也买了牛奶 ,即“( 面包,黄油) ” 今牛奶问题。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。 他们的工作涉及到关联规则的挖掘理论的探索、原有算法的改进和新算法的设 计、并行关联规则挖掘以及数量关联规则挖掘等问题。在提高挖掘规则算法的效 率适应性、可用性以及应用推广方面,许多学者进行了不懈的努力。在迄今十几 年中,关联规则挖掘技术得到了较为深入的发展。 1 3 2 2 基本概念 设i = i 1 ,i 2 ,j m ,是m 个不同项目的集合。d 是所有事务的集合( 即事务数 据库) ,每个事务t 是一些项目的集合,t 包含在i 中,即t 生i ,并且每个事务 可以用唯一的标识符t i d 来标识。 【定义1 1 】设x 为i 中某些项目的集合,简称为项集( i t e m s e t ) ,如果x c - - t , 则称事务t 包含x 。 关联规则表示为:x 号y 的蕴涵式,这里x c i ,y c i ,并且x r l y = 巾。d 中的规则x 专y 是由支持度( s u p p o r t ) 和置信度( c o n f i d e n c e ) 来约束的。支持 6 北京邮电大学硕上学位论文 彩铃专项分析系统铃音推荐模块的设计与实现 度表示规则出现的频度,置信度表示规则的强度。具体描述是: s u p p o r t ( x 辛y ) = p ( x u y ) c o n f i d e n c e ( x = y ) = p ( y i x ) = p ( x u y ) p ( x ) 【定义1 2 】在进行关联规则挖掘时,要求用户预先设定支持度和置信度阈 值,即在挖掘过程中只产生满足这两个阈值要求的关联规则,对于这样的支持度 和置信度通常分别称为最小支持度( m i n i m u ms u p p o r t ) 和最小置信度( m i n i m u m c o n f i d e n c e ) 。对于满足最小支持度和最小置信度要求的关联规则称为强规则。 本文中,为方便起见把支持度和置信度分别简记为s 和c ,最小支持度和最 小置信度分别简记为m i n s u p 和m i n c o n f ,它们的取值在o 到1 之间。另外d 中 包含的事务数表示为i d i ,x 中包含的项目数表示为l x l 。 【定义1 3 】项集x 在d 中出现的频率,即d 中包含x 的事务t 的个数, 称为x 在d 中的支持数( s u p p o r tc o u n t ) ,简记为c o u n t 。 根据以上支持度和支持数的定义,可以得出某项集x 的支持数与支持度的 关系是c o u n t = sxl d i ,另外与最小支持度相对应,把支持数阈值定义为最小支持 数( m i n i m u ms u p p o r tc o u n t ) ,简记为m i n c o u n t ,它和最小支持度的关系是 m i n e o u n t = m i n s u px d 。 【定义1 4 】对于项集x ,如果x 中包含有k 个项目,则x 称为k 项集。 例如项集x = a ,b 】i 就是一个2 项集。 【定义1 5 】若项集x 的支持度不小于最小支持度,则称x 为频繁项目集, 即x 满足最小支持度要求。若某一项目m 满足最小支持度要求,则称m 为频繁 项目,所有频繁项目的集合称为频繁1 项集,记为l l ;满足最小支持度要求的 k 项集称为频繁k 项集,所有频繁k 项集的集合记为k 。在有些文献中把频繁 项目集又称为频繁模式,本文统一采用频繁项目集来表示。 1 3 2 3 关联规则分类 传统的关联规则挖掘形式是购物篮分析,但关联规则绝不仅此一种。可以根 据以下标准对这些关联规则进行分类: 1 ) 根据关联规则所处理的具体值来进行分类 若一个规则仅描述数据项是否出现在这种情况间的联系,那么这种关联规则 就是一个布尔关联规则。例如规则( 1 1 ) 描述的就是有关市场购物分析所获得 7 北京邮电大学硕:卜学位论文彩铃专项分析系统铃音推荐模块的设计与实现 的一条布尔关联规则。 购买电脑辛购买电子词典【s u p p o r t = 2 ,c o n f i d e n c e = 6 0 】 ( 1 1 ) 若一个规则描述的是定量数据项( 或属性) 之间的关系,那么它就是一个定 量关联规则。在这些规则中,数据项的定量数值可以划分为区间范围。例如规则 ( 1 2 ) 就是一个定量关联规则。 年龄( x ,“3 0 - - 3 4 ”) 八收入( x ,“4 2 k 4 8 k ”) 号购买( x ,“电脑”) ( 1 2 ) 2 ) 根据规则中数据的维数来进行分类 若一个规则仅涉及一个维,那么它就是一个单维关联规则。例如规则( 1 3 ) , 由于其只涉及到一维,所以是一个单维关联规则。 购买( x “电脑”) 辛购买( x ,“电子词典) ( 1 - 3 ) 若一个规则涉及到两个或更多个维,诸如属性年龄、收入、时间和购买等等, 那么它就是一个多维关联规则【1 伽。例如规则( 1 2 ) 就是一个多维关联规则。 3 ) 根据规则描述内容所涉及的抽象层次来进行分类 一些关联规则挖掘方法可以发现不同抽象层次的关联规则,例如规则( 1 4 ) 和( 1 5 ) 。 年龄“3 0 - - 3 4 ”) 号购买( x ,“i b m 笔记本电脑 ) ( 1 4 ) 年龄( x ,“3 0 3 4 ) 号购买“电脑”) ( 1 s ) 在规则( 1 4 ) 和( 1 5 ) 中( 属性购买) 的数据项描述了涉及不同抽象层次 的内容( “电脑 是“i b m 笔记本电脑的更高抽象层次) ,由于规则( 1 4 ) 和 ( 1 5 ) 描述的内容涉及多个不同抽象层次概念,因此构成了多层次关联规则; 一 相反若一个关联规则的内容仅涉及单一层次的概念,那么这样的关联规则就称为 单层次关联规则。 1 3 2 4 关联规则的挖掘步骤 关联规则挖掘就是在事务数据库d 中找出满足用户给定的最小支持度和最 小置信度要求的关联规则,整个挖掘过程可分解为以下两步: 1 ) 发现所有的事务支持度大于最小支持度的项集。一个项集的支持度是指 包含该项集的事务数目。具有最小支持度的项集称为频繁项集,其他均为非 频繁项集。即找出所有那些支持度大于事先给定的支持度阈值的项集。 8 北京邮电大学硕t 学位论文彩铃专项分析系统铃音推荐模块的设计与实现 2 ) 在找出频繁项集的基础上产生强关联规则。即产生那些支持度和置信度 分别大于或等于事先给定的支持度阈值和置信度阈值的关联规则。 目前有很多产生频繁项目集的算法,这些算法产生频繁k 项集时,扫描数据 库的每个事务用以统计这些候选k 项集的支持度,并按照事务数确定的最小支持 度在第k 次迭代时找出所有频繁k 项集。然而,由于数据库的规模通常是非常大 的,所以在每次迭代时产生候选项目集以统计其支持度是非常耗时的。因此,寻 求频繁项目集的有效产生算法是问题的关键。事实上,在挖掘关联规则的整个执 行过程中第一个子问题是核心问题,而第二个子问题相对较为简单。 1 4w e bs e r v i c e s 的核心技术简介 1 4 1x m l 和w e bs e r v i c e s 可扩展标记语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是i n t e r n e t 上数据表示 和数据交换的新标准。它是i s o ( i n t e r n a t i o n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n , 国际标准化组织) 的s g m l ( s t a n d a r df o rg e n e r a lm a r k u pl a n g u a g e ,通用标记语 言标准) 的一个简化子集。x m l 关注信息本身,是w e b 上表示结构化信息的一 种标准文本格式。与传统的注重页面信息显示的h t m l ( h y p e r t e x tm a r k u p l a n g u a g e ,超文本标记语言) 相比,关注于内容的x m l 具有以下诸多优点: 1 ) 良好的可扩展性,语言简单有效,可自行定义标记。 2 ) 内容与形式的分离,主要刻画数据内容,不考虑显示效果。 3 ) 有严格的语法要求,便于分析统一和与数据库信息转换;便于传输,为 纯文本形式,可通过唧( h y p e r t e x tt r a n s f e rp r o t o c o l ,超文本传输协议) 直接传输,可跨越防火墙等等。 x m l 的出现和发展对于i n t e m e t 和i n t r a n e t 产生了巨大的影响。在x m l 基 础上发展起来的w e bs e r v i c e s 是一种革命性的分布式计算技术。它是针对i n t e m e t 应用提出的一种构建应用程序的模型,它能在所有支持互联网通讯的操作系统上 实施。从表面上看,w e bs e r v i c e s 就是一个应用程序,它向外界暴露一个能够通 过w e b 进行调用的a p i ( a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e ,应用编程接口) 。 w e bs e r v i c e s 是建立可互操作的分布式应用程序的平台和标准,它定义了应用程 序如何在w e b 上实现互操作性。程序开发人员可以用任何熟悉的语言在任何平 台上编写w e bs e r v i c e s 程序,只要这个程序能够通过w e bs e r v i c e s 标准对外界提 9 北京邮电大学硕士学位论文彩铃专项分析系统铃音推荐模块的设计与实现 供查询或访问等服务。 w e bs e r v i c e s 是一种良好的、高度分布式的和面向服务的体系结构,它通过 s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 进行服务的调用,通过w s d l ( w 曲s e r v i c e s d e s c r i p t i o nl a n g u a g e ) 描述提供的服务,通过u d d l ( u n i v e r s a ld e s c r i p t i o n d i s c o v e r ya n di n t e g r a t i o n ) 进行服务的集成和发现,有效的保证了应用程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论