(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的旅游资讯服务智能推荐系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息工程大学硕士学位论文 摘要 数据挖掘是近十几年来迅速发展起来的交叉学科,它融合了数据库、人工智能、机器 学习、统计学等多个领域的理论和技术,搭建了上述理论研究与实际应用间连接的桥梁。 关联规则挖掘是数据挖掘中的一项重要分支,它包含很多种算法,a p f i o f i 算法是其中 最有影响的一种算法,该算法适应于单维数据库的挖掘。本文在分析a p f i o f i 算法的基础上, 结合旅游资讯服务的特点,对该算法进行了改进,并提出一种适合多维数据库挖掘的 a p f i o f i 算法,然后对该算法进行了实例分析和性能分析。md 利用a p n o f i算法,并根据用户在旅游资讯服务中的具体需求,本文构建了旅游_md 服务智能推荐( t r a v e l i n gs e r v i c ei n t e l l i g e n c er e c o m m e n d a t i o n ,t s i r ) 系统。该系统是一 个开放性的智能推荐系统,它能够根据用户所提出的需求,结合用户的注册信息和浏览记 录,智能地推荐旅游信息服务。 本文首先对t s i r 系统的体系结构和主要功能模块进行了设计;然后分六个部分详细 分析了a p r i o r i 算法在 系统中的应用,主要是根据用户需求创建相应的数据立方_ m d t s i r 体,然后在数据立方体的基础上计算频繁谓词集,通过累计频繁谓词集而得到多维频繁谓 词集的集合,最终根据相关度产生推荐结果集;最后,通过对数据的分析,a p r i o r i _ m d 算 法在执行效率上比a p f i o f i 算法提高了一倍,是一种较好的智能推荐方法,可以根据用户需 求获得满意的推荐结果。 关键字:数据挖掘;关联规则;智能推荐;a p r i o d _ m d ;支持度;置信度 第1 i i 页 信息工程大学硕士学位论文 a b s t r a c t t h ed a t am i l l i n gi saf a s td e v e l o p i n gr e s e a r c ha r e ai nt h el a s td e c a d e i ti n t e g r a t e st h e o r i e s a n dt e c h n o l o g i e sf r o md a t a b a s e ,a r t i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r n i n g ,s t a t i s t i c sa n ds 0o n m a n yd o m a i n st h e o r ya n dt h et e c h n o l o g y , h a sb e c o m eab r i d g eb e t w e e nt h e o r ys t u d ya n dr e a l w o r l da p p l i c a t i o n s t h ea s s o c i a t i o nr u l em i n i n gi si nad a t am i n i n gi m p o r t a n tb r a n c h ,i tc o n t a i n sv e r ym a n y a l g o r i t h m s ,t h ea p r i n r ia l g o r i t h mi sm o s ti n f l u e n t i a lo n ea l g o r i t h m ,b u tt h i sa l g o r i t h ma d a p t si n t h es i n g l e d e m e n s i o nd a t a b a s em i n i n g t h i sa r t i c l ei na n a l y z e st h ea p r i o r ia l g o r i t h mi nt h e f o u n d a t i o n ,t h eu n i o nt r a v e l i n gi n f o r m a t i o ns e r v i c ec h a r a c t e r i s t i c ,h a sm a d et h ei m p r o v e m e n tt o t h i s a l g o r i t h m ,a n dp r o p o s e d o n ek i n ds u i t st h em u l t i d i m e n s i o n a ld a t a b a s em i n i n gt h e a p r i o r im da l g o r i t h m ,t h e nh a sc a r r i e do nt h ee x a m p l ea n a l y s i sa n dt h ep e r f o r m a n c ea n a l y s i st o t h i sa l g o r i t h m u s i n gt h ea p r i o r im da l g o r i t h m ,a n da c c o r d i n gt ou s e r si nt r a v e l i n gi n f o r m a t i o ns e r v i c e c o n c r e t ed e m a n d ,t h i sa r t i c l eh a sc o n s t r u c t e dt h et r a v e l i n gs e r v i c ei n t e l l i g e n c er e c o m m e n d a t i o n ( t s l r ) s y s t e m t h i ss y s t e mi sa no p e ni n t e l l i g e n tr e c o m m e n d a t i o ns y s t e m ,c a na c c o r d i n g t ot h e d e m a n dw h i c ht h eu s c rp r o p o s e d ,t h eu n i o nu s e r sr e g i s t r a t i o ni n f o r m a t i o n , b r o w s er e c o r dt o c a l t yo nt h et o u ri n f o r m a t i o ns e r v i c et h ei n t e l l i g e n tr e c o m m e n d a t i o n t h i sa r t i c l ef i r s tt ot h et s i rs y s t e ms t r u c t u r e ,t h em a i nf u n c t i o nm o d u l eh a sc a r r i e do nt h e d e s i g n t h e n ,d i v i d e ds i xp a r t sm u l t i a n a l y s e sa p r i o r i _ m da l g o r i t h m i nt h et s l rs y s t e m a p p l i c a t i o n , f o u n d e dt h ec o r r e s p o n d i n gd a t ac u b ea c c o r d i n gt ot h eu s e rd e m a n d ,c a l c u l a t e dt h e f r e q u e n tp r e d i c a t ec o l l e c t i o ni n t h ed a t ac u b ef o u n d a t i o n , o b t a i n e dt h ef r e q u e n tp r e d i c a t e c o l l e c t i o na c c u m u l a t i o nt h em u l t i d i m e n s i o n a lf r e q u e n tp r e d i c a t ec o l l e c t i o nt h es e t ,p r o d u c e dt h e r e c o m m e n d a t i o nr e s u l tc o l l e c t i o na c c o r d i n gt ot h ec o r r e l a t i o n f i n a l l yt h r o u g ht h ed a t aa n a l y s i s , a p r i o r i _ m da l g o r i t h mi nc a r r i e do u ti nt h ee f f i c i e n c yt o e n h a n c eo n et i m ec o m p a r e dt ot h e a p r i o r ia l g o r i t h m ,w a so n eg o o di n t e l l i g e n tr e c o m m e n d a t i o nm e t h o d ,m i g h to b t a i ns a t i s f a c t i o n a c c o r d i n g t ot h eu s e rd e m a n dt h er e c o m m e n d a t i o nr e s u l t k e y w o r d s :d a t am i n i n g ;a s s o c i a t i o nm l e ;i n t e l l i g e n tr e c o m m e n d a t i o n ;a p r i o r i _ m d ; s u p p o r t ;c o n f i d e n c e 第页 论文原创性声明和使用授权 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了本文中特别加以标注和致谢中所罗列 的内容外,论文中不包含其它人已经发表或撰写过的研究成果;也不包 含为获得信息工程大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确 的说明并表示了谢意。 本人完全了解信息工程大学电子技术学院有关保留和使用学位论 文的规定,即:学院有权保留论文的复印件,允许查阅和借阅论文;可 以公布论文的全部或部分内容;可以采用影印、缩印或其它手段保存论 文。涉密论文按保密规定执行。本论文取得的研究成果归学院所有,学 院对该研究成果享有处置权。 本人签名:批玲 日期: 砌7 导师签名:孑勿匣 导师签名:缅勿阿 、!ji e l 期:争啻1 矽一 信息工程大学硕士学位论文 第一章绪论 1 1 课题来源和背景 本课题来源于河南省旅游局和信息工程大学电子技术学院合作研发的“河南省数字旅 游电子商务平台”。 目前我国的专业网络旅游网站有3 0 0 多家,主要为旅游者提供包括“吃、住、行、游、 购、娱”六大要素在内的全部旅游资源,提供全国各地的旅游信息查询。但是国内很多旅 游网站依然停留在传统的旅游业经营模式上,服务项目单一,旅游线路、景点介绍以及网 上订票、订房等模块几乎成为固定的内容,而较少涉及旅游线路设计、自助旅游安排,没 有充分考虑用户在不同偏好和个体间的个性化需求,还未出现通过网络提供个性化的旅游 产品和服务。 该课题是在数字化旅游中,应用数据挖掘( d a t am i n i n g ,d m ) 技术,对旅游信息的 海量数据进行深层次分析与处理以便为用户的个性化需求提供服务。 1 2 研究目的和意义 随着人们生活水平的提高,作为人们休闲娱乐方式之一的旅游业得到了飞速的发展, 旅游活动越来越成为人们的一种时尚行为。旅游已经成为国民经济发展中的一个重要因 素,特别对于古老、落后以及少数民族地域的经济发展有着举足轻重的地位。在旅游活动 中,游客对旅游服务质量和管理水平提出了更高的要求,这就要求在进行旅游信息系统的 设计时,必须尽量符合大众的实际需求,也就是要做到以游客为中心的原则。旅游信息必 须具有的空间分析、推荐功能,能够帮助游客在旅游时进行决策,使游客能通过网络查询 旅游景区景点、线路、酒店、旅行社等服务设施信息。 对于旅游信息系统来说,人们每天都面临着大量全新的复杂数据,数据量之大是以前 无法想象的。现在面临的实际情况是,面对海量数据,企业、公司都能够将其进行收集并 储存,但却很少能够真正发掘和利用其中对企业、公司而言有价值的东西。 本课题研究的目的就是采用d m 技术结合项目进行研究的方法,以数据挖掘技术在系 统中的应用为核心,把理论与实际紧密结合起来,按照服务需求构建旅游服务智能推荐 ( t s 瓜) 系统,支持用户多维数据的查询,从而向用户提供比较满意的推荐结果。系统中 智能分析的处理,可以有选择地对旅游信息进行采集和分析,帮助游客进行决策,做好旅 游前的准备,从而最大限度的为游客提供帮助,最终尽可能的激发潜在的游客。数据挖掘 技术恰恰从具有上述特征的数据中发现规律,因此把数据挖掘技术应用于推荐系统的开发 是比较理想的选择。 t s i r 系统就是在旅游资讯服务上使用数据挖掘和联机分析处理技术,可以根据用户的 需求、用户注册信息、浏览网页记录或是根据其他相似用户的相关信息,模拟网站管理人 第1 页 信息工程大学硕士学位论文 员或者销售人员帮助用户完成网上浏览、购买等过程,为用户提供智能化、个性化的旅游 服务,它能够向用户推荐商品或服务,来引导用户有针对性的对网上旅游信息进行关注, 使商家获得利益的同时又能够提高服务质量,使用户受益。该系统的设计为促进河南旅游 资讯服务的规范化、网站资源的优化等起到推动作用,提高网站工作效率和经营利润。 数据挖掘使数据库技术进入一个更高级的阶段,它不仅能对过去的数据进行查询和遍 历,并且能够找出过去数据之间潜在的联系,从而促进信息的传递,所以d m 的出现正是 符合这一发展潮流。 1 3 本文的主要研究内容 在旅游资讯服务中,用户信息的深层次掌握对企业来说至关重要,因为只有正确的掌 握了用户的需求、兴趣才能够在复杂激烈的市场竞争中取得竞争上的优势。 本文在对数据挖掘技术和o l a p 技术进行分析的基础上,探讨了数据挖掘中各技术的 优缺点和使用范围。关联规则是数据挖掘中使用比较广泛的一种方法,本文通过分析关联 规则算法存在的不足,结合旅游服务的特点,将关联规则中a p d o r i 算法进行改进。改进的 算法a p n o r i,能够对旅游资讯服务进行多维数据库挖掘,详细描述了算法的执行过程,_md 并给出实例进行了分析。分析的结果表明该算法在执行效率上优于a p d o r i 算法,减少了数 据库的扫描次数。 课题的主要研究内容是根据用户的需求、结合旅游资讯服务的特点,构建了一个适合 多维数据查询的、智能的t s i r 系统;主要分析了系统的体系结构,系统的功能、系统g u i 、 智能分析模块、智能推荐服务模块、推荐页面集模块等。该系统中的智能推荐服务模块是 在分析旅游资源的基础上,将联机分析处理技术和数据挖掘技术结合在一起,能够为用户 提供智能的推荐。该模块是t s i r 系统的核心部分,它是连接用户与数据库之间的桥梁, 智能推荐服务的好坏,直接影响到该系统的推荐准确率。 本文从六个方面描述了a p n o dm d 算法在t s i r 系统中的应用,首先从旅游资源库中 根据需求进行维表和事实表的设计,然后创建相应的数据立方体,再用算法寻找频繁谓词 集、多维频繁谓词集,由多维频繁谓词集生成强关联规则。本文在产生强关联规则的基础 上,引入了相关度的概念,最后产生较符合用户的推荐页面集合。 第2 页 信息工程大学硕士学位论文 第二章数据挖掘及相关技术 2 1 数据挖掘的发展及研究现状 2 1 1 数据挖掘技术的发展 数据挖掘1 1 】就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又有潜在应用价值的信息和知识的过程。数据 挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量业务数据进行抽取、转换、 分析和其他模型化处理,从中提取辅助决策的关键性数据。 数据库技术经过几十年的发展已经得到广泛的普及和应用。高性能关系数据库引擎以 及相关的分布式查询、并发控制等技术的使用,已经提升了数据库的应用能力。数据仓库 作为一种新型的数据存储和处理手段被数据库厂商普遍接受,其相关辅助建模和管理工具 也快速推向市场,成为多数据源集成的一种有效的技术支撑环境。数据挖掘是数据库技术, 特别是数据仓库技术发展到一定高级阶段的产物。 另外,i n t e m e t 的普及也为人们提供了丰富的数据源。i n t e r a c t 技术本身的发展,已经 不光是简单的信息浏览,以w e b 计算为核心的信息处理技术可以处理i n t e r n e t 环境下的 多种信息源。因此,人们已经具备利用多种方式存储海量数据的能力。这些丰富多彩的数 据存储、管理以及访问技术的发展,为数据挖掘技术的研究和应用提供了用武之地。 同时,包括基于统计学、人工智能等在内的理论与技术性成果已经被成功地应用到商 业处理和分析中。这些应用从某种程度上为数据挖掘技术的提出和发展起到了极大的推动 作用,数据挖掘系统的核心技术和算法都离不开这些理论和技术的支持。这些理论的发展 和应用为数据挖掘提供了有价值的理论和应用积累,数据挖掘也为这些理论方法提供了广 阔的应用领域。 综上所述,数据库技术、i n t e m e t 技术、人工智能理论的发展为d m 奠定了技术基础, 而政府、军事、金融、商业等各行各业的庞大需求,为d m 发展开启了巨大的发展空间。 2 1 2 数据挖掘技术的国内外研究现状 1 、国外d m 的研究现状 数据挖掘是数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 过程的一个 步骤,k d d 是从数据中发现知识的全部过程,而数据挖掘则是此全部过程中的一个特定的, 关键的步骤。k d d 一词首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。 到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来 的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种 发现策略和技术的集成,以及多种学科之间的相互渗透。 数据挖掘的概念是在1 9 9 5 年的美国计算机年会上提出的,该会议是1 9 8 9 年至1 9 9 4 年举行的四次数据库中知识发现国际研讨会发展来的。此外,在i n t e q m e t 上还有不少k d d 第3 页 信息工程大学硕士学位论文 电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r y n u g g e t s 最为权威。在网上还有很多自由 论坛,如d m e m a i l c l u b 等。 国外很多计算机公司非常重视数据挖掘的开发应用,m m 和微软都成立了相应的研究 中心进行这方面的工作,一些公司的相关软件也开始在中国销售,如m ma l m a d a 研究中 心开发的q u e s t 系统【2 】,该系统可以从事关联规则、分类规则、序贯模式、时间序列模式 的发现;加拿大s i m o nf r a s t e r 大学的j i a w e ih a n 领导的小组开发了d b m i n e r 系统【3 】,该系 统可以从数据库中开采不同层次的知识;g t e 实验室开发的k e f i r 系统,可以发现多维 数据中特定的定量测量值与标准值的偏差,并且产生处理偏差的推荐意见:u m f a y y a d 开 发的s k i c a t 系统,能将图像处理、数据分类、数据库管理等功能集成在一起。目前为美 国依利诺依大学u 1 u c 计算机科学系教授j i a w e ih a n 是数据挖掘领域国际顶级学者,在数 据挖掘领域和数据库领域做出了世界公认的成就。j i a w 西h a n 陆续提出了数据挖掘技术的 很多种方法,如关联规则、聚类、分类的各个研究方向,很多种方法被诸多研究学者使用。 目前,国外研究数据挖掘的发展趋势从学术研究方面来看主要有:对知识发现方法的 研究进一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法 4 1 1 5 】【6 】以及b o o s t i n g 方法的研究和 提高;k d d 与数据库的紧密结合等。这些内容的研究丰富了数据挖掘研究主题,推动了数 据挖掘技术的发展。 麻省理工学院的科技评论杂志提出未来5 年将对人类产生重大影响的1 0 大新兴 技术,“数据挖掘”位居第三【7 1 。数据挖掘技术从一开始就是面向应用的。它不仅是对特定 数据库的简单检索查询调用,而且要对这些数据进行微观、宏观的统计、分析、综合和推 理,以指导实际问题的求解,使企图发现事件间的相互关联,甚至利用已有的数据对未来 的活动进行预测。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到 为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。由于现在各 行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。一般地, 企业内的业务数据是由于商业运作而产生的,很少是为了分析的目的而收集的。因此,数 据挖掘的应用成为高层次数据分析和决策支持的骨干技术。 2 、国内d m 的研究现状 国内对数据挖掘的研究较晚,绝大多数工作集中于局部算法的研究与设计,进行综合 的系统集成设计都寥寥无几,由于技术核心的欠缺,使得数据挖掘在国内一些领域目前只 是初步开始应用。例如:清华大学利用概念格对数据挖掘的研究;北京大学对数据立方体 的研究;中国科技大学对序列模式和关联规则算法的优化研究;北京系统工程研究所对模 糊方法在知识发现中的应用进行了较深入的研究;华中理工大学、复旦大学、浙江大学、 中科院数学研究院、吉林大学等单位开展了对关联规则挖掘算法的优化和改造;南京大学、 四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据 挖掘等等,这些研究都推动了国内d m 的发展。 关联规则是k d d 研究中的一个重要分支,自从r a g r a w a l 等人在s i g m o d 9 3 上第一 第4 页 信息工程大学硕士学位论文 次提出这个问题以来,关联规则一直是众多学者的研究热点,理论上在对它进行了很多卓 有成效的分析和研究的同时,实践上还提出了不少行之有效的算法,为关联规则挖掘从理 论到应用奠定了基础。 兰州大学的马春玲提出了基于等价关系的关联规则挖掘f 8 j ,通过探寻项集之间的关系, 对项集进行合理的划分,进而产生关联规则,并减少冗余规则的生成:合肥工业大学的王 德兴提出了基于量化概念格的关联规则挖掘【9 一o l ,用户可根据自己的兴趣,借助于量化概 念格,交互地挖掘关联规则,计算规则的支持度和可信度,从而提高了挖掘的效率和准确 性;上海交通大学的江卓军提出了记录加权的关联规则挖掘1 ,在计算支持度时加入了记 录权重的因素,较好的反映了挖掘数据的实际情况,能够挖出更接近实际情况的规则;成 都电子科技大学计算机科学与工程学院佘春东改进了一种并行关联规则的挖掘算法【1 2 】,有 效地解决了i d d ( i n t e l l i g e n t d a t a d i s t r i b u t i o n ) 和h d ( h y b r i d d i s t r i b u t i o n ) 算法中非常重 要的候选项目集在各个处理器节点之间的划分问题,尽可能使得各个节点负载平衡,从而 提高算法的效率;上海交通大学程继华等提出的多层次关联规则的挖掘算法【1 3 1 ,利用集合 “或”、“与”运算求解频繁模式,提高了挖掘地效率和速度等等。这些研究反映了我国d m 研究的前沿状况。 南京大学计算机软件新技术国家重点实验室的徐洁馨、陈栋利用统计方法和其他的算 法开发了一个原型系统k n i g h t ( 一个通用知识挖掘工具) ,可用来处理不同领域的知识发 现任务,使得d m 技术开始走向应用。 数据挖掘技术所表现出的广阔应用前景吸引了众多的研究人员和商业公司。复旦大学 朱扬勇教授成立了上海复旦德门软件有限公司 1 4 1 ,该公司专门研究数据挖掘软件,以数据 挖掘为核心技术,提供了关联规则、序列模式、频繁序列、决策树分类、神经元网络、线 性回归、k m e 姐s 聚类、模糊聚类等多种数据挖掘算法并提供了相应的数据挖掘模型可视 化方法,用户可以查看模型可视化结果,并能用预测模型对数据进行预测评分。使得d m 技术逐渐走向市场,并开始产业化的道路。 随着硬件环境、挖掘算法的改进及应用经验的积累,数据挖掘技术与应用将得到长足 的进展。 2 1 3 数据挖掘技术的研究热点 数据挖掘不是一个单一的学科,得益于多学科的发展,是一个多学科交叉领域。它从 数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获 取、信息提取、高性能计算和数据可视化等学科领域汲取营养,并将这些知识相互结合, 逐渐形成一个交叉而又完整的学科体系。 预计在本世纪,数据挖掘与知识发现( d m k d ) 的研究还会形成更大的高潮,研究焦 点集中到以下几方面: 1 ) 语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也希望像s q l 语 第5 页 信息工程大学硕士学位论文 言一样走向形式化和标准化。 2 ) 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于 在知识发现的过程中进行人机交互。 3 ) 性能问题,包括效率、可扩展性和数据挖掘算法的并行化等问题。 为了能够有效地从数据库大量的数据中抽取模式知识,数据挖掘算法就必须是高效的 和可扩展的。从数据库角度来要求知识发现算法、效率和可扩展性是构造数掘挖掘系统的 一个关键问题。 4 ) 网络环境下的数据挖掘技术。 随着w e b 技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困 难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,必须增加客 户的满意度。在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客 户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者 的点击流( c l i c k - s t r e a m ) ,此部分数据主要用于考察客户的行为表现。但有的时候,客户 对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖 掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息, 进而再加以利用。 就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是 特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自 于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工 作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。 5 ) 加强非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据等数据挖掘。 人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户 的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户 的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在 分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是 一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些 类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率, 并没有真正的分析功能。 随着计算机计算能力的发展和业务复杂性的提高,数掘的类型会越来越多、越来越复 杂,对数据挖掘的技术要求也会越来越高。 2 2 数据挖掘主要技术 d m 技术内容非常广泛,其分类模式也很多,比如: 1 、按照所挖掘的数据库的种类进行分类:有从关系数据库中发现知识,则相应的挖 掘系统为关系数据挖掘系统。另外还有面向对象的数据库、数据仓库、空间数据库、时间 第6 页 信息工程大学硕士学位论文 数据库、多媒体数据库、文本数据库、i n t e m e t 信息库均可作为挖掘系统挖掘的对象,而形 成不同的知识挖掘系统。 2 、按照数据挖掘知识的种类进行分类,可分为分类或预测模型发现、数据总结、聚 类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等; 3 、按照所采用的技术进行分类,常用的有人工神经网络、遗传算法、决策树、邻近 搜索、贝叶斯网、规则推理、模糊逻辑等技术的挖掘系统。 以下是数据挖掘经常采用的技术和方法: 1 、关联分析 关联分析反映一个事件和其他事件之间依赖或关联的知识,是指利用关联规则进行数 据挖掘。关联规则是形如x j y ,即“4 4 ;置 e ”的规则,其中, 4 ( i l ,删 ) ,口。( , 1 ,n ) 是属性一值对。关联规则x j y 解释为“满足x 中条件的 数据库元组多半也是满足y 中条件”,关联分析就是生成所有具有用户指定的最小置信度c 和最小支持度s 的关联规则。 在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规 则的挖掘算法,如由a g r a w a l 提出著名的a p r i o r i l l 5 1 算法、p a r k 等人提出的d h p 算法f 1 6 1 、 p a r k 等人提出的散列技术、h a n 等人于2 0 0 0 年提出的f p 一增长1 8 1 等。目前,国际上关于 关联规则发现的后继工作主要集中在以下几个方面: 削减遍历交易数据库的次数,以降低i o 代价; 改进频繁项目集的生成效率: 提出关联规则发现的并行算法; 引进抽样技术,以降低频繁项目集生成所需的i o 和计算代价; 扩展关联规则发现问题,如广义、多层、多维关联规则、循环关联规则等等。 关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。典型的例子是购物 篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的关系,分析顾客的购买习惯, 通过了解哪些商品频繁的被顾客同时购买,这种关联发现可以帮助零售商制定营销策略。 2 、序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分 析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内, 顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a b c 出现的频度较高” 之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交 易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中 出现的高频序列。关联分析的思路可以用于序列模式发现,在进行序列模式分析时,同样 也需要由用户输入最小置信度c 和最小支持度s 。 序列模式分析指的是项与项之问的时间序列或空间序列之间的联系或模式。主要用于 分析数据仓库中的某类同时间相关的数据,并发现某一时间段内数据的相关处理模型。 第7 页 信息工程大学硕士学位论文 3 、分类分析 设有一个数据库和一组具有不同特征的类别,该数据库中的每一个记录都赋予一个类 别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中 的数据,为每个类别做出准确的描述建立分析模型。分类的目的是学会一个分类函数或分 类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。 分类分析可以分为以下两个步骤: 第一步:分类训练样本的数据,构造一个分类分析模型。通常,模型用分类规则、决 策树或数学公式的形式提供。 第二步:利用分类分析模型进行分类。在使用分类分析模型对新的记录进行分类之前, 给定要先评估模型的预测准确率。 分类分析是数据的分析形式,可以用于提取描述重要数据类的模型,主要的技术是判 定树、贝叶斯分类、贝叶斯网络和神经网络等。分类分析的主要功能是根据商业数据的属 性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属 性,并找出数据的属性模型,确定哪些数据模型属于哪一个分组。近年来研究最多的是贝 叶斯网,它已经成为目前进行不确定性知识表达和推理最成功的技术之一。由于用来学习 贝叶斯网的时间比较长,因此它不适用于要求推理模型随客户信息及时更改的应用环境。 4 、聚类分析 聚类就是将数据库中的记录化分为一系列有意义的子集。聚类技术主要包括传统的模 式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术,其要点是在划分对 象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技 术的某些片面性。数据挖掘的聚类分析方法很多,其中包括系统聚类法、分解法、加入法、 模糊聚类法等,采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。它将数 据对象分组成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对 象差别较大。 以上的技术虽然有着不同的使用范围,但是一个真正的数据挖掘系统中经常是综合利 用这几种方法的。例如:一个零售商的实例,在为某种商品进行市场定位时,数据挖掘系 统也许会协同使用这几种模式: 运用关联规则发现最常被一起购买的商品; 运用序列模式找出几类重要的用户群,发现他们共同的购物模式; 基于上面的结果,运用分类分析定义的分类标准,即购物模式; 将上述的购物模式作为分析规则,运用聚类分析方法找到具有该购物模式,但是 尚未购买某些商品的用户,而这部分用户就是市场营销人员所要争取的对象。 以上是d m 中常用的技术和方法,研究d m 技术的人愈来愈多,它正以前所未有的速 度发展,d m 新的技术和方法层出不穷。 第8 页 信息工程大学硕士学位论文 2 3 数据挖掘技术在推荐系统中的应用 数据挖掘技术中的很多方法经过相应的改进之后都可以用于网上智能推荐领域。 基于关联规则的算法是根据用户的当前购买行为向用户产生推荐,关联规则推荐模型 的建立离线进行,因此可以保证有效推荐算法的实时性要求。 基于协同过滤技术的推荐算法是根据用户的相似性来推荐资源,对每个项目的内容进 行特征抽取,形成特征向量( f e a t u r e v e c t o r ) ;当需要对某个用户进行推荐时,把该用户的 用户描述同所有项目的特征矩阵进行比较,然后根据比较的结果进行推荐。协同过滤推荐 算法是当前最成功的也是研究最深入的推荐算法。推荐算法中,推荐精度和推荐效率直接 影响推荐系统的整体性能。 推荐系统是目前的研究热点,得到了国内外研究机构和研究者的关注,出现了大量研 究推荐系统实例。 t y p e s t r y l l 9 】是x e r o xp a r c 研究中心最早提出来的基于协同过滤的推荐系统,用于过滤 电子邮件、推荐电子新闻。系统中设计了一种类似于s q l 的查询语言t q l ,用户的查询 请求中需要明确指出与自己行为比较类似的其他用户。g r o u p l e n s l 2 0 1 1 2 1 1 是基于用户评分的 自动化协同过滤推荐系统,用于新闻组信息推荐。r i n g o 推荐系统t 2 2 1 和v i d e o 推荐系统t 2 3 1 通过电子邮件的方式分别推荐音乐和电影。b r e e s e 2 4 l 等人对各种协同过滤推荐算法及其改 进进行了深入分析。 s u r t l e n 2 5 】和a s a r m t 2 6 堤最近报道的两个推荐系统,s u r t l e n 是一个以a p r i o r i 为核心 技术的推荐系统,其推荐对象是顾客浏览的网页而不是商品,但其底层的数据挖掘技术和 文本的系统是类似的。它有两种推荐方式:1 、比较用户当前和历史数据的相似性进行推 荐。2 、利用最相似用户的数据进行推荐。a s a r m 实质上是一个自适应的关联规则算法, 以这个算法为核心,实现了一个推荐系统,可以通过分析用户的相似性和分析项的相似性 产生推荐。这两个系统都是基于a p r i o r i 的关联规则算法设计的推荐系统,并没有考虑到避 免联机数据挖掘的情况发生,在推荐效率上也不能令人满意。 关联规则挖掘是数据挖掘中的一个重要的课题,它是商业领域的成功应用,使它成为 数据挖掘中最重要、最活跃的研究内容。综上所述,根据我们对于挖掘算法的用途,充分 考虑到系统的性能及系统所花费的代价,选择关联规则算法用于智能推荐系统中来提高系 统的智能推荐。但该算法需要多次扫描数据库,所生成的规则也不完全是用户感兴趣的规 则,并且该算法适用于单维的数据库的挖掘,也不适合对旅游资源库的挖掘,所以必须对 其进行改进才能应用到整个旅游服务智能推荐系统中。该系统是一个为游客提供旅游服务 的智能推荐系统,通过用户的需求、用户的注册信息、用户的购买记录和用户的浏览页面 记录并根据旅游资源库中的资源,将联机分析处理和数据挖掘技术相结合得到用户可能最 感兴趣的推荐结果集。 第9 页 信息工程大学硕士学位论文 2 4 联机分析处理 近年来随着计算机技术的迅猛发展和计算机应用的普及,企业中的数据环境有了较大 的变化,数据量的迅速增大以及查询要求的复杂化,为了方便快捷地访问和分析数据,基 于数据仓库的联机分析处理( 0 l a p ) 技术应运而生,o l a p 是一项允许分析大型数据库从 对其包含信息深入洞察的技术【2 7 1 ,它可应用于多层、多维的关联规则数据挖掘。 o l a p 技术是根据数据分析的需要,从原始数据中构造各种数据立方体,并对数据立 方体进行有关操作,把结果返回给用户的过程。另外,o l a p 技术也是近年来涌现出的一 种有效地对多维数据进行组织、存储、分析和处理的新方法。其术语o l a p t 2 8 1 由e e c o d d 等人于1 9 9 3 年创建。 j h a n 在k d d 9 7 上提出了用数据立方体模型来解决多维相关分析的思路1 2 9 】,结合了 o l a p 技术和数据挖掘技术,称为o l a m ,为多维关联规则的挖掘开辟了一条新的思路。 将o l a p 和数据挖掘结合起来,在多维数据模型数据立方体的基础上对外提供数据分 析和知识发现应用。目前多维数据的挖掘技术研究不仅集中在网络和w e b 等信息科学技术 领域,在其他领域的应用也日益渐增多。比如文献 3 0 】【3 1 】【3 2 】都是基于多维关联规则挖掘 算法的研究。 文献 3 3 1 中对o l a m 的概念进行了扩展,对o l a m 的内涵进行了深化,首次为o l a m 技术建立统一的系统理论框架,并提出了基于限制的o l a m 任务语义模型和o l a m 子事 务的价值模型。 2 4 1o l a p 的概念 在o l a p 中挖掘多层、多维的关联规则是一个很自然的过程。因为o l a p 本身的基础 就是一个多层多维分析的工具,只是在没有使用数据挖掘技术之前,o l a p 只能做一些简 单的统计,而不能发现其中一些深层次的有关系的规则。 o l a p 数据库特别适合集中解决数据分析问题,它能对大数据量的、复杂的查询做出 快速的反应,因为o l a p 数据库具备以下两个显著的特征: 1 、不同于单纯关系数据库的数据存储格式,o l a p 数据库是以多维数据结构规范的存 储数据。 2 、在用户提出查询要求之前,o l a p 数据库可以实现预先的汇总计算。通过提供基础 数据结构的通用信息,o l a p 分析环境能够预计算合计和平均值,这样,即使用户的查询 涉及到成千上万条甚至更多的记录,系统也能迅速响应用户要求。 这两个概念对o l a p 的性能至关重要,而对o l a p 的基础体系结构来说更是如此。 基于互联网的各种服务领域及其辅助行业的不断发展和完善,网上提供的信息、商品 和服务越来越多,使得用户无法通过一个小小的计算在屏幕上很方便地发现自己感兴趣的 对象。用户既不愿意花太多时问在漫无边际地网上进行寻找,也不可能查找到旅游资讯服 务中酒店、旅行社的服务质量。因此,用户希望能有一个智能化的网上助手来提供实时、 第l o 页 信息工程大学硕士学位论文 有效的推荐,o l a p 比较符合这些用户的希望。 2 4 2o l a p 的基本术语 o l a p 的多维分析涉及到的几个概念: 1 ) 维:是人们观察数据的特定角度。假设存在一个n 维空间,则由每一维中各取一个 具体的属性值,则可对应一个n 维空间中的点,这个点称之为方格,每个方格内存储了与 其对应的各属性的值同时出现的次数,用c o u n t 表示。在旅游资讯服务中,可以将旅游资 源库中资源设计一个三维的数据立方体,x 轴表示景区景点维,y 轴表示旅游线路维,z 轴表示酒店维【蚓。 却 a2 a3 a4 a - - - - - - - - - - - + 景区景点 图2 1 三维的d a t ac u b e 2 ) 维成员:即维的一个取值。如果一个维是多层次的,那么维成员就是在不同维层次 取值的组合。 3 ) 多维数据集:称为数据立方体或超立方体,是o l a p 的数据核心。可以用一个多维 数组表示为:( 维1 ,维2 ,维n ,观察变量) ,这里所表示的是三维。 4 ) 度量:度量是数据的实际意义,即描述数据“是什么”。一般情况下,它总是一些数 值度量指标,例如“景点人数”等。当最终用户浏览多维数据集时,能够利用“度量值” 维度中的成员对数据进行切片,以便只浏览单个度量值的数值,或者全部度量值的数值。 5 ) 数据单元:多维数据集的取值称为数据单元。由旅游线路、景区景点和酒店三个维 组合而确定的变量,其数据单元为( 本地游、3 a 景区、4 级酒店) 。 o l a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论