




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
姥章却童天肇硕士研究生学位论文学 号:075517名: 昱瞳鍪业: 让篡扭座旦堇盔师: 菌壶壹熬援院:筐皇皇逗篮王猩堂陵2010年01月27日s踅f;”姓专导学譬泽。埠壤每,心p铲h“节Po滤Nk“:j:,独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:瓤魄一一 日期: 塑!里二主:堕关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:墓毖想导师签名:日期: 兰!:垒! !日期:型!:至:!基于数据挖掘的个性化营销算法的设计与实现摘要近年来,随着电子商务的迅猛发展,个性化营销在企业营销中占有越来越重要的地位。个性化营销是企业面向消费者,直接服务于顾客并按需营销的新的营销方式。个性化营销的一种主要手段是电子商务及其中的个性化推荐系统。通过个性化推荐系统,商家可以通过分析用户的行为进行相应的商品推荐,从而达到增加销售量,争取更多用户的目的。个性化推荐系统中的核心内容是推荐算法,良好的推荐算法能够更加有效的挖掘用户的潜在行为和兴趣,从而可以达到更加有效的个性化推荐效果。当前的推荐算法大都基于数据挖掘技术,通过对大量的用户行为数据进行分析及挖掘来发现相关的用户行为模式。目前个性化推荐技术发展较快,常用的个性化推荐算法主要有协同过滤技术、关联规则推荐算法等。然而,这些算法大多应用于电子商务网站中多个目标商品的情况,对于类似电信运营商套餐推荐等目标商品只有一个的情况并不多见。近年来随着电信服务使用量、移动用户数量的迅猛增加,各个运营商之间的客户之争也愈演愈烈。因而,如何利用个性化营销方式争取更多的用户,并吸引用户更多的办理和使用增值业务成为电信运营商在激烈竞争中取胜的关键因素,因此本文针对这种需要,提出一种基于数据挖掘的能够应用于电信运营商等个性化营销相关领域的个性化营销推荐算法。首先,本文根据某移动运营商在推荐某项套餐业务时的相关数据,构造并发布了针对于电信运营商套餐推荐相关问题的标准数据集并提供下载,该数据集可供该领域相关学者、研究人员进行类似研究。另外,本文提出一种新的个性化营销算法,该算法基于数据挖掘技术,能够较好地适用于只有一个目标商品的个性化营销问题中,本文将该算法在电信运营商套餐推荐数据集上进行相关实验,证明了该方法具有较好的推荐效果,因而它填补了这方面的空白。关键字:个性化营销 数据挖掘 推荐系统个性化推荐 电信运营商用户选择k一Design and Implementation of Personalization MarketingAlgorithm Based on Data MiningABSTRACTRecent years, as the development of the e-commerce,personalization marketing is becoming an important part of enterprisemarketing activitiesPersonalization marketing is a new marketingmethod that faces to consumers directly and provides the fight things toevery consumerOne of the common methods that used bypersonalization marketing is personalization recommendation systemThis kind of system Can help the enterprises analyze the consumerbehaviors and recommend the right commodities to the right personBydoing this,enterprises can raise the sales volume dramatically and attractmore consumersThe core of the personalization recommendationsystem is the recommendation algorithmsA good recommendationalgorithm Can discover the potential interests by mining the associations,this is quite critical in recommendation systemsMost recommendation algorithms are based on data miningtechnologyThese algorithms Can discover the user behavior mode bymining large amount of user behavior dataThe usual methods ofadvertising recommendation are recommendations using collaborativefiltering method and association rule mining methodHowever,thesealgorithms are mostly used by e-commerce websites that manycommoditiesare for recommendationThere iS another condition thatthere is only one commodity for recommendationThis condition Can beseen when mobile service operators want to recommend new service tothe mobile usersThis kind of user recommendation of one targetcommodity can be seen as a user selection problemAs more and moreservices are provided to the mobile users todaythey now are facing加kmore and more choicesItS the key problem for mobile operators to winmore users choosing their serviceSo when the mobile operators providea new service,mey may need user selection method to recommend thisnew service to the usersTo solve this problem,this paper presents anovel recommendation algorithm based on the data mining technologythat can solve the problem aboveFirst,this P印er studies the related data of a certain mobile serviceoperator when they recommend a new serviceAfter studying this data,we make it as a standard data set and publish it on the InteractThis dataset can be used by researchers and scholars when study the relatedproblemsSecondly,we present a novel user selection method ofadvertising recommendationThis method Call provide a way to handlethe mobile user recommendation problemCompare with the ordinarymethod,the method presented in this paper Call improve the success ratedramatically and reduce the amount of advertisementsAs a result,alower cost and higher Success rate Can make the mobile providers gainmole neW 11SerSKEY WORDS: personal娩ation marketing data miningrecommendation system user selectionpersonalization recommendationmobile operatork124 数据挖掘的挑战5125 关联规则挖掘613 电子商务个性化推荐的研究现状714 论文主要研究内容815 论文结构安排9第二章电子商务及推荐系统研究与调研1021 电子商务个性化推荐系统概述lO211 电子商务个性化推荐系统概念lO212 电子商务个性化推荐系统的作用ll213 电子商务个性化推荐系统的构成ll214 个性化推荐系统的整体框架及应用流程13215 个性化推荐系统的研究内容1522 当前推荐系推荐中常用的推荐技术16221 基于内容的推荐17222 协一过滤算法1 8223 关联规则推荐算法19224 推荐系统面临的挑战19第三章电信运营商套餐推荐数据集分析2131 电信运营商套餐推荐数据介绍2132 电信运营商套餐推荐数据集的构造及其特点22321 电信运营商套餐推荐数据集22322 电信运营商套餐推荐数据集特点分析2333 电信运营商用户数据的特点23第四章一种电信运营商套餐推荐的用户推荐方法2641 问题的提出2642 算法内容27421 相关问题的介绍274211Closet与Closet+算法274212其他分类方法284213相关定义30422 形式化模型和特征区间映射33423 实验步骤一34424 实验环境35实验结果37431 验证数据集及验证方法介绍38432 算法验证实验38433 本文提出算法的推荐结果42434 结果分析结论43第五章结束语4451 本文总结4452 今后工作44参考文献45致谢47攻读学位期间发表的学术论文48-、,r陀k钆北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现第一章绪论随着商品经济的不断发展,顾客面对的商品种类以及供应商不断增加,如何争取客户便成为了企业生存和发展的一项重要内容。另一方面,信息技术的不断发展使得企业的营销手段更加多种多样,其中电子商务是近年来发展最快的营销手段。电子商务中个主要的营销方式是个性化营销。所谓个性化营销(Personalization Marketing),最简单的理解就是量体裁衣。具体来说,就是企业面向消费者,直接服务于顾客,并按照顾客的特殊要求制作个性化产品的新型营销方式。它避开了中间环节,注重产品设计创新、服务管理、企业资源的整合经营效率,实现了市场的快速形成和裂变发展,是企业制胜的有力武器。特别是随着信息技术的发展,个性化营销的重要性日益凸显【l】。电信运营商的营销也是如此,新业务的推出与推广是电信运营商利润的一个重要来源,而当移动用户面对多家运营商和多种套餐服务时往往有很多的选择。这时,电信运营商如何针对有效的目标客户群来进行套餐业务的推荐,是能否在激烈的竞争中争取更多客户,取得更多的利润的关键所在。这时就需要采用个性化营销方式,利用推荐技术向用户推荐其感兴趣的套餐业务将会大大的提高企业的利润。本文提出了一种新的基于数据挖掘的个性化营销算法并加以实现,该算法在电信运营商套餐推荐问题中具有较好的适用性,经过实验验证该方法能够显著的提高营销的效率。本章首先阐述了论文的研究背景和意义,然后对数据挖掘技术和电子商务及推荐技术的基本概念进行介绍,最后论述了论文的主要研究内容和结构安排。11论文的研究背景和意义个性化营销是当今企业营销中不可或缺的重要营销方式。这种营销方式是根据用户的个体差异而进行的一对一的营销,与传统的营销方式相比,个性化营销更加有针对性,更加直接并且更加有效。北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现个性化营销中最常用的营销手段就是采用用户推荐系统来对用户进行有针对性的推荐。这种推荐系统广泛的应用于各大电子商务网站、超市、商场等。可以说用户推荐系统是个性化营销中的关键环节。推荐系统的产生则是由于当前商品的数目和种类不断地增多,面多如此琳琅满目的商品,消费者该如何进行选择是企业及商家关注的首要问题。推荐技术就是利用用户的习惯、喜好或兴趣进行推荐的一种技术。例如我们访问一个网站(例如淘宝网、豆瓣网等)时,系统会根据我们以前的浏览记录(例如购买过的商品,看过的书,听过的音乐等)来进行预测,并根据预测结果进行相应的推荐,这样既可以提高网站的访问量和点击率又能方便用户,使其更加快速更加便捷的找到适合自己的东西,因而这种推荐技术具有较为广阔的发展前景。一般说来,个性化推荐问题通常是针对每个用户而言,对于这个用户,根据其以往的消费特点或浏览记录来推荐更多的商品或网页,而本文中所面对的电信运营商套餐推荐问题则稍有不同。电信运营商套餐推荐是针对一批用户,而推荐的商品只有一种,这种推荐就是根据每个用户以往消费的数据来进行预测用户是否会对这种商品感兴趣。因此一般的推荐算法并不适用,本文提出一种新的推荐系统中的用户选择方法,可以较好的解决这类问题,该方法经验证具有较好的推荐效果,并具有较好的可移植性。12数据挖掘概述如上文所述,个性化营销中的核心内容是推荐系统,而推荐系统中的核心内容则是推荐算法,当前主流的推荐算法大多采用数据挖掘技术。本节将针对数据挖掘技术进行简要的介绍。随着计算机网络技术和软件技术的不断发展,人们生成和收集各种数据变得越来越容易,各个行业和领域都会产生海量数据集。例如零售企业的详细销售记录,地球轨道卫星每时每刻收集的地表、海洋、大气的观测数据,医院里所有病人的病情记录,网络上传输的流量数据、全球股票数据等。人们相信这些数据中存在很多有价值的信息和知识。然而,面对海量的数据,人们如何从种类繁多,数量庞大的海量数据中找到所需的信息并使其为人所用,成为了人们所关注的主要问题。因此数据挖掘以及推荐技术就应运而生。2k虬北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现数据挖掘技术作为一门新兴的数据分析技术,是数据库技术、人工智能技术、机器学习、神经网络、统计学、模式识别、高性能计算和数据可视化等相结合的产物,目前已经吸引了众多的研究者。数据挖掘使得人们可以对海量数据进行更深层次的分析,不仅提高了人们对于数据的理解能力,而且可以透过数据表面提取更多有价值的信息和知识,这些信息可以广泛应用于商务管理、生产控制、市场分析和科学研究等领域。121数据挖掘的概念数据挖掘就是在大型数据存储库中,自动地发现有用信息的过程。与统计分析、人工智能、机器学习不同的是,数据挖掘所要处理的事大量的未经加工的原始数据郾】。另外,数据挖掘还具有预测未来观测结果的能力。从本质上来说,数据挖掘是一个对原始大量数据进行加工、分析、抽取的过程,目的是获得有价值的信息和知识。与数据挖掘有着同样内涵的另外一个概念是数据库中的只是发现(Knowledge Discovery in Databases,简称KDD)。一种观点将数据挖掘视为知识发现的同义词【4】;而另一种观点认为数据挖掘是知识发现过程中的一个基本步骤,如图11所示。厂1广数据集成 模式评估与融据清理R 二委垒薹正三挚壁壁鳖E墼哪知识表示-I7 7U敝据清理lCl图1-l知识发现过程图1-1中,由于数据存放在多种不同类型的数据库、信息存储库或数据仓库中,且输入数据可以以各种形式存储(平展文件、电子数据表或者关系表),因此首先要进行数据清理,去除噪声和不一致数据,将这些数据源结合在一起并提取出与挖掘任务相关的数据。数据预处理的目的是将未加工的输入数据转换城市和分析的形式。将筛选出的数据编程适合挖掘的统一形式并进行数据挖掘,得到挖掘结果。最后,将挖掘结果根据某种兴趣度度量,识别出可以表示为知识的真正有趣的模式,并使用可视化和知识表示技术,向用户提供挖掘得到的北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现知识。数据挖掘涉及多种学科的相关技术,包括数据库技术、人工智能技术、机器学习、神经网络、统计学、模式识别、高性能计算和数据可视化等。其中数据库技术是数据挖掘的基础,因为数据库为数据挖掘提供数据来源,同时数据挖掘为数据库提供了智能化的分析手段。并非所有的信息发现任务都被视为数据挖掘。例如使用数据库管理系统查找个别的记录或通过因特网搜索引擎查找特定的Web页面,这些都是信息检索(Information Retrieval)领域的任务【51,与数据挖掘的区别在于它们主要依赖传统的计算机技术和数据的明显特征来创建索引结构,从而有效的组织和检索信息。与机器学习等其他人工智能技术相比,数据挖掘也具有其自身特点:首先,数据挖掘处理的是大规模数据集,算法的可扩展性通常是衡量数据挖掘算法的主要指标。第二,数据挖掘系统一般要具有多种不同的挖掘工具,可以从同一海量数据集中发现不同类型的知识。第三,数据挖掘系统能够发现各种粒度(即不同抽象层次)的知识。第四,数据挖掘通常并不产生精确的结果,而是基于概率的统计规律,这意味着有些被发现的模式并非对数据集中的所有数据都成立,通常每个被发现的模式都带有一个确定性或可信性度量【61。122数据挖掘的任务一般而言,数据挖掘功能主要有两种:描述和预测检验。描述功能的目标是导出概括数据中潜在的联系的模式(相关、趋势、聚类、轨迹和异常等)。本质上,描述性数据挖掘人物通常是探查行的,并且常常需要后处理技术验证和解释结果。预测功能的目标是根据其他属性的值,预测特定属性的值。描述性挖掘任务描述数据的一般性质,预测性挖掘任务对当前数据进行推断,以做出预测。而数据挖掘的任务主要包括概念描述,发现关联规则,聚类以及偏差检查等等具体来说,下面详细介绍各种数据挖掘任务。123数据挖掘的应用领域近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获4粤北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现取的信息和知识可以广泛应用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。124数据挖掘的挑战面对不同类型的数据集及新的挖掘任务,传统的数据分析技术常常遇到很多困难,这也引发了人们对数据挖掘的深入研究。具体来说,数据挖掘面临的挑战主要有以下几点:1可伸缩由于数据挖掘算法要处理海量数据集,因此算法必须是可伸缩的(scalable)。许多数据挖掘算法使用特定的搜索策略处理指数性搜索问题。可伸缩有时需要实现新的数据结构,以有效的方式访问相关记录。2高维性目前的数据集往往具有数以千计的属性。传统的为低维数据开发的数据分析技术通常不能很好的处理这样的高维数据。另外,对于某些数据分析算法,随着维度的增加,计算复杂性往往也会迅速增加。3异种数据和复杂数据通常,传统的数据分析方法只能处理包含相同类型属性的数据集。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异种属性的技术。近年来已出现了各种复杂数据对象,如半结构化文本和超链接的Web页面集、具有序列和三维结构的DNA数据、包含地球表面不同位置上的时间序列测量值的气象数据等,挖掘这类数据应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素的父子关系等。4数据的所有权与分布很多时候,数据并非存放在一个站点或位置上,而是分布在多个不同的机构中,这就需要开发分布式数据挖掘技术。相应的分布式挖掘算法面临的主要挑战有:如何降低执行分布式计算所需的通信量;如何有效地统一从多个资源得到挖掘结果;如何处理数据的安全性等。5非传统分析5北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现传统的统计方法基于一种假设检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据,但这一过程费时费力。数据挖掘的任务常常要产生和评估数以千计的假设,因此人们希望自动产生和评估假设。这一需求导致了一些新的数据挖掘技术出现。此外,数据挖掘所分析的数据往往不是精心设计的实验结果,它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。而且这些数据常常涉及非传统的数据类型或数据分布。125关联规则挖掘条形码技术的发展以及商场POS机的设置使得超级市场存储了数以万计的数据记录,这些记录详细记录了每个客户每次交易的时间、商品、数量和价格等信息,从而为关联规则挖掘提供了充足的数据基础。关联规则挖掘最初由RAgrawal,TImMinski和ASwami提出f71,主要应用于事物数据库,用来发现超级市场中用户购买的商品之间的隐含关系,及关联规则,以便为商场的决策提供依据。这些规则用于找出顾客的购买行为模式,如购买了某一种商品对购买其他商品的影响,决策者可以根据关联规则提供的信息进行合理的商品货架设计和货存安排来优化商场布置。(例如:把用户经常会同时购买的商品排放在距离较近的货架上),在商品销售方面做各种促销活动和广告宣传,以及根据购买模式对用户进行分类,再对不同用户采用不同的宣传策略。关联规则虽然来源于POS机中,但是可以应用于很多其他领域。例如在商场的顾客购物分析、商品广告邮寄分析、网络故障分析等领域应用关联规则提供的知识。沃尔玛零售商的“尿布与啤酒的故事是关联规则挖掘的一个成功的典型案例。总部位于美国阿肯色州的沃尔玛零售公司拥有世界上最大的数据仓库系统,他利用数据挖掘工具对数据仓库中的原始交易数据进行分析,得到了一个意外的发现:跟尿布一起购买最多的商品竟然是啤酒。如果不是借助于数据仓库和数据挖掘,商家绝不可能发现这个隐藏在背后的事实:在美国,一些年轻的父亲下班后经常要去超市买婴儿尿布,而他们中有30-40的人同时也为自己购买了一些啤酒。有了这个发现后,超市调整了货架的摆放,把尿布和啤酒放在一起,明显增加了啤酒的销售额。6北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现13电子商务个性化推荐的研究现状正是随着互联网的普及和电子商务的迅猛发展,个性化推荐系统也逐渐成为电子商务领域中的一项重要的研究内容,得到研究这和电子商务企业越来越多的关注。Resnick和Varian在1997年给出了电子商务推荐系统的正式定义:“它是利用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助用户完成购物过程的系统嘲。推荐系统是数据挖掘系统的一类,但它又是一种较为特殊的数据挖掘系统,这主要是体现在推荐系统的实时性和交互性上。推荐系统不但根据用户以往的历史记录,更需要结合低昂前一段时间的行为动作做出实时的反应,并根据与用户交互的反馈结果修正和优化器推荐结果。同时与其他数据挖掘系统不同的是,推荐系统主要面向的对象是用户,而不是企业管理或市场营销人员。当然推荐系统收集到的很多数据、信息会管理人员的决策、市场营销人员的营销策略都会提供很大的帮助。推荐系统的使用者是用户,推荐的对象是项目,项目是推荐系统提供给用户的产品或服务,也就是最终的推荐内容,根据项目的不同,推荐系统可以大致分为两类,一类推荐系统的项目为网页链接,主要运用web挖掘技术,推荐符合用户兴趣的网页;另一类推荐系统的项目为产品,这类推荐系统主要应用在电子商务购物环境下,帮助用户找出其真正想要购买的产品。这种推荐系统也被称为电子商务个性化推荐系统或电子商务推荐系统。在理论研究方面,对前一种推荐系统的研究比较多。近年来,对电子商务个性化推荐系统的研究越来越受到重视。国外的相关领域研究已经取得了一些成果,提出了各种不同的推荐技术,这些技术多数为数据挖掘研究的应用推广。国内的研究相对来说比较少,当前国内大部分的相关研究都是介绍性的文章或web推荐,采用的技术也多为对web日志的挖掘,针对电子商务个性化推荐系统的文章,尤其是电信运营商套餐推荐这种实际数据集中的推荐算法更是寥寥无几。电子商务个性化推荐系统的关键是建立用户模型。推荐系统研究的热点是推荐技术的推荐算法的研究。推荐算法是整个推荐系统的核心,它的性能决定了最终推荐结果的好坏。为了建立合理的用户模型,保证不同用户对实时性,7北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现推荐方式等的要求,产生了一系列的推荐技术和算法。例如协同过滤技术、分类和局累计数、关联规则技术、神经网络技术等。实际中的推荐系统可以分为人工推荐系统和自动推荐系统。人工推荐系统主要是编辑推荐或者专辑推荐形式。围绕移动主题的上皮目录,定期推出的专题都属于此类,它们都是由人工编写的,例如书店中在美食类书架周围会有该类书籍的销售排名,购书者可以根据畅销程度来选择自己所需要的美食类图书。像这类简单的统计数据都是可以利用在推荐系统中的,比如销售排行榜、热卖商品、热门新闻等,这类推荐往往放在网站首页,便于用户访问。在自动推荐系统应用方面。最常见的是关键词搜索。用户输入关键词,系统返回在一定范围内与该关键词相关的信息,这种搜索引擎是的推荐技术严格的说来并不是真正的推荐系统。国内外很多电子商务网站在不同程度上都提供了相应的推荐系统来帮助用户购物。关联规则推荐常以“购买该产品的还同时购买了如下产品的形式向用户推荐,这是推荐系统在分析了用户购物篮之后,根据经常同时被购买的产品做出的推荐。应用最为成功的是协同过滤技术,这也是研究者十分关注的一种推荐技术。他通过寻找与目标用户兴趣爱好最为相近的邻居用户,根据邻居用户的行为推断目标用户的可能行为,这项技术由于个性化程度相当高,应用前景十分广阔,不但在电子商务推荐系统中得到较为成功的应用,而且还被应用到金融、通讯等行业。本文中所介绍的电信运营商广告推荐中的用户选择方法即是推荐系统在通信行业中的典型应用。14论文主要研究内容本文的研究对象是个性化营销算法,主要针对于电子商务中的个性化推荐问题。本文基于电信运营商套餐推荐数据集进行了相关的研究与实验,提出电信运营商套餐推荐问题中的个性化推荐算法用户选择方法,这种个性化推荐的一个特点是推荐对象为一个产品,且与当前研究中常见的用户推荐有一定的区别,这一点将在第三章中进行详细的介绍。本文的主要工作包括以下几个方面:(1)介绍并分析当前丰流的各种推荐技术本文首先对现有的电子商务中的推荐系统中的各种技术和推荐算法分别北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现作了详细的介绍,并对其原理、优缺点进行了相应的分析,另外也介绍了不同推荐算法的适用范围。(2)采集并整理某运营商套餐推荐相关数据,构造并发布了研究该问题的相关数据集电信运营商套餐推荐数据集,并对该数据集进行了一定的分析。由于套餐推荐必须要有数据进行支撑,而以往的个性推荐系统较少涉及电信运营商这类问题,因此,本文侧重于研究电信运营商的用户数据特点而进行相关的算法研究。这里我们收集了某运营商一段时期内的部分用户的数据记录,通过对其的分析及整理构造了一个标准电信运营商套餐推荐数据集并提供下载,可以为今后相关领域的学者及研究人员提供一个标准的数据分析资料。(3)提出一种电信运营商套餐推荐中的个性化推荐算法一用户选择算法本文提出针对电信运营商套餐推荐数据集的特点而改进的用户选择推荐算法,将数据首先划分空间,然后再进行相关的分类算法,并产生最终的推荐用户列表。另外,本文还对该用户选择算法进行了相关的实验验证,方法对比以及结果分析等。15论文结构安排本文中的接下来几章的结果安排如下:第二章中主要介绍电子商务个性化推荐系统的相关内容。包括个性化推荐系统的概念、作用、构成以及当前主流个性化推荐算法的相关介绍等。主要包括协同过滤算法、关联规则推荐算法及它们的优势和面临的挑战等等。第三章中主要介绍并分析了本文中所构造的电信运营商套餐推荐标准数据集。包括数据集的特点、适用条件等。第四章主要涉及电信运营商套餐推荐问题的一种新的算法的推导、实现、实验验证和实验的结果,以及不同方法之间的对比等,是本文的核心内容。论文最后是结束语,结束语中对全文进行了总结,并指出了当前研究中存在的一些问题和以及今后的改进方向,同时也给出了今后进一步研究的方向。9北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现第二章电子商务及推荐系统研究与调研近年来,互联网和web技术的不断进步促进了电子商务的快速发展,电子商务变得日益繁荣,这一情况改变了传统的贸易行为。当前电子商务已经成为个性化营销的主要营销方式。电子商务个性化推荐系统是在电子商务过程中针对不同的用户提供个性化的产品和服务的应用系统。本章将介绍电子商务个性化推荐系统的一些基本概念、体系结构、应用流程等,以及目前电子商务个性化推荐系统中所采用的相关技术。21电子商务个性化推荐系统概述211电子商务个性化推荐系统概念个性化推荐研究直到20世纪90年代才被作为一个独立的概念提出来。它最近的迅猛发展,来源于Wreb20技术的成熟,有了这个技术,用户不再是被动的网页浏览者,而是成为主动参与者。在一个世纪的推荐系统中需要推荐的产品可能会有成千上万,用户的数目也会非常巨大。如何准确、高效的挖掘出用户的潜在消费倾向或浏览倾向,为众多的用户提供个性化的服务,在日趋激烈的竞争环境下,个性化推荐系统已经不仅仅是一种商业营销手段,更重要的是可以增进用户的忠诚度。个性化推荐系统已经给电子商务领域带来巨大的商业利益。据Ven劬re Beat统计,Amazon的推荐系统为其提供了35的商品销售额。电子商务个性化推荐系统(Personalized Recommendation Systems forECommerce)的正式定义由Resnick&Varian在1997年给出:“电子商务个性化推荐系统是利用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助用户完成购物过程的系统错误!未定义书签。这个定义现在已经被广泛的引用。推荐系统的使用者是用户,推荐的对象是项目。项目是推荐系统提供给用户的产品或服务,也即最终的推荐内容。根据推荐对象的特点,目前存在的推荐系统大致分为两类:一类是以网页10北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现为主要推荐对象的推荐系统,这种推荐系统主要采用Web数据挖掘,尤其是Web使用日志挖掘的方法和技术来分析用户的兴趣,向用户推荐符合其兴趣爱好的网页链接。另一类推荐系统的推荐对象主要是产品,这种推荐系统主要在电子商务网络购物环境中使用,帮助用户找出他真正想要的产品,为用户推荐满足其需要又符合用户兴趣爱好的产品。这些产品除了在实体商店中出售的产品以外,还包括了文章、新闻、音乐、电影等“无形”的产品,这种推荐系统就是通常所说的电子商务个性化推荐系统,简称电子商务推荐系统。这是本文研究的重点。212电子商务个性化推荐系统的作用电子商务推荐系统的工作可以概括为三点:为用户提供个性化的产品信息服务,提供其他用户对产品的评价,为用户推荐产品。电子商务个性化推荐系统最主要的功能在于它能够收集用户资料,通过分析这些资料,并并举用户兴趣偏好主动为其做出个性化的推荐。即个性化推荐系统需要掌握每个用户之前的特种特征(包括历史消费记录和兴趣爱好等),通过掌握这些用户特征,并进行对其进行数据挖掘的分析,来找出用户对未知项目(商品,兴趣等)的感兴趣程度,并把用户可能感兴趣的项目对用户进行推荐。总的来说,电子商务个性化推荐系统的作用主要表现为以下几个方面:帮助用户寻找他们真正想要购买的并且符合其兴趣爱好的产品,这不仅节约了用户购买的时间,而同时由于这种个性化推荐的准确性和便捷性,使用户对电子商务网站的忠诚度大大的提高,同时将更多的潜在用户变成真正购买产品的用户。研究表明,在基于电子商务的销售行业使用个性化推荐系统后,销售额能提高28【9】,尤其在数据、电影、阴郁、日用百货等产品相对较为低廉并且产品种类繁多的行业,以及用户使用个性化推荐程度较高的行业,电子商务个性化推荐系统能够大大提高企业的销售额。电子商务个性化推荐系统具有显著的经济效益,可以预见到,在未来的几年内,我国电子商务个性化推荐系统将有一个相当广阔的发展前景【lo】。213电子商务个性化推荐系统的构成电子商务个性化推荐系统主要有三个模块组成:输入模块(Input)、推荐方北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现法模块(Recommendation nlethod)、输出模块(Output)。下面分别对这三个模块的概念及作用进行详细的介绍。(1)输入模块输入模块主要负责对用户信息的收集和更新。输入部分是推荐系统用来分析的部分,包括能够反映用户的行为动作或者感兴趣的信息。输入来源按时间来划分可以分为用户当前的行为输入和用户访问过程中的历史行为输入,也可以分为个人输入和群体输入两部分。用户个人输入(Targeted Customer Inputs)主要指推荐系统的目标用户为了得到系统准确的推荐结果而对一些项目进行评价,这些评价表达了用户自己的偏好。群体输入(Community Inputs)主要是以群体形式出现的评价数据。电子商务推荐系统的输入包括多种形式,主要有显式输入和隐式输入等。显示输入包含用户注册信息输入(用户在注册电子商务站点时需要输入一些个人信息也可以明确的表达自己的喜好兴趣等)。这类信息是电子商务构建系统收集到的关于特定用户的最初的信息。隐式输入是将用户访问电子商务网站的浏览行为或者用户的消费行为消费特征作为推荐系统的输入。通过收集用户的浏览行为信息(例如浏览过的商品、用户购物篮中的商品)或手机用户的消费信息(例如话费金额、短息数量、通话次数等)作为推荐系统的隐式输入。(2)推荐方法模块推荐方法模块是整个个性化推荐系统的核心部分,它直接决定着推荐系统的性能。推荐方法模块以推荐技术和推荐算法为技术支撑,具体的推荐算法将分别在22节中进行详细讨论。(3)输出模块输出模块负责将推荐结果输出给用户。电子商务推荐系统的输出形式主要包括:1相关产品输出:推荐系统根据用户表现出来的行为特征或电子商务系统的销售情况向用户产生产品推荐,这种推荐方式是电子商务推荐系统中最为普遍的一种输出。相关产品输出可以基于简单的销售排行向用户推荐热门产品;也可以基于对用户的行为特征进行深入分析,发现用户的购物行为模式,从而产生个性化推荐。北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现2个体文本评价输出:电子商务推荐系统向目标用户提供其他用户推产品的文本评价信息。个体文本评价一般是非个性化的,对每个项目而言,所有用户特点的个体文本评价都是相同的。3个体评分输出:向目标用户提供其他用户对产品的数值评分信息。个体评分输出没有大量的文本描述信息,因而更加简洁明了。个体评分输出比较适合于个体数值评分数据比较少的场合。4平均数值评分输出:电子商务推荐系统向用户提供其他用户对产品数值评分信息的平均值。这种输出形式具有简洁明了的优点,用户可以立即获得对该产品的总体评价。5电子邮件输出:电子商务推荐系统通过电子邮件的形式向用户提供产品的最新信息。这种输出形式可以吸引用户再次访问电子商务站点买从而达到保留用户,防止用户流失的目的。6编辑推荐输出:向用户提供领域专家对产品的专业介绍,用户通过专家的专业介绍可以对自己并不熟悉的产品加深认识,了解产品的性能特点,从而决定是否购买该产品。本文中主要研究的主要是相关产品输出的情况,并且电信运营商套餐推荐大部分都属于一种产品的推荐,当然,也可以由这种方法进行扩展,扩展到多种套餐共同推荐的问题。214个性化推荐系统的整体框架及应用流程个性化推荐系统的完整框架主要有数据库、数据仓库、推荐模型库、推荐引擎、用户交互等模块构成。其结果框架如图21所示。下面具体介绍每一部分的功能与作用。(1)操作数据库和数据仓库:操作数据库中存储于用户操作密切相关的数据,包括了产品数据库、用户数据库、销售数据库、Web日志数据库等。数据仓库是用来存储规整的经过精细和初步挖掘后的数据,书推荐系统直接操作的数据,包括属性数据、购买数据、消费数据、产品数据、点击流等。(2)推荐模型库:用户存储推荐算法。(3)推荐引擎:主要功能是接收推荐请求,运行推荐策略,产生推荐结果。北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现推荐引擎对内为推荐算法提供了统一的运行环境,方便了推荐算法的编制,对外则提供了统一的推荐服务接口。(4)用户交互:一方面接受用户的要求,另一方面提供给用户推荐结果。数据库数据仓库一 田白一l 川,。用户交互L_一I 彝而7l 多卜叫Ir推荐界面L推荐结果l推荐模型 推荐引擎庄,rI、l购买l蜀l消费I降司I属性I l产品l I点击I恤据J 恤刊 L数刊 咚刊U 一、7图2一l推荐系统结构框架推荐系统需要完成从数据信息采集到推荐应用的完整的系统应用流程,具体来说,包括以下几个部分:(1)数据清洗、转换和加载:由数据挖掘工具从操作数据库中选择数据,使用ETL(清洗、转换和加载)工具把选择出来的数据加载到数据仓库中,成为规整数据。选择什么样的数据是由具体的推荐应用决定的,例如“用户评分14北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现模型需要用户评分数据,而“关联规则推荐模型需要用户的交易模型。(2)模型生成:根据具体的推荐应用,选择所对应的规整数据,使用合适的模型产生推荐模型,存储在模型库中。如何选择合适的模型生成推荐模型也是有具体的推荐应用决定的。(3)推荐策略配置:推荐策略师推荐过程的配置,其中包括推荐算法和推荐模型。具体的推荐功能是有推荐引擎运营对应的推荐策略来实现的。推荐引擎提供推荐服务,必须有已经配置好的推荐策略。配置工作主要是修改推荐策略,采用新的推荐模型,然后根据具体的推荐应用配置推荐策略,并请求推荐引擎或重载此策略。(4)推荐服务访问:电子商务系统直接向推荐引擎提供当前用户的信息,并请求用指定的推荐策略产生产品的推荐列表。推荐引擎则根据电子商务的请求运营对应的推荐策略,产生合适的推荐结果。(5)操作数据更新:电子商务系统开展网络商业活动,并向用户提供推荐服务,由于不断会有新的用户和新的产品,用户的行为也随着时间的推移而有一定的变化,因此操作数据库也在不断地发生变化,需要及时进行更新。整个电子商务个性化推荐系统应用流程是一个不断循环的流程,当操作数据库变化到一定程度的时候,数据仓库、推荐模型都需要更新,以及时的反映出当前用户行为的变化。更新模型有具体的应用要求决定,一般采用周期性的方法,也可以采用推荐效果反馈阈值来控制。215个性化推荐系统的研究内容 ,个性化推荐系统的研究主要围绕以下几个方面:(1)推荐系统的信息来源问题。个性化推荐系统的基础是用户兴趣资料信息,如何在电子商务环境下尽可能获得更多的用户相关信息,并以合适的形式表示,这是进行个性化推荐的前提。根据当前在电子商务环境下对用户信息手机的研究来看,主要着眼于研究如何有效的收集能反映用户兴趣偏好的信息,以及如何通过网络数据挖掘等方法更自动化的手机用户的隐式信息,解决用户信息收集过多的依赖于显示评价数据的问题。15北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现(2)设计准确、高效的个性化推荐算法要实现被用户接受和认可的电子商务个性化推荐系统,设计准确、高效率的个性化推荐算法是个性化推荐的核心问题。目前的推荐技术有协同过滤推荐、基于用户统计信息的推荐、基于内容的推荐、基于效用的推荐、基于知识的推荐、基于规则的推荐等等。协同过滤推荐是电子商务个性化推荐中研究和应用最多的方法,被广泛的应用于电子商务网站、数字图书馆、网页搜索、新闻过滤等,著名的推荐系统有Tapestry11】、GroupLensNetPerceptiongstl213】、RingoFirefly1卅等,其前提假设是存在具有相似兴趣爱好的用户群,x个用户都有与其兴趣爱好相似的邻居用户。预测用户对某一项目的偏好是根据邻居用户对该项目的偏好程度计算的,也就是说如果其邻居用户喜欢某一项目,则该用户也很可能会喜欢这个项目。协同过滤最大的优点是不需要分析对象的属性,所以对推荐对象没有特殊的要求,能处理非结构化的复杂对象,例如音乐、电影等。(3)个性化推荐系统性能的评价问题要让个性化推荐系统被广大用户所接受,必须对推荐系统做出客观、综合的评价,需要从准确性、个性化、安全性、用户满意度等多方面进行评价。对推荐系统总体性能的评价是个性化推荐系统研究的重要组成部分,但目前大都只是采用准确率、召回率等评价尺度对推荐算法进行评价,并没有真正意义上的提升到对整个推荐系统进行的评价,尤其缺乏从个性化程度、持久性程度、系统的安全性以及用户接受程度等多方面的对推荐系统综合的评价。(4)个性化推荐系统的应用问题个性化推荐系统不仅要为用户提供一个个性化的购物环境,更应该为企业的销售决策和用户关系管理提供支持。目前对电子商务个性化推荐系统的应用研究方面主要集中于个性化推荐技术,还较少从更广阔的范围和更深入的专门领域,例如从营销决策、市场分析、用户关系管理或者系统集成商务智能等角度去研究讨论电子商务个性化推荐系统的应用。22当前推荐系推荐中常用的推荐技术在个性化推荐系统的各种算法中,目前应用最为广泛,最为成功的是协同16北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现过滤算法,协同过滤算法在各大商业网站上都具有较为成功的应用。协同过滤算法的准确度较高,而且能够做出奇异发现,找出用户新的兴趣点,但协同过滤算法也存在冷开始问题、稀疏性问题和实时性问题。关联规则推荐算法是另一种较为流行的个性化推荐算法,它是根据对关联规则的挖掘进而对项目进行排序产生推荐,它可以发现不同产品在销售过程中隐含的相关性,关联规则推荐算法可以离线进行,因此能够保证实时性的要求。本章将对协同过滤算法和关联规则推荐算法进行详细的介绍,由于这两种推荐算法存在不足之处,以及它们对于本文中所提出的电信运营商套餐推荐问题并不适用,因此本文提出了一种新的个性化推荐算法,可以针对一个推荐项目并具有较好的推荐效果。221基于内容的推荐基于内容的推荐(Comembased Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上做出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。 基于内容推荐方法的优点是:1不需要其它用户的数据,没有冷开始问题和稀疏问题。2能为具有特殊兴趣爱好的用户进行推荐。3能推荐新的或不是很流行的项目,没有新项目问题。4通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。5已有比较好的技术,如关于分类学习方面的技术已相当成熟。缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。17北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现222协同过滤算法协同过滤推荐(Collaborative Filtering Recommendation)技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内容的评价来向目标用户进行推荐。基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。和基于内容的过滤方法相比,协同过滤具有如下的优点:1能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。2共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。3有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。4能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题和可扩展问题。具体有下列几项缺点:北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现1)用户对商品的评价非常稀疏,这样基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题):2)随着用户和商品的增多,系统的性能会越来越低(即可扩展性问题);3)如果从来没有用户对某一商品加以评价,则这个商品就不可能被推荐(即最初评价问题)。因此,现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。223关联规则推荐算法基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把己购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。224推荐系统面临的挑战用户数用推荐系统希望得到真正想要的信息,如果系统推荐的信息对用户没有多大用处,则用户将放弃使用该推荐系统,现有的技术和算法面临一下挑战。(1)最初评价问题:如果要推荐的对象无法使用特征来表达,则不能使用信息过滤技术进行推荐,这种情况需要通过和用户具有相似偏好的其他用户对内容的评价向用户推荐,但如果一个对象没有被任何用户加以评价,就得不到对价。反之,如果一个对象很少甚至没有被推荐过,那么它也会很少有机会得到用户的评价。绝大多数用户选择从其他人的评价情况下来进行选择而不愿花费时间和精力来对对象进行评价。如果没有其他机制解决“最初评价问题的话,仅仅以来用户的利他主义来克服最初评价的问题是不够的。(2)数据系数问题:协同过滤技术在计算两个用户间的相似度时要求两个19北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现用户至少对某两个对象都进行了评价。而在实际情况下,大部分用户对对象的评价不到对象数目的l。例如,Amazoncorn中有上百万册的数据,即使一个用户对1的数据发表意见,对用户来讲也是非常庞大的。所以在计算用户相关性(或相似度)时,许多用户根本是无关的。(3)可扩展性:系统中用户的增长和内容的大量增加带来的计算带来的复杂度不是线性的,很难满足基于Web的推荐系统的实时性要求。(4)数据空间的扩展:当前的推荐系统只考虑用户对内容的评价,这就产生两个维:用户和对象,UserxItemsRatings,没有考虑其他特征。如用户在不同时间内所关心的内容是不同的,这样就需要再引入一个时间维度,因此,原有的二维数据就不足以表达这种情况了。(5)对数据集的要求:当前的推荐系统大都基于商务网站中的相关产品或电影、音乐和书籍等方面的推荐。这种推荐问题的特点是根据用于以往的浏览记录或消费记录,然后根据这些记录进行挖掘进而对在许多未知的商品或项目中选择用户可能会感兴趣的商品,然而,还有其他许多的情况也需要进行用户推荐,例如,电信运营商的套餐推荐问题、服务商家推出新的服务项目需要向老顾客进行推荐的问题等等,这类问题与上文所述的电子商务个性化推荐问题有所不同,因为这类问题待推荐的商品只有一个,用户只有“是或者“否两种选择,而不是在用户未使用选择过的一大部分商品中挑选某些用户感兴趣的商品。因而以往的推荐算法在数据集适用性问题上还有一定的局限。面对这些挑战,在推荐算法的具体设计和实现上,不仅要克服上述推荐算法的缺点,还要根据所需解决问题的实际情况和相关数据集的特点进行算法的选择。例如上文中提到的移动运营商套餐推荐问题中的推荐系统就不能利用以上提出的推荐算法。因此,本文提出了一种推荐算法,本算法经验证可以在移动运营商套餐推荐问题中具有较好的适用性。20北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现第三章电信运营商套餐推荐数据集分析在上一章中提到,有些具体问题虽然仍然属于用户推荐问题,然而,与我们常说的电子商务中的个性化推荐问题并不十分相同。他们的区别主要来自于推荐的项目个数种类不同,以及每个用户特征的数据分布特点不同。这里,我们采集了某移动运营商对某一个套餐进行推荐的相关数据集。下面本章将对这一数据集进行具体的介绍。31电信运营商套餐推荐数据介绍近年来,随着移动服务使用量、移动用户数量的迅猛增加,电信运营商之间的客户之争也愈演愈烈。于是,各种丰富的增值业务不断涌现,这时,消费者在越来越多得到产品之间选择的机会大大增加,如何够争取更多的用户,成为电信运营商在竞争中取胜的关键因素。解决这个问题常用的方法就是信息推荐技术。信息推荐研究的关键问题,是如何准确高效地提供给用户需要的信息。电信运营商的用户选择一般是指向手机用户推荐某种套餐时所需的选择策略。电信运营商向用户推荐某种套餐时,往往是将该套餐信息向尽可能多的手机用户发送短信广告。当手机用户收到这种短信广告时,会根据自己的意愿来决定是否选择该套餐。若选择该套餐,则用户可根据短信广告中的说明发送一组代码到指定号码。这种广告推荐方法看似一种覆盖面比较广的方案,然而它有很多缺点:在现实操作中,选择套餐的用户只占所发用户的极小一部分比例,大多数用户往往不会定制套餐,对这些没有定制该套餐的用户来说,这种广告只是一条垃圾短信。因此,实际的命中率极低,同时也由于发送广告目标较多而耗费了较多的资源。我们取得的数据集就是这样一个数据集。某移动运营商在推广某一个套餐时并没有进行推荐算法而是将其直接不加分类的发送到所有的用户中去,然后部分用户由于对所推荐的套餐业务比较感兴趣,因而对这种推荐有了反馈,在这个数据集里已经反馈的用户我们将其记为正样本(YNDSUCCESS项值为1),没有反馈的用户记为负样本(YNDSUCCESS项值为0)。另外由于电信运营商会在平时记录每个用户的消费特点。因此本数据集中除了标识用户是否办理该套餐业务的项之外还有其余36个特征,用户推荐中的数据挖掘就是在这36个21北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现特征的基础上进行相关的挖掘。下面的章节将会详细的介绍这个数据集的构造及其特点。32电信运营商套餐推荐数据集的构造及其特点现实世界中的数据多种多样,不能只用一种方法处理所有类型的数据。我们在研究电信运营商套餐推荐问题是,收集了某移动运营商采集与记录的一些用户记录,并将该记录隐去了用户的个人信息,只保留对数据挖掘结果有影响的特征数据字段以及套餐选择结果字段。将这个数据集作为标准数据及在网站上发布,供研究人员对该类问题分析和研究时使用。我们发现电信运营商套餐推荐所用到的用户消费特征数据具有一些独特的特点,采用传统的挖掘方法很难挖掘到有效的关联规则。321 电信运营商套餐推荐数据集电信运营商会纪录每个移动用户的消费特征,例如总的总话费金额、短信金额、主叫次数、被叫次数、短信数量、GPRS流量、是否被叫等等,本数据集中,每个用户具有36个相关的消费特征,每个消费特征即为用户的一个特征,因此每个用户具有36个特征。其中每个特征如下表所示:表31电信运营商套餐推荐数据集特征名称ACCPRn,FLAG ISCALLED ALLFEE ALITIMESALLDURATIoN BASICCOST SERVICECOST CALLl68SMSFEE SMSTIMES MMSFEE MMSTIMESISMGFEE GPRS玉EE GPRSTIMES GPRsjLOWTOTALCOST TOTALTIMES TOTALDURA CITYORGTIMESCITYORGDURA CITYORGCOST CITYTERMTIMES CITYTERMCOSTCITYTERMDURA INNERTIMES 邛DmRDURA INNERCOSTINNERLONGCOST DDDTIMES DDDDURA DDDCoSTDDDLONGCOST FREESERVTIME LCITYDI瓜MIN LLONGDl珉M玎呵322 电信运营商套餐推荐数据集特点分析否成在前一节所述的电信运营商套餐推荐数据集中,我们将每个用户看作一个样本,用户某个或某几个月的消费信息可看作是样本的特征,用户的反馈信息(即是否定制了套餐)分为两个类别,选择定制套餐的用户称为正样本,选择不定制套餐的用户称为负样本。我们采集了这样的一些用户的数据,作为我们的电信运营商套餐推荐的标准数据集。通过分析采集的移动用户数据集,我们发现这种推荐数据集具有一些独有的特点。1 负样本数目远远大于正样本数目,即选择办理套餐的用户数目远远小于不选择办理套餐的用户数目,这一点我们可以根据常识进行推断,即由于用户对新业务并不是十分了解以及当前各种套餐业务名目繁多,导致只有极少数的用户会办理电信运营商新推出的套餐业务。2 具有相同特征的多个用户可能会做出不同的选择,即相同特征的样本可能属于不同的类别。这一特性是本文提出新的用户选择方法的主要原因,由于相同特征的样本可能属于不同的类别,因此采用以往的分类算法难以达到较好的规则挖掘效果。3 这些特征有些是连续的,例如总话费金额;而另一些特征则是离散的,例如是否被叫,这个特征只有0(无被叫)与1(有被叫)两个值。数据集由于有这个特点,因此在划分区间时应区分处理。33电信运营商用户数据的特点通常电信运营商会纪录每个手机用户所具有的消费特征,例如本文所用数据集中每个用户具有36个特征,这些特征包括用户每个月的话费,每个月的通话时间,主叫时间,被叫时间,GPRS流量,GPRS费用,SMS数日,SMS费北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现用等。我们将每个用户看作一个样本,用户某个或某几个月的消费信息可看作是样本的特征,用户的反馈情况(即是否定制套餐情况)作为两个类别,选择定制套餐的用户成为正样本,反之称为附样本。由此,该问题可看作是简单的二分类问题。这里有另外一个问题,采用主成分分析(PCA)、分类方法的数据应具有如图3-1所示的数据特征。XI图3-1可用于分类问题的样本特征分布图经过分析,这里的移动用户的数据特征具有一定的特殊性,即具有相同特征的多个用户可能会做出不同的选择,也就是说具有相同特征的样本可能属于不同的类别,且没有定制套餐的用户数量往往远大于定制套餐的用户数据,样本特征分布如图3-2所示。Xl图32移动用户样本特征分布图北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现因此本文提出数据局部化处理的方法,并基于最大频繁闭项集挖掘算法的样本选择方法。局部化处理的假定前提是在局部区域内,样本足够多,能够满足最小支持度。这种方法可以推广到很多类似的广告推荐中,具有一定的普适性。北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现第四章一种电信运营商套餐推荐的用户推荐方法如上一章所述,电信运营商套餐推荐问题不能使用常见的个性化推荐算法进行用户推荐。另外,由于现在电信运营商进行广告推荐时常用的方法是向所有的用户进行推荐,这种方法看似一种覆盖面比较高的方案,然而,一般说来,大多数用户往往不会选择定制套餐,即只有极小一部分的用户会选择定制套餐,因而对这极大部分的用户来说,这种套餐推荐短信会被认为是垃圾短信。这样一来,不仅广告推荐的命中率比较低会造成资源的浪费,并且会造成用户的满意度由于垃圾短信的产生而下降。这就需要有一种使用户电信运营商套餐推荐问题的用户选择方法,来解决电信运营商推广新套餐业务时所遇到的用户选择问题。41问题的提出电信运营商向客户推荐某个新套餐时通常的做法是将该套餐的信息向尽可能多的手机用户发送短信广告,一旦手机用户收到这种广告短信后,会根据自己的意愿和消费特点来决定是否要定制该套餐。如果用户选择定制这项套餐,则需要根据广告中的相应说明发送一组代码到指定的号码,从而办理相关的套餐业务。电信运营商套餐推荐数据集的目标推荐商品只有一个,即每个用户有多种不同的特征来对用户对于这种商品的是否感兴趣进行相应的预测。因此,根据协同过滤技术所适合的相关情况来看,这种数据集并不适合使用协同过滤技术来进行用户推荐。在前面的文章中我们讨论了当前主流个性化推荐算法以及它们的优缺点,也对电信运营商套餐推荐问题作了相关分析。我们不难发现,电信运营商套餐推荐问题由于其自身数据的特殊性,并不适合于使用常规的个性化推荐算法进行用户推荐,因此我们在这里提出一种新的基于数据挖掘的电信运营商套餐推荐问题的用户推荐方法。有符合相应消费特征的用户来进行套餐推荐。这样,尽管套餐推荐的广告只推荐给了部分用户,看似覆盖率较低,然而由于这种推荐方法更具有针对性,套餐办理的命中率会大大提高,同时减少了垃圾短信的数量。因此,如何得到倾向于定制套餐的用户所具有的消费特征,是本文研究的主要内容。42算法内容本节详细介绍基于数据挖掘的个性化营销算法的分析与设计。包括算法涉及到的相关问题,数据的形式化模型以及具体的实验步骤等。421相关问题的介绍本节将对算法中所应用到的或涉及到得相关知识作简要的介绍。421 1 Closet与Closet+算法CLOSET算法115是基于FP树的频繁闭项集挖掘算法,它采用了与FPgrowth算法相同的思想。该算法虽然采取了许多优化技术来改善挖掘性能,使其性能优于Aclose以及CHARM算法的早期版本。但CLOSE算法在项集封闭性的测试方面的效率仍不够高,对于稠密数据集其整体性能逊于改进后的CHARM算法。CLOSET+算法【l 6J是2003年发表的一个新算法,CLOSET+采用分解思想、深度优先搜索方法和水平数据格式,并采用FPtree来压缩数据。CLOSET+通过构建、扫描其条件数据库来计算当前节点的局部频繁项目集。它也是采用FP树作为存储结构。但它建立条件数据库的投影方式与FPgrowth和CLOSET不北京邮电大学硕士研究生学位论文 基于数据挖掘的个性化营销算法的设计与实现同,FPgrowth和CLOSET采用自底向上的方式,而CLOSET+采用的是一种混合投影策略。即:对于稠密数据集采用自底向上的物理树投影,但对稀疏的数据集采用自顶向下的伪树投影。另外,该算法还采用了许多高效的剪枝及子集检验策略。CLOSET+算法在运行时间、内存及可扩展性方面都超过了前面提到的频繁闭项集挖掘算法【17】。根据上文叙述,本文中对挖掘最大频繁闭项集的步骤采用了Closet+算法,该算法具有较高的运算效率以及较好的挖掘效果。421 2其他分类方法由于实验用需要进行结果对比,我们采用了贝叶斯分类器和支撑向量机两种分类方法对这个数据集进行的处理。这两种方法在处理分类问题时是较为常用的方法。1贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:NaiveBayes、TAN、BAN和GBN。贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点X均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点X在其父结点取各可能值时的条件概率。若结点X无父结点,则X的CPT为其先验概率分布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年山东省枣庄市十六中物理高二第二学期期末检测模拟试题含解析
- 云南省红河州绿春一中2025年高一物理第二学期期末联考模拟试题含解析
- 辽宁省大连海湾高级中学2025届物理高二下期末质量跟踪监视模拟试题含解析
- 宠物课件教学课件
- 宠物安全幼儿课件
- 二零二五年LED高清显示屏设施设备租赁合同
- 2025版新型环保材料产品研发设计委托服务协议
- 2025版新能源汽车租赁及承包经营综合管理合同
- 2025版农业园区场地租赁合同标准版获取
- 二零二五年度:80问揭秘合约规则与产业链格局优化服务合同
- 广东省江门市普通高中2025届物理高一下期末综合测试试题含解析
- 2025年国际贸易实务课程考试试题及答案
- 舟山快艇停靠管理办法
- 九师联盟2024-2025学年高二下学期7月期末质量检测政治试题(含答案)
- 人教版八年级物理上册《1.1长度和时间的测量》同步练习题及答案
- 安全生产执法培训课件
- HJ 636-2012 水质 总氮的测定 碱性过硫酸钾消解紫外分光光度法
- 妇科医生进修汇报课件
- 李开复:人工智能应用的四波浪潮
- 公安机关警用装备申领登记表模板
- 镇江区国有土地上房屋征收评价技术规范
评论
0/150
提交评论