网络游戏运营中的数据挖掘技术及相关案例分析_第1页
网络游戏运营中的数据挖掘技术及相关案例分析_第2页
网络游戏运营中的数据挖掘技术及相关案例分析_第3页
网络游戏运营中的数据挖掘技术及相关案例分析_第4页
网络游戏运营中的数据挖掘技术及相关案例分析_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络游戏运营中的数据挖掘技术及相关案例分析摘要数据挖掘技技术在网网络游戏戏客户关关系管理理中的应应用现今今,数据据挖掘技技术已经经在各个个领域得得以应用用,并有有了相当当的发展展。许多多学者对对数据挖挖掘 的的研究及及其在客客户关系系管理中中的应用用上获得得了相当当的突破破,很多多行业因因此获益益匪浅。 在我国国,网络络游戏作作为一个个新兴不不久的行行业,拥拥有着巨巨大的市市场和庞庞大的潜潜力,但但随之而而 来的的是愈发发激烈的的市场竞竞争, 一些主主流的游游戏运营营商已经经把目光光投向了了在传统统行业中中取得了了巨大 成功的的客户关关系管理理体制。但但是,不不同于其其他行业业,网络络游戏是是

2、建立在在网络信信息交流流平台之之上, 它所搜搜集到的的客户数数据更为为庞大和和繁杂, 那么怎怎样从如如此庞大大的数据据中找到到有效资资料呢?这就需需 要应应用到数数据挖掘掘技术。 本文简简要介绍绍了网络络游戏客客户关系系管理的的模式和和内容以以及几种种主要的的数据挖挖掘技术术;着重重 利用用决策树树玩家进进行了分分类、 利用神神经网络络对玩家家流失进进行了分分析、 利用粗粗糙集对对玩家信信息进行行 了挖挖掘。通通过上述述分析论论证了数数据挖掘掘技术在在网络游游戏客户户关系管管理中应应用的可可行性和和有效性性。 关键词:网网络游戏戏;客户户关系管管理;数数据挖掘掘;应用用1 综述“网络游戏戏”也

3、被成成为“在线游游戏”(Onnlinne GGamees),是是通过互互联网进进行、可可以多人人同时参参 与的的电脑游游戏,是是通过人人与人之之间的互互动以达达到交流流、娱乐乐和休闲闲的目的的。 网网络游戏戏不同于于其他行行业,它它建立在在网络信信息交流流平台之之上,因因此,它它所搜集集到的客客户数 据更为为庞大和和繁杂, 那么如如何从如如此庞大大的数据据中找到到有效资资料, 又如何何应用于于客户关关系管理理之 上上,这便便是我们们需要去去研究的的问题。 在我国国,网络络游戏是是一个新新兴的行行业,对对其研究究多集中中于法律律的虚拟拟财产案案件上,网网络游 戏客户户关系管管理方面面的研究究寥寥

4、无无几。 虽然如如此, 但我们们仍旧可可以通过过数据挖挖掘技术术在其他他行业 上的客客户关系系管理中中的应用用里进行行参考, 进而对对数据挖挖掘技术术在网络络游戏客客户关系系管理中中的应用用 的可可行性,有有效性进进行探讨讨。 哈哈尔滨工工程大学学的鞠伟伟平,邓邓忆瑞所所刊登的的基于于决策树树的数据据挖掘方方法在 C RR M 中的应应 用研研究中中指出:“客户关关系管理理是一种种旨在加加强企业业与客户户之间关关系的新新的管理理机制。其其如何 利用数数据挖掘掘技术对对客户数数据进行行深层分分析,保保留高价价值客户户、发掘掘潜力客客户,实实现在恰恰当的时时 间,为为客户提提供合适适产品和和服务是

5、是现在客客户关系系管理中中的研究究重点。本本文将数数据挖掘掘中的 ID33 分类类算法应应用于 CRMM 系统统中,不不仅可以以使企业业更好地地发现客客户群特特征,掌掌握市场场动态,同同时也 将有助助于企业业的管理理全面走走向信息息化。3” 山东东财政学学院的董董宁所刊刊登的数数据挖掘掘技术在在 CRRM 中中的应用用中指指出:“数据挖挖掘技术术 帮助助企业管管理客户户生命周周期的各各个阶段段,包括括客户的的识别、获获取新的的客户、让让已有的的客户创创造更 多的利利润、保保持住有有价值的的客户等等。它能能够帮助助企业确确定客户户的特点点,使企企业能够够为客户户提供有有 针对对性的服服务客户识识

6、别的关关键问题题是确定定对企业业有意义义客户的的标准数据据挖掘技技术应用用在 对对营销的的反映情情况的预预测上。根根据历史史数据运运用数据据挖掘技技术建立立“客户行行为反应应”预测模模型,对对 客户户的未来来行为进进行预测测解决决客户流流失问题题,可以以使用数数据挖掘掘方法对对已经流流失客户户进行分分 类,并并对每类类流失客客户的特特征进行行描述。然然后,使使用关联联、近邻邻等挖掘掘技术和和方法对对现有客客户消 费行为为进行分分析, 以确定定每类客客户流失失的可能能性, 其中着着重于发发现那些些流失可可能性大大的优质质客户。 4” 华中中师范大大学经济济学院的的曹萍刊刊登的利利用数据据挖掘技技

7、术(DDM)提提升客户户关系管管理(CCRM) 中中指出:“客户关关系管理理系统随随着信息息技术的的发展和和企业管管理理念念的转变变,己受受到国内内外企业业的广 泛重视视。在实实际应用用中 CCRM 还可进进一步延延伸企业业供应链链管理,与 EERP (企业业资源计计划)进进行整合合, 将将客户、经经销商、销销售和人人力资源源等方。面面链接起起来,构构成企业业完整的的管理信信息系统统。CRRM 作作为 企企业的前前台提供供供应链链中的下下游链管管理,实实现企业业对客户户个性化化需求的的快速反反应。DDM 作作为 CCRM 中的关关键信息息技术,其在 CRMM 中的的应用与与发展,必将为为企业在

8、在信息时时代提供供看得见见的优势势。55” Peenziias 曾在计计算机世世界上上评论说说:“DM 将变得得更加重重要,由由于 DDM 如如此有价价值以至至于 企企业不再再会丢失失与其客客户有关关的任何何事物。如如果你不不在这方方面做些些什么,那么你你将失去去你的生生 意。” 还有许多专家和研究者提出了许多观点,都说明 DM 在 CRM 中的应用是可行的,是必要 的,是具有强大竞争力的。随着社会信息化的不断建设,网络设备的不断提升以及社会需求的不 断增加,DM 技术在 CRM 领域运用将得到普及。1.1 研研究意义义及思路路至 20007 年年 1 月,中中国互联联网用户户已经达达到 11

9、.377 亿人人,其中中 266.6%的用户户为网络络游戏用用户 群群体,市市场规模模已达到到 933.6 亿元人人民币。随随着中国国互联网网发展,网网络游戏戏市场还还会持续续增加。 2”但是激激烈的竞竞争是不不可避免免的,面面对平均均粘稠度度仅为 7.99 个月月的网络络游戏玩玩家来说说,如何何吸 引引及留住住玩家,如如何掌握握优质客客户已经经成为各各游戏运运营商的的当务之之急。 在其它它行业取取得巨大大成功的的客户关关系管理理体系已已越来越越受到网网络游戏戏运营商商的重视视,几个个 主流流运营商商:网易易,世纪纪,久游游,九城城,盛大大等都在在近年纷纷纷建立立和完善善客服体体系,以以应对愈

10、愈发 激激烈的市市场竞争争。 如如今的客客户关系系管理已已从“被动型型”转向“主动型型”,如果果能够通通过各种种数据挖挖掘技术术,对庞庞 大的的玩家数数据进行行挖掘分分析, 对玩家家进行分分类, 判断玩玩家行为为, 预预测玩家家流失, 分析玩玩家兴趣趣等, 就可以以使客户户关系管管理目标标更明确确化,客客服更主主动化,形形式更人人性化,以以达到利利益最大大化。 论文将将通三大大版块进进行分析析探索: 1、通通过对网网络游戏戏的介绍绍,网络络游戏客客户关系系管理内内容的分分析,并并对一种种类型网网络游戏戏 (MMMORRPG)生生命周期期的分析析,使读读者对网网络游戏戏及其客客户关系系管理有有一

11、个相相对具体体的概念念, 以以方便数数据挖掘掘案例分分析的说说明。 2、介介绍十种种主流的的数据挖挖掘技术术,让读读者对数数据挖掘掘技术有有个相当当的概念念,以方方便数据据挖 掘掘案例分分析的说说明。 3、着着重通过过利用决决策树对对玩家进进行了分分类;利利用神经经网络对对玩家流流失进行行了分析析判断;利 用用粗糙集集对玩家家信息进进行了挖挖掘。 这三个个案例, 来论证证数据挖挖掘技术术在网络络游戏客客户关系系管理中中 应用用的可行行性和有有效性。2 网络游游戏的客客户关系系管理2.1 网网络游戏戏分类网络游戏其其实是电电子游戏戏中的一一种(详详见图 2.11.1),其其中角色色扮演类类网络游

12、游戏(MMMORRPG) 和大中中型休闲闲游戏占占据了大大多数的的市场份份额, 因此本本文所有有的研究究内容都都是针对对这两种种网游形形式 进进行分析析的。 一角角色扮演演类网络络游戏 MMOORPGG(Maassiive Mulltipplayyer Onllinee Roole Plaayinng GGamee), 即大型型多人在在线角色色扮演 类游戏戏, 这这是目前前最主流流的在线线游戏类类型, 游戏构构筑了一一个有基基本健全全的社会会体制和和经济系系统的 虚拟世世界,玩玩家在游游戏虚拟拟世界中中扮演特特定角色色,通过过自己的的游戏技技能及其其它各方方面投入入,实现现 自己己所扮演演的角

13、色色在游戏戏虚拟社社会中的的生存和和成长, 并参与与游戏虚虚拟世界界的人际际沟通及及社会活活动 等等。目前前有 556%的的玩家分分布在其其中。 二休休闲游戏戏 休闲闲对战类类网络游游戏(CCasuual / LLobbby GGamee),简简称休闲闲游戏,包包括大中中型休闲闲网络游游戏 和和游戏平平台上的的游戏。休休闲游戏戏本身是是网络游游戏的一一种,休休闲游戏戏的特点点在于回回合制、阶阶段性, 玩一盘盘所耗费费的时间间一般不不会超过过 100 分钟钟。通过过玩休闲闲游戏这这种娱乐乐方式,玩玩家通常常可以得得到 放放松、休休息。目目前 440%玩玩家分布布在大中中型休闲闲游戏中中;4%玩家

14、分分布在平平台类游游戏中 。2.2网络络游戏客客户关系系管理范范围2.2.11游戏帐帐号及安安全措施施服务帐号的安全全是网络络游戏客客户关系系管理的的重中之之重!是是在客户户关系管管理涉及及到的范范围中客客户 流流失率最最高的一一个。如如果一个个 MMMORPPG 游游戏帐号号被盗,考考察期的的玩家流流失率基基本为百百分百, 形成期期流失率率也很高高,即使使是稳定定期的玩玩家,如如果帐号号不安全全了,也也会考虑虑退出,所所以一个个游戏 想延长长他的生生命周期期就必须须要最大大限度的的保证安安全措施施做到位位。2.2.22游戏内内容及玩玩法服务务这是吸引新新玩家,延延长老玩玩家生命命周期的的重要

15、手手段。一一个游戏戏是否让让玩家有有归属感感,除了了游戏本本身 和和游戏内内玩家的的交流,游游戏管理理人员和和玩家的的交流也也是一大大因素。 2.2.33游戏线线下活动动组织玩家举举行游戏戏外的各各种活动动,对于于稳定期期的玩家家来说具具有极大大的吸引引力。这这样的活活动能极极大地 延长玩玩家的生生命周期期,很好好地宣传传游戏。 2.2.44游戏的的更新及及版本当游戏出现现问题,更更新是很很好的解解决方法法。当玩玩家进入入稳定后后期,开开始迈向向衰退期期的时候候,游戏戏的 新新版本,新新玩法能能延长玩玩家的生生命周期期,乃至至延长整整个游戏戏的生命命周期。2.2.55客户分分析及客客户正面面引

16、导客户分析包包括很多多,也是是需要运运用数据据挖掘最最多的地地方。比比如玩家家资料分分析,玩玩家行为为分析,玩玩 家流流失分析析,玩家家期望分分析,玩玩家导向向分析,玩玩家流动动分析等等等。凡凡是涉及及到游戏戏利益有有关的玩玩 家数数据都是是其分析析的目标标。 客客户正面面引导就就是利用用客户服服务系统统,对玩玩家进行行有利于于运营商商的行为为引导。比比如:正正面言论论 引导导,客户户流失引引导(当当一个优优质客户户必定离离开该游游戏时,客客户服务务就需要要利用各各种方法法,尽可可 能地地引导其其进入该该运营商商运营的的其他游游戏, 即使失失败也要要使玩家家对运营营商存在在好感, 当运营营商推

17、 出新游游戏时就就有极大大可能使使该玩家家再次消消费)等等等。 3 客户生生命周期期 客户户生命周周期 根根据 DDwyeer 的的五阶段段模型,MMMORRPG 客户关关系发展展分为:考察期期,形成成期,稳稳定期,退退 化期期;其简简要描述述如下 3.1考察察期这是关系的的探索和和实验阶阶段,在在该阶段段,玩家家测试和和考察游游戏是否否值得自自己继续续玩下去去。 考考察期内内的客户户,客户户的消费费量很少少或者根根本没有有消费量量; 而而服务成成本和交交易成本本却是最最高的; 间接接效益基基本没有有,最多多只是聚聚集人气气; 利利润很低低甚至可可能是负负利润; 由由于不确确定性很很高,这这段

18、时期期内的客客户流失失可能性性很大,新新游戏出出现,不不好玩,家家人反对对 朋友友离开等等都有可可能造成成客户流流失。3.2形成成期这是关系的的快速发发展阶段段,双方方关系能能进入这这一阶段段,表明明考察期期玩家对对该游戏戏基本满满意, 建立了了一定的的好感与与依赖。 形成期期的客户户,客户户的消费费量开始始呈上升升趋势,而而到形成成后期更更加明显显 而服服务成本本和交易易成本开开始明显显下降; 间接接效益有有所形成成但不是是很明显显,只有有到形成成后期才才有扩大大趋势; 利润润快速上上升,到到形成后后期开始始向最高高点接近近; 在在这一阶阶段,由由于玩家家对游戏戏的了解解与依赖赖的增加加,玩

19、家家开始对对游戏产产生一定定感情,游游戏 虚虚拟财产产开始累累加,客客户流失失情况开开始好转转。但是是流失数数量还是是很多,特特别是“盗号”对该阶阶段客 户的打打击是毁毁灭性的的, 一一旦玩家家虚拟财财产损失失过大就就会导致致玩家放放弃游戏戏, 所所以对游游戏客户户安全 服务,特特别是防防盗,帐帐号找回回,损失失挽回等等工作要要特别细细致。 3.3稳定定期这是关系发发展的最最高阶段段,在这这个阶段段,玩家家已经沉沉迷于游游戏中,对对游戏有有了相当当的好感感 与依依赖。 稳定期期的客户户,客户户的消费费量是最最大的也也是最稳稳定的; 而服服务成本本和交易易成本开开始降到到一个最最低点; 间接接效

20、益已已经相当当明显,并并且进一一步扩大大中; 利润进进入一个个稳定的的高水平平; 在在这个阶阶段被称称为“铁杆玩玩家”,对游游戏的关关注度和和期望度度会相当当高,会会对游戏戏提出各各种意 见和建建议,会会主动拉拉拢朋友友进入游游戏;这这个阶段段的玩家家外界干干扰对其其影响也也是最小小的,即即使有人人 劝阻阻玩家游游戏,号号被盗而而损失严严重,游游戏中朋朋友流失失等情况况也很难难让他放放弃游戏戏。所以以管理人人员 要要重视这这部分玩玩家,积积极听取取他们意意见,甚甚至可以以给予他他们一部部分游戏戏中的管管理权限限,尽可可能延 长稳定定期。 3.4退化化期这是关系发发展过程程中关系系水平逆逆转的阶

21、阶段。关关系的退退化并不不一定在在稳定期期之后,其其实任何何 一个个时期都都有可能能因为各各种原因因退化。 退化期期的客户户,客户户的消费费量开始始回落,也也可能是是直接消消失; 而服务务成本和和交易成成本开始始回升,因因此要尽尽量挽留留这些客客户,但但一般不不会超过过考察期期的费 用,所所以挽留留客户比比建立个个新客户户成本要要低的多多; 间间接效益益开始缩缩小,如如果玩家家开始传传播坏的的口碑,那那么间接接效益将将成为负负效益; 利润润开始下下降,甚甚至直接接消失; 进入入这个阶阶段的玩玩家一般般是由于于长期玩玩该游戏戏而进入入一个疲疲劳阶段段,一些些小的影影响就可可能 使使之离开开。但由

22、由于玩家家已经投投入巨大大的经历历,对游游戏的感感情还是是比较深深厚的,所所以挽留留这部分分的 玩玩家就成成为管理理者的当当务之急急。更新新游戏的的新玩法法,新活活动,出出新的版版本,新新的虚拟拟装备虚虚拟宠 物等都都可以在在一定程程度上延延迟退化化期的形形成。 表 22.4.1 对对上述四四个周期期的各种种影响因因素作了了个总结结。 4 网络游游戏客户户关系管管理中的的数据挖挖掘4.1客户户分类4.1.11区分分“优质客客户” CRRM 中心思想就就是“优质客客户”概念,即即:200%客户户贡献 80%利润。在在网络游游戏中,特特 别是是免费游游戏,由由于其不不收取在在线服务务费,单单纯依靠

23、靠变卖“虚拟道道具”来盈利利,“优质客客户”更为重重 要,那那么如何何区分出出这些“优质客客户”,就成成为首要要解决的的问题。 4.1.22区分“热心玩玩家”对于网络游游戏运营营商来说说,“热心玩玩家”不可缺缺少,他他们可能能不是“优质客客户”,但他他们肯定定 是铁铁杆玩家家,是拥拥护该网网络游戏戏的稳定定期玩家家。他们们会热心心提供游游戏 BBUG,举举报非法法玩家,帮帮 助和和介绍新新玩家,帮帮助管理理更新网网站论坛坛,提高高游戏正正面影响响力。所所以找到到这些玩玩家并给给予一定定 的权权限有助助于游戏戏正常运运营。 4.1.33区分“非正常常玩家”“非正常玩玩家”那些虚虚拟数据据有异常常

24、的帐号号,出现现的可能能有:使使用外挂挂等非法法软件;盗号或或 利用用 BUUG 非非法获得得大量虚虚拟物品品或经验验;利用用交易转转移非法法获得的的物品;不过也也可能是是玩家通通 过线线下交易易获得大大量虚拟拟物品。如如何区分分出这些些帐号,并并时刻监监视这些些帐号,对对延长游游戏寿命命有 很很大的作作用。 4.1.44发掘潜潜在客户户在考察期间间的玩家家中就有有相当一一部分是是潜在客客户,他他们现在在可能没没有消费费或者消消费不多多, 但但只要他他们觉得得这个游游戏好玩玩或者其其他需要要的时候候就可能能变成“优质客客户”,比如如:一个个被游戏戏所 吸吸引的玩玩家,其其本身没没大量时时间且希

25、希望变强强,并有有这个经经济条件件,那么么他就是是一个有有消费能能力和 欲望的的“潜在客客户”。 4.2客户户行为分分析4.2.11安排 GM(GW)在线时时间从理论上来来说,一一对一的的营销战战略是最最好的,但但是从成成本论来来说在网网络游戏戏的 CCRM 中这 是不可可能的,那那么如何何让 GGM(GGW)的的作用发发挥到最最大呢?这就需需要去分分析挖掘掘数据,分分析玩家家 在线线时间,游游戏流量量。分析析一天中中哪个时时间段玩玩家在线线最多,一一月中各各个时间间段玩家家在线波波动, 及一年年中玩家家上线时时间波动动变化差差异,根根据玩家家数量,分分配 GGM(GGW)的的在线时时间和数数

26、量。 4.2.22建立自自动反馈馈系统玩家的数量量是庞大大的,因因此对客客服所提提出的问问题也有有大量是是重复的的,特别别是新游游戏,大大量 玩玩家的重重复提问问会导致致本就不不多的 GM(GW)重复工工作,效效率下降降。因此此设置一一个自动动反馈系系统, 对玩家家大量提提到的问问题进行行数据库库自动反反馈成为为有效的的解决方方法之一一, 那那么如何何筛选数数据库中中的 问问题及答答案就成成为需要要解决的的问题。 4.2.33客户流流失分析析在竞争愈发发激烈的的游戏市市场,即即使是没没有任何何消费的的玩家也也是运营营商的一一种资源源,因为为“优 质质客户”是建立立在比没没有消费费的“普通客客户

27、”更为“强大”的基础础上,才才愿意投投入资金金玩游戏戏的,所所 以,只只有大量量的“普通客客户”的存在在才能吸吸引“优质客客户”。因此此维系老老玩家,是是十分重重要的,不不同 于于其他产产业, 网络游游戏是人人们在线线交流的的一个平平台, 某个玩玩家的流流失很有有可能出出现联动动性流失失玩 家家。所以以监视玩玩家数据据动态,比比如上线线时间变变化,消消费数量量变化等等,预测测可能流流失的玩玩家,及及时 做做好与玩玩家的交交流,有有助于维维护老客客户。 4.2.44客户细细分由于国家强强制推出出防沉迷迷系统,身身份验证证更为真真实(不不排除玩玩家使用用他人身身份证,导导致获 得数据据有偏差差)

28、另另外, 。 由由于网络络游戏虚虚拟物品品现实价价值越来来越高, 非法盗盗取帐号号行为越越发猖狂狂, 因因此玩家家对帐号号安全也也越来越越重视, 注册帐帐号时填填写真实实资料的的比例越越来越高高, 这这对玩家家数据分分 析极极为有利利。 通通过数据据分析,游游戏运营营商可以以了解“优质客客户”的身份份,职业业,地域域,喜好好以及在在线时间间 等资资料,可可以因此此而进行行有效决决策。比比如:线线下活动动及宣传传的地点点安排,各各种活动动奖励的的物品内内 容,点点卡发放放地点的的比例安安排,周周边产品品的推出出地点,客客服中心心的安排排地点及及针对方方向等等等。 4.2.55客户户期望分分析客户

29、期望分分析是通通过客户户行为分分析,历历史数据据分析,综综合客户户资料,来来分析客客户对游游戏的 各种期期望。比比如:游游戏中举举行个活活动,发发放多少少虚拟物物品作为为奖励,这这需要经经过严格格计算的的。因 为发放放过多虚虚拟物品品会影响响游戏内内市场稳稳定,导导致玩家家流失,影影响玩家家消费道道具的热热情;发发放过 少会引引起玩家家不满,游游戏评价价会降低低。这时时就要分分析客户户期望,找找到客户户期望的的下限,结结合市场场 情况况,来设设定虚拟拟物品奖奖励的发发生几率率。5 数据挖挖掘技术术介绍5.1 数数据挖掘掘概论数据挖掘(datta mminiing,DDM)就就是从大大量的、不不

30、完全的的、有噪噪声的、模模糊的、随随机的实实际 应应用数据据中,提提取隐含含在其中中的、人人们事先先不知道道的但又又是潜在在有用的的信息和和知识的的过程。数数据 挖挖掘功能能用于指指定数据据挖掘任任务中要要寻找的的模式类类型。 数据挖挖掘任务务一般可可以分为为两类: 描述述和 预预测。 描述性性挖掘任任务刻画画数据库库中数据据的一般般特性。 预测性性挖掘任任务是在在当前数数据上进进行推断断, 以以进行预预测。 5.2 数数据挖掘掘技术5.2.11统计技技术统计技术对对数据集集进行挖挖掘的主主要思想想是:统统计的方方法对给给定的数数据集合合假定了了一个分分布 或或者概率率的模型型(比如如一个正正

31、态分布布),然然后根据据模型采采用相应应的方法法进行挖挖掘。5.2.22关联规规则数据关联是是数据库库中存在在的一类类很重要要的可以以发现的的知识。若若两个或或者多个个变量的的取值之之 间存存在某种种规律性性,就成成为关联联。关联联可分为为简单关关联,时时序关联联,因果果关联。关关联分析析的目的的 是找找出数据据库中隐隐含的关关联网,有有时并不不知道数数据库中中的关联联函数,即即使知道道也是不不确定的的,因 此关联联分析生生成的规规则带有有可信度度。 5.2.33基于历历史的分分析MBR(MMemoory-bassed Reaasonningg) MMBR 的本质质是: 先根据据经验知知识寻找

32、找相似情情况, 然后再再将这些些情况的的信息应应用于当当前的例例 子中中。使用用的三个个问题是是:寻找找确定的的历史数数据;决决定表示示历史数数据的最最有效方方法;决决定距离离函 数数、联合合函数和和邻近的的数量。 5.2.44遗传算算法 GGA(GGeneeticc Aiigorrithhms)该算法是基基于进化化理论,并并采用遗遗传结合合、遗传传变异及及自然选选择等方方法优化化结果。主主要思 想是:根据适适者生存存的原则则,形成成由当前前群体中中最适合合的规则则组成新新的群体体,以及及这些规规则的后后 代。规规则的适适合度(FFitnnesss)是对对训练样样本分类类准确性性的评估估。 5

33、.2.55聚集检检测将物理或者者抽象对对象的集集合,分分组成为为由类似似的对象象组成的的多个类类的过程程被成为为聚类。在在 由聚聚类生成成的数据据对象集集合中,这这些对象象具有相相似性,并并与其他他集合中中的对象象具有相相异性。这这种 相相异度是是根据描描述对象象的属性性值来计计算的,距距离是经经常被采采用的度度量方法法。 5.2.66连接分分析(LLinkk annalyysiss)连接分析( ) 它它的基本本理论是是图论,图图论的思思想是寻寻找一个个可以得得出好的的结果但但不是完完美结果果的算法法。 这这种不完完美但是是可行的的思想模模式,可可以使之之运用到到更广的的用户群群中。 5.2.

34、77决策树树(deecissionn trree)决策树( ) 决决策树是是能够被被看成一一棵树的的预测模模型。树树的每个个分支都都是一个个分类的的问题,内内部节点点表 示示在一个个属性上上的测试试,树叶叶代表类类或者分分布。 决策树树算法是是目前应应用最广广泛的归归纳推理理算法之之一,是是一种逼逼近离散散值函数数的方法法,也可可 将它它看作是是一个布布尔函数数。它是是以实例例为基础础的归纳纳学习算算法,通通过对一一组训练练数据的的学习,构构 造出出决策树树形式的的只是表表示, 在决策策树的内内节点进进行属性性值的比比较并根根据不同同的属性性值判断断从该 节点向向下的分分枝, 从而在在决策树树

35、叶节点点得到结结论。 所以从从根到叶叶节点的的一条路路径就对对应着一一条规 则,整整棵决策策树就对对应着一一组吸取取表达式式规则。 5.2.88神经网网络(NNeruual Nett) 神经网络( ) 神神经网络络是指由由大量神神经元互互联而成成的网络络,类似似于服务务器互联联而成的的因特网网。它主主要由 “神经元元”的互联联,或按按组织的的结点构构成。通通常神经经网络模模型由三三个层次次组成:输入层层,中间间层, 输出层层。 在在神经元元求得输输入值后后,再汇汇总计算算总输入入值;由由过滤机机比较总总输出值值,确定定网络的的输出 值。可可以通过过模拟判判断,来来不断修修正计算算的“权值”来达

36、到到学习的的目的,增增加判断断的正确确性。 5.2.99粗糙集集粗糙集是一一种研究究不确定定性问题题的工具具,它根根据已有有的给定定问题的的知识,对对问题论论域进行行 划分分。 然然后对划划分后的的每个组组成部分分确定其其对某个个概念的的支持程程度。 它用于于从数据据库中发发现分类类 规则则的基本本思路是是将数据据库中的的属性分分为条件件属性和和结论属属性。 对数据据库中的的元组根根据各个个属性 不同的的属性值值分成相相应的子子集, 然后对对条件属属性划分分的子集集与结论论属性划划分的子子集之间间上下近近似 关关系生成成判定规规则。 5.2.110回归归分析回归分析分分为线性性回归、多多元回归

37、归和非线线性回归归。线性性回归中中,数据据是用直直线建模模;多元元 回归归是线性性回归的的扩展, 涉及多多个预测测变量。 非线性性回归是是在基本本线性模模型上添添加多个个项式项项形 成成非线性性回归模模型。6 数据挖挖掘技术术在网络络游戏 CRMM 中的的具体应应用6.1利用用决策树树归纳分分类方法法进行玩玩家分类类6.1.11信息增增益的计计算决策树的核核心问题题是选择择最佳的的划分标标准。IID3 算法运运用信息息熵理论论,选择择当前样样本属性性 集中中具有最最大信息息增益值值的属性性作为测测试属性性。 该该属性使使得对结结果划分分中的样样本分类类所需的的信息 量最小小,并反反映划分分的最

38、小小随机性性或“不纯性性”。这种种信息理理论方法法使得对对一个对对象分类类所需的的期 望望测试数数目达到到最小,并并确保找找到一棵棵简单树树。 设设 S 是 ss 个数数据样本本的集合合。假定定类标号号属性具具有 mm 个不不同值,定定义 mm 个不不同类 Ci(i=11,m)。设 Si 是类 Ci 中的样样本数。对对一个给给定的样样本分类类所需的的期望信信息,即即系统的的总 熵熵由式(44.1.1.11)给出出: 其其中 PPi 是是任意样样本属于于 Cii 的概概率,并并用 SSi/SS 估计计。可以以看出,系系统总熵熵是属于于各个类类的 信信息量的的加权平平均。 设属性性 A 具有 v

39、个个不同值值a11,a22,a33.avv,可可以用属属性 AA 将 S 划划分为 v 个个子集 ss1,ss2,ss3.ssv ,;其其中,SSj 包包含 SS 中这这样一些些样本,他他们在 A 上上具有值值 ajj。如果果 A 选作测测试属 性,则则这些子子集对应应于由包包含集合合 S 的节点点生长出出来的分分枝。设设 Siij 是是子集 Sj 中类 Ci 的样本本数。 那么,这这时按 A 的的每个属属性值进进行分割割后的信信息量,也也就是系系统总熵熵或期望望信息由由式(44.1.1.22) 给给出: 项充当当第 jj 个子子集的权权,并且且等于子子集中的的样本个个数除以以 S 中的样样本

40、总数数。熵值值越小,子子集划分分 的纯纯度越高高。 引引入一个个量:信信息增益益(Innforrm aatioon GGainn)表示示系统由由于分类类获得的的信息量量,由系系统熵的的 减少少值定量量描述。用用属性划划分样本本集 SS 后所所得的信信息增益益值为式式(4.1.11.3): Gaain(A)=I(ss1,ss2,smm)-EE(A) (44.1.1.33) 6.1.22利用决决策树归归纳分类类方法进行网络游游戏中玩玩家(客客户)分分类 利利用决策策树归纳纳分类方方法,进进行网络络游戏中中玩家(客客户) 我们现现在要通通过一个个案例来来进行玩玩家分类类。首先先,我们们要在游游戏的玩

41、玩家数据据库中找找到我们们 需要要的关键键字,经经过筛选选,以下下三个关关键字将将被作为为游戏玩玩家分类类的依据据: 玩玩家收入入(高收收入者更更容易成成为优质质客户) 玩家在在线时间间(长时时间在线线的玩家家更容易易成为优优质客户户) 玩玩家消费费情况(只只有消费费的玩家家才会成成为优质质客户) 表(44.1.2.11)是对对 5 种不同同客户(类类别标记记)及其其判断依依据的解解释。 表(44.1.2.22)是计计算机经经过处理理后得出出的 116 种种判断。 由表(44.1.2.11)“类别标标记”这一类类别属性性,划分分为:优优质客户户,消费费客户,潜潜在客户户,普通通 客户户和无效效

42、帐号 5 类类。 类类优质客客户有 8 个个样本;类消费费客户有有 4 个样本本;类潜潜在客户户有 11 个样样本;类类普通客客户有 1 个个样本;类无效效帐号有有 2 个样本本。 因因此给定定本分类类所需信信息增益益为: 各属性性相应的的信息增增益为: Gaain(长期在在线)= I(S1 ,S22 ,SS3 ,S4 ,S55)- E(长长期在线线)=11.8775-11.5=0.3375 Gaiin(高高收入)= II(S11 ,SS2 ,S3 ,S44 ,SS5)- E(高收入入)=11.8775-11.755=0.1255 Gaain(消费)= II(S11 ,SS2 ,S3 ,S44

43、 ,SS5)- E(消费)=1.8755-1.0655=0.81 Gaiin(高高消费)= II(S11 ,SS2 ,S3 ,S44 ,SS5)- E(高消费费)=11.8775-00.8775=11 Gaain(持续高高消费)= II(S11 ,SS2 ,S3 ,S44 ,SS5)- E(持续高高消费)=1.8755-1.56=0.3315 由此可可以看住住 Gaain(高消费费)最大大,高消消费在属属性中具具有最高高信息增增益,以以此作为为根节点点, 并并出现两两个分歧歧,对应应两个结结果,以以此类推推生成决决策树图图(4.1.22.3)。 从这个个决策树树中,可可以很清清楚地分分析出不不

44、同类型型的客户户,这样样在 CCRM 决策中中可以对对不同 类型的的客户选选择不同同的策略略。 由由决策树树可以很很容易地地得到“IF-THEEN”形式的的分类规规则: IF “高消费费”=“Y” THHEN 类别标标记=“优质客客户” THHEN 类别标标记=“优质客客户” IFF “高消费费”=“N”ANDD 消费费=“Y” ANND “持续高高消费”=“N” THHEN 类别标标记=“消费客客户” IFF “高消费费”=“N”ANDD 消费费=“N” ANND “长期在在线”=“Y” ANND “高收入入”=“Y” THHEN 类别标标记=“潜在客客户” IFF “高消费费”=“N”AN

45、DD 消费费=“N” ANND “长期在在线”=“Y” ANND “高收入入”=“N” THHEN 类别标标记=“普通客客户” IFF “高消费费”=“N”ANDD 消费费=“N” ANND “长期在在线”=“N” THHEN 类别标标记=“无效帐帐号”6.2利用用神经网网络型知知识挖掘掘技术进进行玩家家流失预预测我们可以利利用神经经网络挖挖掘技术术来预测测玩家流流失的可可能性。 首先我我们通过过对历史史数据的的统计分分析,发发现多数数流失玩玩家都有有一些共共同的数数据变化化,比如如: 自自身帐号号上的虚虚拟币或或者虚拟拟物品大大量减少少或转移移;消费费明显下下降;上上线时间间明显减减少;在在

46、“好 友友”中有一一定数量量的好友友离开游游戏(上上线时间间减少或或不上线线)等等等; 然然后,我我们根据据这些共共同点,对对现在的的玩家数数据进行行比较,对对玩家的的某一项项内容的的现状给给 定一一个计算算机判断断值, 并乘以以通过大大量数据据得出的的一个“权值”, 然然后把所所有项目目得出的的数据相相加, 就得到到了一个个代表玩玩家流失失的可能能性的数数值。 如图(44.2.1):某玩家家好友里里有 33 名已已被判断断为流失失客户,计计算机根根据函数数公式得得出判断断值(其其 实就就是玩家家好友流流失程度度)为 0.99,而通通过大量量历史数数据“学习”得出该该项目权权值(其其实就是是好

47、友流流 失对对玩家离离开游戏戏的影响响度)为为 0.15,所所以该项项目最终终值为 0.1135。所所有项目目最终值值相加结结果为 0.8845,因因为逼近近于原给给定的参参考值 1,所所以计算算机判断断玩家将将会流失失。 事事实上,神神经元预预测值完完全取决决于联结结网络的的权值,输输出结果果的正确确率也取取决于权权值的判判定。 因此神神经网络络挖掘技技术需要要不断“学习”历史数数据来修修正其权权值,以以达到趋趋于正确确的判定定结果。 6.3利用用粗糙集集型知识识挖掘技技术进行行玩家信信息挖掘掘粗糙集理论论的出发发点是假假定所研研究的每每个对象象涉及的的一些信信息,比比如对流流失玩家家信息进

48、进行 挖挖掘,可可以得到到流失玩玩家的一一些相似似信息,并并对目前前玩家相相比较,以以预测玩玩家是否否会流失失。 现现在我们们通过对对整个玩玩家数据据库进行行粗糙集集数据挖挖掘,以以得到一一些看不不到的有有效信息息。 表表(4.3.11)是玩玩家数据据库中的的一段资资料截取取,我们们要通过过它来说说明如何何对玩家家资料进进行有 效的信信息挖掘掘。 策策略 11:去掉掉没有意意义的属属性。比比如“玩家 ID”,虽然然全部为为不同属属性值,但但其本身身对数据据 : 挖掘毫毫无意义义,我们们可以直直接去除除,无需需计算; 策略略 2:面向属属性进行行概念提提升。比比如“IP 地址”,“常州”和“无锡”都属于于江苏,那那么都提提升 : IFF “高消费费”=“N”ANDD 消费费=“Y” ANND “持续高高消费”=“Y” 为江江苏,“浙江宁宁波”提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论