[硕士论文精品]自动化数据挖掘在电信业中的应用_第1页
[硕士论文精品]自动化数据挖掘在电信业中的应用_第2页
[硕士论文精品]自动化数据挖掘在电信业中的应用_第3页
[硕士论文精品]自动化数据挖掘在电信业中的应用_第4页
[硕士论文精品]自动化数据挖掘在电信业中的应用_第5页
已阅读5页,还剩55页未读 继续免费阅读

[硕士论文精品]自动化数据挖掘在电信业中的应用.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电人学研究生论文自动化数据挖掘在电信业中的应用摘要随着信息技术革命的发展进行,电信新技术层出不穷,从单纯的语音固话到移动通信、宽带、3G,新技术蓬勃涌现。面临全球经济一体化进程的加快,中国加入WTO,国内电信运营商相继海外上市。中国电信市场的竞争异常激烈,如何利用企业信息化降低成本、提高效率、强化企业核心竞争力,成为电信运营商的必然选择。电信运营商存储了海量的历史数据,包括用户资料,通话详单、话费帐单等信息。在这些海量的数据中,是否隐含着某些内在的对市场营销、客户维护有着重要价值的信息。如何能够发现这些信息,做到有针对性营销和服务,实现从数据到知识再到价值的提升呢数据挖掘技术提供了一条找到这种隐藏信息的捷径。数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。数据挖掘技术从一开始就是面向应用的。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。在电信业市场营销中数据挖掘技术可以根据客户的消费行为,细分用户群,实现有针对性的精细化营销,通过交叉销售,提升用户ARPU等。数据挖掘分为定向和非定向两类。定向数据挖掘地目的是解释或分类某一个目标,例如该用户是否为高价值用户,是否有可能使用此1北京邮电人学研究生论文类业务。定向数据挖掘的被用来预测值时,需要定义一个目标预测值,预测值可以是一个二义的属性如是否。或者是一个多属性的预测值,如按照用户ARPU进行分类,区分其为高价值还是低端用户。非定向数据挖掘的目的是在不预设目标域或确定类的前提下,找到批量数据间的模式或者相似性。非定向数据挖掘被用来发现数据中本质的结构、关系、相似。非定向数据挖掘不需要确立一个预测范围,聚类算法就被用来分析非定向的问题。ORACLEDATEMINING是内嵌在ORACLE数据库中的数据挖掘工具。本文详细说明了如何使用ORACLEDATEMINING定时自动完成数据挖掘中的数据准备、构建模型、评估模型这三个数据挖掘过程。并介绍了如何使用程序定时自动地执行数据挖掘过程及构建商业智能网站系统的方法。关键词数据挖掘,电信业,市场营销,ORACLE数据库,自动化数据挖掘北京邮电大学研究生论文AUTOMATICALLYDATAMININGINTELECOMBUSINESSABSTRA了RTHEREARETOOMUCHDATABUTNOTENOUGHINFORMATION;THISISAPROBLEMFACINGMANYTELECOMBUSINESSESMOSTTELECOMBUSINESSESHAVEANENORMOUSAMOUNTOFDATA,WITHAGREATDEALOFINFORMATIONHIDINGWITHINIT,BUTITISHARDTOANALYZEWITHTHETRADITIONALMETHODSOFDATAANALYSISDATAMININGPROVIDESAWAYTOGETATTHEINFORMATIONBURIEDINTHEDATADATAMININGCREATESMODELSTOFINDHIDDENPATTERNSINLARGE,COMPLEXCOLLECTIONSOFDATA,PATTERNSTHATSOMETIMESELUDETRADITIONALSTATISTICALAPPROACHESTOANALYSISBECAUSEOFTHELARGENUMBEROFATTRIBUTES,THECOMPLEXITYOFPATTERNS,ORTHEDIFFICULTYINPERFORMINGTHEANALYSISDATAMININGFUNCTIONSCAILBEDIVIDEDINTOTWOCATEGORIESSUPERVISEDDIRECTEDANDUNSUPERVISEDUNDIRECTEDSUPERVISEDFUNCTIONSAREUSEDTOPREDICTAVALUE;THEYREQUIRETHESPECIFICATIONOFATARGETKNOWNOUTCOMETARGETSAREEITHERBINARYATTRIBUTESINDICATINGYESNODECISIONSBUYDONTBUY,CHUMORDONTCHUM,ETCORMULTICLASSTARGETSINDICATINGAPREFERREDALTERNATIVECOLOROFSWEATER,LIKELYSALARYRANGE,ETCNAIVEBAYESFORCLASSIFICATIONISASUPERVISEDMINING3北京邮电人学研究生论文ALGORITHMUNSUPERVISEDFUNCTIONSAREUSEDTOFINDTHEINTRINSICSTRUCTURE,RELATIONS,ORAFFINITIESINDATAUNSUPERVISEDMININGDOESNOTUSEATARGETCLUSTERINGALGORITHMSCANBEUSEDTOFINDNATURALLYOCCURRINGGROUPSINDATAORACLEDATAMININGODMEMBEDSDATAMININGWITHINTHEORACLEDATABASETHISARTICLESAYSTHEINFORMATIONABOUTDATAPREPARATIONANDMODELING,ANDDESCRIBETHEWAYTOUSEPLSQLPROCEDUREINAUTOMATICALLYDATAMININGKEYWORDSDATAMINING,TELECOMBUSINESSES,ORACLEDATABASE,AUTOMATICALLYDATAMINING4北京邮电大学研究生论文独创性或创新性声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名左纽日期坌丝签童垂2关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。保密的学位论文在解密后遵守此规定保密论文注释本学位论文属于保密在年解密后适用本授权书。非保密论文注释本学位论文不属于保密范围,本人签名彦纽翮签名璐锋啦一适用本授权书。日期日期北京邮电人学研究生论文第一章绪论11论文研究的理论与应用背景111数据挖掘技术的理论背景人类已经进入一个网络化的时代,计算机和通信技术正改变着人类社会。纽约时报由60年代的10“20版扩张至现在的100“,200版,最高曾达1572版;北京青年报也已是16“40版;市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为30“45分钟,只能浏览一份24版的报纸。大量信息在给入们带来方便的同时也带来了一大堆问题第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率”面对这一挑战,数据库中发现知识KDD技术应运而生,并显示出强大的生命力。自60年代开始,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数据库系统。到70年代,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统、数据建模工具、索引和数据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。自80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系、面向对象、对象一关系和演绎模型。包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。同时,在过去的三十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息提取和数据分析。最近出现的一种数据库结构是数据仓库。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。随着数据库技术的迅速发展以及数据库系统的广泛应用,人们积累的数据越来越多。海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘技术可以满足人们的这种需求。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是北京邮也人学研究生论文一海量数据搜集一强大的多处理器计算机一数据挖掘算法FRIEDMAN1997列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣一超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;一先进的计算机技术,例如更快和更大的计算能力和并行体系结构一对巨大量数据的快速访问;一对这些数据应用精深的统计方法计算的能力。、图11数据库技术的进化北京邮电大学研究生论文112论文研究的应用背景及意义随着信息技术革命的发展进行,电信新技术层出不穷,从单纯的语音固话到移动通信、宽带、3G;面临全球经济一体化,中国加入WTO,国内电信运营商相继海外上市。这是一个发展变革的时代。面对异常激烈的电信市场竞争,如何利用企业信息化降低成本、提高效率、强化企业核心竞争力,成为电信运营商的必然选择。电信运营商存储了海量的历史数据,包括用户资料,通话详单、话费帐单等信息。长期以来,电信企业大量详尽的电信业务数据只被简单的用在各种业务系统中,而没有被更有效的开发利用。在这些海量的数据中,是否隐含着某些内在的对市场营销、客户维护有着重要价值的信息。如何能够发现这些信息,做到有针对性营销和服务,实现从数据到知识再到价值的提升呢运用传统人工的数据分析方法,很难快速、准确的找到这类隐藏的信息。数据挖掘技术提供了一条找到这种隐藏信息的捷径。与传统人工分析方式相比,数据挖掘技术能够从大量、复杂的数据中发现隐藏的信息。例如数据的属性非常多、数据结构较为复杂、分析过程难以实现。从全球范围看,世界各地的许多运营商都应用了数据挖掘技术并且从中获得了巨大的收益数据挖掘在世界电信行业中有很多成功的案例,下面这些公司使用数据挖掘技术解决了一些商业问题BRITISHTELECOMMUNICATIONS英国向销售人员和营销活动提供了“最佳客户“清单直邮活动回应率提高了100TELECOMITALIAMOBILE意大利预防了客户的流失加强了客户交叉销售的机会对客户的行为有更深的理解HUTCHISORLTELECOM香港建立客户忠诚度评估体系,降低了客户的流失。12论文的主要内容和贡献121论文的主要内容论文来源的课题是作者工作单位的一项研究课题,其内容是应用数据挖掘技术建立商业智能分析系统。通过对电信公司大量的通话记录、用户资料和帐单的挖掘,发现顾客的行为,提供有针对性的服务,这样不仅提高客户服务水平以增加顾客忠诚,更重要地是,去寻找那些对企业利润贡献度高的业务的使用者,并北京邮电人学研究生论文挖掘其规律以增加这一类业务的销售,从而提升企业获利能力。从技术理论上讲,数据挖掘技术涉及数据库技术、并行计算、分布式计算、统计学、人工智能、机器学习等,是许多学科的汇集。从技术实现上讲,涉及多种平台与工具的集成,需要在技术上实现多平台多技术的整合。本文阐述了数据挖掘的概念,叙述了电信业如何应用数据挖掘分析问题,描述了基于数据挖掘技术的商业智能系统的总体结构、实现及系统效果。122论文的主要贡献本论文首先综述了数据挖掘技术的概念,详细叙述了在电信业中如何应用数据挖掘技术,随后给出了基于数据挖掘技术的商业智能系统的硬件架构、系统组成及实现、系统效果等。本文的重点是叙述了自动化数据挖掘的概念。国内电信运营商一般都建立了经营分析系统,这些经营分析系统普遍应用了数据仓库和OLAP技术,但是真正把数据挖掘技术嵌入到经营分析系统的却不多。原因是数据挖掘需要人工的进行数据准备,在建模、检验、部署的过程中,也需要人工的干预。一旦市场形势有所变化,又要重新进行人工地数据挖掘过程。而且整个过程不能形成一个闭环的流程,今天进行完数据挖掘分析得到结果,明天市场态势变了,挖掘出的东西就没用了。本论文提出自动化数据挖掘的概念,将数据挖掘的数据准备、建模、检验、部署过程全部封装入PLSQL存储过程,定时自动执行,以达到数据挖掘自动化的目的。同时,形成一个数据准备、数据挖掘、进行市场营销活动、根据营销活动检验数据挖掘成效、再调整数据挖掘建模的闭环流程。整个流程以终为始,不断改进提高,真正有效的将数据挖掘应用到电信企业管理决策中。传统的基于OLAP的经营分析系统可以告诉企业有什么问题,哪里出现了问题。自动化数据挖掘系统可以告诉企业怎么做,做什么,做的结果如何的问题。北京邮电大学研究生论文第二章数据挖掘概念21数据挖掘可以解决的问题数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。数据挖掘技术从一开始就是面向应用的。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。在电信领域中数据挖掘技术可以解决以下问题L、根据客户的消费行为,细分用户群,实现有针对性的精细化营销。2、发现用户潜在的需求,为用户提供更多的业务和更好的服务。3、通过交叉销售,提升用户ARPU。4、客户保持以及提高客户忠诚度5、提高投资回报率ROI以及减少促销成本6、发现欺诈、浪费、滥用等不良行为7、确定信用风险等。简单地讲,电信领域数据挖掘项目的业务问题就是通过对电信公司大量的历史数据的挖掘,发现顾客的行为,提供有针对性的服务。这样不仅提高客户服务水平以增加顾客忠诚,更重要地是,去寻找那些对企业利润贡献度高的业务的使用者,并挖掘其规律以增加这一类业务的销售,从而提升企业获利能力。22数据挖掘分类数据挖掘分为定向和非定向两类。定向数据挖掘地目的是解释或分类某一个目标,例如该用户是否为高价值用户,是否有可能使用此类业务。定向数据挖掘的被用来预测值时,需要定义一个目标预测值,预测值可以是一个二义的属性如是否。或者是一个多属性的预测值,如按照用户ARPU进行分类,区分其为高价值还是低端用户。非定向数据挖掘的目的是在不预设目标域或确定类的前提下,找到批量数据间的模式或者相似性。非定向数据挖掘被用来发现数据中本质的结构、关系、相似。非定向数据挖掘不需要确立一个预测范围,聚类算法就被用来分析非定向的问题。数据挖掘还可分为预测型数据挖掘和描述型数据挖掘。预测型数据挖掘建立一个或多个模型,这些模型可以输出一个新的数据集。预测性的数据挖掘有分类、回归。描述型数据挖掘可以用一种简洁的方式来描述数据的性质、特征。描述行北京邮电人学研究生论文为聚类、关联。不同的算法可以满足不同的目的,每一种算法都有优点与不足。23ORACLE数据挖掘支持的功能ORACLEDATEMINING是内嵌在ORACLE数据库中的数据挖掘工具。ORACLEDATAMINING支持以下功能L、定向的数据挖掘分类将数据分为不同的类别并且预测属于哪一种类别。回归近似的预测连续值。属性重要度发现哪些属性在预测结果的过程中最为重要。异常检测发现那些不满足特征的数据2、非定向的数据挖掘聚类发现数据中自然的组合。关联分析购物篮问题。特征萃取从一些属性中发现新属性。24数据挖掘过程数据挖掘由以下6个步骤构成L、业务理解要进行数据挖掘,首先要把商业问题转化为可以由数据挖掘解决的问题。需要将数据挖掘任务定位为分类、回归、聚类或关联等问题。2、数据理解需要理解数据的含义,了解数据来源,确保数据的质量。3、数据准备需要将数据转化为可以建模的数据,将各种类型、存储方式的数据整合到一起以便于进行建模。4、构建模型选择建模的方法,利用数据挖掘软件实现。5、评估模型评估模型的准确度、可信度、精确度。是否生成了有用的规则。6、部署模型从数据挖掘的环境转移到评分环境,对数据挖掘的结果进行评测,计算投资回报率。ORACLEDATEMINING可以支持数据挖掘中的数据准备、构建模型、评估模型这三个过程。北京邮电人学研究生论文第三章数据挖掘的数据准备过程下面来详细说明数据准备工作。数据挖掘前提是需要大量、有效的数据来建立模型。在数据库里,数据存放在表中,实际情况下,数据往往不准确,有缺失、错误的情况。数据需要先进行适当的整理,进行处理、转换,才能作为建立数据模型的基础数据。据经验统计,大约超过80的时间耗费在数据准备过程中。数据准备可以利用数据库的强大功能进行。31ORACLEDATEMING支持的数据类型ORACLEDATEMINING将数据区分为两类CATEGORICAL分类型和NUMERICAL数值型。分类型指的是将数据分成固定的几类,例如只有两类,是否、男女这样的被称为二义值。多于两个值的,例如少、中、多、极多被称为多义值。数值型是由大量数字组成,例如用户合计费、通话次数、短信条数。可以将数值型转换为分类型,例如可以将用户合计费用划分为低、中、高等。ORACLEDATEMINING分类和回归算法都需要指定一个目标属性,分类算法的目标属性可以为数值型也可以是分类型,回归算法只支持数值型的目标属性。要使用ORACLEDATEMINING进行数据挖掘,必须将数据转换为ORACLEDATEMINING支持的数据形式。ORACLEDATEMINING的数据必须为数据库里的一个表或视图。这个表或者视图必须为标准的关系表。ORACLEDATEMINING支持以下数据类型INTEGER整数型NUMBER数字型FLOAT浮点型VARCHAR2字符型CHAR文本NESTEDCOLUMN嵌套列ORACLEDATEMINING决策树方法不支持当初始数据不是以上类型的数据时,需要在数据库里将数据转换为以上类型。32数据处理在使用算法建立模型之前,必须将数据转换为适合数据挖掘的形式,不同的算法需要将数据转换为不同的形式,数据转换工作有将两个表关联为一个表或视图,处理缺失值、稀疏数据、异常值。可以采用修剪数据、离散化数据、标准化数据等办法。321对缺失值、稀疏数据、异常值的处理北京邮电人学研究生论文1、缺失数值的处理数据经常有缺失、不全的空数值,通常ORACLEDATEMINING指定缺失值为NULL。ORACLEDATEMINING可以有效的应对缺失值,不需要用户再对缺失值作特别处理。但是如果数据为空,建议将其转换为0或NO的形式,尽量避免空数据的出现。2、稀疏数值的处理如果某个属性的数据值只有D,部分最多不超过20,通常为3或更少不为零或空,这就是稀疏数据。例如购物篮问题,可能有10000种商品,但是每个用户平均购买只有10种,这样就是一个1010000的稀疏数据。关系模型较适合处理稀疏问题。不同的算法对稀疏数据的处理方式不同,对于SUPPORTVECTORMACHINE、KMEANS、ASSOCIATION、NONNEGATIREMATRIXFACTORIZATION,NULL值显示为稀疏值;其他算法,NULL值意味着数据缺失。3、异常值处理对于超出正常范围的数据,叫做异常值。NAIVEBAYES、ADAPTIVEBAYESNETWORK,SUPPORTVECTORMACHINE,ATTRIBUTEIMPORTANCE,CLUSTERINGALGORITHM、NONNEGATIVEMATRIXFACTORIZATION对这种类型的数据较为敏感。322数据处理的方法1、修剪数据可以通过修剪数据剔除最小最低或最大最高的那部分数值,将这部分数值置为空值。2、离散化数据通过分类可以实现数据的离散化。分类就是把相关的数据分类,减少一种数据的值的数量。值的数量较少可以使建模的速度更快。分类必须谨慎,适当的分类可以提高建模的速度和准确性。不恰当的分类会导致建模的不准确。部分ORACLEDATEMINING算法NAIVEBAYES、ADAPTIVEBAYESNETWORK、CLUSTERING、ATTRIBUTEIMPORTANCE、ASSOCIATIONRULES可以从离散化分类的过程中受益。分类的方法ORACLEDATEMINING提供了三种分类的方法TOPN最经常出现的前几种按照数据值出现的频率,将出现频率最高的数据集中为几类。EQUIWIDTHBINNING将数据按照等值进行分类,例如将用户合计话费,按照每五元一个档次进行分档。OUANTILEBINNING按百分比进行分类。将数据按照百分比分布进行分档,例如将用户合计费从低到高,按照排名的百分比分档。3、数据标准化数据标准化将数据整理为一个标准的范围,例如将数据转化为L到100。标准化可以避免人工加权带来的影响。KMEANS、SUPPORTVECTORMACHINE、NONNEGATIVEMATRIXFACTORIZATION可以从数据标准化中受益。北京邮电大学研究生论文第四章数据挖掘在电信业的应用41分类型数据挖掘在电信业的应用分类是把一组数据分为几类,分类问题可以有二义或多义的目标。分类是根据历史数据建立一个模型,预测性的分类是为了把一个不存在于历史数据中的数据分到一个目标类中。在电信业中,分类被用来解决客户细分、信用分析等问题。例如根据历史数据建模,来预测一个用户将是高价值用户还是低价值用户。在分类问题中,成本是一个很重要的问题。可以根据成本避免作出一个错误的决定。根据成本可以敏感的分析不同错分类带来的影响。假设一位用户是否会响应促销,预测目标值有两个是否。假设促销会带来100元收益,促销成本为LO元。模型预测为是实际为是成本为O元模型预测为是实际为否成本为10元模型预测为假实际为真成本为100元模型预测为是实际为否成本为0元在这种情况我们要避免发生模型预测为假,实际为真的情况。在分类建模时,如二义类,历史数据要注意不能只有一种情况,使模型无法分辨两种情况的区别。从实际情况上看,国内电信企业每月的客户流失率一般在13左右,如果直接采用某种模型比如决策树、人工神经网络等可能会因为数据概率太小而导致模型的失效,因此我们需要加大流失客户在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。ORACLEDATEMINING支持以下的分类方法DECISIONTREEALGORITHM决策树NAIVEBAYESALGORITHM贝叶斯分类ADAPTIVEBAYESNETWORKALGORITHM可适应性贝叶斯网型分类SUPPORTVECTORMACHINEALGORITHM支持向量机表41各种数据挖掘分类算法的特色特色算法NAIVEBAYESADAPTIVESUPPORTDECISIONBAYESNETWORVECTORTREEMACHINE速度非常快快快快准确性在某些情况较在某些情况较好在某些情况较好好好规则透明性没有黑盒有简单规则没有黑盒有详细规测缺失值处理缺失值缺失值稀疏数据缺失值北京邮电人学研究生论文411决策树方法决策树是一种结构。通过应用简单的决策规则,决策树可以将大型记录集分割为相互联系的小记录集。通过每一次连续分割,结果集中的成员变得越来越相似。决策树可以用作二义或多义分类,能够透明的建立模型,分析者可以明白模型是怎么建立的。ORACLEDATEMINING可以提供准确、易懂的模型规则,规则的形式为如果有什么条件,就会发生什么。在ORACLEDATEMINING建模的过程中不需要太多的人工干预。需要注意的是决策树不支持嵌套表。在ORACLEDATEMINING中,决策树最多可以有7层,当一个树叶包含的记录少于20条或只含有不到10的记录,该树叶不会被拆分。当树叶只有不到10条记录,或者只含有不到5的记录,该拆分不成立,不能单独被拆分。生成决策树后,可以看到树的构成。PREDICTEDVALUE是树叶里绝大部分数据的预测值。CONFIDENCE是树叶中预测准确的百分比。CASES是树叶中满足规则的记录的数量。SUPPORT是树叶里满足规则的记录占总记录的数量。在电信领域,决策树可以用来分析客户的消费行为,细分市场,实现有针对性的精细化营销。例如可以根据历史数据建模来预测一个用户是否会使用手机报业务。从数据库中,可以得到的数据有手机号码、开户时间格式YYYYMMDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、彩信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长、手机是否支持彩信功能、手机是否支持GPRS功能。首先进行数据处理,将开户时间转换为开户天数,处理空值为零,设定手机号码为唯一键值,设定手机报为目标值。经过建模、评估。发现是否使用手机报主要与用户彩信费用、彩信条数、GPRS流量有关。模型可信度达至1J9214,可信度属于优等级。412朴素贝叶斯方法贝叶斯定理假设X、Y是一对随机变量,他们的联合概率PXX,YY是指X取值X,Y取值Y的概率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特定值的概率。例如,条件概率PYYXX是指在变量X取值X的情况下,变量Y取值Y的概率。X和Y的联合概率和条件概率满足以下关系PX,YPYIX水PXPXLY牢PYPYIXPXLY宰PYPX北京邮电大学研究生论文朴素贝叶斯分类器给定类标号Y,朴素贝叶斯分类器在估计类条件概率时假设属性之间的条件独立。条件独立假设可形式化表述如下DPXIYYRIPXILYYIL其中每个属性集XX1,X2,XD包含D个属性。对分类属性XI,可根据类Y中属性值等于XI的训练实例的比例来估计条件概率。NAIVEBAYES速度非常快,可以像决策树算法一样,对数据进行分类预测。在电信领域,朴素贝叶斯分类器可以用来分析客户的消费行为,细分市场,实现有针对性的精细化营销。例如可以根据历史数据建模来预测一个用户是否会使用手机报业务。从数据库中,可以得到的数据有手机号码、开户时间格式YYYYMMDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、彩信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长、手机是否支持彩信功能、手机是否支持GPRS功能。首先进行数据处理,将开户时间转换为开户天数,处理空值为零,设定手机号码为唯一键值,设定手机报为目标值。因为目标是确定哪些用户更可能使用能够手机报,所以选择目标值为已定制手机报的用户。朴素贝叶斯分类器将数值型数据转化为分类型数据。可以选择是按照百分比、等值分类的方法,对于非类型数据,会使用TOPN方法,剩余数据被分至1OTHER类中。经过建模、评估。发现是否使用手机报主要与用户彩信费用、彩信条数、GPRS流量有关。模型可信度达到7643,可信度属于优等级。可以将产生的模型进行部署,需要将新的数据按照产生该模型的数据格式进行处理,进行模型部署后,会产生一张清单,可以列出每一位用户使用手机报业务的可能性。与决策树算法相比,朴素贝叶斯分类器建模速度较快,但是模型产生的规则不易理解,在对手机报预测的准确度上比决策树稍差。413可适应型贝叶斯网分类器可适应型贝叶斯网分类器是ORACLEDATEMINING提供的又一种分类的方法。北京邮电人学研究生论文他也是利用了贝叶斯概率论进行预测。与朴素贝叶斯方法不同的是他首先对数据进行ATTRIBUTEIMPORTANCE分析,即属性重要性分析,再使用朴素贝叶斯分类器建模。通过属性重要性分析,得知哪些属性对预测目标有J下面的影响,然后再使用这些属性进行分类。在建模时可以选择对贝叶斯分类影响最大的属性的个数,从1到数据全部属性的个数。建模完成后,可以看到建模生成的规则。规则的形式是IF全时通服务IN未定制AND彩信费IN有ANDGPRS流量IN有AND彩信条数IN有AND手机彩信功能IN支持AND手机GPRS功能IN支持THEN手机报EQUAL会定制。可适应型贝叶斯网分类器建模速度较决策树慢,在本事例对手机报预测准确度比决策树梢差。模型可信度达到9084,可信度属于优等级。贝叶斯分类中,如果预测手机报为定制,定制手机报的数据量与非定制手机报的数据量差距不能太大。如果数据大部分为非定值手机报,生成的规则大部分都是预测为非定值手机报的规则,这种结果是不能让人满意的。建议应当适当加大是否中比例偏小数据的数量。数据量较大的与数据量较小的比值应控制在82以下,建议应设为73或64。414支持向量机支持向量机实现的是如下思想它通过某种事先选择的非线性映射核函数将输入向量映射到一个高维特征空间,在这个空间中构造最优分类超平面。因此,使用SVM进行数据集分类工作的过程为首先,通过预先选定的一些非线性映射将输入空间映射到高维特征空间,使得在高维属性空间中有可能对训练数据实现超平面的分割,避免了在原输入空间中进行非线性曲面分割计算。SVM数据集形成的分类函数具有这样的性质它是一组以SV为参数的非线性函数的线性组合,因此分类函数的表达式仅和SV的数量有关,而独立与空间的维度。在处理高维输入空间的分类时,这种方法尤其有效。ORACLEDATEMINING的支持向量机有两种核心1INEAR线形和GAUSSIAN高斯。ORACLEDATEMINING没有对数据属性个数的限制,但是数据属性越多,对电脑硬件的需求越高。用户可以设置支持向量机建模为质量优先QUALITYACCURACY或PERFORMANCEBUILDTIME速度优先。数据输入同上述决策树,建模后可以看到生成的COEFFICIENTS系数,数据属性值对应系数越高说明对预测值起的作用越大。得出的结果为一张属性清单,手机支持GPRS功能和支持彩信功能的较有可能选择手机报业务。模型可信度达到9203,可信度属于优等级。在本事例下,建模速度较慢,准确度较好。北京邮电大学研究生论文42数据挖掘回归方法在电信业中的应用回归是通过具有已知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是像线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。ORACLEDATEMINING采用SVM支持向量机来处理回归问题。回归与分类很相似,回归和分类的区别是回归处理数值型和连续值的属性。分类处理离散和不连续的问题。因此回归问题选择预测值必须是连续的值。在电信领域,回归可以用来分析客户的话费结构,预测用户使用某种业务的可能性。实现有针对性的市场营销。例如可以根据历史数据建模来预测一个用户使用彩信业务的可能性。建模后部署模型,输入数据,然后预测用户使用彩信的可能性,向可能性高的用户推荐彩信业务。从数据库中,可以得到的数据有手机号码、开户时问格式YYYYMLDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长、彩信条数。为了避免数据影响,不使用彩信费作为输入数据。设定手机号码为唯一键值,设定彩信条数为目标值。经过建模、评估。发现使用彩信条数多少主要与用户梦网费、GPRS流量有关。模型可信度为4408,可信度属于良等级。43数据挖掘属性重要度在电信业中的应用建立ORACLEDATEMINING分类模型时,随着数据属性数量增加建模时间会大幅增加。如果一组数据有大量的属性,并不是每一种属性都对分类预测有用,有些属性仅仅是增加了对最终数据结果的噪音影响。使用太多的属性去建立模型会影响性能和精度,使用最少的必要属性去建立模型可以显著的提高建模时间并可以得到更好的模型。ORACLEDATEMINING提供了ATTRIBUTEIMPORTANCE属性重要度的功能,采用最小描述长度MINIMUMDESCRIPTIONLENGTHMDL算法,根据属性对预测结果的影响。对重要程度进行排名。AI可以找出最重要最相关的属性去预测目标。在ORACLEDATEMINING中,ADAPTIVEBAYESNETWORK和THEDECISIONTREE算法都会先使用属性重要度先对数据的属性进行筛选,属性重要度是这两种建模北京邮I乜人学研究生论文方法建模过程的一部分。在NAIVEBAYES和SUPPORTVECTORMACHINES建模前,建议先进行属性重要度的预处理。例如要进行推广手机报的市场宣传,先对数据进行属性重要度分析,输入数据有手机号码、开户时间格式YYYYMMDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、彩信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长。设定手机号码为唯一键值,设定彩信条数为目标值。经过建模、评估。发现是否使用手机报主要与GPRS流量、彩信费有关。44聚类方法在电信业数据挖掘中的应用聚类属于非定向的数据挖掘,非定向的数据挖掘不预测目标,而是关注本质的结构、关系、相互的联系。非定向的模型也叫做描述型模型。聚类用来对没有明显分组的事物进行自然的分组。一个聚簇是一组彼此相似的事物,一个好的聚类应该是同一个聚簇内事物关联度高,不同聚簇间关联度低。聚类也可用于定向数据挖掘建模的数据准备阶段。ORACLEDATAMINING支持两种聚类方法增强的等级K平均集群ENHANCEDKMEANSALGORITHM正交分区集群OCLUSTERORTHOGONALPARTITIONINGCLUSTERINGOCLUSTERALGORITHM441增强的等级K平均集群ENHANCEDKLILEANSAIGORITHMKMEANS算法是一种基于样本间相似性度量的间接聚类方法,是基于距离的算法。此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根据一个簇中对象的平均值被看作簇的重心来进行。此算法首先随机选择K个对象,每个对象代表一个聚类的质心。对于其余的每一个对象,根据该对象与各聚类质心之间的距离,把它分配到与之最相似的聚类中。然后,计算每个聚类的新质心。重复上述过程,直到准则函数会聚。KMEANS算法是一种较典型的逐点修改迭代的动态聚类算法,其要点是以误差平方和为准则函数。逐点修改类中心一个象元样本按某一原则,归属于某一组类后,就要重新计算这个组类的均值,并且以新的均值作为凝聚中心点进行下一次象元素聚类;逐批修改类中心在全部象元样本按某一组的类中心分类之后,再计算修改各类的均值,作为下一次分类的凝聚中心点。ORACLEDATEMINING的KMEANS同时支持非类型CATEGORICAL和数值型北京邮电大学研究生论文NUMERICAL数据。对于数值型数据,建议进行标准化。对于KMEANS算法,空值被处理成稀疏数据,建议用非空值代替空值。缺失值不会被自动处理。如果不手工处理缺失值,最后得到的模型有可能不正确。例如要对用户进行细分,最好的办法就是使用聚类方法,将用户分成不同的小群,再深入研究用户消费类型,进行有针对性的营销。输入数据有手机号码、开户时间格式YYYYTONIDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、彩信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长。设定手机号码为唯一键值,不需要设定任何目标值。经过建模、评估。可以生成一棵树,每个树叶节点都有详细的规则。本例将用户分为十个群体,经对比产生的规则,发现用户的话费结构确有较大差别。KMEANS方法建模速度较快,生成的规则详细准确。442正交分区集群ORTHOGONAIPARTITIONINGCIUSTERING瀚IUSTERAIGORITHMOCLUSTER自动检测数据中自然集群的个数在用户指定的限制范围内,它在高维空间很多属性中特别有用。集群分析是在数据中发现各种矩心的流行方法,它可以揭示某些额外洞察力,例如高价值客户分类。例如,以下是集群输出示例集群L成员的平均年龄比集群2的成员大20。集群还可以用来指派“集群成员价值“,集群成员价值可以充当输入来潜在地提高接受指导的学习技术的精度。OCLUSTER不需要使用全部数据建模,他会随机抽取一部分数据进行建模,默认为5000条。建议输入建模的数据引到随机选取。二义性数据需要转换为分类型数据格式。异常值会显著影响建模的结果,建议在建模前对数据进行修剪。同上例增强的等级K平均集群分析用户结构。输入数据有手机号码、开户时间格式YYYYMMDD、开户单位、合计话费、本地通话话费、长途通话费、漫游费、短信费、彩信费、彩铃费、换铃费、GPRS费用、GPRS流量单位BYTE、梦网费、全时通费用、通话次数、通话时长、短信条数、彩信条数、年龄、性别、主叫时长、被叫时长、本地时长、漫游时长、长话时长。对于OCLUSTER,唯一键值需要是数字型,手机号码因为是字符型数据,不能被设为键值。ORACLE数据挖掘工具支持可以不设键值,ORACLEDATEMINING可以自己生成键值。聚类数据挖据不需要设定任何目标值。经过建模、评估。可以生成一棵树,树分七层,有十个节点。每个树叶节点都有详细的规则。经对比产生的规则,发现可以明确的将用户按照消费类型进行区分。OCLUSTER方法建北京邮电大学研究生论文模速度较KMEANS慢,生成的规则详细准确。45数据挖掘关联方法在电信业的应用在交叉销售CROSSSELL的应用中,关联分析ASSOCIATIONRULES的结果简单、易理解。关系模型可以在大量交易记录中发现同时发生的事物,一个关系模型常用于市场购物篮,购物篮模型用来发现事物之间的关系,购物篮分析被广泛应用于数据分析、商业决策。ORACLE数据挖掘支持发现隐藏在数据中的关联或连带的商品或规则。关联分析通常用来发现在使用或功能方面相关的产品的流行产品组。关联“规则”还可以用来预测将放在购物篮中的下一个商品,这可以有助于满足客户,并增加平均定单价值。典型的购物篮分析发现的结果可能是如果牛奶和早餐面包出现在购物篮中,那么还可能有香蕉,其可信度为85。所分析的购物篮中有15存在这种关联规则。在电信业中,关联可以用来分析用户定制了某种产品后,还有可能定制哪些产品。ORACLEDATEMINING使用APRIORI算法进行关联建模。关系模型可以分析稀疏数据。关系模型处理空数据作为稀疏数据,但是不能自动处理缺失的数据,如果数据有缺失的情况,应当用非空值进行代替。关系模型在处理以下情况时较差一是在少量的数据中寻找关系,二是在大量密集的,数据的属性较多时,不适合使用关系模型。关系模型使用APRIORI算法,可以解决找到事物间的关系,例如找到哪几种产品有可能被同时选用。例如电信业想进行交叉销售,需要知道哪几种手机报更有可能被用户同时选购。先进行数据准备,数据要整理成以下形式用户1,用户1定制的业务1用户L,用户1定制的业务2用户L,用户1定制的业务3用户2,用户2定制的业务L用户2,用户2定制的业务2数据准备时,要注意如果只定制一条业务的用户太多时,要注意清除此类用户,否则将无法发现规则。输入数据后进行建模,关系模型建模时闻与数据规模成正比,数据规模越大,建模时间越长。最后得到的规则形式为IF用户定制的服务LAND用户定制的服务2THEN用户定制的服务X规则的意思是如果用户定制的服务1并且定制了服务2,用户就会定制服务X。这在交叉销售中是非常有用的结果。北京邮电人学研究生论文第五章使用PLSQLAPI进行自动挖掘51将数据挖掘语句封装到PLSQL过程中除了使用ORACLEDATEMINING的JAVA程序界面进行数据挖掘,还可使用PLSQLAPI进行数据挖据。使用PLSQLAPI的好处在于可以将数据挖掘过程封装到PLSQL程序包内,可以定时的运行这些程序,并将结果展示到动态网页上。下面将详细介绍使用PLSQLAPI进行数据挖掘的过程。这个例子是使用决策树分类方法进行建模,目的是找到哪些用户有可能使用手机报业务。一首先建立一个参数表,用来输入建模中需要的参数。CREATETABLEDTSHSAMPLE_SETTINGSSETTING_NAMEVARCHAR230,SETTINGVALUEVARCHAR230SETECHOON一再建立一个COSTMATRIX成本矩阵,作用是建模过程的加权。CREATETABLEDTSHSAMPLE_COSTACTUALTARGET_VALUENUMBER,PREDICTED_TARGETVALUENUMBER,COSTNUMBERINSERTINTODTSHSAMPLECOSTVALUES0,0,0一当实际值为假,预测为假,成本为0INSERTINTODTSHSAMPLE_COSTVALUESO,1,1一当实际值为假,预测为真,成本为1INSERTINTODTSHSAMPLE_COSTVALUES1,0,8一当实际值为真,预测为假,成本为8INSERTINTODTSHSAMPLE_COSTVALUES1,1,O当实际值为真,预测为真,成本为O一这样做是为了避免当实际值为真,预测为假,成本为8这种情况,发生这种情况时,成本为8。C0删I

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论