基于数据仓库的数据挖掘模型应用方案建议书【方案之家】

上传人：漫*** IP属地：辽宁上传时间：2023-03-30 格式：DOC 页数：51 大小：3.64MB 积分：30 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

欣晨制作PAGEPAGE51数据挖掘模型应用方案建议书方案之家欣晨制作2013年1月25日

目录第1章系统概述 41.1项目背景 41.2建设原则 51.3总体要求 61.3.1基本指导思想 61.3.2系统定位 61.3.3功能描述 61.4建设目标 71.4.1近期目标 71.4.2中长期目标 81.5术语解释 8第2章系统平台方案 82.1硬件总体方案 82.1.1基本原则 82.1.2网络拓扑图及说明 102.1.3硬件平台组成及功能 112.2硬件配置依据 122.2.1性能问题分析 122.2.2数据挖掘系统磁盘存储容量计算 122.2.3磁盘存储总容量 132.2.4数据库服务器处理能力计算 132.3系统安全控制 142.3.1网络安全管理 142.3.2操作系统安全 142.3.3数据库系统安全 142.3.4应用软件上的安全控制 152.3.5数据备份 152.4硬件配置方案1 172.4.1产品配置清单 17第3章挖掘模型介绍 183.1xxx的流失预警模型流程 183.1.1商业理解 183.1.2数据理解 193.1.3数据准备 193.1.4建立模型 203.1.5模型检验 203.1.6模型发布 223.2xxx的客户细分模型流程 223.2.1商业理解 223.2.2数据理解 233.2.3数据准备 233.2.4建立模型 233.2.5模型检验 243.2.6模型发布 243.3xxx的信用度模型流程 253.3.1商业理解 253.3.2数据理解 263.3.3数据准备 263.3.4建立模型 283.3.5模型检验 283.3.6模型发布 293.4xxx的生命周期模型设计 293.4.1建模原因 293.4.2建模流程 293.5xxx的终身价值模型设计 313.5.1建模原因 313.5.2建模流程 323.6xxx的交叉销售和提升销售模型设计 333.6.1系统功能结构图 333.6.2模块说明 333.6.3数据准备程序 353.6.4建模流程 363.6.5交叉销售模型 363.6.6提升销售模型 373.6.7生产流程 383.6.8交叉销售模型 383.6.9提升销售模型 403.6.10验证流程 413.6.11交叉销售模型验证流程 413.6.12提升销售模型验证流程 423.7xxx的营销方案损益测算模型设计 423.7.1系统功能结构图 433.7.2模块说明 433.7.3计算设计 433.7.4测算文件模版 453.7.5程序流程图 46第4章应用解决方案 474.1设计原则 474.2应用三层模型 474.3软件系统结构图 494.4业务逻辑 494.5软件功能 504.6软件模块划分 504.7系统内部接口 504.8系统外部接口 514.9模型设计步骤和流程 514.10功能实现 514.10.1ETL子系统实现 514.10.2数据准备实现 524.10.3模型自动化实现 534.10.4前台展现实现 544.11xxx数据挖掘模型的优势 57系统概述项目背景面对新的世界经济格局和态势，“客户中心”理论引导商业社会的积极参与者必须为客户提供更好的产品，更优质的服务，更加适应新生活所需的个性需求，企业最终通过有市场竞争力的服务赢得客户对企业的尊重，获得企业的利润。近年电信市场竞争已经逐步由单纯的资费竞争、价格竞争、网络质量竞争转向多元化的营销模式竞争、渠道竞争、服务竞争、品牌竞争等更深层次，移动通信战场硝烟弥漫，异常惨烈，各家各出奇招，变粗放型经营为精细化经营已经势在必行。数据仓库技术是市场竞争的产物，他的目标是整合企业内部所有分散的原始的业务数据，并通过便捷有效的数据访问手段，支持企业内部不同部门、不同需求、不同层次的用户随时获得自己所需的信息。数据仓库是提供有效的决策支持，能为企业有效的管理数据提供技术上的保证。目前，已建立和使用的数据仓库应用系统都取得了明显的经济效益，在市场竞争中显示了强劲的活力。在目前日益激烈的市场竞争中如果没有有力的技术手段来支持更高一层的管理模式，是无法和强大的竞争对手进行抗衡的。从深圳目前的客观条件来看，深圳联通公司经过近10年的发展，积累了大量的客户资料、通话信息、网间通话数据等，这些都是非常宝贵的资源，但由于缺乏必要的手段，无法使用这些资源运用到对新兴客户的获取以及在网用户的二次营销上。而主要竞争对手深圳移动早已经开始了这方面的工作，针对客户流失、客户发展、竞争对手、客户消费模型等设立了多种挖掘计算专题。目前这些专题已经产生了效果，对我们经营造成了非常大的威胁，给我们的发展新客户、挽留老客户都带来了障碍。因此结合开展直复营销的契机全面在深圳的一线和二线部门提升量化营销的能力是非常必要的。基于该背景，积极通过量化营销支撑系统的建设全面提高深圳联通量化营销能力，进一步提升其市场核心竞争力,已迫不及待。建设原则根据xxx多年的建设经验和客户的需求。系统规划和建设的原则主要包含以下几个方面：系统集中、分步实施原则采用统一原则，建立统一基础模型结构，考虑有多个模型需要建立，根据模型的重要性和紧迫性采用分步实施，先实施主要的几个模型，随后逐步实施其它模型，不仅符合运营商初期现实情况，又有效的保护了投资，使ROI最大化。2.以客户为中心，以市场为导向系统需满足个性化、信息化的需求。围绕以客户为中心吸引客户、方便客户、满足客户，为客户提供多样化及个性化服务，赢得客户满意的理念设计系统，以适应市场不断的变化。3.接口的标准化和规范化原则实现系统内部接口的标准化、规范化，并且能够实现与综合营帐、综合客服、专业计费等相关专业系统间接口的标准化、规范化。系统与外部应用应遵从双向接口，向应用提供模型数据输出以及接受模型评估后的结果进行模型自动修正。4.具备先进性的同时规避风险充分利用开发商（xxx）在与其它各大运营商在多年合作中积累的市场、技术、客户体验的经验。充分利用xxx在深圳联通经营分析系统建设中的沟通与经验的积累。采用新的实现技术，新的管理理念使系统具备先进性，同时继承其成熟的技术，成熟的理念，有效规避建设风险。总体要求基本指导思想1、将数据仓库建设成为全公司、全业务、全产品的统一经营数据分析核心平台；2、具备公司全业务、全流程的预测、调整、评估能力；3、具备对各生产作业系统的指挥、调度、评估能力；4、具备对各环节、各作业单元、各产品较完善的财务损益测算能力；系统定位

系统定位为整个公司核心的经营分析、生产决策平台,使用模型生产的结果数据进行有效的营销。功能描述基本内容：具备对客户价值、行为、生命周期、信用等方面评分分级功能；具备对各营销方案、维系挽留政策财务损益测算功能；具备针对不同营销活动进行响应客户识别功能；功能要求

具备数据挖掘能力、财务损益测算评估的能力；用户界面必须友好、人性化；具备方便的模型参数调整功能与界面，可实现参数动态灵活调整，并需要具备参数到期自动提醒功能；数据源必须丰富，不仅包含系统性数据源，还要包含计财、市场等管理性外部数据源；具备界面友好的模型评估功能；具备经营分析数据与文档统一存储功能；具备方便的可扩充的外部接口与各应用系统交互；具备较好的帮助功能、在线培训功能；建设目标本工程建设，考虑到技术、投资、效益、管理等各方面，需要按照指导思想提到的“个别试点、逐步铺开”的原则来开展。目前，技术上存在效果可行性的进一步核实和论证问题，投资方需要确定投资的规模和风险，项目建成后是否可以取得预期的效果也有不确定性，管理上也需要急迫的见到工程实施后的效果，所以需要将整个工程分成以下几个阶段。近期目标中长期目标“方案论证”“南京、扬州试点”“一类地市”“二类地市”“三类地市”具体如何区分地市的类别，可以按照目前省公司的分类方法，也可以选用经济状况划分，分类如下：以上地市类别是按照各地市的话务收入来划分的。近期目标近期目标主要，完成“方案论证”，“南京、扬州试点”和“I类地市”的应用。近期目标这样的安排，对以后规避投资风险，以及总结成功经验有好处，做好“南京、扬州试点”工作后，将使用该项技术及延伸的业务问题解决能力，推广到急需使用的、并且经济条件好的地市。中长期目标中长期目标，在巩固了近期目标，并进步深化落实近期目标的基础上，总结经验后，向全省各地市铺开，全面建立数据挖掘模型基础，并解决急切的业务难题，实现项目预期的客户信用控制技术基础和应用。术语解释DB:Database数据库，是数据的存储组织方法。OS:OperationSysterm操作系统，对硬件设备进行管理和对软件系统进行支撑的平台。ETL:Extraction、Transformation、Loading数据抽取、转换、装载系统，该系统整合不同的数据源过来的数据，并对数据进行初步的规格化整理，清洗除杂。捕获率：实际上是同一用户被判断为同一用户的人数/实际上是同一用户的总人数。捕获纯度：实际上是同一用户被判断为同一用户的人数/所有用户（包括同一用户和不同用户）被判断为同一用户的总人数。系统平台方案硬件总体方案基本原则硬件平台包括硬件和系统软件两个大的方面，同时，网络架构安全性的考虑也是关键的部分。系统的硬件设计中遵循以下几个基本原则：先进性采用当前世界先进的基于计算机网络的软件、硬件产品，从而保证系统在技术上领先。计算机产业是发展迅速的产业，新技术不断涌现，旧产品快速淘汰。选择能够长久发展的主流机种可以减缓机器更换频率，提高主机的服务年限，更好的利用设备投资。在实用的前提下,应从投资保护及长远观点做适当考虑,在技术上要保持五至十年左右的先进性。可靠性系统应具有极高的运行质量，能够一天24小时连续不断工作。整个系统应采用多种系统容错手段，主要设备采用高可靠性设计，保证无故障时间满足系统要求。这就要求从硬件和软件平台的角度，能够提供高可用的解决方案。高可用方案针对可靠性、可用性、容错能力、最大无故障时间等方面提供完整科学系统方案。稳定性系统必须保证稳定运行。可扩展性软件、硬件平台应具有良好的可扩充、扩展能力，能够方便进行系统升级和更新，以适应各种不同业务的不断发展。市场竞争越加激烈，为了提高竞争力而不断推出新业务得以满足市场要求。这就要求系统在技术上具有强大的扩展能力，能够满足业务量的提升，同时能够为增加软件功能提供运行空间。安全性充分考虑了整个系统运行的安全、备份与恢复策略和机制，可以根据不同的业务要求和应用处理，设置不同的安全措施。系统包括大量的数据，保证这些数据不被恶意破坏、非法侵取是电脑系统安全策略所要解决的内容。安全、备份与恢复策略提供网络、主机、交易等关键资源有力保护，为业务系统创造安全可信的运作空间。经济性经济性原则要求系统的设计与实施必须考虑现有资源的使用和闲置情况，如存储、网络资源等的利用，尽可能使用最小的投资，完成最可靠的系统。设计应充分保护目前的设备投资并将再投资规模控制在较合理的范围之内，保证系统的建设具有很好的投资回报效应。同时系统应该还具有较低的运行和维护费用。高性能平台应用具有强大而平衡的处理能力。针对系统数据量大，数据格式复杂，业务比数繁多等情况，要求服务器能够支持大规模批量处理，尤其在高峰期间能够与磁盘系统配合，使整个系统性能平衡不会出现系统瓶颈，保证系统响应大压力的数据负载。网络拓扑图及说明整个系统具有以下特点：存储系统采用SAN网络，有利于系统存储的扩展。数据库服务器配置1台，应用服务器使用1台，两台服务器做成双机互备，保证了高可用性。可以采用IP映射的方式，将IP映射到firewall的DMZ区，保证系统的安全性。内网与外网之间通过防火墙隔离，保证内网的安全,必要时可以采用IDS系统对系统进行入侵检测。与其他系统数据传送通过firewall设备进行安全控制，这样可以避免对其他系统安全带来威胁。前端可以通过专网或者Internet接入，接入可以多样性。网络拓扑结构图如下：硬件平台组成及功能系统的硬件平台主要有以下设备组成：数据库服务器数据库服务器是系统数据处理的中心。通常把数据库服务器称为主机系统。支撑主机系统的核心系统软件是数据库支撑软件，采用Oracle10gR2EnterpriseEdition。挖掘服务器是数据模型算法中心，用在系统中用来对数据进行分析和挖掘。本系统的建设将系统的数据挖掘服务器与数据库服务器物理上采用同一台主机，采用InsightfulMiner挖掘支撑工具。应用服务器应用服务器是系统业务逻辑的核心，承担着前端用户的访问。磁盘存储系统存储系统实际上包括联机存储和脱机存储两部分，磁盘阵列就是我们通常所说的联机存储。这部分也包括硬件和软件两块，硬件包括SAN交换机和磁盘阵列。网络设备网络设备主要包括核心交换机、接入交换机、路由器等各种保证网络互联互通的设备。建议方案采用与营帐等其他系统共用方式，节省投资。网络安全设备防火墙是在网络层保证系统安全的重要组成部分，它可以防止恶意攻击，也可以防止非法入侵。同时还具有网络隔离的功能，是保证系统安全的最核心、最有效部分。硬件配置依据性能问题分析首先，必须有适当的硬件体系结构,要优化网络和CPU的效用,如果要最充分的利用网络和CPU资源，则数据的布局将是很重要的。在为取得性能进行数据布局时，数据的布局会受到很多因素的影响，包括规模、数据的易变性、复制、数据的访问频率以及其他因素。其次，要有良好的数据库结构设计。如果数据库设计得不合适，不仅不能充分发挥最大作用，而且应用程序的性能则会受到影响。本系统是一个面向业务的系统，因此，如何提高效率、响应速度，是业务每一个环节都必需考虑的问题。数据挖掘系统磁盘存储容量计算按50万的用户规模计算存储容量。下面将对这部分的容量进行详细计算：数据种类每用户字节数用户数量保存时间数据量（GB）（Kb）（万）（月）客户资料有关25010.95客户消费数据15062.86客户信用度模型15031.43客户流失模型15031.43行为细分模型（6个）15031.43生命周期识别模型15031.43客户价值模型15031.43交叉销售模型15031.43提升销售模型15031.43挖掘宽表数据750620.00挖掘临时空间1050314.30CDR（5条/用户/天）0.55010.71详单汇总0.7目前1750万条/天31051.42小计1203.21系统表空间存储数据库系统表8索引表空间索引表空间，主要是一些宽表数据索引，数据量比较大100回退表空间设4个回退段，每个回段8G，考虑大事务处理32工具表空间设一个，容量为4G4归档日志空间设10个日志文件，每个大小为512MB5临时表空间存放一些临时表8逻辑备份空间Exp备份50文件系统空间数据库应用文件及其它20小计227合计1430.21考虑冗余20%1717.98采用raid525%2147.46总计2147磁盘存储总容量系统的磁盘存储总容量为：磁盘总容量=2148(GB)同时，在配置磁盘的时候，要考虑增加适当的Hotspace磁盘做为磁盘保护，防止由于磁盘损坏严重，造成数据丢失。数据库服务器处理能力计算数据挖掘处理是该系统的主要功能，也是处理过程最复杂的部分，是系统最有可能成为瓶颈的部分，因此，主机服务器处理能力依据数据挖掘过程，详细计算过程如下：以流失预警模型为例进行分析：指标名称单位数值深圳联通合约用户数（N1）万30深圳联通数据库服务器IBM-H85的TPCC指标（N2）TPMC19300深圳联通流失预警模型更新时间（T1)小时4在通常情况下，一个数据挖掘模型的模型更新时间在2到6小时之间都是合理的，采取折衷方案（T2）小时4用户数（N3）万50采用类比法得出数据库服务器TPCC（S1）TPMC32166应用服务器按数据库服务器计算应用服务器TPCC值（S2）TPMC32166计算说明：S1=N2*N3/N1*T1/T2S2=S1系统安全控制网络安全管理采用的网络安全设备为硬件防火墙。操作系统安全在小型机和web服务器使用的UNIX/LINUX上，通过限制root用户的ftp、telnet等关键服务、限制普通用户对OS的权限等策略来保证操作系统安全。也可以使用第三方软件（如安氏SystemScanner）对操作系统及服务可能存在的漏洞进行扫描，实时监控，防范于未然。数据库系统安全由DBA统一规划不同用户对数据库的访问权限，而且在本系统的应用层，是通过统一的数据库帐号对数据库进行存取和访问，保证了应用层和数据库层的安全隔离。也可使用第三方软件（如安氏的DBScanner）对数据库的所有用户权限和服务进行漏洞扫描和实时监控，优秀的数据库安全软件只需要使用少量的系统资源和带宽，就能发挥重要的安全防护作用。应用软件上的安全控制建设网络的目的是实现信息共享、资源共享。因此，必须解决网络在应用层的安全。应用层安全主要与企业的管理机制和业务系统的应用模式相关。管理机制决定了应用模式，应用模式决定了安全需求。因此，在这里主要针对各局域网内应用的安全进行讨论，并就建设全网范围内的应用系统提出我们的一些建议。应用层的安全需求是针对用户和网络应用资源的，主要包括：合法用户可以以指定的方式访问指定的信息；合法用户不能以任何方式访问不允许其访问的信息；非法用户不能访问任何信息；用户对任何信息的访问都有记录。系统通过技术和管理手段可解决以下安全问题：非法用户利用应用系统的后门或漏洞，强行进入系统。用户身份假冒：非法用户利用合法用户的用户名，破译用户密码，然后假冒合法用户身份，访问系统资源。非授权访问：非法用户或者合法用户访问在其权限之外的系统资源。数据窃取：攻击者利用网络窃听工具窃取经由网络传输的数据包。数据篡改：攻击者篡改网络上传输的数据包。数据重放攻击：攻击者抓获网络上传输的数据包，再发送到目的地。抵赖：信息发送方或接收方抵赖曾经发送过或接收到了信息。数据备份备份恢复策略在进行备份之前，首先要选择备份策略，这将决定何时需要进行备份，以及出现故障时恢复的方式。通常使用的备份方式有三种:（1）完全备份每隔一定时间就对系统进行一次全面的备份，这样在备份间隔期间出现数据丢失等问题，可以使用上一次的备份数据恢复到前次备份时情况。（2）增量备份首先进行一次完全备份，然后每隔一个较短时间进行一次备份，但仅仅备份在这个期间更改的内容。当经过一个较长的时间后再重新进行一次完全备份，开始前面的循环过程。（3）策略备份策略一般是采用完全备份与增量备份相结合的方式，一般以周为基本单位进行规划，举例如下表星期一星期二星期三星期四星期五星期六星期日增量增量增量增量完全增量增量每周五进行完全备份，其余作增量备份。备份恢复方式备份从方式上讲有逻辑备份和物理备份两种：（1）逻辑备份逻辑备份方式就是指利用数据库管理软件本身的备份工具，如oracle数据库的exp和imp工具对数据库进行备份，也就是我们经常说到的数据库的导出（exp）和导入（imp），这种备份方式是将数据库中的数据用exp工具形成文件的形式，保存在磁盘上，通常采用.dmp作为文件的后缀。一旦发生数据丢失，可以利用imp工具将数据重新导入数据库中。（2）物理备份物理备份也就是我们通常所说的磁带库备份。它是数据库软件与带库管理软件共同工作完成的，例如：利用oracle的recoverymanager和相应的带库管理软件协同工作，是对数据库的物理备份，也就是说，将数据库的数据文件从物理上备份下来。这种备份一般用在系统灾难恢复方面，并支持按时间点恢复。建议采用物理备份和逻辑备份互为补充的方法。硬件配置方案产品配置清单配置数量配置说明数据库服务器 1台型号：HPDL380G配置：2个Intel双核Xeon71203.0GHz8GBDDR2个1000Base以太网卡2个2Gb64-Bit/133MHzPCI-XHBAforLinux&Windows2146GBUniversal热插拔Ultra32010K1“硬盘1个DVD-ROM操作系统：redhatlinuxAS4U5forAMD64/EM64T双机软件：RedHatClusterSuite(forASv.4forAMD64/EM64T)数据库软件：ORACLE10GR2数据挖掘工具软件：clementine中间件软件：JBoss应用服务器 1台型号：HPDL380G配置：2个Intel双核Xeon71203.0GHz8GBDDR2个1000Base以太网卡2个2Gb64-Bit/133MHzPCI-XHBAforLinux&Windows2146GBUniversal热插拔Ultra32010K1“硬盘1个DVD-ROM操作系统：redhatlinuxAS4U5forAMD64/EM64T双机软件：RedHatClusterSuite(forASv.4forAMD64/EM64T)磁盘阵列1台型号：HPStorageWorksModularSmartArray1500(MSA1500)配置：2个磁盘阵列控制器17块146GB硬盘LANSwitch1台CiscoCatalyst3750G-24Tfirewall1台CiscoPix525KVM/控制台1套挖掘模型介绍xxx的流失预警模型流程商业理解客户是企业赢利的基础，但随着竞争的日趋激烈，客户流失也日趋严重。客户在流失之前，往往表现出一定的行为特征，通过对用户行为数据进行数据挖掘分析，能够提前预测用户可能流失的概率，从而对有较大可能流失并具有较高价值的客户提前进行重点关怀及挽留。在客户流失分析中，客户流失可分为公司内客户转移，客户被动流失，客户主动流失。1、公司内客户转移，表现为客户转移至本电信公司的不同网络或不同业务。例如，从普通的固定电话转至IP电话。这种情况下，虽然就某个业务单独统计来看存在客户流失，但对公司整体而言客户没有流失。（可以用“指纹模型”预测这种重转网用户。）2、客户被动流失表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。3、客户主动流失主要表现客户选择了另一家运营商，即所谓的“客户跳网”。这种客户流失形式往往是研究的主要内容。研究哪些客户即将流失时，将其定位为一个分类问题，即将现有客户分为流失和不流失两类。选择适量的历史上流失客户和未流失客户的属性数据组成训练数据集，利用神经网络、决策树、logistic回归等分类建立客户流失的分类模型。InsightfulMiner给出分类结果的概率值，这个值可以看作是客户的流失概率。用建立的分类模型预测可以对现有用户进行流失预测，并给出流失概率。鉴于神经网络对资源要求比较高，耗时较长；logistic回归本属于统计模型，在处理小数据量时较适合；而决策树模型无论从精度、训练时间、规则易读性等方面考虑均较优秀。数据理解选取一定数量的客户（包括流失的和未流失的），选择客户属性，包括客户资料、通话行为特征、消费属性、客服信息，采用统计技术中的描述分析及可视化分析技术，以及必要的统计检验及相关性检验技术，对数据进行分析，理解数据的范围、分布状况、方差、偏度、峰度及数据间的相关性，初步确定哪些因素可能影响客户流失。流失状态定义：以上月出帐，本月不出帐的客户定义为本月流失顾客。针对大客户可以单独建模，以本月的通话行为数据、费用数据、短信行为数据与前三个月平均值相比，减少N%可定义为休眠。数据准备数据准备阶段包括数据抽取、清洗、数据的转换和加载以及重构、整合、格式化、选择、抽样等。通过理解从客户入网到流失整个生命周期内的业务流程和相关要素，从数据仓库中抽取了流失客户群、客户基本资料、客户缴费资料、客户投诉资料、客户账单、客户通话资料等信息。数据挖掘项目中使用的字段属性及建模用户选择使用的客户属性：客户属性、服务属性、客户消费行为数据与客户财务数据、客户最终状态.使用的数据：绝对值、相对值（比例、增量）字段选取：为了对所有可能影响用户流失的因素进行探索及分析，经调研，初始收集了600－700个客户相关数据字段，通过数据探索用可视化工具及统计分析方法，展示及探索各个变量对客户流失的影响，包括柱状图、频数分析、相关分析等，然后将强相关性的变量（约60多个字段）引入到最终模型中。建模用户的选择：1、剔除服务计划标识为SZ****2、SZ****J、SZ****Z、SZ****2、SZ****Z的用户。2、剔除测试、公免、FM市场、无线公话、无线固话、商务电话用户。3、剔除上网卡用户。数据集准备：第i-4个月、i-3个月、i-2个月的客户行为、费用平均值＋本月流失状态数据集，作为训练集和验证集。满足限制条件的客户数为X万人，我们从中随机抽样出75%作为训练集，25%作为验证集。第i-2个月、i-1个月、i个月的客户行为、费用平均值的客户行为、费用平均值作为应用数据集，预测第i＋2个月的流失状态。建立模型通过数据探索分析，把所有数据准备好之后，采用决策树算法来预测客户的流失倾向。决策树方法可以建构出合乎逻辑且易解读的决策规则。期间有2个问题要注意处理：1、对不均衡现象的处理：流失顾客数相对于未流失用户数而言，比例非常小，如果不经处理，建立的模型就不准确。所以在建模时我们需要进行抽样，抽取流失客户和未流失客户组成建模数据，两者的比例约为1：2，另一种处理方式是在建立模型时设置流失客户和未流失客户的权重组成建模数据。通常我们采用第一种方式处理不均衡现象。2、参数设置：剪枝参数设置，我们把剪枝参数设为75％，目的是为了既要保证模型精度，又要防止过渡拟合；设定成本矩阵参数，用于控制误判成本；设置子枝包含的最小记录数，减少模型复杂度。模型检验使用了两种验证方式：1、验证集验证：采用与建模数据同月的未参与建模的数据定义为验证集，评估模型精度。（选打分模型时使用。）2、滞后验证：用实际流失情况验证模型预测的精度。在第i个月预测第i＋2个的流失情况，待第i＋3个月，实际流失结果出来后评估模型效果。（适用于建模初期，未投入应用时。）按运营商的要求，重点查看滞后验证的捕获率、提升率。与别的挖掘项目重点查看验证集的提升率、捕获率不一样。因而其捕获率、提升率更能体现模型精度。某运营商流失预警模型项目初期某月的滞后验证效果（摘自“某运营商流失预警模型检验结果综合报告”）预测流失月份专业编码被预测流失用户选取比例被预测流失用户选取人数实际流失人数捕获率30天实际流失人数60天实际流失人数90天实际流失人数200506G1%115788376.29%489290104200506G2%2314175875.98%812725221200506G3%3471257874.26%11661157255200506G4%4627334672.32%15141551281200506G5%5784382066.04%16691668483200506G6%6941457765.94%17572237583200506G7%8098484859.87%18132343692200506G8%9255503954.45%18642410765200506G9%10412519249.87%18922484816200506G10%11569535046.24%19292529892解读：选取10％的预测为流失的用户数11569人，预测要流失的当月（即第i＋2个月）流失1929人，第i＋3月流失2529人，第i＋4月流失892人，三个月内共计流失5350人，捕获率达到了46.24%，提升率达到了5.1。捕获率：捕获率＝选取的用户中实际流失用户数/选取的用户数提升率：提升率＝捕获率/实际流失率目前已实施大客户流失预警挽留模型、把流失模型与市场细分模型结合应用产生很好的效果。在实施挽留的同时结合实时预警模型（数据每日更新），提高了挽留的有效率。模型发布客户流失预测分析模型中，按照客户流失倾向的高低对客户进行排序，选取流失率最高的10％的客户名单提供给运营商进行挽留。发布模型的精度，发布模型更改记录。模型发布后其精度会随挽留的实施及一些实际情况的变化而逐渐退化，因此需要定期进行模型评估，当精度显著下降时应重新调整训练模型，以保持模型的有效性。xxx的客户细分模型流程商业理解所谓市场细分就是指按照消费者各方面的属性把一个总体市场划分成若干个具有共同特征的子市场的过程。其主要目的为：使同一细分客户群体内个体之间的差异最小，使不同细分客户群体之间的差异最大。它是企业认识和分析客户、确定售销方向、选择目标客户的有效工具。客户细分可以根据消费者属性（年龄、性别、职业、文化程度、民族、家庭状况、经济收入、宗教信仰等人文特征细分），地理区域（地理区域、气候、人口分布、人口密度、城镇大小等地理环境细分），行为（按消费者的生活方式、购买频率、购买数量、商品知识、对营销方式的感应程度等购买心理特征细分），心理（敏感型，情感型，浪漫型等）进行细分。电信行业主要是根据消费者的通话行为特征、使用产品套餐及通话费用进行细分。通过调研，按各部门要求，分为市场部合约细分、市场部预付费细分、客服部合约细分、增值业务部合约细分、上网卡细分、预付费细分。数据理解客户自然数据(客户标识、客户的基本类型、重要客户标识、客户信用度、客户所在区域)、呼叫行为数据(总呼叫时长、国际长途呼叫时长、国内长途呼叫时长、工作时间呼叫时长、夜间呼叫时长)、及其他类型数据(使用的资费套餐、使用的业务数量、付费方式、最近半年的话费)数据准备从数据仓库忠抽取上述数据，运用数据清理、数据集成、数据变换、数据规约等技术进行预处理后得到我们需要的数据。建立模型运用算法K-means聚类。K-means算法思想：首先随机选取K个点作为初始聚类中心，然后计算各个样本到聚类中心的距离，把样本归到离它最近的那个聚类中心所在的类。对调整后的新类计算新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数J(c)已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确，若不正确，就要调整。在全部样本调整完后，再修改聚类中心，进入下一次迭代。如果在一次迭代算法中，所有的样本被正确分类，则不会有调整，聚类中心也不会有任何变化。这标志着J(c)已经收敛，因此算法结束。模型检验由于细分模型是属于无监督训练，所以在检验模型时采用每月群体用户群体的转移数来评估模型。即如果群体间的转移数小，就认为模型稳定，有效；转移数大，就认为模型可能失效，需要重新训练模型。模型发布发布细分模型的类中心点，发布个群体命名及各群体的特征。模型发布后会随一些实际情况的变化而逐渐退化，因此需要定期进行模型评估，当精度显著下降时应重新调整训练模型，以保持模型的有效性。市场部C网合约用户细分：族体描述节俭组这类用户人数非常多，ARPU值仅有××元，通话行为非常少，发送短信也很少，通话小区数和交往圈人数都很小，属于一类很节俭的用户。活跃组这类用户人数较少，通话行为非常多，发送短信也较多，通话小区数和交往圈人数都很多，属于一类非常活跃的用户。国内长途组这类用户人数非常少，ARPU值很高，达到了××元，国内长途通话非常多，漫游通话也较多，是一类以国内长途通话为主的用户。本地被叫组这类用户人数较多，本地被叫通话很多，通话小区数和交往圈人数都比较多，是一类以本地被叫通话为主的用户。普通组这类用户数量较多，绝大多数通话行为、发送点对点短信、增值业务的使用都接近各个群体的平均值，属于一类国际长途通话较少的普通用户。短信组这类用户数量较多，发送点对点短信非常多，本地主叫通话、增值业务使用也较多，是一类以发送短信为主的用户。国际组这类用户数量很少，ARPU值很高，达到了××元，国际长途、漫游通话非常多，是一类经常去往国外和港澳台的用户。通话时长组这类用户通话行为比较活跃，属于中上水平，其次在使用增值业务上，属于比较多的一组。低迷组这类用户数量较多，绝大多数通话行为都很少，增值业务使用非常少，通话小区数和交往圈人数都很少，属于一类很低迷的用户。市场部C网合约用户细分模型各月细分情况群体编号节俭组活跃组国内长途组本地被叫组普通组短信组国际组通话时长组低迷组×年6月群体人数×年7月群体人数×年8月群体人数×年9月群体人数从各月的细分结果可以看出各个群体有比较稳定的人数，群体之间人数转移不大。xxx的信用度模型流程商业理解电信行业欺诈现象严重，为了提高客户的满意度及忠诚度，识别恶意欺诈，需要进行客户信用度评估。在欠费分析中，欠费分为：无意欠费、恶意欠费。其中，恶意欠费用户才是真正需要关注的用户。研究哪些客户即将恶意欠费，将其定位为一个分类问题，即确定类型和特征集，预测客户欠费状态，将现有客户分为欠费和不欠费两类。采用有监督的分类模型识别恶意欠费用户。为客户欺诈模型建立有效的分类模型，具体做法是将分类方法用于预先选定的包含客户欠费状态的训练集中，从而挖掘归纳出规则集，然后利用所获取的规则，对电信企业新用户的缴费情况进行预测分类，从而达到预防欺诈的目的。在构造分类模型过程中，可以使用许多不同的方法（如决策树归纳法、神经网络、logistic回归分类法等），以便从中选取最优。深圳联通信用度模型选用决策树模型。数据理解目标变量选择：在客户欺诈分析应用中，目标变量通常为客户欠费状态。输入变量选择：选择客户属性，包括客户资料、通话行为特征、消费属性、客服信息。输入变量的选择在业务人员帮助下进行，并结合统计学技术考察各变量分布情况和相关性，然后决定取舍。深圳联通信用度模型：首先采样欠费用户在三个月内又补交，欠费用户在三个月后还不补交，以及永远不欠费的用户的三类样本，建模，取得规则后，分析补交和不欠费客户的特征，在根据规则中的权重变量（预选变量按调研定的为基础进行补充），对所有在网出帐客户应用模型，得出客户失信概率，然后，根据这个概率来测算信用等级和额度。数据准备字段的选取根据对业务的理解，我们选取34个用户属性来判断失信概率，然后，根据这个概率来测算信用等级和额度。建模用户的选择：参照流失预警模型的用户剔除条件对用户进行剔除,并剔除不参加积分的活动类型的用户,再取近三个月连续出帐用户。通过业务沟通，本次分析针对C网用户，剔除条件为：剔除服务计划标识为SZ00BY2、SZ00BYJ、SZ00BYZ、SZ03BY2、SZ03BYZ的用户。剔除测试、公免、FM市场、无线公话、无线固话、商务电话用户。剔除上网卡用户。只保留最近3个月连续出帐的用户。数据集准备：第i-4个月、i-3个月、i-2个月的客户行为、费用平均值＋本月欠费状态数据集，作为训练集和验证集。第i-2个月、i-1个月、i个月的客户行为、费用平均值的客户行为、费用平均值作为应用数据集，预测第i＋2个月的流失状态。信用额度计算方法：理论可授信额度=最近三个月平均出帐金额*（1-失信概率）信用等级:A+:理论可授信额度在800元以上（包含），A：理论可授信额度在400元以上（包含），800元以下,B+:理论可授信额度在200元以上（包含），400元以下，B：理论可授信额度在100元以上（包含），200元以下，C+:理论可授信额度在50元以上（包含），100元以下，C：理论可授信额度在0元以上（包含），50元以下坏帐准备系数:对于A+级用户坏帐准备系数,-200%对于A级用户坏帐准备系数,-50%对于B+级用户坏帐准备系数,20%对于B级用户坏帐准备系数,40%对于C+级用户坏帐准备系数,50%对于C级用户坏帐准备系数,80%实际可调额度=理论可授信额度*0.1*(1-坏帐准备系数)三个月平均出帐金额：（最近第一月出帐金额+最近第二月出帐金额+最近第三月金额）/3坏帐准备系数：由于失信概率统计的是概率数，概率在99%的不可能下，还有1%的可能情况，反过来对于0.000001%的失信概率，也存在这个概率事实发生的情况。坏帐准备系数，一方面用户对低信用等级的用户进行授信额度的进一步限制；另一方面也可以对高信用等级的用户进行可授信额度的提高。此系数随信用度等级不同而有差异,等级越高,坏帐准备系数越低。这样就能在信用控制上，很好的对不同的用户进行差异化管理。失信概率：就是授予其使用一定信用额度后，不自觉缴款的概率。理论可授信额度：就是通过程序计算出的理论上可允许给某个用户超前消费的额度，根据理论可授信额度来确定客户的信用等级。通过信用等级来确定坏帐准备系数。实际可调额度：根据目前客户现有的信用控制方面的现状，深圳联通公司是把每个用户的信用额度分为：基准额度和可调额度。对于基准额度考虑到运营的稳定性,不便做大改变;可调额度即指“实际可调额度”。所以，实际可调额度是在基准额度的某个范围内，根据计算,公司进行微小调整的信用额度。在网出帐客户:对测算月份的出帐时刻，出帐的用户。建立模型通过数据探索分析，把所有数据准备好之后，采用决策树算法来预测客户的流失倾向。决策树方法可以建构出合乎逻辑且易解读的决策规则。期间仍要注意：1、对不均衡现象的处理和2、参数设置模型检验模型的评估一般利用未参与建模的数据来进行，但在深圳联通项目中仍选用滞后验证方式——用实际流失情况验证模型预测的精度。在第i个月预测第i＋2个的流失情况，待第i＋3个月，实际流失结果出来后评估模型效果。如：要预测用户2006年12月出账的欠费情况，采用“2006年6月出帐用户在2006年4月、5月、6月的行为数据+这些用户2006年7月出帐在8月的缴费情况（即，失信概率标志）”建模，然后对“2006年9月出账用户在2006年7、8、9月的行为数据”打分，预测这些用户2006年10月出账在11月的失信概率。2006年12月初实际失信概率出来后，与预测失信概率做比较，验证模型精度。C网用户检验结果如下“对200609出账用户预测2006年10月出账在2006年11月的失信概率”：（摘自《信用度模型综合报告》））C网用户实际欠费用户数(1)实际不欠费用户数(2)合计(1)+(2)预测为欠费的用户数(3)30464058043626预测为不欠费的用户数(4)7469339296138合计(3)＋(4)3792133972137764预测准确率80.33%69.71%解读：欠费捕获纯度：80.33％。不欠费捕获纯度：69.71％。模型发布发布模型的精度，发布模型更改记录。发布失信客户名单、发布客户信用等级、发布客户可授信金额，提供给业务人员提前进行控制。模型发布后会随一些实际情况的变化而逐渐退化，因此需要定期进行模型评估，当精度显著下降时应重新调整训练模型，以保持模型的有效性。xxx的生命周期模型设计建模原因客户的一个完整的生命周期可以划分为初始期（或入网期）、成熟期（或平稳期）、离网期（或衰退期）。了解客户当前是处于哪个时期，有助于在适当的时候采取适当的客户问题预防、客户关怀、客户维系、客户挽留的措施，从而产生最佳的效果。我们需要一个模型，能根据客户已有的行为数据，比较准确地计算客户当前所属的生命周期阶段。建模流程生命周期模型流程解说：对于合约用户，入网N个月内属于初期，入网N个月后且下月流失概率=<M%属于成熟期，入网N个月后且下月流失概率>M%属于离网期。N用于确定用户是否在初期，但不同的用户有不同的值。M用于将非初期（成熟期和衰退期）两个时期区分开来，可定量确定。假设业务规则：遵循客观事实“某个时间跨度区间（比如：最近一季度）内，某用户的出帐费用在某个平均值内以很小（例如：±20%）的增量波动，处于成熟期的可能性较大”。那么符合规则，则判断该用户为非初期，至少选择三个连续增量值比较。对于不能判断的用户继续后面的流程。遵循客观事实“按‘在网月份数’对全部已离网的合约用户做用户量的分布图时，某个‘在网月份数’的刻度区域上的用户量越大，再根据已离网的事实，说明普遍的合约用户在入网使用到这个时刻前后的区域（比如：区域面积占80%以上），处于衰退期的可能性最大；相反，某个‘在网月份数’的刻度区域上的用户量越小，说明在入网这么多个月后普遍存在离网的用户少，说明该刻度时期的用户处于成熟状态的可能性大”。如果符合规则，则判断该用户为非初期,如果该用户入网月份数在选择区域轴线上的起点前，那么可判断为初期。对于不能判断的用户继续后面的流程。遵循客观事实“按‘在网月份数’对全部正在网的合约用户做用户量的分布图时，某个‘在网月份数’的刻度区域（比如：该区域面积占80%以上）上的用户量越大，再根据成熟客户是整个在网客户群的主流的实际条件，大部分的用户在入网使用到这个时刻前后，处于成熟期的可能性最大”。如果符合规则，则判断该用户为非初期,如果该用户入网月份数在选择区域轴线上的起点前，那么可判断为初期。对于不能判断的用户继续后面的流程。遵循客观事实“初期用户只占整个用户群的少数”，该规则目的用于判定（1）—（3）不能判定的用户，对于通过（1）-（3）规则不能判断用户所处生命周期时，统归非初期。xxx的终身价值模型设计建模原因预测客户在网时长，计算客户在该时间段内对运营商产生的价值，有助于了解顾客的价值贡献，有助于针对客户的价值贡献制定回馈政策。主要用途：客户回馈，即按照客户价值的某个比例确定回馈金额。可以按不同价值分档来分析客户行为。建模流程客户终生价值：LTV=预期寿命内收入-服务成本，换算成净现值关键在于预测客户的寿命。但是准确预测客户寿命（何时流失/离网）是困难的。我们可以采用“生存分析”的方法，计算出每个用户在后续月份里的在网概率值，如下图所示。然后，对预期寿命内的收入净现值的近似计算为： LTV =∑NPV（入网以来各月出帐金额）+∑NPV（后续每月的在网概率×后续每月的出帐金额估值）需要注意的是：客户终生价值的数值并不是一成不变的，随着客户行为的改变（例如，通过主动干预，低端客户价值得到提升），客户终生价值将发生改变，因此必须经常性地更新。根据客户终身价值模型的结果进行的客户终生价值的更新，将使基于客户终生价值的众多营销和服务行为更加有依据、效果更加明显。还需注意：对于新入网的客户，客户终生价值的计算值的误差一般较大。但随着客户在网时长的增长，客户的行为数据逐渐丰富，对该客户的客户终生价值的计算值将越来越精确。模型功能：根据客户的行为数据（即使是新入网的客户），计算出客户的终身价值的值。xxx客户终身价值模型和细分模型结合起来，能够科学度量客户的价值，并预测细分市场的利润。客户终身价值价值模型可以应用在很多业务领域，从销售、服务、定价到风险预测。xxx的交叉销售和提升销售模型设计通过分析产品之间的关联关系，分析用户行为与产品的关联关系，有针对性的向目标客户进行产品推介，提高客户响应率以及满意度。采用数据挖掘方法，建立一个预测性模型，根据客户资料和客户的行为属性、客户是否使用某种产品等历史数据，计算客户购买某种产品的概率。在营销过程中，可以向购买概率高的客户推销相应的产品，便于选准对象，提高营销成功率。同时，由于实行了有针对性的营销，对某项产品的兴趣度较低的客户不会受到打扰，而兴趣度较高的客户会得到他们需要的营销信息，因此有助于客户满意度的提高。系统功能结构图模块说明应用目的增值业务部在推广短信套餐业务时，根据模型结果更准确地选择营销对象，以达到节省营销成本、提高销售成功率的目的。根据用户属性和历史行为数据,预测尚未使用短信套餐的用户在未来指定时段内(如测算月的下个月份)使用短信套餐的概率、以及使用哪种（3元、6元、10元、20元）短信套餐的概率,并给出了影响用户使用短信套餐情况的主要因素。数据准备要求用户群选择用户属性的预选：复用流失总宽表，即选取包括用户社会属性、通话行为属性、帐务属性等字段。用户群确定（参考了流失预警模型的用户剔除条件）：C网合约用户：剔除的服务计划标识为以下（公司近期清理的）SZ00BY2预付,包月600(不包漫游)SZ00BYJ精品套餐SZ00BYZ预付,包月600(包漫游,已停用)SZ03BY2预付300,包月600(不包漫游)SZ03BYZ预付300,包月600(包漫游,已停用)剔除测试、公免、FM市场、无线公话、无线固话、商务电话用户；只考虑最近3个月连续出帐的用户；剔除上网卡用户。G网合约用户：剔除4个活动类型的用户：赛格GPS定位、永航GSM定位卡、无线公话、短讯批发付费号码；剔除测试、公免、FM市场、无线公话；只考虑最近3个月连续出帐的用户。模型预选变量因为交叉（提升）销售模型预选变量全部来自于挖掘宽表，所以具体变量准备要求，参看流失预警模型。建模要求交叉销售（以7月初建模为例）根据用户2、3、4月的行为数据及6月使用短信套餐的情况，建立预测模型，然后用该模型对最新的4、5、6月行为数据打分，预测8月使用短信套餐的情况。以上挖掘模型的输出结果，将是：（1）清单一：截止到6月底尚未使用短信套餐的用户在8月使用3、6、10、20元短信套餐的概率值；（2）清单二：6月里已经使用6元短信套餐的用户在8月使用10、20元短信套餐的概率值；（3）表一：影响从未使用短信套餐的用户开始使用3、6、10、20元短信套餐的主要影响因素；（4）表二：影响已经使用6元短信套餐的用户开始使用10、20元短信套餐的主要影响因素。提升销售（以7月初建模为例）根据用户2、3、4月的行为数据及6月使用短信套餐的情况，建立预测模型，然后用该模型对最新的4、5、6月行为数据打分，预测8月使用短信套餐的情况。以上挖掘模型的输出结果，将是：（1）清单一：截止到6月底使用10元短信套餐的用户在8月使用20元短信套餐的概率值；模型应用及验证要求每月月初的时候，模型使用人员输入由前3月、前2月、前1月共三个月的行为数据，以及前一个月的用户个人信息数据组成的用户上月的特征属性数据，应用模型规则进行打分，预测用户下月交叉（提升）销售成功概率。将模型计算结果产生的交叉（提升）销售成功概率作为决策支持：先对交叉（提升）销售概率较高的用户展开销售工作。模型的效果评估可以在预测接下来的第二个月，比较预测与实际值，计算提升率指标。该指标反映的是在抽取相同人数的条件下，使用模型抽中的会销售成功的用户是不使用模型的倍数。数据准备程序因为本模型的数据全部来自基础汇总数据，所以数据准备请参看基础汇总数据数据准备章节。建模流程交叉销售模型说明：采用TABLE模式从视图MINER.T_MINER_CROSS_VIEW2005XX里面读取建模数据，stripleadandtrailspaces选项选择right设置。选择节点：根据条件选取SPECCODE='G'或者SPECCODE='C'的纪录用于建立模型。生成（Derive）节点生成目标变量SMSSERVFLAG2_03、SMSSERVFLAG2_06、SMSSERVFLAG2_10，SMSSERVFLAG2_20条件：目标变量条件赋值SMSSERVFLAG2_03SMSSERVFLAG2="03"“1SMSSERVFLAG2/="03"“0SMSSERVFLAG2_06SMSSERVFLAG2="06"“1SMSSERVFLAG2/="06"“0SMSSERVFLAG2_10SMSSERVFLAG2="10"“1SMSSERVFLAG2/="10"“0SMSSERVFLAG2_20SMSSERVFLAG2="20"“1SMSSERVFLAG2/="20"“0生成（Derive）节点生成目标变量SALEFLAG，条件：条件赋值SMSSERVFLAG2/="00"“1SMSSERVFLAG2="00"“0抽取SALEFLAG='1'的纪录，同时，在SALEFLAG/='1'的纪录中每20条抽取1条，合并这两类数据用于建立模型。过滤节点：去掉MINRECVSMSTIMES、RECVSMSTIMES3、SENDSMSTIMES3、MINSENDSMSTIMES、BREWCHARGE3、EMAILCHARGEVARY3、AVEEMAILCHARGE、EMAILCHARGE3、CARDCHARGE1、BREWCHARGE1、MAXEMAILCHARGE、MINEMAILCHARGE、EMAILCHARGE1、BREWCHARGEVARY2、EMAILCHARGEVARY2、BREWCHARGE2、WINNEDBACKUSER、EMAILCHARGE2、MINCARDCHARGE、MINLBSCHARGE等等共88个无效字段。读取参与建模的字段的类型。采用神经网络算法建立模型。提升销售模型说明：采用TABLE模式从视图MINER.T_MINER_UP_VIEW2005XX里面读取建模数据，stripleadandtrailspaces选项选择right设置。Derive节点生成目标变量FLAG10TO20，条件：条件赋值SMSSERVFLAG2="20"“1SMSSERVFLAG2/="20"“0抽取第n月、n+1月FLAG10TO20='1'的纪录，同时，抽取第n+1月FLAG10TO20/='1'的纪录的80%，合并这两类数据用于建立模型。过滤节点：去掉CALCMONTH，SMSSERVFLAG2，SMSSERVFLAG1，SMSSERVFLAG，INITPRMTCODE，SUBSCRBID，PRMTCODE，SRVGNUM，TRANSSHUTTIMES1，MAXTRANSSHUTRATE，PLAINTTIMES2，PLAINTTIMES1，PLAINTTIMES3，CUMULATEDUNCHARGEMONTHS，TRANSSHUTTIMES3等等共47个无效字段。读取参与建模的字段的类型。采用决策树C5.0算法建立模型。生产流程交叉销售模型说明：采用TABLE模式从视图MINER.T_MINER_SALE_VIEW_G或者MINER.T_MINER_SALE_VIEW_C里面读取应用数据，stripleadandtrailspaces选项选择right设置。采用交叉销售应用模型对应用数据打分。读取应用数据的字段类型。过滤节点：过滤掉应用不需要的字段，仅保留SPECCODE，SRVGNUM，SUBSCRBID，CALCMONTH，PREDICTMONTH，EFFTIME，EXPTIME，$N-SALEFLAG，$NC-SALEFLAG，$N-SMSSERVFLAG2_03，$NC-SMSSERVFLAG2_03，$N-SMSSERVFLAG2_06，$NC-SMSSERVFLAG2_06，$N-SMSSERVFLAG2_10，$NC-SMSSERVFLAG2_10，$N-SMSSERVFLAG2_20，$NC-SMSSERVFLAG2_20共17个字段。生成CROSSPROBILITY，PROB_SMSSERVFLAG2_03，PROB_SMSSERVFLAG2_06，PROB_SMSSERVFLAG2_10，PROB_SMSSERVFLAG2_20，SMSSERVFLAG字段，声称条件如下：目标变量条件赋值CROSSPROBILITY '$N-SALEFLAG'='1'0.5+'$NC-SALEFLAG'/2'$N-SALEFLAG'/='1'0.5-'$NC-SALEFLAG'/2PROB_SMSSERVFLAG2_03'$N-SMSSERVFLAG2_03'='1'0.5+'$NC-SMSSERVFLAG2_03'/2'$N-SMSSERVFLAG2_03'/='1'0.5-'$NC-SMSSERVFLAG2_03'/2PROB_SMSSERVFLAG2_06'$N-SMSSERVFLAG2_06'='1'0.5+'$NC-SMSSERVFLAG2_06

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于数据仓库的数据挖掘模型应用方案建议书【方案之家】

文档简介

温馨提示

最新文档

评论

基于数据仓库的数据挖掘模型应用方案建议书【方案之家】

文档简介

温馨提示

最新文档

评论

相关文档