已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深圳天源迪科信息技术股份有限公司 版本:1.0安徽联通用户流量分析模型2012年01月12日文件建立/修改记录日期版本建立/修改内容建立/修改人审核人批准人2012-01-121.0建立孙宏方一、 工具选择与算法选择选用Clementine建模工具里面的决策树算法C5.0对本网用户的流量使用情况进行分析,类别划分。二、决策树算法介绍决策树算法构造决策树来发现数据中蕴涵的分类规则如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。 1)树以代表训练样本的单个结点开始。 2)如果样本都在同一个类则该结点成为树叶,并用该类标记。 3)否则,算法选择最有分类能力的属性作为决策树的当前结点 4)根据当前决策结点属性取值的不同,将训练样本数据集tlI分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一步得到的一个子集,重复进行先前步骤,递4I形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。 6)递归划分步骤仅当下列条件之一成立时停止: 给定结点的所有样本属于同一类。 没有剩余属性可以用来进一步划分样本在这种情况下使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样木的类别分布, 如果某一分枝tc,七砰如恤卜a*没有样本,则以样本的多数类创建一个树叶。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值就有几条边。树的叶子节点都是类别标记。 由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:生成最少数目的叶子节点;生成的每个叶子节点的深度最小;生成的决策树叶子节点最少且每个叶子节点的深度最小。三、数据预处理及准备首先关联本网用户资料信息表,联通用户资料半年汇总表,3G业务资料表,统计出用户收入,用户增值费用,用户年龄,用户在网时长与用户使用流量的关系,及按流量使用量,套餐内流量使用情况,套餐内流量剩余流量将用户分档统计(详细见附件)。后将用户资料11月份数据清洗(除去离网用户,测试卡用户,上网卡用户)后作为模型数据来源。取数sql如下:create table spss_flow as (select a.user_id, a.phone_no, a.online_dura, (a.addval_fee + a.call_fee + a.month_fee) as arpu, a.addval_fee, NVL(A.net_flow, 0) / (case WHEN trim(dt_cde) = 42221 THEN 150 ELSE p.RUN_COUNT_IN END) as shiyonglv, (case WHEN trim(dt_cde) = 42221 THEN 150 ELSE p.RUN_COUNT_IN END) - NVL(A.net_flow, 0) / (case WHEN trim(dt_cde) = 42221 THEN 150 ELSE p.RUN_COUNT_IN END) as shengyulv, b.age_level_code, _flow from tb_b_ft_prd_inst partition(p201111) a left join tb_b_dim_prd_3g p on trim(p.offer_id) = trim(a.PRODT_CDE) left join tb_b_ft_prd_inst_bn b on trim(a.user_id) = b.user_id where a.online_user_flag = 1 and a.ceshi_user_flag 1 AND A.PRODT_CDE NOT IN (14419, 44364, 25924, 63155, 63160, 63399, 42221) ); 四、建模过程及流文件说明首先将建模数据导出为CSV文件并保存在一个路径然后打开clementine工具,在面板下方找到文件节点:,打开它,然后选中CSV文件路径即可导入数据文件:,选择字段选项下的 过滤节点,拖入工作区,将电话号码及USER_ID过滤掉,选择字段选项下的填充节点,选择需要去null的字段,将null值和无效值置换为0,选择字段选项下的类型节点,选择字段选项下的导出节点,编辑导出节点,在导出为选项中选择标志,编辑公式编辑器,输入流量数大于0作为条件,测试成功后点击确定,再选择类型节点,设置输入输出参数,将是否产生流量作为输出,在网时长,年龄,收入,增值用作为输入参数,最后在建模下拖入C5.0模型节点,编辑节点,设置输出类型,决策树方式,剪枝程度100,确定后执行节点。并点击按钮,弹出执行界面:如果执行过程中,想终止执行,点击:即可,模型正常执行完成后,执
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 17120-2025锻压机械安全技术规范
- 2026年中国饮料行业发展展望及投资策略报告
- 2025-2026学年北京版(新教材)二年级上册数学第五单元提高试卷(表内除法)附参考答案
- 保安员员工行为规范
- 河南西部计划考试题目及答案
- 普通逻辑原理试题及答案
- 制冷原理试卷及参考答案
- 2025年心脏护考知识题库及答案
- 大学生窒息考试题及答案
- 农艺师所有考试题及答案
- 保密风险评估管理制度
- 航空器维修技术规范与标准
- 2025届高三押题信息卷(一)地理及答案
- 2025年建筑工程承包合同模板样式
- 成长赛道物联网工程专业1500字
- 总承包管理与配合措施方案
- 消防设备故障报修与处理流程
- 维吾尔族教案
- 电工加薪申请书
- 碧桂园集团《安全文明措施标准化手册》
- 《工程勘察设计收费标准》(2002年修订本)
评论
0/150
提交评论