


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
家庭关系识别的数据挖掘模型 ( )摘 要: 数据挖掘技术已经在各个行业得到了广泛应用,本文在总结前人研究的基础上,提出一种类似纵表的挖掘思路,并利用此思路和决策树技术,分析固定电话和手机号码的亲情关联关系模型,详述模型构建过程及思路,并对模型结果作验证分析。关键词:数据挖掘,类似纵表,家庭关系,决策树1 引言一般数据挖掘所研究的表,是基于客户为中心的宽表,即一个客户一条记录,这样的横表对于统计和挖掘是非常方便的,但是其扩展性差,而纵表却具备这样的优势。如在通讯行业,用户在交往圈上存在较大差异,用一条记录来说明用户的交往圈是不恰当的,则需要利用纵表的优势,用一条记录来概括两个号码之间的关系,即号码对。一个用户的交往圈可以用多个号码对来描述,且扩充性非常好,同时同一用户的多个号码对(组内)又不是相互独立的,不同用户(组间)的号码对是相互独立的,这就是这种类似纵表的特点所在。2 家庭关联关系模型构建本文利用数据挖掘方法和技术,通过固定电话来分析和判断某一手机号码是否为家庭关联关系,这个方法同样适用于手机号码与手机号码之间为家庭关系的识别等等。2.1 背景介绍及假设截至2008年底某运营商拥有固定电话用户2.14亿户,宽带接入用户4718万户,在固网方面仍然占据绝对的领先地位。承接了CDMA网络以后,迅速推出了以原有家庭客户品牌“我的E家”等新产品,并引入家庭关联关系模型,较好地将固定电话和CDMA手机进行融合。但是此模型是以CDMA手机号码来识别固定电话,所以只识别内网的家庭关系。为采取更有针对性的营销策略和异网策反,准确识别固定电话和本网和它网的手机号码为家庭关系尤为重要。本文采用了一个假设条件:一个固定电话至少存在一个家庭手机号码。某个家庭固话与许多手机号码存在交往,根据通话的紧密度及其他指标,得到手机用户与该固话的家庭关系评分,选择评分为最大值的手机号码作为该固定电话对应的家庭号码。2.2 数据收集和整理 根据以往发展的“我的E家”品牌,可以识别出一部分固定电话和手机号码为家庭关联关系,并以此作为原始样本,但是这些家庭数据存在一定噪声,在样本量满足要求的情况下,需要对数据进行清洗,目的为得到比较“纯”的家庭关联关系数据。如删除固定电话和手机号码登记的资料不一致,保留固定电话和手机号码为一对一的,删除登记资料存在错误的家庭数据,删掉月度无通话等等一系列手段,获取高纯度的家庭关系号码对,样本的纯度直接影响模型的精准度。2.3 宽表数据设计 在通信行业,可以得到可靠和丰富的号码之间的详单数据。宽表预测的数据主要来自两个部分:基础数据,衍生数据。基础数据包括:主叫次数、被叫次数,时长等等;衍生数据则是通过数据分析或者统计学方法,找出显著特征的属性或者变量,衍生数据有时对于模型来说至关重要。衍生数据的设计:例如对于固定电话,同一家庭关系的手机号码,在通话次数、时长、时段、频率,交往圈等方面与其他手机号码存在差异,根据这些差异来设计宽表字段。而这种差异可以利用已知高纯度的家庭关系号码对中的固定号码的通话详单,在统计上具备显著性差异来衍生设计。如时长:固定电话与其家庭关系的手机号码平均通话时长为78秒,与非家庭关系的手机号码的平均通话时长为107秒,则可以设计短时通话次数;如时段:统计他们的通话时段不同分布情况,设计在周中下午17:00-19点之间的通话次数等等。从中可以看出衍生数据的重要性,同时衍生数据设计跟我们对业务的理解也是紧密联系的。已知是家庭固话与其有家庭关联关系的CDMA 手机号码对作为建模正样本(标记为1)。而家庭固话与其有没有家庭关联关系的手机号码对为负样本(标记为0)。设计宽表字段如下:字段描述字段描述固定电话与其联系的某一手机号码2个月平均主叫次数2个月平均周中17-19:00主叫次数2个月平均被叫次数2个月平均周中17-19:00被叫次数2个月总呼叫次数2个月平均周中17-19:00总呼叫次数2个月平均主叫时长2个月平均周中11-13:00主叫次数2个月平均被叫时长2个月平均周中11-13:00被叫次数2个月总呼叫时长2个月平均周中11-13:00总呼叫次数2个月90秒以内通话次数2个月平均周末主叫次数2个月90秒以上通话次数2个月平均周末被叫次数2个月平均最短一次通话时长2个月周末呼叫次数2个月平均最长一次通话时长2个月平均通话时长 交往圈家庭关系标志 在本次实验当中,这里交往圈的值未给出。 同时,需要考虑不同的家庭固定电话在通信行为中存在特定的个体差异,单纯用绝对值作为预测变量导致模型存在偏差,需要将其标准化,得出相对值的衍生字段,如平均主叫次数比,这一比值可以由该固定电话用户与某一手机号码的值和该固定电话与全部手机号码的最大值的比例得到。展示这种相对性还有一种技术:秩,如平均主叫次数排名。依据这两种技术,可以得到对应字段的衍生字段,继而得出此挖掘模型所需宽表。2.4 模型构建和验证 本研究采用决策树算法,其一在于良好的模型效果,其二在于结果的可解释性。采用SPSS公司的Clementine数据挖掘工具,具体算法采用决策树算法CHAID,得到家庭关联关系识别模型,同时我们将模型结果评分数据进行处理,对于某一个固定电话,以评分最高者为该固定电话对应的家庭关系手机号码。并对结果进行误分矩阵分析:矩阵预计非家庭关系预计家庭关系合计实际非家庭关系85765769152实际家庭关系56010931653合计9136166910805模型的查全率为1093/165366.1;命中率为1093/166965.5;模型整体准确率为:(85761093)/ 1080589.5。预计家庭关联关系合计1669,比实际家庭关联关系1653多了16个号码对,即存在同一固定电话,找出2个评分分数相等,并且都为最大值的手机号码。在本次实验中,交往圈的数据太大,本次未纳入模型,经后来测试,纳入模型后,查全率和命中率均可以提高5%以上。2.5 模型应用 将模型运用到全部固定电话号码数据中,进行匹配运算和处理,进一步得到家庭关联关系为本网和异网的手机号码,根据这些手机号码可以得到:一, 为家庭关联关系的手机号码,几乎90%为本地号码。二,以本网的固定电话为基础,得到家庭关联关系的手机号码到市场份额见下表的家庭市场份额占比:移动手机本网竞争对手1竞争对手2整个市场份额占比8.70%11.50%79.90%家庭市场份额占比11.10%12.10%76.90%市场份额占比差2.40%0.60%-3.00% 可见,在该运营商推出的“我的E家”品牌以后,在家庭市场份额占比优势较为明显,但可以根据此模型,加大异网策反力度,提高市场份额。3 展望和延伸本文只是依据此数据挖掘方法和思路,实现了在通讯行业中,固定电话和手机号码的家庭关联关系识别,将该方法还可以运用到通讯行业的重入网识别,同时还可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司对外担保合同效力的多维度审视与实践思辨
- 校园摆渡车租赁合同范本
- 框架协议不属于经济合同
- 智能照明销售合同
- 工业设备维修保养协议
- 承租合同范本经典版本3篇
- 图书馆建设工程总承包合同3篇
- 2025年微波暗室设备合作协议书
- 【《糖尿病患者的健康教育实证研究》10000字(论文)】
- 【《永磁体磁路分析与漏磁数据处理分析》4200字】
- 2025-2030中国电力工程总承包行业市场发展分析及发展趋势与投资研究报告
- 白内障光明扶贫工程实施方案
- 方案评审表-技术方案评估
- APP融资方案模板
- 初中自我介绍课件
- 劳动教育读本中职版专题一崇尚劳动学习资料
- 《员工行为准则培训》课件
- 仓管员晋升组长述职报告
- 《付出总有收获》课件
- 方剂学知到智慧树章节测试课后答案2024年秋安徽中医药大学
- 《慢性乙型肝炎防治指南(2022年版)-》解读
评论
0/150
提交评论