基于数据挖掘对垃圾短信识别模型的研究与应用—以某省移动公司为.docx_第1页
基于数据挖掘对垃圾短信识别模型的研究与应用—以某省移动公司为.docx_第2页
基于数据挖掘对垃圾短信识别模型的研究与应用—以某省移动公司为.docx_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘对垃圾短信识别模型的研究与应用以某省移动公司为摘要:本文基于运营商现有的平台,分析用户的通信行为,结合数据挖掘技术,提出一个新的垃圾短信识别模型。结合某省运营商短信运营数据对垃圾短信识别模型进行了实证研究,并从命中率和波动度两方面对模型进行验证,取得较好的效果。 关键词:垃圾短信过滤技术;相关性分析;特征选择;Logistic回归模型 0绪言 目前通信行业所采用的垃圾短信过滤的方法主要有:第一,黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;第二,基于关键字规则的过滤技术,但是这种技术不能灵活识别和更新关键字;第三,基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤,有学者、提从词频的角度提出了基于贝叶斯分类器的垃圾短信过滤系统,还有基于文本分类的垃圾短信过滤方法。但是随着垃圾短信治理活动的逐步开展,垃圾短信的手段越来越隐蔽了,如一人多号、以谐音字代替敏感字眼、以字符将敏感字眼隔开等。这给垃圾短信治理工作带来了重重困难,优化拦截识别模型已迫在眉睫。开题报告 因此,本文提出融入客户行为研究和数据建模建立垃圾短信识别模型来取代目前的垃圾短信过滤技术,提高判断用户在发送垃圾短信的准确度和效率。 1垃圾短信识别模型1.1垃圾短信识别模型简介 垃圾短信识别模型是通过对用户的通信行为,如用户的消费信息、交往圈、话单信息等的分析,建立Logistic回归模型预测其未来成为发送垃圾短信的用户的概率的模型。 1.2 建模指标的抽取 从黑名单和白名单中随机抽取一部分数据,形成建模样本组。在选定样本后,从数据仓库的全部客户数据中提取与该客户群相关的信息结合垃圾短信数据形成宽表。并采用统计学的方法对指标进行分析。本文中对垃圾短信识别模型的基础变量的处理主要采用相关性分析与特征选择分析。 1.4模型的构建 在垃圾短信识别模型,假定有二值变量y,它表示用户是“垃圾短信用户”与“正常用户”,y=1表示“垃圾用户”,y=0表示“正常用户”,现在就是要预测y=1的概率P。一般而言,P值越大,该用户是垃圾短信用户的可能性越高;反之,则愈小。 Logistic 回归模型: 总结大全 其中:PP(y=1)是二值变量中 y=1发生的概率,是需要预测的。是影响 y=1发生的 n 个预测变量。是需要估计的模型参数。作文 将采集的样本组以70%:30%的比例分为训练集和测试集,并根据训练集求出模型参数,根据上面的模型表达式,然后将测试集打入模型中求出预测概率P(y=1)的值。 1.5模型效果评估指标 对短信识别效果的评估,主要从2个角度对模型识别效果进行评估。(1)命中率: 即提取的用户中属于黑名单的用户占嫌疑黑名单用户的比率,反映垃圾短信识别的准确性。(2)波动度:即训练集的命中率与测试集命中率的差值,反映垃圾短信识别模型的稳定性 2垃圾短信识别模型的应用 本文以某省移动公司为例,进行了垃圾短信识别的实证分析。开题报告 2.1公司垃圾短信识别的现状和资源条件2.1.1公司垃圾短信识别现状 现在所采用的垃圾短信的技术主要有:第一,10086999不良信息举报平台。第二,BOSS系统日常监控。第三,网管中心拦截平台。但是这些技术将带来以下的风险有误拦现象,还有漏拦现象 作文 2.1.2资源条件 该公司拥有健全的数据仓库平台,相关的数据库软件,统计分析和数据挖掘工具,还有一定规模的外呼中心,能及时获得客户反馈数据。简历大全 2.2数据准备2.2.1数据指标的选取 为了实现模型数据获取的精细化,根据用户在网时长的不同和数据的可获取性原则,将模型分成两类来构建:一类是网龄大于等于2个月,以月数据为主,补充相关的天数据。因为网龄小月2个月的用户,没有完整的月数据,在建模的时候以天数据为主,因此将网龄小于2个月的用户作为另一类。经过经验,对于网龄大于等于的目标用户,初步圈定了46个基础指标,如品牌、短信费用、点对点短信发送量等。而网龄小于2的用户群,圈定了29个基础指标,如前三天内发送短信数量,日均短息发送条数,日均被叫通话次数等。 2.2.2数据的预处理 经过对提取出来的变量的相关性检测,发现了部分变量存在明显的正相关现象,为了减少后期固化的数据量和提高建模的效率,剔除掉高相关性的指标,筛选后,网龄大于等于2的用户选取23个指标,而网龄小于2的用户选取17个指标。将相关性分析后形成的宽表进行特征选择分析,经过检验,网龄大于等于2个月所选取的指标有12个,包含入网时长、消费额、前三天内发送短信的集中时段、短信交往圈重合率等;而网龄小于2个月所选取指标4个,包含前三天内发送短信的集中时段、前三天内集中时段发送条数、前三天内高频时段个数、日均接收短信条数。 2.3模型的构建 以网龄大于等于2个月的样本数据为例,将样本数据导入模型,然后将样本数据按30%:70%的比例进行分区,建立Logistic回归模型,求出Logistic回归模型的的估计参数模型参数,以及y=1的概率,具体的值如下图1所示: 开题报告 图1 网龄大于等于2个月参数估计 求出估计参数之后,代入Logistic回归模型,求出预测概率P。总结大全 根据模型的预测效果,对模型进行评估,通过计算模型预测的准确率还有波动度,垃圾短信模型识别的命中率为79%以上,并且经过对两个数据集的分析,模型的波动度小于0.3%,说明模型较为稳定。思想汇报 3结论 随着科技的发展,垃圾短信的内容变得越来越丰富、手段越来越智能,而本文所提出的垃圾短信识别模型就是从用户的行为出发,精准定位高风险的用户,准确圈定垃圾短信用户,采用统计学与数据挖掘相结合的方法,按用户在网时长精细化垃圾短信预测模型,通过“时迁预测”提高垃圾短信拦截率,完善垃圾短信治理系统。经实践检验,它有效减轻人工审核压力,节约了人工的成本。思想汇报 参考文献 唐建松.浅析移动通信网垃圾短信的趋势和治理J.邮电设计技术2010 邓维维,彭宏. 移动环境下的垃圾短信过滤系统的研究J.计算机应用,2007 简历大全 钱升华等 .文本分类综述及手机垃圾短信过滤方法的研J。河北工业大学学报, 2007 FDEZ-RIVEROLA F, IGLESIAS E LApplying lazy learning algorithms to tackle concept drift in spam fi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论