


全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电信数据挖掘的数据质量评估技术研究摘要:近年来,随着数据挖掘技术的不断更新与完善,无论是应用范围还是应用深度都是大幅度增加。在电信领域中也是得到了快速的应用与发展。因此,对其的研究工作既具有理论价值,又具有实际应用价值。本文首先对数据挖掘有关概念进行分析,然后,对电信数据挖掘的数据质量评估技术进行详细探索。希望能够为有关的研究人员提供一些帮助。 作文 关键词:电信数据挖掘;数据质量评估;应用分析 数据挖掘技术能够对海量数据中的需求数据进行快速、高效、准确的进行提取,其在电信领域中的应用为相关的工作人员节省了大量的工作时间和精力,提高了工作效率以及行业的经济收入。其在电信领域中的主要应用包括:客户细分、流失预测以及话费欺诈分析等。尽管在理论方面其功效很好,但是,由于实际的应用环境以及技术等方面的客观原因,目前电信数据的质量相对较差。所以,在数据挖掘之前,数据质量评估工作是非常有必要的。本文首先对数据挖掘有关概念进行分析,然后,对数据评估体系中的一些关键技术进行分析,最后,基于电信欠费挖掘主题的数据质量评估方法进行阐述。 一、数据挖掘的数据质量评估 数据质量评估是对数据质量进行管理的工作内容之一,其主要负责对数据问题进行发现,并对其驱动力和风向标进行改善。数据质量属于多为概念类型,其中的任何一个维度都表示一类审视数据质量的角度,例如:可靠度、完备度等。数据质量评估主要是以需求作为导向,不同的应用背景之下相同的数据所能接受的程度有所不同,所以,实际上需求分析是对维度的选择过程。数据质量分析基于不同的质量维度,以动态或者静态的方式对数据进行审视。 二、电信数据质量评估关键技术分析 下面针对电信欠费数据的分类,对数据质量评估体系中几个核心算法进行分析: (一) 基于类分布的属性加权算法 属性加权能够对所分类的数据中输入以及目标属性的相关性进行加权体现。其中权责越大,说明相关程度越大,输入属性也就更为重要。所以,其属性上的有关数据质量问题产生的负面作用也就越大。、该算法根据输入属性的每个取值所对应的记录集合中正类记录的比例与数据集的倾斜度之间的差异大小来衡量该属性与目标属性之间的关联度;差异越小,则关联越小。数据挖掘面对的通常是高维数据,仅凭经验很难把所有的重要属性都识别出来,CAWA能在不依靠经验的基础上实现属性重要程度的量化。 (二) 基于属性的缺失评估算法 该类算法主要是从两方面进行考虑:丢失了不同输入属性,其分类结果受到的影响也是有所不同,程度也不一样;正类记录和负类记录的不同缺失给分类结果造成了影响以及程度也是有所不同的。所以,针对缺失值方面,不应该仅仅从属性的角度进行加权计算,还要从正负记录等方面进行加权计算。并且,往往在非平衡数据当中,正类记录上的缺失导致的影响要远远高于负类记录缺失所产生的影响。这种基于属性加权的缺失评估算法是在属性加权算法的基础上进行研究开发的,其充分考虑到了数据的非平衡性,并且,将具有不同属性以及不同记录的全部缺失值进行加权计算,从而得出最终的评估结果。 作文 (三) 非平衡离群评估算法 一般情况下,离群存在两种可能,其中一种是对出现异常情况真实反映,而另一种情况则是出现了噪音。这两种情况在实际工作中很难进行区分。因为,数据挖掘其处理的数据都是以静态形式存在的,很难扑捉到其产生的真正机制。从电信数据非平衡性显著方面考虑,可以得出以下的一些分析结果。 在非平衡数据集的超图模型中,正类和负类点分别对应数据集中的正类和负类记录。从原则上讲,正类离群点和负类离群点在某种意义上都有出现噪音的可能,从而影响到分类结果。但是,如果数据质量比较高的话,正类点在全部的数据点中发生离群现象的可能性相对较大,而其导致的原因极有可能是出现了异常行为。而此时,负类点出现离群现象的几率却比较小,如果出现了离群现象,发生噪音的可能性非常高。在进行非平衡数据集分类过程当中,需要特别关注的就是正类群体相对于负类群体出现了异常行为现象,因为,此时负类群体的离群现象往往会导致分类器对正类点的分辨出现失误,从而致使最终的分类结果准确率严重不足。特别是当负类离群点在一些关键属性组合之下往往能够出现与众多正类点类似的表现。所以,把负类群体的离群程度放到电信数据质量评估体系当中是非常有必要的。 电信数据通常是高维数据,这里使用超图离群检测算法寻找负类离群点。基于超图的离群点是局部属性意义下的,即离群仅表现在输入属性集合的某一个子集上。离群点的绝对离群程度可由点所在的簇对窗口的规模偏差来表示,考虑到各个输入属性对分类结果的重要性不同,定义在不同属性子集上的离群点对分类结果的影响也是不同的,所以要对绝对离群程度加权。 由上面的分析可以得出,离群评估并不针对正类记录,其主要思想就是利用超图离群检测算法对负类离群点进行查找,并对这些负类点的离群度进行计算,非平衡离群评估算法首先是通过超图离群检测算法将相对于各条频繁超边的离群点查找出来,然后,对这些点的离群度进行计算,并对其进行评估。 三、电信欠费挖掘主题的数据质量评估方法 下面对电信欠费挖掘主题质量评估方法进行分析,图1为该评估系统的流程图。其主要有离群评估和缺失评估两部分内容组成,最后的评估结果能够从各个分向量清楚了解到。具体流程如下: 总结大全 图1 电信欠费挖掘主题质量评估系统的流程图 电信欠费挖掘主题的数据质量评估具体流程: 1.将需要评估的数据输入到系统当中。 2.对每个属性的缺失率进行详细统计,并根据缺失率计算出缺失统计向量。 3.对数据集中的倾斜率进行统计,倾斜度是指正类记录的百分比。 4.利用CAWA对输入属性值进行加权计算,并得出相应的属性权值向量。 5.使用AMEA和IOEA分别进行缺失和离群评估,计算评估得分。 6.对评估的得分向量进行输出,并将这些向量值作为数据挖掘可行性的判断依据。输出评估得分向量,并依据评估得分向量的参照值判断挖掘的可行性。 三、总结 随着网络技术的快速发展,各行各业中的数据信息成指数性增长,这无疑为信息的处理工作增添了相当大的难度。数据挖掘技术为处理海量数据带来了新的契机,在该技术的帮助下,人们处理这些数 据更加的高效、准确,而且,其处理速度更加符合实效性。然而,由于技术以及一些客观因素,导致数据挖掘技术的实际应用效果并不是很理念,很多数据质量较差。因此,数据评估技术的广泛应用是十分必要的。本文首先对数据挖掘有关概念进行分析,然后,对数据评估体系中的一些关键技术进行分析,最后,基于电信欠费挖掘主题的数据质量评估方法进行阐述。希望能够为有关的研究人员提供一些帮助。参考文献: 孟巍.数据仓库数据质量评价研究及其应用D.河北工业大学.2004 周文渊.电信行业经营分析系统的设计D.中南大学.2009 尹戈.基于Oracle的数据仓库技术在电信行业中的应用D.电子科技大学.2006 卢捍华,张凌云.电信CRM中的客户特征管理J.电信科学.2007(08) 袁一平.一种构建数据仓库的新方法J.职业技术教育.2007(20) 林伟玲,陈月云,廖福成,蒋美景.中间件在电信多层分布系统的应用和研究J.微计算机信息.2007(15) Bahrain, K. N, Karamu din, M.S., Fat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年石油加工催化剂项目建议书
- 2025年锌镍蓄电池项目建议书
- 2025年核燃料元件及组件项目发展计划
- 湖北武汉市蔡甸区汉阳第一中学2026届化学高一第一学期期中监测试题含解析
- 2025年雷电监测产品项目合作计划书
- 2025年医疗器械公司质量管理制度执行情况考核管理制度
- 2025年糖尿病酮症酸中毒病人护理查房-酮症酸中毒护理查房
- 互联网大厂裁员潮下企业创新生态构建者转型企业创新资源整合与协同推动者的转型要点与发展路径
- 智能体开发交付创新实训室技术需求
- 2026届河北省正定县一中化学高一上期末综合测试试题含解析
- 兰花花叙事曲二胡曲谱
- 调解协议书电子版5篇(可下载)
- 材料性能学(第2版)付华课件1-弹性变形
- GB/T 4909.4-2009裸电线试验方法第4部分:扭转试验
- PDCA质量持续改进案例一:降低ICU非计划拔管发生率
- 2023年烟台蓝天投资开发集团有限公司招聘笔试题库及答案解析
- 企业标准编写模板
- 初中道德与法治 九年级(维护祖国统一)初中道德与法治九年级作业设计样例
- 幼儿园绘本故事:《骄傲的大公鸡》 课件
- 江西省赣州市于都县2022-2023学年九年级化学第一学期期中监测试题含解析
- 新冠核酸检测实验室PCR管八联管滤芯吸头等耗材质检和储存程序
评论
0/150
提交评论