




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号:趟妒 篖 近年来,随着无线通信技术的快速发展,电信业务不断增加,智能手机普及率迅速升高,、业务不断出现,使得电信行业的业务数据越来越多,成为典型的数据密集型行业。因为人们每天都会通过手机等通信工具进行联系,所以电信业每天都会产生大量的语音通话业务数据,长期积累的语音通话业务数据成为运营商重要资源和财富,如何从这些海量业务数据中发现有价值的信息是非常有必要的。数据挖掘是一种从海量数据中挖掘有价值知识的工具,它的作用就是从大量的数据中通过算法发现隐藏于其中的有用信息。其中,序列模式挖掘和聚类挖掘都是数据挖掘的重要分支,已应用在很多领域中,例如,客户购买行为分析、欺诈行为检测、网络入侵检测等。在查阅了大量国内外文献的基础上,本文采用序列模式挖掘和聚类分析对语音通话业务数据的进行挖掘,获得有价值的信息并对电信业务做决策或者是预测作用。 ,瑃 广东工业大学硕士学位论文 、甀,印 本章小结第四章基于聚类的序列模式挖掘用户体验细分聚类挖掘序列模式挖掘算法参考文献 攻读硕士学位期间从事的科研项目及发表的学术论文学位论文独创性声明学位论文版权使用授权声明 甀 瓸 选题背景及意义规律是有价值意义的。由于电信语音通话业务数据的急剧增长,并且电信业务数据的存储方式多样性,要从这些海量数据中发现有价值的信息或知识,对电信行业来说是一种挑战,也是很有意义的工作。本文选择了某省的某个片区基站数据来做分析,通过分析无线通话中的语言质量状况,用聚类挖掘算法获得片区通话用户满意度情况,根据不同的网络质量状况来改善语言通话业务质量,从而提高用户的满意度,为用户提供更优质的服务。 国内外研究现状少了数据库扫描的次数,提高了算法的执行效率。在年,算法。该算法应用了前缀投影技术,显著地减少了候选产生的时间消耗,同时也减小 论文主要工作算法并对其优缺点进行了比较。了详细的数据预处理过程。 得了序列模式挖掘结果。最后在总结与展望中阐述了本文的总体工作,对后续工作提出展望。 数据挖掘图数据挖掘过程图 洗,达到数据统一。 序列模式挖掘大概分为三个步骤,分别为数据预处理、知识库形成、可视化展示, 贏的相仿,都是从短的频繁序列生成较长的候选序列集,再经过最小支持度闽值进行剪易实现,因此得到广泛的认可和应用。但是也存在很多的问题,例如,该算法在运行 动窗口、时间约束和分层技术,减少了扫描的候选序列的数量,同时减少多余的无用次数,只需扫描三次数据库且计数快捷简单。该算法的缺点是增大了内存的消耗。 由挖掘,直到没有频繁序列模式产生时,算法结束。聚类挖掘算法鰊维向量,雚琿琿间的欧氏距离: 簇间相似度低。猰算法的伪代码如下: 和孤立点数据敏感。无线通信网络常见的问题 模型结构 畑, 太小原数据列表下面介绍几个网络质量关键的参数:鵏上下行平衡等级如表籰所示。 表上下行平衡等级是一扑憬峁#,所以是上行偏弱。信号接收质量,即通话质量。信号接收质量等级 在测量报告中可以根据的值反映网络质量的情况,等级越高反映网络的误本文之前描述了原始数据,由于原始数据的属性字段非常多且数据量非常大,所以本实验是提取了其中的某一部分数据做实验分析。首先是将原数据文件导入到位置区码:移动通信系统中,为寻呼而设置的一个区域,覆盖一片地理区域,初期一般按行政区域划分桓鱿鼗蛞桓銮,现在很灵活了,按寻呼量划分。扇区号:基站负责发送和接收的那个天线,称为。同一个基站下的号的个位数是连续的,各 信号在空间传输是有延迟的。为了避免时隙重叠,发送指令,指示移动台提前发送的时间,这个时一,选择属性字段 做了如下的清洗:都删除掉。 表归约后的属性属性名 公式如下: :本章小结 第四章基于聚类的序列模式挖掘用户体验细分 恚呼钷肤隰畎熊鎪霸鞲嗣圈霸麟纛潞娥瀚霸攀 第四章基于聚类的序列模式挖掘妫痪先僖。賗黼一湛蝴用户总体满意程度。聚类挖掘滴窦词毙裕褐钢斩诵藕徘慷群突拘藕徘慷榷夹趌时认为业务即时性好, 滴裢暾裕褐钢鞣袂舷滦械缙酱笥蜕舷滦兄柿啃、邻服务区滴窨山尤胄裕褐钢髁诜袂舷碌缙蕉即笥椭斩诵藕哦夹认为:篐 第四章基于聚类的序列模式挖掘:表业务完整性计算:、 :业务即时性:由且:砸滴窦笆毙院茫锤弥滴。业务可保持性:砸滴窨杀中圆睿锤弥滴狾。业务会话质量:琋琋,业务可接入:由:,琋,所以业务可接入为一般,即该值为总体满意度,即满意度较差。通过聚类挖掘后,获得不同的簇,每个簇都具有各自的网络质量共性,针对不同的簇后续再做相应的序列模式挖掘。序列模式挖掘 第四章基于聚类的序列模式挖掘定义罴痓旷是一个非空的项目集合,一条序列是由若干项集的集合,每一个事务由一个元组表示。这个元组是手机用户的一次通话行为。电平平衡的等级。以及时间的先后排序转换为序列数据集,如表所示。: 。将表的事务数据集以为主键,其中P蛄泻偶次1蠧闹怠为重新排序及合并此序列的长度为一序列。,那么称臼莗的子序列,或【的超序列。 第四章基于聚类的序列模式挖掘称【前缀,当且仅当同时满足如下三个条件:;淮嬖【的真超序列尽保沟【”是竞颓白簆的子序列。阎R桓鲂蛄衏【,渲衑黫,猚赜谇白簆的后缀俏荆痯,其中。也算法方法:螅,。 子程序:,琒。方法:鑃淮危业狡捣毕頱集合,则:悦扛銎捣毕頱,连接到序列模式竺娌涑鯽。、一一,竺窭算法流程图数据库癿为例描述的挖掘过程。 搜索空间划分。完整的序列集合可以划分为下面鲎蛹个前缀:结合经典算法算法和框架 : 第四章基于聚类的序列模式挖掘图对队昂蟮腜表结构算法伪代码:木;悦肯钇捣毕盍拥絘项成涑鯽; 第五章实验及结果分析实验环境及数据集结果分析 第五章实验及结果分析 间属性共同来构造序列数据。表。上下行质量可以分为好与差情况并给出映射关系表,见表和表。例如某 第五章实验及结果分析下行电平弱上行电平稍弱上行电平弱,本实验是利用上下行电平平衡等级,上下行质量好与差来做序列挖掘,通过基站的上下行电平平衡等级和上下行质量好差在一段时间内相互转换来分析基站的网络情况,进而产生相应的规则,或者是发现某个时间段的比较频繁的出现的网络现象,提供给电信公司做决策使用。本文选取了第三和第五个簇做了进一步的序列挖掘实验,并做了不采用聚类分析而直接对通信数据采用序列挖掘实验进行对比。下面给出了改进的算法在不同的数据集上指定的最小支持度下的序列结果: 序号琭琱酝攀葜苯有蛄薪峁绫所示。, 由上小节三组实验结果可以得知: 第五章实验及结果分析本章小结 数据做了详细的数据预处理过程并介绍了用户细分的划定。随后使用了甿算法本文采用了聚类方法和序列模式方法结合对通信数据进行挖掘,先通过聚类获得不同的满意度群体即不同的网络质量群体,然后使用改进的算法进行序列挖掘,获得网络质量的变化规律并对比了改进算法时空性。 总结与展望本文虽然给出了改进的算法,总体上性能较算法好,但是也存在问题。当数据量非常大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 趸售热合同(标准版)
- 净水机维护合同(标准版)
- 全新防腐施工合同
- 在线购物退款服务协议
- 个人借款合同常见问题及解决方案
- 企业股权转让法律合同标准模板
- 标准出纳岗位劳动合同范文集
- 商业摄影服务协议说明文本
- 在线会议系统使用及技术支持服务合同
- q预拌混凝土供应合同2篇
- 双人合作开店协议书范本
- 以史为帆明方向+少年立志向未来+课件-2025-2026学年上学期主题班会
- 2025年医卫类病理学技术(中级)专业知识-专业实践能力参考题库含答案解析(5套试卷)
- 2025上海科技馆事业单位工作人员招聘10人笔试备考题库及答案解析
- 八年级语文上册期末考点专题17 新闻阅读(解析版)
- 钢结构工程施工安全管理方案
- 【初二】【八年级】【道法】2025【秋】上学期开学第一课【统编版】(课件)
- 监狱消防安全应急预案
- 军事类面试题目及答案
- 2025巡护员考试题库及答案
- 产科专科护士结业汇报
评论
0/150
提交评论