




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在电信连锁经营中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
! ! 室些皇查兰堡主里壅生堡塞数据挖掘技术在电信连锁经营中的应用研究 数据挖掘技术 在电信连锁经营中的应用研究 摘要 本文主要研究如何将数据挖掘技术引入到电信连锁经营业务当 中,并为其经营管理提供决策支持信息。 随着信息技术的发展,数据挖掘作为知识开发和创新的工具在国 际上正在广泛地应用于众多的社会信息化领域,通过分析当前和历史 的业务数据,以及相关的环境数据,自动快速地获取其中有用的决策 信息,为企业提供快速、准确和方便的决策支持。 电信业务的连锁经营是近几年才出现的一种将传统连锁经营营 销思想应用到电信业务的经营管理中的一种经营模式,同其他连锁经 营业务相比,电信连锁经营有其自身的特点,即运营商利用其资源优 势,并且吸取连锁经营的思想来发展业务。在激烈的竞争中,根据市 场形式正确进行决策的制定与实施是这种连锁经营业务开展的核心 所在。 本文在对数据挖掘技术的概念以及各种挖掘规则简要介绍的基 础上,根据电信连锁经营的业务需求、特点,重点研究了分类预测、 聚类分析、关联分析这三种挖掘方法在典型业务中的应用。本文主要 分析了电信连锁经营中的营业点地址选择、加盟店主的信誉评估、i p 公话通话高峰时段分析以及用户购买意向预测等几种不同的业务,根 据各种业务的需求使用不同的挖掘规则进行建模,前两者主要使用分 类预测,后两者分别使用了聚类分析和关联分析方法。随后,对生成 的挖掘模型进行了评估和讨论,并且对数据挖掘在系统应用中遇到的 一些问题提出了一些建议和解决方法。 最后,本文根据i p 公话业务运营管理的实际需求,设计出了i p 公 话经营决策分析系统,介绍了该系统的结构以及主要模块的设计实 现,并对该系统的投入运营对i p 公话业务产生的效益作了对比评估。 关键词:数据挖掘电信连锁经营分类预测聚类分析关联分析 ! ! 重些皇奎兰堡圭堕篓兰笙苎 墼塑丝塑塾查堡皇堡垄壁丝笪堕壁里婴塞 o nt h ea p p l i c a t i o no fd a t a m i n i n g i nt e l e c o m m u n i c a t i o nc h a i n b u s i n e s s a b s t r a c t t h i sd i s s e r t a t i o ni se s p e c i a l l yc o m p o s e dt os t u d yh o wt ou s ed a t am i n i n g ( d m 、 t e c h n i q u ei nt h et e l e c o m m u n i c a t i o n c h a i nb u s i n e s sa n dp r o v i d ed e c i s i o ns u p p o r tf o r t h eb u s i n e s s w j t l lt h ed e v e l o p m e n to ft h ei n f o r m a t i o nt e c h n o l o g y , t h ed m t e c h n i q u eh a s b e e na p p l i e di nm a n ys o c i e t yi n f o r m a t i o nf i e l d sa sat o o lo f t h ed i s c o v e r ya n di r m o v a t i o no f k n o w l e d g e d mh a sb e e nu s e dt oa n a l y s i sf o r m e ra n d c u r r e n td a t at oa c q u i r eu s e f u l d e c i s i o ni n f o r m a t i o na u t o m a t i c a l l ya n dq u i c k l y , w h i c hc a np r o v i d ea c c u r a t ed e c i s i o n s u p p o r tf o re n t e r p r i s ei n t i m e t h et e l e c o m m u n i c a t i o nc h a i nb u s i n e s si san e w b u s i n e s sm o d eo c c u r r e di nr e c e n t y e a r s t l l i s b u s i n e s sn l o d ei n t r o d u c e st h et h o u g h t so ft r a d i t i o n a lc h a i ns t o r ei n t o t e l e c o m m u n i c a t i o nb u s i n e s sm a n a g e m e n t c o m p a r e d w i mo t h e rt r a d i t i o n a lc h a i ns t o r e t h es p e c i a lp r o p e r t yo f t e l e c o m m u n i c a t i o nc h a i nb u s i n e s si st h a tt h et e l e c o mo p e r a t o r s h a v et h er e s o u r c ea d v a n t a g e t h ek e yo f t h i sm o d ei sw h e t h e rt h ed e c i s i o n - m a k e rc a l l m a k eo u ta n di m p l e m e n tt h ea c c u r a t ed e c i s i o na c c o r d i n gt ot h em a r k e ts t a t u si nt h e c o m p e t i t i o n f i r s t l y , t h i sd i s s e r t a t i o ni n t r o d u c e ss o m eb a s i cd mk n o w l e d g eb r i e t l y , a n dg i v e s s o m ed e t a i l e dp r e s e n t a t i o nt ot h ed mm e t h o d s s e c o n d l y , t h i sd i s s e r t a t i o np a y sm o r ee m p h a s e so nt h er e s e a r c ho fh o w t oa p p l y t h ed m m e t h o d si n t ot h et e l e c o m m u n i c a t i o ne h a i nb u s i n e s sa c c o r d i n gt ot h ed e m a n d a n dc h a r a c t e r i s t i co ft h eb u s i n e s s t h em a i ns e r v i c e sw ed i s c b s sa r eb u s i n e s ss i t e l o c a t i o n ,s t o r e k e e p e r s c r e d i te v a l u a t i o n ,i p p h o n eb u s yp e r i o da n a l y s i sa n dc u s t o m e r s p u r c h a s ei n t e n tp r e d i c t i o n , a n d t h em a i nm i n i n gm e t h o d sw ed i $ c u s sa r cc l a s s i f i c a t i o n a n dp r e d i c t i o n ,c l u s t e r i n ga n da s s o c i a t i o nr u l er e s p e c t i v e l y a c c o r d i n gt od i f f e r e n t s e r v i c e s 7r e q u i r e m e n t s , 眦a d o p td i f f e r e n tm i n i n gn 豫出o d st om a k eo u td i f f e r e n td m m o d e l s w ea d o p tc l a s s i f i c a t i o na n dp r e d i c t i o nm e t h o dt o a n a l y z et h ef i r s t t w o s e r v i c e s ,c l u s t e r i n gm i n i n gm e t h o d t oa n a l y z et h et h i r ds e r v i c ea n da s s o c i a t i o nr u l e t oa n a l y z et h el a s ts e r v i c e t h e na f t e re v a l u a t i n gt h ed m m o d e l s ,s o m es u g g e s t i o n s a n ds o l u t i o n st os 0 1 t i cp r o b l e m sa r ep r o p o s e d f i n a l l y , w ed e s i g n e dt h ei p p h o n eo p e r a t i n gd e c i s i o ns u p p o r ts y s t e mb a s e do n t h ed e m a n do ft h ei p p h o n eb u s i n e s sm a n a g e m e n t 1 1 1 ed i s s e r t a t i o np r e s e n t st h e s y s t e ma r c h i t e c t u r ea n d t h ed e s i g no f t h em a i nm o d u l e s f u r t h e r m o r e ,w ee v a l u a t et h e v a l u e so f t h es y s t e mb r o u g h tt ot h eb u s i n e s s 。 k e yw o r d s :d a t am i n i n g ,t e l e c o n u m m i c a t i o nc h a i nb u s i n e s s ,c l a s s i f i c a t i o na n d p r e d i c t i o n ,c l u s t e r i n g ,a s s o c i a t i o nr u l e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名 导师签名 日期: 日期: 北京邮电犬学颈。e 研究生论文 数据挖掘技术在电信连锁经营中的应用研究 1 1 研究背景 第一章概述 传统的连锁经营是指流通领域中若干个同行业的商店,以共同进货、经营同 类商品、共享经营技术的方式连结起来,在同一商业形象下共享规模效益的一种 经营形式i l 】。连锁商店大多都采用超级市场自选式的销售方式,形成百货店连锁, 超级市场连锁,专业店连锁,主要应用在零售业如沃尔玛、麦德龙、中百仓储等, 餐饮业如麦当劳、肯德基等。 连锁经营是竞争行业里一种行之有效的经营方式,自2 0 世纪9 0 年代以来, 连锁经营在我国显示出强大的生命力和发展潜力。连锁经营在开拓市场、扩大销 售、促进产销结合、规范流通秩序、满足消费需求、吸纳就业等方面,发挥了重 要作用。 对在整个产业价值链中处于强势地位的电信运营商而言,随着我国加入 w t o 和中国电信南北分拆完成,电信市场将更加开放。电信运营商之间的竞争 将更加激烈,已经从简单的价格战向提高服务质量、提供多种业务、挖掘客户潜 在需求、细分客户群等深层次领域转移。因此,将连锁经营的思想运用到其价值 链整合过程中也不失为一种有效的竞争策略 2 1 。各大运营商已经陆续推出了他们 的连锁经营业务。 我们从下面这个例子就可以看到电信连锁经营给电信业务代办方及电信运 营商带来多少商机及利润。东莞电子邮政分局大力开展电信代理业务,2 0 0 4 年 上半年专门召开了代办电信业务座谈会,通过深入的讨论,使得全局在代办电信 业务方面的思想高度统一,形成了要充分利用邮政网点资源的核心竞争力,推行 连锁经营,才能发展代办电信业务的共识。当年1 6 月份代办电信业务共完成业 务收入1 1 6 7 万元,比去年同期增长1 5 2 。其中代收费业务收入8 8 6 万元,同比增 长1 2 0 。小灵通放号业务自从开展以来,多个地面局采取全员营销的方式拓展业 务,将手机展示在各主要网点,体现邮政网点与客户资源优势。累计到今年6 月 2 0 曰,共放号达9 8 0 0 户,业务收入9 8 万元。卡类业务采取“统一组织、统一品牌、 统一价格、统一流程、统一服务”的“五统一”连锁经营模式,形成市局、镇区局、 网点三级营销渠道,提高卡类销售的市场竞争力与代办电信业务整体谈判能力。 1 6 月份共销售卡类2 8 万张,业务收入1 3 1 万元。i p 公话超市实现收入8 1 万元。 因此,该局决定建设代办电信业务连锁店。以独立店面形式,全面代理各大电信 运营的业务。同时也可发挥邮政代办电信业务的主渠道作用,向社会销售商批发 第1 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 部分电信产品。下半年继续推进十五个连锁店的建设,在运营相对成熟后,年未 考虑适当发展特许经营店,提升业务发展规模。嘲 发展连锁经营需要连锁总部在经营战略和策略研究上能够投入巨大精力,这 有利于提高各店铺的经营水平。在激烈的市场竞争中,经营战略与策略的研究与 开发决定着企业的命运,正确决策的制定与实施是连锁经营的核心所在。现在, 愈来愈多的企业认识到,要想在竞争中取胜,获得更大的收益,必须利用网络、 数据库、数据挖掘等计算机技术,深层次地挖掘、分析当前和历史的业务数据, 以及相关的环境数据,自动快速地获取其中有用的决策信息,为企业提供快速、 准确和方便的决策支持。这就需要连锁经营决策支持系统的迅速开发,为经营决 策的制定提供信息和技术支持。同样,对于电信连锁经营业务,也非常需要可靠 的经营决簧支持系统来辅助其业务的开展。 本论文就是在对上述电信连锁经营业务发展情况的分析研究以及设计实现 的基础上完成的。 1 2 论文意义 数据挖掘( d a t a m i n i n g ) 是从大量数据中抽取出潜在的、不为人知的有用信 息、模式和趋势的过程【4 】。数据挖掘涉及到多学科技术的集成。大量的数据的背 后隐藏着很多具有决策意义的信息,需要借助数据挖掘技术从中提取有效的、可 用的信息,找出新的知识或规律,并利用这些信息作出决策或丰富知识。数据挖 掘研究被认为是继互联网之后信息技术领域的又一个新浪潮,许多高科技经济预 测专家认为:过去的五年,高科技的发展己基本完成了第一阶段的使命,即网络 化;在未来的五年,高科技将进入其第二阶段的发展,就是以数据挖掘为基础的 知识管理。 数据挖掘的应用最先起源于商业活动,比如市场管理、风险管理和欺诈管理 等,随着数据挖掘技术以及信息技术的不断发展,越来越多的行业对数据挖掘技 术的应用生了迫切的需求。数据挖掘作为知识开发和创新的工具在国际上正在广 泛地应用于金融分析、市场开发、医疗诊断决策、交通管理、电信运营管理、企 业业绩评估等众多的社会信息化领域,以此提高上述行业数据分析的可靠性和精 确度。但数据挖掘在国内各个领域的应用都不太成熟,目前达到理想状态的应用 还很少,多数用户仍处于摸索阶段。 电信业务的开展虽然已经有很长时间了,但是将电信业务的经营以流行的连 锁经营模式来发展还是个比较新鲜的事物,同时这种经营模式已经成为各电信运 营商提高自身竞争力的一+ 个重要手段,是否能根据市场形式f 确进行决策的制 定,直接关系到该业务的开展,也关系到业务所有者的利益。因此,在激烈的竟 第2 页 北京l 邮电大学硕士研究生论文 数据挖掘技术在电信连馈经营中的应用研究 争中,根据市场形式正确进行决策的制定与实施是这种连锁经营业务开展的核心 所在。 同其他连锁经营业务相比,电信连锁经营有其自身的特点,本论文就专门以 其中几个典型的业务需求为例,对其经营发展模式及特点进行分析,并将数据挖 掘技术引入其中,为其业务的发展提供决策支持。 1 3 作者主要工作 作为i p 公话经营决策分析系统的主要设计及开发人员之一,作者主要进行 了下列的工作: ( 1 ) 研究电信连锁经营业务的开展,将其与传统连锁经营业务相对比,研 究他们的共性,借鉴传统连锁经营中的决策支持方法,将这些方法引入到电信连 锁经营业务中。 ( 2 ) 一学习数据挖掘的概念及常用的挖掘方法及算法,分析电信连锁经营业 务的特点,特别是i p 公话业务的特点以及其具体的业务需求,提出需求分析, 针对不同的业务需求,研究如何选用合适的数据挖掘方法来解决,同时也研究了 不同的数据挖掘方法对相同的业务需求有什么特别的效果,并针对挖掘结果进行 仔细分析,深入探讨。 ( 3 ) 根据需求分析进行系统结构设计、详细设计、编码、测试、工程安装 以及系统维护升级等工作。 1 4 论文结构 本论文是作者在对数据挖掘技术基础知识的学习,以及对电信连锁经营业务 的分析的基础上,将二者互相结合起来而得到的。全文共分五章,重点在分析如 何将数据挖掘技术应用于电信连锁经营的决策支持之中和系统的设计实现两个 部分。 第一章:概述。给出了数据挖掘技术在电信连锁经营中的应用研究这一 课题的研究背景、论文意义、作者的主要工作、以及论文的组织结构。 第二章:数据挖掘技术概述。介绍了数据挖掘技术的基本概念、系统结构、 功能、常用方法、应用情况等基础知识,其中着重对本论文要用到的关联分析、 分类预测、聚类分析这三种方法进行了较为详细的介绍。 第三章:挖掘规则在具体业务中的应用。针对具体的业务需求,研究了如何 在这些业务中应用各种挖掘技术,并结合实际数据给出了实现方法,构造控搏模 型,并对结果进行分析讨论。 第3 贾 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 第四章:系统设计与实现。根据需求分析,构造i p 公话运营决策分析系统的 系统结构,对设计思想进行描述,并给出了主要模块的设计。最后对系统的应用 效果进行了效益评估。 第五章:总结。对目前完成的工作进行总结,指出研究结果及系统的不足, 以及下一步改进的建议。 第4 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 第二章数据挖掘技术概述 2 1 数据挖掘概念h l 数据挖掘就是要在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少 不必要投资的同时提高资金回报。实践证明,数据挖掘给企业带来的潜在的投资 回报几乎是无止境的。世界范围内具有创新性的公司都己开始采用数据挖掘技术 来判断哪些客户是他们的最有价值的客户,以便重新制定他们的产品推广策略 ( 把产品推广给最需要他们的人) ,用最小的花费来得到最好的销售。又如,电信 公司可以利用数据挖掘技术发现流失( 不再使用公司的服务) 概率很高的客户、可 能出现的欺、诈行为( 通话后不付费) 、潜在的大客户等等。 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。数据挖掘是数据 库中知识发现过程的一个基本步骤。知识发现过程如图2 1 所示,由以下步骤 组成: 数据清理:消除噪音或不致数据 数据集成:多种数据源可以组合在一起 数据选择:从数据库中提取与分析任务相关的数据 数据变换:数据变换或统成适合挖掘的形式;如通过汇总或聚集操作 数据挖掘:基本步骤,使用智能方法提取数据模式 模式评估:根据某种兴趣度度量,识别提供知识的真正有趣的模式 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识 一l 篡乡困 羽7 一 一,。! 。,j 。 图2 一l 数据挖掘与知识发现 第5 页 一 一一一一 一 一 一 一 _ 一 -liii 一 一 一一 一一一一 ii 一一一 一 一 一 r 0 l 一髟雪藏五啦 戛 一嘉 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性 能计算、模式识别、神经网络、数据可视化、信息提取、图像与信号处理和空间 数据分析。通过数据挖掘,可以从数据库提取有趣的知识、规律、或高层信息, 并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、 查询处理、等等。因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿 之一,是信息产业最有前途的交叉学科。 2 2 数据挖掘系统结构 典型的数据挖掘系统具有以下主要成分,其系统结构图如图2 2 所示: 数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、 展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓 库服务器负责提取相关数据。 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这 种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。 用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望 性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数 据( 例如,描述来自多个异种数据源的数据) 。 数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成, 用于特征、关联、分类、聚类分析、演变和偏差分析。 模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交互,以 便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模 式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据 挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进 到挖掘过程之中,以便将搜索限制在有兴趣的模式上。 图形用户晃面:该模块在用户和挖掘系统之间通讯,允许用户与系统交 互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖 掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据 库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式 可视化。 篇6 蕊 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 图2 2 典型的数据挖掘系统结构【4 2 3 数据挖掘的功能及常用方法 数据挖掘的功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式。描述型数据挖掘般是对数据中存在的规则做出描述,通 常根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、宏观的 知识,通过对数据的概括、精炼和抽象反映同类事物共同性质。预测型数据挖 掘通过对现有数据的分析、处理,得到某类( 个) 元组中某些属性的内容。在进行 这两类数据挖掘时,可以采用许多方法,如特征化、比较、关联、分类等,每种 方法又有很多算法,算法的选取将直接影响到挖掘速度和所发现知识的质量。 在实际应用中,往往根据模式的实际作用细分为六种,我们只对要用到的关 联分析、分类预测、聚类分析进行比较详细的描述,其他只对其概念进行介绍。 2 3 1 概念描述 概念描述对数据进行浓缩,给出某类对象内涵的紧凑表示【4 j 。概念描述是描 述型数据挖掘中的一种,是指对某类数据进行描述,最终结果是将这类数据进行 特征化( c h a r a c t e r i z a t i o n ) ,当对可对比的多类数据进行描述时,还可以将描述 结果进行比较( c o m p a r i s i o n ) ,这种比较也被称为区分( d i s c r i m i n a t i o n ) 。 应用这种挖掘方法,我们可以将使用电信连锁经营业务的顾客区分为两种: 一种是经常使用业务的,比如外地来的打工人员,收入水平不高,住处没有电话 的,会经常去i p 公话营业点往外地家里打电话;另一种是比较固定的人口,收入 水平不错,家里有电话,只是由于某种原因偶尔出来使用i p 公话打电话的。对这 两种顾客的特征进行深入的研究,有利于我们掌握更详细的顾客特征,方便我们 第7 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 更有效地开展工作。 2 3 2 关联分析 关联分析广泛用于购物篮或事务数据分析,它可以发现交易数据库中不同商 品( 项) 之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购 买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根 据购买模式对用户进行分类1 4 j 。 在电信连锁经营业务中,关联分析方法也将起到重要的作用。此规则可以发 现电信连锁专卖产品间的关联关系,也可以发现顾客与某种商品以及某种服务之 间的内在联系,具体应用我们将在第三章进行仔细的研究。 2 3 2 1 关联规则的概念 关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起 出现的条件。其定义可以描述如下【4 】: 设仁 i ,i 2 ,如 是项的集合。设任务相关的数据d 是数据库事务的集合, 其中每个事务丁是项的集合,使得r 厶每一个事务有一个标识符,称作t i d 。 设一是一个项集,事务? 包含爿当且仅当a 互t 。关联规则是形如a j b 的蕴涵 式,其中ac ,b c j ,并且4 n b = 0 。规则a j b 在事务集d 中成立,具有 支持度s ,其中s 是d 中事务包含4u b ( 即,a 和b 二者) 的百分比。它是概 率p 似u 彤。规则a j b 在事务集d 中具有置信度c ,如果d 中包含a 的事务 同时也包含b 的百分比是c 。这是条件概率p ( b i a ) 。即 s u p p o r t 口jb ) 2p 轵u 剧式( 2 1 ) c o n f i d e n c e 似等b ) = e ( a f a )式( 2 2 ) 同时满足最小支持度阈值f 叫m 和最小置信度闽值i ”j 。明的规则称作强规 则。 2 3 2 2 关联规则的种类 我们将关联规则按不同的情况进行分类: 1 、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的 关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字 段进行处理,j i 辱其进行动态的分割,或者直接对原始的数据进行处理,当然数值 第8 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 型关联规则中也可以包含种类变量。 2 、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同 的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。 3 、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而 在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联 规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关 系。 2 3 2 3 关联规则的挖掘方法【4 】【5 1 l 、经典频集方法 其核心方法是基于频集理论的递推方法。其核心算法是一个基于两阶段频集思想 的方法,将关联规则挖掘算法的设计可以分解为两个子问题: ( 1 ) 找到所有支持度大于最小支持度的项集( i t e m s e t ) ,这些项集称为频集 ( f r e q u e n t i t e m s e t ) 。 ( 2 ) 使用第l 步找到的频集产生期望的规则。 2 、多层关联规则的挖掘方法 根据规则中涉及到的层次,多层关联规则可以分为同层关联规则和层闽关联 规则。多层关联规则的挖掘基本上可以沿用“支持度一可信度”的框架。不过, 在支持度设置的问题上有一些要考虑的东西。 同层关联规则可以采用两种支持度策略: ( 1 ) 统一的最小支持度。对于不同的层次,都使用同一个最小支持度。这 样对于用户和算法实现来说都比较的容易,但是弊端也是显然的。 ( 2 ) 递减的最小支持度。每个层次都有不同的最小支持度,较低层次的最 小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。 层间关联规则考虑最小支持度的时候,应该根据较低层次的最小支持度来 定。 3 、多维关联规则的挖掘方法 ; 第一种方法,使用预定义的概念分层对量化属性离散化。这种离散化在挖掘 之前进行。例如,i n c o m e 的概念分层可以用于以区间值,如“0 2 0 k 、“2 1 3 0 k ”、 “3 l 4 0 k ”等,替换属性的原来的数值。这里,离散化是静态的、预确定的。 离散化的数值属陛具有区间值,可以象分类属性一样处理( 每个区间看作一类) 。 我们称这种方法为使用量化属性的静态离散化挖掘多维关联规则。 第9 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 第二种方法,根据数据的分布,将量化属性离散化到“箱”。这些箱可能在 挖掘过程中进一步组合。离散化的过程是动态的,以满足某种挖掘标准,如最大 化所挖掘的规则的置信度。由于该策略将数值属性的值处理成量,而不是预定义 的区间或分类,由这种方法挖掘的关联规则称为量化关联规则。 第三种方法,量化属性离散化,以紧扣区间数据的语义。这种动态离散化过 程考虑数据点之间的距离。因此,这种量化关联规则称作基于距离的关联规则。 2 3 3 分类和预测 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预 测未来的数据趋势。然而,分类是预测分类标号( 或离散值) ,而预测建立连续 值函数模型。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类; 而可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的 花费。目前分类与预测方法已被广泛应用于各行各业,如在信用评估、医疗诊断、 性能预测和市场营销等实际应用领域。【4 j 在电信连锁经营业务中,分类和预测可以对连锁营业点按营业收入进行分 类,找出营业收入好的营业点的决定因素,可以通过预测手段指导后续营业点的 选址决策;也可以对加盟店店主的信誉进行分类,便于对他们的管理。对分类和 预测在电信连锁经营业务中应用的研究,我们在第三章详细讨论。 2 3 3 1 分类和预测的概念 分类是这样的过程,它找描述或识别数据类或概念的模型( 或函数) ,以便能 够使用模型预测类标号未知的对象【4 】。导出模型是基于对训练数据集( 即其类标 号已知的数据对象) 的分析。 导出模式可以用多种形式表示,如分类( i f t h e n ) 规则、判定树、数学公 式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值 上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转 换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元 之间加权连接。 分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望 预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时, 通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值 预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。 数据分类过程主要包含两个步骤:第一步,如图2 3 ( a ) 所示,建立一个 描述已知数据集类别或概念的模型;该模型是通过对数据库中各数据行内容的分 第1 0 页 ! 塑塑堕型望墅生坚型里圭堡苎 墼堡垫塑垫查垄鱼笪婆塑丝堕塑查塑至! 篓 析而获得的。每一数据行都可认为是属于个确定的数据类别,其类别值是由一 个属性描述( 被称为类别标记属性) 。分类学习方法所使用的数据集称为训l 练样 本集合,因此分类学习又可称为监督学习,它是在已知训练样本类别情况下,通 过学习建立相应模型;而无教师监督学习则是训练样本的类别与类别个数均未知 的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树 形式,或数学公式形式。例如:给定一个顾客信用信息数据库,通过学习所获得 的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。分类 规则也可用于对( 今后) 末知( 所属类别) 的数据进行识别判断,同时也可以帮 助用户更好地了解数据库中的内容。 姓名年龄收入信用评估 张三 用于决定输入参数的领域知识最小化:许多聚类算法在聚类分析中要求 用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参 数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来 说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。 处理“噪声”数据的能力:绝大多数现实中的数据库都包含了孤立点, 缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致 第1 4 页 北京邮电大学硕士研究生论文 数据挖掘技术在电信连锁经营中的应用研究 低质量的聚类结果。 对于输入记零的顺序不敏感:一些聚类算法对于输入数据的顺序是敏感 的。例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能 生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要 的意义。 高维度( h i 【曲d i m e n s i o n a l i t y ) :一个数据库或者数据仓库可能包含若干维 或者属性。许多聚类算法擅长处理低维的数据,可能只涉及两到三维。 人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空 间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分 布非常稀疏,而且高度偏斜。 基于约束的聚类:现实世界的应用可能需要在各种约束条件下进行聚类。 假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置, 为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和公 路网,每个地区的客户要求等情况。要找到既满足特定的约束,又具有 良好聚类特性的数据分组是一项具有挑战性的任务。 - 可解释性和可用性:用户希望聚类结果是可解释的,可理解的,和可用 的。也就是说,聚类可能需要和特定的语义解释和应用相联系。应用目 标如何影响聚类方法的选择也是一个重要的研究课题。 2 3 4 3 常用的聚类算法 主要的聚类算法可以划分为如下几类 4 1 : 1 、划分方法( p a r t i t i o n i n gm e t h o d s ) :给定个n 个对象或元组的数据库, 一个划分方法构建数据的k 个划分,每个划分表示一个聚类,并且k 树以代表训练样本的单个结点开始( 步骤1 ) 。 如果样本都在同一个类,则该结点成为树叶,并用该类标号( 步骤2 和3 ) 。 否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够 最好地将样本分类的属性( 步骤6 ) 。该属性成为该结点的“测试”或“判 定”属性( 步骤7 ) 。在算法的该版本中,所有的属性都是分类的,即离 散值。连续属性必须离散化。 对测试属性的每个已知的值,创建个分枝,并据此划分样本( 步骤8 - - l o ) 。 算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个 属性出现在一个结点上,就不必该结点的任何后代上考虑它( 步骤1 3 ) 。 递归划分步骤仅当下列条件之一成立停止: ( a ) 给定结点的所有样本属于同一类( 步骤2 和3 ) 。 ( b ) 没有剩余属性可以用来进一步划分样本( 步骤4 ) 。在此情况下,使 用多数表决( 步骤5 ) 。这涉及:瞎给定的结点转换成树叶,并用样本 中的多数所在的类标记它。另外,可以存放结点样本的类分布。 仞分枝t e s ta t t r i b u t e = a ,没有样本( 步骤1 1 ) 。在这种情况下,以s a m p l e s 中的多数类创建一个树叶( 步骤1 2 ) 。 在树的每个结点上使用信息增益度量选择测试属性。这种度量称作属性选择 第2 2 页 堕型堕苎兰堡圭堡塑苎 墼堡丝塑垫查垄皇笪垄壁墨矍主塑窒旦婴塑 度量或分裂的优劣度量。传统上,常常使用信息增益( i n f o r m a t i o ng a i n ) 作为衡 量节点分裂质量的指标。信息增益最高的s p l i t 将被作为分裂方案。1 9 4 8 年,香 农( c e s h a n n o n ) 提出了信息论吼其中对信息量( i n i b r m a t i o n ) 和熵( e n t r o 口vj 的定义: i n f o r m a t i o n = 一l 0 9 2p i式( 3 1 ) e n t r o p y2 一ip il 0 9 2 ( p 。) 式( 3 2 ) 熵实际上是系统信息量的加权平均,也就是系统的平均信息量。i n f o r m a t i o n g a i n 指标的原理就取自信息论。熵是一个衡量系统混乱程度的统计量。熵越大, 表示系统越混乱。分类的目的是提取系统信息,使系统向更加有序、有规则组织 的方向发展。所以自然而然的,最佳的分裂方案是使熵减少量最大的分裂方案。 熵减少量就是i n f o r m a t i o ng a i n ,所以,最佳分裂就是使g a i n ( a ) 最大的分裂方案。 通常,这个最佳方案是用“贪心算法+ 深度优先搜索”得到的。 2 ) 剪枝 剪枝常常利用统计学方法,去掉最不可靠、可能是噪音的一些枝条。剪枝方 法是很丰富的,主要有两类剪枝方法: ( 1 ) 同步修剪( p r e - p r t m i n g ) : 在建树的过程中,当满足一定条件,例如i n f o r m a t i o ng a i n 或者某些有效统 计量达到某个预先设定的闽值时,节点不再继续分裂,内部节点成为一个叶 子节点。叶子节点取子集中频率最大的类作为自己的标识,或者可能仅仅存 储这些实例的概率分布函数。 ( 2 ) 迟滞修剪( p o s - p r u n i n g ) : 与建树时的训练集独立的训练数据进入决策树并到达叶节点时,训练数据的 c l a s sl a b e l 与叶子节点的c l a s sl a b e l 不同,这时称为发生了分类错误。当树建 好之后,对每个内部节点,算法通过每个枝条的出错率进行加权平均,计算 如果不剪枝该节点的错误率。如果裁减能够降低错误率,那么该节点的所有 儿子就被剪掉,而该节点成为一片叶子。出错率用与训i 练集数据独立的测试 数据校验。最终形成一棵错误率尽可能小的决策树。 3 、决策树的优点 与其他分类算法相比,决策树有如下优点: ( 1 ) 速度快。 ( 2 ) 容易转化成分类规则:只要沿着树根向下一直走到叶子,沿途的分裂条 件就能够唯一确定一条分类的谓词。例如,图3 1 中沿着节点a g e c r e d i t r a t i n g n o 走下来就能得到一条谓词: i ft h e r ei sa p e r s o n ( a g e 4 0 ) a n d ( c r e d i tr a t i n gi se x c e l l e n t ) t h e n 第2 3 页 北京邮电大学硕士研究生论文数据挖掘技术在电信连锁经营中的应用研究 h ew i l ln o tb u yac o m p u t e r ( 3 ) 更高的准确性 3 2 1 2 2 选址决策生成 我们以i p 公话连锁经营业务的选址问题为例来详细探讨分类规则的实现方 法。在第二章已经对分类规则作了比较详细的介绍,并且上- - 4 , 节对决策树算法 的原理也进行了分析,在此,我们讨论如何用决策树算法来解决口公话连锁经 营业务中的选址问题。 在连锁经营的选址决策过程中,要考虑很多相关的因素,如人口、企业、交 通、公共服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年航空航天企业飞行领航员安全生产知识考试试题及答案
- 第4课 共同开发建设祖国说课稿-2025-2026学年中华民族大团结-中华民族大团结
- 高校和社区服务合同模板(3篇)
- 高铁站土建施工合同(3篇)
- 安徽司法考试试题及答案
- 河北经贸大学校园汽车租赁服务及车辆安全检查合同
- 本科毕业生就业服务及权益保障协议
- 2025公务员线上面试题及答案
- 舞蹈生专业测试题及答案
- 祖国我爱你教学设计课件
- 第8课《网络新世界》第一课时-统编版《道德与法治》四年级上册教学课件
- 灭火器维修与报废规程
- 初中道德与法治新课标理念解读
- GB/T 5783-2016六角头螺栓全螺纹
- GB/T 24137-2009木塑装饰板
- 二维混合机清洁验证方案
- GB 18613-2020电动机能效限定值及能效等级
- 利用“水量平衡原理”分析地理问题 【思维导图+重难点突破】 高考地理 考点全覆盖式精讲 高效复习备考课件
- (新版)水电站知识问答题题库300题(含答案)
- 外科颅内和椎管内血管性疾病 课件
- DL∕T 1867-2018 电力需求响应信息交换规范
评论
0/150
提交评论