




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据仓库的电信套餐专题分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据仓库的电信套餐专题分析 摘要 近年来,通信市场的竞争由单一的价格战演变为形式多样的资费 套餐业务的竞争。各大运营商纷纷推出各种资费套餐业务吸引用户。 要想在竞争中取得有利的地位,套餐策略必须紧跟用户消费行为的变 化而变化,跟随用户消费习惯、消费趋向的变化而变化。一个成功的 资费套餐方案可以提高运营商控制价格的能力,在提高运营商收入的 同时为客户创造足够的消费剩余和消费满意度。 为了给电信资费套餐设计者和决策者提供更多的可靠的信息,全 面的了解套餐的使用情况,在开发的电信经营分析系统中设计了套餐 专题模块。此专题对现有资费套餐深入分析,对预推出的资费套餐与 其它资费套餐进行综合比较,从而达到了避免各资费套餐间产生冲 突、使资费套餐设计更加合理、并剔除无价值套餐的目的。 本文的主要工作: 1 本文介绍了数据仓库理论的相关知识,对电信专题分析进行了 详细的描述; 2 以辽宁联通统一经营分析系统为例,对数据仓库在电信领域中 的应用进行了分析; 3 结合实际参与的电信经营分析系统建设的项目实践经验,建立 了套餐专题分析模块,设计了套餐专题分析流程和解决方案。 关键词:数据仓库经营分析系统套餐预测套餐排名 c o m b oa n a iy s i sb a s e do n d 气! i i a 强。r e h o u s e a b s t r a c t r e c e n t l y ,t h ec o m p e t i t i o no fc o m m u n i c a t i o ni n d u s t r yh a sc h a n g e di n t oav a r i e t y o fc o m p e t i t i o ni nc o m b oi n d u s t r y ,w h i c ho n l ya i m sa tp r i c ei nt h eo l dd a y s t h e t e l e c o m m u n i c a t i o no p e r a t o r sc a r r yo u tv a r i o u sc o m b o st oa t t r a c tm o r ec u s t o m e r s w h i c hw i l lm e e tt h ed e m a n do ft h eu s e r s c u s t o m e r sd i f f e ri nt h er e o r g a n i z a t i n na n dp a y m e n to ft h ep r i c eo fd i f f e r e n t c o m b o t h ec o m b op l a nm u s tc h a n g ew i t ht h ec o n s u m p t i o na c t i v i t y h a b i ta n d c o n s u m p t i o nc u r r e n to ft h eu s e r s a n a l y z et h ec o m b o ,t h er e l a t i o nb e t w e e nn e wa n dt h eo l dc o m b oa n dt h eu s eo f c o m b oi no r d e rt oa v o i dt h ec o n f l i c tb e t w e e nd i f i e r e n tc o m b o s ,w h i c hc a nd e s i g n r e a s o n a b l ya n dg e tr i do fu n p r o f i t a b l ec o m b o t h ep a p e ri n c l u d e s : r e s e a r c ht h e k n o w l e d g e r e l a t i v et od a t aw a r e h o u s ea n di n t r o d u c e t e l e c o m m u n i c a t i o ns p e c i a lt o p i c i n t r o d u c et h ea p p l i c a t i o no fd a t aw a r e h o u s ei nt h et e l e c o m m u n i c a t i o ni n d u s t r y a n dt h ee x a m p l eo ft h eb u s i n e s sa n a l y s i ss y s t e r ni nc h i n au n i c o ml i a o n i n gb r a n c h t h ea u t h o rh a se s t a b l i s h e dc o m b os p e c i a lt o p i cm o d e la n dd e s i g nt h ef l o wc h a r t a n ds o l u t i o nm e t h o d a c c o r d i n gt op r a c t i c a le x p e r i e n c e k e yw o r d s :d a t aw a r e h o u s e ,b u s i n e s sm a n a g e m e n ts y s t e m ,c o m b op r e d i c t , c o m b oo r d e r 、 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:2 丑- 主:兰 完善经营信息应用的整体技术架构,提高经营信息向经营知识转换与利 用的效率,提高知识共享程度; 通过专题分析的方式组织经营信息,构造针对特定商业主题的通用经营 信息应用模型。进一步增强系统的实用性,对市场部等重要部门提供直 接的应用功能支持。 建设方式: 统一经营信息服务系统的建设采取以“将基线产品和客户化本地化功能相 分离,基线产品信息模型逐步完善”为建设指导思想。基线产品以统一的信息模 型为核心,完成数据的收集并存储于经营信息数据仓库的主要功能,同时对外提 供统一的报表数据,包括生成和传输总部需要的标准报表数据文件、总部统一标 准的省分公司经营报表等。客户化本地化以满足本地经营分析需求为前提,在 基线产品的基础上进行应用集成,提供经营信息的展现、生产型查询等客户化, 本地化的具体应用。 统一经营信息服务系统二期工程采取以“完善基线系统,开发应用系统”的 方式进行建设。完善基线系统是进一步完善数据仓库系统中的信息模型,并且适 当应用新的生产系统作为经营分析系统数据仓库的数据源;开发应用系统是在数 据仓库的基础上,以各业务部门数据分析需求和市场经营热点为驱动,开发专题 分析应用。 北京邮电大学硕士毕业论文 3 1 2 系统目标功能 统一经营信息服务子系统作为辽宁联通公司的经营信息平台,其目的是为了 将各生产子系统的业务数据、客户数据以及其他重要经营信息融入到统一经营信 息服务子系统中,按照近期目标、中期目标、远期目标三个阶段进行设计和实现 统计报表、分析报表甚至决策专题分析的全方位经营信息支持服务,完成统一经 营信息服务子系统的整体功能 系统的主要功能包括: ( 1 ) 数据采集功能:从各个生产子系统采集数据,并且保证采集到的数据 的准确性和完整性; ( 2 ) 数据存储功能:存储所有经过e t l 的统一经营信息,要保证数据的完 整性,一致性,以及数据存储的稳定性; ( 3 ) 数据查询功能:可以根据用户的权限给出相应的查询权限,必须有用 户权限的管理; ( 4 ) 数据分析功能:对业务和客户的经营信息进行分析,并给出相应的分 析结果,以报表或者其他方式在前端展现出来; ( 5 ) 数据挖掘功能:提供以数据挖掘型知识为代表的发现型经营信息,提 高经营信息的智能支持能力,并采用专题分析的方式实现系统的经营信息决策支 持功能。 ( 6 ) 系统管理功能:主要对经营分析系统进行管理,包括元数据管理、系 统日志管理、用户权限管理、系统监控、系统接口管理、报表管理、归档备份 恢复管理等。 北京邮电大学硕士毕业论文 图3 - 1 系统结构图 北京邮电大学硕士毕业论文 3 1 3 系统应用服务流程 信 息 服 务 流 程 d w 存 储 流 程 采 集 流 程 图3 - 2 系统应用服务流程 系统服务流程是一个对数据操作的动态过程,通过分析,可以把整个流程用 静态的层次表现出来,结构如下: 北京邮电大学硕士毕业论文 l 应用逻辑层 订 l数据仓库层 n l数据采集层 图3 - 3 层次图 ( 1 ) 数据采集层 数据采集层主要是完成将来自各经营数据源系统中的数据采集到本系统中 的功能。数据采集层主要包括数据源文件预处理层、数据源文件格式检查和数据 源文件的临时存储层。 数据源文件预处理层。 由于存在各专业系统每天产生的数据文件过大的情况,例如详单文件,每天 达到几十个g ,业务系统给经营分析系统的文件进行分包处理,所以数据源文件 预处理层主要功能是对分包的文件进行合包处理。 数据源文件格式检查层。 数据源文件检查层主要对文件名字,文件头,文件尾和文件体进行检查,在 一定程度上保证进入o d s 的数据格式良好,类型正确。 数据源文件的临时存储层。 经过检查格式正确的数据源文件分类存储在临时存储区中,等待o d s 抽取、 使用。 ( 2 ) 数据仓库生成层 数据仓库生成层包括:第一次e t l 过程层、o d s 数据层、第二次e t l 过 程层、d w 数据层和数据仓库接口层。 第一次e t l 过程层 从数据源文件临时存储区中抽取数据,经过清洁、集成和轻度的综合后装载 到0 d s 数据存储区中。 o d s 数据层 存储清洁、集成和轻度综合的数据,屏蔽掉数据源对于数据仓库建立的复杂 北京邮电大学硕士毕业论文 性,为数据仓库的建立做准备 第二次即也过程层 从o d s 数据存储区抽取数据,以面向主题方式将数据重新组织、转换、综 合后装载到d w 数据存储区中 d w 数据层 以面向主题的方式存储着清洁、集成和转换后的数据,为面向分析的应用准 备好数据。 数据仓库接口层 数据仓库接口层为建立在数据仓库数据基础上的各种应用提供标准一致的 接口,保证方便、安全地使用数据仓库中的数据。 ( 3 ) 应用逻辑层 应用逻辑层包括应用逻辑生成层和应用逻辑使用层。 应用逻辑生成层 应用逻辑生成层通过数据仓库接口层使用数据仓库中的数据生成不同的应 用,包括固定报表应用、o u 心分析型应用( 多维数据立方体) 、数据访问应用、 部门级数据集市、数据挖掘应用、商业管理应用等。 应用逻辑使用层 应用逻辑使用层通过图形用户界面( g u i ) 、w e b 浏览器等多种方式为用户 提供友好的界面访问机制,使用户能方便地使用基于数据仓库的各种应用。 3 1 4 实施经营分析系统的困难 辽宁联通作为一家为打破行业垄断而由多家小公司组成的电信运营企业,通 过融资不断发展,拥有了c d 姒和g s m 两张无线网络,取得的长足的进步。辽宁 联通实施经营分析系统,面临如下困难: 辽宁联通的经营分析系统起步较晚。中国移动通信公司在2 0 0 2 年,率 先引入了经营分析系统,给用户提供了更加理性化、个性化的服务。辽 宁联通在2 0 0 3 年才开始了自己的经营分析系统的建设,赶超移动公司 的经营分析系统有难度。 辽宁联通是一家全业务公司,其业务覆盖g 网、c 网、长途业务、v o i p 等,使系统设计更加复杂。 辽宁联通的计费、营帐、客服、智能网、大客户等系统由多家公司开发, 也给经营分析系统的数据整合增加了难度。投资力度有限,给实施这样 一个大型项目在软、硬件上都增加了难度。 北京邮电大学硕士毕业论文 3 1 5 系统软硬件配置 辽宁联通经营分析系统由e t l 服务器,数据仓库、o l a p 服务器、前端服 务器、报表服务器五大部分组成。e t l 服务器采用i b m 公司的d a t a s t a g e ;数 据仓库部分使用o r a c l e 公司的o r a c l e 9 ;o l a p 服务采用c o g n o s 多维分析软件; 应用终端采用p r i m e t o n 公司的e o s 平台;报表服务器采用b u s i n c s s o b j e 贮t s 公司 的w e b i n t e l f i g e n c e 平台。 菜电信运营商经营分析系统软、硬件列表: ( 1 ) 硬件: e t l 服务器:h p a l p h a s e r v e r g s 舳( 6 c p u 7 3 3 ,4 g 内存) 数据仓库服务器:l i p a l p h a s e r v e r g s 8 0 ( 6 c p u 7 3 3 ,6 g 内存) o u 心服务器:h pa l p h a s e i w e rd s 2 5 ( 2 c p u 7 3 3 ,2 g 内存) 应用前端服务器:l i p a i p h a s e r v e r d s 2 5 ( 2 c p u 7 3 3 ,2 g 内存) 报表服务器:h pa l p h a s e r v e re s 4 7 ( 2 c p u 7 3 3 ,2 g 内存) ( 2 ) 软件: e t l 服务器:l i pu n i x ;i b md a t a s t a g e 数据仓库服务器:h p 咖【;o r a c l e 9 o l a p 服务器:w i n d o w s 2 0 0 3 s e r v e r ;c 硼g o s 应用前端服务器:t i pu n i x ,p r i m e t o ne o s 报表服务器:w i n d o w s 2 0 0 3 s e r v e r ;b ow d i n t e m g e n c e 数据库建模:p o w e r d e s i g n e r 3 2 套餐专题设计 3 2 电信行业资费套餐定义 资费套餐业务是以业务为支撑,根据不同用户的需求,组合通话月租费、免 费通话时间、优惠的数据业务以及增值业务而设计的不同档次的、不同内容的资 费服务模式。资费套餐的设计既要方便用户理解和选择,从而吸引用户积极参与, 也要增加通信业务收入,获取更多利润。 资费套餐的作用: 资费套餐有利于争夺客户 北京邮电大学硬士毕业论文 客户是通信企业发展的基础,谁拥有更多的客户,在一定程度上就等于 占领更多的市场,获得更多的竞争主动。通信企业根据用户的需求推出 个性化的资费套餐,吸引了各种群体的客户。 资费套餐优化了网络资源 网络是通信企业发展的支撑和基础,各运营商在基于3 g 过渡网络优化 的同时,也要相应地发展业务,以充分利用网络资源,各通信企业针对 各种不同的业务推出了不同的资费套餐,刺激了用户的消费,增加了业 务量的同时也优化了网络资源。 资费套餐提高了企业效益 资费套餐通过争夺客户提高了业务量,通过优化资源配置提高了网络利 用率,降低了运营成本,提高网络规模效益,最终提升了通信企业的经 济效益。据分析,通过资费套餐中的捆绑服务能够为客户减少4 峨 的成本,通信企业则可以增加1 0 的收入,实现用户与企业的双赢。 新推出的套餐既要方便用户理解和选择,从而吸引用户积极参与,又要在用 户的不经意之中,实现运营商自己的设计目标。具体的目的可以从以下几方面来 分析: 从企业追求目标来看,通过激活0 次用户和鼓励现有用户多使用语 音业务,使运营商的话费总收入实现增长。 从客户关系管理来看,通过设置不同资费套餐下的超时惩罚性费率, 提高在网用户的稳定性,使不同细分市场下的用户自发流向运营商 为其设定的位置。 从调整用户结构来看,利用资费套餐的刚性特点,淘汰部分o 次用 户,减缓企业a r p u 值和m o u 值的下降速度。 从客户忠诚度管理来看,实行对大客户倾斜的政策,在某种程度上 提高优惠的程度,进一步提高大客户的忠诚度。 从市场可操作性来看,成功的资费套餐方案可以提高运营商控制价格的能 力,在提高运营商收入的同时为客户创造足够的消费剩余和消费满意度。 3 2 2 套餐专题的特点 套餐专题主要分为四个子专题,包括套餐的排名,套餐的预测,重点套餐监 控和套餐查询。主要对以下几方面进行了分析: ( 1 ) 资费套餐使用情况分析 对每种套餐的在网客户、收入情况、欠费情况、离网情况、使用各种业务情 北京邮电大学硕士毕业论文 况、话务结构特征等相关指标进行分析,对每种套餐使用情况作细致的了解,达 到有针对性的对套餐进行改进和设计新套餐的目的,可以根据客户数量的变化趋 势观察套餐的发展趋势,根据发展趋势可以预测套餐的生命期变化情况。 ( 2 ) 资费套餐评估分析 建立套餐效益评估模型,对套餐进行评估,包括套餐收益、结算成本及价值 分析等 ( 3 ) 新套餐预估分析 在新的套餐推出之前预测其合理性。分析当推出一个新的套餐之后,对已经 有套餐的积极影响和消极影响,避免新旧套餐产生冲突。 ( 4 ) 重点套餐分析 针对一些重点套餐,如区域套餐、包月套餐等进行分析。 3 2 3 套餐专题设计的难点 套餐专题是辽宁联通经营分析系统中的一个亮点,在以往的系统中并没有涉 及到套餐的分析,这方面的经验略有不足,因此在设计和实施的过程中遇到了很 多困难。 1 数据抽取 套餐专题需要的数据来源于辽宁联通的营帐系统,营帐系统中的数据粒度很 细,而且有关套餐的表的结构很复杂,内容多。要想找到所需要的数据,就要对 这些表进行全面细致的了解,再通过e t l 过程把数据抽取到数据仓库的肼层和 0 d s 层,很多程序中都涉及到了多个多表关联。因此,数据抽取前的准备工作 和抽取过程非常重要,花费了开发人员大量的时间和精力。 2 套餐子专题选择 针对套餐业务有很多方面可以进行分析如:资费套餐使用情况分析,资费套 餐关联性分析和新套餐预估分析等等。但是要把这些方面都包括进去,设计一个 非常完整的套餐模块,根据当时的情况是不可行的。因此套餐子专题选择是个难 点。根据辽宁联通的需求和套餐设计和决策人员所关心的套餐指标,选择比较重 要的套餐指标,决定套餐子专题的内容 3 套餐预测 套餐预测是套餐专题中非常重要的一部分,因此在数据源的选择和模型实现 的过程中花费了较多的精力和时间。 4 准确性的验证 在实际应用的过程中模型的验证是一个复杂的、长期的过程,要通过大量的 数据来进行验证。套餐模型的验证需要开发人员和联通员工共同参与,因为开发 北京邮电大学硕士毕业论文 人员主要负责功能的实现,对套餐业务并不十分熟悉,所以需要局方人员的大力 支持,才能进一步完善套餐模型 3 2 4 套餐专题分析所用工具介绍 比较常见的大型数据仓库e t l 工具有o r a c l e 的数据库、n c r 的t e r a d a t a 、 i b md a t a s t a g e 和d b 2 等相关挖掘工具有o r a c l e 的d a t am i n i n g 、n c r 的 w a r e h o u s em i n e r 、i b m 的i n t c l l i g e n t m i n e r 等。 本次分析将从文件预处理开始,数据格式检查、数据清洗,到数据分析和挖 掘的全过程。在文件的预处理,数据格式检查、数据清洗用到了u n i x 下的s h e l l 编程,m m 的d a t a s t a g c 工具,在数据分析和挖掘中用的是o r a c l e 的存储过程 d a t a s t a g e 是一套设计,开发,运行那些用来扩充一个或多个数据仓库或数据集 市表的应用程序工具,见图4 - 1 图4 - ld a t a s t a g e 图例 d a t a s t a g e 有如下优点l ( 1 ) 接口丰富:支持文件处理,有与o r a c l e 、t e r a d a t a 等多种数据库的接口, 可以直接调用数据库的存储过程。 ( 2 ) 支持与哈希文件的关联,便于参照转换。 ( 3 ) 支持并发处理:同时可以有多个进程处理。 ( 4 ) 处理速度快:在文本文件处理时可较o r a c l e 数据库处理快2 3 倍。 ( 5 ) 流程直观,易于维护:由于使用可视化控件技术,使处理流程非常易于 北京邮电大学硕士毕业论文 理解,后期维护非常方便,可节省大量的文档说明。 ( 回具有日志功能,便于调试:由于要处理的数据量非常大,有时执行一次 处理要6 、7 个小时,而且经常在晚上执行,处理的中间过程如果出错无 法立即发现,d a t a s t a g e 为每个j o b 自动生成日志文件,可以方便日后查 看和修改。 f 7 ) 便于移植:对于做好的j o b 可以方便的导入导出和移植。 同时,d a t a s t a g e 也存在如下不足: 在对文本文件处理时,除了哈希文件外,不支持多个事实文件关联。这 是由于数据简单的存储在文本文件中,不像在数据库中可以使用索引等 手段提高检索效率,如果事实文件关联,效率将无法忍受。 对超过2 0 0 万行的文本文件进行汇总操作时,会出现溢出错误。这同样 是因为存储形式的限制,无法使用数据库的各种优化措施造成的。 综合d a t a s t a g e 以上特点,对数据量大,时效要求高的详单文件的预处理使 用了d a t a s t a g e ,采用分块的方式解决汇总溢出错误。而后的分析由于要进行多 表的关联,又是汇总后的数据,所以数据量已经不是很大,采用将数据入库处理。 o r a c l e 是一种功能强大而又灵活多变的关系型数据库系统,支持p i s q l 、 游标、触发器、集合、对象等技术。 t o a d ( t o o l so fo r a c l ea p p l i c a t i o nd e v e l o p e r s ) 是一种专业化、图形化工具 的p l s q l 开发工具,用来帮助o r a c l e 开发人员和d b a 有效地完成他们的工作。 它是一个功能强大的、低负载的开发工具,集成了模式浏览、s q l 编程、p l 届q l 的开发和调试,d b a 管理,s q l 语句优化等多种功能。它最大的特点就是简单 易用,访问速度快。使用t o a d ,我们可以通过一个图形化的用户界面快速访问 数据库,完成复杂的s q l 和p l s q l 代码编辑和测试工作。t o a d 专门为开发 人员而设计,是一个功能强大、结构紧凑的专业化p i j s q l 开发环境,见图4 2 。 北京邮电大学硕士毕业论文 图4 - 2t o a d 图倒 北京邮电大学硕士毕业论文 第四章套餐专题的实现 套餐专题分析中包括了4 部分子专题,分别为套餐预测、套餐排名、套餐监 控和套餐查询。本人主要参加了套餐预测和套餐排名的开发工作,所以下面主要 针对这两个子专题进行分析。其中,套餐预测整个过程比较复杂,将详细介绍这 部分内容。 4 1 套餐专题分析过程 数据挖掘技术是目前数据仓库领域强大的分析手段之一。它的分析方法是利 用已知的数据,通过建立数据模型的方法找出隐含的业务规则,在很多的行业已 经有了成功的应用。 子专题套餐预测理论依据是数据挖掘中的分类方法。分类要解决的问题是为 一个时间或对象归类。在使用上,即可以用此模型分析已有的数据,也可以用它 来预测未来的数据。例如,用分类来预测哪些客户最倾向于对直接邮件推销做出 回应,又有哪些客户可能会换他的手机服务提供商,或在医疗领域,当遇至一个 病例时,用分类来判断一下从哪些药品着手比较好。套餐预测专题是以分类方法 为依据,结合业务的情况设计了一个新的模型。 通常一个完整的数据挖掘过程有业务问题定义、数据选择、数据清洗和预处 理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用 等多部分组成。 1 定义业务问题 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确 和应用时的效果。 例如,在套餐预测分析中,需要明确套餐模糊匹配的定义。即在推出一款套 餐之前,根据套餐的种种特性和优惠额度去现有的套餐中查找,找到最相近的若 干套餐。 2 数据选择 数据选择包括目标变量的选择、输入变量的选择和建模数据的选择。 ( 1 ) 目标变量的选择 目标变量表示了数据挖掘的目标。依据业务问题的定义,我们可以选择一个 已知量或多个已知量的明确组合作为目标变量。目标变量的值应该能够直接回答 北京邮电大学硕士毕业论文 前面定义的业务问题。 在套餐预测分析中,我们主要关心的是所选择出来的匹配套餐的使用状况。 包括套餐的用户数、话务使用、收入等。因此,目标变量的选择是和业务问题的 定义紧密关联在一起的。选择目标变量所要面对的这些问题,都需要业务人员给 予明确的回答。 ( 2 ) 输入变量的选择 输入变量用于在建模时作为自变量寻找与目标变量之间的关联。在选择输入 变量时,我们通常选择两类数据:静态数据和动态数据。静态数据指的是通常不 会经常改变的数据,包括所属城市、业务类型、套餐特征、优惠规则等。动态数 据指的是经常或定期改变的数据,如套餐用户数、出账收入等等。业务人员经常 在实际业务活动中深深感觉到输入变量与目标变量的内在联系,但是却无法以量 化表示出来。在这种情况下,数据挖掘的工作往往能够得到良好的回报。在一时 无法确定某种数据是否与客户流失可能性有关联时,应该选取,在后续步骤考察 各变量分布情况和相关性时再决定取舍。 ( 3 ) 建模数据的选择 针对套餐业务有很多数据,哪些数据是我们关心的,哪些数据时不需要的。 要根据设计中提出的套餐业务指标进行选择。 3 数据清洗和预处理 数据清洗和预处理是建模前的数据准备工作。数据清洗和预处理的目的一方 面保证建模的数据是正确和有效的;另一方面,通过对数据格式和内容的调整, 使建立的模型更加准确和有效。数据整理的主要工作包括对数据的转换和整合, 抽样,随机化,缺失值的处理等等。数据转换和整合的工作目的就是为了保证数 据的质量和可用性。 在建模之前,我们建议把样本数据分为两到三部分。一部分用来建模,其他 数据用来对模型进行修正和检验,一部分在模型建立以后,用来对它进行检验。 只有经过实际数据检验并被证明有效的模型才能得到充分的认可。如果一个未经 检验的模型被贸然推广使用,就有可能由于模型的不精确带来应用的损失。所以 我们通常会把数据分为两部分:7 0 的数据用来建模,3 0 的数据用来检验 4 模型的选择 到底哪些变量和套餐模糊匹配有密切关系呢? 我们需要利用数据挖掘工具 中的相关性比较功能找出每一个输入变量和套餐模糊匹配的相关性。通过这样的 比较选择,我们可以删除那些和套餐相关性不大的变量,减少建模变量的数量。 这样不仅可以缩短建立模型的时间,减小模型的复杂程度,而且有时还能够使建 立的模型更精确。我们可以使用多种建模方法,预建立多个模型,再比较这些模 北京邮电大学硕士毕业论文 型的优劣,从而选择出最适合客户流失分析的建模方法。针对海量数据的挖掘要 求,o r a c l c 还提供重要属性分析( a t t r i b u t ei m p o r t a n c e ) 功能,可以帮助使用者从 成百上千个属性变量中筛选出与预测变量相关程度最高的变量参与建模。 5 模型的建立和调整 模型建立与调整是数据挖掘过程中的核心部分。通常这部分工作会由专业的 分析专家完成。需要指出的是,不同的商业问题和不同的数据分布与属性,经常 会影响到模型建立与调整的策略。而且在建模过程中还会使用多种近似算法来简 化模型的优化过程。所有这些处理方法,对模型的预测结果都会产生影响。所以 在模型建立与调整过程中,需要业务专家参与制定调整策略,避免不适当的优化 导致业务信息的丢失。 6 模型的评估和检验 模型的评估应该利用未参与建模的数据进行,这样才能得到准确的结果。如 果我们使用建模的数据对模型进行检验,由于模型就是按照这些数据建立的,检 验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。所以我 们必须使用未参与建模的数据对模型进行检验。检验的方法是对已知套餐的数据 利用模型进行预测,得到模型的预测值,和实际的套餐数据相比较。预测正确值 最多的模型就是最优的模型。 在实际应用过程中模型的评判往往是一个复杂的过程,并且在此过程中我们 要引入大量的业务规则。 7 模型的解释和应用 得到最优的模型以后,我们需要业务人员针对得到的模型做出一些合理的业 务解释。通过对模型做出合理的业务解释,我们就有可能找出一些以前没有发现, 但确实存在的业务规律。找出这些规律后,就可以指导我们的业务行为。另一方 面,如果真的能够根据业务知识解释我们得到的数学模型,也说明了这个数学模 型在业务上的合理性,我们就更能够大胆应用于业务活动中了。 模型的真正应用推广必须谨慎从事。我们可以先选择一个试点单位应用模 型,避免由于模型的不精确导致高额的业务损失。试点的时间可以界定在半年到 一年,期间必须随时注意模型应用的收益情况。一旦发生异常偏差,应该立即停 止,检查偏差是由于模型本身的原因还是由于应用环境发生了重大变化,从而导 致模型不再适用。如果是由于模型本身不准确造成的,可以对模型不精确的部分 进行修正。如果是由于应用环境发生了重大变化,就应该重新进行建模工作。当 试点结束后,这个模型被证明应用良好,就可以考虑大面积的推广。 在大面积推广时应该注意的是,由于地区经济差异的原因,模型不能完全照 搬。所以可以由总公司建立一个通用的模型,各分公司在此基础上利用本地数据 北京邮电大学硕士毕业论文 进行进一步修正,得到适用于本地的精确模型。 模型在应用一段时期后,或经济环境发生重大变化后,有可能模型的偏差会 增大,这时候就可以考虑重新建立一个更合适的模型。 o r a c l c 公司作为全球领先的数据仓库和电子商务应用系统的供应商,提供了 完整的数据分析和数据挖掘的能力,并能和企业的其他电子商务应用系统无缝的 集成在一起。从2 0 0 1 年6 月起,o r a c l e 把数据挖掘功能集成到最新的o r a c l e 数 据库中通过利用内嵌于o r a c l e 数据库的数据挖掘功能,应用程序开发人员可 以使商务智能的提取和分布自动完成,并把结果集成到其他商务应用程序中。这 次分析使用的就是o r a c l e 的d a t am i n i n g 工具,从客户相关的2 0 0 多个属性中挑 出了7 个关键的属性作为判断条件,应用决策树模型进行判断。 4 2 套餐专题的实施 4 2 - 1 套餐分析专题的逻辑结构 t 套餐分析的从逻辑角度分析可分成三个部分:套餐分类体系、套餐分析域和 套餐汇总三部分。套餐分类体系包括套餐的特征、优惠标准等信息,主要用于套 餐模糊匹配。套餐分析主要围绕套餐建立一系列信息表,而套餐汇总是结合某些 非套餐维度做的汇总表,以下将详细描述这三部分 i 套餐分类体系 套餐分类体系中包含两个代码表,套餐的特征和套餐优惠标准。套餐的特征 是针对套餐而言,目前联通有四大品牌套餐,分别为:世界风套餐,新势力套餐, 如意通套餐和新时空套餐。优惠标准包括计费优惠、月租优惠、增值业务优惠和 帐务优惠。另外还有一个套餐优惠规则表,记录各种套锓的优惠规则,其实这些 规则是对优惠标准四项更细致的划分。 2 套餐分析域 套餐分析域包括一系列套餐的属性信息,围绕在套锓基本信息周围,有套餐 的用户发展( 日、月信息表) 、套餐业务使用( 日、月) 、套餐的帐务信息、欠 费信息、成本信息、转入转出信息( 包括一个转入转出日志表,此表和其他这些 套餐信息表不是同一类型,属于日志型表,应该放在o d s 层) 以及套餐综合信 息表。 3 套餐汇总 套餐汇总结合非套餐维度做汇总,包括用户维度,如用户收入分档、年龄、职业 北京邮电大学硕士毕业论文 上面分析套餐收入、用户数等,另外在业务使用维度和帐务维度上都有汇总,前 者如通话时段,后者如费用类型。 4 - 2 2 套餐专题物理模型 ( 1 ) 套餐分析域 套餐业务使用月信息 月份i d n u m b e r ( 6 ) 套餐1 1 1 ) n u m b e r ( 6 】 地m mn u m b e r ( 4 ) 业务类型i dn u m b e i i f 2 ) 图4 3 套餐分析域 4 0 套餐帐务信息 月份m h 劓眭r ( 6 ) 套餐i dn u m b e r , 地m i dn u m b e r ( 4 ) 业务类型i dn u m b e r ( 2 ) 出账收入n u m b e r ( 1 2 ,2 ) 优惠前收入n u m b e p , ( 1 2 ,2 ) h 期硪d a t e 套餐用户发展月信息 月份m n u m b b r ( 6 ) 套餐m n u n b e r ( 6 ) 地r b i d n u h b e r ( 4 1 业务类型i dn u m b e r j ( 2 ) 新增_ 【 i 户数n u m b e r j ( 6 ) 离嘲用户敦n u m b e r ( 6 ) 套餐转入转 1 日信息 日l i d 幔h b 限) 套餐l i d n u m b e r ( 6 ) 地市i d n u m b e r ( 4 ) 业务类型i dn u m b e r ( 2 ) 转出用广l 数n u m b e l l ( 6 ) 转入用户数n u m b e r 【6 ) 日期截d a t e 套餐用户发展日信息 日1 1 )n u h b e i r 【 套餐i d n u m b e r l ( 6 ) 地m i d n u m b e r ( 4 1 业务类型i dn u m b e r ( 2 ) 新增用户数n u m b e i i ( 6 ) 高嘲用,i | 数n u m b e i i ( 6 ) 北京邮电大学硕士毕业论文 c 2 ) 套餐分类体系 ( 3 ) 套餐汇总 图4 - 4 套餐分类 套餐基本信息 套餐mn u m b e r ( 6 )p k n ;地市卫d - j h b e r ( 4 ,p k j 业务类受卫口n u m b e r ( 2 )p k , 1 套餐特征i dn u m b e r ( 4 ) * 日= l 荆h t 用苷孵 妇e o u 雕鞲恻 峨瞄卢叫童餐名称 v a r c h a r 2 ( 1 0 0 ) 创建日期d a t e l 废止日期d t e t 用于 总 n u m b e r ( 6 ) n u m b e r ( 6 ) 一雌瞄i 蠢船黜嚣铲 n u m b e r ( 4 ) f k _ s t m _ d n t m _ i t r _ f n u m b e r ( 2 ) n u t 4 b e r ( 4 ) i 用户收入分档n u m b e r ( 4 ) n u m b e r ( 1 2 ,2 ) n u m b e r ( 1 2 2 ) i 优惠前收入n u m b e r ( 1 2 ,2 套餐业务使用杷总 月份m h j h b i e r :( 6 ) p k 套餐 n u m b e r ( 6 ) p k r i o 地市i d n u m b e r ( 4 ) , c p k f k , 业务类型dn u m b e r ( 2 ) , c p k r i o 通话时段卫dn u h b e r :( 2 ) 计费时长n u m i b e r ( 8 ) 通话次数 n u m b e r ( 8 ) 通话用户教n u h 睢l l ( 8 ) 图4 - 5 套餐汇总 北京邮电大学硕士毕业论文 4 2 3 套餐专题的数据源 套餐专题的相关数据主要来自辽宁联通营帐系统中套餐相关表。在对每一个 表分析之前,首先要分析这些表的共同特征和作用,然后再从主表进行分析,找 出对专题分析有用的字段,再通过e t l 过程把需要的数据抽取的数据仓库的o d s 层和明层,这部分工作是通过d a t a s t a g e 来完成的。数据源的表内容可参考下表 4 _ 1 名称记录数简称描述 b f f e e k i n d t 1 9 5 4f k 费用类型表 b f _ m o n t hf e e 。r o l e t 3 5 1 1m r 月租规则,和套餐一对一关系。 月租费组合表,存放各种不同的 b f _ m o n t hf e es e tt 2 5 6 5 9m s 月租的费用信息,和套餐多对一。 存放c d m a 套餐优惠详细参数信 b s _ c d m ac a l lf a v o u r _ t 2 7 2 5c f 息,例如时长、额度。 b s _ c d m ad e fc a l lk i n d _ t 7 5c k c d m a 的呼叫类型,判定主被叫。 网络类型,用来识别网内网日j 通 b sd e fn e t _ t y p e _ t 1 5 6n t 话。 b s _ d e t a i l _ n a g _ t 4d f 用来标志是否优惠。 用来判定优惠值的含义,是打折 b s _ d e t a i l _ o p e r _ t 2 1d o 还是固定费率等。 b s _ f a v o u r _ g a t h e r _ t 3 1 8g t 用于增值业务的表。 套餐主表,记录每个地市、每个 b s _ f a v o u r _ m e n u _ t 5 7 2 3f m 业务的套餐信息,一个套餐一条 记录。 存放g s m 套餐优惠详细参数信 b s g s m _ c a l l _ f a v o u r _ t 4 4 4 5g f 息,例如时长、额度。 b s _ g s m _ d e fc a l lk i n d _ t 9 3g k g s m 的呼叫类型,判定主被叫。 存放短信套餐优惠详细参数信 b ss l nc a l lf a v o u r _ t3 3 6s f 息,例如条数、额度。 表4 _ 1 数据源表 数据抽取的基本过程如下图4 - 6 : 北京邮电大学硕士毕业论文 4 2 4 套餐专题具体实现 图4 - 6 套餐数据抽取过程图 ( 一) 套餐预测 套餐预测,即在推出一款套餐之前,根据套餐的种种特性去现有的套餐中查 找,找到最相近的若干套餐,也可以称为模糊匹配通过观察他们的运行状况, 例如用户数的变化、对收入贡献的变化,来预测新款套餐的市场发展潜力。这样 可以辅助套餐设计者做出决策,是否适合推出该种新套餐。但是最终的决策依据 是综合的。还要依赖套餐设计人员的业务经验,例如竞争对手推出的新套餐。此 分析将提供新套餐的盈利能力,为套餐设计者提供信息,它包含两个分析步骤, 如图4 - 7 : 田4 7 套簪预测步骤 4 3 北京邮电大学硕士毕业论文 & 套餐模糊匹配 用户输入套餐的特征值( 包括套餐特征和套餐优惠规则) 通过和已存在各地 市套餐进行比较,得到和该套餐最相似的套餐,按本地市套餐和其它地市套餐给 出列表。 b 匹配套餐效益分析 对模糊匹配成功的目标套餐,进行效益分析,以预估新套餐的盈利能力。当 时由于成本数据源的原因,统计出套餐的相对效益,并非绝对的套餐收入减去套 餐成本。 以上是对套餐预测总体情况描述,由此可看出关键步骤在于套餐模糊匹配这 个环节,而模糊匹配的关键是要找到套餐优惠规则的组合规律,因此需要对套餐 进行详细的划分。以下将详细介绍套餐模糊匹配关键环节:套餮分类和套餐匹配 过程。 ( 1 ) 套餐分类 为了实现套餐模糊匹配,有必要对现有套餐进行分类,找出设计的模式。通 过分析套餐汇总信息,总结出套餐可以有如下的模式特性,举例来说有( 以下x 和y 代表不固定数值) : 1 月租x 元,无漫游则月租y 折; 2 网内被叫x 折; 3 送本地通话费x ; 本地网内通话费单价x 元; x 元包y 元; 最低消费x 元; x 元帐务优惠; 通话费x 元封顶; 所有费用x 折; 每月返还x 元,分y 月; 拨某对端号码时长在x 分钟之内,费用y 折; 赠送x 分钟网内基本费通话时长,超出部分按单价y 元分钟算; 送网内点对点短信x 条; 送彩信x 条; 周六、周日、节假日本地网内主叫基本费单价x 元分钟; 晚1 0 点至早晨7 点,网内主叫基本费单价x 元分钟; 晚1 0 点至早晨7 点,网内点对点短信单价x 元条; 送】【m 流量,之后单价x 元胁; 毛u 5 氏l & a ;m u挖埒h埒:宝盯埔 北京邮电大学硕士毕业论文 1 9 赠送7 0 分钟国内i p 长途; 2 0 每月送预存款x 元,分y 月派送( 和1 0 类似) : 2 1 新业务通信费大于o 元时,月租x 元i 2 2 半月月租减x 元; 通常一种套餐可以由以上几种模式组成,侧如有一种银卡2 0 0 0 套餐,它 是赠送本地网内被叫基本通话费1 6 元,月租3 0 1 无漫游费则月租费减半。,就 结合了上面3 、1 的模式。再对这些模式进一步抽象,可以得出l l 类: 1 ) 费用项总量无条件优惠,对于特定费用项的总费用打折或是设为固定 值,例如上面的2 、9 项; 2 ) 费用项单价无条件优惠,对于特定费用项的单价例如每分钟通话、每条 短信的单价优惠或固定值,例如上面的4 项; 3 ) 赠送( 特定费用项或除去特定费用项) ,赠送特定费用、通话时长、短 信,超出部分按某种单价计费,例如上面的3 、1 2 、1 3 、1 4 、1 8 、1 9 项; 4 ) 费用项单价有条件优惠,对于特定费用项的单价,如每分钟通话费、每 条短信费,在特定条件下发生优惠,例如上面的1 5 、1 6 、1 7 项。,这里 的条件包括; a )时段,在某个特定时间段内; b ) 节假日,在某些特殊
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 检测仪器设备校准与维护服务补充协议
- 互联网企业SPV股权并购协议书
- 培训课程创新研发补充协议
- 《医药论坛杂志》投稿须知官方认证
- 2025年四年级英语教师教学总结模版
- 译林版必修三英语《Unit 3 The world online》Grammar and usage课课件
- 江西理工大学《文艺演出策划》2023-2024学年第二学期期末试卷
- 2025年档案管理个人工作总结模版
- 泉州师范学院《果树育种技术》2023-2024学年第一学期期末试卷
- 新媒体运营与推广协议
- 2025至2030中国电化学储能行业发展现状及趋势前景预判研究报告
- 2025年公共卫生与预防医学知识考试试题及答案
- 离婚协议书原版
- 2025年高考地理复习 大单元八 人口、城镇与大都市辐射 题库
- 新人教版数学五年级下册3.3 练习五课件
- 中央2025年陆军面向社会公开招考专业技能类文职人员笔试历年参考题库附带答案详解
- 2025年天津市滨海新区中考数学一模试卷
- 2025年杭州市高三语文二模作文题目“科技与相互理解”写作指导
- 小学生摄影课件
- 2025(标准)承包清工劳务合同协议书范本
- 合伙入股协议合同范本
评论
0/150
提交评论