中国移动云南公司大数据平台需求规格说明书-TAS_第1页
中国移动云南公司大数据平台需求规格说明书-TAS_第2页
中国移动云南公司大数据平台需求规格说明书-TAS_第3页
中国移动云南公司大数据平台需求规格说明书-TAS_第4页
中国移动云南公司大数据平台需求规格说明书-TAS_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEV中国移动云南公司大数据平台需求规格说明书编写编写时间2014-12-23审批审批时间文档版本V1.1中国移动云南公司信息技术中心版权所有文档中的全部内容属中国移动云南公司信息技术中心所有,未经允许,不可全部或部分发表、复制、使用于任何目的。文档修订摘要日期修订号描述修订人审阅人审阅日期2014-12-23V1.0云南移动大数据平台需求规格书目 录1. 需求概述 11.1. 建设背景 11.2. 系统目标定位 11.3. 系统建设原则 21.4. 业务框架 22. 系统概述 32.1. 系统功能框架 32.2. 系统技术架构 42.3. 两阶段的建设考虑 53. 业务需求 63.1. 标签体系 63.1.1. 标签构建 63.1.2. 标签使用 63.2. IMCD智慧营销 63.2.1. 界面使用 63.2.2. 复杂事件营销 63.2.3. 实时营销 63.3. 流量价值提升 73.3.1. 流量价值提升影响因素分析 73.3.2. 恶意刷机用户分析 73.3.3. 终端信息自动运维 73.4. 客服专区 73.4.1. 客服KPI监控 73.4.2. 客服流程分析 73.4.3. 投诉分类、热点分析 73.4.4. 投诉舆情分析 73.4.5. 区域投诉分析 73.5. 网络智能分析 73.5.1. 行业APN业务保障智能分析与监控 73.5.2. 小区网络监控、分析 73.5.3. PCC管控策略分析与监控 73.6. 星级专区 73.7. 融合专区 73.8. 4G专区优化 73.9. 集团专区 84. 一线支撑需求 84.1. 自助分析优化 84.2. 一线支撑APP 84.3. 增值业务支撑APP 85. 基础功能需求 85.1. 数据源采集与解析 85.1.1. 数据源扩展 85.1.2. 信息增强 85.2. 数据处理与交换 85.2.1. 数据融合 85.2.2. 跨平台数据处理 85.2.3. 跨平台统一调度 95.2.4. 数据处理监控 95.3. 数据融合 95.4. IMCD智慧营销 95.4.1. 策略管理 95.4.2. 事件管理 95.4.3. 个性化推荐 95.4.4. 触点渠道管理 95.5. 投诉智能处理 95.5.1. 投诉文本分词、关键词处理 95.5.2. 投诉文本挖掘 95.5.3. 投诉文本营销商机挖掘 95.6. 服务开放 95.6.1. 服务开放平台 95.6.2. 自媒体广告平台 95.7. 综合管控 95.7.1. 数据资产管理优化 95.7.2. 平台多租户管理 106. 附录 106.1. 二级目录 106.1.1. 三级目录 10. 四级目录 10.1. 五级目录 10中国移动云南公司大数据营销项目需求规格说明书第6页需求概述建设背景利用大数据能力实现的精细化、智能化、个性化的市场营销与服务,以及与之配套的数据分析驱动的方案策划、营销执行、渠道协同、接触管理、过程优化、效果评估等功能。提高大数据在市场营销与客户服务中的应用水平,提升企业层面的整体营销与服务能力。目前,我省通过长期实践,在营销支撑方面积累了丰富的经验,如客户标签库,帮助实现深度的客户洞察;开发了营销管理平台,部分实现了营销活动的策划、审核、执行、评估的闭环管理,整合并打通了不同类型的多种营销渠道与触点,如短信、外呼、前台、网厅、掌厅、业务平台等;并在流量经营、存量保有、业务营销方面了作了积极有意的尝试,通过系统支撑的手段协同营销在各个渠道的执行。但是,现有的数字化营销实践也存在着一些局限性与片面性,包括:1)大数据应用尚处于初级阶段,受限于大数据能力未能充分发挥,客户需求洞察能力不足,很多营销仍然依赖于人工经验,大数据价值体现不足;2)渠道协同能力不足,渠道之间缺乏协同,造成跨渠道、多波次的营销活动开展能力不足,营销资源未能到充分利用,并造成重复接触、重复打扰等问题;3)实时事件驱动的营销能力不足,缺乏对关键事件的实时捕捉,以及后续的自动化营销过程;4)营销经验的沉淀不足,营销活动往往按需策划,好的营销活动往往未能通过适当抽象转化为营销,便于后续的复用与共享。系统目标定位以基于大数据的客户上网行为挖掘为基础,通过智能营销管理平台,实现目标客户准识别、营销产品精匹配、营销渠道全方位,实时和准实时互搭配,重点服务于4G客户迁移、存量维系、流量经营、终端营销、内容营销等领域。从产品、客户、渠道、关键时刻、商机等多个维度沉淀和落地几类营销场景。通过综合网关的上网触点感知和流处理技术的位置触点感知实现几类实时营销的落地。上网日志留存系统的经分适应性改造,提升大数据平台的数据来源,在数据质量、响应及时性、信息承载等方面的能力,为用户上网行为和基于位置的深度分析挖掘,用户需求深度洞察等提供基础能力。营销管理平台的智能化改造,实现营销触点的自动感知、营销渠道的统一管控、营销执行的科学反馈;并提升目标客户识别、产品策略匹配,渠道选型的综合营销策划能力。系统建设原则本期工程建设满足以下原则:开放性与先进性:基于开放式标准,采用先进成熟的设备和技术,确保系统的技术先进性,保证投资的有效性和延续性。灵活性与可扩展性:方便扩展设备容量和提升设备性能;支持业务处理的灵活的、参数化配置,业务功能的重组与更新的灵活性,新的应用业务可灵活加载,并不影响原有业务流程。安全性与可靠性:提供良好的安全可靠性策略,支持多种安全可靠性技术手段,制定严格的安全可靠性管理措施。准确性与实时性:保证系统数据处理的准确性,提供多种核查手段。对实时性要求高的处理提供特殊有效的处理方法。易用性与可管理性:对于用户可以方便、快捷的使用业务,对于用户可以快速的提供内容服务。平台本身应具有良好的操作界面、详细的帮助信息,系统参数的维护与管理通过操作界面完成。平台应具有良好的管理手段,可管理网络、服务器、操作系统、数据库及应用等。业务框架以大数据资源为依托,通过客户标签与产品标签实现客户群超细分,捕捉客户群事件性即时需求和群体性商机,适时开展针对细分客户群的静态、准实时甚至实时营销。整个营销过程执行之前,需要针对客户数据、产品资源进行准备,部署事件和商机规则,由事件/商机触发营销活动,当制定事件或商机发生时,匹配出客户-产品-渠道的营销活动方案,开展多波次营销,实现基于关键时刻的针对性准实时或实时营销,并就营销效果进行及时跟踪和数据评估,为后续营销活动规则、客户标签的不断优化迭代提供依据,推进营销方案的不断完善。因此,将营销过程从营销准备、事件/商机捕捉、客户-产品-渠道匹配、活动开展及效果评估五个环节,抽象出相关营销要素配置工作,形成5个核心营销要素:目标、产品、营销事件、营销渠道、与之相关商机。同时,随着营销的深度开展,将逐步形成海量的营销方案。为准实时或实时的营销事件自动智能匹配相应的营销,需要对各类营销活动进行统一管理。系统概述系统功能框架系统技术架构技术选型及亮点采用Flume计算框架,实现文件和消息采集与解析;采用流式爬虫、中文分词技术,实现互联网网页信息实时采集。引入Hadoop2.0,在1个集群上承载批处理和流处理,基于Yarn资源管理可最大效率利用资源,实现消峰填谷。在Yarn基础上,引入Storm计算框架,通过Hive、Mahout、RHadoop实现海量数据计算和全量数据挖掘;引入VoltDB内存数据库,结合Esper,实现基于CEP的实时动态营销。支持分析中心架构差异化,可有效保护现有投资;同时,积极的引入MySQL,利用Sharding实现数据快速访问,为未来技术替换缩减投资奠定基础。两阶段的建设考虑依据云南移动各业务部门对大数据平台支撑营销场景需求,结合云南现有大数据平台建设情况,参考其它兄弟省份大数据平台建设经验,建议云南移动大数据平台建设分阶段有序推进,达到“阶段目标、过程可控、效果可见”的目标。第一阶段:继续利用融合感知分析(C3)能力,通过扩容hadoop平台,提升大数据处理能力;升级智能营销(IMCD)软件并扩容智能营销(IMCD),实现与综合网关对接,实现实时营销;扩充并完善客户标签、数据挖掘,为精准营销奠定基础;升级互联网内容规则及实例库,细化互联网分类及准确性;探索客户服务投诉文本分析。从而满足业务部门所提营销及平台建设技术要求。第二阶段:上网日志留存系统改造,取代融合感知分析(C3)的采集和初级预处理能力,构建信息识别增强模块实现对URL信息的识别与增强;升级互联网内容解析软件,并扩容互联网爬虫、实例库匹配功能,提升互联网内容分类、解析能力;改造智能营销(IMCD)产品,使用flume+storm技术实现与信息增强模块对接,以支撑融合感知分析(C3)下线后的实时营销场景;依据新的数据源和业务发展需要,扩充并完善客户标签,优化并验证数据挖掘模型。业务需求标签体系标签构建/*从标签覆盖范围、标签粒度等角度提出标签构建的需求和特征要求,目录可自拟,具体内容待调研后明确,后面部分内容雷同*/标签使用/*从标签使用响应速度、标签选择的便利性、标签推荐、标签使用界面、标签与其它系统的交互等角度提出标签使用的需求和特征要求,目录可自拟,体内容待调研后明确*/IMCD智慧营销界面使用/*从营销平台使用响应速度、营销活动选择、目标客户选择、与其它系统的交互等角度提出营销使用的需求和特征要求,目录可自拟,体内容待调研后明确*/复杂事件营销/*说明营销平台所能满足的复杂事件营销类型、复杂事件营销匹配特征及要求等内容,目录可自拟,体内容待调研后明确*/实时营销/*说明营销平台所能满足的实时营销类型、实时营销匹配特征及要求等内容,目录可自拟,体内容待调研后明确*/流量价值提升流量提升驱动力因素分析业务目标为帮助运营商完成提升流量目标,从传统的单靠业务营销知识入手转变为通过自动化手段分析挖掘流量驱动因素,从而做到拉伸流量规模。产品从流量使用的对象,即从用户方面入手,分析用户流量使用习惯。通过对用户群进行筛选分类,分析用户上网行为及流量使用情况,挖掘对流量变动影响最重要的因素,全面分析因素驱动流量变动的影响度,分析结果可为提升流量的策略提供强有力、精准的数据支撑。功能概述流量驱动力因素分析通过对一些固化沉淀出的流量影响因素,经过一系列的指标选取、相似度计算和短发分析,输入影响流量驱动的因素列表以及对应的影响度大小。主要是为用户提供一个制定营销策略提升流量的数据支撑平台。流量驱动力因素分析的过程是将影响因素、数据经过规则筛选、算法分析,输出对流量驱动影响因素及其对应的影响程度。此过程中根据既定规则和数据类型从不同的口径获取数据,通过对因素指标模板的管理、初选,并结合数据筛选出相关性较大的指标,后通过算法分析出因素已经因素的影响度。业务流程功能详细描述流量提升的关键影响因素挖掘对系统模型算法中所需数据进行了整理与管理,为后续因素分析执行管理做基础准备。初选指标设定用户根据本省建设情况与省份业务需要,在系统提供的一百个指标模板中进行选择。系统对用户选择的指标个数不设最多限制,可以选择全部,但不提供全选按键,以免客户直接选择全部指标,失去选择意义,增加系统运算压力;系统对用户选择的指标不设最低限制,但不能不进行选择。用户选择后,已选的因素指标,成为初选指标,为后续指标相关性筛选的指标输入。该模块将初选指标信息传送给样本数据规则管理模块,初选指标即为后续选取样本数据的指标字段。指标选择完成后,展示初选指标列表。样板数据设计根据样本数据类型管理的样本数据类型分类确定样本数据选择口径,根据样本数据规则管理确定样本数据最小数据量和样本数据数据规则,选取样本数据。该模块的界面中包括:样本数据类型录入、样本数据各类型口径录入,数据录入存储于样本数据类型管理模块中。在样本数据类型管理模块中,不再设计录入路径界面。指标相关性筛选对初选指标进行相关性的筛选,过滤重复数据,缩减因素指标个数,为后续模型计算减少系统运算压力。在用户完成初选指标设定和样本数据设计后,点击指标相关性筛选按键,系统自动对指标相关性进行计算,并根据计算结果,展现指标与其相关性系数,以相关性系数为维度展开,用户可根据相关性系统的大小,选择筛选结果。相关性系统值的范围:0.8-1.0极强相关;0.6-0.8强相关;0.4-0.6中等程度相关;0.2-0.4弱相关;0.0-0.2极弱相关或无相关。系统根据以上五种分类展现指标个数,用户选择五类中的几类,可多选,形成筛选条件,并最终展现筛选结果。驱动流量波动因素的影响度分析根据因素分析数据管理模块提供的基础数据,和基础信息模块提供的信息,对因素进行深入挖掘分析,产出因素影响度,并对算法进行验证。因素影响度分析因素以及因素影响度的分析是本产品需要产出的结论性成果。这部分是从大量的用户行为样本数据中,通过建模分析结合筛选出的指标因素集合,从数据中发掘对提升流量规模关键因素以及因素的影响度信息。这部分主要集中于后台数据挖掘模型的计算中,接入数据是样本数据和筛选后的因素指标集合。通过根据嵌入到挖掘模型中的算法规则,计算出样本数据中影响用户使用流量变动的各因素影响度数据,将影响程度比较大的因素列表以及影响度输出。建模分析:依据问题类型,采用合理的挖掘算法,通过数据挖掘工具实现对流量突增客户关键指标的分析和筛选。因素重要性输出:因素重要性输出是上述建模分析中的挖掘模型吐出的结果集,其中包括对流量提升影响重要的因素集合和对应各因素对流量的影响度权重。结果通过权重由大到小对影响因素进行排序后输出。算法选择:算法选择的依据需要根据其分析出的结果来判断。在数据建模过程中,可选择多个算法挖掘用户上网行为数据中流量波动的因素情况。选择的各个算法会通过其既定的运算规则和判断标准,分析生成也影响因素列表和其影响度权重;分析人员根据输出的分析结果和自己的业务知识,选择贴近于实际情况的分析算法,此算法的分析结果作为最终的因素分析结果。规则集验证规则集是挖掘算法内置的分析计算方式,其中包含该算法中分析的流量影响因素集合。规则集是一个二叉树类型的数据集合,每个节点都包含一个影响因素。规则集验证是将测试样本数据和算法的规则集输入挖掘模型工具中,再次分析出对流量变动的影响因素,查看分析结果与之前分析结果之间侧差异,验证该算法分析的完善性。流量波动群用户跟踪分析分析下一统计周期内,因素及其影响度的变化情况,判定模型算法的正确率和因素影响度的正确率。算法效果分析效果分析是基于对用户流量情况做完因素分析之后,使用分析结果对用户群进行接收营销推广后,再次对这些用户流量使用情况进行分析,一般是在做完因素分析推广营销后的下一个月做跟踪分析。分析用户群在当月流量使用情况,并对部分流量回落用户做流量波动的因素分析,挖掘出那些因素对流量回落产生影响,并计算产生影响的影响度。这部分输入的数据需要流量波动用户群分组下用户上网详单数据和影响流量驱动的因素集合。因素效果对比算法效果分析体现在对分类划分出用户群跟踪期内流量变动因素分析过程中,主要为判断算法分析出的结构是否完善准确,结果是否可精准为营销活动提供数据支撑。算法的效果分析输入的数据为用户群跟踪期内上网行为数据以及影响因素集合,通过挖掘模型分析出隐藏在数据中影响因素列表和因素影响度权重,并与之前分析的结果进行对比,查看分析算法分析的精准度和完整性。流量提升驱动力因素排行根据跟踪分析的结果,对流量提升因素分析的结果进行矫正,最终确定出适用于本省的流量提升驱动力因素TOP排行。序号指标类别建模指标重要程度1消费信息可用流量较上月增幅0.452互联网信息新增使用应用的个数0.233促销信息是否参与赠送流量的营销活动0.24消费信息近3个月超套的次数0.055消费信息3G流量占比增幅0.026业务信息是否变更为智能手机用户0.017业务信息是否变更为3G手机用户0.018消费信息2G流量占比增幅0.019业务信息是否流量套餐包升级0.0110客户信息是否漫游0.0111业务信息是否变更包含流量的主套餐0.0112互联网信息应用消耗流量较上月增幅013消费信息节假日日均流量较非节假日日均流量是否提升014业务信息是否变更为4G手机用户015消费信息4G流量占比增幅016促销信息是否参与限时特惠包活动017消费信息手机WLAN流量较上月增幅018客户信息集团客户标识019客户信息校园客户标识020互联网信息热点事件搜索次数0智能推荐引擎概述智能推荐引擎是基于大数据平台的数据和计算能力,通过对各类数据的分析、计算、关联、预测等方式,将对的产品推荐给对的人,为精准营销提供能力支撑。智能推荐引擎提供的能力包括:产品推荐能力(找到适合推荐的产品,例如,活性最高的应用、热门的终端等等),用户推荐能力(找到每一类产品适合推荐的用户群)以及基于大数据挖掘的效果评估。与现有营销流程的整合智能推荐引擎可以与省内已有的营销平台进行整合,在不影响现有流程的前提下,为营销活动的策划提供智能推荐的能力。整合方案如下:个性化应用推荐业务目标在流量时代,业务部门需求与大数据紧密关联,利用大数据推动运营流程转变、推动商业模式变革。个性化应用正是形成以大数据分析驱动的智能营销闭环管理流程,实现营销策划的精细化和智能化,助力电信运营商提升4G用户流量规模。功能概述从用户方面入手,活性分析得出用户热门应用,实现自动推荐;其次对全量用户通过协同过滤筛选后再从中挑选出4G用户(4G用户口径:使用4G终端、开通4G套餐、4G流量包),给予个性化的应用推荐;对推荐结果进行多维度的效果评估,通过安装应用、监控应用的使用来推动用户的流量提升。具体实现功能包括:用户业务偏好分析、应用活性分析、应用使用特性分析、协同过滤算法、营销效果多维分析。业务流程功能详细描述用户应用偏好分析用户应用偏好分析基于DPI流量话单(HTTP话单或通用话单)中计算的应用访问量、访问时长、访问流量等指标,通过一系列规则计算得出用户对其所已使用过应用的偏好得分。偏好得分表是协同过滤算法的输入数据。用户应用活性分析应用活性静态分析应用活性静态分析:分别从三个档次(0-1万,1-10万,10万及以上)考察应用新装后第三个月的用户保有率、流量保有率、月均用户使用频次及月均流量。生成对应的气泡图、曲线图直观查看,默认按照流量保有率的TOP30排名各应用。最终用户可将分析结果保存下来。应用活性动态分析考察应用新装后连续三个月的用户保有率及流量保有率变化情况,取并集得出TOP30应用。点击指标切换按钮分别可以选取三个月单独的保有率变化以及整体的一个保有率变化。应用活性特性分析分别从户均流量增存量对比折线图;户均流量增存量对比折线图;方便用户观察该应用是属于上升型、下降型、交织型、喇叭型中的哪一种。在具体应用推荐的时候优先选择上升型应用。用户应用推荐列表系统通过最佳推荐应用分析提供默认的最佳推荐应用列表。最佳推荐应用列表产生的原则是:根据静态活性分析结果,分别选取用户保有率和流量保有率TOP30的应用,取并集同时去重;根据动态活性分析结果,分别选取用户保有率增幅和流量保有率增幅TOP30的应用,取并集同时去重;针对最终选取出的应用中,判断应用使用类型,过滤出户均流量‘上升型’的应用。如果过滤出的应用数量不足30个,则选取用户保有率最高的应用进行补全;如果过滤出的应用数量大于30个,则选取用户保有率最低的应用进行过滤。该界面的应用推荐列表主要包括推荐应用的名称、用户数、保有率、户均流量等指标还列出了经过筛选出的目标用户数。(具体筛选算法见下页);同时该页面提供后台推荐列表产生的流程图以及用户筛选的原理图,感兴趣的可点击链接查看。目标用户挖掘采用基于协同过滤算法,筛选具体推荐用户,并在筛选出的用户中选择终端是4G的用户。总体思想:1)基于用户X对所有物品的偏好,找到邻居用户Y;2)将邻居用户Y喜欢但用户X尚未购买的物品推荐给当前用户X。应用推荐效果评估计划推荐用户数和实际传播用户数,IMCD通过外部接口向智能推荐引擎进行同步后。一般从传播开始前一周到传播结束后一周作为评估周期,为了增加指标效果,可延长统计周期至传播前后1个月,传播效果分析中,指标统计均以‘实际传播用户’为数据样本总体。前台界面用户可以查询到历史推荐的列表,能查看到当时具体推荐应用的内容以及用户数规模;通过分析用户的流量数据,可对具体的推荐活动进行效果评估,提供从应用及区域两个维度对历史活动进行分析评估推荐效果。历史活动查询历史推荐概览:区域维度效果分析区域维度评估-转化率分析区域维度评估-趋势分析应用维度效果分析应用维度评估-转化率分析应用维度评估-趋势分析个性化套餐推荐业务目标随着运营商提供的套餐方案越来越多,套餐内提供的产品种类繁多,每种产品的适用条件又不尽相同,用户往往不能清楚的知道自己应该使用哪一种套餐;新的套餐也因为宣传手段有限,无法及时通知到最适合的用户。通过个性化主套餐推荐,及时的推荐用户新的套餐或者建议升级主套餐,最大限度地保有存量用户,在稳步提高收入的同时,更能有效的提升用户感知,降低用户维系的成本。功能概述首先,基于大数据中心的数据挖掘分析能力,分析并预测出用户下月对各类产品的实际需求;其次,根据用户现在使用的套餐,分析匹配程度;第三,分析现有的所有套餐产品,分析出最合适的主套餐;第四,分析用户的“月保底消费叠加规则”,滤除 资费中大部分是保底消费的用户;第五,输出需要升级主套餐的用户以及推荐的目标主套餐产品。业务流程功能详细描述用户下月的需求预测根据用户使用本地通话、长途通话、流量、WLAN、短信、彩信等产品的实际数据,分析出用户使用每一种产品的历史变化趋势,通过产品使用量预测模型,推算出用户下个月对每种产品可能的需求量。最终可得出每一个用户下一个月使用各种产品的预测情况,例如:用户号地通话时长200分钟长途通话时长100分钟漫游通话时长50分钟流量500MBWLAN上网时长60分钟短信50条彩信10条是否使用139邮箱是主套餐升档潜在用户分析根据预测出的用户需求,分析用户现有套餐的每项产品,按照不同产品符合程度的加权算法,得出用户现有套餐组合产品的符合程度得分,并且根据符合情况给出建议的调整方式。如下表:用户当前套餐符合度调整建议用户A15875升档用户B5898保持用户C15867降档从符合度列表中筛选出需要升档的用户群。低消费保底叠加用户剔除针对需要主套餐升档的用户群,找出其中参加了优惠活动有保底消费并且近三个月除了保底消费外很少有额外消费的用户,根据这部分用户的消费习惯,为了避免不必要的误解引起投诉,将不予推荐套餐升档,具体的筛选方法如下:结合用户近三个月出账费用的稳定性及规模(X),假定参加某活动A需要添加保底Y1且活动A将产生消费额Y2,用户参加活动A前已有保底消费规则Y,系统判断Y+Y1+Y2<X*90%,如果满足则向用户推荐活动A,否则不推荐。升档用户主套餐推荐清单根据最终筛选完成的目标用户群以及省公司当前最新的套餐产品,匹配出最合适的套餐建议,每月输出每一个目标用户建议推荐的主套餐清单。4G终端推荐业务目标终端引领一直是运营商很重要的用户发展手段,如今通信市场已正式进入4G高速移动互联网时代,而现网中还有大量的2G、3G存量用户。通过增加对4G终端潜在换机用户的精确识别帮助运营商正确引导用户,完成终端换机推荐,实现提升流量目标,同时让各合作终端厂商的终端都能够被推荐给对其感兴趣的用户,是现在需要分析解决的问题。功能概述4G终端推荐通过终端信息获取、用户画像、终端参数与流量分析、终端算法推荐等流程手段可提供对4G终端潜在换机用户的精确识别及4G终端推荐结果查询两大功能。4G终端推荐精准分析可通过几种识别方式对用户进行筛选:“用户兴趣人群化”识别:基于用户业务使用习惯,兴趣分类及流量数据业务监控进行用户群筛选画像,圈定终端推荐适配人群。“购买事前动作”识别:基于用户通信行为和上网行为进行分析,通过用户流量使用行为变化,APP使用行为变化、特定网站上网行为变化等筛选潜在换机用户。“终端偏好”识别:基于用户通信消费能力、交往圈、用户位置、上网行为、终端搜索行为、终端参数配置爬取等匹配用户适配终端。业务流程功能详细描述候选终端信息数据提取用户根据本省建设情况与业务需要,从系统提供的候选4G终端列表中进行选择,生成待推荐终端列表。系统对用户选择的终端个数没有限制,可以全部选择也可以批量勾选;终端品牌、型号等信息可根据需要进行排列筛选。潜在换机用户识别分析本功能对用户在用终端使用情况数据进行匹配分析,分两步进行识别判定:第一步是对近期是否有过换机行为进行判断,分析现有终端的生命周期;第二步是对用户上网行为进行判断,通过对用户使用应用及流量情况分析判断用户对终端需求的变化。下图是潜在换机用户识别分析业务处理流程:功能要求:计算用户在用终端使用情况,踢掉已有4G终端用户、近期有过换机记录用户、流量阈值低于1M的用户。基于用户通信行为和上网行为进行分析,通过流量使用行为变化、APP应用使用变化、特定网站上网行为变化等筛选出潜在换机用户。终端推荐列表系统通过潜在4G换机用户识别分析结果及候选终端信息数据提取结果通过用户终端偏偏好模型,生成最终终端推荐列表。恶意刷机用户分析业务目标通过“三码对应”规则可切实有效的甄别恶意刷机行为,分析识别疑似恶意刷机终端群体,查找这些终端对应的渠道商信息,为运营商有效进行渠道管控、商业止损提供数据支撑,旨在解决当前运营商普遍面临的不良渠道商通过恶意刷机非法套取佣金酬金但无法有效识别与监督的现状难题。功能概述恶意刷机用户分析通过“三码对应”手段可提供恶意刷机识别,及恶意刷机结果查询两大功能。恶意刷机用户分析识别可通过对用户上网记录数据中关键字段信息进行解析提取,包括IMEI匹配、Useragent/URL中的终端信息,采用“三码对应”规则,对数据解析的结果数据进行比对分析,初步判定出可能刷机的用户群。恶意刷机用户分析对初步判定的可能刷机的用户群IMEI号进行监测分析(如一个月),通过“二次甄别”手段将UA/URL数据中剔除手机作wifi热点导致IMEI变化的部分用户,剩下的则判定为疑似刷机终端。同时将刷机用户与渠道信息进行关联,甄别判定恶意刷机渠道。恶意刷机用户分析查询可逐月提供合约机识别输出分析报表,包括:疑似恶意刷机用户列表,恶意刷机渠道列表等。业务流程对用户上网详单数据中终端相关的要素信息采用“三码对应”的规则进行匹配分析,初步筛选出疑似恶意刷机的用户。将初步选出的疑似恶意刷机用户匹配用户渠道信息,根据一定阀值判定某渠道是否为疑似恶意刷机渠道,并统计各渠道的疑似恶意刷机情况。疑似恶意刷机识别分析业务流程的主要关键步骤如下:功能详细描述疑似恶意刷机用户识别本功能需通过对用户上网详单数据中终端相关的要素信息采用“三码对应”的规则进行匹配分析,分为两步进行识别判定:第一大步为初步识别过程,第二大步为二次甄别过程。初步识别初步识别的第一步,用户上网日志分析主要是对终端渠道销售表中的那部分用户的一段周期的上网日志进行分析,如果用户在该周期内无上网记录则不对该用户进行分析。分析的内容是:从Useragent或URL中按照规则模板解析出终端品牌型号信息,同时用IMEI字段关联终端信息库匹配出终端品牌型号信息。其处理流程如下图所示:1、用户通过接口或手工导入的方式加载渠道终端销售信息表,该表包含了渠道与合约机用户的对应关系;2、对渠道终端信息表中的那部分用户的上网日志记录进行分析,主要是对其Useragent或URL字段按照规则模板进行解析,解析出终端的品牌与型号信息,添加到用户上网记录信息中。解析模板的优先级顺序从高到底是:Useragent的浏览器规则模板Useragent的操作系统规则模板Useragent的正则表达式模板URL规则模板只有在高优先级规则模板无法解析出终端信息的情况下才使用低优先级下一规则模板,一旦当前规则模板能够解析出终端品牌型号信息,则不进行低优先级的规则模板匹配。如果Useragent和URL字段通过现有模板都无法解析出用户终端信息,则对该条上网记录进行剔除,不做后续分析。此外,将用户上网日志记录中的IMEI字段关联终端信息库,如果可以关联出终端品牌信号信息则添加该终端品牌型号信息至用户上网记录信息中,否则,则对该条上网记录进行剔除,不做后续分析。初步识别的第二步,是对第一步的输出结果进行分析,将从UA/URL解析的终端品牌型号信息与通过IMEI与终端信息库关联的终端品牌型号信息进行对比,即“三码对应”识别,输出初步判定的疑似恶意刷机用户,流程如下图所示。初步判定的第三步,是对第二步中识别的疑似恶意刷机的那部分用户的上网记录分析结果进行进一步的分析,通过散列统计的方式,来确定其真实的终端品牌型号信息。散列分析,是针对用户的多条上网记录信息,其UA/URL解析的终端品牌型号信息可能不一致的情况,通过按终端品牌型号进行统计分析,来确定疑似恶意刷机用户的实际终端品牌与型号。确定的原则是:1、出现频次最多的即为该疑似恶意刷机用户的实际终端品牌型号;例如:A用户可解析的上网记录有10条,4条解析结果是华为C8810,3条解析的是华为C8812,2条是ZTEZ5,1条是三星G3,则以C8810作为用户的实际终端品牌型号。 2、如果频次一致,则选择最近的一条上网记录中UA/URL解析出的那个终端品牌型号作为用户的实际终端品牌型号。例如:B用户可解析的上网记录有10条,5条解析结果是华为C8810,5条解析的是华为C8812,则看这10条记录上,离当前时间最近的一条上网记录中的UA/URL解析出来的终端品牌和型号作为用户的实际终端品牌型号。二次甄别终端信息监控功能,实现对上一步骤“三码对应”规则匹配输出的疑似恶意刷机用户进行长达一个月的跟踪监控。目的是剔除可能用手机做热点上网导致的IMEI匹配的终端信息与UA/URL抽取的终端信息不匹配的情况。在监控期内,如果从某用户的UA/URL抽取的终端信息与IMEI匹配的终端信息又出现匹配一致的情况。则判定该用户为用手机做Wifi热点的用户。否则的话,即认为是疑似恶意刷机用户。疑似恶意刷机渠道识别本功能需要将初步选出的疑似恶意刷机用户匹配用户渠道信息,根据一定阀值判定某渠道是否为疑似恶意刷机渠道,并统计各渠道的疑似恶意刷机情况。下图是疑似恶意刷机用户识别的业务处理流程:数据生成周期:可以按照月统计功能要求:计算疑似刷机数量、销售量、疑似刷机率,设定阀值判断,渠道刷机率在10%以上(实际阀值可通过前台界面进行设定)的即为疑似恶意刷机渠道,阀值在10%以下不判定为疑似恶意刷机渠道。任务管理 创建识别任务可手工创建恶意刷机识别任务,确定任务的开始时间、待识别的合约机批次、每一个阶段的识别周期等等。对于销售合约机数据一般为经分提供,也可以从渠道商那块以文件形式获得。这部分可以和经分协商或以接口形式提供数据,或者以文件形式提供。系统中需要这两种方式都有提供入口接收数据。恶意刷机跟踪识别分析对历史识别需要选取上网数据的时间段,这里可选择的时间受制于数据库中保存的上网日志清单来决定。系统中要设定上网日志清单数据的保存周期,保存周期的确定要考虑服务器压力、用户需要等各类要素来决定。历史跟踪分析还要注意的一点是,要分析的合约机批次应该在选择的上网日志时间段之前,保证在用户入网的前提下分析合约机的恶意刷机情况。在通过这种跟踪分析识别疑似恶意刷机用户时,需要先确定初次识别和二次甄别的周期。初次识别周期内通过对上网日志UA和IMEI对应终端品牌型号的解析分析,找出可能疑似恶意刷机的用户;在二次甄别周期内,通过分析UA解析出终端品牌型号变化情况,按照一定规则,剔除作为wifi热点的终端,最终确认该用户是否为疑似恶意刷机用户。任务执行的简单流程为:1、用户在未完成刷机界面中选择其中一个月的销售合约机数据后,会进入选择跟踪分析方式界面。2、这个界面中是需要选定上网清单数据的识别时间段。默认识别周期是15天,初步识别10天,二次甄别时间5天。3、在跟踪分析过程中,会展示分析开始的时间,到目前为止分析任务执行的时长,已经分析的上网日志条数和已经分析出来的疑似恶意刷机用户数。在历史跟踪分析识别的界面会展示上网日志数据的条数和数据周期的时间段信息。4、在历史跟踪分析过程处理完成后,会展示分析出的疑似恶意刷机用户数。可查看分析结果的可视化数据呈现。5、合约机数据通过实时跟踪分析完成后,会在界面上展示已经分析的上网日志条数,分析的合约机用户数和分析出疑似恶意刷机用户数,用户可以查看目前分析出来的疑似恶意刷机用户数的可视化数据呈现。在未识别的合约机数据窗口选择界面进行勾选,建立待识别任务。确定识别的日期任务执行情况监控监控当前任务的执行进度以及每一步的识别结果,包括:任务开始时间、当前处理阶段、已跟踪天数、识别进度以及每一次识别后的结果。任务跟踪界面:在任务跟踪界面查询所有有已创建识别任务列表。历史任务管理 支持查看、删除历史任务记录,内容包括:任务名称、合约机批次、合约机数量、执行时间、创建人、创建时间、任务状态、操作等。分析报表疑似恶意刷机分析报表,提供对各种维度、渠道的恶意刷机识别结果查询分析报表功能。系统使用者可根据所需维度对系统识别出来的恶意刷机结果分析进行查看、导出。从疑似恶意刷机报表分析功能进入,会呈现历史任务定制界面。未识别状态是当月导入的合约机计划未定制识别任务。有展开项的是已有的识别完任务,通过点击跟踪分析进行后续各种维度报表呈现。目前提供如下维度分析报表:各分公司疑似刷机用户占比分析疑似恶意刷机用户查询分析疑似恶意刷机渠道查询被刷合约机型号分析各分公司疑似刷机客户占比图:疑似恶意刷机用户查询:提供对疑似恶意刷机用户识别结果进行前台查询的功能。系统使用者可对系统识别出来的疑似恶意刷机用户进行查看、导出。用户详单查询界面:疑似恶意刷机渠道查询:提供对疑似恶意刷机渠道识别结果进行前台查询的功能。系统使用者可对系统识别出来的疑似恶意刷机渠道下的用户清单进行查看、导出。渠道详单查询界面:被刷合约机型号分析:提供对被刷合约机型号分析前台查询的功能。系统使用者可对系统识别出来的被刷合约机型进行查看、导出。系统帮助提供恶意刷机流程查询,可直观展示当前系统后台使用的恶意刷机流程。终端信息自动运维业务目标终端运维产品的目标是通过将终端信息纳入统一的运维平台,实现终端信息的及时更新、完善,以支撑网络分析、营销服务等业务需求。终端运维平台产品,主要是面向运营商业务支撑部门提供的基于规则识别和爬虫爬取的终端信息运维产品,旨在解决当前运营商普遍面临的终端信息库不全、终端信息不新、不准的现状难题。功能概述终端运维平台产品,主要是面向运营商业务支撑部门提供的基于规则识别和爬虫爬取的终端信息运维产品,旨在解决当前运营商普遍面临的终端信息库不全、终端信息不新、不准的现状难题,为用户提供一个完整、准确的终端信息库。终端信息自动运维的过程是:1)从流量数据中分析用户终端的IMEI号,通过解析获得该终端的TAC信息,对比已有的IMEI信息库,获取无法关联匹配的终端TAC码;2)从流量数据中分析用户访问网络时使用的Useragent/URL,通过一定的文本抽取规则结合UA/URL识别模板,获取这些无法识别的TAC码对应的用户终端厂家以及型号信息;3)根据识别的终端型号,利用网络爬取技术获取终端特征数据,识别终端的其他属性信息;4)将解析爬取到的库中没有的终端信息,作为一条新的终端信息记录,自动新增到终端信息库中。5)将终端信息库的终端信息与爬取的终端属性信息做对比,如果存在不一致,提示管理者存在更新信息,手工确认后更新至终端信息库。同时为了使终端解析更加准确,覆盖面更广。面不断变化的UA/URL,现有的解析规则并不完整需要进行不断的完善维护。记录操作人员在系统操作终端信息的日志,方便系统运维人员对系统数据流转的监控。业务流程功能详细描述终端信息自动识别终端自动识别从流量数据中分析出用户终端的IMEI号,通过解析获得该终端的TAC信息,对比已有的IMEI信息库,获取无法关联匹配的终端TAC码。终端型号自动识别首先从Useragent中按浏览器规则进行识别;其次从Useragent中按操作系统规则进行识别;再次从Useragent中按正则表达式规则进行识别;最后从URL中按规则模板进行识别;以上4步只要有一类能识别则不采用其后的规则识别。如果4类均无法识别出具体的终端品牌和型号信息,则由人工进行识别。如果人工也没法判断出该终端是何种品牌型号,则认为该终端为无法识别的终端。如果人工能够判断出何种品牌型号,则可由人工输入识别出品牌与型号。终端属性自动识别根据识别的终端型号,利用网络爬取技术从京东等电商处获取终端特征数据,识别终端的其他关键属性信息,例如制式、配置等等。终端库维护外部数据导入将集团公司下发的终端或者用户管理不上的终端按照统一的模板导入系统。在导入系统时对导入数据过程中的重复、错误信息给出提醒。终端识别入库管理终端运维平台将从UA/URL解析识别出来的终端品牌、型号以及从上网记录中获得的IMEI号进行合并组装成一条完整的终端信息记录。对于每条记录,提供一个对比校验,如果是错误和重复的信息则可进行忽略、修改和删除;对于新增识别的终端,手工确认后将入库保存。终端属性更新完善通过UA或者URL识别出的终端型号、品牌等信息后,终端的一些其他重要的扩展指标信息并没有相应的添加到终端信息库中,例如重量、长度等等基本信息。或者终端信息库中存在这些信息,但是不全或者不准确,需要进行核实修改的。这些信息需要通过爬虫从网站上去爬取,后通过对应关系更新到终端信息库中,以完善终端库信息。终端运维平台自动爬取识别终端属性信息后,保存到系统中,待人工确认后录入系统,同时,平台会保存每次的更新日志、爬取的记录和失败原因。终端基础信息维护终端基础信息管理对终端信息中各维表的维护包括厂商、品牌、操作系统、终端与价位区间等提供手工维护功能,用户可以进行新增、修改、删除、查询等。终端基础信息确认为了保证从网络爬取终端基础信息的一致性以及新增信息的及时性,平台提供对爬取的终端属性信息的整理确认功能,可手工新增或者关联到已有的基础信息。终端信息查询对于已经完成识别入库的终端信息,提供前台查询的功能。系统使用者可对终端信息库根据条件筛选进行查看、导出。为了方便客户更快、更便捷的定位到要查询的终端,可以通过“高级”按钮细化查询。客服专区客服KPI监控客服流程分析投诉分类、热点分析投诉舆情分析区域投诉分析网络智能分析重点区域保障分析业务目标基于常驻用户特征的区域保障分析功能以大数据平台的流量数据位置修正能力为基础,准确获取用户常驻区域,同时结合用户标签信息分析不同区域内的常驻用户特征,结合用户特征与业务使用特征指导客服、市场运营及网络工作的开展,促进网络、市场与客服的工作联动,保障区域内的用户感知。通过该功能的应用,将支撑业务人员完成以下工作:了解不同区域内的常驻用户特征及业务使用特征;了解不同用户群体的区域分布特征了解重点区域(如:高离网率区域、VIP用户常驻区域)的网络质量及业务质量现状明确重点区域网络保障策略(有限保障哪些区域、如何保障)业务流程首先,利用大数据平台的ETL关联分析能力修正流量数据中位置信息(LAC/CI)不准确的问题,准确获取用户发生业务的小区;其次,利用经过位置修正的Gn接口用户上网日志数据,结合用户标签(VIP用户、离网用户……)信息划分区域类型(VIP区域、高离网率区域……);第三,结合流量数据、经分数据、资源数据等多种数据源对区域内的网络及业务发展现状进行全面评估与,对区域内的问题及现状进行可视化分析;最后,结合区域内的用户及业务特征制定有针对性地保障策略,促进跨部门工作联动。功能概述流量数据位置修正通过MC口数据的位置信息,更新GN口数据的位置信息,提升流量数据位置的准确性。VIP用户常驻区域分析获取VIP用户标签,基于流量数据位置修正结果与用户轨迹分析模型定位VIP用户常驻区域,以GIS形式呈现高离网用户分析获取离网标签,基于流量数据位置修正结果与用户轨迹分析模型定位离网用户常驻区域,以GIS形式呈现业务质量分析统计VIP用户/离网用户常驻区域内的数据业务质量(如:DNS解析成功率、SP连接成功率、下载速率等),了解区域内的业务短板,支撑端到端业务优化网络质量分析统计VIP用户/离网用户常驻区域内的无线网络质量(如:无线利用率、拥塞率等),了解区域内的网络短板,支撑端到端业务优化业务占比分析统计VIP用户/离网用户常驻区域内,各类型业务及应用的流量占比现状终端占比分析统计VIP用户/离网用户常驻区域内,各类型终端及终端流量占比现状内容偏好分析统计VIP用户常驻区域内的业务内容偏好,支撑区域内的热点数字内容推荐营业厅分布分析根据营业厅的地理位置信息,与问题区域位置特征进行关联,分析出每个问题区域的营业厅分布情况。功能详细说明流量数据位置修正Gn接口DPI话单是流量经营相关应用功能的主要数据来源,在对流量特征进行透视分析时,需要从应用、区域、终端、用户等维度深入挖掘流量产生的各种特征,但由于Gn接口DPI话单中只能够记录用户PDP上线的位置信息(LAC-CI),在用户位置发生变化时无法准确记录,因此单纯地基于Gn接口DPI数据对流量产生的区域特征进行分析,分析结果会与实际情况存在较大偏差。因此,需要对流量数据中的位置信息进行修正,提高位置分析结果的准确性。流量数据位置修正的总体实现流程如下:从DPI话单(主要是通用话单和HTTP话单)中提取用户IMSI、用户号码、LAC、C、话单开始时间、结束时间等关键信息;在Mc接口位置更新、通话、短信、寻呼等话单中从提取对应时间范围内同一用户的话单信息,包括:IMSI、用户号码、LAC、CI、话单开始时间、结束时间;判断位置信息修正场景类型,即在DPI话单的开始时间到结束时间范围内,是否可以在Mc接口匹配到多个位置标识。若只匹配到1个位置标识则对应进入场景1、若匹配到多个位置标识则对应进入场景2;针对场景1,直接用Mc话单中的位置信息(LAC/CI)覆盖原有DPI话单中的位置信息,生成更新后的话单;针对场景2,首先修正用户话单的起始位置,然后根据用户多个位置变化的时间间隔修正业务使用过程中的位置信息,拆分并形成新的DPI话单。区域类型分析区域类型分析功能利用用户驻留模型对经过位置修正后的流量数据进行分析,实现以下目标:分析并呈现不同用户群体的GIS分布情况分析并呈现不同区域的常驻用户信息选中指定区域进行钻取,获取详细分析报告查询输入:用户输入分析时间、区域范围等查询条件,系统根据用户输入的条件返回小区的地理分布情况GIS呈现:将满足查询条件的小区在GIS地区上显示,呈现区域分布特征小区基本信息输出:鼠标点击、选中GIS上的小区,可呈现小区基础信息钻取:在GIS地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论