大数据下MR和信令数据的联合分析方法_第1页
大数据下MR和信令数据的联合分析方法_第2页
大数据下MR和信令数据的联合分析方法_第3页
大数据下MR和信令数据的联合分析方法_第4页
大数据下MR和信令数据的联合分析方法_第5页
已阅读5页,还剩1页未读 继续免费阅读

大数据下MR和信令数据的联合分析方法.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电信技求 d o i :1 03 c 6 9 ,洳s n1 0 0 0 1 2 4 72 0 1 50 90 0 5 大数据下m r 禾口信令数据的联合分析方法 钱榘 中国移动通信集团上海有限公司 日引言 随着t d l t e 网络的大规模建设,网络结构日趋复杂, 网络用户投诉原因呈现复杂化。如何能让网络分析更深入、 更贴合用户实际行为呢? 在l t e 网络里,通过关键的采集平 台的建设,新增了海量规模的数据源,其中可以用于分析 用户感知和网络性能的两个比较重要的数据源就是m r 和信 令。m r 数据的量级为一天几个t b ,信令的原始数据的量级 则为几十个t b ,如此巨大的数据,如何

2、进行深入的用户级 分析呢? 伴随着通信网络的发展,i t 也在快速发展和进步, 如c p u 已经从单核到十数核等,让很多之前看似不可能的大 数据分析变成了可能。 目m r 数据说明 m r ( 测量报告) 在t d l t e 系统中,输出包括了三部 分:m r s 、m r e 和m r o 。其中,m r e 是事件性的测量统 计;m r o m r s 数据是基于周期性的测量统计,其中m r s 是对m r o 进行的小区级平均统计,m r o 则是每个用户每 个周期性测量事件的原始统计,用于定位的是m r o 文件。 m r o 的x m l 文件样式如图1 所示。 基于m r 进行

3、栅格分析的关键就是m r o 的定位算法, 该算法结合神经网络算法和三角定位技术,特点是灵活和快 速,不需要特别复杂的建模过程,适合于并行计算,可以更 快速的实现定位。 使用s 1 接口信令进行分析。l t e 协议栈和接口如图2 所示。 利用建成的l t e 全信令数据采集共享平台,实现了跨 厂商的用户级信令统计,通过多接口关联和计算,可以得到 用户级信令的统计。目前,该平台采集数据以s 1 接口数据为 主。信令详单是用于和m r 进行关联的主要信令数据。其网 络拓扑结构如图3 所示。 口m r 和信令数据的联合分析方法说明 m r 数据可以用于定位计算,而信令数据包括了详细的 用户事件等重

4、要信息,将m r 数据和信令数据关联起来,就 可以把数据的查看视角进一步放大,从小区扩展到具体的地 理位置上。 4 1m r 和信令关联的描述 m r 和信令关联主要是利用时间和s 1 a p i d 信息,一个 正常的用户呼叫过程中,其m m e u e s l a p i d 是保持不变的, 且m r 数据和信令数据都包含了这个值。这样,通过这个数 据列在指定的时间段上,如1 h ,就可以实现m r 和信令的关 联。同时,和信令数据里用户信息关联后,就能知道m r 数 据的用户归属,这样,信令里的用户通过匹配就能知道信令 发生时的地理位置信息和场强等统计信息。定位的具体流程 如图4 所示。

5、 4 2m r 和信令关联的i t 方法 目信令数据说明可以看出,m r 和信令关联的逻辑并不复杂,难点在于 l t e 信令数据有较多的数据接口,常用的包括s 1 ( s 1 一两个表都是大数据表,需要种方法能高效的进行关联计 m m e 、s 卜u ) ,u u ,x 2 ,s 1 1 ,s 6 a 等,本次分析数据主要算。例如,m r 的数据是1 0 0 2 0 0 g b h ,控制面信令流程 w w w t t m c o m c n2 9 万方数据 曰e 丑态麴握研窒皇廛旦 ,脚 lv e r 3 1 0 b = 。i 0 。e n c o d l n 9 2 。u t f 一8

6、, b u l k n 此d c & f 1 1 t f i l e e e a d e rf i l e f o 珊讹r 5 1 = 。v 1 0 r e p o r t t n 睫! :。2 0 i 5 0 5 一二9 t 1 2 :3 0 :0 0 0 0 0 。5 t r c t i _ 幢;。2 0 二s 一0 s 一二9 t :2 :二s :0 0 0 0 0 e n d z i 耻= 。2 0 :s e a j u r e 正e n c ) 豫l c t s c r s r p 酿l c e s c r s r q 腿l c e s c t a d v 腿l c e s c d

7、髓瞳i t 时i _ e d i f f 腿z c e s c 腿豫i - t e sc 】m 豫l t e s c s i n r u l 豫l c e s c e 4 r 梆 92 103 2oo1 13 8 3 5 02 2 534383s02 2 6h i ln i l 肛l 辩i lh i l 肆i ln z l81 7n i l2 0 3 0oo v 9 2 1o3 2oo1 l3 e 3 s o2 2 s3 4i3 e 3 s 02 2 耵lh i li l 耵l 舡l 珂l ll 旺l8i 7h i l2 0 3 00o v v 9 2 io3 20o1 l3 8 3 5 02

8、 2 52 5o3 8 3 5 04 肆i l 酊ln 工ln i lh i l 冀l ln i l8 i ,n r l2 0 3 000 ,o b ,e c c v o 2 4o3 io01 13 e 3 5 02 2 s2 6 i q3 e 3 s 02 2 7n 工ln i ln i ln i lh i ln i ln i l62 2n i l2 6 2 t00 ,v ,o b j e c t ( o b j e c t1 d t 。2 6 0 0 9 6 1 2 。u e s i a p i d ;。1 7 1 9 6 s 8 i 砖h 6 r o u p i d 一。6 0 e 。均

9、- e c o d e 。6 8 。t i 量e s c 斛_ p 一2 0 1 s o s 一:9 t 1 2 :1 :s e s 3 ) 5 1 二803 10o1 13 e 3 5 0 :2 se i i 23 8 3 s o2 2 6 葛1 lh i ln i l 毗l 爵i ln 1 ln 1 l33n i l2 52 soo v s 11 8o3 i0oi 13 8 3 s 02 2 54 063 8 3 s o4 s 8h i lh z l 耵ln r ln 1 ln z ln z l33n i l2 s 2 50oc ,v t s 二二e03 1ooi 13 e 3 5 02

10、2 53 933 8 3 5 0 :s 5h i ln z ln i l 耳z ln 1 ln z ln i l33n i l2 s 2 s0 0 ( ,曲j e c t p r o b ls c a c k s 图1m r o 的m l 文件样式 几洲p i a 舱 、 g t p ug t p ug t p ug t p u p d c pp d c p u d pu d pu d pu d p r l cr l cl pi pi pi p m a cm a cl 2 l 2l 2l 2 p h yp h yl 1 l 1l 1l 1 l e u ee u ue 岫bs 18 g we n

11、 0 d e b) ( 2e d e b j p i a n e 、 n a sn a s r r cr r c s 1 一a ps 1 一a px 2 一a p2 一a p p d c pp d c p 9 t ps c 巾s c t ps c r p r l cr l ci pl pl pi p m a cm a cl 2l 2l 2l 2 p h yp h yl 1l 1l 1l 1 e u ee u ue n 0 d e bs 1s c 孙 ,e n o d e b2e n o d e b 、, 圈2l t e 协议栈和接口 数据也是这个量级,这对传统的实现方法提出了挑战。 对于这个问

12、题的研究分为三个部分:首先,对i t 本身进 行调研;接下来是对数据本身进行调研;最后是对应用和实 践的调研探索,包括了易用性和扩展性。 技术上看,h a d o o p 具有很好的水平扩展性和良好的性 能,本质是m a p r e d u c e 方式,对海量数据的分布式处理、清 洗、计算和储存,面向数干台服务器组成的集群进行p b 级的 数据处理。m a p r e d u c e 的流程如图5 所示。 可以看到m a p r e d u c e 强调的是对海量数据的数据萃取过 程,通过m a p 过程生成数据的键值对( k e y v a l u e ) ,通过 r e d u c e

13、过程对中间数据进行统计。 3 0 t e le c o m m u n l c a l l c i 卜i s t e c h n o lo g y 2 0 159 在m r 和信令的分析中,业务面的统计中使用这种方式 有一定的价值,通过m a p r e d u c e 计算,可以高速并行计算得 到用户业务类型的统计。但对于定位计算和大数据关联来 说,这种方式没有显著优势,原因有以下几点。 ( 1 ) 定位计算,完成后的数据增加了经纬度信息,相当 于保持了原有维度并增加了数据,这和m a p r e d u c e 的并行模 式不一致。 ( 2 ) m r 和信令的关联中,有可能会出现一对多匹

14、配和模 糊匹配,此时,m a p 过程就显得能力不足了,不可能在一个 大数据源的m a p 过程中进行另一个数据源的匹配。 ( 3 ) 匹配是在最细粒度上完成的,这不是一个容易拆解 万方数据 电信技求 d o m a m n a m e s y s l e m s g s n ( p r er 8 ) 图3 网络拓扑结构 e l r 图4m r 定位的具体流程 m m e s g w w w w t t mc o mc n3 1 万方数据 目e 固态麴握盟窒皇廛旦 的过程,并行的m a p 处理在此时意义不大。 另外,大数据关联的核心在于独立数据的最细粒度匹 配,这正是传统的关系型数据库的优势

15、;m r 定位计算其实 是一个独立的库外过程,其强调的只是并行,和存储以及 r e d u c e 的实现并无太大关系。 针对现网的海量数据,采用关系型数据库进行了许多实 验,主要是千万级以上数据量的大表聚合和关联,发现通过 合理的表分区和索引优化等数据库技巧,完全可以在分钟级 水平上实现大表计算操作。当然,这种实现方式也有一定的 局限性,就是传统的关系型数据库水平扩展能力比较差,当 数据量继续增加时会伴随着结构调整。尽管关系型数据库也 有一些弊端,但还是有不可取代的优势,后续还是应当以传 统的关系型数据库为主构建m r 和信令的大数据分析应用。 接下来是对数据本身进行了调研,m r 数据和信

16、令数据 的关联需要在最细粒度上进行,且数据的生成时间不同步, 在处理关联数据的时候是异步的方式,此时,并行执行和数 图5m a p r e d u c e 流程 - 呙 呙 品 南 p 西 瓷禺 椤名 声7 禺 呙 呙 。呙 南 弓。品 品 南 i 品”亨砭品南,两一一 曲 。入雨卫的 曲 一一 。x。品 一呙 曲 的 求 七 南 品 由元 书 马 呙区枭簟 虽 可立 雨 禺呙的晶 南 国 c 品 k p l s h o wb va ,g c q i 二 口1 0 1 5 ( 2 0 3 7 ) 一 口7 1 0 ( 2 9 6 2 ) 0 7 ( 5 1 】 匆审 八哥。尸a | | 帆怜(

17、 0 禺 增i j 落 知 呙 谗书 呙 里品赢9 禺 图6 传统的小区级渲染 3 2t 日e c o m m u n i c a t i o n s t e c h n o l o g 、,2 0 159 禺 品 陶 品 品 品 品矿 渺 呙 品 昌 万方数据 电佑技求 据分区是减少计算量的重要技术。对于定位来说,需要采集 的是信令面的最细粒度的表,全网l t e 基站的数据量可以控 制在1 0 2 0 g b h 。由于数据服务器的i o 接口读写能力现在 基本是1 0 0 一2 0 0 m b s 。通过r a i d 技术,可以提高到2 0 0 4 0 0 m b s ,考虑到读写效率

18、和复用。对1 h 的数据匹配进行测 试,可以在1 0 2 0 1 1 1 i n 内完成。 大数据中的一个关键问题就是数据实时陛,这也是数据 健壮性的一个重要内容。为了实现数据的高实时性,目前采 用数据多线程并行处理方式。j a v a 程序具有良好的多线程开 发能力,易于开发,目前底层数据采集采用t a v a 开发。数据 库方面,由于网优工作使用数据也是多维度的组合,因此对 于一般的应用,采用关系型数据库更适合,而对于海量数据 单表的存储和计算则可以考虑m o n g o d b 、h a d o o p 等方式。 囝具体应用 通过m r 定位和数据关联,可以在两方面实现对上层应 用的支撑

19、。面向网络进行精细化分析,面向质差用户和投诉 用户进行用户级数据分析。下面举两个应用方向上的例子, 后续会围绕关联结果进一步扩展应用方向。 ( 1 ) 弱覆盖的区域分析 传统的弱覆盖分析是基于小区级的k p i 统计,在l t e 网络里小区级的弱覆盖指标很少,下行r s r p 等都没有 c o u n t e r ,只有c q i 和上行的一些指标统计。在m r 数据具 备后,很多应用平台也只是进行了小区级的m rk p i 统计, 包括r s r p 、r s r q 等。而利用构建的大数据m r 和信令平 台,实现了弱覆盖的栅格化统计。 传统的小区级渲染呈现如图6 所示。l t e 平

20、均r s r p 的栅 格化渲染展现如图7 所示。 鲷幅目 橱艳栅n : 1 显示方式:陌石函- 订澶挚 图7 栅格化的覆盖呈现 可以看到现在的呈现粒度覆盖整个区域,红色代表覆盖 较弱( 一1 0 5 d b m 以下) ,让优化人员对网络形成一个快速地 了解,对弱覆盖的区域有了精确识别。 ( 2 ) 信令事件的区域分析 以上是单纯的m r 统计,更进一步的,可以把m r 和信令 关联的结果也在地图上呈现,这样对业务掉线和业务态重定向 ( 般是由于帕弱覆盖导致) 可以进行精确定位,如图8 昕示。 ( c ) 掉线次数的栅格呈现 图8 事件呈现效果 w w wt t mc o mc n3 3 万

21、方数据 臣e 习大数堡盟窒皇应旦 i _ 、 : : ; ! 也三! j 二二i 二i i _ i i l ji - l l l 。上上j j 一、l l j 1 j j 一j _ j 1 _ j j 。一;l 。上上j j 一、l l j 1 j j 一j _ j j l _ j j 。一 图9m r 网络性能统计 囝落地成果 通过前期的实验,已经掌握了大数据下的m r 和信令关 联分析方法,目前已经将m r 定位算法和大数据关联部署在 试点工具中。并按照一个网络、6 个维度进行面向规划、优 化和市场的界面呈现,方便使用,以下构建的是基于w e b 的 应用程序。 在应用程序中,把定位信息和

22、关联后的信令、场强、掉 线、回落事件等都展示在了w e bg i s 中,并构建了各种统计 报表。如图9 所示。 后续,会在这个试点工具平台架构的基础上扩展更多的 应用以支撑网优和维护工作。 日目西墨 社,2 0 1 1 2 m a r 伽th ,h o w a r d b d ,m a r khb 神经网络设计 m 】北京:机 械工业出版杜,2 0 0 2 5 a n a n dr ,j e 什r e ydu 大数据一互联网大规模数据挖掘与分布 式处理【m 】北京:人民邮电出版社,2 0 1 2 4 s t e f a n i as e s i a l t e u m t s 长期演进理论与实践 m 北京:人民 邮电出版杜,2 0 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论