已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
移动通信数据仓库接口与ETL2设计论文 摘要:针对地市级移动通信的实际需求,数据集市的接口需要进行数据仓库接口设计和ETL2设计。数据仓库接口设计通过用户接口、业务量接口、帐务接口等设计来实现,ETL2设计通过抽取、FTP、清除和加载过程来实现。研究表明,该设计能够减少对数据仓库的影响和压力,并可以作为数据仓库扩展的重要补充。 关键词:移动通信;数据仓库;接口;ETL2; :TP303:ADOI:10.3969/j.issn.1003-6970.xx.12.050 0引言 在地市级移动通信数据集市的建设中,数据集市的接口设计主要通过数据仓库接口和ETL2设计来实现。数据仓库的接口由用户接口、业务量接口、帐务接口、新业务接口、大客户接口和竞争接口组成,并通过对相关表的设计具体实现。 1实验方法 在数据集市ETL的设计中,有两种思路:一是库到库的直接传输,不经过文件,直接从数据仓库的表中,把对应的记录插入到对应地市的数据集市的表中;二是从数据仓库生成各个地市文件,分别插入到对应地市数据集市的表中1。第一种方法,可以采用数据仓库工具来辅助完成;第二种方法,通过ETL过程来实现,生成各个地市文件,然后FTP到数据集市的服务器里,再进行加载,本文主要讨论第二种方法的设计。 2数据仓库接口 2.1用户接口设计 2.1.1月表设计(1)DMD_PRODUCT_EXTFAMILYNO_YYYYMM:本表定义GSM语音服务用户的亲情号码,最多允许定义5个亲情号码,对应于用户状态为当前有效的GSM语音用户;(2)DMD_PRODUCT_EXPIP_YYYYMM:为IP直通车用户绑定固定电话用户附属属性表;(3)DMD_PRODUCT_EXTFUNC_YYYYMM:为用户功能产品信息,包括用户的主服务;(4)DMD_PRODUCT_EXTFUNEXT_MS:为DWD层用户程控功能产品信息下周期生效表;(5)DMD_PRODUCT_EXTGPS_YYYYMM:本表定义每个用户使用GPS所对应的附属属性信息表;(6)DMD_PRODUCT_PROMOTION_YYYYMM:本表定义每个用户对应的促销信息,一个用户可以有多个促销;2.1.2日表设计(1)DMD_PRODUCT_YYYYMMDD:为用户资料的日全量表,只存放到本日为止在网的所有用户资料,每日全量抽取在网用户资料。(2)DM_PRODUCT_YYYYMMDD:为用户日宽表,包括到本日为止所有在网用户和本月初到本日为止的离网用户。(3)DWD_PRODUCT_EXTFUNC_YYYYMMDD:为用户程控功能产品信息日表,保存一日数据,每日全量抽取。 2.2业务量接口设计 (1)详单相关表:主要包括语音详单、漫入详单以及相对应的滞后详单。语音详单表(CDR_CALL_XX_YYYYMMDD),本表按照“日+地市”的分表原则在数据仓库中存放,同时开放到数据集市;滞后语音详单表(CDR_LATER_CALL_XX_YYYYMM),存放每日滞后的语音详单;漫入详单表(CDR_CALL_ROAMIN_YYYYMMDD),记录其它省用户漫入到本省的详单;(2)业务量级别相关数据表:主要包括两类数据表,一类是业务量明细表,主要记录用户业务量级的数据,例如用户的长途漫游等情况的明细数据,是一个用户一天存放多条记录的信息表,包括语音话单用户业务量日统计表(DM_CALL_XX_YYYYMMDD)和语音话单用户业务量月统计表(DM_CALL_XX_YYYYMM)。另一类是呼转明细表,主要记录详单分离出来的和呼转相关的明细数据信息,包括用户呼转日明细表(DM_PRODUCT_CALLFW_YYYYMMDD)和用户呼转月表(DM_PRODUCT_CALLFW_YYYYMM);(3)用户级业务量相关表:主要记录用户的业务量,一个用户一条记录,包含用户业务量日明细及累计表(DM_PRODUCT_CALL_YYYYMMDD)和用户业务量月明细表(DM_PRODUCT_CALL_YYYYMM); 2.3帐务接口设计 2.4新业务接口设计 (1)IP记帐卡业务:IP记帐卡业务详单表(DR_IP_XX),包括IP直通车业务,用来统计IP记账卡用户每日使用情况2。包括CDR_IP_YYYYMMDD、CDR_LATER_IP_YYYYMM、DM_NEWBUSI_IP_YYYYMMDD和DM_NEWBUSI_IP_YYYYMM。(2)智能网IP业务:包括CDR_PIP_YYYYMMDD、CDR_LATER_PIP_YYYYMM、DM_NEWBUSI_PIP_YYYYMMDD和DM_NEWBUSI_PIP_YYYYMM。(3)企业PBXVOIP业务,包括CDR_PBX_YYYYMMDD、CDR_LATER_PBX_YYYYMM、DM_NEWBUSI_PBX_YYYYMMDD和DM_NEWBUSI_PBX_YYYYMM。 2.5大客户接口设计 (1)DMD_VIP_CUST_DM_YYYYMM:大客户流水日表,保留当前月的大客户新增、流失和所有到目前为止的在网大客户。(2)DMD_VIP_INFO_YYYYMM:存放所有大客户卡信息,包括历史、在用、注销。(3)DMD_VIP_MANAGER_YYYYMM:记录大客户和客户经理的对应关系。 2.6竞争接口设计 3ETL2设计过程 ETL2通过抽取、FTP、清除和加载过程3,从数据仓库中抽取DMD明细数据和DM综合查询数据,生成分地市的数据文件,FTP到指定的服务器,然后装载入数据仓库中。对于详单文件,直接加载到数据集市中。 3.1抽取(Extract) (1)功能描述支持读取表名和地市代码配置文件功能;支持表名和地市代码参数传入功能,根据参数指定的表名和地市代码抽取数据;支持批量抽取,可根据配置文件一次分别抽取多个表、多个地市的数据;后台数据库支持oracle和db2;支持表名自动匹配功能,例如配置文件或参数,如果表名带yyyymmdd或yyyymm,程序将根据传入的帐务周期做自动替换;地市参数值为999或为空时,抽取目标表全表的数据。(2)程序设计抽取oracle数据库设计4。改造现有的e_extract程序,并包装为extract_mart.tcl,抽取oracle数据时,调用e_extract程序。目前的e_extract抽取程序不支持分地市抽取,需要对现在的程序改造和包装以支持分地市抽取机制,并根据不同的地市生成不同的地市目标文件。调用方式如下:其中-ityid参数是传入的地市代码信息,-oconfig_file参数是指抽取表的配置信息文件,文件内容为抽取数据的sql语句。调用e_extract命令抽取生成的文件命名为table_name.cityid.yyyymmdd.mmddhh,与以前添加了cityid信息和程序的-c参数一致。抽取db2数据时,有两种方法支持5。一是直接调用db2的抽取工具export,生成的数据文件命名为table_name.cityid.yyyymmdd.mmddhh。二是调用db2版本的extract程序,同时抽取生成多个地市文件。其设计思路和调用方法与oracle类似。(3)抽取方法批量抽取多个表、多个地市的数据配置环境变量:MART_DATADIR为生成的数据文件的存放目录,MART_TRACEDIR为日志文件目录配置参数文件,缺省为data_mart.cfg文件格式:settable_nocitylistuser_rightuser_usersettable_listsetcity_list9990其中:city_list是需要抽取数据的地市代码列表table_list是需要抽取数据的表名列表,如果表是按照账务周期分表,如dw_call_detail_xx01,则在配置文件中表名配置为dw_call_detail_YYYYMMtable_nocitylist:是没有city_id字段的表调用程序extract_mart.tcl抽取数据extract_mart.tcl-dconnstring-top_time-ptimestampffile_name-uddh-vrwh如果不指定-ffile_name参数,直接读取data_mart.cfg3.2FTP与清除(1)功能描述用于在两个服务器之间的文件传输功能,对抽取出的文件,直接传给目的服务器。定期FTP源目录下的所有文件到指定机器上的目的路径下6-7。FTP前根据配置文件检查数据文件是否完整(文件是否存在、文件大小是否不为零),对缺失的文件或不完整的文件,记录错误日志。FTP完成后,记录FTP成功日志和错误日志。根据FTP成功情况,删除源目录下的文件。(2)流程设计FTP与清除流程如图1所示。(3)程序设计指定源路径和目的路径,文件传输;传输文件前检查文件个数和大小,大小=0不传输,并记录日志;删除FTP成功的文件。 3.3加载(e_load) 数据从数据仓库抽取成文件传送到目标服务器后,需要分别自动加载到数据集市的不同表中。数据集市的加载使用开发的ETL产品“e_load_ctl,”它支持Oracle8i、Oracle9i、DB27.2EEE、db28等,可以运行在UNIX操作系统下,兼容IBMAIX、SUNSolaris、HP-UX等系统。在经过完整的ETL2过程后,数据集市的数据仓库就建好了,接下来就是在数据仓库中做数据挖掘、数据分析的过程8。 4结语 地市级移动通信数据集市的接口设计是一个复杂的过程,本设计通过数据仓库的接口和ETL2设计,初步完成了数据集市系统的接口设计。其优势体现为:第一,对数据集市各地市详单的加载,采用特殊处理,从清理完的详单文件进行分地市拆分后直接入库,这样减少了对数据仓库的影响和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024SCCM指南:成人重症监护超声检查(更新版)
- 2025云南红药胶囊治疗眼底出血临床应用专家共识解读课件
- 2026年移动IP游戏行业分析报告及未来发展趋势报告
- 2026年电工电气产品代理加盟行业分析报告及未来发展趋势报告
- 2026年熔断保险丝行业分析报告及未来发展趋势报告
- 2026年春北师大版五年级数学《用方程解决问题》教案
- 2026年生物基聚氨酯行业分析报告及未来发展趋势报告
- 2026年锡粉行业分析报告及未来发展趋势报告
- 2026年情趣文胸行业分析报告及未来发展趋势报告
- 2026年电厂电气安全考试题库及答案解析
- 2026年广东广州市中考模拟考试化学试卷(含答案)
- 侍茄师(雪茄服务师)初级测试题
- 2026内蒙古通辽市科尔沁左翼后旗招聘政府专职消防员29人备考题库及答案详解【有一套】
- 初中地理教师教学能力提升培训
- 知行合一 - 社会实践•创新创业智慧树知到答案2024年江西师范大学
- 医院检验科实验室生物安全程序文件SOP
- 《罗茨鼓风机》课件
- 学前课程与幸福童年
- 化工安全设计
- 瓦特改良蒸汽机课件
- 《大学生军事理论教程》第三章
评论
0/150
提交评论