大数据运营平台技术方案(纯方案137页)_第1页
大数据运营平台技术方案(纯方案137页)_第2页
大数据运营平台技术方案(纯方案137页)_第3页
大数据运营平台技术方案(纯方案137页)_第4页
大数据运营平台技术方案(纯方案137页)_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据运营平台科技工程技术建议书1. 6其他要求(1)买方在任何时候保存和拥有对本文件的解释权和修改权。买方有权在签 定合同前,根据需要修改和补充本技术规范书,修改补充后的最终技术规范书将 作为合同的附件。答复:满足。(2)投标方除以下情况外,非经中国电信股份浙江分公司书面许可, 不得将本文件的任何内容透露给除中国电信股份浙江分公司以外的第 三方。经中国电信股份浙江分公司书面许可,应标商才允许将本文(限 于必要局部)透露给其合作伙伴,并保证其合作伙伴不将本文透露给其它人。未 经书面许可将本文件透露给第三方的应标商,将被剥夺中标资格。答复:满足。(3)在技术谈判的各个阶段,买方将要求投标方对有关

2、问题进行进一步的技 术澄清,投标方应给予应答。答复:满足。2工程概述工程背景随着移动互联网、云计算、物联网技术和业务的开展,数据呈爆炸性增长, 全球进入数据ZB时代,2010年全球数据量到达1.2 ZB, 2011年全球数据量达 到1.8 ZB,到2020年,将到达35 ZB。电信运营商与互联网公司等产业上下游 企业激烈竞合,产业格局正在重塑,传统电信运营商面临低值化、管道化,在新 的产业链中需要谋求新突破。为了应对移动互联网时代的挑战,中国电信正在向 “智能管道的主导者、综合平台的提供者、内容和应用的参与者”的新三者战略 转型。.同步标签模块采用Storm组件实时处理宽带DPI数据流,为宽带

3、DPI数据 流打上标签。.实时入库模块采用Storm组件将宽带DPI数据流以文件形式写入云平台 HDFS,后续可以对宽带DPI文件进行离线标签处理。宽带DPI数据清洗宽带DPI数据清洗主要是针对两类流量进行清洗: 一类是非浏览器发起的 请求;另一类是浏览器发起的非用户点击请求;最终清洗后留下的url为用户的真实点击;宽带DPI数据清洗规那么要求如下:可以实现“用户有效点击”的 Get的实时提取。(此处“用户有效点 击”的定义为:用户在浏览器输入的有效网址,点击浏览器书签,用户在网页 中发起的任意主动点击行为)。通过清洗规那么的设定,实现“用户有效点击”的 Get的实时提取。规那么库1:根据后缀

4、过滤图片、脚本等 针对单条url的规那么。对应现象:图片、脚本等页面元素。规那么描述:一般非页面资源的文件后缀名有一定规那么可循,后缀满足匹 配指定字串,那么被识别为非页面请求而被过滤去除。特征字符串可配置添加,例如如下:redis-cli sadd blockedurlpa t terns2.JS? jpg jpeg . png . gif . css . swf规那么库2:过滤带有指定特征字符串的url针对单条url的规那么。对应现象:广告、框架、广告联盟。规那么描述:一般广告、图片服务或框架页面会带有固定的特征字串,选 择可靠的字串可以排除大量的非页面请求URLo如下规那么可配置添加:r

5、edis-cli sadd blockedurlpa t ternsal lyes. comjcpro. bai du. comcache, google. comadmaster. com. cniframecjhq. baidu. com/quotenew规那么库3:过滤重复包针对多条URL请求的规那么对应现象:一个缓冲区域长度内的重复包。规那么描述:在缓冲内判断是否有重复请求出现,如有那么只提取第一个规那么库4:识别非页面类型请求(包含Js发出的请求)针对单条URL的规那么对应现象:浏览器与Js脚本发出非页面类型的请求。规那么描述:浏览器与Js脚本发出的非页面类型请求有一定特征,其中主

6、要是Accept字段值,一般非页面的请求,如图片请求那么会包含“image/ 字串,这类请求一般不属于页面类型。当 Accept 字段值中不包含“text/html或 application/xhtml+xmlv 子串并不能识别该请求是不是页面请求,因此而保存下来。规那么库5:保存白名单中的请求针对单条URL的规那么对应现象:有些URL的特征设定为白名单项规那么描述:设置白名单直接放行已明确需要的URL请求,这样就不会浪 费实时计算资源而做进一步判断,提高了系统的吞吐量。白名单可以配置,例如如下:redis-cli sadd allowedurlpa t terns : baidu. com/

7、s?” Jttp :cn. bing. com/search?” littp:ww w. google, com. hk/search?4. 2. 2 3G DPI数据采集清洗系统通过FTP方式采集3G DPI文件,3G DPI数据采集清洗网络架构如下:外部环境I3G DPI设备3G DPI数据采集清洗软件3G DPI接口服务器千兆千兆交换机超髭3G DPI接口服务器千兆千兆Hadoop大数据平台3G DPI文件清洗流程如下:将3G DPI文件的zip压缩格式转成gz压缩格式。对3G DPI文件进行数据清洗,包括加协议号,过滤重复的记录,文件加宓 LU O输出正常文件和重单文件写入HDFS。2

8、. 3 AAA数据采集清洗城域网中获取到 GET报文数据中用户标识是IP地址,由于每次用户登 录拨号IP地址均可能不同,在进行用户分析时用户的标识应该为AD帐号。需要 获取Radius数据,将用户上网拨号AAA过程中IP和AD信息的导入,匹配用户 上网行为记录中的IP地址和AD账号的数据原始信息,完成用户上网记录身份的 辨识。实现独立运行的AAA radius解报文模块,实时提取AAA报文中的Attribute Value Pairs 中的对应报文段,将其 User-Name Framed-IP-Address Acct-Status-Type并组合当前的系统时间戳形成一条完整的用户身份配对的

9、拨 号上下线状态数据的记录,用于与伪CDR数据进行匹配。2. 4 0IDD数据采集清洗系统通过FTP方式采集OIDD文件。OIDD数据采集清洗网络架构如下:外部环境OIDD数据采集清洗软件OIDD文件通过分布式ETL工具Kettle写入HDFSO OIDD数据接口1) OIDD数据表一:sada_ticket,表结构如下:hive desc formatted sada_ticket;OK# col name# col namedata_typecommentstringNone(用户号码)stringNone(开始时间)stringNone(基站)stringNone(上电标记)string

10、None(用户号码)stringNone(开始时间)stringNone(基站)stringNone(上电标记)prod_inst_numstart_time base_station power_flag# Partition# PartitionInformation# col name# col namedata_typecommentdatelabelstringNoneloadstampstringNone# DetailedTable InformationDatabase:oidd2) OIDD数据表二:sada oidd day,表结构如下:2) OIDD数据表二:sada o

11、idd day,表结构如下:hive desc formatted sada_oidd_day;# col_namedata_typecommentprod_inst_numstringNone(用户号码)start_timestringNone(开始口寸间)base_stationstringNone(基站)sectorstringNone(扇区)power_flagstringNone(上电标记)# PartitionInformation# col_namedata_typecommentdatelabelstringNoneloadstampstringNoneOK# Detailed

12、 Table InformationDatabase:oidd4. 2. 5 ODS数据采集清洗系统通过FTP方式采集ODS文件,ODS数据采集清洗网络架构如下:外部环境ODS数据采集清洗软件IODS设备千兆ODS接口服务器千兆交换机千兆ODS接口服务器千兆Hadoop大数据平台ODS文件通过分布式ETL工具Kettle写入HDFS ODS数据接口ODS 数据表:rpt_telecom_user_info,表结构如下:hive desc formatted rpt_telecom_user_info; OK# col namedata_typecommentwb_ispacnt numstri

13、ngNone(帐号加密)user_agestringNone(用户年龄)user_sexstringNone(用户性别)user_typestringNone(用户类型)user_areastringNone(用户所属区域)desccoststringNone(费用范围描述)wb_access_tpstringNone(宽带访问类型)act_op_ratestringNone(活跃操作频度)prom_groupstringNone(套餐类型)guangwangflagstringNone(是否光钎标记)a_connect_collegestringNone0agrmnt_const_exp_d

14、tstringNone(协议有效日期)balancestringNone(余额)pi_sub_stat_tpstringNone(是否在用)update_statusstringNone(更新状态)lst_update_tmpstringNone(最后更新日期)latstringNone(纬度)IngstringNone(经度)# Partition# col nameInformation data_typecommentdatelabelstringNone# Detailed Table InformationDatabase:ods4. 2. 6数据脱敏数据脱敏也被称为数据混淆、数据保

15、密、数据消毒、数据扰频、数据匿名 化和数据认证。采用数据脱敏技术,可以帮助大数据平台提高平安性和保密等 级,以防止其数据被滥用,同时满足集团对数据平安性的规范要求,以及由管 理/审计机关所要求的隐私标准。从实现手段上看,针对不同的数据内容,会有多种数据脱敏方式。在Hadoop平台上,利用采集清洗及流处理的功能,可以实现对各个字段,针对性的脱敏 处理,并且保证在数据进入hadoop之前已经是脱敏之后的数据。另外针对AD的脱敏尤为关键,AD是唯一能将DPI数据关联到ODS客户数 据的字段,我们对所有进入大数据平台的AD都统一采用sha-1的加密方式,转换成只有大数据平台能够认识的客户唯一标示。需要

16、进行脱敏处理的信息如下:需脱敏字段描述脱敏前脱敏后Ad宽带设备号实际adsha加密结果(该算法不可反解)user_age用户年龄实际年龄年龄段信息,如5年一段,取起始 数值显示,如25表示25-29address用户地址实际地址,精确到户小区、楼盘或商圈信息,如武林商圈lat&lng位置经纬度实际经纬度精确到0.001,约1000平方米,注:lng*lat = 0. 001*0. 001 (度)=约 95. 18 米*111. 32 米username用户姓名实际姓名仅保存用户姓氏desc_cost用户消费情况实际消费金额每150元一档:0 (表示0T49),150, 3004. 2.7数据加

17、密大数据平台以HDFS为基础,利用HDFS驱动提供的Format功能,实现 hadoop云平台系统级、业务级数据加密。HDFS数据加密原理图如下:数据加密不修改HDFS内核,不影响将来HDFS的升级维护。数据加密后,保证HDFS数据透明访问,同时支持SQL查询服务。2. 8数据ETL处理平台采用ETL工具实现高速ETL处理,处理效率强。功能包括:ETL作业GUI设计器的功能。ETL作业自动调度器的功能。ETL作业多路并发提取的功能。ETL作业多路并发转换的功能。ETL作业多路并发加载的功能。ETL作业管理功能。ETL作业日志管理功能。2. 9作业智能排队调度.作业灵活调度系统可以制定作业调度计

18、划进行作业调度。对于临时出现的需要紧急运行的作业,可以灵活调整作业调度计划保证紧急 任务优先执行。.资源智能调整系统保证每个作业都能获得相应的系统资源,同时对于临时出现的需要紧急 运行的作业,可以灵活调整资源配置保证紧急任务优先执行。当一个队列空闲,其系统资源可以被其他队列抢占使用。一旦空闲队列有作 业提交时,会返回该队列的系统资源,直到满足该队列最低配置,甚至抢占其他 队列资源。系统可以动态增加队列,并且新提交的队列会慢慢满足最低资源配置,甚至抢占其他队列资源。4.3外部服务能力子平台4. 3.1标签查询服务分布式K-V数据库采用分布式K-V数据库,主要用于存放标签结果数据,并支持以下基础功

19、能:.数据查询接口以API的方式提供通用的根据key查询value的高速查询接口。.数据加载支持数据直接以文件或者分布式文件系统批量导入的方式,并提供导入的 API 接口。另外除了数据追加的方式,还需要支持数据的删除或修改功能。.分布式模式数据存储采用类似HDFS的分布式存储模型,另外计算资源也需要采用分布 式集群调用的方式以此来保证数据的可靠性和系统的可扩展性。.统一的元数据管理对元数据进行统一的存储和管理。并提供访问API供业务管理平台调用。.系统管理提供集群监控、服务管理、日志管理、监控报警等一整套系统管理功能。高并发查询服务该模块基于nginx+Apache MINA的框架开发。其中n

20、ginx提供高并发的对外 服务,而Apache MINA是一个高性能和高可用性的网络应用框架。可以完成以下 功能:.基于token的用户平安认证根据集团大数据业务规划,大数据运营以“一点管控、集约运营”为原那么, 通过大数据的挖掘分析,一方面可形成对内数据运营,为精确管理和精确营销提 供服务,另一方面可形成对外数据运营,直接向外部合作伙伴提供大数据服务, 进一步挖掘数据资产的商业价值,探索基于大数据的新型应用与商业模式,实现 企业数据价值变现答复:满足。2.2工程目标构建大数据运营平台,实现数据价值变现:平台可支撑向行业用户、外部合 作伙伴提供数据出售、数据咨询、数据能力和数据解决方案等四种业

21、务形态的数 据服务。通过对外合作的模式,可融合合作伙伴的数据内容,根据合作伙伴和客 户的需求,将电信的数据资产进行包装,向合作伙伴提供数据服务。答复:满足。3总体技术要求1总体要求1)投标人提供完整、最新而成熟的系统软硬件等技术和产品。其各项技术 应保证具有开放性、可移植性、兼容性和可扩展性。答复:满足。2)投标人提供的应用软件应该提供开放的应用接口,可以方便的于其他厂 家应用系统进行软件平台互连,便于系统未来的扩展。答复:满足。3)如果投标人目前难以到达买方所提出的技术要求,买方要求通过商务条 件使投标人承诺进行产品的技术升级。答复:满足。采用基于Token (令牌)的用户身份验证机制,使用

22、户在访问受保护的服 务资源时仅需提供Token,而不需要提供用户名和密码。Token是包含用户名、 有效期和某些专有信息并通过共享密钥加密的信息字符串。对于通过Web Application访问查询服务的用户来说,这种认证方式可以有 效防止服务器的用户账户泄露。对于已经授权访问服务的用户,获取和使用Token的总体流程:1)用户凭借自身的账户向电信申请和获取Token02)携带已获取的Token查询有权限的数据标签Token的生成除了需要获取Token时用户输入的信息外,还需要服务器端指 定的加密密钥。系统管理员可以对生成Token的加密密钥进行配置。2.用户访问权限控制基于K-V数据库的元数

23、据管理,增加用户对元数据的权限信息,查询访问的 时候首先进行用户识别,然后根据用户的元数据权限信息进行访问控制。3.高并发低延时的查询接口采用web服务的方式封装K-V数据库的高速查询接口,并提供短连接和长连 接两种方式。需要支持对K-V数据库的接口分发功能。4.查询缓存服务对一些访问热度较高的数据或表通过缓存的方式提高查询响应效率,并减少 Flash卡访问频率,增加寿命。3. 2 DSP厂商程序接入系统允许每个厂商程序导入独立的Cacheo系统支持多个厂商程序算法模型 加载和数据访问。系统支持多租户作业的统一任务调度。用户提交业务应用作业 申请,云平台统一封装各业务应用作业。如果用户网络时延

24、较大,可以有以下两种方式实现实时数据查询:1)将K/V内存数据库安装于用户端。2)系统进行数据分发。3. 3厂商作业性能优化SQL语句优化系统支持SQL语句优化,可以解决数据倾斜的问题。系统提供MapReduce定制服务,当SQL语句效率不高时,可以将SQL语句转 化成高效的MapReduce作业直接执行。MapReduce 定制服务我们提供MapReduce定制服务,当SQL语句效率不高时,可以将SQL语句转 化成高效的MapReduce作业直接执行。SQL语句会产生大量的中间数据,从而影响作业执行效率。MapReduce不产 生中间数据。MapReduce作业和SQL语句相比拟,作业执行效

25、率可以提高37倍。3. 4交互式SQL查询用户可以通过图形化界面定义查询参数,执行自己的查询任务。系统接口如下:系统兼容标准的SQL语法,可以通过SQL语句访问查询。系统支持JDBC连接方式,适合JAVA应用。系统支持ODBC连接方式,适合WIN应用。系统提供CLI命令接口,适合UNIX应用。系统支持Corba协议,适合IDL服务对象接口。系统支持SOAP协议,适合远程RPC调用。3. 5在线报表系统提供丰富的报表展现形式,支持表格、饼图、柱状图、折线图,用户可 以自由选择报表展现形式。报表的定义和配置都要求可视化的灵活操作,要求可见即可得,且结果能够 灵活导出。生成的报表可输出各种文件格式,

26、如EXCEL、HTML. XML、RTF等。4.4信息推送子平台4. 4. 1流量分发模块可以控制流量的转发,流量分发模块,可以精准的将符合业务的需求流量转 发到指定的服务器上,对不符合广告投放的流量,不做分发引导。在流量转发的 过程中,可以将一份流量同时转发多份到多个服务器上。也可以提供多种流量分 发的规那么。使系统具备多种流量转发的规那么。从而提升广告推送效率和精准度, 减轻服务器压力。域名、URL配置规那么通过设置域名、URL规那么,可以对指定的域名和URL的报文,进行解析。控 制定向域名的流量分发或者禁止指定域名的分发。从而实现流量转发的精细控 制。特定域名和URL拥有加*实现模糊匹配

27、的功能。转发总流量控制规那么可以设置转发流量的总量,一旦超出设置的总量,将停止转发。441.3频次控制规那么可对用户的流量转发到服务器的频次进行控制。具体根据用户ADSL和IPo定向策略控制规那么定向策略是对受众的筛选,即广告的显示是根据访问者来决定的,平 台提供多种多样的定向方式。定向传播可以按访问者的行业、地理区域、职务等 选择不同的广告出现,根据一天或一周中不同的时间出现不同性质厂商的广告, 根据用户所使用的操作系统或浏览器版本选择不同广告格式,等等。可以精确定 为广告受众,提高广告效果。根据用户偏好对其投放感兴趣的广告。以多维定向 为基础,结合多种广告形式(图片BANNER、文字点击、

28、富媒体广告),利用多 种付费形式(包括弹窗付费、点击付费、注册付费、销售分成以及竞价付费), 使广告性价比得到最大的提升。441.5黑名单控制依据IP和ADSL两个维度的黑名单设置,那么是用来控制哪些用户的流量不做 分发,来保证一些用户的体验和隐私。诸如政府机关等机构的流量要防止分发。4. 4. 2广告推送模块广告推送模块是该系统的核心模块,根据各种设置项实现运营商流量的广告 营销策略,帮助运营商实现流量变现。4. 4. 3广告提单系统4.431广告投放规那么管理广告的投放规那么管理是指可以根据业务的需求对某一个广告或者一类广告 指定投放规那么。投放规那么可以按照投放频率、触发时段、投放日期时

29、间、适用客 户群等进行设置。按地域要求平台支持指定广告投放在特定地域的用户。比方某几个市的用户O按广告预算要求平台支持根据广告预算来自动匹配广告位,以到达有限预算的情况下效 益最大化。平台根据广告主的广告预算和平台现有的广告位组合,按最优算法进 行广告匹配。其它定制策略要求平台提供接口,可对现行的投放策略进行定制。投放规那么管理是整个平台精确投放的关键。通过审核的广告投放,将会由系 统根据条件自动触发投放。平台自动根据投放策略进行广告主广告与网站广告位 之间的匹配,匹配成功即进行广告投放。平台提供以下各个策略以供广告主选择: 流量打包及分割、按用户区域、按广告预算等。各个策略可以交叉使用。广告

30、页面被访问投放策略应用广告显示图中的“投放策略应用”为并行处理,平台的广告投放量大时,可以通过增 加服务器的方式动态扩展平台的能力。表查看排期表是在投放审核通过后系统自动生成的排期记录。排期表查看是供浙江电信互联网广告管理和推送系统内部人员使用的功能, 用于方便跟踪广告的排期及投放情况。可按类型、栏目、年、月查看所有定位记录。可看到排期表中每个单据的客户广告定位情况及成交价格。可看到广告排期 的相关信息(广告主名称、销售人员、审核人员等信息)。广告主自助管理广告主是广告投放的主体,在做广告投放之前首先要创立相应的广告主。当 需要为新的广告主进行广告投放时,需要创立相应的广告主。要求系统支持对广

31、告主增加、修改、删除以及广告主投放广告的查询 统计 等管理功能。自注册广告主可在自助门户上进行自注册,自助注册界面中允许广告主填写相关信 息,并可粘贴附件;查询/修改功能广告主登录系统之后可查看自己的相关信息,并可提出修改申请。修改申请 被系统管理员审批通过之后才能生效。申请广告主自服务门户应为广告主提供WEB界面,广告主通过WEB界面进行广告 申请、物料上传、物料删除等。广告主也可以通过WEB界面查询广告申请的进展 情况。业务修改广告主自服务门户应为广告主提供业务修改功能。对于申请状态下的业务, 广告主可以直接修改,对于其它状态下的业务,广告主需要提交广告业务修改申 请,由系统管理员负责修改

32、。自服务及其他功能广告主账单查询及打印帐单。提供分时间、分产品的广告购买明细及相 关统计信息等。结算数据查询。权限管理管理员可设置用户群组,并将不同的用户归入不同的群组。群组可按用户权 限不同进行划分:如系统管理员、管理人员、广告营销人员、营销客服人员、市 场部人员、财务人员。此外,还有广告主。4.4310广告主账号管理系统管理员可对用户进行管理用户验证增加用户(为客户开通登录帐号)编辑用户资料停用用户帐号(停用帐号后与其相关的单据仍旧保存)删除用户(删除用户前必须先停用用户帐号)4.4311广告审核有投放审核权限的人员对指定日期的注册用户的申请进行投放审核、续费 审核、特批审核或取消所有审核

33、。审核t青况以邮件的形式通知到注册用户,用 户登录广告投放系统后也能收到审核情况的通知。审核人员审核申请可直接查 看申请单据内容,审核投放申请时,系统自动生成审核人员及审核日期信息。4. 4. 4广告提单系统用户可以创立广告计划,在广告计划中,由四局部组成:广告计划报表、新 建或编辑广告计划、导出广告计划报表、搜索广告计划的功能。广告计划报表可 查看广告计划的预算、状态、展示次数、点击次数、点击率、展示和点击费用、 总费用;新建广告计划包括选择所属的行业,广告计划的预算、结算类型、选择 广告投放的周期及投放时间段。定义完广告计划后,可以在广告计划中定义广告组。广告组中定义广告的投 放策略,包括

34、:地域定向、关键词定向、兴趣组定向、用户访问行为定向、用户 点击行为定向。定义完成后,执行下一步广告定义。定义完广告组后,可以在广告组下创立广告。用户可以选择广告类型、素材 形式、上传广告素材。营销推送记录管理1)投放效果报告广告主可查看自己的投放效果报告(按周更新广告投放效果报告)。查看广告点击量查看页面点击量广告点击量与页面点击量的比率本广告与历史投放的类同(同级页面)的点击量变化比照等2)点击量查询当用户选择的是按点击量计算价格的广告位时,当广告投放生效后,系统自 动记录此广告的点击次数,并按天/周/月进行统计,用户可随时查看自己的广告 的点击次数。444.2预算管理广告计划下的总投放控

35、制金额。如果预算金额不填写,系统投递过程中不会 做费用控制。广告计划中如果总预算和实际投放用不同,取两者中比拟小的计费。 广告计划下每日投放控制金额,投放到达每日预算金额,投放自动停止。如果每 日预算金额不填写,互动营销平台在广告投递过程中不做每日费用控制。报表系统该模块主要是对系统中的业务数据及日志进行统计和分析。对于存储于数据库中的业务数据,如广告位的使用率、投放金额等,通过编 写相应的SQL语句进行分析。而对于需要通过分析日志而得出结果的统计,那么采取定时进行日志分析的方 法,如某个广告的点击数,如果采取一天分析一次日志的方法,实时性不够;为 了做到更“实时”,那么采取半小时进行一次日志

36、分析的方法,将分析结果存入数 据库,并对已经分析过的日志文件做标记,下次分析时不再重复分析。分析新的 日志文件时,将分析结果与上次的分析结果进行合并并存入数据库中。可根据不同的需求生成统计某一时间段、标签用户的推送效果的报表。包括 广告类型、所属计划、所属组、所属计划预算、状态、展示次数、点击次数、总 费用。444.4广告匹配系统平台运营商可以根据要求,在平台上实施不同的广告匹配规那么,如在平台运 营初期可以按网站的类型进行匹配,随着用户行为数据的收集,可以将用户行为 数据作为广告匹配的依据。因此,平台必须可以灵活地设置匹配规那么。广告匹配示意图在平台上实施不同的广告匹配规那么,平台运营可以按

37、网站的类型进行匹配, 随着用户行为数据的收集,可以将用户行为数据作为广告匹配的依据。因此,平 台必须可以灵活地设置匹配规那么。这种规那么的优势在于,匹配系统尽可能实现了4)投标人应详细说明本期工程所提供设备配置的处理能力、容量以及最大 扩容可到达的处理能力及容量,说明系统容量受限制的原因,并提供系 统进一步扩容的方案。可以按需扩充集群,需要额外的运算能力和存储 能力,可以灵活的加入节点到集群当中,并保持良好的线性扩展能力。 答复:满足。5)如设备为OEM第三方产品,投标人应说明该产品的原生产厂商。 答复:满足。6)投标人应保证系统割接不能中断业务,也不能影响原有业务数据。 答复:满足。7)如果

38、投标人目前难以到达买方所提出的技术要求,买方要求通过商务条 件使投标人承诺进行产品的技术升级。答复:满足。8)投标人应根据买方的业务需求及相关的技术规划要求,提出完整的工程 管理、系统设计、工程培训、工程施工、工程验收、技术支持方案以及 投标人人力资源供给方案,投标人负责建立并向买方提交工程技术文档。 答复:满足。3.2系统要求基本要求1)要求采用Hadoop分布式处理架构,符合未来大数据管理技术的开展潮 流。答复:满足。轻量化,从而提高了匹配速度。在运营商广告推送系统中,匹配速度提升是重中 之重,从而极大提升了广告位容量。每个用户请求均需求根据匹配规那么进行广告 匹配运算,并且对实时性要求较

39、高,必须在用户可以接受的时间范围内得出结果 并实施广告投放。并且随着对精确投放的要求越来越高,保持平台的性能,使之 能精准而快速地投放广告,匹配系统可以配置匹配的黑白名单,及每个用户的最大匹配次数和频率,在 尽量不降低用户体验的前提下,实现广告推送业务。黑白名单的配置,分为网站、 IP、ADSL用户三个维度进行设置。其中网站维度控制哪些网站的流量不做匹配, 最大限度实现业务平安。利用IP和ADSL分析,来控制哪些用户的流量不做匹配。4. 4. 5广告检索系统广告检索系统通过应用于WAP站请求,在合适的位置,对合适的用户,展示 最合适的广告。用户通过终端访问媒体,媒体通过嵌入的SDK代码向平台发

40、送广 告请求,平台根据用户所使用的机型和操作系统、所处的地理位置、所处的网络 接入状况、当前所访问的资源信息等等一系列的条件,对应的广告检索模块的网 页分类和用户兴趣分类的关联映射矩阵,使广告主题、广告分类、关键词等多种 特征融合,并将这些特征作为广告匹配检索条件,按照权重对检索结果进行排序, 在广告库里选择一条当前最合适展示给的广告发送给媒体,提高广告推送的精确 度。445.1广告选择由于用户在访问媒体的时候所处的网络环境各不相同。因此在广告检索模 块,通过对广告资源管理中心的所有有效广告资源建立索引,并通过增量索引机 制,定时维护更新。从而实现根据广告查询请求提供的用户标签、域名、地域等

41、进行选择。这些列表中的广告需符合投放排期、时间段、地域、广告状态、广告 形式(嵌入式、浮窗)和广告尺寸等约束条件的限制。对广告请求包括请求重试和容灾备份,根据广告模板生成广告样式,点击串 的生成与展示日志生成,对于广告的选择根据终端的信息特征,在广告库种进行计算,从而检索出一条最合适展示的广告。如果当前满足多个广告展示,平台将 平衡流量将广告进行依次排队推送。cookie 管理通过全局唯一 cookie标示生成、客户端cookie植入、cookie推送信息记 录和查询、cookie mapping等。其中全局cookie标志生成主要用于当有cookie 植入请求发生时,自动生成一个全局唯一的c

42、ookie标识串,用于用户身份唯一 标记。Cookie Mapping就是将用户隶属于SSP的Cookie与隶属于DSP的 Cookie进行映射。Cookie Mapping工作需要两个数据,分别是用户隶属于SSP 方的Cookie及用户隶属于DSP方的Cookie,同时需要SSP方或者DSP方进 行数据的映射工作。将自有cookie与运营商流量中的其他域名cookie进行关联。 如百度 cookie、360 cookie 淘宝 cookie,通过 cookie mapping 技术打通用 户在不同域名上的行为,使用户画像更加全面饱满。频次控制同一广告可通过多个媒体业务进行组合投放,平台需支持

43、跨媒体业务去重的 功能,即同一个广告只给同一个用户在N天的时间内最多发送M次。在创立广告 组过程中可以填写频次控制信息实现。分为cookie、IP、ADSL频次控制三种。 Cookie频次控制,是指每个cookie只推送设定的次数(如一次);IP频次控制 指每个IP只推送预订次数,而无论该IP下有多少台终端设备;ADSL频次是根 据运营商AD账号,每个账号仅推送预订次数(每个ADSL可能会动态更新多个 IP) O标签定向标签定向从现有广告系统、流量分析系统等系统获取的信息主要是描述用户 的基本属性、通信消费能力、位置信息等行为属性,这些信息一般不能够直接作 为用于广告投放的标签(简称为广告标签

44、)来使用,广告标签侧重描述用户的社 会人群特征、消费能力、产品与服务购买倾向性等社会行为属性。平台具备将用户的通信业务行为属性转换为能够被广告主/代理商所理解的 社会行为属性,并创立用户广告标签,如年收入范围、是否有车、音乐喜好、是 否经常旅游等。采用特定的数据挖掘算法(聚类算法、分类算法),分析出用户 的特定属性特征,进而形成受众广告标签。并将分析结果导入标签库。也支持第 三方自定义标签的离线导入,标签库用redis进行管理,支持key-value结构数 据的快速查询。状态控制当用户账号、广告计划、广告策略、广告素材四个局部处于正确的状态才可 以进行广告的推送。用户账号的状态需满足账户内的余

45、额大于0才可以进行账户下的广告推送。广告计划需要满足广告的预算。需要由运营管理人员对其进行审批,审批通 过后,广告计划,广告生效,否那么可将广告计划,广告返回给创立人进行修改。 每个广告计划都可以设置每天投放预算,预算状态是指预算是否消耗完成,消耗 完预算的广告计划当天不再推送,第二天凌晨会自动将预算恢复成可投状态。时 段状态主要用于判断广告计划是否在预定推送周期内。人工可以对其启动、删除 或暂停三种状态。广告组需要满足启用状态。拥有启动、删除或暂停三种状态。广告有广告中止,广告修改,广告撤销三种状态。广告修改:广告审批通过 后,只有广告中止后才能修改广告内容,广告内容修改完成后,仍需提交到运

46、营 管理员进行审批,审批通过后,广告再次处于待执行状态。广告中止:广告中止 是指对于一个时间跨度较长的广告在执行过程中由于某种原因被强行中止,中止 后,广告处于“执行中止”状态,被中止的广告还可被恢复继续执行,直到广告 的结束时间执行完毕广告中止的场景可能是由于政策或其他突发原因导致不允 许继续投放广告,或者出于广告投放效果的考虑,广告主不希望再继续执行该广 告。广告中止需由直客广告主提交中止申请,然后由运营管理人员审批通过后方 可生效。广告中止时,相应广告位和用户资源释放。广告撤销是指广告在执行中、 中止、生效待执行状态下都可进行撤消;广告被撤销后处于“已撤销”状态,且 不能被重新启用,如果

47、已经有局部广告投放了,已投放广告仍然正常计费。广告 撤销需由广告主/代理商提交撤销申请,然后由运营管理人员审批通过后方可生 效。广告被撤销后,系统自动释放相应的广告位和用户资源。4. 4. 6内部业务支撑信息推送平台可以作为电信内部业务营销的支撑平台,面向内部客户,可以 通过平台时时推送一些消费服务提醒信息,可以根据后台数据分析,获取用户偏 好,量身定制推送用户可能适用的产品或套餐。平台提供统一的推送策略管理功能,实现对如下内部业务信息的支持,后续 支持更多规那么的扩展:3)用户实时流量提醒规那么无套餐用户使用实时提醒套餐使用量提醒4)用户行为套餐分析通用套餐推荐个性化套餐推荐三、产品配置清单

48、1、大数据处理子平台大数据处理子平台产品配置清单如下:编号系统功能系统功能描述1平台平安管控平台平安管控2平台资源管理平台资源管理3平台数据授权平台数据授权4平台统一管理平台统一管理5集中监控告警管理集中监控告警管理6可视化业务管理可视化业务管理7同步标签服务同步标签服务8离线标签服务离线标签服务2、数据汇聚子平台数据汇聚子平台产品配置清单如下:编号系统功能系统功能描述1宽带DPI数据采集清洗宽带DPI数据米集清洗23G DPI数据采集清洗3G DPI数据采集清洗3AAA数据米集清洗AAA数据采集清洗4OIDD数据采集清洗OIDD数据采集清洗5ODS数据采集清洗ODS数据采集清洗6数据脱敏数据

49、脱敏编号系统功能系统功能描述7数据加密数据加密8数据ETL处理数据ETL处理3、外部服务能力子平台外部服务能力子平台产品配置清单如下:编号系统功能系统功能描述1标签查询服务标签查询服务2DSP厂商程序接入服务DSP厂商程序接入服务3厂商作业性能优化服务厂商作业性能优化服务4交互式SQL查询服务交互式SQL查询服务5在线报表在线报表4、信息推送子平台信息推送子平台产品配置清单如下:编号系统功能系统功能描述1流量分发模块流量分发服务2广告推送模块广告推送服务3广告提单系统广告提单服务4广告引导系统广告引导服务5广告检索系统广告检索服务6内部业务支撑内部业务支撑四、所提供设备情况本工程基于Hadoo

50、p分布式云计算平台构建大数据运营平台,包含以下四 个子平台:数据汇聚子平台宽带DPI数据采集清洗3G DPI数据采集清洗AAA数据采集清洗0IDD数据采集清洗ODS数据采集清洗数据脱敏数据加密数据ETL处理作业智能排队调度大数据处理子平台平台平安管控平台资源管理平台数据授权平台统一管理集中监控告警管理可视化业务管理标签服务外部能力开放子平台标签查询服务DSP厂商程序接入服务厂商作业性能优化服务交互式SQL查询服务在线报表信息推送子平台 流量分发模块 广告推送模块 广告提单系统 广告引导系统 广告检索系统 内部业务支撑五、系统连接示意图本工程为软件产品,系统架构为:信息推送子平台外部能力开放子平

51、台大数据处理子平台数据汇聚子平台hadoop平台宽带DPI数据3G DPI数据 AAA数据 0IDD数据ODS数据数据源六、场地及环境准备要求为了保证本期工程的顺利展开,浙江电信应在工程开始一周前做好机房所有 准备工作,包括:一设备到位一动力电源到机架到位一传输线路调试畅通等。2)具有支持结构化、半结构化以及非结构化数据处理能力,支持多种多样 的数据类型,结构化,非结构化以及混合负载。答复:满足。3)支持多语种,支持UNICODE标准满足中文及多字节编码需要,支持中文 国家标准(GB18030-2000)的中文字符的存储处理。答复:满足。4)支持主流厂商的硬件和操作系统平台,如Centos等免

52、费操作系统、Red Hat Linux, SUSE Linux (x86-64 /PLinux)等。答复:满足。5) Hadoop平台需要能够基于软件而不是硬件绑定的方式进行部署。答复:满足。6)平台具有较强的可兼容性,提供向下兼容机制。答复:满足。7)分布式的框架,支持基于x86的廉价集群方式进行大规模部署,处理海 量PB级别的数据。答复:满足。8)半结构化和非结构化数据分析和管理平台支持大规模分布式计算和分布 式存储。答复:满足。3. 2. 1. 1功能性要求I)支持多CPU系统并行处理,提供并行服务机制,能在系统资源低负担的条件下提供最高的并发度和最大的吞吐量。七、工程进度安排工程进度安

53、排如下:编号工作内容详细内容时间周期1到货验收本工程合同设备(包括软硬件) 到货验收1天2设备安装调试大数据平台服务器安装和调 试、操作系统安装、大数据平 台应用软件安装调试及网络接 入15天3初验系统的整体功能验收4天4试运行系统试运行6个月5终验系统的整体功能终验5天八、分工界面双方职责分工如下:中国电信浙江公司.负责提供大数据运营平台所需的硬件设备;.负责提供大数据运营平台所需的网络并保证网络传输畅通稳定;.负责工程协调;.负责工程验收;华信邮电咨询设计研究院.负责平台服务器的软件安装调试.负责大数据运营平台系统联调;.负责工程进度管控.配合工程验收九、测试及验收1、功能验收大数据处理子

54、平台功能验收:功能编号功能名称验收结果1平台平安管控2平台资源管理3平台数据授权4平台统一管理5集中监控告警管理6可视化业务管理7同步标签服务8离线标签服务数据汇聚子平台功能验收:功能编号功能名称验收结果1宽带DPI数据米集清洗23G DPI数据采集清洗3AAA数据采集清洗4OIDD数据采集清洗5ODS数据采集清洗6数据脱敏7数据加密8数据ETL处理9作业智能排队调度外部服务子平台功能验收:功能编号功能名称验收结果1标签查询服务2DSP厂商程序接入服务3厂商作业性能优化服务4交互式SQL查询服务5在线报表信息推送子平台:功能编号功能名称验收结果1流量分发模块2广告推送模块3广告提单系统4广告引

55、导系统5广告检索系统6内部业务支撑2、验收总结总结验收及测试,陈述发现问题和建议等。验收人:验收时间:十、培训计划1、培训目的为了保证大数据平台建成后能够稳定、可靠地长期运行,并能充分发挥大 数据平台的功能,我们特此制定详细的免费培训计划,让浙江电信能够最大限 度地掌握该系统的使用方法,并能独立判断与排除日常常见故障。我们将建立 完善的沟通渠道,不断向用户提供最新的信息系统技术,使用户能够不断提高 自己的业务水平。基于强大的技术储藏与高素质的客户服务工程师,我们的培训能力与培训 效果一直很受用户的好评。我们将以深厚的专业知识与敏锐的洞察力,为该系 统的建成与使用提供良好的技术咨询与培训服务,为

56、整个工程顺利实施打下坚 实的基础。2、培训方式我们将为用户提供两类培训。系统操作人员培训:使用人员培训是普及型培训,目的是让操作人员对整 个大数据平台的原理、运作、故障排除有充分了解,学习整个系统的调试和维 护。系统管理人员培训:管理人员培训是面向平台管理人员,目的是使平台管理人员了解各个设备的工作原理,独立进行常见故障的判断与排除。3、培训内容培训内容:结合大数据运营平台操作手册和维护手册,对系统的基本原理、 总体功能、平台操作进行整体全面的培训,并接受工作人员的具体技术咨询。 对系统日常出现的轻微故障的处理方法进行现场讲解分析、指导。十一、技术承诺我们承诺:在本工程中投入技术精湛、业务熟悉

57、、经验丰富的稳定工程实施队伍, 并保证全体人员具有合理的配备和技术构成;采用目前先进、成熟的技术,并充分利用先进技术的技术特征,以保证 本系统具有较长的产品生命周期和产品质量全面满足局方标书中技术规范的要求,努力使局方满意,与浙江电信通 力协作,以使本工程的建成能为浙江电信真正带来价值。本工程所采用的技术,我们将毫无保存的共享给局方技术人员,进行相 关技术知识转移。十二、技术服务、支持、保修浙江电信大数据平台售后服务内容包括:.服务响应及维修服务保修期内我方免费提供预防性现场维护巡检服务,巡检结束后提供巡检报 告。我公司为本工程提供1年的免费维修期和免费软件升级。我公司承诺响应时间为1小时。我

58、公司对所提供的软硬件系统提供满意的热线服务,随时解决所发生的问 题。如发生紧急故障,在得到通知后,我公司在1小时内作出实质性响应,在远 程不能解决问题的情况下,确保在“车程+1小时”之内赶到现场,实地解决问 题。. 支持服务服务内容包括在使用产品过程中的故障处理咨询和在使用产品过程中的使 用技巧咨询。在正常办公时间内,用户可以通过热线 与公司。非正常工作时间,可拨 打提供的手机寻求支持。技术支持人员会尽量即时在 中帮助用户解决问题,假设当时不能马上解 决,热线人员会记录用户单位的名称,联系 及联系人,在得到解决方案后, 立刻主动与用户联系。.现场服务及响应 支持服务无法解决的硬件或软件故障,本

59、公司将在1小时内做出响应, 在远程不能解决问题的情况下,确保在“车程+1小时”之内赶到现场,实地解 决问题。.巡检服务我公司提供每年的1次巡检服务,巡检的目的是监测用户系统运行状况,及 使发现和解决出现的问题,保证系统稳定高效运行。本公司的巡检包括现场巡检 和 巡检两局部。巡检结束后填写巡检记录,并上交存档。.优化服务我公司将不遗余力地协助用户对该工程提出进一步的优化方案。我公司将配合用户或第三方对该工程予以优化。根据用户要求开发软件和其 它增值服务。.系统升级我公司对本工程提供软件升级服务。软件升级和增强版本可能包括对已发现 问题的修正及对新硬件平台的支持。我公司客服中心技术人员将时刻跟踪软

60、件产品的最新信息,当软件产品发布 升级软件或增强版本时,客服中心技术人员将立即对软件的新版本进行必要的测 试,判断该升级软件对用户系统的实际意义,并与用户技术人员一起分析软件升 级的必要性。如果需要进行软件升级,本公司技术人员会编写出详细的软件升级 方案,与相应的升级软件一起下发到用户,同时以 支持或者现场服务的方式 协助用户技术人员完成升级工作。.保修服务我公司为本工程提供2年的免费保修。保修期满后,公司维修响应时间、服 务质量承诺不变。保修期满后,公司仍提供免费技术咨询,但提供有偿维修服务。 保修期满后,公司免费提供软件升级版本。保修期内本公司免费提供预防性现场 维护巡检服务,巡检结束后提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论