




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据产品测试方案联通系统集成有限公司研发背景、意义测试范围及环境2目录测试方案3测试厂家要求及已测试功能43 3 本次测试面向不同厂家的hadoop产品,从不同纬度对厂家产品功能、性能进行验证,得出验证结果,并针对DW2.0平台规范中提出的一些功能进行技术验证,对hadoop产品选型提供可靠依据。背景研发背景、意义1测试范围及环境目录测试方案3测试厂家及测试功能45 5Hadoop通用平台功能要求Hbase及相关API组件数据高可用,region 迁移客户端读写API接口数据压缩数据有效期基于Hbase的MR作业引擎线性扩展容错Hive组件异构数据源互通工具Hadoop平台功能增强功能要求S
2、QL over Hadoop作业引擎Hadoop数据生命周期管理Hadoop安全HDFS级安全控制客户端接入安全控制Hadoop活动监控及审计Hadoop安全策略Hadoop安全报告Hadoop数据隐私管理提供LDAP 或者LDAPS进行授权访问Hadoop性能与兼容性增强Hbase索引HDFS读写能力增强支持Hive调用外部MapReduce脚本Hive关联查询增强MapReduce性能增强支持大规模索引和搜索构建框架POSIX兼容性支持小文件支持改善提供高级文本分析功能中文和英文的文本分析,非结构化文本的读取、分词、特征选择、信息抽取、自动摘要和舆情分析等平台维护及资源监控Hadoop集群
3、的可视化监控测试范围测试范围功能性测试列表6 6测试方法测试方法功能测试方法采用手工测试的方法,分别对hadoop平台的基本功能和hadoop及其组件增强功能进行功能验证,并形成厂家产品的功能验证结果对比。性能测试方法分别将测试数据文件(1T)从本地加载到hdfs,hbase及hive中,记录数据加载速率。并分别对hdfs的数据文件进行运算以及对hbase和hive中的数据进行查询,记录运算及查询速度。结果正确性校验针对大数据平台的运算结果可能出现偏差,所以需要对平台的运算结果进行正确性校验,校验方法为,提供一部分测试数据,并将测试数据分别导入到关系型数据库(oracle)以及待验证平台中,然
4、后进行相同的查询,将平台得出结果与关系型数据库得出的结果进行比对。7 7测试数据描述测试数据描述本次测试使用数据统一采用移动上网用户记录其中一省的数据,通过FTP进行采集,每天数据量大约250G左右,连续采集15天数据,数据总量3.5T。数据共一类数据,本次验证需要的原始数据以文件形式存在,数据文件字段内容如下:1手机号码不包含字冠如+86,0086,8614访问IP通信对端IP地址,没有IP信息的填空,对于有多个IP的业务,输出合并的流量记录,访问IP只填第一个IP2 位置区编码 省分区域编码15状态码业务状态码字典表,对于合并的记录,状态码有多种的情况,取第一个状态码,避免合并记录状态码叠
5、加的情况(如200+201+202)。3CI号码当有网络切换时,选择第一个CI16User Agent采集全部信息4终端类型IMEI17APN如3gwap,3gnet,uniwap,uninet,cmwap,cmnet5流量类型流量类型18IMSI6开始时间YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙19SGSN IPSGSN的IP地址,填接入第一个7结束时间YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙20GGSN IPGGSN的IP地址,8持续时长以秒为单位21内容类型Content-Type9上行流量以bytes为单位22源端口10下
6、行流量以bytes为单位23目的端口11总流量以bytes为单位24记录标识0:表示未合并且未分割的记录; 1:表示合并过且未分割的记录;2:表示未合并但是分割过的记录;3:表示合并过且分割过的记录; 12网络类型RATType取值为1代表3G;2代表2G25 合并记录数记录标识为1,3时,本字段表示合并的记录数目;当记录标识为0,2时:本字段为空13终端IP用户每次请求和应答的IP地址26网址/特征信息对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息8 8集成公司提供的环境(千兆交换机)演示平台采用Hadoop技术架构实现数据的存储和应用查询功能,整个平台包含FT
7、P入库系统、基于Hadoop架构的数据存储系统、统一作业管理、ETL作业引擎、互联网行为分析应用,提的戴尔C6100服务器10节点,典型配置如下:磁盘容量:106TB = 60T网络接口:1GBps内存:36GCPU: 28 = 16Cores研发背景、意义1测试范围及环境2目录测试方案测试厂家及测试功能41、功能性测试方案2、性能测试方案2、高可用性测试方案3、可扩展、安全性测试方案1010功能性测试方案一、产品兼容组件验证厂家hadoop产品兼容hadoop家族组件和具体版本,形成对比列表HDFSMapReduceSparkHbaseHiveSqoopZookeeper二、组件功能增强增强
8、功能测试项HDFS功能增强数据压缩比小文件支持API的支持数据生命周期HBASE二 级 / 多维索引数据生命周期Region迁移数据压缩数据均衡客 户 端 读 写API接口HIVE对 s q l 支持程度查询优化oracle函数支撑关联查询增强Hive调用外部MapReduce多租户开放式作业MR作业引擎 作 业 用 户 鉴权管理作 业 开 发 、服 务 以 及 发布管理作业开发的自动化部署数据存储(HDFS稳定版本软件) ETL/MR/类SQL作业调度 全作业过程可视化监控作 业 资 源优 化 控 制管理 1111性能测试方案分别将测试数据文件(1T)和数据库中的测试数据(7000万条)加载
9、到hdfs,hbase及hive中,记录数据加载速率。并分别对hdfs的数据文件进行运算以及对hbase和hive中的数据进行查询。用例描述结果数据入库1T数据文件分别加载hdfs、hbase、hive中数据加载速率数据库7000万条数据分别加载到hdfs、hbase、hive中数据加载速率数据加工Mapreduce:根据手机号分组,获取流量总合。按流量总合倒叙排列加工耗时Mapreduce:根据app应用分组,获取流量总合。按流量总合倒叙排列加工耗时Hbase:查询任意手机号码所有上网记录加工耗时Hbase:查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条加工耗时Hive:获取
10、地市大流量客户(总流量在500M以上)以及消费的总流量,并以总流量大小的倒序排列加工耗时获取地市最受欢迎的前50个app应用,及消费流量总和,并以总流量大小倒序排列加工耗时获取联通上网用户终端机型排名列表,同时列出该机型用户数量加工耗时获取用户流量的时段分布列表。加工耗时数据出库指定的测试数据(1T)从hdfs导出到本地数据导出速率指定的测试数据(7000万条)从hive导出到关系型数据库数据导出速率1212高可用性测试方案用例描述非结构化存储节点引擎可靠性测试主元数据节点故障测试备主元数据节点故障测试存储节点故障测试存储节点网络故障测试存储节点单磁盘故障测试并行计算引擎可靠性测试主作业调度节
11、点故障测试任务执行节点磁盘故障测试结构化存储引擎可靠性测试元数据服务器故障测试NoSQL存储引擎可靠性测试控制节点故障测试存储节点故障测试存储节点磁盘故障测试存储节点网络故障测试易安装测试安装部署可维护性测试日志管理性能检测故障管理图形用户界面网管性能状态信息测试网管告警信息测试1313可扩展性、安全性测试方案用例描述节点水平动态扩展新加节点能够动态加入集群,正常添加了HDFS、YARN、HBase等角色性能可扩展数据分析相应时间测试吞吐能力测试NoSQL并发能力测试动态扩展测试非结构化存储节点动态扩展测试并行计算节点动态扩展测试NoSQL引擎节点动态扩展测试当大数据平台性能遇到问题时,是否能
12、够横向扩展,通过添加服务器的方式达到更高的吞吐量,从而充分利用现有的硬件实现更好的投资回报率用例描述数据加密测试检测系统是否对数据进行加密保存数据隔离测试检测系统是否对数据进行用户隔离保存研发背景、意义1测试范围及环境2目录测试方案3测试厂家及测试功能1515p 现阶段参与测试的厂家:中兴、星环公司注册资本研发中心地址大数据专职团队人数源码掌握程度售后服务星环中兴Hadoop版本基于hadoop开源版本商用最大节点数电信行业建设经验星环中兴一、参与厂家的公司实力,以及大数据的专职人员和以后在互联网大数据方面的前景,提供非技术数据作为验证结果参考的一部分:二、各厂家提供hadoop平台进行验证,
13、hadoop平台总体概述:p 目前星环hadoop产品已进行产品兼容组件功能测试,如:hive和spark的组件测试,中兴的hadoop平台搭建完成,还没有进行测试。1616谢 谢 !1717测试范围测试范围性能测试列表hdfs 将测试数据文件(1T)从本地加载到hdfs中,记录数据加载速率。将数据库中的测试数据(7000万条)加载到hdfs中,记录数据加载速率。将指定的测试数据(1T)从hdfs导出到本地,记录数据加载速率。hbase将测试数据文件(1T)从本地加载到hbase中,记录数据加载速率。将数据库中的测试数据(7000万条)加载到hbase中,记录数据加载速率。 查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条。记录数据查询速率。 针对已加载的测试数据,查询任意手机号码所有上网记录, 记录数据查询速率。mapreduce针对已加载的测试数据,根据手机号分组,获取流量总合。按流量总合倒叙排列。记录运算时间。针对已加载的测试数据,根据app应用分组,获取流量总合。按流量总合倒叙排列。记录运算时间。hive将指定的测试数据(1T)加载到hive中,记录数据加载速率。 将数据库中的测试数据(7000万条)加载到hive中,记录数据加载速率。针对已加载的测试数据,获取地市大流量客户(总流量在500M以上)以及消费的总流量,并以总流量大小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数控超精密磨床项目申请报告
- 2025年炔烃项目立项申请报告
- 教育行业教学经历证明书(6篇)
- 品牌宣传推广合同协议
- 巧克力包装机设计-课程设计
- 食品加工工艺与设备案例分析题
- 2025年电商数据分析与电商运营管理专业电子商务师(初级)职业技能鉴定试卷
- 快乐读书读后感作文5篇
- 个人实习证明书标题实习经历证明书(8篇)
- 2025年初中化学九年级上册期中测试卷:化学与环境问题探究试题
- 员工三级安全教育培训记录
- DB32∕T 186-2015 建筑消防设施检测技术规程
- C-TPAT反恐知识培训ppt课件
- 巡检培训课件.ppt
- 二代征信系统数据采集规范释义
- 轴承基础知识PPT通用课件
- 苏教版二年级(下册)科学全册单元测试卷含期中期末(有答案)
- 河南华泰特种电缆项目可行性分析报告
- 公司员工合理化建议奖励办法
- 加工中心刀具库选择PLC控制系统设计
- 初中生物知识点汇总细胞
评论
0/150
提交评论