大数据产品测试方法论_第1页
大数据产品测试方法论_第2页
大数据产品测试方法论_第3页
大数据产品测试方法论_第4页
大数据产品测试方法论_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据产品测试方案 联通系统集成有限公司 研发背景、意义 测试范围及环境 2 目录 测试方案 3 测试厂家要求及已测试功能 4 3 3 本次测试面向不同厂家的hadoop产品,从不同纬度对厂家产品功能、性能进行验证, 得出验证结果,并针对DW2.0平台规范中提出的一些功能进行技术验证,对hadoop产品选 型提供可靠依据。 背景 研发背景、意义 1 测试范围及环境 目录 测试方案 3 测试厂家及测试功能 4 5 5 Hadoop通用平台功能要求 Hbase及相关API组件 数据高可用,region 迁移 客户端读写API接口 数据压缩 数据有效期 基于Hbase的MR作业引擎 线性扩展 容错

2、Hive组件 异构数据源互通工具 Hadoop平台功能增强功能 要求 SQL over Hadoop作业引擎 Hadoop数据生命周期管理 Hadoop安全 HDFS级安全控制 客户端接入安全控制 Hadoop活动监控及审计 Hadoop安全策略 Hadoop安全报告 Hadoop数据隐私管理 提供LDAP 或者LDAPS进行授权访问 Hadoop性能与兼容性增强 Hbase索引 HDFS读写能力增强 支持Hive调用外部MapReduce脚本 Hive关联查询增强 MapReduce性能增强 支持大规模索引和搜索构建框架 POSIX兼容性支持 小文件支持改善 提供高级文本分析功能 中文和英文

3、的文本分析,非结构化文本的读取、分词、特征选择、信 息抽取、自动摘要和舆情分析等 平台维护及资源监控Hadoop集群的可视化监控 测试范围测试范围 功能性测试列表 6 6 测试方法测试方法 功能测试方法采用手工测试的方法,分别对hadoop平台的基本功能和hadoop及 其组件增强功能进行功能验证,并形成厂家产品的功能验证结果对比。 性能测试方法分别将测试数据文件(1T)从本地加载到hdfs,hbase及hive中,记录数据加 载速率。并分别对hdfs的数据文件进行运算以及对hbase和hive中的数据进行 查询,记录运算及查询速度。 结果正确性校验针对大数据平台的运算结果可能出现偏差,所以需

4、要对平台的运算结果进行 正确性校验,校验方法为,提供一部分测试数据,并将测试数据分别导入到关 系型数据库(oracle)以及待验证平台中,然后进行相同的查询,将平台得 出结果与关系型数据库得出的结果进行比对。 7 7 测试数据描述测试数据描述 本次测试使用数据统一采用移动上网用户记录其中一省的数据,通过FTP进行采集,每天数据量大 约250G左右,连续采集15天数据,数据总量3.5T。数据共一类数据,本次验证需要的原始数据以 文件形式存在,数据文件字段内容如下: 1手机号码不包含字冠如+86,0086,8614访问IP 通信对端IP地址,没有IP信息的填空,对于有多个IP的业务,输出合并的流量

5、记录, 访问IP只填第一个IP 2 位置区编码 省分区域编码15状态码 业务状态码字典表,对于合并的记录,状态码有多种的情况,取第一个状态码, 避免合并记录状态码叠加的情况(如200+201+202)。 3CI号码 当有网络切换时,选择第一个 CI 16User Agent采集全部信息 4终端类型IMEI17APN如3gwap,3gnet,uniwap,uninet,cmwap,cmnet 5流量类型流量类型18IMSI 6开始时间 YYYY-MM-DD HH:MM:SS.1234567,精确到 0.1微妙 19SGSN IPSGSN的IP地址,填接入第一个 7结束时间 YYYY-MM-DD

6、HH:MM:SS.1234567,精确到 0.1微妙 20GGSN IPGGSN的IP地址, 8持续时长以秒为单位21内容类型Content-Type 9上行流量以bytes为单位22源端口 10下行流量以bytes为单位23目的端口 11总流量以bytes为单位24记录标识 0:表示未合并且未分割的记录; 1:表示合并过且未分割的记录;2:表示未合 并但是分割过的记录;3:表示合并过且分割过的记录; 12网络类型 RATType取值为1代表3G;2代表 2G 25 合并记录数 记录标识为1,3时,本字段表示合并的记录数目;当记录标识为0,2时:本字段为 空 13终端IP用户每次请求和应答的I

7、P地址26 网址/特征信 息 对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息 8 8 集成公司提供的环境(千兆交换机) 演示平台采用Hadoop技术架构实现数据的存储和应用查询功能,整个平台包含FTP入库系统、基 于Hadoop架构的数据存储系统、统一作业管理、ETL作业引擎、互联网行为分析应用,提的戴尔C6100 服务器10节点,典型配置如下: 磁盘容量:106TB = 60T 网络接口:1GBps 内存:36G CPU: 28 = 16Cores 研发背景、意义 1 测试范围及环境 2 目录 测试方案 测试厂家及测试功能 4 1、功能性测试方案 2、性能测试方

8、案 2、高可用性测试方案 3、可扩展、安全性测试方案 1010 功能性测试方案 一、产品兼容组件 验证厂家hadoop产品兼容hadoop家族组件和具体版本,形成对比列表 HDFSMapReduceSparkHbaseHiveSqoopZookeeper 二、组件功能增强 增强功能测试项 HDFS功能 增强 数据压缩 比 小文件支持API的支持数据生命周期 HBASE 二 级 / 多 维索引 数据生命周 期 Region迁移数据压缩数据均衡客 户 端 读 写 API接口 HIVE 对 s q l 支 持程度 查询优化oracle函 数支撑 关联查询增强Hive调用外部 MapReduce 多租

9、户开放 式作业 MR作业引 擎 作 业 用 户 鉴 权管理 作 业 开 发 、 服 务 以 及 发 布管理 作业开发的自动 化部署 数据存储(HDFS稳 定版本软件) ETL/MR/类SQL 作业调度 全作业过程可 视化监控 作 业 资 源 优 化 控 制 管理 1111 性能测试方案 分别将测试数据文件(1T)和数据库中的测试数据(7000万条)加载到hdfs, hbase及hive中,记录数据加载速率。并分别对hdfs的数据文件进行运算以及 对hbase和hive中的数据进行查询。 用例描述结果 数据入库1T数据文件分别加载hdfs、hbase、hive中数据加载速率 数据库7000万条数

10、据分别加载到hdfs、hbase、hive中数据加载速率 数据加工Mapreduce:根据手机号分组,获取流量总合。按流量总合倒叙排列加工耗时 Mapreduce:根据app应用分组,获取流量总合。按流量总合倒叙排列加工耗时 Hbase:查询任意手机号码所有上网记录加工耗时 Hbase:查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条加工耗时 Hive:获取地市大流量客户(总流量在500M以上)以及消费的总流量,并以总流量 大小的倒序排列 加工耗时 获取地市最受欢迎的前50个app应用,及消费流量总和,并以总流量大小倒序排 列 加工耗时 获取联通上网用户终端机型排名列表,同时列出

11、该机型用户数量加工耗时 获取用户流量的时段分布列表。加工耗时 数据出库指定的测试数据(1T)从hdfs导出到本地数据导出速率 指定的测试数据(7000万条)从hive导出到关系型数据库数据导出速率 1212 高可用性测试方案 用例描述 非结构化存储节点引擎可靠性测试主元数据节点故障测试 备主元数据节点故障测试 存储节点故障测试 存储节点网络故障测试 存储节点单磁盘故障测试 并行计算引擎可靠性测试主作业调度节点故障测试 任务执行节点磁盘故障测试 结构化存储引擎可靠性测试元数据服务器故障测试 NoSQL存储引擎可靠性测试控制节点故障测试 存储节点故障测试 存储节点磁盘故障测试 存储节点网络故障测试

12、 易安装测试安装部署 可维护性测试日志管理 性能检测 故障管理 图形用户界面 网管性能状态信息测试 网管告警信息测试 1313 可扩展性、安全性测试方案 用例描述 节点水平动态扩展新加节点能够动态加入集群,正常添加了HDFS、YARN、HBase等角色 性能可扩展数据分析相应时间测试 吞吐能力测试 NoSQL并发能力测试 动态扩展测试非结构化存储节点动态扩展测试 并行计算节点动态扩展测试 NoSQL引擎节点动态扩展测试 当大数据平台性能遇到问题时,是否能够横向扩展,通过添加服务器的方式 达到更高的吞吐量,从而充分利用现有的硬件实现更好的投资回报率 用例描述 数据加密测试检测系统是否对数据进行加

13、密保存 数据隔离测试检测系统是否对数据进行用户隔离保存 研发背景、意义 1 测试范围及环境 2 目录 测试方案 3 测试厂家及测试功能 1515 p 现阶段参与测试的厂家:中兴、星环 公司注册资本研发中心地址大数据专职团队人数源码掌握程度售后服务 星环 中兴 Hadoop版本基于hadoop开源版本商用最大节点数电信行业建设经验 星环 中兴 一、参与厂家的公司实力,以及大数据的专职人员和以后在互联网大数据方 面的前景,提供非技术数据作为验证结果参考的一部分: 二、各厂家提供hadoop平台进行验证,hadoop平台总体概述: p 目前星环hadoop产品已进行产品兼容组件功能测试,如:hive

14、和spark的 组件测试,中兴的hadoop平台搭建完成,还没有进行测试。 1616 谢 谢 ! 1717 测试范围测试范围 性能测试列表 hdfs 将测试数据文件(1T)从本地加载到hdfs中,记录数据加载速率。 将数据库中的测试数据(7000万条)加载到hdfs中,记录数据加载速率。 将指定的测试数据(1T)从hdfs导出到本地,记录数据加载速率。 hbase 将测试数据文件(1T)从本地加载到hbase中,记录数据加载速率。 将数据库中的测试数据(7000万条)加载到hbase中,记录数据加载速率。 查询任意手机号码所有上网记录并按时间过滤,取时间最近的100条。记录数据查询速率。 针对已加载的测试数据,查询任意手机号码所有上网记录, 记录数据查询速率。 mapred uce 针对已加载的测试数据,根据手机号分组,获取流量总合。按流量总合倒叙排列。记录运算时间。 针对已加载的测试数据,根据app应用分组,获取流量总合。按流量总合倒叙排列。记录运算时间。 hive 将指定的测试数据(1T)加载到hive中,记录数据加载速率。 将数据库中的测试数据(7000万条)加载到hive中,记录数据加载速率。 针对已加载的测试数据,获取地市大流量客户(总流量在500M以上)以及消费的总流量,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论