银行大数据POC测评方案_第1页
银行大数据POC测评方案_第2页
银行大数据POC测评方案_第3页
银行大数据POC测评方案_第4页
银行大数据POC测评方案_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

产品测评方案 银行大数据POC测评方案文档名称XXXX银行大数据POC测评方案版本号V1.2创建人庞辉创建日期2015年03月06日保密分类秘密文档修订记录版本号*变化状态简要说明日期变更人批准日期批准人V1.0C初次创建2015-03-06庞辉V1.1M修改2015-03-17庞辉V1.2M修改2015-03-18庞辉V1.3M修改格式2015-03-31庞辉V1.4M修改2015-05-18庞辉*变化状态:C=创立,A=增加,M=修改,D=删除文档审批信息序号审批人角色审批日期签字备注1目录1 测评内容 71.1产品安装及测试工具 71.1.1 测试说明 71.2数据导入测试 71.2.1 数据准备 71.2.2 测试说明 71.2.3 测试流程 71.2.4 测试结果 261.2.5 附件 271.3业务测试 271.3.1 测试说明 271.3.2 测试案例 271.3.3 附件 291.4压力测试 301.4.1 测试说明 301.5非结构化数据导入查询测试 301.5.1 测试说明 301.5.2 测试流程 301.5.3 测试结果 311.5.4 附件 321.6大数据分析测试 321.6.1 测试说明 321.6.2 测试案例 321.7支持国产操作系统测试 331.7.1 测试说明 331.8技术支持测试 331.8.1 测试说明 332 大数据建模平台—DataInsight 342.1概述 342.1.1 体系结构 342.2DataInsight主要特性 352.2.1 一体化的大数据挖掘应用平台 352.2.2 并行化大数据挖掘运行平台 352.2.3 高效的大数据挖掘落地平台 362.3DataInsight主要功能 362.3.1 模型工作流 362.3.2 可视化数据探索 372.3.3 并行化算法 382.3.4 多建模语言支持 402.3.5 模型应用管理 402.3.6 模型即服务 413 大数据分析展示平台—Discovery 423.1平台架构 433.1.1 数据引擎 453.1.2 BIServer 453.1.3 交互分析模块 453.1.4 API 463.2平台特性 463.3交互式体验 473.3.1 构建数据视图 473.3.2 图表类型 484 大数据在银行的应用场景 504.1大类应用 504.1.1 营销类模型 504.1.2 风控类模型 504.1.3 综合评价模型 504.2细分应用 504.2.1 客户风险画像 504.2.2 客户综合评级 504.2.3 客户综合预授信 514.2.4 客户风险定价 514.2.5 客户利润贡献评价 514.2.6 客户综合营销分析 514.2.7 客户流失分析 514.2.8 贷后实时监控分析 514.2.9 欺诈风险防范 515 案例介绍 525.1某大型银行卡收单专业化服务公司 525.1.1 持卡人特征归纳 525.1.2 持卡人交易行为预测 525.1.3 商圈聚类 535.2某商业银行 535.2.1 优质不良客户分类 535.2.2 员工账户监测预警 56

测评内容产品安装及测试工具测试说明集群部署大数据平台环境;测试平台对集群是否有统一的可视化监控页面,可以监控集群所有节点内存使用情况,cpu使用情况等;测试平台是否支持可视化添加节点及自动部署节点上的服务;在整个POC测试过程中,平台是能够稳定运行,着重关注某个节点监测不到心跳的情况。对于产品的性能及稳定性测评,也可以通过公司提供的测试工具进行测试。数据导入测试数据准备选取核心系统作为源系统,COBS_SVMSA表14316568条记录,COBS_SVOCA表24333767条记录作为数据导入测试的全量文件。测试说明厂商设计数据导入方案,根据厂商平台情况,选择相应的组件。根据厂商的导入方案,对COBS_SVMSA、COBS_SVOCA进行基础数据生成根据厂商的导入方案,对COBS_SVMSA、COBS_SVOCA进行拉链算法对现有COBS_SVMSA、COBS_SVOCA进行数据复制,用10倍于生产的数据,重复步骤1-3。测试流程利用Hive进行基础数据生成,导入COBS_SVOCA表数据创建COBS_SVOCA表结构,并按照生效日期和失效日期字段进行分区。命令如下,createtableifnotexistsHD_COBS_SVOCA(OCCUNOstring,OCSVACstring,OCSBSQstring,OCACNOstring,OCITEMstring,OCOPDTstring,OCOPTQstring,OCCLDTstring,OCCLTQstring,OCSTCDstring)partitionedby(eff_dtstring,exp_dtstring);删除HD_COBS_SVOCA表原有分区。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');将测试数据导入HD_COBS_SVOCA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,loaddatalocalinpath'/var/lib/hive/impala/COBS_SVOCA_999009.txt'overwriteintotableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import');将临时分区重命名成最新有效数据的分区。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');利用Hive对COBS_SVOCA进行拉链测试将测试数据导入HD_COBS_SVOCA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');loaddatalocalinpath'/var/lib/hive/impala/COBS_SVOCA_999009.txt'overwriteintotableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import');找到历史数据中,和新数据对比后的失效数据,并记录在一个新分区。命令如下,insertoverwritetableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='2015-12-08')selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfrom(selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfromHD_COBS_SVOCAdwhereeff_dt='2015-12-08'andexp_dt='2999-12-31')dleftjoin(selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfromHD_COBS_SVOCAdwhereeff_dt='2015-12-08'andexp_dt='tmp_import')sond.OCCUNO=s.OCCUNOandd.OCSVAC=s.OCSVACandd.OCSBSQ=s.OCSBSQandd.OCACNO=s.OCACNOandd.OCITEM=s.OCITEMandd.OCOPDT=s.OCOPDTandd.OCOPTQ=s.OCOPTQandd.OCCLDT=s.OCCLDTandd.OCCLTQ=s.OCCLTQandd.OCSTCD=s.OCSTCDwheres.OCSVACisnullands.OCSBSQisnullands.OCACNOisnull;将新数据所在的临时分区重命名成有效分区。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');利用Impala对COBS_SVOCA进行拉链测试将测试数据导入HD_COBS_SVOCA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');loaddatalocalinpath'/var/lib/hive/impala/COBS_SVOCA_999009.txt'overwriteintotableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import');找到历史数据中,和新数据对比后的失效数据,并记录在一张新表中。采用Impala的partitionjoin对查询性能进行优化。命令如下,insertoverwritetableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='2015-12-08')selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfrom(selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfromHD_COBS_SVOCAdwhereeff_dt='2015-12-08'andexp_dt='2999-12-31')dleftjoin[shuffle](selectd.OCCUNO,d.OCSVAC,d.OCSBSQ,d.OCACNO,d.OCITEM,d.OCOPDT,d.OCOPTQ,d.OCCLDT,d.OCCLTQ,d.OCSTCDfromHD_COBS_SVOCAdwhereeff_dt='2015-12-08'andexp_dt='tmp_import')sond.OCCUNO=s.OCCUNOandd.OCSVAC=s.OCSVACandd.OCSBSQ=s.OCSBSQandd.OCACNO=s.OCACNOandd.OCITEM=s.OCITEMandd.OCOPDT=s.OCOPDTandd.OCOPTQ=s.OCOPTQandd.OCCLDT=s.OCCLDTandd.OCCLTQ=s.OCCLTQandd.OCSTCD=s.OCSTCDwheres.OCSVACisnullands.OCSBSQisnullands.OCACNOisnull;将新数据所在的临时分区重命名成有效分区。命令如下,altertableHD_COBS_SVOCAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVOCApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');利用Hive进行基础数据生成,导入COBS_SVMSA表数据创建COBS_SVMSA表结构,并按照生效日期和失效日期字段进行分区。命令如下,createtableifnotexistsHD_COBS_SVMSA(MSSBNOstring,MSCYNOstring,MSITCDstring,MSACSQstring,MSCKBTstring,MSCUNOstring,MSINCNstring,MSITEMstring,MSBLATstring,MSLEDTstring,MSLSBDstring,MSLABLdouble,MSLIDTstring,MSHOBLdouble,MSFZBLdouble,MSCTBLdouble,MSACBLdouble,MSBLDEstring,MSINCMstring,MSINMKstring,MSINKDstring,MSACINdouble,MSAMBLdouble,MSMDICdouble,MSMDALdouble,MSTHFGstring,MSOPDTstring,MSOPUSstring,MSMTDTstring,MSMTUSstring,MSCLDTstring,MSCLUSstring,MSLADTstring,MSSTCDstring)partitionedby(eff_dtstring,exp_dtstring);删除HD_COBS_SVMSA表原有分区。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');将测试数据导入HD_COBS_SVMSA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,loaddatalocalinpath'/var/lib/hive/impala/svmsa/COBS_SVMSA_999009.txt'overwriteintotableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import');将临时分区重命名成最新有效数据的分区。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');利用Hive对COBS_SVMSA进行拉链测试将测试数据导入HD_COBS_SVMSA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');loaddatalocalinpath'/var/lib/hive/impala/COBS_SVMSA_999009.txt'overwriteintotableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import');找到历史数据中,和新数据对比后的失效数据,并记录在一个新分区。命令如下,insertoverwritetableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='2015-12-08')selectd.*from(selectd.MSSBNO,d.MSCYNO,d.MSITCD,d.MSACSQ,d.MSCKBT,d.MSCUNO,d.MSINCN,d.MSITEM,d.MSBLAT,d.MSLEDT,d.MSLSBD,d.MSLABL,d.MSLIDT,d.MSHOBL,d.MSFZBL,d.MSCTBL,d.MSACBL,d.MSBLDE,d.MSINCM,d.MSINMK,d.MSINKD,d.MSACIN,d.MSAMBL,d.MSMDIC,d.MSMDAL,d.MSTHFG,d.MSOPDT,d.MSOPUS,d.MSMTDT,d.MSMTUS,d.MSCLDT,d.MSCLUS,d.MSLADT,d.MSSTCDfromHD_COBS_SVMSAdwhereeff_dt='2015-12-08'andexp_dt='2999-12-31')dleftjoin(selectMSSBNO,MSCYNO,MSITCD,MSACSQ,MSCKBT,MSCUNO,MSINCN,MSITEM,MSBLAT,MSLEDT,MSLSBD,MSLABL,MSLIDT,MSHOBL,MSFZBL,MSCTBL,MSACBL,MSBLDE,MSINCM,MSINMK,MSINKD,MSACIN,MSAMBL,MSMDIC,MSMDAL,MSTHFG,MSOPDT,MSOPUS,MSMTDT,MSMTUS,MSCLDT,MSCLUS,MSLADT,MSSTCDfromHD_COBS_SVMSAwhereeff_dt='2015-12-08'andexp_dt='tmp_import')sond.MSSBNO=s.MSSBNOandd.MSCYNO=s.MSCYNOandd.MSITCD=s.MSITCDandd.MSACSQ=s.MSACSQandd.MSCKBT=s.MSCKBTandd.MSCUNO=s.MSCUNOandd.MSINCN=s.MSINCNandd.MSITEM=s.MSITEMandd.MSBLAT=s.MSBLATandd.MSLEDT=s.MSLEDTandd.MSLSBD=s.MSLSBDandd.MSLABL=s.MSLABLandd.MSLIDT=s.MSLIDTandd.MSHOBL=s.MSHOBLandd.MSFZBL=s.MSFZBLandd.MSCTBL=s.MSCTBLandd.MSACBL=s.MSACBLandd.MSBLDE=s.MSBLDEandd.MSINCM=s.MSINCMandd.MSINMK=s.MSINMKandd.MSINKD=s.MSINKDandd.MSACIN=s.MSACINandd.MSAMBL=s.MSAMBLandd.MSMDIC=s.MSMDICandd.MSMDAL=s.MSMDALandd.MSTHFG=s.MSTHFGandd.MSOPDT=s.MSOPDTandd.MSOPUS=s.MSOPUSandd.MSMTDT=s.MSMTDTandd.MSMTUS=s.MSMTUSandd.MSCLDT=s.MSCLDTandd.MSCLUS=s.MSCLUSandd.MSLADT=s.MSLADTandd.MSSTCD=s.MSSTCDwheres.MSSBNOisnullands.MSCYNOisnullands.MSITCDisnullands.MSACSQisnullands.MSCKBTisnull;将新数据所在的临时分区重命名成有效分区。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');利用Impala对COBS_SVMSA进行拉链测试将测试数据导入HD_COBS_SVMSA表的一个临时分区。在实际场景中,这组数据是最新有效数据。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='tmp_import');loaddatalocalinpath'/var/lib/hive/impala/COBS_SVMSA_999009.txt'overwriteintotableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import');找到历史数据中,和新数据对比后的失效数据,并记录在一张新表中。采用Impala的partitionjoin对查询性能进行优化。命令如下,insertoverwritetableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='2015-12-08')selectd.*from(selectd.MSSBNO,d.MSCYNO,d.MSITCD,d.MSACSQ,d.MSCKBT,d.MSCUNO,d.MSINCN,d.MSITEM,d.MSBLAT,d.MSLEDT,d.MSLSBD,d.MSLABL,d.MSLIDT,d.MSHOBL,d.MSFZBL,d.MSCTBL,d.MSACBL,d.MSBLDE,d.MSINCM,d.MSINMK,d.MSINKD,d.MSACIN,d.MSAMBL,d.MSMDIC,d.MSMDAL,d.MSTHFG,d.MSOPDT,d.MSOPUS,d.MSMTDT,d.MSMTUS,d.MSCLDT,d.MSCLUS,d.MSLADT,d.MSSTCDfromHD_COBS_SVMSAdwhereeff_dt='2015-12-08'andexp_dt='2999-12-31')dleftjoin[shuffle](selectMSSBNO,MSCYNO,MSITCD,MSACSQ,MSCKBT,MSCUNO,MSINCN,MSITEM,MSBLAT,MSLEDT,MSLSBD,MSLABL,MSLIDT,MSHOBL,MSFZBL,MSCTBL,MSACBL,MSBLDE,MSINCM,MSINMK,MSINKD,MSACIN,MSAMBL,MSMDIC,MSMDAL,MSTHFG,MSOPDT,MSOPUS,MSMTDT,MSMTUS,MSCLDT,MSCLUS,MSLADT,MSSTCDfromHD_COBS_SVMSAwhereeff_dt='2015-12-08'andexp_dt='tmp_import')sond.MSSBNO=s.MSSBNOandd.MSCYNO=s.MSCYNOandd.MSITCD=s.MSITCDandd.MSACSQ=s.MSACSQandd.MSCKBT=s.MSCKBTandd.MSCUNO=s.MSCUNOandd.MSINCN=s.MSINCNandd.MSITEM=s.MSITEMandd.MSBLAT=s.MSBLATandd.MSLEDT=s.MSLEDTandd.MSLSBD=s.MSLSBDandd.MSLABL=s.MSLABLandd.MSLIDT=s.MSLIDTandd.MSHOBL=s.MSHOBLandd.MSFZBL=s.MSFZBLandd.MSCTBL=s.MSCTBLandd.MSACBL=s.MSACBLandd.MSBLDE=s.MSBLDEandd.MSINCM=s.MSINCMandd.MSINMK=s.MSINMKandd.MSINKD=s.MSINKDandd.MSACIN=s.MSACINandd.MSAMBL=s.MSAMBLandd.MSMDIC=s.MSMDICandd.MSMDAL=s.MSMDALandd.MSTHFG=s.MSTHFGandd.MSOPDT=s.MSOPDTandd.MSOPUS=s.MSOPUSandd.MSMTDT=s.MSMTDTandd.MSMTUS=s.MSMTUSandd.MSCLDT=s.MSCLDTandd.MSCLUS=s.MSCLUSandd.MSLADT=s.MSLADTandd.MSSTCD=s.MSSTCDwheres.MSSBNOisnullands.MSCYNOisnullands.MSITCDisnullands.MSACSQisnullands.MSCKBTisnull;将新数据所在的临时分区重命名成有效分区。命令如下,altertableHD_COBS_SVMSAdropifexistspartition(eff_dt='2015-12-08',exp_dt='2999-12-31');altertableHD_COBS_SVMSApartition(eff_dt='2015-12-08',exp_dt='tmp_import')renametopartition(eff_dt='2015-12-08',exp_dt='2999-12-31');测试结果基于生产数据的数据生成和拉链的过程中,各个主要环节的性能结果如下表生产数据环节描述COBS_SVOCACOBS_SVMSAHiveImpalaHiveImpala数据生成初始导入18.36sN/A23.798sN/A拉链拉链导入19.188sN/A23.66sN/A找出失效数据并保存137.99s95.26s119.457s84.39s基于10倍生产数据生成和拉链的过程中,各个主要环节的性能结果如下表10倍生产数据环节描述COBS_SVOCACOBS_SVMSAHiveImpalaHiveImpala数据生成初始导入237.89sN/A230.11sN/A拉链拉链导入239.971sN/A228.468sN/A找出失效数据并保存573.852sN/A777.038sN/A附件附件中包含了测试先关的全部脚本、程序以及运行日志,用户可自行测试验证。业务测试测试说明1、厂商根据我行的历史数据查询系统以及大数据平台情况,设计联机查询改造方案,并实施落地。测试案例这组功能可以用SQL实现,不进行UI开发。跟客户展示我们银联案例这组功能可以用SQL实现,不进行UI开发。跟客户展示我们银联案例。历史查询应用系统-有权机关查询-个人客户查询-账户信息查询-客户号查询 *操作步骤*步骤描述*预期结果步骤1点击账户信息查询的单条查询tab正常打开单条查询页面没有异常步骤2选择查询条件为客户号,输入要查询的客户号‘104301126’,点击【查询】查询结果正确显示步骤3查看查询的数据和查询所用时间秒级查询步骤4记录查询结果以及所用的查询时间记录成功历史查询应用系统-有权机关查询-个人客户查询-账户信息查询-子账号查询*操作步骤*步骤描述*预期结果步骤1点击账户信息查询的单条查询tab正常打开单条查询页面没有异常步骤2选择查询条件为子账号,输入要查询的子账号‘0101000103280000794’,点击【查询】查询结果正确显示步骤3查看查询的数据和查询所用时间秒级查询步骤4记录查询结果以及所用的查询时间记录成功历史查询应用系统-有权机关查询-对公客户查询-交易对手查询*操作步骤*步骤描述*预期结果步骤1点击交易对手查询正常打开单条查询页面没有异常步骤2添加查询条件,选择按账号查询。点击【查询】查询结果正确显示步骤3查看查询的数据和查询所用时间秒级查询步骤4记录查询结果以及所用的查询时间记录成功附件账户信息查询-客户号查询涉及数据字典参考4.2.4附件中HD_COBS_SVMSA、HD_COBS_SVOCA.账户信息查询-客户号查询sql:对公客户查询-交易对手查询涉及数据字典:对公客户查询-交易对手查sql:数据存放地址:0用户root密码Brcb1234路径8用户root密码Brcb1234路径/source_file/hadoop_20141018压力测试测试说明1、采用压力测试工具对历史数据查询系统的个人客户查询-账户信息查询-客户号查询做并发性请求的压力测试。非结构化数据导入查询测试测试说明为了能够快速读取图片,以及兼顾导入的速度,本方案使用开源分布式系统HBase作为底层存储。由于HBase默认的blocksize为64k,为了保证可扩展性,使系统将来能够存储更高清的大图片,本方案的实现方式为多列存储:如果图片大小小于64k,则存为一列;否则,按照64k分割,存为多列。同时,为了提高导入速度,我们还采用了HBase预分区和并发导入的方案。为了获得秒级以内的查询效率,查询直接使用HBaseget的方式。测试流程计算预分区值由于存入的文件使用文件名做rowkey,而且文件个数只有40万左右,所以我们全量抽取rowkey并计算预分区值(这里取10个预分区key)。使用pic.sh抽取图片的文件名,如下:shpic.sh/lishi/lishi/tupianfilenames 对filenames进行排序sortfilenames>filenames_sort 将filenames_sort大致等分为11份,取出10个预分区key如下:创建表将上一步计算出的预分区key保存到文件splits,进入hbaseshell,执行如下建表语句:create'pics','cf',{SPLITS_FILE=>'splits'}数据导入数据导入采取20个进程并发写入的方式。执行方式如下:nohupshexecute.sh>execute.log2>&1&使用tail–fexecute.log查看并发数和运行进度测试查询使用shget.sh{rowkey}{dest_file}的方式获取图片,例如:shget.shL1.A1001001A14B27B93947G17637.V101_1.pic然后使用md5验证文件:md5sum../01/L1.A1001001A14B27B93947G17637.V101_1.pic测试结果导入测试最终日志为execute.log,测试部分结果如下:如图所示,导入数据共耗时495s。附件附件中包含了测试先关的全部脚本、程序以及运行日志,用户可自行测试验证。大数据分析测试测试说明不实际实施,说明银联效果。不实际实施,说明银联效果。厂商对我行现有数据仓库数据做数据调研。要求厂商针对于我行的实际情况尽可能多的给出基于大数据分析技术实施的数据洞察概要方案,可以不落地实施。厂商根据数据调研结果,完成借记卡、信用卡刷卡记录的消费热点地图,如果我行数据不满足要求,则从厂商提供的洞察方案中,找出一项落地实施测试。测试案例场景:根据我行所有借记卡、信用卡刷卡记录(比如atm,pos终端),出一个我行客户消费热点地图。支持国产操作系统测试测试说明测试厂商的大数据平台能否部署在国产操作系统,例如红旗、麒麟等操作系统不实际实施。不实际实施。技术支持测试测试说明公司的技术支持能力;开发文档;

大数据建模平台—DataInsight概述大数据挖掘是大数据中非常重要的一个组成部分。只有从大数据中挖掘出价值,大数据才有意义。明略DataInsight是一款企业级的大数据挖掘平台产品,通过应用先进的大数据技术,帮助企业实现了海量数据上的数据挖掘,获取隐藏在大数据下的知识,为企业创造新的业务价值。与常见的只能进行单机挖掘的产品不同,明略DataInsight基于ApacheSpark架构,使得数据挖掘能够真正并行化起来,能够真正的在海量数据机上进行数据挖掘。突破了传统数据挖掘工具只能在单机上建模的缺陷,使得企业大数据挖掘成为了可能。体系结构明略DataInsight从上到下分为3层,分别是接口层,调度层和运行层。其中:接口层:用来与用户和外部系统进行交互。接口层提供了可视化建模工具以及模型应用系统界面,供用户创建模型和对生产环境中的模型进行管理。此外,还提供了RestfulAPI供其他外部系统进行模型服务调用。调度层:调度层负责调度模型作业的运行。一个模型作业由若干任务组成,每个任务的执行环境和执行次序都不一样。调度层负责将任务发往合适的执行器中运行,并负责任务之间的通信和错误处理等功能。运行层:运行层负责真正的运行一个任务,运行层是基于Spark并行架构的,在Spark中启动了多个运行器(Runner)来负责最终任务的执行。这儿的运行器可以是普通的Spark任务,也可以是R或者Python的容器。DataInsight主要特性一体化的大数据挖掘应用平台明略DataInsight提供高效的建模工具帮助企业在大数据上进行数据挖掘,同时提供模型应用系统帮助企业整合从模型开发到模型上线的大数据挖掘落地的全过程,真正使得大数据挖掘能在企业轻松落地。明略DataInsight从企业业务落地出发,帮助企业有效的管理大数据挖掘的各个阶段,不单单为企业提供了高效的建模工具,同时也提供模型应用管理系统帮助企业管理已经建立好的模型,降低了模型部署、更新等维护的成本。明略DataInsight是基于大数据平台的产品,这就意味着明略DataInsight的实验环境和生产环境融为一体。在实验环境中建立的模型可以很方便的在生产环境中应用,降低了模型的部署和迁移成本。并行化大数据挖掘运行平台大数据时代的特点是数据量规模巨大,传统的单机算法已经无法满足大数据时代的需要,因此需要使用并行算法来处理和计算大数据。明略DataInsight是一款基于ApacheSpark架构的真正意义上的大数据挖掘平台,其通过Spark提供的高性能内存迭代计算引擎在多个节点上并行挖掘,解决了单机节点无法挖掘海量数据的问题,同时提高了挖掘速度。明略DataInsight自主研发了大量并行运行在Spark之上的数据挖掘算法。这些算法覆盖了数据挖掘工作中最常用的算法种类。用户可以非常方便的在明略DataInsight中使用这些算法来创建模型。在大数据挖掘实践中,使用并行化的数据挖掘算法只是整个挖掘工作中的一部分,更多的工作集中在数据预处理方面。在大数据环境下,单机处理海量数据显然是不现实的。明略DataInsight提供了多种数据预处理的并行化算法,帮助用户高效的对数据进行处理。高效的大数据挖掘落地平台明略DataInsight专注于提高企业大数据挖掘的效率。在大数据挖掘实践中,往往70%-80%的时间和精力耗费在数据探索和数据处理上面。因此,提高数据探索和数据处理的效率会大大加速整个大数据挖掘的落地速度。明略DataInsight提供了交互式可视化的数据探索工具。明略DataInsight帮助用户实时对数据进行探索,来指引其寻找更好的解决方法。同时,明略DataInsight提供了大量的图表形式供用户更加直观的感受数据,寻找数据中的规律。在数据处理方面,明略DataInsight除了提供大量的并行化数据处理算法之外,还对SQL进行了良好的支持。用户可以通过SQL语句对建模的中间结果进行各种操作,这样,具有SQL技能的用户可以零学习成本的使用SQL对数据进行各种探索和处理。DataInsight主要功能模型工作流企业大数据挖掘是一项系统性的工程,其涉及到从数据整合、数据探索、数据处理、模型建立、模型评估、模型调优等一系列的过程。因此,单一的步骤是不足以表示大数据挖掘全过程。明略DataInsight中使用工作流的概念来表示整个建模过程。在明略DataInsight中,每个建模步骤都看做一个算子,每个算子接受若干输入,并且产生若干输出。每个算子的输出都可以作为其他算子的输入,这样,整个建模过程就可以形成一幅有向无环图。建模过程的目的就变成了将原始的输入通过一系列算子组合得到最终的业务结果。建模过程是一个不断尝试不断探索的过程。用户从原始数据出发,经过对数据的探索和处理,应用合适的算法,最终形成业务上可用的模型。在建模的过程中,会有很多尝试性的步骤,用户可以通过在模型工作流中添加分支的方法来进行不同方法的尝试。当模型开发完毕后,用户可以从模型中生成应用,这样就可以在生产环境中使用应用来产生业务结果。应用从本质上来看依然是工作流,记录了原始数据如何一步一步的变为最终的业务结果的过程,所不同的是,应用中的工作流只保留了产生业务结果的必要步骤,不再保留用户在建模时所做的尝试性的工作。可视化数据探索对数据的理解是数据挖掘过程中的重中之重。只有理解数据,才能知道如何从数据中挖掘出有价值的信息。数据探索的过程同时也是数据预处理的过程,用户在探索数据时,需要将多种数据进行关联,并且对数据进行不同形式的转换,甚至使用多种算法来对数据进行尝试性的挖掘,来探索数据的意义。在形成最终模型之前,用户需要通过大量的实验来找到一条切实可行的挖掘方法。在用户进行实验时,对实验的时效性要求非常高。用户希望能够尽快试错,排除那些不可靠的方法,快速的找到可行的方法。明略DataInsight提供了交互式数据探索工具供用户对数据进行实验性的探索工作。明略DataInsight通过先进的大数据技术,缩短了数据探索的时间,帮助用户实时的对数据进行探索和实验。同时,明略DataInsight通过可视化的方法,提供了常用的数据统计和分析的图表,供用户能够直观的从图形中发掘数据背后的意义。并行化算法明略DataInsight是基于Spark架构的并行化数据挖掘平台。明略DataInsight自主研发了大量的并行化数据挖掘算法,这些算法解决了单机算法不能挖掘大数据的问题,极大的方便了用户在大数据上的数据挖掘。此外,明略DataInsight是一款覆盖整个建模过程的产品。除了数据挖掘的算法之外,明略DataInsight还提供了若干数据处理的并行化算法,同样也可以在模型工作流的算子中使用,对数据进行并行化的处理。明略DataInsight支持的并行化算法列表如下:算法名称算法类型SVM分类算法LogisticRegression分类算法NativeBayes分类算法DecisionTree分类算法GradientBoostedDecisionTree分类算法RandomForest分类算法K近邻分类算法LassoRegression回归算法RidgeRegression回归算法LinearRegression回归算法GradientBoostedRegression回归算法RegressionTree回归算法DBScan聚类算法Hierachy聚类聚类算法Fuzzy聚类聚类算法K-means聚类算法PCA/KPCA特征变换LDA/KDA特征变换ARMA/ARIMA趋势分析LS-SVM趋势分析GPR(高斯过程回归)趋势分析ItembasedCF推荐算法UserbasedCF推荐算法AlternatingLeastSquares推荐算法LDA自然语言处理Word2Vec自然语言处理FPGrowth频繁模式&关联规则BIDE频繁模式&关联规则Apriori频繁模式&关联规则相关性分析数理统计分布统计数理统计标准向量化算法数据预处理算法Hash向量化算法数据预处理算法标准归一化算法数据预处理算法去均值归一化算法数据预处理算法极差归一化算法数据预处理算法类别符号平衡采样算法数据预处理算法随机采样算法数据预处理算法均匀采样算法数据预处理算法均值/方差/协方差基础数据计算模块自定义计算方法基础数据计算模块多建模语言支持明略DataInsight是一款基于Spark的并行化大数据挖掘产品。用户除了使用DataInsight中提供的算法和模型进行建模之外,还可以使用其他外部语言进行建模。目前,明略DataInsight提供Python和R供用户自定义算子。明略DataInsight中的模型可以由不同语言的元素组合而成。用户可以使用DataInsight原生的算法或者模型,也可以使用通过Python或R自定义的算法和模型,这样,极大的提高了建模的灵活性。此外,由于DataInsight中提供了外部语言,用户可以直接通过这些外部语言来对数据进行探索。Python和R中都包含了大量的优秀的绘图工具,用户可以直接使用这些工具在DataInsight中进行绘图。模型应用管理明略DataInsight是一款关注企业大数据挖掘落地全过程的产品。除了传统数据挖掘软件提供的建模工具之外,明略DataInsight还对建立完成模型的后续使用进行管理,帮助用户更好的在生产环境中应用模型,以实现期望的业务目标。在企业生产实践中,模型效果是会随着时间而不断衰减的,而且存在模型失效的问题。为了保持模型的效果,就必须对模型进行有效的维护。在传统数据挖掘实践中,有专门的建模团队来负责模型维护,每一次模型维护都要经历模型重部署,重上线的过程,效率十分低下。明略DataInsight中,最终应用于生产的模型称为应用。明略DataInsight通过应用更新功能使用新数据重新训练应用,使得衰减效应变缓。应用每次更新完,都会产生一个新的应用版本,这样同一应用会保留多个版本,这些版本的输入输出都保持一致,用户可以任选其中一个版本来产生最终的结果。应用更新是一种简单而有效的方法,但是当数据发生了较大的变化时,简单的更新应用已不能维持模型效果,此时,需要深入到应用细节对应用进行调整。明略DataInsight可以将应用还原为工作流,用户可以在开发环境中打开工作流,在已有的工作流之上重新建模,直到模型效果满足业务需求。模型即服务明略DataInsight作为一款企业级的大数据挖掘平台,通过RestfulAPI向企业其他生产系统提供服务,外部系统可以通过调用RestfulAPI实现模型的运行和更新等操作。这样,明略DataInsight可以作为企业统一的模型服务平台,为企业各个生产系统进行复杂的数据挖掘计算,提供各个生产系统所需的业务数据。例如,明略DataInsight可以通过人群画像模型对客户进行画像,将画像结果提供给企业BI系统,在企业BI系统中结合其他数据一起绘制最终的业务报表。根据用户在API中指定的输入和输出,明略DataInsight中相应的应用就可以从输入中读取原始数据,进过数据挖掘的复杂计算后,将结果数据存放到用户指定的输出中,这样就完成了一次数据挖掘任务。明略DataInsight支持多种输入输出,包括基于大数据的HIVE、HBASE、HDFS等,还包括传统关系型数据库,如Oracle、Mysql等,也包括一些NoSQL数据库,如MongoDB、Redis等。明略DataInsight支持的API如下:功能API说明运行应用/application/run运行应用的一个版本。需要指明应用版本的ID,运行的输入、输出,以及用户token。系统从输入中获取数据,经过计算后将输出结果存储到用户指定的输出对象中。该API返回一个任务ID,用户可以使用该ID进行后续操作更新应用/application/update更新应用,生成一个新的应用版本。用户指明需要更新的应用ID,新版本名称、输入的数据和用户Token。系统通过输入数据新生成一个应用版本。该API返回一个任务ID和一个版本ID。停止任务/task/kill用户传入任务ID来停止一个正在运行中的任务。查询状态/task/status用户传入任务ID来查询任务的状态。状态包括任务正在运行、运行成功、运行失败和已停止。通过查询任务状态来决定下一步操作。通过明略DataInsight提供的API,用户可以在自己的系统中进行调用。例如,用户将一个应用加入工作流中,通过run命令运行一个应用,然后不断查询状态,直到状态变为已完成,再继续下一步工作。由于输入输出都是由用户指定,因此,用户可以很方便的在工作流中加入数据挖掘的步骤。大数据分析展示平台—Discovery随着大数据时代的带来,急剧膨胀的数据规模、对细粒度数据探索的需求,以及对决策时效性的需求愈加旺盛,传统的BI方案在解决数据规模、分析的时效性、数据粒度方面越发显得困难。传统的BI方案已经很难满足当前业务需求,基于深入分析株洲所大数据分析展示平台的业务需求特点和技术需求的基础上,选择基于海量数据的商务智能解决方案,以满足业务和技术要求。平台架构Discovery是基于Hadoop技术框架的大数据商业智能平台,旨在帮助用户挖掘大数据环境下的数据价值,解决传统BI工具在大数据环境下无法使用的困境。Discovery是B/S架构,基于大数据技术构建,可同时支持大数据平台和传统的RDBMS;提供文本文件、JDBC、Cube、Search等多类型的数据源支持;Discovery平台架构如下:Discovery各个部分的主要功能如下:模块组件主要功能数据源ERP/CRM支持对接客户已有系统CDH/Hortonworks支持对接其他商用发行版RDBMS支持对接常用的关系型数据库Excel/CSV支持常用的文本文件格式数据预处理MOLAPCube配置多维OLAPCube的维度、指标、数据更新方式等SearchIndex配置针对非结构化数据的索引数据引擎OLAPEngine支持ROLAP、MOLAP两种OLAP分析,为上层交互提供Rollup、Drilldown、Slice&Dice等支撑AD-hocEngine针对关系型数据库提供的查询引擎,支持常见的RDBMS、Hive、Impala等SearchEngine针对非结构化数据提供的搜索引擎,支持对文本、图片等非结构化数据的检索分析,同时也支持对结构化数据进行明细粒度的分析。BIServerSecurityBIServer提供针对访问连接(Https)、身份认证等安全保证的功能,确保数据安全不外泄。Administration针对Dashboard、图表、数据预处理、分享等的权限控制,同时支持细粒度的数据访问权限控制。Businesslogic提供针对工作流、配置等的业务流程管理。Repository管理数据库、表、Cube、索引等。交互分析引擎ReportEngine通过可视化界面创建到CSV、RDBMS、Cube和Index的连接,Drag&Drop数据源中的维度和指标,选择图表展现样式,生成chart。Discovery基于D3渲染图表,可支持大部分常用的展现形式并支持自定义。DashboardDesigner将ReportEngine生成的图组装为Dashboard,并提供自定义样式等的接口。APIDiscovery对外提供的Dashboard接口和Report接口,方便第三方App将Dashboard和Report整合可视化将API下引擎提供的各类功能封装为基于Html5的网页,支持pc、mobile等展现和下载、分享。数据引擎Discovery的数据引擎包括OLAP、Ad-hoc和Search三部分,分别面向基于Cube的查询、即席查询和明细搜索三种业务场景,并由BIServer进行统一调度。Discovery的OLAP引擎以Discovery的多维数据库为核心,旨在对原始数据进行抽取,转换和加载,支撑Discovery的在线分析,是Discovery必不可少的一部分。Discovery的OLAP引擎同时支持ROLAP和MOLAP两种模式,并且基于Hadoop生态系统进行了针对性的优化。OLAP引擎支持使用离线Cube进行数据存储,支持Cube数据定时全量以及增量更新。Discovery的Ad-hoc引擎基于大数据生态体系的SQL引擎构建,支持在海量数据集上进行分钟级别的即席查询。Discovery的Search引擎支持对数据进行rawdata级别的探索发现,在可观的时间延迟内,支持对原始数据集进行灵活的数据探索分析。BIServerBIServer支持对Discovery平台内的元数据、权限等进行统一授权管理。BIServer可支持行列级别的数据权限管理。交互分析模块Discovery的分析模块以Dashboard为分析的载体,每个分析中可向Dashboard内加入任意数量的组件和控件。所有分析中的操作均通过拖拽和点击完成,无需写SQL。支持任意维度和指标的切换,可以对已有的表样字段进行切换,从而进行自由分析。任意维度和指标切换的功能保障了当查看分析的人员在查看分析时,如果针对已有的表样产生额外的分析需求或改变了已有的分析需求,不需要重新制作分析,而可以直接通过切换维度和指标实现。可以选择数据快速创建表格或者图表以使数据可视化、添加过滤条件筛选数据,即时排序,使数据分析更快捷。APIDiscovery提供灵活的数据接口,对于有一定开发能力或者已有可视化工具的客户,Discovery可以通过标准的数据接口对外输出经过处理和分析的数据,帮组用户快速的生成定制报表。平台特性基于大数据技术的优异性能Discovery是一款真正支持海量大数据的BI产品。经过测试,Discovery对于分组汇总表的计算,百亿条数据规模,汇总计算均在3s内完成。对于明细表的展示,均在1s内即可完成。数据模型建立简单Discovery支持直接连接RDBMS或者Hadoop数据仓库、ROLAP和MOLAP连接Hadoop数据仓库,通过简单的Drag&Drop即可实现数据模型的建立。开放架构方便集成Discovery可以结合数据仓库使用,也可以直接连接ERP/CRM等业务系统的数据源,扩展现有系统的功能,更好的利用现有IT资产。Discovery采用开放的SOA架构,提供了丰富的API接口,能够方便地融合进其他应用系统,能方便实现与第三方系统的用户和权限整合。易于非技术人员使用传统BI的繁杂之处主要体现在两个方面:技术人员需要花费大量时间准备数据以及业务人员基于数据偶得的一些分析需求实现过程复杂。Discovery基于明略MDP产品、结合BI的需求,提供完整的ETL工具协助用户自行进行数据准备,大大降低了非IT人员使用产品的门槛。实施周期短、维护简单由于Discovery特有的数据准备模块,除去原始需求沟通时间,技术人员在实施时无需花费过多的时间来进行数据处理,而Discovery特有的建模流程能够极大的减少需求多变导致的数据准备和沟通交流时间,真正做到了了实施周期短,后期也无需投入过多的人力和时间来维护系统,解决需求上的变动。交互式体验构建数据视图视图是从一个或多个实际表中获得的,用于产生视图的表叫做该视图的基表。一个视图就是行和列的集合,一般由以下组件组成:标题、轴、区、单元格和标记。提供以下几个功能模块来帮助用户构建数据视图:拖动字段用户可以通过将字段从数据窗口拖到视图中来构建数据视图。用户可将字段拖到视图中的各种活动区域,或者将字段放置在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论