




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据平台方案及案例分享Analytics and Big Data on Power目录大数据与分析概述高性能运算Symphony解决方案DB2 BLU助力高性能数据集市大数据案例分析大数据与分析概述“上个月在瑞士达沃斯举行的世界经济论坛上,大数据是一个热点话题。在论坛的一份报告大数据,大影响中声明: 数据已成为一类新的经济资产,就像货币或黄金一样.“公司被数据淹没了从客户的习惯到供应链的效率。但是许多经理却不能理解这些数据的意义.”“越来越多的企业使用大众媒体去分析公众对产品的反馈,例如Facebook或Twitter, 也有使用网站资源试着“了解客户,是什么让他们选择他们想要的东西” 负
2、责IBM预测分析项目的迪阿德瓦说。“大数据已抵达Seton医疗保健家庭,幸运的是, 通过使用这个分析工具,每年超过200万复杂病例的患者得到了帮助”“数据是新型石油”未开采的石油,没有什么价值。 加工及提炼后,将助力世界。“现在,沃森 正投入到工作中,消化了数百万页的研究, 结合最佳的临床实践和监测结果,以协助医生治疗癌症患者.”奥斯卡情感测量 一种工具,是由洛杉矶时报、IBM和南加州大学安创新实验室共同开发的 分析意见,“主要针对Twitter上共享的百万条奥斯卡奖项比赛的公共信息做出的分析意见.”“数据是新型石油.”Clive Humby大数据来自哪里? 截至 2011 年末网络上有超过
3、20 亿人现在有300 亿 个 RFID 记(2005 年时有 13 亿)全球有46亿 台照相手机每年售出数亿台支持 GPS 的设备在 2009 年有7600万 台智能仪表 至 2014 年将达到 2 亿台每天有超过3亿活跃用户每天有超过25 TB 日志数据每天有 超过1亿 条消息大数据的特点综合分析覆盖面越来越宽的种类应对日益增长的速度有效地处理日益增长的数量建立大数据来源的真实性三分之一商界领袖感到无法信任那些帮助他们做决策的信息50 x35 ZB20202010300亿RFID传感器和计数器世界上80%的数据是非结构化的大数据会影响到您业务的方方面面了解关于您客户的一切从渠道交互到社交媒
4、体,通过分析所有数据来源帮助您了解您的每位客户零延迟操作分析所有可用的操作数据并且实时做出反应,从而优化流程。通过成本效益技术降低IT成本。在速度和规模上实现新产品创新捕获所有来源的反馈,分析庞大的市场环境,研究大量的数据,从而推动创新。即时的欺诈和风险意识通过分析所有可用数据来打造更好的欺诈/风险模型,用流数据交易分析来实时监测欺诈利用仪表化资产监控资产通过实时数据反馈来预测和预防维修问题,并且开发新产品和新服务。大数据主要与大型数据集相关 在大数据的新世界中,我们必须更换所有陈旧系统大数据就是 Hadoop较为陈旧的事务数据已经不再重要数据仓库已是昨日黄花大数据适合熟知互联网的企业。传统业
5、务与大数据毫无关系我们不具备相应的需求、预算或者技能,因此我们不必为此担心人们对于大数据的观点是怎样的研究显示了实施大数据的4个阶段大数据采用当基于当前的大数据活动级别而划分为 4 个小组时,受调查者在组织行为上表现出显著的一致性 受调查者总数 n = 1061由于舍入原因,各个比例总和不等于 100%6%部署两个或更多大数据计划,继续应用高级分析占总受调查者的百分比执行22%试点大数据计划,以验证价值和需求占总受调查者的百分比试点47%基于业务需求和挑战开发战略和路线图占总受调查者的百分比探索24%专注于知识收集和市场观察占总受调查者的百分比学习智慧分析数据仓库大数据平台加速器流计算数据 仓
6、库Hadoop系统信息整合与治理应用开发发现系统 管理内容管理数据仓库流计算Hadoop 系统信息整合与治理大数据平台系统、存储和云业务分析内容分析决策管理风险分析绩效管理商业智能与预测分析大数据分析内容分析预测分析决策管理社交媒体分析分析整合与治理IBM提供了全面的、整合化的大数据和分析方法Hadoop 系统管理多样化海量数据企业级应用增强了开源Hadoop能力流计算用于分析流动的数据能够处理分析多种数据 通过高级分析运算符来支持结构化,非结构化,视频,音频等数据仓库工作负载均衡的MPP架构,支持高性能的OLAP及混合型的操作和分析负载数据可视化企业级搜索引擎图形展现海量分析结果IBM大数据
7、平台 BAO方案整体技术架构从哪里来?是谁?到哪里去?大数据解决方案出现之前传统的计算模式数据源数据抽取数据仓库场景模型策略 /计划平衡计分卡预测 / 预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理 行业情报 ERPHRSCMCRMStatistics外部数据财务预算数据员工状态 设备状态客户信息分析报告ETL: 抽取、转换和加载数据源数据抽取数据仓库场景模型策略 /计划平衡计分卡预测 / 预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库
8、数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理 行业情报 ERPHRSCMCRMStatistics外部数据财务预算数据员工状态 设备状态客户信息分析报告ETL: 抽取、转换和加载电商、微博、社交网站、平安城市等产生大量社交数据、日志、图片、视音频数据. 海量数据汇总、统计耗时太长,满足不了业务部门的时效性需求;传统计算模式遇到的困难某些业务部门需要实时数据分析,数据一边产生,一边进行分析,以应对市场压力数据产生速度快,数据量巨大,种类繁多,非结构化数据占了80%以上Hadoop 并行计算模式HDFSHadoop D
9、istributed File System。HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。MapReduce 大数据技术与传统数据处理技术的关系 超越和补充传统数据处理技术实时数据处理Internet级别海量数据存储与分析传统数据仓库In-Motion AnalyticsData Analytics, Data Operations & Model BuildingResultsInternet S
10、caleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency ResultsInfoSphere Big Insights传统/关系型 数据源传统/非关系型数据源传统/关系型 数据源传统/非关系型数据源高性能运算Symphony解决方案大数据常见应用场景举例影像管理(各类单据的扫描件、地图影像),非结构化/半结构化数据存储和分析(XML文件、文本日志文件)典型应用: 测绘行业系统、地图服务提供商产品、公安部、银行/税务票据管理、电信详单日志分析、各类终端采集数据分析常见痛点:存储成本/性能,关系型数据库性能/功能问题
11、。业务/产品/服务创新典型应用: CDR分析,舆情分析,LBS,广告精准投放,移动终端服务/智慧XX (电表数据分析、HIS,电子支付),精益生产、反洗钱常见痛点:实时性、数据来源多样、数据量大计算密集型应用高性能计算技术非常适用典型应用:保险精算、银行风险分析、信用卡欺诈分析常见痛点: 实时性、多种数据源要形成统一视图IBM大数据平台优势1-高性能国内运营商进行的基于Hbase的数据查询测试,取得315倍的性能优势国内运营商进行的基于Hive的数据分析测试,取得911倍的性能优势数据加载场景每核加载速度为x86核的11.18倍数据分析场景每核分析速度为x86核的9.63倍为什么Symphon
12、y更快?Job Tracker/Task Tracker 用C+/C编写资源管理和任务管理解耦. 支持300 并发job trackers; 1000 并发 jobs/job trackerSOA架构,共享服务(reuse JVM across many tasks)使用TCP原语和二进制编码,取代 http and text/XMLPush protocol avoids task tracker pulling tasks and the delay caused by pulling interval专利的 asynchronous persistency protocol 以保证可靠性
13、和性能Note: Hadoop Results were published byCloudera at Hadoop World event Dec, 2011.Hadoop jar example.jar sleep mt 1 rt 1 m5000 r 1Tested on 10 hosts21IBM大数据平台优势2-高可靠从硬件、文件系统和分布式计算框架所有层面采用高可靠设计架构,杜绝基于开源产品的不可靠问题Symphony计算框架:经过接近20年全球成功企业应用考验的高可靠性框架,不仅本身可靠性高,不存在单点故障,而且通过对下层硬件资源的先进管理功能,实现物理资源与逻辑资源的解耦,实现
14、资源的动态加减和黑名单等机制,彻底解决硬件故障的透明failover问题GPFS-FPO文件系统:经过20多年全球无数应用验证的分布式文件系统,成熟、可靠,GPFS-FPO采用去中心化设计(元数据分散存储),天生不存在NameNode的单点故障和可靠性瓶颈问题PowerLinux在RAS特性方面全面领先X86平台IBM大数据平台优势3-好维护IBM大数据平台优势4-高度兼容性Symphony和GPFS具有最广泛的兼容性,只要是基于Hadoop架构标准接口开发的软件都可以100%兼容,如Hadoop Hbase, Pig, Hive, Java MR, Oozie等各种知名的Hadoop开源方案
15、不仅兼容开源方案,还支持各种商业分析软件,如SAS、SPSS、Murex, Algorithmics, Sugard, Calypso, TillingHast 等 兼容各种Java、R、C/C+等各种开发语言,兼容各种文件系统及数据库,如HDFS, GPFS-FPO,RDMBS, MPP等,兼容Linux、Windows、AIX等各种OS平台,兼容X86、Power等各种硬件平台,支持虚拟机和物理机混合组网使用IBM大数据平台优势5-技术支持核心产品由IBM自主开发,拥有完全的技术研发与支持力量全球26个研发和销售机构,300+的研发团队分布在北京和西安两地强大的QA和服务支持团队,强大的本
16、地售后支持力量专业的定制化开发团队业界公认的大型网格/工作负载管理的领导者全方位的技术支持服务评估规划与咨询服务建设设计与实施服务管理管理与维护支持服务IBM大数据平台优势6-高效可靠文件系统GPFS-FPO替换HDFS,更可靠、更高效对于需要随机I/O的 SQL查询,JAQL查询等对于需要线性排序的sort操作来说BigInsights 提供2至3倍与开源Hadoop技术的性能文件索引等查找效率17倍于开源Hadoop技术,得益于Client Cache能力HadoopIndexing (HDFS)DatabaseUpload (ext3)Web ServiceLayerCopyFetchH
17、DFS:Extra copy overhead and network fetch, separate clusters for analytics and databaseHadoop Indexing + Database Upload (GPFS)Web ServiceLayerCacheGPFS:Single cluster for analytics and database, no copying required, caching for web layerWorkload IsolationProven data integrityReplicated metadata ser
18、vicesYahoo keeps 3 copies of 3 versions of HDFS because of unknown data integrity 1Quantcast deletes files once HDFS is 50% full 21 Care and Feeding of Hadoop Clusters, Marc Nicosia, Usenix 20092 The Komos Distributed File System, Sriram Rao, Quantcast Inc.GPFS-FPO Key technology Locality awareness
19、Write Affinity Metablocks Pipelined replication Distributed recovery超过20年发展的成熟的企业级文件系统 vs HDFS 4年发展历史IBM企业级支持的商用软件 vs HDFS开源软件POSIX兼容,同时支持传统文件访问和Hadoop应用 vs HDFS不兼容POSIX内建的安全特性和高可用性(集群管理节点 e.g.) vs HDFS namenode单点跨数据中心复制容灾 vs HDFS无远程复制GPFS-FPO去中心化设计,高性能与高可靠可扩展的IBM SystemsConfiguration初始配置半机柜配置1st Th
20、ru 4th 满机柜附加满机柜Usable StorageUp to 108TBUp to 324TBUp to 684TB per rackUp to 720TB per rackUser spaceUp to 36TBUp to 108TBUp to 228TB per rackUp to 240TB per rack 可扩展得多个入门方式从很小的规模起步逐步扩大 支持多种工作负载的灵活的 CPU, 内存, 存储和网络 选项IBM PowerLinux 7R1 便捷、高效的入门级产品可靠设计Single socket , 2U rack8-core 3.55GHz POWER7 proce
21、ssorUp to 128 GB memory with 8/16/32 GB DIMMs First 32 GB included in base package高扩展性和强大虚拟化能力Up to 24 SFF hard drives per 2U storage expansion drawer (L1S)PowerVM exploiting integrated hypervisor8246-L1C / 8246-L1S GA on August Virtualization & ManagementOperating SystemsLinux only POWER7One socket
22、, 2U rackIBM PowerLinux 7R2 -高性能、灵活配置Operating SystemsVirtualization & Management 高系统密度Two Socket, 2U Rack16-cores 3.3 GHz and 3.55GHz POWER7 processor256 GB maximum memory with 2/4/8 GB DIMMs - First 32GB included in 3.55GHz processor base package - First 64GB included in 3.3GHz processor base pack
23、ageUp to 20 7R2s in a single 42U rack 强大的I/O和硬盘扩展性Up to 24 SFF hard drives per 2U storage expansion drawerPCIe (Gen 1) Expansion Drawers 4U two flavors (L2S only) 高效的虚拟化能力PowerVM exploiting integrated hypervisorSupport up to 10 VMs / core, 160 VMs / serverLinux only POWER7Two socket, 2U rack8246-L2C
24、/8246-L2SGA on JuneIBM Storwize V7000 在单一系统整合了块和文件存储 自动存储分层 基于实时应用分析模式的先进的技术,可以自动在存储层之间迁移数据 新一代图形化界面(GUI) 易于使用的数据管理图形化用户界面,拥有极其简便的“点选式”系统管理功能 性能 针对在线备份、测试和数据挖掘,支持更快和更高效的数据拷贝Virtualized Storage System300% Performance Improvement Automatic migration to high-performing SSDsXIV 系列为应用程序提供顶级的性能Oracle Data
25、 Warehouse (IOPS)Oracle DHW WorkloadWatch the video: XIV Gen 3 “Straight Talk on Performance”SAS Business Analytics WorkloadAnalytics reports createdFlash无处不在的优化和调节是解决方案的主题Flash 将被同时部署在整体架构的每一层存储子系统网络设备PCIe 设备ApplicationServerApplicationServerStorage systemNetworkStorage basedRemotereplicationSSDSSD
26、VMVMVMVMVMVMEphemeral StorageHigh perf, working setData MoverEasy Tier CoordinationDRAMSSDWhy?性能敏感的应用程序HDD的性能优势Flash 超越内存的性价比优势分离的缓存和分层的协调是至关重要的效率数据完整性/缓存一致性DRAMDB2 BLU助力高性能数据集市使用DB2 BLU on Power构建高效内存数据集市 DB2 BLU是一种能极大提高OLAP业务性能的新技术DB2 BLU为DB2数据库添加列式存储功能充分利用CPU架构的新运行时技术,直接内置在DB2内核中高达10倍的压缩比极大提升OLAP
27、查询性能DB2 BLU 利用SIMD 处理指令获得更好的性能Cognos BI ,带有 BLU Acceleration多平台软件分析 数据集市(BLU 表)Oracle 或 Teradata 仓库的性能较差创建表,加载并启动!即时性能提高处理 TB 级数据无需创建和调优索引/聚合 多平台软件的灵活性Cognos BI ,带有 BLU AccelerationDB2 BLU on Power用例1 企业数据仓库卸载数据集市加速EDW 应用程序OLAP 应用程序轻松创建和加载BLU Acceleration 内存中集市多平台软件分析 数据集市(BLU 表)ERP 或其他事务性系统 轻松创建和加载
28、BLU Acceleration 内存中集市事务性数据库DB2 BLU on Power用例2 分析数据集市 从事务性数据库创建表,加载并启动!即时性能提高处理 TB 级数据无需创建和调优索引/聚合 多平台软件的灵活性业务线分析数据集市 运营只需加载数据就可以启动像所宣称的那样易于评估和执行 BI 开发人员和 DBA - 更快地交付成果无需配置或物理建模无需索引或调优 - 开箱即用的性能数据架构师/DBA 可专注于业务价值,而不是物理设计 ETL 开发人员无需聚合各个表 - 更简单的 ETL 逻辑更快的加载和转换速度 业务分析师真正的即席查询 - 无调优,无索引针对大型数据集提出复杂的查询DB
29、2 BLU七大特点之一 :简单易用 2013 IBM CorporationDB2 BLU七大特点之二 :卓越的压缩 更少的数据存储空间同未压缩数据比较,平均可以节省95%的数据存储空间只需要存储表数据,不需要额外空间来存储索引等其它类型数据应用了多种压缩技术所有操作都在压缩数据上进行针对不同数据类型应用最优的压缩算法更多的细节参考后面的内容42没用SIMD 技术的CPU每条指令职能处理一个数据DB2 BLU七大特点之三 :充分利用CPU的SIMD特性 利用Single Instruction Multiple Data (SIMD)特性增加性能DB2 BLU 能够在一个指令中同时对多个数据进
30、行操作包括比较,Join, 分组和数学计算Compare = 2005Compare = 2005Compare = 20052001指令结果数据200220032004200520052006200720082009201020112012ProcessorCoreCompare = 20052001指令结果数据200220032004200520062007Compare = 2005Compare = 2005Compare = 2005Compare = 2005Compare = 2005Compare = 20052005ProcessorCoreDB2 BLU七大特点之四 :内核
31、友好的并行化 更加关注于服务器的硬件设计因素DB2 BLU中对表的查询将自动以并行化的方式处理将CPU缓存,高速缓存块(cacheline)的效率最大化QUAD CORECPUQUAD CORECPUQUAD CORECPUQUAD CORECPU 2013 IBM Corporation44DB2 BLU七大特点之五 :列式存储 2013 IBM Corporation44 2013 IBM Corporation44减少I/O只处理查询关注的列中的数据直接对相关列进行运算 所有的运算,Join仅对关注列进行在必须返回结果集前,数据将不会组合成行的形式提高内存中的数据密度列中的数据在内存和存
32、储中始终保持着压缩的形态 卓越的压缩提供更高的压缩比10:1(DB2 BLU) 高效的缓存数据被组合成利于缓存和寄存器处理的格式 2013 IBM CorporationDB2 BLU七大特点之六 :优化内存/缓存管理 2013 IBM Corporation 2013 IBM Corporation全新的缓存算法使内存使用更高效更高的内存命中率新算法尽量保证热点数据保存在内存中数据可以大于内存空间不同于常见的内存数据库,数据不必完全在内存中优化以减少内存和存储的I/O交互RAMDISKSNear optimal caching 2013 IBM CorporationDB2 BLU七大特点之
33、七 :数据跳过 2013 IBM Corporation自动监测一段数据是否符合查询的忽略条件能够节省大量的I/O,内存和CPU资源不需要数据库管理员进行任何定义 大数据案例分析大数据实施案例:某国外大型汽车制造企业大数据平台某市智能交通项目50IBM Platform Computing 支持多种不同金融应用类型工作负载MurexMicrosoft ExcelSungard Front Arena, AdaptivAlgorithmics Algo RiskMilliman Hedge, AlfaPolysysMoodys / FermatCalypsoSAS Enterprise Mine
34、r / Data MinerSophis / Misys RisqueGGY AxisOpenlinkKondor+Revolution RISV 应用软件风险估值 VaR (value at risk)信用值调整CVA (credit value adjustments for CCR)资产负债建模ALM (asset liability modeling)灵敏度分析信用等级评分抵押分析可变年金建模 模型回溯测试 投资组合压力测试数据的提取,转换和加载 ETL策略提取Strategy mining精算分析在爱Citi分析网格Citi 计算和数据结合型网格系统,主要为风险分析在一个共享的网格资
35、源里运行着200 以上不同的 BI 和零售分析应用 全球动态共享的40,000 cores 能够持续维持70% 以上的利用率超强的管理效率 管理者与主机的比为 1:400作业吞吐量 400,000,000 作业 / 天14 条不同的业务线共享着全球的HPC资源为每个商业业务单元确保SLA s时间指标, 实现广泛的资源共享4 个数据中心包含了异构的Linux & Windows 主机, 一处在伦敦,一处在香港,还有两处在美国 处理国内增长的风险,定价应用和其他的商务应用,与SAS, Murex 等集成. 异构的工作内容 (批处理, SOA, 计划部署 Map Reduce)自定义服务, 报表和退
36、款实时的监控和管理主机, 所有全球资产的完全可视化针对整个企业相关应用和风险控制的全球资源分配方案在数据中心和功能域基础上的有关LOBs和应用的弹性的资源分配模式横跨整个地域的有关 LOBs 和应用的全球资源共享视图案例分析 花旗银行根据银监会的要求,国内商业银行需要2015年前满足中国版巴塞尔协议III对银行业风险控制的要求,国内目前已经有多家银行使用Algo风险管理模块流动性风险管理模型属于计算密集型,RiskWatch阶段占任务的95%以上,可以通过Symphony将RW作业并行化随着银行业务及数据量的增加,提高计算效率只需要增加Symphony的计算节点数目,可扩展性强银行业有很多计算
37、模型都可以通过Symphony来解决问题,比如MOSES, CALYPSO, RMATLAB, R Language业务场景Financial Risks 1. 选择感兴趣的地理区域客户挑战:目前基于Algo流动性风险分析系统风险管理应用每周运行一次,每次计算需要100+小时,不能满足未来应用扩展和可靠性需求,不能及时得出风险分析结果XX银行风险管理系统-业务描述1/3Algo EngineSym ServiceAlgo EngineSym ServiceAlgo EngineSym ServiceAlgo EngineSym ServiceAlgo EngineSym ServiceSym
38、Compute Hosts: 6 nodes * 32 cores = 192 coresSym MasterSchedule, Monitor, ManagementSym Master CandidateShare StorageSchedule, Monitor, ManagementSchedule, Monitor, ManagementAlgo EngineSym ServiceScale out 53Algo BatchCITIC RW AnalysisAlgo EngineClient RequestSingle Computing“使用了Platform Symphony 软
39、件,计算机资源的利用率大幅提高,Algo 计算时间大幅缩短,达到了预期的技术指标, 且Symphony 软件有丰富的API接口,易于集成其他软件,为以后的业务拓展和升级留下了巨大空间。” - 客户证言方案优势:单节点情况下客户的任务需要100+小时完成,使用Symphony后业务计算可以在10小时以内完成,速度提高10倍以上;例如:晚上运行风险分析任务,次日凌晨可得到分析结果,满足业务需求;可靠性大大提高,单一节点故障不影响整体系统运行;银行业务数据增加、业务计算时间要求缩短,可以通过增加Symphony的节点来完成银行风险管理系统-方案结构2/3Customer Case and Pain
40、PointSolutionsResultDemo PointsClient use Algo for the risk management.Its based on C/S architecture running Single node.With the business growth, the process cycle reached 100+ hours per week. Management could not get the report in the a business day.Symphony Scal-out the Algo application from sing
41、le node to 192 nodes.Symphony acting as middleware roles get the Algo client input and schedule the task in a distributed grid. The tasks can be processed in the grid concurrently. Symphony response to Algo client once the task finished.Show the single server process and say it can not be finished i
42、n 10 hours and stop it.Show the similar application process with same data in Symphony Grid and finished in 10 hours.See task progress on the GUISee the host manager from GUISee the CPU, I/O and show the finish timeClient can get the result in 10 hours. The time can be controlled by adding more serv
43、er in the Algo grid with business growth and process time is predicable.Besides, Symphony acting as general middleware can scale-out application like Murex, Moses, Calypso, Matlab, R etc.银行风险管理系统-案例总结3/3某市人民检察院客户行为分析 - 业务流程说明北京电信互联网行为标签系统,是汇聚电信用户通信、终端等上网数据,解析用户移动互联网流量行为,全角度刻画用户,为用户画像,细分客户群的分析系统,其输入数
44、据为北京电信用户DPI上网基础数据,输出为用户行为分析统计报表。主要功能模块APP数据采集:根据目前各市场及各省手机应用下载情况,选择建立标准APP库。站点信息采集 :站点信息定期爬取及更新,建立标准URL库用户行为解析识别:将用户的上网访问信息与app库进行比对匹配,对用户日志进行处理,解析用户下载和使用应用产生的记录分析统计输出:根据用户的应用下载、使用行为,输出满足客户需求的各项报表,并上传数据。性能案例:(来自文献:CloudBurst:highly sensitive read mapping with MapReduce):输入数据:测序数据7.06 minllion条36bp reads,人基因组genome(2.87G)软件环境:Hadoop 0.15.3, CloudBurst硬件环境:12nodes, 24cores(3.2GHz Intel Xeon), 250G硬盘测试结果:如下图,横坐标为reads数,纵坐标为运行时间,“0、1、2、3、4”为容错数。 DNA测序分析平台:Cloudburst数据过滤插入/缺失识别基因组学- SNP分析流程FastQ-Progressing (MR)FastQC (Single)Crossbow (MR)CloudBurst (MR)Soap2 (Single)Crossbow (MR)Soapsnp (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年天津市房产购买中介服务合同示范文本
- 2025建筑材料供应企业管理人员劳动合同(参考模板)
- 2025年办公楼租赁合同样式
- 2025年返销贸易补偿合同范本
- 2025家居建材购销合同范本
- 《安全同行之路》课件
- 《成本控制策略与应用》课件
- 经济对教育发展的影响分析
- 2025年福建福州榕发(连江)置业有限公司招聘笔试参考题库附带答案详解
- 脑卒中患者ADL的康复护理
- 2022全国高考真题化学汇编:专题 烃 卤代烃
- GB/T 25742.4-2022机器状态监测与诊断数据处理、通信与表示第4部分:表示
- 特殊感染手术的配合与术后处理
- 萧红《呼兰河传》课件
- 脑血管病介入诊疗并发症及其处理课件
- 机动车驾驶人考试场地及其设施设置规范
- 大学生三生教育主题班会
- 2023年宜昌市中医医院医护人员招聘笔试题库及答案解析
- 内部控制建设课件
- 水塘排水、清淤质量检验记录表
- 上海龙之梦丽晶大酒店客房预订单
评论
0/150
提交评论