GBASE培训总结.docx_第1页
GBASE培训总结.docx_第2页
GBASE培训总结.docx_第3页
GBASE培训总结.docx_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题10PB/节点有效数据?支持infiniband网络?PB级支持能力?pdf2ppt?备份库不能选库必须为全量?集群内跨库操作映射不支持?按秒存储时间?背景:三大应用OLTP-OLAP-NOSQLOne size fits all to much size fit all集群架构特征:应用程序(接口层SQL-任一节点访问)数据库节点(集群)(负载平衡)数据分发节点(ETL)外部数据来源集群结构:节点192个规格(64组*3节点),内部高速互联分布式任务下发与回应集群管理工具-集群节点N节点GCCLUSTER数据管理层分解SQL任务管理,不进行计算节点NODE数据存储计算实例,直接加载数据,不需经过GCCLSTER节点GCWARE节点管理,节点为单位,非数据位单位SAFE GROUP:多个节点组成,数据互为备份,根据数据量高可用要求进行配置节点数,组数,扩展时以safe group为单位进行,不是以节点为单位扩展,多副本(目前最多2副本,3节点1个组)上部是应用接口层下部是基础层(UNIX系统)再下是数据分发节点及外部数据来源核心技术:1, 列存储,数量大越大效率越高2, 高效压缩 1:20,提升I/O性能,以列为单位选择灵活压缩,表级压缩,配置文件配置全局压缩,优先级列-表-全局三层压缩;列压缩方式选择(0,0)(1,3)(5,5),新建表才能改数据列压缩模式,旧的存储不能更改。3, 智能索引:以数据包为单位建立索引,可扩展,占领空间小4, 双向并行:单表 300GB/小时,多表300GB/小时,集群(20节点以上)2TB/小时5, 全文检索:增加工具doc2txt,建立全文检索等模块,并行完成理论极值:列存 1TB-100GB自适应压缩 100GB-10GB智能索引 10GB-1GB并行逐步提升处理效率架构演进:单机数据库计算集中,存储集中共享数据库 计算分布 存储集中MPP+Shared nothing 计算分布 存储分布场景应用:分析类应用 查询统计 数据挖掘 全文检索优势体现:优秀与适合比较PCSERVER+LINUX+SATA vs 小型机+UNIX+阵列硬件成本几万元目标:2014结构化+半结构+非结构(30PB,500节点)对接HADOOP可以处理非机构化数据如语音,视频等数据流继续优化2013实现的功能包括阵列混存等安装与卸载集群规划a.数据模型规划数据部署方式:复制表(节点内,小表,或与其他表join较多的as复制表) 分布表(组内节点间,大表as分布表)分布表:随机分布表 轮询, 易有瓶颈;HASH分布表,以某一列做HASH计算,算出每个行(现在已经是块,65536行就是一个块,不是行)的HASH值进行节点分布,若HASH值分布密集也可能存在瓶颈b.空间规划2节点or 3节点 做安全组单节点:数据存储空间(复制表,分布表,分布表复件,索引),运算存储空间 硬件高可用多网卡绑定:适配器容错,主备方式;负载均衡系统占用1TB空间,ext4格式化,OPT目录存储业务数据及元数据gcnode,索引与元数据Gccluster目录大小:节点/ 50GB, /opt TB级别客户端安装企业管理器JDBC节点或者Gccli 用户文件复制客户端 cat /日常维护命令行方式Gcadmin 查看正常的集群工作状态 active(前集群中Olline的节点个数大于1/2时),locked(当前集群中Online的节点个数小于等于1/2 时),模式 noarmal readonly recover节点工作状态 online offiline 各模组进程的工作状态open close,datastate 节点数据一致性0 1 nodestate节点一致性offline检查(节点硬件,gcware启动,)模组进程close排除(7进程,ps ef|grep进程名,service进程名 status,单独启动、停止进程)数据恢复datastate状态为1的故障排除(自动修复,节点内尽快恢复,集群层面加锁恢复后解锁,几秒周期比对,检查错误日志发现即触发,先DDL对表架构无操作后DML对表有增删改有操作)手工节点故障排除(短时间无法修复需设置节点状态failure gcadmin setnodestate nodeip 192.168.1.2 failure)此时所有表锁住,然后自动恢复数据normal后再解锁。Gcadmin helpGcadmin showlock(Orphan 孤儿锁 孤节点)nmon检查内存使用率df h 检查磁盘空间批处理SQL文件(-f强制执行出错场景)用户密码加引号,否则是加密的非明文密码,比如123456授权grant all on test 收回revoke查看本节点线程showfull processlist查看集群压缩Desc test.t 查看列扩容风险大,按组增加,需先规划(多种方案手工自动),再数据重分布(均匀分布或非对称分布)Gcinstall.py扩容数据重分布过程中集群状态:normal-readonly(耗时最长)-recover-normal三个阶段:数据准备-数据切换-数据清理恢复配置文件与原有最好修改为一致,避免因为默认与需求修改导致差异化管理工具集群加载dispserver-dispcli-gbloader加载流程错误数据日志,出现大量数据错误时,可以手工终止加载分析原因后再继续加载,比如任务文件定义不对导致的,分隔符问题,表定义不符,精度问题,datetime问题,空值问题等;加载超时,比如网络故障;加载导致集群节点lock,需查看dispcli的log分析启动同步工具同步数据;磁盘空间不足,清理垃圾log。Gcdump导出表结构和存储过程(gcdump导出数据比较慢)查询结果导出(分布表可以导出为一个文本文件)集群备份与恢复(不能写readonly,全备,增备,从全备恢复故障数据,交互式或命令行式,定期任务执行命令行式,本地与异地备份恢复,银行异地恢复专门的备份服务器且空间占用小)监控工具查看,不能对节点做操作采集中心采集代理监控网站生产环境不建议部署在同一台机器上监控任务临时打开关闭Show variables like %sql_sta%Set globeSQL介绍数据类型严格和近似(是否四舍五入)与其他数据库对比Int1、8Smallint bigint系统函数与其他数据库对比Gbase length 、char-lengthOracle lengthb、lengthtrim去除语法标识符64,256Delimiter |Delimiter ;数据库对象数据库 gbk,utf8字符集;表;视图;索引;存储过程;自定义funtion;Alter table 表名,加减列,修改列位置,但不能修改列属性,字符集,数据类型等,因为压缩导致或字段字段变长?Truncate table不记录日志,删除所有行比delete快(delete打删除标记,数据还在),和drop table 差不多快,都可以释放空间,空间大小不变,空间利用率变化?表语法hash分布-distributed by 列选择count(distributed)大的等复制表语法(select 随机分布like复制与原表一致)nocopies表(可以被gcdump出表结构,转换成非nocopies可以导出数据,即做复制)临时表(不可以被gcdump出表结构,session关闭就消失,不会被备份,省空间)索引indexglobe(行),locale(DC datacell块,32K宽?)系统表informationschema全库查询每类数据库对象Procedure、functionCreat /alter/drop,不能设断点,调试,直接使用select查询结果做判断比较麻烦Delimiter | (begin end)Delimiter ;Show procedureDecla

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论