




免费预览已结束,剩余4页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库生产环境操作手册数据仓库生产环境操作手册 一 运维概述一 运维概述 数据仓库生产系统 的运行维护责任在于保障系统运行 运维方式主要是 操作员通过工作机远程登陆到系统中的相关主机 对主机进行操作 包括 automation 调度系统 数据库 磁盘 软件环境 数据情况等 查看批出理的运 行情况 一旦运行出现问题作相应的记录并通知相关的技术人员 作出相应的处 理 所有运维项目成员严格按照 数据仓库系统运维守则 doc 文档来进行运维 检查工作 否则出现事故由值班人员和当日值班负责人承担事故责任 二 运维内容二 运维内容 1 每日维护 每日维护 1 1 数据检查数据检查 每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查 确保当 日批处理程序正常从事生产 检查工作在每日 9 00 9 30 之间完成 且必须在启动程序 批处理程序 前执行 具体规定如下 1 1 1 转定长数据的检查转定长数据的检查 每天上午 9 00 9 45 之间 运维值班人员进行这项工作具体执行步骤如下 1 在本地工作机上使用 telnet 远程登录工具登录到 168 7 6 163 服务器上 输入用户名 sjtq 密码 cib2009edw 2 输入命令 cd EDW sh log 3 输入命令 more yyyymmdd 当天的日志 是否有错误信息 最后数据是否都上传结束 4 以下错误属于正常情况 03 00 03 1 检查 20091031 标志文件失败 03 00 03 1 数据标志检查失败 等待 5 分钟 06001 dta varied 正常等待情况 5 检查点如下 1 每个大任务开始的初始化操作 03 00 00 0 环境变量设置完毕 2 数据装载 卸载 上传 整个模块处理结束的情况 05 41 50 2 装载 Unl 数据完毕 05 41 50 2 开始装载 BAK 数据 05 41 50 2 装载 BAK 数据完毕 05 41 50 3 开始卸载 fix 数据 06 26 11 3 卸载 fix 数据完毕 06 26 11 4 开始向批量数据交换平台送 fix 数据 06001 send ok 06001 send ok 06002 send ok 06002 send ok 07002 send ok 07002 send ok 06027 send ok 06027 send ok 06 28 56 4 向批量数据交换平台送 fix 数据完毕 06 28 58 END 6 查找是否存在 错误 出错 字样 7 检查的模块有 06001 input 06002 07002 06027 几个模块的转定长情况 都要看到正 常 END 结束 8 检查日志中是否存在跑到一半或一部分就终止的现象 如果没有转换成功或数据晚到 时间顺延检查 并将异常情况汇报给当日值班负责人和客 户 并记录异常到 异常情况登记及处理单 YYYYMMDD doc 中 1 1 2 源数据是否全部到达源数据是否全部到达 数据仓库每日 06 00 定时触发加载 在正常情况下 数据仓库项目组要求各系统源数 据抽取必须在每日 05 00 之前完成 并传送到上海数据交换平台 如果数据抽取或传送出 现错误 请源系统接口负责人在 06 00 前完成数据补导操作 加载触发之后 可以看到每台 etlserver 上都启动了 ftpall 和 getall 两个作业 其中 ftpall 脚本负责从数据交互平台获取源系统文件 getall 脚本负责对源系统文件进行解压 格式检查 并将检查结果存放在 DQC 日志表中 检查方法 检查项检查方法 1 FTP 是否结束查看 AUTOMATION Monitor 前台界面 Running Job 是否有 FTPALL ETL1 FTPALL ETL2 GETALL ETL1 GETALL ETL2 任务是否正在运行 若没有以上任务 说明从数据交 换平台 FTP 数据已经完成 如果还在运行 说明有些数据文 件还未到达 2 哪些接口文件未到达 可能性一 数据交换平台 查看当日 initall0090 pl 脚本的日志 例如 ETL LOG CTL 20060530 initall0090 pl 32 log 搜索关键字 没有该数据文件miss 就可以看到数据交换平台上哪些文件 包括数据文件 和标志文件 未到 3 哪些接口文件未到达 可能性二 FTP 下载时发 生错误 方法一 查看 ftpall0100 pl 脚本的日志 例如 ETL LOG CTL 20060530 ftpall etl10100 pl 29 log 可以看到 每个源系统数据的实时到达情况 方法二 登陆兴业银行数据仓库 DQC 管理系统 点击左边的 源数据文件接口定义维护源数据文件接口定义维护主题 输入源表系统名或表名进行模糊查询 处理方法 如果超过这个时间检查顺延 如果超过 10 30 源数据还没到 etl 服务器上则通知值班负责 人和客户 联系方式见 客户和值班负责人联系清单 doc 并记录异常到 异常情况登记 及处理单 YYYYMMDD doc 中 1 1 3 下游系统数据是否全部给出下游系统数据是否全部给出 每天上午 9 00 9 30 检查给下游系统的数据是否全部给出 这项工作非常重要 仓库目前有很多应用 而导数及上传脚本并非都有时时报错机制 特别是上传脚本 本项 工作为检查上一日给下游供数情况 具体操作如下 1 执行以下 SQL 如果返回结果为 0 表示所有下游脚本运行正常 selectselect fromfrom etlauto etl job wherewhere etl system inin SUB ARM AML TSR EBM RPA CS3 ICR PMS andand Last JobStatus DONE andand enable 1 andand Last txDate 数据日期 2 查询所有给下游的数据个数 表示所有下游脚本运行正常 select count from etlauto etl job where etl system in SUB ARM AML TSR EBM RPA CS3 ICR PMS and Last JobStatus DONE and enable 1 and runningscript like 0110 and Last txDate 2009 11 05 3 到 168 7 6 94 服务器 E zhangliang 每日值班 下游数据统计软件 目录下运行程序 将运行结果和步骤 2 的结果进行比对 4 如果发现有未给出的数据 则查找原因 找到原因后通知值班负责人和客户 并记 录异常到 异常情况登记及处理单 YYYYMMDD doc 中 1 2 数据库数据库 1 2 1 STAGE 区库空间检查区库空间检查 值班人员每天早上 9 00 必须看数据库 STAGE 各子库的空间情况 MaxPerm 是否比 CurrPerm 多 20 的空间 若没有 需通知通知值班负责人即时处理 具体操作步骤如下 1 到 168 7 6 94 服务器上 E zhangliang 每日值班 统计库空间软件 目录下双击 dbspcount bat 软件 2 查看 DatabaseSpace log 日志最近一次的统计结果 如果发现对应的库的 per 有超过 90 的使用率的就需要增加空间了 处理方法 如果空间不足需通知通知值班负责人分配库空间 1 2 2 APP SPACE 库空间是否足够库空间是否足够 值班人员每天早上 10 30 必须看数据库 APP 下面各子库的空间情况 MaxPerm 是否 比 CurrPerm 多 20 的空间 若没有 需通知通知值班负责人即时处理 具体操作步骤如下 1 到 168 7 6 94 服务器上 E zhangliang 每日值班 统计库空间软件 目录下双击 dbspcount bat 软件 2 查看 DatabaseSpace log 日志最近一次的统计结果 如果发现对应的库的 per 有超过 90 的使用率的就需要增加空间了 处理方法 如果空间不足需通知通知值班负责人分配库空间 1 2 3 PDM 库空间是否足够库空间是否足够 值班人员每天早上 9 20 必须看 PMD 下面各子库的空间情况 MaxPerm 是否比 CurrPerm 多 20 的空间 若没有 需通知通知值班负责人即时处理 具体操作步骤如下 1 到 168 7 6 94 服务器上 E zhangliang 每日值班 统计库空间软件 目录下双击 dbspcount bat 软件 2 查看 DatabaseSpace log 日志最近一次的统计结果 如果发现对应的库的 per 有超过 90 的使用率的就需要增加空间了 处理方法 如果空间不足需通知通知值班负责人分配库空间 1 2 4 94 95 磁盘空间是否足够磁盘空间是否足够 值班人员每天早上 9 10 必须看 168 7 6 94 168 7 6 95 服务器 d 盘 e 盘空间情况 检查方法 1 打开 我的电脑 观察 D 盘 E 盘磁盘空间 必须有 30GB 以上的剩余空间 处理方法 2 如果没有 30G 的存储空间 需通知通知值班负责人及时清理垃圾文件 3 如果清理以后磁盘空间仍然不足 必须通知相关环境保障人员增加磁盘空间 1 31 3ETLETL 批处理批处理 1 3 11 3 1 AWSAWS 是否有报警显示是否有报警显示 硬件维护目前由客户方管理 因此节点硬件方面的巡检由客户方负责 1 3 21 3 2 ETLETL AUTOMATIONAUTOMATION 监控窗口是否存在异常作业监控窗口是否存在异常作业 值班人员每个工作日 9 00 17 00 必须每隔一段时间 10 15 分钟之内 看下 ETL MONITOR 监控窗口是否有 failed 的脚本错误提示或其它异常提示 具体操作如下 1 打开桌面上的 Shortcut to ETLMonitor jar 程序 datasource 输入 etldb 用户名密 码输入 etlauto etlauto 2 查看是否有 failed 的脚本错误提示或其它异常提示 若有发现 通知值班负责人 找到原因后通知客户 并记录异常到 异常情况登记及 处理单 YYYYMMDD doc 中 1 3 31 3 3 JobJob 状态是否正常状态是否正常 值班人员每个工作日 9 00 17 00 必须每隔一段时间 10 15 分钟之内 看下 ETL MONITOR 监控窗口是否有 failed 的脚本错误提示或其它异常提示 具体操作如下 1 打开桌面上的 Shortcut to ETLMonitor jar 程序 datasource 输入 etldb 用户名密码输 入 etlauto etlauto 2 查看是否有 failed 的脚本错误提示或其它异常提示 3 若有发现 通知值班负责人 找到原因后通知客户 并记录异常到 异常情况登记 及处理单 YYYYMMDD doc 中 1 3 41 3 4 数据日期的转换作业完成时间 数据日期的转换作业完成时间 CTLALLCTLALL 的时间 的时间 值班人员必须每个工作日下午 13 30 之前看下 etljob ctlall 是否完成 记录完成时间 具体操作步骤如下 1 到 168 7 6 94 服务器 E ETL LOG CTL 目录下查看当日日期的 ctlall 的日志时间 如果在 13 30 还未完成 通知值班负责人并一同查找原因 通知客户 并记录异常到 异常情况登记及处理单 YYYYMMDD doc 中 1 3 51 3 5 监控窗口是否存在长时间监控窗口是否存在长时间 runningrunning 或者或者 pendingpending 的作业的作业 值班人员每个工作日 9 00 17 00 必须每隔一段时间 10 15 分钟 看下 ETL MONITOR 监控窗口是否有 具体操作如下 1 打开桌面上的 Shortcut to ETLMonitor jar 程序 datasource 输入 etldb 用户名密码输 入 etlauto etlauto 2 看监控界面是否有很长时间都处于 pending 或 running 状态的脚本 若发现有一些脚本很长时间都处于 pending 或 running 状态的脚本 若有发现 通知值 班负责人 找到原因后通知客户 并记录异常到 异常情况登记及处理单 YYYYMMDD doc 中 1 3 61 3 6 上日上日 ALLDONEALLDONE 状态状态 值班人员必须每天 9 00 看下上日 alldone 的时间 1 到 168 7 6 94 服务器 E ETL LOG CTL 目录下查看上一日期的 alldone 的日志时间 若有发现异常情况 通知值班负责人 找到原因后通知客户 并记录异常到 异常情 况登记及处理单 YYYYMMDD doc 中 1 3 71 3 7 磁带空间是否足够磁带空间是否足够 值班人员必须在每天 11 50 之前查看磁带是否有足够的空间 以便数据备份需要 具体操作步骤如下 1 开始 程序 netvault media managent 查看磁带的使用情况 2 重点查看 L4 FS ETL SRC G1 L4 FS ETL SRC G2 L4 CIB DAILY DIC G1 L4 NV DB G1 L4 NV DB G2 L4 TD EBM G1 L4 TD EBM G2 永久备份的磁带空间是使用情况 若发现磁盘满的情况 通知值班负责人和客户 并及时记录到 异常情况登记及处理 单 YYYYMMDD doc 中 1 41 4 异常处理异常处理 异常处理工作由每日值班负责人来主导 和每日值班人共同完成 每日值班人员要详 细记录下整个处理过程 异常处理流程如下 1 找到问题原因 确定好处理方案 2 通知值班负责人 通知客户 说清楚问题及处理办法 3 得到客户授权 处理异常 1 51 5 备份备份 数据仓库生产运行系统每天生产运行结束后需要备份源数据 运行脚本 日志 数据 库等进行备份 备份到磁带库进行存储 有永久和没日循环两种方式 备份方式是通过 automation 调度机制调度脚本来触发 netvalut 进行备份工作 1 5 1 前一天备份耗时前一天备份耗时 值班人员必须每天 9 40 检查上日整个备份开始到结束的时间 具体操作步骤如下 1 打开数据库 sql assistant 2 输入如下命令 sel a1 duration from sel etl system min starttime timestamp 0 as start time max endtime timestamp 0 as end time end time start time hour to second 0 as duration from etlauto etl job log where returncode 0 and txdate 2009 11 05 改成相应的数据日期 and etl system BAK and etl system not in dqc group by 1 a1 如果发现时间很长 需要通知值班负责人进行分析 找到原因后通知值班负责人和客 户 并及时记录到 异常情况登记及处理单 YYYYMMDD doc 中 1 61 6 运维日志运维日志 运维值班人员需每天做运维日志 以便随时查看系统的运行状况 根据 168 7 6 94 服 务器 E zhangliang 每日值班 目录下的 兴业银行数据仓库运维日志 20090921 xls 来进行 每日值班检查工作 并做如实填写 如发生了异常情况 请及时填写 异常情况登记及处 理单 YYYYMMDD doc 2 2 定期维护 定期维护 2 1 94 95 服务器系统定期重启服务器系统定期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年气象观测员初级技能面试题解
- 2025年安全员高级安全技术题集答案
- 2025年建筑监理员面试模拟题及答案
- 2025年安全管理案例分析解析答案
- 2025年文化和旅游厅招聘面试模拟题及答题思路梳理
- 2025年无人机植保高级认证笔试题库
- 2025年机关事务局IT笔试模拟题集锦
- 2025年ESG咨询师面试技巧与模拟题答案
- 2025年大学生安全教育核心练习及答案
- 2025年安全生产法考试强化题库解析
- 肿瘤科专业组药物临床试验管理制度及操作规程GCP
- 汉字形旁分类及其组字表
- 微创外科课件
- 静配中心应急预案处理流程
- GB/T 21977-2022骆驼绒
- 心理-认识过程课件
- 静脉治疗护理质量评价标准
- 水电清包工合同(3篇)
- 《ACT就这么简单》课件
- 农机行政处罚流程图
- 沥青混合料低温弯曲试验2002363
评论
0/150
提交评论