Oracle_RAC安装实录.doc_第1页
Oracle_RAC安装实录.doc_第2页
Oracle_RAC安装实录.doc_第3页
Oracle_RAC安装实录.doc_第4页
Oracle_RAC安装实录.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

oracle rac安装实录 本系列文章全程记录安装过程中碰到的所有问题和解决手段。1.准备环境2.准备环境(续)3.hacmp安装配置4.oraclerac安装前准备5.安装oracle软件6.oracle建库7.rac使用和测试一、准备环境。搭设的硬件环境如下:44p270主机一台:375mhz powerpc_power3 cpu一颗、512 mb内存、18.2gb内置硬盘、主板内置网卡+2968以太网卡、6230 ssa卡;f80主机一台:450mhz powerpc rs64iii cpu四颗、2048mb内存、36.4gb内置硬盘、主板内置网卡+2968以太网卡、6230 ssa卡;7133-d40磁盘阵列:2块36.4b 1万转硬盘构成raid1阵列。最后的软件环境如下:aix 5l v5.2、ml04+iy64978+iy63366hacmp v5.1+u4981141.操作系统安装问题f80主机刚刚在厦门光荣退租,要重新安装操作系统。安装过程中发现一个奇怪的问题,很多执行文件的存取属性被清空(变成-)而导致无权限执行,这首先严重影响了打ml04补丁,bos.rte补丁中的一个script总是运行不成功,报/usr/lib/methods/cfgsf命令执行失败(bos.rte.config_u42: /usr/lib/methods/cfgsf: 0403-006 execute permission denied.update: failed while executing the bos.rte.config_u script.),结果bos.rte及依赖其的几个文件集补丁无法实施。因为cfgsf文件本身就属于bos.rte,installp在安装bos.rte的时候先把它的存取属性清除了(覆盖原文件),然后再执行它,所以在installp之前修改cfgsf的属性没有意义。解决方法比较笨拙,写一个死循环shell程序,不断地执行chmod 500 /usr/lib/methods/cfgsf命令(见下)。while truedochmod 500 /usr/lib/methods/cfgsfdone方过此关。存取属性被清空的执行文件还有很多,引发了相当多的类似问题,其中一个就是影响了包括ssa卡和硬盘在内的很多设备的识别配置,/usr/lib/methods/下的文件都要检查一下。还有/usr/ssa下的几个bin目录也要重新设置一下执行属性。因为在网上找不到类似的解决案例,我怀疑是手上的安装光盘有问题。 继续软硬件环境的准备。1.2.网卡问题270主机上的一块网卡,访问网络总是有问题,ping不通。换过网线、插槽都不行,但把卡插到另一台b50主机上,网络访问又正常,怀疑是270主机主板问题,执行diag诊断(要先ifconfig en1 detach,否则报设备忙,无法进一步诊断),报下面错误:srn: 777-104description: internal loopback test failed.probable frus:ent1 fru: 091h0397 p2-i4/e1ibm 10/100 mbps ethernet pci adapter (23100020)看来还是网卡有问题,回到b50主机再做diag诊断,也报类似错误,正式宣告该卡死刑。换了一块2968以太网卡,没再报网络问题了。1.3.创建增强并发访问卷组进行hacmp和数据库配置之前,要先准备资源,网络(ip和tty)、appserver和以前没什么区别,有特性的是共享卷组的准备。因为要并发处理,所以卷组要建成concurrent capable的,aix 5.2下只支持enhanced concurrent卷组:# mkvg -c -n -y datavg hdisk10516-1335 mkvg: this system does not support enhancedconcurrent capable volume groups.以前在网上碰到同样的报错求助,当时是胡乱猜疑,不达要点。这回找到了真正的原因没有安装bos.clvm.enh:# lslpp -l bos.clvm.enhfileset level state type description (uninstaller)-bos.clvm.enh 0 a f enhanced concurrent logical volume manager安装后,重新执行mkvg就正常了。 硬件环境和软件准备好后,接下来配置hacmp。二、hacmp安装配置因为是实验环境,hacmp配置不是一开始就制定好的,修正过几次,甚至到后面安装oracle碰了钉子,又再回过头来修改配置。2.1. hacmp安装在rac下,必须安装cluster.es.clvm.rte文件集,否则concurrent资源组无法增加并行卷组资源,安装后需重新启动主机,才可生效。最后系统里所有的hacmp文件集列表如下:fileset level state type description (uninstaller)-cluster.adt.* c f es client demoscluster.es.client.* a f es client librariescluster.es.clvm.rte c f es for aix concurrent accesscluster.es.cspoc.* a f es cspoc commandscluster.es.server.* a f es server diagscluster.es.worksheets a f online planning worksheetscluster.license c f hacmp electronic licensecluster.msg.* c f hacmp cspoc messages - u.s. english2.2. hacmp配置rac下,一般使用oracle自己的failover功能在客户端实现服务主机的切换。但还希望借助hacmp实现单机上的网卡热备,所以拓扑配置上有些讲究。想到cascading资源组中ipat会让service-ip地址从主机飘到备机上(所不愿见到的),所以先使用persistent-ip。经测试,persistent-ip可以在网卡失败时切换到备份网卡(但比service-ip花的时间要长不少,客户端中断感觉明显),功能基本满足要求。但实际使用中,这种配置方法给后面的rac安装造了不少麻烦,最后只能放弃。在rac配置上挣扎很长一段时间,被周平一句话点醒,可以用配置仅包含单个节点的cascading资源组,来避免service-ip地址在主机间的漂移。最终的配置下,各种莫名其妙的问题迎刃而解(看来rac与hacmp的拓扑关系密切)。最后的拓扑、资源配置如下:# /usr/es/sbin/cluster/utilities/cltopinfo -iip label network type node address if netmask= = = = = = =f80 net_ether_01 ether f80 08 p270 net_ether_01 ether f80 07 f80_boot2 net_ether_01 ether f80 08 en0 f80_boot1 net_ether_01 ether f80 08 en1 f80_tty1_01 net_rs232_01 rs232 f80 /dev/tty1 tty1f80 net_ether_01 ether p270 08 p270 net_ether_01 ether p270 07 p270_boot1 net_ether_01 ether p270 07 en0 p270_boot2 net_ether_01 ether p270 07 en1 p270_tty1_01 net_rs232_01 rs232 p270 /dev/tty1 tty1# /usr/es/sbin/cluster/utilities/clshowresresource group name oravgnode relationship concurrentsite relationship ignoreparticipating node name(s) p270 f80dynamic node priorityservice ip labelfilesystems allfilesystems consistency check fsckfilesystems recovery method sequentialfilesystems/directories to be exportedfilesystems to be nfs mountednetwork for nfs mountvolume groupsconcurrent volume groups datavguse forced varyon for volume groups, if necessaryfalsedisksgmd replicated resourcespprc replicated resourcesconnections servicesfast connect servicesshared tape resourcesapplication servers oraclehighly available communication linksprimary workload manager classsecondary workload manager classdelayed fallback timermiscellaneous dataautomatically import volume groups falseinactive takeover falsecascading without fallback falsessa disk fencing falsefilesystems mounted before ip configured falserun time parameters:node name p270debug level highformat for hacmp.out standardnode name f80debug level highformat for hacmp.out standardresource group name p270ipnode relationship cascadingsite relationship ignoreparticipating node name(s) p270dynamic node priorityservice ip label p270filesystemsfilesystems consistency check fsckfilesystems recovery method sequentialfilesystems/directories to be exportedfilesystems to be nfs mountednetwork for nfs mountvolume groupsconcurrent volume groupsuse forced varyon for volume groups, if necessaryfalsedisksgmd replicated resourcespprc replicated resourcesconnections servicesfast connect servicesshared tape resourcesapplication servershighly available communication linksprimary workload manager classsecondary workload manager classdelayed fallback timermiscellaneous dataautomatically import volume groups falseinactive takeover falsecascading without fallback falsessa disk fencing falsefilesystems mounted before ip configured falserun time parameters:node name p270debug level highformat for hacmp.out standardresource group name f80ipnode relationship cascadingsite relationship ignoreparticipating node name(s) f80dynamic node priorityservice ip label f80filesystemsfilesystems consistency check fsckfilesystems recovery method sequentialfilesystems/directories to be exportedfilesystems to be nfs mountednetwork for nfs mountvolume groupsconcurrent volume groupsuse forced varyon for volume groups, if necessaryfalsedisksgmd replicated resourcespprc replicated resourcesconnections servicesfast connect servicesshared tape resourcesapplication servershighly available communication linksprimary workload manager classsecondary workload manager classdelayed fallback timermiscellaneous dataautomatically import volume groups falseinactive takeover falsecascading without fallback falsessa disk fencing falsefilesystems mounted before ip configured falserun time parameters:node name f80debug level highformat for hacmp.out standard# /usr/es/sbin/cluster/utilities/cllsservoracle /hacmp/startapp.sh /hacmp/stopapp.sh# cat /hacmp/startapp.sh#!/usr/bin/kshbanner app start# cat /hacmp/stopapp.sh#!/usr/bin/kshbanner app stop鉴于数据库启动的复杂性,没有在appserver中启动oracle数据库。# lsvg datavgvolume group: datavg vg identifier: 000234ff00004c00000001015b74227avg state: active pp size: 64 megabyte(s)vg permission: read/write total pps: 543 (34752 megabytes)max lvs: 256 free pps: 311 (19904 megabytes)lvs: 22 used pps: 232 (14848 megabytes)open lvs: 15 quorum: 2total pvs: 1 vg descriptors: 2stale pvs: 0 stale pps: 0active pvs: 1 auto on: noconcurrent: enhanced-capable auto-concurrent: disabledvg mode: concurrentnode id: 2 active nodes: 1max pps per pv: 1016 max pvs: 32ltg size: 128 kilobyte(s) auto sync: nohot spare: no bb policy: relocatable# cat /etc/hosts loopback localhost # loopback (lo0) name/address07 p270_boot107 p270_boot07 p27008 f80_boot108 f80_boot08 f802.3. 启动hacmp启动hacmp碰到一些问题:f80: 0513-015 the snmpd subsystem could not be started.f80: please check subsystem resources and try again later.f80:f80: *f80: jan 10 2005 00:40:47 ! error !f80: *f80: jan 10 2005 00:40:47 clstart: unable to start cluster smux peer daemon (clsmuxpd) without snmpd.dsh: 5025-509 f80 rsh had exit code 1检查/usr/sbin/snmp*文件的存取属性,全部为空,看来还是安装操作系统时的老问题。更改成正确属性,启动恢复正常。# ls -l /usr/sbin/snmp*lrwxrwxrwx 1 root system 9 jan 07 01:16 /usr/sbin/snmpd - snmpdv3ne-rwxr-x- 1 root system 310990 jul 22 17:09 /usr/sbin/snmpd64v1-rwxr-x- 1 root system 273646 jul 22 17:09 /usr/sbin/snmpdv1-rwxr-x- 1 root system 271622 jun 05 2004 /usr/sbin/snmpdv3ne-rwxr-x- 1 root system 15848 jan 07 01:24 /usr/sbin/snmpinfo-rwxr-x- 1 root system 612075 jun 24 2004 /usr/sbin/snmpmibd-rwxr-x- 1 root system 696002 jun 24 2004 /usr/sbin/snmpmibd64-r-xr-xr-x 1 bin bin 16756 jun 05 2004 /usr/sbin/snmptrap-r-xr-xr- 1 root system 11876 jan 07 01:24 /usr/sbin/snmpv3_ssw戏台搭好,终于到安装oracle这步了,正式安装前还是有些功课要做。安装rac这部分,我主要是参照beta的总结文档,而这篇文档又来自itpub的fatstone(原链接就懒得找了,著者见谅),据说原始的祖宗是metalink上的step-by-step installation of rac on ibm aix,不过我是拜读过oracle这篇文章的,与最近的改过又改过的文章相比,已经是面目全非,看不出一点亲缘的关系了。三、oracle rac安装配置3.1.安装准备主要是创建oracle用户和所属用户组,以及用户环境:添加oinstall、dba、hagsuser用户组,gid分别为300/301/302(注意两台主机保持一致)。 添加oracle用户,uid=300,primary group = oinstall,group set = dba,oinstall,hagsuser,放开ulimit限制(都设成-1) 编辑/etc/hosts.equiv或/home/oracle目录下的.rhosts,包含两台主机所有的ip-label,执行rsh确认两台机oracle用户都可以远程执行对方主机上程序 建立并装载/u01文件系统,安装oracle enterprise edition server 9.2大概需要5gb的空间,打 patchset的时候,诈称要1.7gb的空间,由于都是覆盖原有的文件,实际没增加空间占用。执行chown -r oracle:oinstall /u01修改存取权限。 建立/var/opt/oracle目录,执行chown -r oracle:oinstall /var/opt/oracle修改存取权限,该目录放srvconfig.loc配置 设置oracle目录下的.profile: oracle_base=/u01/app/oracle;export oracle_baseoracle_home=$oracle_base/product/9.2.0;export oracle_homeoracle_sid=crdt1;export oracle_sidora_nls33=$oracle_home/ocommon/nls/admin/data;export ora_nls33oracle_term=vt100;export oracle_termtmpdir=/tmp;export tmpdirld_library_path=$oracle_home/lib:/usr/lib;export ld_library_pathpath=/usr/ccs/bin:$oracle_home/bin:/usr/bin:/usr/opt/networker/bin:$path;export pathtns_admin=$oracle_home/network/admin;export tns_adminterm=vt100;export termeditor=vi; export editortmp=/tmp;export tmpclasspath=$oracle_home/jre/lib:$oracle_home/jlib:$oracle_home/network/jlib:$oracle_home/rdbms/jlib:$oracle_home/plsql/jlib:$oracle_home/assistants/jlib:$oracle_home/assistants/dbca/jlib;export classpathdbca_raw_config=/home/oracle/dbca_raw_config.txt;export dbca_raw_config# 注1:原文中有display=:0.0,会影响远程登录cde的使用,周平说从笔记本电脑登陆上来,操作cde有问题,原因在此。# 注2:两台主机上的oracle_sid分别是crdt1和crdt2建立数据库用裸设备,用作数据库数据文件,注:其中有些lv是否能用上要根据后面oracle的安装选项。mklv -yo9_system_1g -wn -sn -rn datavg 16mklv -yo9_users_512m -wn -sn -rn datavg 8mklv -yo9_tools_512m -wn -sn -rn datavg 8mklv -yo9_temp_512m -wn -sn -rn datavg 8mklv -yo9_undotbs1_1g -wn -sn -rn datavg 16mklv -yo9_undotbs2_1g -wn -sn -rn datavg 16mklv -yo9_log11_1g -wn -sn -rn datavg 16mklv -yo9_log12_1g -wn -sn -rn datavg 16mklv -yo9_log21_1g -wn -sn -rn datavg 16mklv -yo9_log22_1g -wn -sn -rn datavg 16mklv -yo9_indx_512m -wn -sn -rn datavg 8mklv -yo9_cwmlite_512m -wn -sn -rn datavg 8mklv -yo9_example_512m -wn -sn -rn datavg 8mklv -yo9_oemrepo_512m -wn -sn -rn datavg 8mklv -yo9_spfile_512m -wn -sn -rn datavg 8mklv -yo9_cntrl1_512m -wn -sn -rn datavg 8mklv -yo9_cntrl2_512m -wn -sn -rn datavg 8mklv -yo9_cntrl3_512m -wn -sn -rn datavg 8mklv -yo9_drsys_512m -wn -sn -rn datavg 8mklv -yo9_odm_512m -wn -sn -rn datavg 8mklv -yo9_xdb_512m -wn -sn -rn datavg 8 设置裸设备权限:在两台机上分别执行chown oracle:dba /dev/ro9* 建立dbca dbca_raw_config.txt,设置oracle datafile和裸设备的对应关系 $ cat dbca_raw_config.txtsystem=/dev/ro9_system_1gusers=/dev/ro9_users_512mtools=/dev/ro9_tools_512mtemp=/dev/ro9_temp_512mundotbs1=/dev/ro9_undotbs1_1gundotbs2=/dev/ro9_undotbs2_1gredo1_1=/dev/ro9_log11_1gredo1_2=/dev/ro9_log12_1gredo2_1=/dev/ro9_log21_1gredo2_2=/dev/ro9_log22_1gindx=/dev/ro9_indx_512mexample=/dev/ro9_example_512mspfile=/dev/ro9_spfile_512mcontrol1=/dev/ro9_cntrl1_512mcontrol2=/dev/ro9_cntrl2_512mcontrol3=/dev/ro9_cntrl3_512mdrsys=/dev/ro9_drsys_512mxdb=/dev/ro9_xdb_512m3.2. 安装oracle软件使用oracle用户登陆cde界面,打开一个dtterm,执行. ./.profile应用先前设置的环境变量。 oracle提供一个installprep.sh程序,可用于检查oracle安装的条件是否准备就绪,因为hacmp 5.1软件发布在后,脚本对cluster检查会产生误报,还有一个typo错误,我更正后,适用于hacmp 5.1的installprep.sh版本供大家下载(oracle安装准备情况检查脚本) 开始安装。为了加快安装速度和便于再次安装(呵呵),可以将oracle安装光盘全部拷贝到磁盘上。注意每张光盘要分目录拷贝,否则到时侯就得改stage下的disk.label文件了。 先su到root用户,执行rootpre.sh。注意两台机器都需要执行。 在一台机上,进入到第一张安装盘的路径,执行./runinstaller。 首先询问是否已经运行rootpre.sh,如果已经运行,则回答y,过一会出现安装界面窗口。选择next,选择需要安装oracle的节点,如果没有出现节点选择,说明ha配置有问题,确保两个节点都处于up状态。指定软件的安装路径:选择安装产品:选择企业版安装方式:只安装软件:指定srvconfig路径。如果是首次安装,会出现一个窗口指定srvconfig的位置,这是一个raw设备,前面已经建立过了。在/var/opt/oracle下会出现一个srvconfig.loc文件,在$oracle_home/srvm/config下会出现同名文件。指定jdk的路径:/usr/java131,如果没有,先安装java。选择install开始安装:(先确认summary里面信息是否都正确,有没有红色错误) 安装进度到100%时,还要等很长时间,这时候安装程序自动把应用拷贝到另一个节点上,全部完成后提示在两个节点都执行root.sh(以root身份)。3.3. 安装 patch到metalink上下载9204的补丁级,patch号3095277,下载完是一个.zip格式的文件,本地解压缩后得到9204_aix5l64_release.cpio,把这个文件ftp到小型机上,执行:cpio -icvd 9204_aix5l64_release.cpio解压缩。用oracle用户登陆,进入到9204补丁的路径,运行runinstaller。注意:path 可能有错,一定要选择补丁所在的products.jar。先升级oui到8。 装完oui后再选择patch9204,一路next安装就可以了。安装完后在两个节点都执行root.sh(以root身份)3.4. 建库前准备首次安装,要初始化srv配置,先检查/var/opt/oracle/srvconfig.loc是否已经指向正确的设备,然后执行srvconfig -init初始化。如果报/u01/app/oracle/product/9.2.0/jre/bin/jre63: /usr/java131/bin/aix/native_threads/jre: not found.错误,可能与你的java_home环境变量设置问题有关,建议不要显示设置java_home环境变量。 在两个节点都以oracle用户身份登陆,执行gsdctl start,如果出现successfully started gsd on local node提示,说明启动成功,最常见的问题就是挂在那里。到metalink上查过,还没有解决方法,预期的patch也被设成无期的9。能做的就是kill杀掉,反复多试几次。 执行netca,设置listener。这个地方会出现错误:无法启动netca,手工改名$oracle_home/lib/libnjni9.so 文件,估计系统要用$oracle_home/lib32下的同名文件。 netca也支持cluster configuration,按照缺省值一路配置下去即可,完成后,会同时修改两台机器上的listener.ora配置。 两个节点上都执行lsnrctl start启动listener。3.5. oracle建库键入dbca创建rac实例,选择cluster database。选择创建数据库后,选择全部节点。建库模板选择新数据库。键入global database name,不能超过5个字符。选择要安装的数据库组件。如果没有特别的需要,把所有的勾都去掉。一般选择专有服务器工作模式,选择第一项并next。数据库参数设置,其中注意字符集选择中文;还有,如果之前dbca_raw_config.txt和dbca_raw_config环境变量设置正确,所有的datafile应该指向事先创建的裸设备(rac只能使用基于裸设备的datafile)。点击finish开始建库,之前可以选择保存建库的脚本以便用于未来可能的手工建库。建库过程中可能碰到的问题有: listener错误:如果listener已经配置启动,并且状态正确,就不应该有此错误 ora-29807错误:与xml有关,也不是总会碰上。忽略错误后,等数据库安装完,以sys身份执行$oracle_home/rdbms/prvtxml.plb,如果执行select * from dba_objects where owner = sys and status = invalid ; 发现无效对象,可执行utlrp.sql校验这些对象。 如果建库完成后,数据库没有起来,在hacmp5.1下装了几次还没有碰到顺利起来的,这个问题应该与rac找不到正确的内部网络通讯路径有关,可以通过显式设置cluster_interconnects参数来解决(可在刚才的“设置数据库参数”时预先设好。):crdt1.cluster_interconnects=07:07(p270上)、crdt2.cluster_interconnects=08:08(f80上)。 也是建库结束时,碰到ora-27504: ipc error creating osd context,这也是因为cluster_interconnects参数没有设置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论