Ошибка с диском репозитория PowerHA 7.1 после сбоя

Главная Форумы High Availability PowerHA (HACMP) Ошибка с диском репозитория PowerHA 7.1 после сбоя

Просмотр 6 веток ответов
  • Автор
    Сообщения
    • #18539
      Павел
      Участник

      Добрый день.

      Имеем PowerHA System Mirror 7.1.2 и 2 ноды.
      После сбоя не желают запускаться сервисы на первой ноде. При этом состояние кластера стабильное, все проверки и синхронизации проходят успешно.
      [code]Starting Cluster Services on node: erpprod1
      This may take a few minutes. Please wait…
      erpprod1: start_cluster: Starting PowerHA SystemMirror
      erpprod1: Jul 22 2013 09:36:48 Starting execution of /usr/es/sbin/cluster/etc/rc.cluster
      erpprod1: with parameters: -boot -N -M -C interactive -P cl_rc_cluster
      erpprod1:
      erpprod1: Jul 22 2013 09:36:49
      erpprod1: rc.cluster: Error: CAA cluster services are not active on this node.
      erpprod1: Jul 22 2013 09:36:49
      erpprod1: rc.cluster: Try bringing up CAA and RSCT with the following command:
      erpprod1: startsrc -g caa.
      erpprod1: cl_rsh had exit code = 1, see cspoc.log and/or clcomd.log for more information[/code]В логах cspoc.log и clcomd.log ничего полезного.
      Единственное, что нашел, в логе /var/adm/ras/syslog.caa
      [code]Jul 20 17:03:19 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Jul 20 17:05:40 erpprodci caa:err|error cluster[7012402]: caa_message.c inherit_socket_inetd 767 return = -1, Not on a socket.
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf.c main 113 Invoked from command line or boot with no args
      Jul 20 17:05:40 erpprodci caa:err|error cluster[7012402]: register_other_repos_disk: Could not obtain repository disk UUID.
      Jul 20 17:05:40 erpprodci caa:err|error cluster[7012402]: clusterconf: Could not register repository disk with Storage Framework: A file or directory in the path name does not exist.
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c _find_and_load_repos 1279 got nothing from ODM
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c _find_and_load_repos 1296 return = -1 No repository candidate found.
      Jul 20 17:05:40 erpprodci caa:err|error cluster[7012402]: clusterconf: Fatal error in the cluster topology. The local host is leaving the cluster.
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1078 START flags=0, stage=0
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1094 stage 1
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1106 zero kernel checksum
      Jul 20 17:05:40 erpprodci caa:info unix: kcluster_inits.c cluster_init 249 START
      Jul 20 17:05:40 erpprodci caa:info unix: kcluster_inits.c cluster_init 284 cluster_init prod locked
      Jul 20 17:05:40 erpprodci caa:info unix: kcluster_inits.c cluster_init 249 START
      Jul 20 17:05:40 erpprodci caa:info unix: kcluster_inits.c cluster_init 542 cluster_init no cleanup required
      Jul 20 17:05:40 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1110 cluster_delete
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1129 stop clconfd service
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1138 stage 2
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: cluster_utils.c cl_read_repository_cache 5891 START
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1168 Could not get cluster disk names from cache file /etc/cluster/clrepos_cache: A file or directory in the path name does not exist.
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1184 Could not find cluster disk names.
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1202 FINISH return=0
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1078 START flags=0, stage=0
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1094 stage 1
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1106 zero kernel checksum
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1110 cluster_delete
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1129 stop clconfd service
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1138 stage 2
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: cluster_utils.c cl_read_repository_cache 5891 START
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1168 Could not get cluster disk names from cache file /etc/cluster/clrepos_cache: A file or directory in the path name does not exist.
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1184 Could not find cluster disk names.
      Jul 20 17:05:42 erpprodci caa:info cluster[7012402]: clusterconf_lib.c leave_sinc 1202 FINISH return=0 [/code]
      Что можно сделать, что еще проверить?

    • #18567
      MIkhail
      Участник

      Добрый день.
      Если у вас сбойнул репозиторный диск, у вас одно направление разабрать его и собрать занаво.
      Других вариантов PowerHA 7.1 не предлагает.
      Почитайте соответсвующий редбук, там все подробно написано.
      Относительно сервисов да все проверки будут проходить, и даже сервисы будут работать пока вы не перегрузите ноды.

    • #18573
      Павел
      Участник

      Спасибо, а можно уточнить, какой это соответствующий?
      Возможно это будет сделать без останова сервисов на работающей ноде?

      Я совсем не уверен, что проблема в диске.
      Пытаюсь удалить ноду из кластера со второй и получаю ошибку:
      [code]# chcluster -m -erpprod1 -n ERPHA -v
      INFO: START
      INFO: STOP_NODE called for erpprod1
      INFO: START op=3, num_other_target=1, num_attrs=0
      INFO: got hdisk6 from ODM
      INFO: got hdisk6 from ODM
      INFO: got hdisk6 from ODM
      INFO: got hdisk6 from ODM
      INFO: recv successful, sock = 4, recv rc = 32, msgbytes = 32
      ERROR: Remote node failed IDENTITY message processing, msg rc = -1.
      INFO: FINISH return = -1
      INFO: FINISH return = -1
      ERROR: STOP_NODE failed for erpprod1
      INFO: FINISH return = -1
      chcluster: Could not modify cluster.
      The file access permissions do not allow the specified action.[/code]
      По такому сообщению есть что-то похожее у IBM APAR IV34627
      Только я не понял, что мне это дает.
      При попытке удаления на первой ноде в логе syslog.caa такие сообщения:[code]Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Jul 29 12:38:47 erpprodci caa:info cluster[14942236]: caa_message.c cl_recv_req 171 recv successful, sock = 0, recv rc = 32, msgbytes = 32
      Jul 29 12:38:47 erpprodci caa:info cluster[14942236]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk4 from ODM
      Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: caa_topology.c cl_load_topology 145 Observer: not incluster!
      Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: caa_protocols.c process_msg_identity 316 Identity processing FAILED.
      Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Jul 29 12:38:47 erpprodci caa:err|error cluster[14942236]: clusterconf.c main 413 FINISH return = -1 [/code]

    • #18584
      MIkhail
      Участник

      Добрый день.
      Я вам сказал, что надо поправить репозиторный диск а вы начали рушить кластер. 🙂
      Вы не сможете удалить ноду пока не восстановите диск.
      Выполните lspv и увидите какой диск у вас репозиторный, он соответствующем образом обозначен.
      Почитайте информацию о настройке и администрированию cluster aware AIX, там все расписано.

    • #18591
      Павел
      Участник

      Добавил в систему еще один диск. Сделал его рипозитарным. Не понял, что теперь со старым диском, с ним ничего нельзя сделать.

      Может быть, что-то не так сделал, но проблем не решило, с новым диском те же проблемы.
      Все так же в syslog.caa сообщения (рестарт системы, верификация):[code]Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Aug 1 16:31:01 erpprodci caa:info cluster[8192002]: caa_message.c cl_recv_req 171 recv successful, sock = 0, recv rc = 32, msgbytes = 32
      Aug 1 16:31:01 erpprodci caa:info cluster[8192002]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk5 from ODM
      Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: caa_topology.c cl_load_topology 145 Observer: not incluster!
      Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: caa_protocols.c process_msg_identity 316 Identity processing FAILED.
      Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Aug 1 16:31:01 erpprodci caa:err|error cluster[8192002]: clusterconf.c main 413 FINISH return = -1
      Aug 1 16:31:01 erpprodci caa:err|error cluster[7798790]: caa_message.c inherit_socket_inetd 767 return = -1, Not on a socket.
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf.c main 113 Invoked from command line or boot with no args
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c sync_restricted_interfaces 1605 START
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c sync_restricted_interfaces 1618 errno=There is a request to a device or address that does not exist.
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c sync_restricted_interfaces 1708 FINISH return=-1
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk5 from ODM
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1078 START flags=0, stage=0
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1094 stage 1
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1106 zero kernel checksum
      Aug 1 16:31:01 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1110 cluster_delete
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1129 stop clconfd service
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1138 stage 2
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: cluster_utils.c cl_run_log_method 9592 START ‘/usr/sbin/chdev -l cluster0 -a clvdisk=’00000000-0000-0000-0000-000000000000”
      Aug 1 16:31:03 erpprodci caa:info unix: kcluster_inits.c cluster_init 249 START
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: cluster_utils.c cl_run_log_method 9623 FINISH return = 0
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: cluster_utils.c cl_read_repository_cache 5891 START
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1168 Could not get cluster disk names from cache file /etc/cluster/clrepos_cache: A file or directory in the path name does not exist.
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: unregister_other_disk: Device hdisk5 is not a third party disk.
      Aug 1 16:31:03 erpprodci caa:info cluster[7798790]: clusterconf_lib.c leave_sinc 1202 FINISH return=0
      Aug 1 16:31:05 erpprodci caa:info cluster[8913066]: clusterconf_lib.c _find_and_load_repos 1279 got nothing from ODM
      Aug 1 16:31:05 erpprodci caa:info cluster[8913066]: clusterconf_lib.c _find_and_load_repos 1296 return = -1 No repository candidate found.
      Aug 1 16:31:05 erpprodci caa:info cluster[8913066]: cluster_utils.c local_node_in_repos 10820 Failed to load the repository.
      Aug 1 16:31:05 erpprodci caa:info cluster[8913066]: caa_topology.c cl_incluster 1011 Local node is not in the repository.
      Aug 1 16:41:01 erpprodci caa:err|error cluster[11534428]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Aug 1 16:41:01 erpprodci caa:err|error cluster[11534428]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Aug 1 16:41:01 erpprodci caa:err|error cluster[11534428]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Aug 1 16:41:01 erpprodci caa:err|error cluster[11534428]: clusterconf.c main 413 FINISH return = -1
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Aug 1 16:41:07 erpprodci caa:info cluster[11141192]: caa_message.c cl_recv_req 171 recv successful, sock = 0, recv rc = 32, msgbytes = 32
      Aug 1 16:41:07 erpprodci caa:info cluster[11141192]: clusterconf_lib.c _find_and_load_repos 1279 got nothing from ODM
      Aug 1 16:41:07 erpprodci caa:info cluster[11141192]: clusterconf_lib.c _find_and_load_repos 1288 Got repos_sock_hint, using hdisk5
      Aug 1 16:41:07 erpprodci caa:info cluster[11141192]: cluster_utils.c cl_run_log_method 9592 START ‘/usr/sbin/chdev -l cluster0 -a clvdisk=’9ea97872-082d-5577-032b-2fa2b5770b52”
      Aug 1 16:41:07 erpprodci caa:info unix: kcluster_inits.c cluster_init 249 START
      Aug 1 16:41:07 erpprodci caa:info cluster[11141192]: cluster_utils.c cl_run_log_method 9623 FINISH return = 0
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: caa_topology.c cl_load_topology 145 Observer: not incluster!
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: caa_protocols.c process_msg_identity 316 Identity processing FAILED.
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Aug 1 16:41:07 erpprodci caa:err|error cluster[11141192]: clusterconf.c main 413 FINISH return = -1
      Aug 1 16:49:20 erpprodci caa:info cluster[8323086]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk5 from ODM
      Aug 1 16:49:20 erpprodci caa:info cluster[8323086]: caa_topology.c cl_incluster 1011 Local node is not in the repository.
      Aug 1 16:49:31 erpprodci caa:info cluster[12058830]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk5 from ODM
      Aug 1 16:49:31 erpprodci caa:info cluster[12058830]: caa_topology.c cl_incluster 1011 Local node is not in the repository.
      Aug 1 16:51:03 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:03 erpprodci caa:info syslog: cluster_utils.c cl_run_log_method 9592 START ‘/usr/sbin/mount -v ahafs /aha0 /aha0’
      Aug 1 16:51:03 erpprodci caa:info syslog: cluster_utils.c cl_run_log_method 9623 FINISH return = 0
      Aug 1 16:51:03 erpprodci caa:info syslog: cluster_utils.c doaha 7815 FINISH return=/aha0
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c find_event_disk 720 Find disk called for hdisk1
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c ahafs_Disk_State_register 1449 diskState set opqId = 0xF1000A00E02B6400
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c find_event_disk 720 Find disk called for hdisk3
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c ahafs_Disk_State_register 1449 diskState set opqId = 0xF1000A00E02B6A00
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c find_event_disk 720 Find disk called for hdisk2
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c ahafs_Disk_State_register 1449 diskState set opqId = 0xF1000A00E02B6C00
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c find_event_disk 720 Find disk called for hdisk0
      Aug 1 16:51:04 erpprodci caa:info unix: kcluster_event.c ahafs_Disk_State_register 1449 diskState set opqId = 0xF1000A00E02B6E00
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:04 erpprodci caa:info syslog: cluster_utils.c doaha 7706 START
      Aug 1 16:51:07 erpprodci caa:err|error cluster[20381820]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Aug 1 16:51:07 erpprodci caa:err|error cluster[20381820]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Aug 1 16:51:07 erpprodci caa:err|error cluster[20381820]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Aug 1 16:51:07 erpprodci caa:err|error cluster[20381820]: clusterconf.c main 413 FINISH return = -1
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: caa_message.c inherit_socket_inetd 777 IPv6=::ffff:172.30.2.53
      Aug 1 16:51:13 erpprodci caa:info cluster[20447428]: caa_message.c cl_recv_req 171 recv successful, sock = 0, recv rc = 32, msgbytes = 32
      Aug 1 16:51:13 erpprodci caa:info cluster[20447428]: clusterconf_lib.c _find_and_load_repos 1279 got hdisk5 from ODM
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: caa_topology.c cl_load_topology 145 Observer: not incluster!
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: caa_protocols.c process_msg_identity 316 Identity processing FAILED.
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: caa_message.c cl_recv_req 165 return = -1, Failed to receive message: sock=0, recv rc=0, msgbytes=32, errno=73
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: caa_protocols.c recv_protocol_slave 1133 Failed to receive request: Connection reset by peer
      Aug 1 16:51:13 erpprodci caa:err|error cluster[20447428]: clusterconf.c main 413 FINISH return = -1[/code]

    • #18593
      Павел
      Участник

      Дополнение
      при вызове с первой (сбойной) ноды получаем такую ошибку:
      [code]/usr/sbin/rsct/bin/caa_comm -n 1 -p 1 -d 2
      PID: 18022572
      ct_caa_get_socket() fd(-1) rc(-5) errno(66)[/code]

    • #18613
      Павел
      Участник

      Как все было просто.
      Не помню, чтобы я этого делал, но ноде поменяли имя хоста. Присвоили кластерное имя erpprodci вместо ее имени erpprod1. Именно поэтому и не получалось найти ее в ODM и все остальное.

      Теперь другой прикол, при запуске сервисов у меня жестко отрубилась вторая нода. Сервер выключился. Но это уже другая история, думаю все восстановится.

Просмотр 6 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.