SPOF

Просмотр 11 веток ответов
  • Автор
    Сообщения
    • #4170
      Sever
      Участник

      Как себя должен вести power-сервер и как он себя ведёт в реальности при возникновении сбоев процессоров и памяти во время работы?
      Просьба поделиться информацией на эту тему из реальной жизни (если таковая есть).

    • #4173
      Ihar
      Участник

      не знаю как процессор ипамять, а унас один раз начали отваливаться системные винты
      (что-то с контроллером было), так мы очень приятно удивились:
      так как там был сесь rootvg со swap-ом, то оно на момент отваливания замирало, а после появления дисков продолжало работать как ни в чём не бывало.
      ps в итоге нам поменяли системный планар.

    • #4174
      kir
      Хранитель

      Они сами отключаются. А потом выдают ошибку в системный лог.

    • #4180
      Hanna
      Участник

      если вылетели несколько планок памяти система продолжает работать, а в лог ОС или HMC записывается ошибка.

    • #4181
      Sever
      Участник

      zubrag писал(а):

      не знаю как процессор ипамять, а унас один раз начали отваливаться системные винты
      (что-то с контроллером было), так мы очень приятно удивились:
      так как там был сесь rootvg со swap-ом, то оно на момент отваливания замирало, а после появления дисков продолжало работать как ни в чём не бывало.
      ps в итоге нам поменяли системный планар.

      Спасибо,
      Данный исход событий могу подтвердить.
      Если все диски мгновенно “отъезжают” и становятся доступны через большой интервал времени, то система способна продолжить работу. Главное в этом случае не трогать процессорный блок.

    • #4182
      Sever
      Участник

      akovalev писал(а):

      Они сами отключаются. А потом выдают ошибку в системный лог.

      Magnolia писал(а):

      если вылетели несколько планок памяти система продолжает работать, а в лог ОС или HMC записывается ошибка.

      Разрешите вам не поверить. Так пишут в рекламе. В реалии есть еще один – последний. После всех диагностик и записей в логи машина уходит в даун. Она конечно же потом поднимется с “выключенными” ресурсами, но от этого не легче. Машина с высокой доступностью обладает нулевой живучестью (такого термина в маркетинге IBM просто нет :angry: )

    • #4189
      andrewk
      Участник

      в моей практике были случае, когда деконфигурилась память/процессора и все продолжало работать, и когда в результате сбоя процессора вся система уходила в перезагрузку. Если первое поведение – “нормальное”, то второе требует вызова специалиста из IBM и изнасилования его на месте, рядом с машиной. Как следствие, обычно оказывается либо ошибка в микрокоде, либо сбоит какой-либо другой компонент системы (планар, сервис-процессор, …).

    • #4230
      Hanna
      Участник

      “Разрешите вам не поверить. Так пишут в рекламе. В реалии есть еще один – последний. После всех диагностик и записей в логи машина уходит в даун. Она конечно же потом поднимется с “выключенными” ресурсами, но от этого не легче. Машина с высокой доступностью обладает нулевой живучестью (такого термина в маркетинге IBM просто нет )”

      Я написала то что наблюдала на практике. Естественно если вылетит достаточно большое количество памяти система может быть неработоспособной, ей просто не будет хватать то что осталось для нормальной работы. Но тут уже может быть проблема в процессорной групе,….надо смотреть по ситуации, но говорить что 100% машина уйдет в даун это неправильно

    • #4232
      Sever
      Участник

      При сбое одной планки памяти FHA отработала следующим образом:
      машина отметила факт сбоя димма, загардила всю банку диммов (ассоциативно), загардила контроллер памяти этой банки (ассоциативно), заблокировала соответствующий memoryкэш (ассоциативно), выдала диагностику “ошибка фирмваре” и ушла в даун. Интервал между первой диагностикой и финалом – минута.

      Довольно оригинальный исход по факту сбоя одного дима. То есть такая последовательносить действий заложена в алгоритме фирмваре. Ни единой попытке спасти ситуацию, все действия это действия по “ковровому” выключению всего находящегося рядом. Чистой воды SPOF. Защиты от такого сбоя фактически нет никакой.

    • #4234
      Hanna
      Участник

      если не секрет, на какой машинке такое было и с каким микрокодом?

    • #4235
      Sever
      Участник

      9119-FHA, 340_039

    • #4314
      Gremlin
      Участник

      А ещё весело бывает, если происходит сбой в кэш-памяти процессора. Особенно если этот участок используется гипервизором…

Просмотр 11 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.