HP ProLiant の突然の OS 停止は iLO 4が原因の可能性あり

iLO 4 が原因でサーバがクラッシュするなんて、あってはいけない事ですが発生しました。そういえば、HBAの温度センサーの誤検知でも iLO によって勝手にサーバOSがリブートした例がありますが、本ケースではリブートせず止まったままとなりますのでなお悪いです。
ProLiant Gen8 以降で搭載された iLO 4 のファームウェアバージョンが古い場合、突然サーバ OS がクラッシュします。
ファームウェアバージョンが 1.51 (23 Jun 2014)より古い場合、至急アップデートをお勧めします。ファームウェアバージョン 2.10 より前では PSOD (Purple Screen of Death) の可能性があるため最新の 2.30 がいいと思います。(以下は画面表示例)
psod1

現象:

  • 何の前ぶれもなく ProLiant サーバが突然停止
    • ESXiの場合 PSOD (Purple Screen of Death)
    • Linuxの場合 NMI occurred
    • Windowsの場合 BSOD (Blue Screen of Death)
  • iLO 4 の OverView には Critical Error の文字
  • ProLiant のヘルス LED がオレンジ点灯
  • iLO 4 ログ、IML ログには何も出ていない
  • ESXi ホストの場合、vSphere Client から接続できず
  • HA 構成の場合、仮想マシンは他の ESXi ホストで動作
  • Windows サーバの場合、リモートデスクトップ接続できず

続きを読む HP ProLiant の突然の OS 停止は iLO 4が原因の可能性あり