HP ProLiant の突然の OS 停止は iLO 4が原因の可能性あり

iLO 4 が原因でサーバがクラッシュするなんて、あってはいけない事ですが発生しました。そういえば、HBAの温度センサーの誤検知でも iLO によって勝手にサーバOSがリブートした例がありますが、本ケースではリブートせず止まったままとなりますのでなお悪いです。
ProLiant Gen8 以降で搭載された iLO 4 のファームウェアバージョンが古い場合、突然サーバ OS がクラッシュします。
ファームウェアバージョンが 1.51 (23 Jun 2014)より古い場合、至急アップデートをお勧めします。ファームウェアバージョン 2.10 より前では PSOD (Purple Screen of Death) の可能性があるため最新の 2.30 がいいと思います。(以下は画面表示例)
psod1

現象:

  • 何の前ぶれもなく ProLiant サーバが突然停止
    • ESXiの場合 PSOD (Purple Screen of Death)
    • Linuxの場合 NMI occurred
    • Windowsの場合 BSOD (Blue Screen of Death)
  • iLO 4 の OverView には Critical Error の文字
  • ProLiant のヘルス LED がオレンジ点灯
  • iLO 4 ログ、IML ログには何も出ていない
  • ESXi ホストの場合、vSphere Client から接続できず
  • HA 構成の場合、仮想マシンは他の ESXi ホストで動作
  • Windows サーバの場合、リモートデスクトップ接続できず

原因:

iLO 4 が NMI (Non Maskable Interrupt)を発生させたために、OSがクラッシュした可能性が高いです。
HPe の iLO 4 NMI 情報
この情報によると、
If this issue occurs, the operating system will indicate that an NMI has happened; however, the specific indication will vary by OS:

  • VMware ESXi operating systems will experience a Purple Screen of Death (PSOD).
  • Linux operating systems will display a message indicating that an NMI occurred.
  • Windows will become completely unresponsive or experience a Blue Screen of Death (BSOD).

とあります。
該当する iLO 4 のファームウェアバージョンは、1.30, 1.32, 1.40, 1.50.

対策:

iLO 4 ファームウェアバージョン 1.5.1 (23 Jun 2014)で不具合修正されました。
iLO 4 のファームウェアバージョンアップを行います。
バージョン 1.51 以降を推奨していますが 2.10 より前のファームウェアバージョンでは PSOD の可能性があるようですので最新がよいと思います。2015/11/23現在の最新はバージョン 2.30 (01 Oct 2015)です。
iLO 4 ファームウェアダウンロードサイトでサーバ OS を選択するとファームウェアが表示されます。

適用の注意点:

最新ファームウェアの適用前に iLO 4 のリセットが必要です。iLO の画面にあるリセットをクリックします。

その他 iLO 4 の問題

update

2015/11/23 最新はバージョン 2.30 (2015101)リリース

コメントを残す