iLO 4 が原因でサーバがクラッシュするなんて、あってはいけない事ですが発生しました。そういえば、HBAの温度センサーの誤検知でも iLO によって勝手にサーバOSがリブートした例がありますが、本ケースではリブートせず止まったままとなりますのでなお悪いです。
ProLiant Gen8 以降で搭載された iLO 4 のファームウェアバージョンが古い場合、突然サーバ OS がクラッシュします。
ファームウェアバージョンが 1.51 (23 Jun 2014)より古い場合、至急アップデートをお勧めします。ファームウェアバージョン 2.10 より前では PSOD (Purple Screen of Death) の可能性があるため最新の 2.30 がいいと思います。(以下は画面表示例)
現象:
- 何の前ぶれもなく ProLiant サーバが突然停止
- ESXiの場合 PSOD (Purple Screen of Death)
- Linuxの場合 NMI occurred
- Windowsの場合 BSOD (Blue Screen of Death)
- iLO 4 の OverView には Critical Error の文字
- ProLiant のヘルス LED がオレンジ点灯
- iLO 4 ログ、IML ログには何も出ていない
- ESXi ホストの場合、vSphere Client から接続できず
- HA 構成の場合、仮想マシンは他の ESXi ホストで動作
- Windows サーバの場合、リモートデスクトップ接続できず