iLO 4 が原因でサーバがクラッシュするなんて、あってはいけない事ですが発生しました。そういえば、HBAの温度センサーの誤検知でも iLO によって勝手にサーバOSがリブートした例がありますが、本ケースではリブートせず止まったままとなりますのでなお悪いです。
ProLiant Gen8 以降で搭載された iLO 4 のファームウェアバージョンが古い場合、突然サーバ OS がクラッシュします。
ファームウェアバージョンが 1.51 (23 Jun 2014)より古い場合、至急アップデートをお勧めします。ファームウェアバージョン 2.10 より前では PSOD (Purple Screen of Death) の可能性があるため最新の 2.30 がいいと思います。(以下は画面表示例)
現象:
- 何の前ぶれもなく ProLiant サーバが突然停止
- ESXiの場合 PSOD (Purple Screen of Death)
- Linuxの場合 NMI occurred
- Windowsの場合 BSOD (Blue Screen of Death)
- iLO 4 の OverView には Critical Error の文字
- ProLiant のヘルス LED がオレンジ点灯
- iLO 4 ログ、IML ログには何も出ていない
- ESXi ホストの場合、vSphere Client から接続できず
- HA 構成の場合、仮想マシンは他の ESXi ホストで動作
- Windows サーバの場合、リモートデスクトップ接続できず
原因:
iLO 4 が NMI (Non Maskable Interrupt)を発生させたために、OSがクラッシュした可能性が高いです。
HPe の iLO 4 NMI 情報
この情報によると、
If this issue occurs, the operating system will indicate that an NMI has happened; however, the specific indication will vary by OS:
- VMware ESXi operating systems will experience a Purple Screen of Death (PSOD).
- Linux operating systems will display a message indicating that an NMI occurred.
- Windows will become completely unresponsive or experience a Blue Screen of Death (BSOD).
とあります。
該当する iLO 4 のファームウェアバージョンは、1.30, 1.32, 1.40, 1.50.
対策:
iLO 4 ファームウェアバージョン 1.5.1 (23 Jun 2014)で不具合修正されました。
iLO 4 のファームウェアバージョンアップを行います。
バージョン 1.51 以降を推奨していますが 2.10 より前のファームウェアバージョンでは PSOD の可能性があるようですので最新がよいと思います。2015/11/23現在の最新はバージョン 2.30 (01 Oct 2015)です。
iLO 4 ファームウェアダウンロードサイトでサーバ OS を選択するとファームウェアが表示されます。
適用の注意点:
最新ファームウェアの適用前に iLO 4 のリセットが必要です。iLO の画面にあるリセットをクリックします。
update
2015/11/23 最新はバージョン 2.30 (2015101)リリース