テクノロジー

ノウハウ・TIPS

2009年2月5日

HPのサーバのハードウェア（RAIDの状態）を監視する

asial

森川です。

今回はハードウェアRAIDの状態をSNMPを使用して監視する方法の紹介です。

当然といえば当然ですが、ハードウェアRAIDをしている場合に、ハードディスクが壊れたことを検知できないというのは、致命的です。

それを検知する方法の紹介です。サーバは日本HPのML115 G5、OSはCentOS 5を使用しています。ハードウェアRAIDはSmartアレイ E200を使用しています。（Debianの場合に同様の方法で検知する方法はよくわかりません。。。）

まずは、準備としてSNMP関連のパッケージを入れてしまいましょう。


# yum install net-snmp net-snmp-utils

さっそくですが、SNMPでRAIDの状態監視を行うために、ハードウェア（Smartアレイ E200）のMIBを手に入れる必要があります。

hpacucliのインストール

MIBやコマンドラインからRAIDの状態を見るためのツール一式がHPからRPMとして提供されているので、それをインストールします。

まずはサポートページから製品名である「ML115」を入れて検索します。

検索結果のページから「HP ProLiant ML115 G5」をクリックして、次のページで「ドライバ＆ダウンロード」をクリックします。次は「Red Hat Enterprise Linux 5 Server (x86-64)」をクリックしましょう。

そこまでいくと、ドライバ等の一覧のページが表示されるはずなので、そこで「HPアレイコンフィギュレーションユーティリティCLI for Linux」をダウンロードします。ダウンロードしたファイルは「hpacucli-8.10-2.noarch.rpm」のはずです。

まずは、これをサーバ上でインストールしましょう。


# rpm -ivh hpacucli-8.10-2.noarch.rpm

パッケージが足りないよ、とエラーが表示される場合は、yumなどでインストールしておきましょう。よくわからないパッケージの場合は、


# yum install compat-libstdc++-*

とすれば、大抵の場合は大丈夫だと思います。

次に、snmpの拡張等を行うパッケージをダウンロードするのですが、先ほどの一覧ページには表示されていません。本来はサポートされないと思うのですが、ML350など他のハードウェア用のRPMをインストールして使用してもおそらく問題ないと思うので、今回はその方法をとります。

hpasmのインストール

そこで、サポートページから今度は「ML350」を検索します。

「HP ProLiant ML350 G5 5120 1.86GHz SAS タワー型サーバー」→「ドライバ＆ダウンロード」→「Red Hat Enterprise Linux 5 Server (x86-64)」と選択していけば、一覧ページに行き着くはずです。

「HPシステムヘルスアプリケーションおよびInsightマネジメントエージェント for Red Hat Enterprise Linux 5（AMD64/EM64T）」を選択してダウンロードします。「hpasm-8.0.0-173.rhel5.x86_64.rpm」というファイルがダウンロードできるはずです。

こちらもhpacucliと同様にインストールします。


# rpm -ivh hpasm-8.0.0-173.rhel5.x86_64.rpm

これでインストール自体は完了ですが、以下のコマンドで設定をする必要があります。


# hpasm activate

SNMPの設定だけすれば、それ以外の場合については基本的に気にしなくても大丈夫だと思います。

SNMPの設定がうまくいっていれば、 /etc/snmp/snmpd.conf の先頭部分に以下のように追加されていると思います。


# Following entries were added by HP Insight Management Agents at
#      Thu Feb  5 07:16:10 JST 2009
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity private 127.0.0.1
rocommunity public 127.0.0.1
# ---------------------- END --------------------

あとは、snmpdを再起動して、RAIDの状態を取得するだけです。SmartアレイのRAIDの情報は以下のようにMIBを指定して取得できます。

$ snmpwalk -v1 -c public localhost 1.3.6.1.4.1.232.3.2.3.1.1.4
SNMPv2-SMI::enterprises.232.3.2.3.1.1.4.3.1 = INTEGER: 2

ここで、1.3.6.1.4.1.232.3.2.3.1.1.4 がRAIDの状態を表しているのですが、INTEGER: 2 の意味を知る必要が当然あります。ハードディスクの障害などでRAIDが壊れているときは、この値が変化します。

個々の値については、/opt/hp/hpsmh/data/htdocs/hmastor/daenums.js.ja や /opt/hp/hpsmh/data/htdocs/hmastor/daenums.js.en の cpqDaLogDrvStatus を見るとわかります。以下のようになっているはずです。


enumerat['cpqDaLogDrvStatus']=new Array;
enumerat['cpqDaLogDrvStatus'][1]='不明';
enumerat['cpqDaLogDrvStatus'][2]='OK';
enumerat['cpqDaLogDrvStatus'][3]='障害';
enumerat['cpqDaLogDrvStatus'][4]='未設定';
enumerat['cpqDaLogDrvStatus'][5]='暫定復旧中';
enumerat['cpqDaLogDrvStatus'][6]='再構築待機中';
enumerat['cpqDaLogDrvStatus'][7]='再構築中';
enumerat['cpqDaLogDrvStatus'][8]='間違ったドライブ';
enumerat['cpqDaLogDrvStatus'][9]='接続不良';
enumerat['cpqDaLogDrvStatus'][10]='オーバーヒート';
enumerat['cpqDaLogDrvStatus'][11]='シャットダウン';
enumerat['cpqDaLogDrvStatus'][12]='拡張中';
enumerat['cpqDaLogDrvStatus'][13]='利用不可';
enumerat['cpqDaLogDrvStatus'][14]='拡張待機中';
enumerat['cpqDaLogDrvStatus'][15]='マルチパス アクセス劣化';

これで、値が 2 の場合は OK でそれ以外の場合は問題がありそうだ、ということがわかります。

この値を外部からたとえば、nagios などで調べるプラグインを作ったりすると、RAIDの状態監視もきちんとできることができます。

また、外部からではなく内部から監視する場合、以下のコマンドでわかります。



<pre wp-pre-tag-7=""></pre>
nbsp;hpacucli  ctrl all show config
Smart Array E200 in Slot 3    (sn: PA6C90P9SWR50O)
   array A (SATA, Unused Space: 0 MB)
      logicaldrive 1 (447.1 GB, RAID 5, OK)
      physicaldrive 1I:0:1 (port 1I:box 0:bay 1, SATA, 160.0 GB, OK)
      physicaldrive 1I:0:2 (port 1I:box 0:bay 2, SATA, 160.0 GB, OK)
      physicaldrive 1I:0:3 (port 1I:box 0:bay 3, SATA, 160.0 GB, OK)
      physicaldrive 1I:0:4 (port 1I:box 0:bay 4, SATA, 160.0 GB, OK)

この結果を見て、問題を発見することもできます。

ハードウェアRAIDの状態監視をしていない方は、ぜひチャレンジしてみてください。

asial

鉄道模型シミュレーターオンラインのサービス大幅リニューアル

前の記事へ

Googleデスクトップガジェット作成に挑戦してみました

次の記事へ

一覧へ戻る

「テクノロジー」カテゴリの最新記事

VSCode の Local Port Forwarding を試してみました

記事へ

VSCode の Local Port Forwarding を試してみました

記事へ

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

記事へ

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

記事へ

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

記事へ

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

記事へ

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

記事へ

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

記事へ

HPのサーバのハードウェア（RAIDの状態）を監視する

asial

asial

「テクノロジー」カテゴリの最新記事

VSCode の Local Port Forwarding を試してみました

VSCode の Local Port Forwarding を試してみました

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

ホーム

選ばれる理由

ソリューション

プロダクト

実績

会社情報

採用情報

HPのサーバのハードウェア（RAIDの状態）を監視する

asial

asial

関連する記事

AMPを採用したWebサイトをリリースし、運用してきた雑感

AMPを採用したWebサイトをリリースし、運用してきた雑感

SassとLESSの違い ー CSSプリプロセッサ入門 ー

SassとLESSの違い ー CSSプリプロセッサ入門 ー

PHPからChromeにログ出力「Chrome Logger」

PHPからChromeにログ出力「Chrome Logger」

「テクノロジー」カテゴリの最新記事

VSCode の Local Port Forwarding を試してみました

VSCode の Local Port Forwarding を試してみました

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

分散型SNS, Fediverse, ActivityPub, Webfingerについて調べてみた。

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

Dockerだけではない: Podman、LXD、ZeroVMを含む主要なコンテナ技術を探る

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

FedCM (Fedetated Credential Management API) 入門：進化したログイン方式を紹介

ホーム

選ばれる理由

ソリューション

プロダクト

実績

会社情報

採用情報

SassとLESSの違いー CSSプリプロセッサ入門ー

SassとLESSの違いー CSSプリプロセッサ入門ー