サーバー死亡。。。

今朝出勤するとサーバーのディスクインジゲーターの『X』印のトコのランプが点灯『あぁディスクがお亡くなりになりましたか。。。』という事で先日落札したHDDがいきなり必要になった。しかしながら本日到着予定なのでとりあえず待つしかない。この時は未だこの後起こる悲劇は想像だにしていなかった。
昼前になってHDDが到着。ダメになったディスクを取り出し(ホットスペア構成)マウンタを外して新しいディスクのセットして装填する。コレで一安心・・・と思ったらリシンクが数分で終わってしまった???シスログ見ようとログ起動するものの特に問題無し、しかしセキュリティーログを開いたところでアプリがフリーズ。気を取り直してもう一つログを起動するが、やはりセキュリティーログを開いた時点でアプリがフリーズする。仕方ないのでAlt+Tabでジョブを切り替えるがやはり最初に起動してた方のログもフリーズしたままです。ふと顔を下ろすと先ほど交換したディスクと別のディスクのディスクインジゲーターの『X』印のトコのランプが点灯している・・・いっぺんに2個壊れたのか???しかし先ほどのリシンク自体は一見終わってるように見えるが、ちょうど昼休みも近いので暫く放置して様子を見る事に。とりあえず知り合いのサーバーエンジニアに連絡取ってみる。
昼休み中に状況説明したものの結局のところ異常ランプが点灯してるディスクはアクセスランプは点いて無いのでHDDを交換してみることに。マウント外して別ディスクに付け替え再度装填する。こちらはリシンクが掛かってるのか交換したディスクを含め3台のディスクのアクセスランプが点滅している。一気に2個のHDDが壊れるという異常事態???と思ってログを再度確認しようとしてAlt+Tabを押した途端に再起動が掛かる!!!どうしようもないので、とりあえずクライアント側の事務員にサーバーが落ちて暫く端末操作が出来ないことを連絡する。で、起動ログを眺めているとちゃんと36Gと72Gのディスク構成を認識している。しかし・・・・・・・・起動しない。何度か起動を試みたもののどうにもならない。仕方なくサーバー死亡という事で業務連絡。今日のところは緊急事態ということで手動業務に切り替えて貰う。この時点で復旧の目処は全く立っていない。
サーバー内部では最後に交換したディスクのリシンクが走ってるのか起動はしないもののインジゲータランプは点滅してる。とりあえずアチコチ手当たり次第に電話掛けまくって状況を説明何とか即時対応できる所を探し回る。何とか某ベンダー(次期システムのサーバー購入したところ)のエンジニアがとりあえず見に来てくれるという事なので一安心。小一時間して来て下さいました。RAIDの構成確認するとデータ領域のRAID5は正しく認識されてるが、先ほど交換したディスクはLEGACYとして認識されている。何だコリャ?とりあえずRAID構成の時点でMBRが設定されていない状態のうえ、ディスク#1とディスク#5がまったく相手にされていない。確かサーバーの構成としてOS領域としてRAID1(ディスク2発)データ領域としてRAID5(ディスク3発)ホットスペア(ディスク1発)としてたはずなのに。。。私がやった訳では無いですけど。対処としては
①とりあえずリシンクが終わるのを待つ
②#0のディスク外して起動を試みる
③②でダメならRAID構成を弄って起動を試みる
④③でダメならOS+DB再インストール
との事。何とか②までで収めてくれんかのぉ。。。
とりあえずリシンクに5時間程度掛かるので、その間RAID構成を弄った場合の影響範囲やOS+DBの再インストール手法&ディレクトリの確認をする。幸か不幸か元自社サーバー機がグループ会社に転がってるのでひとっ走り行って確認してくる。因みにRAID構成を弄るとほぼ確実にOSやアプリの再インストールが必要になるとの事・・・サーバーOSなのに復旧インストールは出来んのか?ま、NTの時代やしねぇ。。。
夕刻になって何とかリシンクも終了した模様。とりあえず手順②を試すが敢え無く撃沈。。。ソコで営業部長(ぢつは義兄)が『試しに朝入れ替えた#0のディスク戻してみたら?』との助言。まぁココまで来たらとりあえずデータ領域は大丈夫だろうし、やってみてOKだったらラッキー程度の気持ちで再度ディスク交換。起動ログはいつも通り、アレイの認識とSCSI機器の認識もOK。
『起動したぁ~!』
感動の瞬間でした。あぁ生きててヨカッタ・・・お母ちゃんありがとぉ~~~っ!などとココロの中で叫びました。システムログを見ても特に問題無いし、ディスクインジゲーターも異常は発して無い。端末一台立ち上げて自社システム起動・・・OK。復活したぁ~~~っ!あぁヨカッタ。徹夜も覚悟してたのに。。。
とりあえず業務が復旧出来る旨担当事務に伝えて業務回復に移って貰う。私のほうは連絡しまくった関係各所に連絡。あぁ助かったぁ~。とりあえず感無量でございます。
今回の反省点
○サーバーの再度見直しが必要
○保守は大事
○保守部品も大事
○ある程度のサーバー知識も必要
などなど・・・何にしてもサーバーに関しても構築から任せっ切りだったのが問題だったのかも。本日はブログ同様長い一日でした。。。
写真は今日から保育園に通う息子を送ってから会社に行くまでの道。遠くの山(和泉葛城山系)が真っ白に見えます。
P1000113.jpg

コメント

  1. より:

    SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
     あれ?
    和泉葛城からこんなに離れてたっけ?
    和泉葛城の斜面に家があると思ってたけど。

  2. ひら より:

    SECRET: 0
    PASS: 74be16979710d4c4e7c6647856088456
    一応それなりには離れてまっせ。ただ葛城山系が生駒の方から来て和歌山向いて曲がる付近やと思うから、見える部分ってのは和泉葛城の端っこになるのかな?