なんでもシステム管理者(IT大好き?)

なんでもシステム管理者(日本酒大好き)が実質的日本酒のブログになったのでIT関連を分離しました。

胆(キモ)冷やしました・・・

<(日本酒大好き)>からの転載です。元の日付は2012-11-25です。

------------------------------------------------------------------------------------------------------------

「不幸は突然に・・・ 久々の徹夜でした」

で、サーバのトラブルでエライ目にあったことを書きましたが、悲しいことにまたトラブルに会いました。

今度は社内に設置されている業務用のデータベースサーバが逝きました。

朝、携帯のメールに「止まってるよ」と同僚からのメールが入っているのに気づき、普段よりも早めに出社しました。

こ の時点では「ハングしているだろうから、再起動させればなおるんちゃうかな?」と楽観視というか、そうあってほしいと願っていました。そして会社につい て、サーバ室にいくとそのサーバは「ブルースクリーンWindowsがこけている状態でした。そして、一旦電源を切って、電源再投入。無事、起動してく れと祈りつつ画面を凝視してました。

しかし、ダメ・・・でした。

単純にOSがこけているのではない事が分かったので、次にやるべきことは原因の切り分けです。

Raidを組んでいるHDDの片方が死んでいないか?
・メモリの故障、あるいはコネクタの接触不良
マザーボードの故障
・OSのソフト的な破損
・電源故障

何度か起動している内にOSが立ち上がり、ログインでき「なんとかなったか!」と喜んだのもつかの間、しばらくするとまたブルースクリーン・・・

ある程度検証したところで、すぐに復旧できないと判断し、上司に報告し、関係する社員にサーバダウン中の連絡をメールでしました。

調査の過程で、少なくともHDDの片側と電源が故障していることが判明しました。この時点でダウンしたサーバを復旧させるのはムリ、新規にサーバを構築するしかないと判断しました。
幸い、HDDの1台は読み出し可能な状態だったので、データベースのデータは失われていませんでした。もし、失っていたら、と考えるとぞっとします。
3 時半頃、とにかくOSとデータベースまでインストールが完了したのですが、この先のコンテンツに関しては本社部門の方に構築してもらっているので、その人 の手を借りる必要がありました。しかもやっかいなことに、その人は超多忙なんです。サーバダウンについては、朝の内に連絡済みでしたので、事情は分かって くれているので、無理を言って夕方に来ていただきコンテンツの復旧作業に入りました。

そして、なんとか夜の11時頃にシステムが復旧・・・。その後もコンテンツの不具合が何点かありましたが、本社部門の方に直していただき完全復旧に至りました。

今 回のサーバ構築は、またトラブルがあったとしても素早く復旧できるよう、Hyper-Vという今はやりの仮想化環境で構築しました。サーバのイメージを バックアップしておけば、時間のかかるインストール作業が不要になるのです。平日の間はデータベースの内容が日々更新されているので、バックアップを取る には、一旦サーバを止める必要があります。そこで、休日を待ち、(幸い今週は金曜日が祝日でした。)バックアップの作業に入りました。

作業の参考にしたのはこのサイトです。

サー バそのものをエクスポートする作業なのですが、エクスポートを実行した後特に「実行中」とかの表示がなかったんです。でも参考にしたサイトでは結構時間が かかると書かれていたのでしばらく待っていました。でも、「エクスポート完了」のような表示もでないので、停止しているサーバを起動しようとしました。す ると「起動に失敗しました」のような恐ろしいメッセージが表示されます。一瞬頭が真っ白になりそうになり、やっと復旧させたサーバがまた逝っちゃった?と 超不安になりました。しかし、ここでパニックになっても始まりません。「ふぅーーーーーーーっ」と深く深呼吸してクールダウンして、良く確認すうると、ま だエクスポート中であることが分かりました。要するにサーバがロックされている状態だったので起動できなかったんです。

それを理解したことで安堵できましたが、起動できなかった時点ではマジ胆(キモ)冷やしました・・・(^_^;

結局エクスポート完了後、サーバが無事起動してホッとしました。

 

今、大嫌いな言葉は「2度ある事は3度ある。」(^_^;

「3度目の正直」になるべく精進します。