なんでもシステム管理者(IT大好き?)

なんでもシステム管理者(日本酒大好き)が実質的日本酒のブログになったのでIT関連を分離しました。

不幸は突然に・・・ 久々の徹夜でした

<(日本酒大好き)>からの転載です。元の日付は2012-10-04です。

------------------------------------------------------------------------------------------------------------

私は一応(?)システム管理者をしていますので、人より1時間早く出社して、社内システムのメンテナンスなどしています。

一昨日の火曜日も普段通り8時に出社して仕事をしていると、携帯にメールが届き、見てみると「メールサーバ落ちてない?」というものでした。

んなわけないでしょう、なんかこの人のPCの調子が悪いんじゃないかと思いつつ、データセンターで運用しているメールサーバにSSHでつなごうとすると・・・

「あ れ?つながらない、マジかよ(T_T;」社内にサーバがあるわけではないので現物を見に行くことができません。データセンターに電話すると、自動応答が流 れて受け付けは9時からです・・・とのこと。「ふざけるな(怒)!」まぁ、しかたないので、取りあえずファックスをデータセンターに送り、大至急調査の 上、連絡するよう依頼しました。そして、上司に連絡し、会社から携帯電話が貸与されている社員には携帯メールで取りあえずメールサーバがダウンしている事 を連絡しました。

こうして、長い一日が始まりました。

9時を過ぎてもすぐにデータセンターに電話がつながらず、しばらくしてやっと電話がつながりサポート要員にファックスで依頼済みの件について頼むと、調査は担当に依頼済みですので、しばらくお待ちくださいとのこと。
こ ちらは、やきもきしているので30分ほど経ったので再度電話、今度は今データセンターに向かっています、とのたまう。サポートとデータセンターが違う場所 にあるため、移動中との事。ありえない!!サポートセンターとデータセンターの場所が違う。それは、いいでしょう。しかし、なぜ、すぐに状態を見に行ける 要員がデータセンターにおらんねん!!!
その後、ファックスが一通来たのですが、「筐体のディスクランプの確認およびKVMによる画面の表示状況を確認しております。」となんの意味もない内容でした。連絡から1時間弱で、まだこれ?10分で分かるないようやろ!!!!!

そ の後、何度もサポートに電話したのですが、この担当が同じことを繰り返すしか脳のないアンポンタンで、「上司と変われ!」(実際には丁寧な言葉で「上司と 変わって下さい」と言いました。もちろん語気は強めですが(^_^;)と言うと、「上司と変わっていただいても何も変わりませんが・・・」、「とにかく変 わって下さい!!」と数分押し問答した結果やっと上司と直接お話ができ、状況を改めて説明し、ファックスを送ってきたデータセンターにいる担当者から直接 電話をもらう約束を取り付けました。上司と変わったら、状況変わるやんけ・・・

で、2時間以上経過した後、ようやく具体的な報告がきました。
な んと、サーバマシンのRaid(※注1)ディスクが両方死んでいるようにステータスランプがついているとの事。初めは、サーバ機でソフトウェア的な障害が 発生していて、電源の再投入で復帰するのでは、淡い期待を抱いていたのですが、その期待は無残にも裏切られました。まさか、両方いっぺんに故障するなん て、しかも約1年前に片方のディスクが故障して交換したばかりなのに・・・
サーバのコンソール画面には、Kernel Panic(※2)という異常をしめす表示がされていたと後から連絡がありました。

で、 すがるような思いで、電源の強制再投入をしました。サーバがダウンしてからサーバに対してPingで疎通確認をしていましたが、ずうっと応答が無かったの が、電源再投入後、応答が帰ってくるようになりました。「生き返ったか??」SSHで接続を試みるもNG、色々な手段を講じて確認したところ、正常ではな いがある程度動いている、ネットワークは動いておりサービスとしてはDNSのみ動作している模様。データセンターからの連絡で、電源再投入前は両方のディ スクのフェイルランプがついていたが、片側は消え、コンソールにはディスクI/Oエラーと表示が出ているとのこと。ディスクは死にかけているが、完全には 死んでいない感じです。一縷の望みをかけて、再起動で正常動作を試してもらいましたが・・・・完全にお亡くなりになってしまいました。(T_T)

データセンター側で後できることは、新しいハードディスクに入れ替えて、OSのインストールまで。しかも、この日の作業はできず、いつできるかも次の日に確認しないと分からないとの事!!ほんまに、ここはユーザが困っていることをにんしきできているんでしょうか???

まぁ、この事態も予測してましたし、いつになるか分からないデータセンターの処置を待つわけにもいかなかったので、実はデータセンターとやり取りしている間に手持ちのパソコンにLinuxをインストールして、サーバの構築準備をしていました。

で、 上司に現状を報告し、代替のメールサーバを構築し、いち早い復旧を行う旨、伝えました。この日の比較的早い時点で、「今日は徹夜になるな・・・・」と覚悟 はしていました。しかし、問題は朝までに構築できるのか??ということです。クラッシュしたデータセンターのサーバを構築した時は、けっこういろいろ調べ ながらの作業だったので、およそ一か月ほどかかりました。一度やったこととはいえ、それを一晩でできるのか、俺??

結果としてはできました(ホッ(^_^)

サー バを構築し、全アカウントの設定、確認をし、サーバ復旧の連絡をしました。明け方少しは寝れるかな?と思っていたのですが、サーバが移動したことによる付 随作業に気づき、結局朝、他の社員が出社する時間になりました。その後も、バタバタと急ぎでかたづけなければならない作業が入り、やっと会社を出たのが午 後3時半をすぎていました。

家に帰り、シャワーを浴び、早めの晩飯をビールを飲みながら食べ終えると、急激に睡魔が襲ってきました。

長い1日でした。

 

PS.今年2回目の徹夜でした。2度ある事は3度あると言いますが2回でもう充分です・・・
ち なみに、使用しているデータセンターは6月に大規模事故を引き起こして大騒ぎになった某****サーバです。あんなことの後だから、もう少しましな対応に なっているかと考えていたのですが、全然ダメダメな対応でした。こんな対応している社風があんな事故を起こしたのでは?と思えました。

 

※ 注1 Raidというのは、サーバなど信頼性が要求されるマシンで使用される方式で、色々なタイプがあるのですが、ここで使われていたのは、Raid1と 言う2台のハードディスクを1台に見立てて両方のディスクで同じデータを保存するものです。(ミラーリングと言います。)この方式では、片方のディスクが 故障しても、もう1台がデータを保持しているので、壊れた方のディスクだけを交換し、運用が続けられます。

※2 あるていどLinuxを経験した方なら、見たくないけど見たことがあろうやなものです。ようするにOSの基本部分であるKernelがパニック状態になってしまってまともに動いていないことを示します。