読者です 読者をやめる 読者になる 読者になる

構築中。

名古屋のインフラエンジニアです。ITイベントへの参加記録などを残していきます。

サーバ、突然落ちる。そして、腹が減る

タイトルがミスリード気味ですが、このブログのことではありません(1台落ちたところでサービスの提供に影響はないでしょうし)。

 

今月1日、そろそろ終業時刻を迎えようとしていたタイミングで、会社のサーバが1台落ちました。

最近のサーバの話ですので、ある程度のログは(OS環境とは独立して)出ます。それを確認して、メーカーサポートに連絡。

…今まではそんなことはなかったのですが、なかなか電話が繋がりません。

みんな、ハロウィン疲れで、欠勤・早退したのでしょうか?それとも、10/31付で退職者が大量に…?

 

とりあえず15分ぐらい粘って、ようやく人が出ました。「電源を入れなおしてほしい」とのことだったので、遠隔操作で入れ直したところ、何事もなかったかのように動き始めました(あるある)。

・ハードに異常はなく、たまたま発生しただけかも?

ファームウェアの障害で似たような現象が発生した事例があるよ

・ハードの予防交換をしようにも、ログがないと対象パーツの絞り込みができないから、無理!

・とりあえず原因を調べたいのでログ送って(取得方法の資料と受け渡し窓口のURLを送るね!)

とのことなので、いったん電話を切って待つこと10分。メールが来たので指示通りやってみた…ら、「12分未満で取れます」という表示も空しく、30分以上待たされた後、お約束のように、90%以上進んだところでFailed。

 

もう一度サポートに電話を掛けると、また15分以上待たされてようやく(別の)人が出ました。

「ログ取れないよ!」と伝えたら、今度は、

・ドライバとか、ソフトウェアの障害が原因かも

という謎の話が追加されました。

…いや、エラーの出所と内容からして、もしそれが本当なら、まずファームウェアにバグがあるはずなんですが…。

 

解決まで時間を掛けられない状況だったので、

「とりあえず、最初のエラーメッセージで判断できる範囲でパーツ交換して!」とプッシュして、すったもんだした結果、翌朝パーツ交換できることになりました。

「ログ取れないとパーツ交換できない」という最初の話は何だったんだろう…(いや、事情を知ってたからプッシュしたんで、どうでもいいです)。

※その後、やり直したらすんなりログが取れたので追加で送ったところ、「やっぱり原因特定に繋がる情報は(最初のエラーメッセージ以外には)なかった」そうです。

 

もちろん、パーツ交換にもリスクはありますし、時間を掛けられる状況なら、段階を踏んで対応していったほうが、原因も分かりますし、いいのですが。

最近のサーバは色々なパーツにプロセッサが載っていてファームウェアの数も大量にあるので、普段から大量にバージョンアップ作業しているような環境でもないと、短時間では準備すら困難です。「対象パーツをいちいち選ばなくても一括適用してくれるツール」はありますが…ダウンロード時間が長いせいで、結局時間が掛かる。

パーツ交換してもらう場合、最新ファームウェアの適用も作業に含まれるので、原因追求は難しくなりますが「考えられる原因」を複数まとめて潰すことができます。

 

…とりあえず、パーツ交換にこぎつけるまでにやりとりに掛かった時間が、計4時間。

途中で消灯となり、寒空の下に追い出される始末(近くに地下街があってよかった)。

本当は、中途入社の方の歓迎会に参加する予定だったのですが。晩御飯を食べ損ねました。

 

で、翌日の交換立ち合いは、予め「時間が掛かるよ」とサポートの人に散々脅されていた(何度も立ち会ってるから知ってますって!)わりには、すんなり進んで約4時間で終了。

過去には、マザーボードの交換で、作業完了・最終確認!という段階で、インジケータLEDの色(青=正常か、アンバー=異常か)がテレコになっていることに気づくというオチで、パーツ(再)調達待ち時間と立ち会い時間が2倍以上に延びたこともあったので、それと比べたらかわいいもんです。

 

機器の複雑化に加え、クラウドへの移行や、統計情報を使ったサポートの合理化が進んできたことも影響しているのか、ここ数年、ハードメーカーのサポートの(相対的な)レベルが(顧客対応・ノウハウ・物量面の全てで)落ちてきていることを実感しています。

サポート担当者個々の問題というより、メーカの姿勢、という意味で。

統計情報を使った合理化が進むとよさそうな感じがしますが、サポートケース個々でみれば、「割を食う」「切り捨てられる」ことがある、という意味でもあります(トータルでうまく回れば良いわけなので)。地方では、「近くの倉庫にパーツがないから」ということでリードタイムが延びることが、以前より増えました。

サポート担当者も、結構辛いのではないか?と思います。(こちらも、かわいそうと思いながら、状況次第では強く言わざるをえない…あなたに恨みはないんだけどね…)。

 

まあ、持たずにすむ状況であれば、オンプレ機器は持たずにクラウド移行してしまえばいいのですが(それはそれで別のレイヤでの「すったもんだ」が発生するけれど、予算をケチらなければかえって自力でカバーできる範囲も広がるので)。

 

ちなみに、「勉強会」とは何の関係もなさそうなエントリですが…一連の「すったもんだ」には、うちの新人さんも付き合わされて(私としては、歓迎会のほうを優先してもらっても良かったと思うのですが)、彼も晩御飯を食べ損ねました。

やり取りを聞いていて、多分、この仕事を続けていくことに不安を覚えたのではないか、という気が。

大丈夫、多分、数年のうちに、やらなくてよくなるはずだから。