読者です 読者をやめる 読者になる 読者になる

構築中。

名古屋のインフラエンジニアです。ITイベントへの参加記録などを残していきます。

よそのシステム障害の話を書いた途端に…

なんかビジネス会計検定2級受験記以来の、いつもより多めのアクセスがやってきたので若干びびっていたところ、(サービスは止まっていませんが)斜め上から自分の身にもトラブルが降りかかってきました。

こういうとき、組織によっては「アプリ開発者 vs インフラ担当」でバトルが発生し、責任の押し付け合いが発生する…かもしれないのですが、私は「時々コードも書くインフラ担当者」ですし、他のインフラ担当メンバーにもインフラ専業者はいませんので、下は物理層から上はアプリケーションのデータまで、それぞれがフルカバーで調査に関わることになります。

まずはハードウェア障害やネットワークの過剰なトラフィックがないことを確認した上で、OS・ミドルウェアなどのログやプロセス情報などから疑わしい場所を絞り込み、自社開発ではない外部ライブラリのコードの不具合を発見し、裏付けとなる文献(英語)も見つけ再現テストを行い…という流れで対処が進みました。

 

「すべての層で対応しないといけないのは辛い」と思われがちですが、実際は「自分にコントロールする能力や権限がない物事について、長時間にわたって心身を拘束される」ほうがよっぽど辛いです。

「何もできないのに帰れない新人」(うちでは「帰ってしっかり休んで明日ちゃんと来てね」ということで帰します)もそうですが、おそらく「責任はあるのに自分で手を出せない管理職」も内心は辛いだろうと思います。

 

フルカバーしなくてもいいから何か一つでもできる(わかる)ようになっておく、というのは辛くならないためには大事なことなのかもしれません。