構築中。

名古屋のITインフラ屋さんです。ITイベントへの参加記録などを残していきます。

障害で週末が消滅

システム移行が近いことを察知してか、職場で使っているシステムの一部が障害を起こして停止したのが金曜日の午後。

基本的にほぼすべてのユニットが二重化されているにもかかわらず、電源が両系統ともほぼ同時に落ちたのでそのままダウン。

ハードウェアアプライアンスではありますが、IAサーバベースのハードウェアにBSD系(もしかしたらLinux系だったかもしれない)OSをベースにしたファームウェアが載っているだけのシステムで、修理対応もユニット交換のみ…のはずですが、なぜか1日では終わらず、翌日丸一日潰しても直らず、日曜日の昼になってようやく「直ってるはず」ということになりました(その後は「上物」の修復に半日…)。

 

「はず」というのは、修理の手順の中である処理をしている最中にカーネルパニックでOSが落ちたにも関わらず、「何らかの原因でそういうことが起きた事例が過去に1つあったからハードは壊れてなくて正常だよ」という、意味不明な説明で「直った」ことにされてしまったから、です。

買ったのはハードだけではなくてソフトウェア(ファームウェア)込み、なのに。

「何らかの原因」って何だ?

作業後に「ログからは完全に正常動作していることが判断できています」と言っておきながら、「そういう判断(=完全に正常動作)ができるってことは、ログから障害時に発生した一連の事象や破損したデータの具体的な場所の情報が分かる(とともに、それらが対処されたことも記録されている)ってことですよね?」と聞いたら「そのような細かいことはログには記録されていません」だとか(ここ数年「センサー増量中」とはいえ、所詮IAサーバベースのマシンなので、細かいことがわからなくて当然と言えば当然です)。

その程度の「粗い」ログを、作業が手詰まりになるたびに取らされて、解析のために待たされて、結局「細かいことはわかりませんでしたが、直るかもしれないので次は○○をやってみてください」という場当たり対応。

それを繰り返しているうちに、ほぼすべてのユニットが交換され…でも、直らない(笑)。

試すべき組み合わせや、電源を入れる/落とす/リブートする/設定値を変えるなどの実施タイミングが重要な作業があるにも関わらず、オンサイトで作業する修理業者に指示を出す側のメーカー担当者自身がその知識を持っていないために、時間を無駄遣いし、バックアップされて残っていたはずのデータも消え…。

 

メーカーにもよりますが、ここ数年、保守サポートの質の低下が目につきます。

・「ミッションクリティカルなシステムのためのプロサポート」にも関わらず、電話が繋がらない、メールを送っても無視。

⇒「障害検知で自動発報」にシフトしているせいもあるのでしょうが、予期せぬ形で電源が完全ロストしてしまうと、発報自体行われません…。

・やっと電話が繋がったと思ったら、「その製品の担当者ではないので対応できません。担当者から折り返します」と言われてしばらく放置。

・電話口でやたらと「診断ログを出せ」と言ってくる。ログを出すのに小一時間。

・合理化のため保守部品の在庫が最小限に絞られているので近隣に存在せず、はるか遠く離れた拠点からやってくる。

・↑のような事情があるので、受付時に初めから複数必要なことが分かり切っているにもかかわらず、1個ずつ小出しにしてくる。

・届いた保守部品が初期不良で再手配。修理業者・保守作業員が何も仕事をできずにそのまま帰る(その数時間後、別の人がやってくる)。

・結局、何だかんだで「○時間対応」が守られることはほぼない(窓口で受け付けてから実際に修理開始になるまでに半日近く掛かることもザラ)。

…書ききれなくなってきた。

昔からの「あるある」も含まれていますが、加えて最近は,

・判断の根拠や作業指示の意図を正しく説明できないサポート担当者が増えた。

…が目立つような気がします。

 

「現場での目視確認よりも、とにかくログ取得」「素人のような担当者が対応する」というのは、メーカー側が「大方の故障・単純障害は誰でも対応できるように」する取り組みによるものでしょうが、その分、複数の構成要素が(連鎖的に/偶然に)故障したことによる障害など、少し難易度が高い対応が上手くできなくなっているのかもしれません。

そのうち、AIで代替されそうな分野ですね。

特にAI導入初期の頃には「驚きの一手」を指してきて唖然とするかも。

 

なお、特に今回印象的だったのは、

・これまでは時間帯を区切って交代勤務していたはずの電話サポート窓口の担当者が、初日(金曜日)の夕方にローテーションで交代してから3日間、早朝から深夜までずーっと同じ人のままだった。

⇒電話サポートはストレスフルで離職率が高く採用難とは聞くけれど、いよいよヤバい状況?

ということです。

3日間、最初から最後まで「参戦」していた私が言うのも間違っている気がしますが、大手で元々きちんとしたルールがある企業でも、コンプライアンスを守るのは容易ではなくなってきた模様。

こちらも、いずれ窓口が完全機械応答化し、各種手配がAIで代替されそうです 。

そして、斜め上から「トンデモ質問」が飛んできて、回答に窮してしばらく沈黙しそう。

 

そろそろ、本格的にオンプレITインフラの世話係から足を洗う時期が来たようです。