【もんだいかんり】

問題管理 とは?

💡 火を消すだけでなく、火元を断つのが問題管理
📌 このページのポイント
インシデント管理 vs 問題管理 インシデント管理 = 消火活動 今の障害をとにかく復旧させる 応急処置・サービス復旧優先 問題管理 = 防火活動 根本原因を特定し再発を防止する 原因分析・恒久対策 原因 調査 原因分析 既知のエラー登録 恒久対策実施 再発防止 問題管理のフロー:原因を突き止めて恒久対策を打つ
問題管理のイメージ
ひよこ ひよこ

インシデント管理と問題管理って何が違うの?

ペンギン先生 ペンギン先生

インシデント管理は「今起きている障害をとにかく復旧させる」こと。問題管理は「なぜその障害が起きたのか原因を調べて、二度と起きないようにする」ことだよ。消火と防火の関係だね。

ひよこ ひよこ

インシデントを直せば十分じゃないの?

ペンギン先生 ペンギン先生

応急処置だけだと同じ障害が何度も起きるよ。たとえばサーバーのメモリ不足で毎月障害が起きるなら、再起動で復旧するのがインシデント管理、メモリを増設するのが問題管理だね。

ひよこ ひよこ

どうやって原因を調べるの?

ペンギン先生 ペンギン先生

なぜなぜ分析フィッシュボーンダイアグラムなどの手法を使うよ。「なぜメモリ不足?→なぜリークが発生?→なぜコードに問題?」と掘り下げていくんだ。

ひよこ ひよこ

すぐに原因が分からないときはどうするの?

ペンギン先生 ペンギン先生

既知のエラー」として登録して、暫定的な回避策(ワークアラウンド)を共有するんだ。根本対策が決まるまでの間、同じインシデントが起きても素早く復旧できるようにしておくよ。

ひよこ ひよこ

問題管理をちゃんとやるとどうなるの?

ペンギン先生 ペンギン先生

インシデントの発生件数が目に見えて減るよ。短期的にはコストがかかるけど、長期的には運用チームの負荷が劇的に下がるんだ。SREの世界でも「トイル削減」として同じ考え方が重視されているね。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「問題管理」って出てきたら「インシデントの根本原因を突き止めて再発を防ぐ活動」と思えればだいたいOK!
📖 おまけ:英語の意味
「Problem Management」 = 問題の管理
💬 ITILでは「インシデント」と「問題」を明確に区別していて、問題はインシデントの根本原因のことだよ
← 用語集にもどる