【きちのえらー】

既知のエラー とは?

💡 犯人は分かっている、逮捕はまだだけど対処法は共有済み
📌 このページのポイント
既知のエラー(Known Error) 問題 原因不明 原因特定 既知のエラー 原因:メモリリーク 回避策:サービス再起動 恒久対策:未着手 恒久対策 解決済み クローズ KEDB(既知のエラーデータベース) KE-001 メモリリーク 回避策あり 未修正 KE-002 タイムアウト 回避策あり 修正済み インシデント発生時にKEDBを検索→回避策で迅速対応
既知のエラーとKEDBの関係
ひよこ ひよこ

原因が分かっているのに直さないの?

ペンギン先生 ペンギン先生

すぐに直せない事情があるんだよ。修正にリスクがある、コストが大きい、次のメジャーリリースまで待つ必要がある、などの理由で恒久対策が後回しになることは現実的によくあるんだ。

ひよこ ひよこ

じゃあ同じ障害がまた起きちゃうの?

ペンギン先生 ペンギン先生

起きる可能性はあるけど、ワークアラウンド(回避策)を一緒に記録しておくんだ。「このエラーが出たらサービスAを再起動すれば復旧する」みたいな手順をセットで管理するよ。

ひよこ ひよこ

どこに記録するの?

ペンギン先生 ペンギン先生

KEDB(既知のエラーデータベース)と呼ばれる専用のデータベースに記録するよ。サービスデスクの担当者がインシデント受付時にKEDBを検索すれば、すぐに回避策が見つかるという仕組みだね。

ひよこ ひよこ

ずっと既知のエラーのままにしておいていいの?

ペンギン先生 ペンギン先生

もちろんいずれは恒久対策を実施してクローズすべきだよ。定期的にKEDBを見直して、優先度の高いものから順に根本修正を進めるのが問題管理のサイクルなんだ。

ひよこ ひよこ

既知のエラーが増えすぎたらどうするの?

ペンギン先生 ペンギン先生

それは組織の技術的負債が溜まっているサインだね。KEDBが膨張しているなら、問題管理リソースを増やすか、恒久対策の優先度を上げる経営判断が必要になるよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「既知のエラー」って出てきたら「原因は分かっているけど根本修正はまだの問題と、その回避策のセット」と思えればだいたいOK!
📖 おまけ:英語の意味
「Known Error」 = 既知の誤り
💬 ITILの用語で、「原因が既に知られている(Known)エラー」という意味だよ
← 用語集にもどる