【ひすとぐらむ】
ヒストグラム とは?
💡 データの「かたまり」がどこにあるかを棒の高さで見える化する
📌 このページのポイント
- データの分布・ばらつきを視覚的に表す棒グラフ
- 区間(ビン)ごとの度数(個数)を棒の高さで表す
- 正規分布に従うか、偏りがあるかを確認できる
- QC七つ道具の一つで品質分析の基本ツール
ヒストグラムって棒グラフとどう違うの?
棒グラフはカテゴリ別の値を比べるものだけど、ヒストグラムは連続するデータの分布を見るものだよ。だから棒と棒の間に隙間がないのが特徴だね。たとえば「テストの点数」を10点刻みで何人いるか表すとヒストグラムになるよ。
ソフトウェア開発ではどう使うの?
レスポンスタイムの分布を見るのが定番だよ。ほとんどのリクエストが100ms以内で完了しているけど、一部が1秒以上かかっている…みたいなパターンが見えるんだ。平均値だけでは気づけない「ばらつき」を発見できるよ。
分布の形でわかることってあるの?
あるよ!山が1つで左右対称なら正常、山が2つあれば別々の母集団が混ざっている可能性がある。右に長い裾を引いていれば外れ値(異常に遅いリクエスト等)がある証拠だね。
パレート図との使い分けは?
ビンの数ってどう決めるの?
スタージェスの公式(ビン数 ≈ 1 + 3.3 × log₁₀(データ数))が有名だけど、実務では試行錯誤で見やすい数を探すことが多いよ。少なすぎると分布の特徴が消えるし、多すぎるとノイズだらけになる。Excelやpythonのmatplotlibなら自動で適切なビン数を提案してくれるよ。
まとめ:ざっくりこれだけ覚えればOK!
「ヒストグラム」って出てきたら「データの分布をバーで表すグラフ」と思えればだいたいOK!
📖 おまけ:英語の意味
「Histogram」 = 度数分布図
💬 ギリシャ語のhistos(柱)とgramma(記録)が語源で、柱で記録する図という意味だよ