【さんぷず】
散布図 とは?
💡 データの「仲良し度」を点々で見える化する図
📌 このページのポイント
- 横軸と縦軸にそれぞれ異なるデータを取り、データの組を点としてプロットする
- 点の散らばり方から、2つのデータに正の相関・負の相関・無相関かを判断できる
- QC七つ道具の一つで、品質に影響する要因を特定するときに使われる
- 外れ値の発見にも役立ち、異常データを素早く見つけられる
散布図って、どういうグラフなの?
2つのデータの関係を見るために、点をポンポンと打っていくグラフだよ。たとえば「勉強時間」と「テストの点数」みたいに、2つの数字の組み合わせを1つの点として表すんだ
点を打つと何がわかるの?
点が右肩上がりに並んでいたら「片方が増えるともう片方も増える」って関係(正の相関)がわかるし、右肩下がりなら逆の関係(負の相関)がわかるよ。バラバラなら関係なしだね
ソフトウェア開発でも使うの?
もちろん!たとえば「コードの行数」と「バグの数」の関係を散布図にすると、コードが多いモジュールほどバグが多いかどうかが一目でわかるよ
相関があるからって、原因と結果ってわけじゃないよね?
いい質問だね!「相関関係は因果関係ではない」というのはデータ分析の基本中の基本だよ。散布図で関係が見えたら、次にその理由を深掘りすることが大事なんだ
散布図を使うときのコツってある?
データの数が少なすぎると信頼性が低くなるから、ある程度まとまったデータで描くのがコツだよ。あと外れ値を見つけたら「なぜ外れているのか」を調べると新しい発見につながることが多いね
まとめ:ざっくりこれだけ覚えればOK!
「散布図」って出てきたら「2つのデータの関係を点で見える化するグラフ」と思えればだいたいOK!
📖 おまけ:英語の意味
「Scatter Diagram」 = 散布図
💬 scatter は「ばらまく」という意味で、データの点をばらまいたように見えることからこの名前がついたんだよ