【かいきぶんせき】

回帰分析 とは?

💡 過去のデータから未来の数値を読む「予言の数式」
📌 このページのポイント
回帰分析(線形回帰) 広告費(万円) 売上(万円) 回帰直線 予測値 回帰分析とは 実データ 回帰直線 データの傾向を 直線で表し 未知の値を 予測する y = ax + b 広告費を増やすと売上がどれくらい増えるかを予測できる
回帰分析(線形回帰)のイメージ
ひよこ ひよこ

回帰って何で「回帰」っていうの?

ペンギン先生 ペンギン先生

19世紀の科学者ゴルトンが「背の高い親の子どもは、親ほど背が高くない傾向がある(平均に回帰する)」と発見したことからきてるんだ。今では「数値を予測する」という意味で使われていて、語源と少し違う使われ方をしているよ。

ひよこ ひよこ

「線形回帰」の「線形」って何のこと?

ペンギン先生 ペンギン先生

入力と出力の関係が直線(一次関数)で表せるということだよ。「部屋の広さが1平米増えるごとに家賃が1万円上がる」みたいな一定の関係ね。曲線になる場合はポリノミアル(多項式)回帰を使うよ。

ひよこ ひよこ

予測の精度ってどうやって測るの?

ペンギン先生 ペンギン先生

主にMSE(平均二乗誤差)やRMSE(平均二乗誤差の平方根)を使うよ。「予測値と実際の値の差を二乗して平均する」んだけど、二乗するのは大きいエラーをより重く扱うためだよ。

ひよこ ひよこ

変数が多ければ多いほど予測精度が上がるって本当?

ペンギン先生 ペンギン先生

これは罠で、変数を増やすだけでは精度は上がらないんだ。むしろ「呪いの次元」という問題があって、特徴量(変数)が増えると必要なデータ量が指数的に増える。さらに多重共線性という問題もあって、互いに相関が強い変数を一緒に使うと係数の推定が不安定になる。変数を増やすと訓練データへの当てはまりは良くなるのに汎化性能は下がることがあって、「特徴量選択」や「正則化」という技術が必要になるんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「回帰分析」って出てきたら「データの関係から数値を予測する手法のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Regression Analysis」 = 回帰(平均への戻り)分析
💬 「Regression(回帰)」は平均に戻っていく傾向のことで、19世紀の遺伝学研究からきた言葉だよ
← 用語集にもどる