【ミニバッチこうばいこうかほう】

ミニバッチ勾配降下法 とは?

💡 少人数チームで素早く判断を積み重ねる、賢い会議スタイル
📌 このページのポイント
ミニバッチ勾配降下法:3つの手法の比較 フルバッチ 全データ(例: 10,000件) を一括で更新 確率的(SGD) 1件ずつ更新 高速・不安定 ミニバッチ ✓ 32〜256件ずつ更新 速さと安定のバランス ミニバッチの学習ステップ バッチ抽出 32〜256件 順伝播 損失を計算 逆伝播 勾配を計算 パラメータ更新 重みを調整 次の バッチへ 全バッチ処理で1エポック完了 → 繰り返し
ミニバッチ勾配降下法:全データを小さなバッチに分けて繰り返し更新
ひよこ ひよこ

勾配降下法ってデータ全部使うんじゃないの?

ペンギン先生 ペンギン先生

実は3種類あってね。全データ使う「フルバッチ」、1件ずつ使う「確率的(SGD)」、そして小さなまとまりで使う「ミニバッチ」があるんだよ。

ひよこ ひよこ

ミニバッチって何件くらいのまとまりなの?

ペンギン先生 ペンギン先生

32・64・128・256件あたりが定番だよ。このバッチサイズハイパーパラメータとして自分で決めるんだ。

ひよこ ひよこ

なんでわざわざ小分けにするの? 全部一気にやった方が正確そうなんだけど。

ペンギン先生 ペンギン先生

全データを一度に使うと計算が遅くてメモリも大量に必要なんだよ。ミニバッチなら何度も細かく更新できるから、学習のペースが速くなるんだ。

ひよこ ひよこ

1件ずつの方がもっと速くない?

ペンギン先生 ペンギン先生

1件ずつ(SGD)は速い反面、更新がバラつきすぎて不安定になりやすいんだ。ミニバッチはその中間で、速さと安定性のバランスが取れているんだよ。

ひよこ ひよこ

GPUとも相性がいいって聞いたんだけど、それはなんで?

ペンギン先生 ペンギン先生

GPUは同じ処理をたくさん並列でこなすのが得意でね。ミニバッチのサイズだとGPUのコアを効率よく使えるから、現代のディープラーニングでは事実上の標準手法になっているんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
ミニバッチ勾配降下法」って出てきたら「少量ずつデータを使って効率よく学習する方法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Mini-Batch Gradient Descent」 = ミニバッチ勾配降下法
💬 Gradient(勾配)とDescent(降下)で「損失の坂を下る」イメージ。Mini-Batchは「小さなまとまり」で、全データでも1件ずつでもなく中間の量を使う工夫から来ているんだよ。
← 用語集にもどる