ミニバッチとは何ですか？

学習データを小さなかたまり（バッチ）に分けて少しずつモデルに食べさせる学習方法。全データ一括処理と1件ずつ処理のいいとこ取りをした手法。

ミニバッチのポイントは？

学習データ全体を一度に使うのではなく、数十〜数百件の小さなかたまりに分けて処理する。確率的勾配降下法（SGD）とバッチ勾配降下法の中間に位置するアプローチ。GPUのメモリに収まるサイズで並列計算できるため、効率的に学習が進む。バッチサイズの選び方で学習の安定性やモデルの汎化性能が大きく変わる

【ミニバッチ】

💡 食べ放題を一皿ずつ取りに行く戦略

📌 このページのポイント

ミニバッチのイメージ

ひよこ

ミニバッチってなに？全部のデータを一気に使って学習すればいいんじゃないの？

ペンギン先生

データが何百万件もあると、全部一度にメモリに載せるのは無理なんだよ。だからデータを小さなグループに分けて、少しずつ学習するのがミニバッチ方式だね

ひよこ

じゃあ1件ずつ処理するのとは何が違うの？

ペンギン先生

1件ずつだとノイズが多すぎて学習がフラフラするし、GPUの並列計算能力を活かせないんだ。ミニバッチなら適度にノイズを残しつつ効率よく計算できるよ

ひよこ

バッチサイズってどれくらいがいいの？

ペンギン先生

32や64が定番だけど、実はバッチサイズは奥が深いんだ。大きくすると学習が安定する反面、小さいバッチのほうが「良い谷」に落ちやすくて汎化性能が上がることが多いよ

ひよこ

えっ、不安定なほうがいい結果になることがあるの？

ペンギン先生

そうなんだよ。ベテランでも意外と見落としがちだけど、大きいバッチサイズだと鋭い最小値（シャープミニマ）にハマりやすくて、テスト精度が落ちることがあるんだ。Googleの研究でも学習率とバッチサイズのスケーリング則が提唱されていて、単に大きくすればいいわけじゃないんだよ

ひよこ

バッチサイズ選びも奥が深いんだね……！

ペンギン先生

しかもバッチサイズを学習の途中で変える「ウォームアップ」テクニックもあるよ。最初は小さいバッチで広く探索して、後半は大きいバッチで安定させる、なんて使い分けもプロはやっているんだ

まとめ：ざっくりこれだけ覚えればOK！

「ミニバッチ」って出てきたら「学習データを小分けにして効率よく学習する方法」と思えればだいたいOK！

📖 おまけ：英語の意味

「Mini-Batch」＝小さなひとかたまり

💬 「batch」はパンを焼くときの「一窯分」が語源だよ。データを一窯分ずつ処理するイメージだね