【ぷれとれーにんぐ】
プレトレーニング(事前学習) とは?
💡 AIの義務教育、まずは世界中の教科書を丸暗記
📌 このページのポイント
- ラベル付けされていない大量のテキストデータから言語の基本パターンを学習する
- GPTは次の単語予測、BERTは穴埋め問題という方式で事前学習を行う
- 事前学習済みモデルをファインチューニングすることで、少ないデータで特定タスクに適応できる
- 計算コストが非常に大きく、GPT-4クラスでは数千万ドル規模の費用がかかるとされる
プレトレーニングって何を学習してるの?
ざっくり言うと「言葉の使い方の基礎」だよ。インターネット上の膨大なテキストを読み込んで、「この文の次にはこういう言葉が来そうだ」という予測を何兆回も繰り返すんだ。人間でいえば、赤ちゃんが言葉を覚えるまでに大量の会話を聞くのに似ているね
それだけで賢くなるの?答えを教えなくていいの?
ここがすごいところなんだ。正解ラベルを人間が付けなくても、文章自体が教材になる。たとえば「日本の首都は___」という穴埋め問題を自動で作れるから、自己教師あり学習と呼ばれているよ。教師なしで教科書を自分で読んで理解するイメージだね
プレトレーニングだけでChatGPTみたいになれるの?
プレトレーニングだけだと「文章の続きを予測するのが上手いだけ」の状態なんだ。人間の質問に適切に答えるには、そのあとにファインチューニングやRLHF(人間のフィードバックによる強化学習)が必要だよ。プレトレーニングは土台作り、そこからの調整が実用化のカギなんだ
プレトレーニングってお金かかるの?
まとめ:ざっくりこれだけ覚えればOK!
「プレトレーニング」って出てきたら「AIに基礎教養を叩き込む最初の大規模学習」と思えればだいたいOK!
📖 おまけ:英語の意味
「Pre-training」 = 事前学習・事前訓練
💬 Pre(前もって)+ Training(訓練)で、本番の学習(ファインチューニング)の前に行う基礎訓練という意味だよ