プレトレーニング（事前学習）とは何ですか？

大量のラベルなしデータでモデルの基礎的な知識を学習させる工程。現代の大規模言語モデルの土台となる最も重要なステップ。

プレトレーニング（事前学習）のポイントは？

ラベル付けされていない大量のテキストデータから言語の基本パターンを学習する。GPTは次の単語予測、BERTは穴埋め問題という方式で事前学習を行う。事前学習済みモデルをファインチューニングすることで、少ないデータで特定タスクに適応できる。計算コストが非常に大きく、GPT-4クラスでは数千万ドル規模の費用がかかるとされる

【ぷれとれーにんぐ】

プレトレーニング（事前学習）とは？

💡 AIの義務教育、まずは世界中の教科書を丸暗記

📌 このページのポイント

ラベル付けされていない大量のテキストデータから言語の基本パターンを学習する
GPTは次の単語予測、BERTは穴埋め問題という方式で事前学習を行う
事前学習済みモデルをファインチューニングすることで、少ないデータで特定タスクに適応できる
計算コストが非常に大きく、GPT-4クラスでは数千万ドル規模の費用がかかるとされる

プレトレーニング（事前学習）からファインチューニングへの流れ

ひよこ

プレトレーニングって何を学習してるの？

ペンギン先生

ざっくり言うと「言葉の使い方の基礎」だよ。インターネット上の膨大なテキストを読み込んで、「この文の次にはこういう言葉が来そうだ」という予測を何兆回も繰り返すんだ。人間でいえば、赤ちゃんが言葉を覚えるまでに大量の会話を聞くのに似ているね

ひよこ

それだけで賢くなるの？答えを教えなくていいの？

ペンギン先生

ここがすごいところなんだ。正解ラベルを人間が付けなくても、文章自体が教材になる。たとえば「日本の首都は___」という穴埋め問題を自動で作れるから、自己教師あり学習と呼ばれているよ。教師なしで教科書を自分で読んで理解するイメージだね

ひよこ

プレトレーニングだけでChatGPTみたいになれるの？

ペンギン先生

プレトレーニングだけだと「文章の続きを予測するのが上手いだけ」の状態なんだ。人間の質問に適切に答えるには、そのあとにファインチューニングやRLHF（人間のフィードバックによる強化学習）が必要だよ。プレトレーニングは土台作り、そこからの調整が実用化のカギなんだ

ひよこ

プレトレーニングってお金かかるの？

ペンギン先生

とんでもなくかかるよ！GPT-4クラスだと数千万ドル、日本円で数十億円規模と言われている。数千台のGPUを数ヶ月間フル稼働させるからね。だから事前学習済みのモデルを公開・共有する文化が重要になっていて、LlamaやMistralのようなオープンモデルが注目されているんだよ

まとめ：ざっくりこれだけ覚えればOK！

「プレトレーニング」って出てきたら「AIに基礎教養を叩き込む最初の大規模学習」と思えればだいたいOK！

📖 おまけ：英語の意味

「Pre-training」＝事前学習・事前訓練

💬 Pre（前もって）+ Training（訓練）で、本番の学習（ファインチューニング）の前に行う基礎訓練という意味だよ

← 用語集にもどる

プレトレーニング（事前学習） とは？

プレトレーニング（事前学習）とは？