【ぷれとれーにんぐ】

プレトレーニング(事前学習) とは?

💡 AIの義務教育、まずは世界中の教科書を丸暗記
📌 このページのポイント
プレトレーニングとファインチューニングの流れ 大量テキスト Web、書籍、論文… プレトレーニング (事前学習) 日本の首都は ___ → 東京 基盤モデル 汎用知識 医療AI 翻訳AI ファイン チューニング コスト比較 プレトレーニング: 数十億円 ファインチューニング: 数百万円 事前学習の膨大なコストを 多くのタスクで共有できる!
プレトレーニング(事前学習)からファインチューニングへの流れ
ひよこ ひよこ

プレトレーニングって何を学習してるの?

ペンギン先生 ペンギン先生

ざっくり言うと「言葉の使い方の基礎」だよ。インターネット上の膨大なテキストを読み込んで、「この文の次にはこういう言葉が来そうだ」という予測を何兆回も繰り返すんだ。人間でいえば、赤ちゃんが言葉を覚えるまでに大量の会話を聞くのに似ているね

ひよこ ひよこ

それだけで賢くなるの?答えを教えなくていいの?

ペンギン先生 ペンギン先生

ここがすごいところなんだ。正解ラベルを人間が付けなくても、文章自体が教材になる。たとえば「日本の首都は___」という穴埋め問題を自動で作れるから、自己教師あり学習と呼ばれているよ。教師なしで教科書を自分で読んで理解するイメージだね

ひよこ ひよこ

プレトレーニングだけでChatGPTみたいになれるの?

ペンギン先生 ペンギン先生

プレトレーニングだけだと「文章の続きを予測するのが上手いだけ」の状態なんだ。人間の質問に適切に答えるには、そのあとにファインチューニングRLHF(人間のフィードバックによる強化学習)が必要だよ。プレトレーニングは土台作り、そこからの調整が実用化のカギなんだ

ひよこ ひよこ

プレトレーニングってお金かかるの?

ペンギン先生 ペンギン先生

とんでもなくかかるよ!GPT-4クラスだと数千万ドル、日本円で数十億円規模と言われている。数千台のGPUを数ヶ月間フル稼働させるからね。だから事前学習済みのモデルを公開・共有する文化が重要になっていて、LlamaやMistralのようなオープンモデルが注目されているんだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「プレトレーニング」って出てきたら「AIに基礎教養を叩き込む最初の大規模学習」と思えればだいたいOK!
📖 おまけ:英語の意味
「Pre-training」 = 事前学習・事前訓練
💬 Pre(前もって)+ Training(訓練)で、本番の学習(ファインチューニング)の前に行う基礎訓練という意味だよ
← 用語集にもどる