【じこきょうしありがくしゅう】

自己教師あり学習 とは?

💡 自分で問題を作って自分で解く、AIの自習スタイル
📌 このページのポイント
教師あり学習(従来手法) 画像データ 🖼 大量 人間がラベル付け 猫→ 「猫」 犬→ 「犬」 モデル 学習 コスト: 高い ● 人手でラベル付与 ● 時間・費用が膨大 自己教師あり学習(新手法) テキスト データ 大量 自動タスク生成 「今日は[?]だ」 マスク部分を予測 モデル 学習 コスト: 低い ● ラベル不要 ● データ自身から学習 ラベル不要 → 大規模データを低コストで活用可能
自己教師あり学習 ― 人手のラベル付けを不要にし、データ自身から学習タスクを自動生成する手法
ひよこ ひよこ

自己教師あり学習って、自分で自分を教えるってこと?

ペンギン先生 ペンギン先生

そうなんだ!たとえば文章の中の一部の単語を隠して「ここに何が入る?」って自分で問題を作るんだよ。答えは元の文章にあるから、人間がわざわざラベルを付けなくても学習できるんだ。

ひよこ ひよこ

それって教師あり学習とどう違うの?

ペンギン先生 ペンギン先生

教師あり学習は「この画像は猫です」みたいに人間が正解ラベルを用意する必要があるよね。自己教師あり学習はデータ自体から問題と答えを作るから、ラベル付けの手間がかからないんだ。インターネット上の大量のテキストをそのまま使えるのが強みだね。

ひよこ ひよこ

BERTとかGPTもこの方法なの?

ペンギン先生 ペンギン先生

まさにそうだよ!BERTは文中の単語をマスクして「何が隠されてる?」を当てる学習をするし、GPTは「次に来る単語は何?」を予測する学習をするんだ。どちらも自己教師あり学習の代表例で、大量のテキストから言語の知識を身につけているんだよ。

ひよこ ひよこ

自己教師あり学習って教師なし学習とは違うの?

ペンギン先生 ペンギン先生

違うんだ。教師なし学習クラスタリング次元削減のように「データの構造を発見する」のが目的。自己教師あり学習はデータ自体から疑似的な教師信号を作って「表現を学ぶ」のが目的だよ。結果的に汎用的な特徴量が得られるから、下流タスクに転移学習できるのが大きな強みなんだ。

ひよこ ひよこ

画像の分野でも自己教師あり学習は使われているの?

ペンギン先生 ペンギン先生

めちゃくちゃ使われているよ。たとえば画像の一部をマスクして「隠された部分を復元しろ」というタスクで学習するMAE(Masked Autoencoders)や、同じ画像を異なる方法で変換した2つのビューが「同じ画像だ」と学ぶコントラスト学習がある。Meta AIのDINOv2はラベルなしの画像データだけで驚くほど高精度な画像認識ができるようになったんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「自己教師あり学習」って出てきたら「ラベルなしデータから自分で問題を作って学ぶ手法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Self-Supervised Learning」 = 自己教師あり学習
💬 「Self(自分で)」「Supervised(教師あり)」「Learning(学習)」、つまり自分自身が先生になって学ぶ方法のことだよ。教師あり学習と教師なし学習のいいとこ取りなんだ
← 用語集にもどる