【はんきょうしありがくしゅう】

半教師あり学習 とは?

💡 少しの正解と大量のヒントで賢くなる学習法
📌 このページのポイント
3つの学習手法の比較 教師あり学習 全データにラベル コスト: 高い 精度: 高い 半教師あり学習 少数ラベル+大量無印 コスト: 低い 精度: やや高い 教師なし学習 全データラベルなし コスト: 最低 精度: 限定的 半教師あり = コストと精度のバランスが良い
3つの学習手法の比較
ひよこ ひよこ

教師あり学習って、先生が半分だけ教えてくれるってこと?

ペンギン先生 ペンギン先生

まさにそのイメージだよ。例えば1000枚の写真があって、そのうち50枚だけ「これは猫」「これは犬」と正解ラベルが付いていて、残り950枚はラベルなし。この両方を使って学習するのが半教師あり学習だよ

ひよこ ひよこ

ラベルなしのデータって、何の役に立つの?

ペンギン先生 ペンギン先生

ラベルなしデータからも「この画像とこの画像は似ている」というデータの構造は学べるんだ。それを手がかりにすると、少ない正解データでもずっと賢くなれるよ。テスト前に教科書の答えが少ししかなくても、問題の傾向がわかれば対策できるのと似ているね

ひよこ ひよこ

全部にラベルを付ければいいんじゃないの?

ペンギン先生 ペンギン先生

それが理想だけど、現実にはラベル付けがものすごく大変なんだ。例えば医療画像だと、専門医が一枚一枚「この部分が病変です」と判定する必要があって、とてもコストがかかる。半教師あり学習なら少ない専門家の判定で済むから、実用的なんだよ

ひよこ ひよこ

最近のAIでも使われているの?

ペンギン先生 ペンギン先生

大規模言語モデルの学習でも似た考え方が使われているよ。大量のテキストで自己教師あり学習をした後、人間がラベル付けした少量のデータでファインチューニングする流れは、広い意味で半教師あり学習の発想に近いんだ。データのラベル付けコストは永遠の課題だから、この分野は今後もずっと重要だね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「半教師あり学習」って出てきたら「少しの正解データと大量の無印データで賢く学ぶ方法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Semi-supervised Learning」 = 半教師あり学習
💬 Semiは半分という意味で、教師あり(正解付き)と教師なし(正解なし)の半分ずつを使うイメージだよ
← 用語集にもどる