【あくてぃぶらーにんぐ】

アクティブラーニング(AI) とは?

💡 自分で「分からない問題」を選んで先生に聞きに行く賢い勉強法
📌 このページのポイント
選択 → ラベル付け → 学習 → 再選択 のループ ラベルなしデータ(大量) ? 不確実 AIモデル 不確実なデータを選択 ①選択 人間(エキスパート) A 正解ラベルを付与 ②ラベル付け ラベル済みデータ(少量) A B C A B A C 効率的にデータ数を増加 ③再学習 サイクル ① 選択 ② ラベル ③ 学習 ④ 再選択 ↻ 繰り返し
アクティブラーニング — AIが「分からないデータ」を自ら選び、効率的に学習するフロー
ひよこ ひよこ

アクティブラーニングって、学校で使うやつとは違うの?

ペンギン先生 ペンギン先生

教育分野のアクティブラーニング(主体的な学習)とは別物なんだ。AI分野では「モデルが自分でラベルが欲しいデータを選んで人間に聞く」という仕組みのことだよ。

ひよこ ひよこ

なんで自分でデータを選ぶ必要があるの?

ペンギン先生 ペンギン先生

全部のデータにラベルを付けるのはすごくお金と時間がかかるからだよ。たとえば100万枚の画像があったとき、全部に「猫」「犬」ってラベルを付けるのは大変だよね。AIが「この画像は猫か犬か自信がないから教えて」と自分で選べば、少ないラベルで効率よく学習できるんだ。

ひよこ ひよこ

どうやって「分からないデータ」を見つけるの?

ペンギン先生 ペンギン先生

代表的なのは「不確実性サンプリング」で、モデルの予測確率が50%に近いデータを優先的に選ぶ方法だよ。猫か犬か半々で迷っているデータの正解を教えてもらえば、一番学習効果が高いからね。賢い勉強法だよね。

ひよこ ひよこ

不確実性サンプリング以外にも方法はあるの?

ペンギン先生 ペンギン先生

「多様性サンプリング」はデータの偏りを減らすように多様なサンプルを選ぶ方法、「委員会ベース」は複数のモデルで予測して意見が割れたデータを選ぶ方法だよ。実務で意外と見落とされがちなのが「コールドスタート問題」で、最初はモデルの精度が低いから不確実性の判断自体が怪しいんだ。だから最初はランダムサンプリングで始めて、ある程度学習が進んでからアクティブラーニングに切り替えるのが実践的なアプローチだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「アクティブラーニング」って出てきたら「AIが自分で学ぶべきデータを選んで効率よく学習する方法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Active Learning」 = 能動学習
💬 「Active(能動的な)」「Learning(学習)」で、モデルが受け身じゃなく自分から「これを教えて!」と能動的にデータを選ぶ学習方法のことだよ。教育分野のアクティブラーニングとは別物なんだ
← 用語集にもどる