【あるばーと】

ALBERT(アルバート) とは?

💡 BERTのダイエット成功版、軽いのに賢い
📌 このページのポイント
ALBERTのパラメータ共有と埋め込み分解 BERT(各層に別パラメータ) Layer 1 - パラメータA Layer 2 - パラメータB Layer 3 - パラメータC ... パラメータ数: 多い ALBERT(全層で共有) 共有 パラメータ Layer 1 Layer 2 Layer 3 ... 語彙埋め込み (小さい) 隠れ層 (大きい) 埋め込み分解 パラメータ数: 1/18 同じ重みを再利用 + 埋め込みサイズを分離 → 大幅な軽量化
ALBERTのパラメータ共有と埋め込み分解の仕組み
ひよこ ひよこ

ALBERTってBERTの小さい版ってこと?

ペンギン先生 ペンギン先生

そうだね。でもただ小さくしただけじゃないよ。たとえるなら、同じ仕事を少ない人数でこなすために仕事の仕方を工夫したイメージだね

ひよこ ひよこ

パラメータ共有ってどういうこと?

ペンギン先生 ペンギン先生

BERTは12層あるんだけど、各層がそれぞれ別のパラメータを持ってるんだ。ALBERTは全部の層で同じパラメータを使い回すんだよ。12人分の道具を1人分にまとめて、全員で共有するイメージだね

ひよこ ひよこ

それで性能は落ちないの?

ペンギン先生 ペンギン先生

意外と落ちないんだ。しかもALBERTではBERTNSPタスクの代わりにSOPという「文の順序を当てる」タスクを使ってるんだ。これがNSPより効果的で、性能維持に貢献してるよ

ひよこ ひよこ

どういうときにALBERTを選ぶといいの?

ペンギン先生 ペンギン先生

メモリやGPUリソースが限られてる環境で活躍するよ。エッジデバイスやスマホ向けのAIアプリを作るときとか、学習コストを抑えたいときにはALBERTの考え方がとても参考になるんだ。パラメータ共有のアイデアは後の効率的なモデル設計にも影響を与えたよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ALBERT」って出てきたら「BERTを軽量化して省メモリにしたモデル」と思えればだいたいOK!
📖 おまけ:英語の意味
「A Lite BERT」 = 軽量版BERT
💬 A Lite BERTの略でALBERT。人名のアルバートにかけてるのがおしゃれだよ。Liteは軽いという意味で、まさにBERTのライト版だよ
← 用語集にもどる