【モデルサービング】

モデルサービング とは?

💡 焼きたてのパンを店頭に並べて売る工程
📌 このページのポイント
モデルサービングの流れ 学習済み モデル デプロイ (パッケージ化) 推論サーバー REST / gRPC API エンドポイント クライアント アプリ リクエスト 推論結果 サービング機能 ・オートスケーリング ・バッチ推論 / リアルタイム推論 ・モデルバージョン管理
モデルサービングのイメージ
ひよこ ひよこ

モデルの学習が終わったらそのまま使えるんじゃないの?

ペンギン先生 ペンギン先生

学習環境と本番環境は全然違うんだよ。本番では何千人ものユーザーから同時にリクエストが来るから、安定して素早く返せる仕組みが必要なんだ

ひよこ ひよこ

具体的にはどんなツールを使うの?

ペンギン先生 ペンギン先生

TensorFlow ServingやNVIDIAのTriton Inference Serverが定番だね。最近はLLM向けにvLLMやTGI(Text Generation Inference)も人気だよ

ひよこ ひよこ

レイテンシって気にしないとダメ?

ペンギン先生 ペンギン先生

めちゃくちゃ大事だよ。たとえばチャットボットで返答に5秒かかったらユーザーは離脱するよね。だからモデルの量子化キャッシュGPUの効率的な割り当てで応答時間を削るんだ

ひよこ ひよこ

バッチ処理って学習のときだけじゃないの?

ペンギン先生 ペンギン先生

いいところに気づいたね。実はサービング側でもリクエストをまとめて処理する「ダイナミックバッチング」というテクニックがあるんだ。ベテランでも意外と知らない人がいるけど、vLLMの「Continuous Batching」はこれをさらに進化させていて、リクエストごとに長さが違っても効率よくGPUを使い切れるんだよ

ひよこ ひよこ

サービングって裏側でかなり工夫が詰まっているんだね!

ペンギン先生 ペンギン先生

そうなんだ。さらに本番ではモデルのバージョン管理も重要で、A/Bテストカナリアリリースで新旧モデルを切り替えたりもするよ。学習して終わりじゃなくて、むしろサービングからが本番なんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「モデルサービング」って出てきたら「学習済みAIを本番で使えるように配信する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Model Serving」 = モデルの提供・配膳
💬 「Serving」はレストランで料理を「サーブする」のと同じ言葉だよ。モデルという料理をユーザーのテーブルまで届けるイメージだね
← 用語集にもどる