【モデルサービング】
モデルサービング とは?
💡 焼きたてのパンを店頭に並べて売る工程
📌 このページのポイント
モデルの学習が終わったらそのまま使えるんじゃないの?
学習環境と本番環境は全然違うんだよ。本番では何千人ものユーザーから同時にリクエストが来るから、安定して素早く返せる仕組みが必要なんだ
具体的にはどんなツールを使うの?
TensorFlow ServingやNVIDIAのTriton Inference Serverが定番だね。最近はLLM向けにvLLMやTGI(Text Generation Inference)も人気だよ
レイテンシって気にしないとダメ?
バッチ処理って学習のときだけじゃないの?
サービングって裏側でかなり工夫が詰まっているんだね!
まとめ:ざっくりこれだけ覚えればOK!
「モデルサービング」って出てきたら「学習済みAIを本番で使えるように配信する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Model Serving」 = モデルの提供・配膳
💬 「Serving」はレストランで料理を「サーブする」のと同じ言葉だよ。モデルという料理をユーザーのテーブルまで届けるイメージだね