【ブイエルエルエム】
vLLM とは?
💡 LLMサーバーの回転寿司、無駄なくさばく
📌 このページのポイント
vLLMってなんで普通にモデルを動かすより速いの?
それでどのくらい速くなるの?
従来の方法と比べて2〜24倍のスループットが出ることもあるよ。特に同時に多くのユーザーからリクエストが来る場面で差が出るんだ。回転寿司に例えると、注文ごとに握るんじゃなく、レーンに効率よく流すイメージだね
使い方は難しいの?
他の推論エンジンと比べてvLLMを選ぶ理由は何?
まとめ:ざっくりこれだけ覚えればOK!
「vLLM」って出てきたら「LLMを高速に配信するための推論サーバー」と思えればだいたいOK!
📖 おまけ:英語の意味
「virtual Large Language Model (serving)」 = 仮想化された大規模言語モデル配信
💬 メモリの仮想化技術をLLM推論に持ち込んだことからvirtual(仮想)のvが付いているよ