vLLMをVPSで動かしてローカルLLMの推論速度を爆上げする
【先に結論】vLLMが「あり」な人・「なし」な人
記事を読む前に、まずここだけ読んでください。
| あなたの状況 | 判断 |
|---|---|
| 個人で使う、CPU推論のVPS | Ollamaでいい。vLLMの優位性は薄い |
| チームで使う、同時リクエストが複数ある | vLLMに移行する価値あり |
| APIサーバーとして外部公開したい | vLLM一択 |
| GPU VPS(月数万)を検討している | 用途を先に整理して。個人ならまず不要 |
はっきり書いておきます。vLLMの「2〜3倍速」はGPUあり前提の数字です。 CPUオンリーのVPSでOllamaから乗り換えても、体感できるほどの差は出ません。この前提を知らずに「3倍速になる!」と期待して導入すると、「あれ…?」ってなります。自分も最初そうでした。
Ollamaの応答が遅いと感じたら——でも、原因を先に確認して
OllamaでローカルLLMを動かしていると「もう少し速くならないか?」と感じることがあります。特にCPU推論では、応答開始まで数秒〜十数秒かかることも。
ただ、実際のところ、——その遅さ、vLLMで解決できるとは限りません。
遅さの原因が「モデルのサイズがVPSのメモリに対して大きすぎる」なら、vLLMに変えても変わりません。原因が「推論エンジンの効率の悪さ」なら、vLLMは効きます。でもそれはGPUがあってこそ。
vLLMは、PagedAttentionという技術で推論速度を大幅に向上させるオープンソースツールです。同じVPSスペックでも、GPUつきの環境ならOllamaと比べて2〜3倍の速度が期待できます。
vLLMとOllamaの比較——CPU環境とGPU環境で話が変わる
| 項目 | Ollama | vLLM |
|---|---|---|
| 推論速度(CPU) | 普通 | ほぼ同等〜微差 |
| 推論速度(GPU) | 普通 | 高速(2〜3倍) |
| 導入難易度 | ◎(1行) | ○(やや手順あり) |
| 同時リクエスト | 苦手 | ◎(バッチ処理対応) |
| メモリ効率 | 普通 | 高い(PagedAttention) |
| API互換性 | OpenAI互換 | OpenAI互換 |
| おすすめ | 個人・CPU環境 | チーム・GPU・API提供 |
Ollamaの強みは「とにかく動かすのがラク」なこと。ollama run llama3 の1行で済む。vLLMはそれより手順が多い分、ちゃんとした見返りを得られる用途かどうかを先に判断した方がいいです。
GPU VPSについて——月数万出す前に一度立ち止まって
「vLLM使いたいからGPU VPS契約しようかな」と思ってる人へ。
GPU VPSは月2〜5万円前後が相場です。立ち上げが楽で、チームで使うなら「あり」です。ただし月数万はまぁまぁ高い。 個人が趣味でLLMを動かすためだけに出す金額じゃないと思っています。
アフィリエイト記事でGPU VPSをゴリ押ししているものをたまに見かけますが、正直あれはアフィ報酬が高いからです。Claude CodeみたいなAPIを使う用途なら完全に不要だし、個人のローカルLLMでも、月数万の価値があるユースケースかどうかは冷静に考えてほしい。
「vLLMを個人で試したい」なら、まずCPUのVPSで動かしてみて、遅さが実際に問題になってからGPUを検討するの順番で十分です。
導入手順
ステップ1:VPSを用意(8GB以上推奨)
VPS選びについては正直に書いておきます。
Claude CodeなどAPIを経由する用途なら、GPU不要です。CPU VPSで十分。月額で比較すると:
- KAGOYA CLOUD VPS:時間課金(2GBプラン〜)。使った分だけ払う。月76時間未満ならKAGOYAが安い
- XServer VPS:2GBプランで月830円固定。月76時間以上使うなら実質XServerがトク
損益分岐点の計算をすると:XServerの830円 ÷ KAGOYAの時間単価(約11円/時間)≒ 76時間/月。常時稼働させるならXServer、スポット利用ならKAGOYAという判断になります。
「毎月いくらか計算したくない」「ずっとサーバー立てっぱなしにする」なら、XServerの830円固定の方が精神的にラクです。自分はこっちの感覚に近い。
なお、KAGOYAは14日間無料お試しがあります。週末が2回入るので、平日は仕事で触れなくても「動作確認には十分」だと思っています。
ステップ2:vLLMをインストール
pip install vllm
これだけです。Pythonの環境があれば1行。ここはOllamaと同じくらい簡単です。
ステップ3:APIサーバーを起動
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3-8B \
--host 0.0.0.0 \
--port 8000
初回はモデルのダウンロードが走るので時間かかります。Llama-3-8Bで数GB。VPSのストレージ残量を先に確認しておいてください(経験者は語る)。
ステップ4:APIを呼び出す
from openai import OpenAI
client = OpenAI(base_url="http://あなたのIP:8000/v1", api_key="dummy")
response = client.chat.completions.create(
model="meta-llama/Llama-3-8B",
messages=[{"role": "user", "content": "こんにちは"}]
)
base_url を差し替えるだけ。OllamaのOpenAI互換APIから乗り換えても、既存のコードはそのまま動きます。ここは素直に便利です。
よくある質問(FAQ)
まとめ——あなたの使い方で選ぶ
| 使い方 | おすすめ | 理由 |
|---|---|---|
| 個人でLLMを試したい・CPU VPS | Ollama | 導入ラク、CPU環境では速度差なし |
| チームで同時に使う・API提供したい | vLLM | バッチ処理・同時リクエストに強い |
| GPU VPS(月数万)を検討中 | 一度立ち止まって | 個人用途なら費用対効果を要確認 |
| Claude CodeなどAPIを使う用途 | GPU不要 | VPSはCPUで十分、GPU推しの記事は疑って |
| 常時稼働させたい・固定費がラク | XServer VPS(830円) | 月76時間超えるなら固定の方がトク |
| スポット利用・試してみたいだけ | KAGOYA(14日無料) | 週末2回あれば動作確認に十分 |
試してみて「思ってたのと違う」なら戻せばいい。悩んでいる暇があったら、手を動かしたほうが早い。VPS自体もKAGOYAなら無料期間で確認できるし、合わなければ解約すればいいだけです。