ローカルLLMを動かすのに必要なVRAM容量と、VPSのメモリ・GPU対応表
【最初に結論を書いておきます】
何をやりたいかによって、GPUが必要かどうかはっきり変わります。
- Claude CodeやChatGPTのAPIを使う自動化がやりたい → GPUは不要。CPUのVPSで十分。
- Llama・Mistralなどのモデルをローカルで動かしたい → GPUがあると快適。ただしモデルサイズ次第。
- Stable Diffusionで画像生成したい → GPUほぼ必須。ただし月数万円かかる覚悟が必要。
正直に言うと、世の中には「とりあえずGPU搭載VPSを勧める」記事が多いです。アフィリエイト報酬が高いGPUプランに誘導したい、という動機が透けて見えるものもある。この記事では用途別にGPUが本当に必要なのかを整理します。
「VRAM不足」でLLMが動かない!その原因と解決策
ローカルLLMに挑戦したものの「CUDA out of memory」「メモリ不足で起動できない」と詰まった経験はありませんか?
ローカルLLM(Ollama・llama.cpp・vLLMなど)を動かす上で最大の壁がVRAMです。モデルのパラメータ数と量子化レベルによって必要なVRAM容量が変わるため、事前に知っておかないとVPSを契約しても無駄になります。
ただし、ここで一度立ち止まって考えてほしい。
「ローカルLLMを動かす」というのは、APIで外部のモデルを呼ぶこととは全然別の話です。
Claude CodeやOpenAI APIを使った自動化・コーディング補助がやりたいだけなら、GPUは1バイトも関係ない。APIを叩くのはCPUの仕事です。それなのに「AI開発にはGPUが必要」みたいなくくり方で高額プランへ誘導する記事は、正直あまり信用しないほうがいい。
この記事では「どのモデルに何GBのVRAMが必要か」を表で整理しつつ、あなたの用途でGPUが本当に必要なのかも合わせて判断できるように書きます。
モデル別・必要VRAM早見表
| モデル名 | パラメータ数 | 量子化 | 必要VRAM | 速度感 |
|---|---|---|---|---|
| Gemma 2B | 2B | Q4 | 約2GB | 爆速 |
| Llama 3.2 3B | 3B | Q4 | 約3GB | 高速 |
| Mistral 7B | 7B | Q4 | 約5GB | 快適 |
| Llama 3.1 8B | 8B | Q4 | 約6GB | 快適 |
| Llama 3.1 8B | 8B | Q8(高精度) | 約10GB | 普通 |
| Llama 3.1 70B | 70B | Q4 | 約40GB | 遅め |
| Llama 3.1 70B | 70B | Q8 | 約80GB | 低速 |
Q4/Q8とは:量子化の精度設定。数字が大きいほど高精度ですが、その分VRAMをより多く消費します。まず試すならQ4で十分です。
自分の感覚だと、7BのQ4あたりが「コストと実用性のバランスがいちばん取れてるライン」です。8BのQ8で10GBは、L4(24GB)なら余裕ですが、GPU VPSの料金と見合うかはちゃんと計算してから判断してください。
GPU vs CPU:VPSでLLMを動かす2つの方法
GPU搭載プランを使う(推奨……ただし用途を選ぶ)
GPUが使えるなら速いのは事実です。GPUはAI計算に特化したチップで、CPUの数十〜数百倍の速度が出ます。
ただし「速い」だけで月数万円出す価値があるかどうかは別の話。後述の料金計算をちゃんと見てから判断してください。
# Ollamaでモデルを実行(GPU自動検出)
ollama run llama3.1:8b
# GPU使用状況を確認
nvidia-smi
# VRAM消費量をリアルタイム確認
watch -n 1 nvidia-smi --query-gpu=memory.used,memory.free --format=csv
CPUオンリーのVPSで動かす(低コスト代替)
GPU搭載プランは高価なため、軽量モデルであればCPUだけでも動作します。ただし速度は大幅に落ちます。
# llama.cppでCPUのみ実行(スレッド数を指定)
./llama-cli -m ./models/gemma-2b.Q4_K_M.gguf \
--threads 8 \
--ctx-size 2048 \
-p "あなたは優秀なアシスタントです。"
# OllamaでCPUモード(GPU非搭載環境)
OLLAMA_NUM_GPU=0 ollama run gemma2:2b
CPUモードでの目安:2Bモデルで1トークン/秒前後。実用には忍耐が必要ですが、テスト用途や小規模自動化タスクなら使えます。
自分の場合、「とりあえず動作確認したい」「API代を節約したいけど品質は多少妥協できる」という用途でCPU VPSのOllamaを使っています。速さより「サーバーを立ち上げっぱなしにしておける」ことのほうが重要なので、PCを常時起動しておくよりVPSに任せるほうが精神的にラクです。
国内VPSのGPU対応比較
| サービス | GPU種別 | VRAM | 料金(時間) | 24h試算 | 月30日フル稼働試算 |
|---|---|---|---|---|---|
| XServer VPS | NVIDIA L4 | 24GB | 約150円 | 3,600円 | 約108,000円 |
| さくらのVPS 高火力 | NVIDIA H100 | 80GB | 約1,320円 | 31,680円 | 約950,400円 |
| ConoHa GPU | NVIDIA L4 | 24GB | 約178円 | 4,272円 | 約128,160円 |
はっきり書いておきます。
さくらのH100をフル稼働させたら月95万円です。これは個人が気軽に使うものじゃない。70Bモデルをどうしても動かしたい研究・業務用途で、「数時間だけ試したい」という使い方に限って検討するもの。
L4(24GB)であれば時間課金で試しやすい。7B〜13BクラスをQ4で動かす分には十分で、個人の実験用途ならこっちです。
損益分岐点で考える:時間課金 vs 月額固定
XServer VPSで例を挙げると、L4プランの時間課金が約150円/時間。仮に月額固定プランが用意されている場合、月に何時間使うかで判断が変わります。
XServer VPS L4の場合
- 時間課金:150円 × 使用時間
- 1日あたり換算:「週末2日×8時間」程度の使い方なら月64時間 = 9,600円
毎日数時間使うような用途なら月額固定を探すか、Google ColabやRunPodのような専用サービスも視野に入れたほうがいい。
L4(VRAM 24GB)で動かせるモデル:7B〜13BクラスをQ4で快適動作。30BモデルもQ4なら可。
H100(VRAM 80GB)で動かせるモデル:70B以上の大規模モデルをQ8の高精度で動作可能。ただし料金を見てから判断してください。
XServer VPS を選ぶ理由
XServer VPS のGPUプランはL4(VRAM 24GB)を搭載。Mistral 7BやLlama 3.1 8BをQ8で余裕をもって動かせます。コントロールパネルも日本語対応で使いやすく、初めてGPU VPSを試す方に向いています。
時間課金なので「まず試してみる」ができる点も助かります。月にそこまで使わないなら固定費がかからないのは正直ありがたい。
さくらのVPS 高火力を選ぶ理由
70Bクラスの大規模モデルを扱いたいなら、H100 SXMを搭載したさくらのVPS「高火力」が国内最強クラスです。VRAM 80GBあれば70BモデルをQ8フル精度で動かせます。
ただし自分から言わせてもらうと、これは「個人趣味でローカルLLMを試したい」用途じゃない。料金を計算した上で、業務や研究で70B以上が絶対必要、かつ短時間の利用に限るという場合の選択肢です。
実際のセットアップ手順(Ollama + GPU)
# Ubuntu 22.04前提
# 1. NVIDIAドライバ確認
nvidia-smi
# 2. Ollama インストール
curl -fsSL https://ollama.com/install.sh | sh
# 3. サービス起動
sudo systemctl start ollama
sudo systemctl enable ollama
# 4. モデルダウンロード&実行
ollama pull llama3.1:8b
ollama run llama3.1:8b
# 5. VRAMの空き容量を確認してから大きいモデルに挑戦
nvidia-smi --query-gpu=memory.free --format=csv,noheader
手順としてはこれだけです。Ollamaはインストールが簡単なので、GPU VPSを契約してから動かすまでの時間は思ったより短い。詰まるとしたらNVIDIAドライバ周りですが、Ubuntu 22.04の最新イメージを使えばだいたい解決しています。
VRAMが足りない時の対処法
- 量子化を下げる:Q8 → Q4 に変更するだけでVRAM消費が約半分に
- コンテキスト長を短縮:
--ctx-size 1024など短くするとVRAM節約 - GPU + CPUハイブリッド:Ollamaの
--num-gpuでGPUに乗り切らない分をCPUにオフロード - より小さいモデルを選ぶ:70B→13B→7B→3Bと段階的に試す
# GPUとCPUのハイブリッド実行(Ollamaの場合)
OLLAMA_NUM_GPU=28 ollama run llama3.1:70b
# 28レイヤーをGPU、残りをCPUで処理
自分の感覚では、まず小さいモデルから試してみるのが一番の近道です。「70Bじゃないと意味ない」と思い込んでいたけど、7BのQ4で十分だったというケースはかなり多い。いきなり大きいモデルを狙いに行って詰まるより、小さいところから確認していくほうが結果的に早い。
よくある質問
まとめ:あなたの使い方で選ぶ
| あなたの用途 | GPUは必要? | おすすめの構成 | 月コスト感 |
|---|---|---|---|
| Claude Code / OpenAI APIで自動化したい | 不要 | CPU VPS(月1,000〜2,000円) | 月1,000円〜 |
| Llama 7B〜8Bを快適に動かしたい | あると快適 | XServer VPS L4(時間課金) | 使った分だけ(週末のみなら月数千円) |
| Llama 13B〜30Bを動かしたい | ほぼ必須 | XServer VPS / ConoHa L4 | 月1〜3万円(使用時間次第) |
| Llama 70BをQ8で動かしたい | 必須(H100) | さくらのVPS 高火力 | 時間単位で使う前提。フル稼働は個人用途じゃない |
| Stable Diffusion(画像生成)をやりたい | 必須 | L4以上のGPU VPS | 月数万円。立ち上げが楽なら「あり」 |
| ゲームサーバーを立てたい | 不要 | CPU VPS | 月1,000〜3,000円。やってみたいなら一度やってみればいい |
****、ローカルLLMを「ちょっと試したい」段階なら、いきなり高額なGPUプランを契約する必要はない。まずCPU VPSでOllamaを動かして2Bや3Bモデルを試してみる。速度に不満が出てきたタイミングでL4のGPU VPSに切り替えるのが、無駄なコストを出さない一番賢いルートだと思っています。
悩んでいる暇があったら、手を動かしたほうが早い。動かしてみて「思ったより遅い」「もっと大きいモデルが使いたい」と感じてからスペックを上げればいい。最初からH100を借りる必要はないし、そもそもローカルLLMが自分の用途に合うかどうかも、試してみないとわからないです。