【早見表】Llama 3・Gemma 2を日本語で動かせるVPSスペック一覧&環境構築ガイド【2026年版】

Llama 3・Gemma 2を動かせるVPSスペック早見表&環境構築ガイド

先に結論を書きます

記事を開いた瞬間に判断できるように、自分の見立てを最初に全部書いておく。

「GPU付きVPSじゃないとローカルLLMは動かない」は嘘です。

OllamaはCPU推論で動く。チャット用途なら応答に数秒かかっても十分実用レベル。それなのに「GPU付きVPSを使いましょう」と強く推している記事があったら、GPU付きプランの単価が高くてアフィリエイト報酬が大きいからだと思って読み直してみてください。自分はそう判断しています。

自分の結論をまとめると:

  • 日本語でLLMを試したい → 4GBプラン + ELYZA 8B がいちばんコスパがいい
  • とにかく安くリスクなく始めたい → KAGOYAの2GBプラン(14日無料お試しあり)
  • 推論速度も気にする → XServer VPS(AMD EPYC搭載でCPUが速い)
  • GPUプランは? → Stable Diffusion用途でも「立ち上げが楽ならあり」くらいの温度感。月数万はまぁまぁ高いので、目的が明確でないなら急がなくていい

以下、モデルごとのスペック表と選び方を書いていく。


「このモデル、うちのVPSで動く?」を一発解決

スペック選びで詰まる人の大半は、「どのモデルにどれだけメモリが要るか」がわからないのが原因。ここを先に整理しておけば、VPS選びはかなりシンプルになる。


モデル別 必要スペック早見表

7B〜8Bパラメータ(軽量モデル)

モデルパラメータ量子化必要メモリ推奨VPS日本語性能
Llama 3 8B8BQ4_K_M6GB4GBプラン
Gemma 2 9B9BQ4_K_M7GB8GBプラン
Phi-3 Mini3.8BQ4_K_M3GB2GBプラン
Mistral 7B7BQ4_K_M5GB4GBプラン
Qwen2 7B7BQ4_K_M5GB4GBプラン

正直に言うと: 最初の一台として選ぶなら Llama 3 8B か Qwen2 7B でいい。どちらも4GBプランで動いて、日本語もそこそこ使える。「まず動いた」という体験を早く得ることのほうが大事なので、最初から13Bや27Bを目指す必要はない。いきなり大きいモデルを狙って「プランが高くて続かなかった」という話をけっこう聞く。

13B〜27Bパラメータ(中〜大型モデル)

モデルパラメータ量子化必要メモリ推奨VPS日本語性能
Llama 3 13B13BQ4_K_M10GB16GBプラン
Gemma 2 27B27BQ4_K_M18GB32GBプラン
Qwen2 14B14BQ4_K_M10GB16GBプラン

自分の見立て: Gemma 2 27Bを32GBプランで動かすと月額がそれなりにかかる。品質にこだわりたい気持ちはわかるけど、8Bクラスで「あ、十分だな」となるケースも多い。まず小さいところから試して、それで物足りなくなったら上を目指す順番がいいと思う。

日本語特化モデル

モデルベース量子化必要メモリ推奨VPS日本語性能
ELYZA-jp-Llama3 8BLlama 3 8BQ4_K_M6GB4GBプラン◎◎
Swallow-Llama 7BLlama 2 7BQ4_K_M5GB4GBプラン

日本語重視なら ELYZA-jp-Llama3 または Qwen2 が最初の選択肢。

はっきり言うと、英語ベースのLlama 3をそのまま使うより、ELYZAで日本語ファインチューニングされたものを使ったほうが体感の差は大きい。同じ4GBプランで動くんだから、日本語メインで使うつもりなら最初からELYZAを選んでいい。「試しにLlama 3素のままで使ってみたけど日本語が微妙で萎えた」というパターン、自分も一度経験した。


VPSプラン別「動かせるモデル」早見表

VPSプランメモリ動かせるモデル月額目安
2GBプラン2GBPhi-3 Mini(Q2量子化)770円〜
4GBプラン4GBLlama 3 8B, Mistral 7B, ELYZA 8B1,540円〜
8GBプラン8GBGemma 2 9B3,080円〜
16GBプラン16GBLlama 3 13B, Qwen2 14B6,160円〜

コスパで選ぶなら、4GBプラン + ELYZA 8B が現時点でいちばんバランスがいい。

1,540円 ÷ 30日 = 1日あたり約51円。これで日本語LLMが常時使えると考えると、個人用途としては十分許容できる金額だと思う。コーヒー1杯より安い。


おすすめVPS:自分なりの判断を正直に書きます

◆ KAGOYA CLOUD VPS(月770円〜)

コスパで選ぶなら、最初の候補に入れてほしい。

最安770円からスタートできて、14日間の無料お試しがある。「2週間も要る?」と思うかもしれないけど、これが絶妙で——週末が2回入る。平日は仕事で触れなくても、2回の週末があれば「ちゃんと動くかどうか」「自分の用途に合うかどうか」の確認には十分できる。焦らず試せるのがいい。

時間課金なので、使わない月は使った分だけしか払わない。「固定料金を毎月払ってるのに今月あまり使えなかった……」というストレスがない。これ、地味にメンタルに効く。

アップグレードも柔軟にできるので、「まず4GBで始めて、物足りなければ8GBに上げる」という進め方がしやすいのも合っている。

KAGOYA CLOUD VPS →

◆ XServer VPS(月990円〜)

AMD EPYC搭載でCPU推論が速い。これは数字だけの話じゃなくて、使ってみると体感できる差がある。応答速度が気になりはじめたタイミングで検討する価値がある。

ただし、固定料金という点は注意してほしい。「毎月いくらか計算したくない」「使わない月も払い続ける感覚が気になる」という人にとっては、KAGOYAの時間課金のほうが精神的にラク。

損益分岐点を具体的に計算するとこうなる:

  • KAGOYAの4GBプランは時間課金で約 1時間あたり約2.1円前後
  • XServerの4GBプラン相当は 月1,980円固定(プランにより変動)
  • 1,980円 ÷ 2.1円 ≒ 月約943時間

月に943時間(=1日31時間以上)起動させ続けるならXServerが得、それ未満ならKAGOYAが得という計算になる。常時稼働で使いたい人はXServer、使うときだけ動かしたい人はKAGOYAという分け方でほぼ迷わない。

XServer VPS →


環境構築手順(Ollama使用)

難しく考えなくていい。Ollamaを使えばコマンド数本で動く。「環境構築が難しそう」と思って躊躇している人は、一度やってみると拍子抜けするくらい簡単です。

ステップ1:VPSに接続してOllamaをインストール

ssh root@あなたのIPアドレス
curl -fsSL https://ollama.ai/install.sh | sh

ステップ2:モデルをダウンロード

# 汎用(英語メイン、日本語も可)
ollama pull llama3

# 日本語に強い
ollama pull gemma2

# 軽量・高速
ollama pull phi3

# 日本語特化(4GBプランで動く。日本語メインならまずこれを試してほしい)
ollama pull elyza/elyza-japanese-llama-3-8b

# コーディング特化
ollama pull codellama

日本語目的なら elyza/elyza-japanese-llama-3-8b を最初に試してください。同じ4GBプランで動いて、日本語の品質が体感でわかりやすく上がる。「Llama 3を試したけど日本語がなんか変だった」という人は、ここを変えるだけで印象が変わると思う。

ステップ3:動作テスト

ollama run llama3
# プロンプトが表示されたら日本語で質問してみる
>>> 日本の首都はどこですか?

パフォーマンスチューニング

メモリが足りない場合

量子化レベルを下げることでメモリ消費を削減できる:

# Q4(標準)→ Q2(軽量)に変更
# Modelfileを作成
echo "FROM llama3:latest
PARAMETER num_ctx 1024" > Modelfile
ollama create llama3-light -f Modelfile

自分の場合、コンテキスト長を短くするだけでかなりメモリの余裕が出た。「メモリが足りない」と感じたらすぐプランアップグレードを考えるんじゃなくて、まずここを触ってみてほしい。それでもキツければプラン変更を検討する、という順番のほうが無駄な出費が減る。

推論速度を上げたい場合

  • num_ctx(コンテキスト長)を短くする
  • より小さいモデルに切り替える
  • VPSプランをアップグレードする

はっきり言うと、速度が不満なら小さいモデルに切り替えるのが一番手っ取り早い。13Bが遅くて使いにくいなら8Bに戻す。スペックを上げる前に、まずモデルのサイズを下げる選択肢を試してみてください。そのくらいの柔軟さで進めたほうが、余計なお金を使わずに済む。


よくある質問(FAQ)

モデルの精度を少し下げる代わりに、必要なメモリを大幅に削減する技術です。Q4_K_Mなら元のモデルの90%以上の品質を維持しつつ、メモリ使用量を約4分の1に削減できます。
はい。OllamaはCPU推論に対応しており、GPUなしのVPSで動作します。応答速度はGPUより遅くなりますが、チャット用途なら十分実用的です。「GPUがないと動かない」という記事は、単価の高いGPUプランを売りたいだけの可能性があります。まずCPUで試してみてください。
はい。ストレージ容量が許す限り、複数のモデルをインストールして切り替えて使えます。ただし、同時に実行できるのは1モデルのみです。

まとめ:あなたの使い方で選ぶ

あなたの状況選ぶべき構成月額目安一言コメント
とにかく安くリスクなく試したいKAGOYA 2GB + Phi-3 Mini(無料お試しあり)770円〜週末2回で確認できる
日本語LLMを普通に使いたいKAGOYA 4GB + ELYZA 8B1,540円〜これが一番おすすめの入り口
推論速度も欲しい・常時稼働させたいXServer 4GB+ + Llama 3 8B1,980円〜月943時間以上動かすなら得
品質にこだわりたいKAGOYA 8GB + Gemma 2 9B3,080円〜8Bで満足できるか先に確認を
大型モデルを試したいKAGOYA 16GB + Qwen2 14B6,160円〜まず小さいモデルで試してから
GPU VPS(Stable Diffusion等)立ち上げが楽なら選択肢には入る月数万〜目的が明確なら。なんとなくは避けたほうがいい

自分の判断をひと言で言うと:「まず4GBプラン + ELYZA 8B + KAGOYAの無料お試し」が一番リスクが低い入り口。

1日51円で14日間タダで試せる。これで動かしてみて「物足りない」と感じてから上を目指せばいい。最初から16GBプランを契約して「思ったより使わなかった」になるより、小さく始めて必要に応じて上げるほうが後悔が少い。これは断言できる。

これが最終回答じゃないんだから、まずは動かしてみてください。試してみないとわからないことのほうが多い。

KAGOYA CLOUD VPSで始める →

XServer VPSで始める →