Llama 3・Gemma 2を動かせるVPSスペック早見表&環境構築ガイド
先に結論を書きます
記事を開いた瞬間に判断できるように、自分の見立てを最初に全部書いておく。
「GPU付きVPSじゃないとローカルLLMは動かない」は嘘です。
OllamaはCPU推論で動く。チャット用途なら応答に数秒かかっても十分実用レベル。それなのに「GPU付きVPSを使いましょう」と強く推している記事があったら、GPU付きプランの単価が高くてアフィリエイト報酬が大きいからだと思って読み直してみてください。自分はそう判断しています。
自分の結論をまとめると:
- 日本語でLLMを試したい → 4GBプラン + ELYZA 8B がいちばんコスパがいい
- とにかく安くリスクなく始めたい → KAGOYAの2GBプラン(14日無料お試しあり)
- 推論速度も気にする → XServer VPS(AMD EPYC搭載でCPUが速い)
- GPUプランは? → Stable Diffusion用途でも「立ち上げが楽ならあり」くらいの温度感。月数万はまぁまぁ高いので、目的が明確でないなら急がなくていい
以下、モデルごとのスペック表と選び方を書いていく。
「このモデル、うちのVPSで動く?」を一発解決
スペック選びで詰まる人の大半は、「どのモデルにどれだけメモリが要るか」がわからないのが原因。ここを先に整理しておけば、VPS選びはかなりシンプルになる。
モデル別 必要スペック早見表
7B〜8Bパラメータ(軽量モデル)
| モデル | パラメータ | 量子化 | 必要メモリ | 推奨VPS | 日本語性能 |
|---|---|---|---|---|---|
| Llama 3 8B | 8B | Q4_K_M | 6GB | 4GBプラン | ○ |
| Gemma 2 9B | 9B | Q4_K_M | 7GB | 8GBプラン | ◎ |
| Phi-3 Mini | 3.8B | Q4_K_M | 3GB | 2GBプラン | △ |
| Mistral 7B | 7B | Q4_K_M | 5GB | 4GBプラン | ○ |
| Qwen2 7B | 7B | Q4_K_M | 5GB | 4GBプラン | ◎ |
正直に言うと: 最初の一台として選ぶなら Llama 3 8B か Qwen2 7B でいい。どちらも4GBプランで動いて、日本語もそこそこ使える。「まず動いた」という体験を早く得ることのほうが大事なので、最初から13Bや27Bを目指す必要はない。いきなり大きいモデルを狙って「プランが高くて続かなかった」という話をけっこう聞く。
13B〜27Bパラメータ(中〜大型モデル)
| モデル | パラメータ | 量子化 | 必要メモリ | 推奨VPS | 日本語性能 |
|---|---|---|---|---|---|
| Llama 3 13B | 13B | Q4_K_M | 10GB | 16GBプラン | ◎ |
| Gemma 2 27B | 27B | Q4_K_M | 18GB | 32GBプラン | ◎ |
| Qwen2 14B | 14B | Q4_K_M | 10GB | 16GBプラン | ◎ |
自分の見立て: Gemma 2 27Bを32GBプランで動かすと月額がそれなりにかかる。品質にこだわりたい気持ちはわかるけど、8Bクラスで「あ、十分だな」となるケースも多い。まず小さいところから試して、それで物足りなくなったら上を目指す順番がいいと思う。
日本語特化モデル
| モデル | ベース | 量子化 | 必要メモリ | 推奨VPS | 日本語性能 |
|---|---|---|---|---|---|
| ELYZA-jp-Llama3 8B | Llama 3 8B | Q4_K_M | 6GB | 4GBプラン | ◎◎ |
| Swallow-Llama 7B | Llama 2 7B | Q4_K_M | 5GB | 4GBプラン | ◎ |
日本語重視なら ELYZA-jp-Llama3 または Qwen2 が最初の選択肢。
はっきり言うと、英語ベースのLlama 3をそのまま使うより、ELYZAで日本語ファインチューニングされたものを使ったほうが体感の差は大きい。同じ4GBプランで動くんだから、日本語メインで使うつもりなら最初からELYZAを選んでいい。「試しにLlama 3素のままで使ってみたけど日本語が微妙で萎えた」というパターン、自分も一度経験した。
VPSプラン別「動かせるモデル」早見表
| VPSプラン | メモリ | 動かせるモデル | 月額目安 |
|---|---|---|---|
| 2GBプラン | 2GB | Phi-3 Mini(Q2量子化) | 770円〜 |
| 4GBプラン | 4GB | Llama 3 8B, Mistral 7B, ELYZA 8B | 1,540円〜 |
| 8GBプラン | 8GB | Gemma 2 9B | 3,080円〜 |
| 16GBプラン | 16GB | Llama 3 13B, Qwen2 14B | 6,160円〜 |
コスパで選ぶなら、4GBプラン + ELYZA 8B が現時点でいちばんバランスがいい。
1,540円 ÷ 30日 = 1日あたり約51円。これで日本語LLMが常時使えると考えると、個人用途としては十分許容できる金額だと思う。コーヒー1杯より安い。
おすすめVPS:自分なりの判断を正直に書きます
◆ KAGOYA CLOUD VPS(月770円〜)
コスパで選ぶなら、最初の候補に入れてほしい。
最安770円からスタートできて、14日間の無料お試しがある。「2週間も要る?」と思うかもしれないけど、これが絶妙で——週末が2回入る。平日は仕事で触れなくても、2回の週末があれば「ちゃんと動くかどうか」「自分の用途に合うかどうか」の確認には十分できる。焦らず試せるのがいい。
時間課金なので、使わない月は使った分だけしか払わない。「固定料金を毎月払ってるのに今月あまり使えなかった……」というストレスがない。これ、地味にメンタルに効く。
アップグレードも柔軟にできるので、「まず4GBで始めて、物足りなければ8GBに上げる」という進め方がしやすいのも合っている。
◆ XServer VPS(月990円〜)
AMD EPYC搭載でCPU推論が速い。これは数字だけの話じゃなくて、使ってみると体感できる差がある。応答速度が気になりはじめたタイミングで検討する価値がある。
ただし、固定料金という点は注意してほしい。「毎月いくらか計算したくない」「使わない月も払い続ける感覚が気になる」という人にとっては、KAGOYAの時間課金のほうが精神的にラク。
損益分岐点を具体的に計算するとこうなる:
- KAGOYAの4GBプランは時間課金で約 1時間あたり約2.1円前後
- XServerの4GBプラン相当は 月1,980円固定(プランにより変動)
- 1,980円 ÷ 2.1円 ≒ 月約943時間
月に943時間(=1日31時間以上)起動させ続けるならXServerが得、それ未満ならKAGOYAが得という計算になる。常時稼働で使いたい人はXServer、使うときだけ動かしたい人はKAGOYAという分け方でほぼ迷わない。
環境構築手順(Ollama使用)
難しく考えなくていい。Ollamaを使えばコマンド数本で動く。「環境構築が難しそう」と思って躊躇している人は、一度やってみると拍子抜けするくらい簡単です。
ステップ1:VPSに接続してOllamaをインストール
ssh root@あなたのIPアドレス
curl -fsSL https://ollama.ai/install.sh | sh
ステップ2:モデルをダウンロード
# 汎用(英語メイン、日本語も可)
ollama pull llama3
# 日本語に強い
ollama pull gemma2
# 軽量・高速
ollama pull phi3
# 日本語特化(4GBプランで動く。日本語メインならまずこれを試してほしい)
ollama pull elyza/elyza-japanese-llama-3-8b
# コーディング特化
ollama pull codellama
日本語目的なら
elyza/elyza-japanese-llama-3-8bを最初に試してください。同じ4GBプランで動いて、日本語の品質が体感でわかりやすく上がる。「Llama 3を試したけど日本語がなんか変だった」という人は、ここを変えるだけで印象が変わると思う。
ステップ3:動作テスト
ollama run llama3
# プロンプトが表示されたら日本語で質問してみる
>>> 日本の首都はどこですか?
パフォーマンスチューニング
メモリが足りない場合
量子化レベルを下げることでメモリ消費を削減できる:
# Q4(標準)→ Q2(軽量)に変更
# Modelfileを作成
echo "FROM llama3:latest
PARAMETER num_ctx 1024" > Modelfile
ollama create llama3-light -f Modelfile
自分の場合、コンテキスト長を短くするだけでかなりメモリの余裕が出た。「メモリが足りない」と感じたらすぐプランアップグレードを考えるんじゃなくて、まずここを触ってみてほしい。それでもキツければプラン変更を検討する、という順番のほうが無駄な出費が減る。
推論速度を上げたい場合
num_ctx(コンテキスト長)を短くする- より小さいモデルに切り替える
- VPSプランをアップグレードする
はっきり言うと、速度が不満なら小さいモデルに切り替えるのが一番手っ取り早い。13Bが遅くて使いにくいなら8Bに戻す。スペックを上げる前に、まずモデルのサイズを下げる選択肢を試してみてください。そのくらいの柔軟さで進めたほうが、余計なお金を使わずに済む。
よくある質問(FAQ)
まとめ:あなたの使い方で選ぶ
| あなたの状況 | 選ぶべき構成 | 月額目安 | 一言コメント |
|---|---|---|---|
| とにかく安くリスクなく試したい | KAGOYA 2GB + Phi-3 Mini(無料お試しあり) | 770円〜 | 週末2回で確認できる |
| 日本語LLMを普通に使いたい | KAGOYA 4GB + ELYZA 8B | 1,540円〜 | これが一番おすすめの入り口 |
| 推論速度も欲しい・常時稼働させたい | XServer 4GB+ + Llama 3 8B | 1,980円〜 | 月943時間以上動かすなら得 |
| 品質にこだわりたい | KAGOYA 8GB + Gemma 2 9B | 3,080円〜 | 8Bで満足できるか先に確認を |
| 大型モデルを試したい | KAGOYA 16GB + Qwen2 14B | 6,160円〜 | まず小さいモデルで試してから |
| GPU VPS(Stable Diffusion等) | 立ち上げが楽なら選択肢には入る | 月数万〜 | 目的が明確なら。なんとなくは避けたほうがいい |
自分の判断をひと言で言うと:「まず4GBプラン + ELYZA 8B + KAGOYAの無料お試し」が一番リスクが低い入り口。
1日51円で14日間タダで試せる。これで動かしてみて「物足りない」と感じてから上を目指せばいい。最初から16GBプランを契約して「思ったより使わなかった」になるより、小さく始めて必要に応じて上げるほうが後悔が少い。これは断言できる。
これが最終回答じゃないんだから、まずは動かしてみてください。試してみないとわからないことのほうが多い。