【コスパ検証】Llama.cppを使ってCPUのみの格安VPSでローカルLLMを動かす【月770円〜】

Llama.cppでCPU格安VPSでローカルLLMを動かす【コスパ検証】

「GPUがないとAIは動かせない」は過去の話

AI=高額なGPUが必要、というイメージはありませんか?

実はLlama.cppという技術のおかげで、GPUなしのCPUだけでAIモデルを動かせる時代になっています。しかも月770円の格安VPSで。

この記事では、CPUのみのVPSでローカルLLMを動かして「実際に使えるのか?」を徹底検証します。

Llama.cppとは

Llama.cppは、Meta社のLLM「Llama」シリーズをC++で実装したオープンソースプロジェクトです。最大の特徴は:

  • GPUなしでLLMが動く(CPU推論に最適化)
  • 量子化(モデルサイズを圧縮)に対応
  • メモリ消費が少ない(4GBのVPSでも動作可能)
  • Linux/Mac/Windowsで動作

コスト比較:GPU vs CPU

項目GPU搭載クラウドCPU格安VPS
月額1万円〜10万円770円〜990円
推論速度高速(10〜50トークン/秒)中速(3〜15トークン/秒)
対応モデルサイズ70B以上可7B〜13B推奨
初期費用なしなし

日常的なチャット用途なら、CPU推論の速度で十分実用的です。

CPUのみVPSでの実測パフォーマンス

テスト環境

項目スペック
VPS2コア / 4GB メモリ
OSUbuntu 22.04
モデルLlama 3 8B(Q4_K_M量子化)
ツールllama.cpp(最新版)

実測結果

用途入力トークン応答速度体感
短い質問50トークン約5トークン/秒やや待つが許容範囲
文章要約200トークン約4トークン/秒10秒程度で回答開始
コード生成100トークン約5トークン/秒実用的
長文作成500トークン約3トークン/秒待ち時間あるが使える

結論:チャット形式の質問応答なら、月770円のVPSで十分に使える。

おすすめVPSプラン

第1位:KAGOYA CLOUD VPS 4GBプラン(月1,540円)

CPUコスパ最強。4GBメモリで7Bモデルが快適に動作。

KAGOYA CLOUD VPS 公式サイトを見る →

第2位:XServer VPS 4GBプラン(月1,890円)

AMD EPYC搭載で、CPU推論速度が他社より高速。

XServer VPS 公式サイトを見る →

第3位:KAGOYA CLOUD VPS 2GBプラン(月770円)← 最安チャレンジ

2GBでも量子化モデル(Q4_0)なら動作可能。お試しに最適。

月770円から試す →

導入手順

ステップ1:VPSに接続

ssh root@あなたのIPアドレス

ステップ2:ビルドツールをインストール

apt update && apt install -y build-essential cmake git

ステップ3:Llama.cppをビルド

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build --config Release -j$(nproc)

ステップ4:量子化モデルをダウンロード

# Hugging Faceから量子化済みモデルをダウンロード
apt install -y wget
wget https://huggingface.co/TheBloke/Llama-3-8B-GGUF/resolve/main/llama-3-8b.Q4_K_M.gguf

※ URLは例です。最新のモデルはHugging Faceで検索してください。

ステップ5:AIを起動

# 対話モード
./build/bin/llama-cli -m llama-3-8b.Q4_K_M.gguf -c 2048 --interactive

# APIサーバーモード(Open WebUI等と連携可能)
./build/bin/llama-server -m llama-3-8b.Q4_K_M.gguf -c 2048 --host 0.0.0.0 --port 8080

量子化レベルの選び方

量子化サイズ品質必要メモリおすすめ
Q8_0約8GB最高10GB以上8GBプラン
Q5_K_M約5.5GB高い8GB以上8GBプラン
Q4_K_M約4.5GB良い6GB以上4GBプラン ← おすすめ
Q4_0約4GBまあまあ5GB以上4GBプラン
Q2_K約3GB低い4GB以上2GBプラン(お試し)

コスパ重視なら Q4_K_M がベストバランスです。

Ollamaとの比較

項目Llama.cppOllama
導入難易度やや高い(ビルド必要)簡単(1行インストール)
メモリ効率高い普通
カスタマイズ細かく調整可能シンプル
推論速度最速やや遅い
おすすめ層技術者・最適化したい人初心者・手軽に使いたい人

初心者はOllama、パフォーマンスを追求するならLlama.cppがおすすめです。

よくある質問(FAQ)

Q2_K量子化のモデルなら動作しますが、応答速度はかなり遅くなります。実用的に使うなら4GB以上を推奨します。2GBプランはあくまで「動くか試す」用途です。
Llama 3は英語メインですが日本語にも対応しています。日本語特化モデル(ELYZA等)のGGUF版を使えば、さらに日本語品質が向上します。
llama-serverモードで起動すれば、複数のクライアントから同時アクセス可能です。ただし同時リクエスト数はCPUコア数に依存します。4コアなら2〜3人程度の同時利用が実用的です。

まとめ:GPUなしでもAIは動く

  • Llama.cppなら月770円のVPSでローカルLLMが動く
  • CPU推論でも日常的なチャット用途なら十分実用的
  • Q4_K_M量子化がコスパ最強のバランス
  • まずは試して、物足りなければプランをアップグレード

最安のKAGOYA CLOUD VPSで試す(月770円〜) →

高速CPU搭載のXServer VPSで始める(月990円〜) →