【非エンジニア向け】Stable Diffusion 3をVPSで動かす完全手順(Windows環境不要!)

【非エンジニア向け】Stable Diffusion 3をVPSで動かす完全手順(Windows環境不要!)

最初に結論を書いておく

GPU VPSは「まぁまぁ高い」。それが正直なところ。

XServer VPSのL4プランで1日3時間使うと月約13,500円。さくらのH100プランならさらに上がる。RTX 4080が15万円前後なことを考えると、「半年以上ガンガン使うなら買った方が安い」という計算になる場面も出てくる。

それでもVPSに価値があるとすれば、「初期投資ゼロ」「使いたいときだけ起動」「自分のPCに負荷ゼロ」 の3点。「まず試してみたい」「どれくらい使うか読めない」という段階なら、GPU VPSは十分あり。

立ち上げさえ楽なら、月数万出しても手軽さに価値があると判断できる人向けの記事。そうじゃない人は素直にGoogle ColabのProプランか、RTX 4070あたりを買った方がいい。


「GPUが高くて買えない」を解決する方法

Stable Diffusion 3(SD3)を試したくても、「NVIDIA RTX 4080以上が推奨」と言われて諦めていませんか?

Macユーザーやゲーム用PCを持っていない方には特につらい状況です。VPSのGPUプランを使えば初期投資ゼロでStable Diffusionの実行環境が手に入ります。自分のパソコンには何も負荷がかかりません。

ただし正直に言うと、費用は月数万円の単位になりうる。「安く済む」という期待値で読み始めた人は、この時点でいったん立ち止まって費用の項目を確認してほしい。

この記事では、非エンジニアの方でもわかるよう手順を解説します。必要な知識はコピーペーストだけです。

必要なもの

  • VPS(GPUプラン)のアカウント ← この記事で詳しく説明
  • Webブラウザ(Chrome/Safari/Firefox何でもOK)
  • ドメイン名(オプション:なくてもIPアドレスで可)

まずVPSのGPUプランを契約しよう

Stable Diffusion 3には最低でもVRAM 8GBが必要です(推奨は16GB以上)。

ここではっきり書いておきます。SD3を動かすのにGPUは必要ですが、「GPUが高スペックなほどいい」という話とコスト感はセットで見てほしい。 VRAM多ければ速いのは事実だけど、使い方によってはオーバースペックになる。

費用感を正直に計算する

プラン時間単価1日3時間・月換算1日8時間・月換算
XServer VPS L4(VRAM 24GB)約150円/時間約13,500円/月約36,000円/月
さくらのVPS H100(VRAM 80GB)要確認さらに上さらに上

「趣味で毎日少し使う」くらいなら月1万円前後に抑えられる可能性はある。「本格的に使い込む」なら月2〜3万円は普通に超える。それが嫌なら、最初から「物理GPU買う」か「Colabで制限内に収める」の2択を検討してほしい。

それでもVPSで試したい、という人はこのまま進んでください。

おすすめ:XServer VPS GPUプラン

L4(VRAM 24GB)を搭載しており、SD3が快適に動作します。時間課金なので「使う時間だけ起動・停止」の運用でコントロールできます。

VPSの契約が完了してSSH接続できる状態になったら、以下の手順を進めてください。


Step 1: 必要なソフトをインストール

SSH接続後、以下のコマンドを1行ずつコピーして貼り付けて実行してください。「コマンドって何?」という方は、VPSにログインしたあとに表示される黒い画面に貼り付けてEnterを押すだけです。

# システムを最新化
sudo apt update && sudo apt upgrade -y

# Python環境をインストール
sudo apt install -y python3-pip python3-venv git wget

# CUDAが使えるか確認(GPUプランなら表示される)
nvidia-smi

nvidia-smi を実行してGPUの情報が表示されれば、GPU が使える状態です。何も表示されない・エラーになる場合はGPUプランで契約できているかを確認してください。

Step 2: Stable Diffusion WebUI をインストール

AUTOMATIC1111製のWebUIを使うと、ブラウザからGUI操作でStable Diffusionを扱えます。操作感はほぼ普通のWebサービスと同じ。コマンドを打つのはここまでで、あとはブラウザで完結します。

# ホームディレクトリに移動
cd ~

# WebUIをダウンロード
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 必要なPythonパッケージを自動インストール(少し時間がかかります)
./webui.sh --skip-torch-cuda-test --exit

# SD3のモデルファイルをダウンロード(Hugging Face から)
# ※事前にHugging Faceでアカウント作成&モデルへのアクセス許可が必要
pip install huggingface_hub
huggingface-cli login  # トークンを入力
huggingface-cli download stabilityai/stable-diffusion-3.5-large \
  sd3.5_large.safetensors \
  --local-dir ./models/Stable-diffusion/

Hugging Faceのアカウント作成とトークン発行が初見だと少し手間どるかもしれない。ただここさえ越えれば、あとはブラウザ操作だけになるので踏ん張りどころ。

Step 3: ブラウザからアクセスできるよう起動

# 外部からアクセスできるよう --listen オプションをつけて起動
./webui.sh \
  --listen \
  --port 7860 \
  --enable-insecure-extension-access \
  --api \
  --xformers

# バックグラウンドで動かし続ける場合
nohup ./webui.sh --listen --port 7860 --xformers > webui.log 2>&1 &

起動後、ブラウザで http://VPSのIPアドレス:7860 にアクセスすると操作画面が表示されます。VPSのIPアドレスは契約時にメールで届いているか、コントロールパネルで確認できます。

Step 4: セキュリティ設定(必須)

ポート7860を開放したままだと、誰でもアクセスできてしまいます。これは必ずやってください。面倒でもここは省略しないほうがいい。

# WebUIの起動オプションに認証を追加
./webui.sh \
  --listen \
  --port 7860 \
  --xformers \
  --gradio-auth username:password  # ← 自分のID/パスワードに変更

または、VPSのファイアウォールで自分のIPアドレスのみを許可する方法も安全です。「どちらがいいか」と聞かれれば、ファイアウォール制限の方が確実。VPSのコントロールパネルにセキュリティグループ(ファイアウォール)の設定があるはずなので、自分が使うIPだけ通すよう設定するのがシンプル。


SD3の基本的な使い方

WebUIにアクセスしたら、プロンプト欄に以下のように入力してみましょう。

beautiful japanese woman, cherry blossom background, 
soft lighting, cinematic, 4k, highly detailed

主な設定パラメータ:

設定推奨値説明
Sampling steps20〜30多いほど高品質、遅くなる
CFG Scale7.0プロンプトへの従順度
Width/Height1024×1024SD3の推奨解像度
Sampling methodDPM++ 2MSD3と相性が良い

L4(VRAM 24GB)搭載のVPSなら1024×1024の画像が約3〜5秒で生成できます。これは体感かなり速い。RTX 4070クラスの自前GPUと大差ない速度感です。

さくらのVPS 高火力(H100 VRAM 80GB)を使えば複数枚の同時バッチ生成もスムーズです。ただし費用も一段上がる。「業務で大量生成したい」とか「バッチ処理を回したい」という明確な目的がある人向け。趣味利用にH100は正直オーバースペックだと思う。


よく使う追加機能

img2img(画像から画像を生成)

既存の画像をベースに新しい画像を生成できます。写真をアニメ風に変換したり、ラフスケッチを詳細なイラストに変換するのに使います。これが使えるようになると一気に用途が広がる。

ControlNet(構図を制御)

骨格や輪郭を指定して構図をコントロールできます。人物の姿勢を固定したまま別のスタイルに変換するのに便利です。

# ControlNet拡張をインストール
# WebUIのExtensionsタブ → Install from URL
# URL: https://github.com/Mikubill/sd-webui-controlnet

ControlNetはインストール後に追加でモデルファイルも必要になります。「とりあえず試す」段階では後回しでOK。まずは基本のテキスト→画像生成で動作確認してから入れるのが順番として自然。


よくある質問

はい。MacのブラウザからVPS上のWebUIにアクセスするだけなので、自分のパソコンのOSは関係ありません。Windows・Mac・iPad・スマートフォンどこからでもアクセスできます。
XServer VPSのL4プランは約150円/時間です。1日3時間使う場合、月約13,500円。「毎日大量生成する」のでなければ、使う時間だけ起動して停止する運用がコスト効率的です。使わない時間はVPSを停止すれば課金されません(VPSサービスによって異なります)。自分の感覚では、「安くはない」。月1万円超えを許容できるかどうかが判断の分かれ目です。
ColabやSpacesは無料枠があるものの、利用制限や生成できる画像の制約があります。VPSなら制限なしで自由に使え、商用利用も問題なし。プライバシー的にも画像データが第三者に渡らないメリットがあります。「ガッツリ使いたい・商用で使いたい・プライバシーが気になる」この3つのどれかに当てはまるならVPSの価値がある。そうじゃなければColabのProプラン(月1,179円)の方がコスパは正直いい。

あなたの使い方で選ぶ

使い方判断理由
「まず1回試したい」だけColabで十分月1,000円台で済む。VPSは不要
週末だけ趣味で使う(月10〜20時間程度)XServer VPS L4でOK月1,500〜3,000円程度に抑えられる
平日も含めて毎日使う(月50時間以上)XServer VPS L4 or 物理GPU購入を検討月7,500円超えてくるなら物理GPUも選択肢に入る
バッチ生成・業務利用さくらのVPS H100スペックが必要な明確な理由があるなら
Macユーザーで手軽に始めたいXServer VPS L4セットアップ手軽さと費用のバランスはここが無難

まとめ

  • SD3はVRAM 8GB以上のGPU搭載VPSで動作する
  • XServer VPS / さくらのVPS のGPUプランが国内では選択肢
  • インストールはコピペで完了、Windowsも高額PCも不要
  • ただし費用は月数万円になりうる。事前に自分の使用時間を見積もって
  • 「まず試す」ならXServer VPS L4が無難。「試したいだけ」ならColabで十分

「GPU VPSは高い」という話を最初に書いたけど、やってみたいと思ったのなら一度試してみればいい。これが最終回答じゃないから。使ってみて「もっと使いたい」なら継続すればいいし、「思ったより使わなかった」なら解約して物理GPUなり他の選択肢なりに移ればいい。最初から正解を出そうとしなくていい。


関連記事