GeForce RTX 5090 と GeForce RTX 4090 のStable Diffusionでの速度差を比較する

ロッゾ=コルン
質問: GeForce RTX 5090 (Blackwell)は高速なのか?
現時点での最新のGPUにGeForce RTX 5090 があるが、本当に高速なのだろうか。どのくらいの速度差があるのだろうか?

はじめに

GeForce RTX 5090 と GeForce RTX 4090 の速度差をStable Diffusionで比較します。
一般的なベンチマークでは1.8~2倍程度の性能差があるとされていますが、実用シナリオでどの程度の差があるかを確認します。

比較環境

GeForce RTX 5090

GPU GeForce RTX 5090 (VRAM 32GB)
CPU Intel Core Ultra 9 285K
RAM 64GB

GeForce RTX 4090

GPU GeForce RTX 4090 (VRAM 24GB)
CPU Intel Core i9-13900K (24Core 32Thread)
RAM 64GB

GPUスペック比較

GPUのスペックの違いは以下の通り

GeForce RTX 5090 GeForce RTX 4090
アーキテクチャ Blackwell Ada Lovelace
ベース クロック 2.01GHz 2.23GHz
ブースト クロック 2.407GHz 2.52GHz
CUDA Core 21,760 16,384
Tensor Core 680 512
RT Core 170 128
メモリタイプ GDDR7 GDDR6X
メモリ容量 32GB 24GB
メモリ転送レート 28.0Gbps 21.0Gbps
メモリ インターフェイス幅 512 ビット 384 ビット
メモリバス帯域幅 1,792 GB/s 1,008 GB/s

SDXL

Stable Diffusion web UI A1111

SDXLのモデルで比較します。画像を16枚生成して生成にかかった時間を測定します。

Stable Diffusion web UI (A1111)を利用して、 以下のプロンプトで16枚画像を生成します。

Prompt
Prompt: 1girl, smile, portrait, black hair, short dark green jacket, plain white t-shirt, tight shirt, flat chest, masterpiece, best quality
Negative prompt: worst quality, low quality
Sampling method: DPM++ 2M Karras
Sampling step: 20
Size 1,024 x 1,024
Model: WAI-NSFW-Illustrious v15.0


GeForce RTX 5090 と GeForce RTX 4090 のStable Diffusionでの速度差を比較する:画像1

SDP Attention

--opt-sdp-attention を設定して、SDP Attentionを利用した場合の画像生成時間(秒)は以下です。

--no-half-vae, --opt-sdp-no-mem-attention あり
GPU Torch Batch Count:16
Batch Size:1
Batch Count:8
Batch Size:2
Batch Count:4
Batch Size:4
GeForce RTX 4090 torch 2.7.0+cu128 144.5 142.6 144.4
GeForce RTX 5090 torch 2.7.0+cu128 99.8 95.5 96.2
GeForce RTX 5090 torch 2.8.0+cu128 98.4 94.5 95.6
GeForce RTX 5090 torch 2.8.0+cu129 100.3 95.7 96.2

GeForce RTX 5090 は GeForce RTX 4090 より30%程度高速です。

--opt-channelslast あり、--no-half-vae, --opt-sdp-no-mem-attention なし
GPU Torch Batch Count:16
Batch Size:1
Batch Count:8
Batch Size:2
Batch Count:4
Batch Size:4
GeForce RTX 4090 torch 2.7.0+cu128 65.6 63.5 64.6
GeForce RTX 5090 torch 2.8.0+cu129 57.7 53.3 52.9

GeForce RTX 5090 は GeForce RTX 4090 より20-25%程度高速です。


xformers

--xformers を設定して xformersを利用した場合の画像生成時間(秒)は以下です。

GPU Torch xformers Batch Count:16
Batch Size:1
Batch Count:8
Batch Size:2
Batch Count:4
Batch Size:4
GeForce RTX 4090 torch 2.7.0+cu128 xformers 0.0.30 63.6 60.7 60.3
GeForce RTX 5090 torch 2.7.0+cu128 xformers 0.0.32.post2 70.2 59.7 96.2
GeForce RTX 5090 torch 2.8.0+cu128 xformers 0.0.32.post2 69.1 58.8 59.4
GeForce RTX 5090 torch 2.8.0+cu129 xformers 0.0.32.post2 73.4 60.2 60.2
GeForce RTX 5090 torch 2.8.0+cu129 xformers 0.0.33.dev1079 71.3 60 60.6


GeForce RTX 5090 と GeForce RTX 4090 の速度差はありませんでした。
xformers の最適化が進んでいないのかもしれません。

メモ
xformers dev版のインストールコマンド pip install --pre -U xformers


ComfyUI

同じ処理をComfyUIでも実行して比較します。

GPU Torch Time
GeForce RTX 4090 torch 2.8.0+cu129 43.6
GeForce RTX 5090 torch 2.8.0+cu128 34.4


GeForce RTX 5090 は GeForce RTX 4090 より30%程度高速な結果となりました。
ComfyUIのほうが処理が最適化されているため、web UI より高速な結果となりました。

まとめ

GeForce RTX 5090 のほうが25%から30%程度高速な結果となりました。xformersを利用した場合はほとんど差がありませんでした。
GeForce RTX 5090 では、xformersを使わずに、SDP Attentionを利用したほうがパフォーマンスが良い結果になりました。
なお、GeForce RTX 4090では、わずかにxformersを利用したほうがパフォーマンスが良い結果となりました。

AuthorPortraitAlt
著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。 最近は生成AIの画像生成の沼に沈んでいる。
作成日: 2025-09-05