GeForce RTX 5090 と GeForce RTX 4090 の速度差をStable Diffusionで比較します。
一般的なベンチマークでは1.8~2倍程度の性能差があるとされていますが、実用シナリオでどの程度の差があるかを確認します。
| GPU | GeForce RTX 5090 (VRAM 32GB) |
| CPU | Intel Core Ultra 9 285K |
| RAM | 64GB |
| GPU | GeForce RTX 4090 (VRAM 24GB) |
| CPU | Intel Core i9-13900K (24Core 32Thread) |
| RAM | 64GB |
GPUのスペックの違いは以下の通り
| GeForce RTX 5090 | GeForce RTX 4090 | |
|---|---|---|
| アーキテクチャ | Blackwell | Ada Lovelace |
| ベース クロック | 2.01GHz | 2.23GHz |
| ブースト クロック | 2.407GHz | 2.52GHz |
| CUDA Core | 21,760 | 16,384 |
| Tensor Core | 680 | 512 |
| RT Core | 170 | 128 |
| メモリタイプ | GDDR7 | GDDR6X |
| メモリ容量 | 32GB | 24GB |
| メモリ転送レート | 28.0Gbps | 21.0Gbps |
| メモリ インターフェイス幅 | 512 ビット | 384 ビット |
| メモリバス帯域幅 | 1,792 GB/s | 1,008 GB/s |
SDXLのモデルで比較します。画像を16枚生成して生成にかかった時間を測定します。
Stable Diffusion web UI (A1111)を利用して、
以下のプロンプトで16枚画像を生成します。
--opt-sdp-attention を設定して、SDP Attentionを利用した場合の画像生成時間(秒)は以下です。
| GPU | Torch | Batch Count:16 Batch Size:1 | Batch Count:8 Batch Size:2 | Batch Count:4 Batch Size:4 |
|---|---|---|---|---|
| GeForce RTX 4090 | torch 2.7.0+cu128 | 144.5 | 142.6 | 144.4 |
| GeForce RTX 5090 | torch 2.7.0+cu128 | 99.8 | 95.5 | 96.2 |
| GeForce RTX 5090 | torch 2.8.0+cu128 | 98.4 | 94.5 | 95.6 |
| GeForce RTX 5090 | torch 2.8.0+cu129 | 100.3 | 95.7 | 96.2 |
GeForce RTX 5090 は GeForce RTX 4090 より30%程度高速です。
| GPU | Torch | Batch Count:16 Batch Size:1 | Batch Count:8 Batch Size:2 | Batch Count:4 Batch Size:4 |
|---|---|---|---|---|
| GeForce RTX 4090 | torch 2.7.0+cu128 | 65.6 | 63.5 | 64.6 |
| GeForce RTX 5090 | torch 2.8.0+cu129 | 57.7 | 53.3 | 52.9 |
GeForce RTX 5090 は GeForce RTX 4090 より20-25%程度高速です。
--xformers を設定して xformersを利用した場合の画像生成時間(秒)は以下です。
| GPU | Torch | xformers | Batch Count:16 Batch Size:1 | Batch Count:8 Batch Size:2 | Batch Count:4 Batch Size:4 |
|---|---|---|---|---|---|
| GeForce RTX 4090 | torch 2.7.0+cu128 | xformers 0.0.30 | 63.6 | 60.7 | 60.3 |
| GeForce RTX 5090 | torch 2.7.0+cu128 | xformers 0.0.32.post2 | 70.2 | 59.7 | 96.2 |
| GeForce RTX 5090 | torch 2.8.0+cu128 | xformers 0.0.32.post2 | 69.1 | 58.8 | 59.4 |
| GeForce RTX 5090 | torch 2.8.0+cu129 | xformers 0.0.32.post2 | 73.4 | 60.2 | 60.2 |
| GeForce RTX 5090 | torch 2.8.0+cu129 | xformers 0.0.33.dev1079 | 71.3 | 60 | 60.6 |
GeForce RTX 5090 と GeForce RTX 4090 の速度差はありませんでした。
xformers の最適化が進んでいないのかもしれません。
pip install --pre -U xformers
同じ処理をComfyUIでも実行して比較します。
| GPU | Torch | Time |
|---|---|---|
| GeForce RTX 4090 | torch 2.8.0+cu129 | 43.6 |
| GeForce RTX 5090 | torch 2.8.0+cu128 | 34.4 |
GeForce RTX 5090 は GeForce RTX 4090 より30%程度高速な結果となりました。
ComfyUIのほうが処理が最適化されているため、web UI より高速な結果となりました。
GeForce RTX 5090 のほうが25%から30%程度高速な結果となりました。xformersを利用した場合はほとんど差がありませんでした。
GeForce RTX 5090 では、xformersを使わずに、SDP Attentionを利用したほうがパフォーマンスが良い結果になりました。
なお、GeForce RTX 4090では、わずかにxformersを利用したほうがパフォーマンスが良い結果となりました。