iPentec.com / Document / カテゴリ: 画像生成 / タグ: 画像生成 Qwen-Image Qwen-Image-Layered 背景除去

Qwen-Image-Layered をインストールする

事前準備

ComfyUI のインストール

ComfyUIをインストールします。最新版である必要があります。インストール手順はこちらの記事のPortable版のインストールを参照してください

手順

Qwen-Image-Layered をインストールする手順を紹介します。

Qwen-Image-Layered モデル

以下の HuggingFaceのHubから、Qwen-Image-Editのfp8のモデル qwen_image_layered_bf16.safetensors または qwen_image_layered_fp8mixed.safetensors をダウンロードします。

https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI

bf16モデルは40.9 GBありますので、VRAM容量の多いGPUを利用していれば選択肢に入ります。

ダウンロードしたモデルを次のディレクトリに配置します。

(ComfyUIの配置ディレクトリ)\models\diffusion_models\

または

(ComfyUIの配置ディレクトリ)\models\diffusion_models\qwen-image-layered\

テキストエンコーダー (fp8)

以下の HuggingFaceのHubから、Qwen-Imageのテキストエンコーダー qwen_2.5_vl_7b_fp8_scaled.safetensors をダウンロードします。(Qwen-Imageと同じです)

ダウンロードしたモデルを次のディレクトリに配置します。

(ComfyUIの配置ディレクトリ)\models\text_encoders\

または

(ComfyUIの配置ディレクトリ)\models\text_encoders\qwen-image\

VAE

以下の HuggingFaceのHubから、Qwen-ImageのVAE qwen_image_layered_vae.safetensors をダウンロードします。(Qwen-Imageと同じです)

https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI

ダウンロードしたモデルを次のディレクトリに配置します。

(ComfyUIの配置ディレクトリ)\models\vae\

または

(ComfyUIの配置ディレクトリ)\models\vae\qwen-image-layered\

ファイルの配置は以上です。

ワークフロー

ComfyUIを起動し、以下のワークフローを作成します。
ワークフローのJSONは以下からダウンロードできます。

https://github.com/comfyanonymous/ComfyUI/issues/11427

[拡散モデルを読み込む]ノードのモデルには qwen-image-layered\qwen_image_layered_bf16.safetensors または qwen-image-layered\qwen_image_layered_fp8mixed.safetensors を設定します。
[CLIPを読み込む]ノードのモデルには qwen-image\qwen_2.5_vl_7b_fp8_scaled.safetensors を設定します。
[VAEを読み込む]ノードのモデルには qwen-image-layered\qwen_image_layered_vae.safetensors を設定します。

Qwen-Image-Layered をインストールする:画像1

[画像を読み込む]ノードに入力画像を設定します。
Qwen-Image-Layered をインストールする:画像2

プロンプトはよくわからないので、いったん以下を入力します。

Prompt

Separating the character from the background.

プロンプトの補足

後ほど紹介しますが、このプロンプトは入力画像を表現するプロンプトを入力します。キャラクターや他の要素で隠された部分を生成する際に、このプロンプトが利用されるようです。

ワークフローの補足

ワークフローはこちらからもダウンロードできますが、入れ子構造のワークフローのため注意が必要です。

https://docs.comfy.org/tutorials/image/qwen/qwen-image-layered

生成結果

[実行する]ボタンをクリックして画像生成を実行します。

今回の入力画像は下図です。
Qwen-Image-Layered をインストールする:画像3

画像生成結果が右側の[画像を保存]ノードに表示されます。正方形で画像が生成されてしまっています。
Qwen-Image-Layered をインストールする:画像4

メモ

bf16モデルを利用した場合でも、メインメモリにオフロードされますが、RTX 5090 32GB VRAM で 180秒程度で処理できます。何度も試行錯誤する処理ではないため、許容できる処理時間かと思われます。

画像生成結果を確認します。4つの画像が保存されており、元画像と要素ごとに分離された3つの画像が保存されています。

画像サイズを入力画像のサイズと同じにして再度実行します。 [EmptyHunyuanLatentVideo]のノードの[幅]と[高さ]の値を入力画像のサイズと同じピクセル数に設定します。
Qwen-Image-Layered をインストールする:画像9

再度実行します。入力画像と同じサイズで生成できました。
背景でキャラクターに隠れた部分はあまりうまく生成できていませんが、この部分の生成に先に設定したプロンプトが使用されるのかもしれません。

Qwen-Image-Layered をインストールする:画像10

キャラクターの画像は背景が透過された状態で保存されています。緑で背景を塗りつぶしたものが下図です。きれいに背景が抜けている状態です。

プロンプトを以下に変更して再度実行します。

Prompt

Anime style image, A close-up of the girl's face and upper body. A smiling girl. Protruding steel beams, a cityscape visible below, a high altitude, blue skies, a fantasy world, a sci-fi feel, a bird's-eye view of the scene. realistic background image.

結果は下図です。キャラクターに隠れた背景部分が若干まともになったような気が？