Stable Diffusion XL (Illustrious XL / NoobAI-XL 系)のアニメ / イラスト系 モデルの違いによる出力イメージの比較の紹介です。
イラスト系画像を大規模学習した、Illustrious XL / NoobAI-XL モデルが登場し、チューニングされたモデルも登場してきています。
この記事では、Illustrious XL / NoobAI-XL 系のモデルでの生成画像比較を紹介します。
以下のプロンプトを利用して、モデルごとの画像の生成結果の違いを確認します。
プロンプト2は画像生成が苦手そうな内容にしています。
Illustrious XL v1.1と比較すると、全体のカラーが鮮やかになった傾向があります。細部の描画は控えめになっており、フラット感がやや増している印象があります。
v1.1より品質が低い印象がありますが、v2.0の場合はアーティストタグを利用すると品質が上がる傾向にあり、何も指定しない場合は、
v1.1より品質が低い傾向があるようです。
v1.0より、生成画像のコントラストが若干弱くなり明るい画像が生成されます。一方画像の崩れがやや増加しており、Propt2ではやや崩れが目立つ印象です。
V-Predモデルのため、サンプリングメソッドをEularに設定しています。
鮮やかで暗い画像が生成されます。背景はシンプルでベタ塗りの面積が大きく、描画量や描画密度は少なくなる傾向です。
今回のプロンプトではわかりにくいですが、プロンプトによっては、とてもリアルな画像が生成される場合があります。
v3.0と比較すると若干コントラストが下がった印象です。Prompt2の車はカラフルな色の出力にはならず、車のデザインはリアル感が増しています。
V-Predモデルのため、サンプリングメソッドをEular aに設定しています。今回はCFG Scale:7で生成していますが、5程度まで下げると良好な結果になりやすいです。
v7と比較すると若干彩度とコントラストが下がった印象があります。
今回のプロンプトでは確認できませんが、v7では1人物を描画するプロンプトで2人物描画されるケースがあり、
プロンプト追従が低い場合がありました。また、稀に体が崩れるばあいがありましたが、v8では改善されています。
CFG Scaleを3に下げています。背景やキャラクター以外のオブジェクトは細部まで描写され、ややリアル感のある画像生成結果になります。
v4.0に比べてかなりパステルカラー感が強まっている印象です。
v3.0と比較すると、オレンジ色味(セピア感)が弱まっています。v3.0では表現されていた、Prompt2の"downtown"の要素は反映されなくなっています。
v16と比較すると、若干コントラストが強く、立体感も強くなった印象です。
v20.1と比較すると、彩度が上がりカラーリングが鮮やかになった印象です。
v8は若干くすみがあり、明るい画像が生成されましたが、v9では明るさが抑えられ、くすみの少ない出力結果になります。
ちびキャラの出力は以前と同様の傾向で、良い造形のちびキャラが出力できます。
v2.0より、緑味が減り青みのある画像が生成されます。細部の描画は控えめになった印象です。
v4以降はソフト感の強い画像が生成されます。若干眠たい印象の画像が生成されるため、プロンプトの工夫が必要な印象です。
(vivid color, anime shading を加えると改善が見られます。)
画像の崩れも少なく安定した出力の印象です。
v3と比較すると若干カラーが明るくなった印象です。
v16と比較すると、若干青みが弱まっている印象です。Prompt2ではフラット感が強まっている印象も見えます。
v3.3と比較するとバリエーションの幅が広がり、コントラストが強くなった印象です。
v6と比較すると、わずかに彩度が上がっている印象です。シャープ感も増している印象です。
今回のプロンプトではわかりにくいですが、ちびキャラの出力が非常に良くなっています。
バリエーションの幅は狭めですが、安定して崩れにくい画像生成結果になる印象です。細部まで描画される傾向にあります。
v18よりバリエーションは少なくなった印象があります。
前バージョンと比較すると淡いカラーリングの画像が出力されます。
バリエーションは狭くなった印象です。このプロンプトではわかりにくいですが、キャラクターは他のモデルよりスレンダーに描画される印象があります。
v1.4との比較では若干黄色みが抑えられたカラーリングになる印象です。Prompt2はほとんど崩れることなく描画できています。
キャラクターに対して背景がリアルな描画になりやすいモデルです。
v8と比較すると画像が明るくなった印象です。キャラクターの丸顔感も減っています。
細部が良く表現されるモデルです。エッジがシャープなアニメ塗りの画像を生成した際に影つけのバランスが良いモデルの印象です。
v6と比較すると生成画像が崩れにくくなった印象です。
程よく細部が表現され、立体感のある画像が生成されるモデルです。
v3.12よりバリエーションが幅広くなっています。若干フラット感が強まった印象があります。
華やかさが控えめで、落ち着いた画像が生成される傾向のモデルのため、気づきにくいですが、プロンプト追従が良いです。
安定した出力のモデルです。Prompt2で比較すると、AよりBのほうがフラット感がある印象です。(モデルガイドではAのほうがフラット感が強いという説明です)
Prompt1ではA,Bともに他のモデルと若干表情が異なる印象です。プロンプトの boredom が解釈できているのかもしれません。
Aと比較すると若干暗い画像が生成される印象です。バリエーションはBのほうがやや多い印象があります。
なお、7th anime XL-IL B2 は Bと比較すると彩度が低くなり、レイアウトや構図がおとなしくなります。
Prompt2が非常に目を引く出力でしたので紹介します。
暗いシーンでの発色がほかのモデルと大幅に違います。(Pinky_Promise(マージモデル)、PerfectDeliberate Anime、kodoranime も似た発色になります。)
セピア色味のあるカラーで生成されます。今回のプロンプトではわかりにくいですが、立体感の表現のバランスが良いです。
Animagine XL v4.0はIllustrious系モデルより崩れるケースが若干多いですが、バリエーションの幅は広い印象です。
プロンプト追従性もよく、Prompt2ではdowntownの要素や2door carも反映されています。
また、今回のプロンプトではわかりにくいかもしれませんが、手指はIllustrious系モデルより弱い印象があります。
Illustrious系モデルと比較すると、Prompt1はバリエーションの幅が若干狭い印象です。また、Prompt2はリアル感の強い出力になり、キャラクターが目立たない描画になります。