【Stable Diffusion】アニメイラスト系画像生成モデルを比較する

2024-04-02

当ページのリンクには広告が含まれています。

この記事は2023年1月時点の情報です

Stable Diffusionに慣れてくると、次に試したくなるのが自分にあったモデル探し。より作りたい画像に合ったモデルを使うことで、同じプロンプトでも段違いにクオリティの高い絵を生成させることができます。

アニメ・イラスト系だけでもかなりの種類がありますが、今回、比較的新しめのイラスト向けモデル5種類を比較してみました。

比較した方法とモデル一覧

イラスト系で人気の高いもの、比較的新しいモデルを5つを比較してみることにします。

スケジューラは「EulerDiscreteScheduler」に統一し、細かいパラメータはいじらず使用しました。

waifu-diffusion v1.4
BPModel
anything-v3.0　
ACertainThing
Counterfeit-V2.0

それぞれのモデルで、以下のプロンプトで3枚の画像を生成させてみます。特にアニメ絵の指示や絵柄の指定は加えていません。

prompt = "Various flowers with one girl, full body illustration of girl, Shoulder-length hair, hair color is dark brown, emotional soft lighting, beautiful face with pink cheeks, Nostragic background"
negative_prompt= "lowres, bad anatomy,text, error"
image = pipe(prompt, height=512, width=512).images[0]

ベーシックなモデルの「stable-diffusion-2-1」ではこのような結果になりました。

Masterpieceなどクオリティアップ系呪文や、アニメ絵の指定を入れていないのでこんなものでしょう。かなり残念な生成結果ですが、ここからどう変わっていくか楽しみです。

waifu-diffusion v1.4

あわせて読みたい

hakurei/waifu-diffusion · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

最も有名といっても過言ではないアニメ・イラスト系モデルです。比較的初期から登場しており、v1.4は「Stable Diffusion v2-1-base」がベースにされています。

倫理的問題は比較的クリアされており、ライセンス上は商用利用も可能とのこと。

3枚生成した結果はこの通り。

そこそこいい感じの画像が安定して生成されていました。

”emotional soft lighting”をかなり多様な解釈で出力している印象です。

Crosstyan/BPModel

あわせて読みたい

Crosstyan/BPModel · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

高解像度のデータを学習させたアニメ調の安定拡散モデル。

倫理的な配慮から、AI生成した画像は学習に用いていないとのこと。

生成結果はこちら。

今回のプロンプトでは人体が破綻しやすく、まともに生成させるのに苦労しました。

綺麗に生成できる時とそうでない時の差が大きいので、プロンプトをもっと細かく指定するか、生成ガチャをぶん回す必要がありそうです。

あと、学習元がSankaku Complex (nsfwイラストサイト) なだけあって、体感として明らかにNSFWフィルターにひっかりやすかったです。

Linaqruf/anything-v3.0

イラスト描画で人気の高いモデル。

後継のanything-4.0や5.0などのバージョンも公開されていますが、こちらは製作者が違うようです。

人気が高いだけあって、かなり安定して画像が生成できました。

手先足先の細かい破綻はあるけれど、全体のバランスはかなりいいと思います。有望なモデルのひとつ。

JosephusCheung/ACertainThing

あわせて読みたい

JosephusCheung/ACertainThing · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

前身となる「ACertainModel」をベースに、anything-v3.0の絵柄に近づけたモデルとのこと。

寄りの絵のクオリティの高さに驚きます。

一発出し×３枚でこれなので、複数回生成させれば十分な絵が作れそう。

ただ、今回使ったモデルの中では「”Various flowers 」「full body illustration」の指示が無視されがちなのが気になりました。説明欄で”雑なプロンプト”への苦言を呈しているだけあって、プロンプトをしっかり練る必要がありそうです。

gsdf/Counterfeit-V2.0

あわせて読みたい

gsdf/Counterfeit-V2.0 · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

「DreamBooth」に階層マージ、LoRAによるファインチューニングを加えたモデル。

グラデーションが効いたライティングが綺麗ですが、人体がかなり溶けています。

サンプルは綺麗なのでこちらもプロンプト、パラメータ側で工夫が必要かも。

特に良かったモデルは「ACertainThing」

今回試したモデルの結果を主観でまとめてみました。

モデル	顔	身体	髪	構図・雰囲気	プロンプト再現度
waifu-diffusion v1.4	○	○	△	○	○
BPModel	△	○	○	○	○
anything-v3.0	○	△	◎	◎	○
ACertainThing	◎	○ ？	◎	◎	△
Counterfeit-V2.0	○	×	○	○	○