tackman's ゲーミングブログ

七色に光るわけではない(多分)。ボードゲーム関連の話題が多めになるかも

Stable Diffusionに関する随筆

この記事はどもがよAdvent Calendar 2022です。

Stable Diffusionの概要

Stable Diffusionはtext-to-image生成モデルの一種です。text-to-imageができる製品としてはMidJourneyやNovelAIDiffusion(NAI), TrinArtなどがありますが、そういった「イラストAI」のエンジンに相当する部分で2022年12月現在で世界最大手の存在と言えるものです。上述のうちNovelAIDiffusionやTrinArtはStable Diffusionを基盤モデルとして、二次元イラスト向けに「微調整(finetuning)」したものでもあります。

単にtext-to-imageのAIというだけならこれ以前から研究者の間で知られているものもあったのですが、Stable Diffusionが特別なのは全てをオープンソースにしてしまったことです。学習をさせるプログラムのコードはもちろん、学習に用いたデータセット、数千万円をかけて学習をさせた結果のモデルファイルまでかなり自由度の高いライセンスで配布してしまっています。GoogleやOpenAIがこれまで開発してきたtext-to-imageモデルを利用した製品(DALL-Eとか)がモデルファイルは公開しない形なのはもちろん、利用者自体を絞った形でクローズトβを少しずつやってきていたところからすると破壊的というか破滅的イノベーションだったと言えます。Stable DiffusionのCEOはインタビューで「創作の民主化のためにやった、儲かるかは分からないけど熱意はあるからやる」という趣旨の発言をしており、語弊を恐れずに言えば狂人という印象を受けたのを覚えています。

ともあれStable Diffusionモデルが公開された(ついでにNovelAIDiffusionのリークとリーク品をベースにしたとおぼしきサービスや派生モデルが中国から無限に湧く)2022年になったというのがこの世界線です。漠然と「クリエイティブの民主化をしたいなあ」前々から考えていた身なので、Stable Diffusionは使えるだけ使い倒したいと思っています。

Stable Diffusionの特性

学習データセットLAION5BというWeb上超巨大画像・テキストアノテーション集合です。オープンデータセットとしては恐らく史上空前の規模で、画像のURLとアノテーションテキストだけで数TBにもなります。仮に全画像をローカル保存しようとすると数百TBが必要とされており、単一マシンへの格納は逸般家庭でもなかなか厳しいのではないでしょうか。過去のオープンデータセットは画像全部を入れても(思い当たる範囲では)一桁TB単位という感じだったので、GoogleAdobeの持つビッグデータに依存しない形としては別世界に来た感はあります。またここから学習させるために投入されたコンピューティング費用も数千万円という単位で、完全に個人ではやれない領域になっています。そのため小規模のプレイヤーの取り得ることは、学習済みStable Diffusionを基盤モデルとして何かをしていくことだろうと考えています。

Stable Diffusionは写真的な画像を良く出力する一方で、二次元イラスト(広義のアニメ絵)に特化したNovelAIDiffusionなどと比べると二次元イラストを上手く出力させることは難しいとされています。ただ、Stable Diffusion自体がNAIのようなイラストを生成する能力に欠けているのか、それともイラスト用に特化していないだけでSD自体が潜在的にイラストを描けるのかは今ひとつ分かりません。NAIはSDをベースに二次元イラストデータセットDanbooruデータセット、数百万件の画像がありこれも普通の感覚では十分大きなデータセット)で追加学習を行なったものですが、SDの持っている表現力やLAION5Bの規模感を考えると、何でもできるSDから描ける範囲を絞ることで人類に使いやすくしているのがNAIという可能性もありそうに思えます。

仮にStable Diffusionを万能モデルとして扱えるなら、SD自体の透明性およびライセンスの健康性と合わせて、そこにはWebの全てが詰まっているある種のオラクルとして扱えるのではと考えたりしています。この仮説の妥当性がどれほどのものなのかは霊感ソースでもよく分からないという段階なので、さしあたりLAION5Bの中身の分析から着手しているところです。

追加学習と派生モデル

SD派生の二次元イラスト向けモデルとして、NovelAIDiffusionとWaifuDiffusion(WD)を比べてみます。いずれもSD派生モデルで、Danbooruデータセットを利用して追加学習を行なっています。ここまで条件が共通なら似たような性能になって良さそうなものですが、生成結果には結構な差があります。NAIは事業でWDは個人の趣味の範囲という差はあるのですが、WDが仮に潤沢なコンピューティング資源を使えたとしてもNAIのようにはならないのではないかという感触があります(ただし本稿執筆時点で。現状が一夜で変わる可能性もあります)。NAIのブログを読むと前処理などでそこそこ非自明な工夫をしているようですし、企業秘密の部分で何かしらの秘伝要素も入ってそうな気もします。

NAIで生成されるイラストの俗称として「マスピ顔」というものがあります。高品位なイラストを生成するために付与される定番プロンプトにmasterpieceがあり、NAIではmasterpieceを入れると似たような顔と画風の女の子が出てくることからこのようなジャーゴンが存在します(揶揄のニュアンスもあるのですが、最近は一周回ってマスピちゃんが可愛く思えてきている人も出てきたりはしています)。補足として、マスピ顔じゃない絵少し慣れたら簡単に作れます。個人的にはマスピ顔も嫌いじゃないんですけど。

この「マスピ顔」はそこそこ今風の絵柄で、Danbooruの「平均的な絵柄」とは違う分布になっている気がしています。Danbooruでランダムに画像を見てみると、全体としては00年代を彷彿とさせる絵柄に当たる確率の方が高いように思います。WaifuDiffusionの出力する絵はこの点非常に分かりやすくDanbooruソースという感じで、Danbooru臭さが抜けているNAIは何かしらのトリックを使ってそうな気がします。

なお2022年12月現在はさまざまなイラスト向けSD派生モデルがありますが、高性能とされるモデルは少なくないものが出所不明、かつリークしたNAIモデルを改造したと強く疑われるものがほぼ全てという状態です(本件は有志によりそれなりの検証がされています。無法地帯!)。あまり技術的なところが分からなくても、NAIで作られたマスピ顔をいっぱい見ていると「新しいイラストAI」を見てもだいたいひと目見て「ああNAIベースだね」と分かったりもします。NAIリークを使っていないと言えるのはWaifuDiffusionやTrinArtなどごく一部で、競争力のあるSD系二次元イラストモデルは実質全てがNAIだと言えます(NijiJourneyのみMidJourney系で完全に別系統)。このため本稿執筆時点で二次元イラスト向けSD派生モデルを考察するにあたっては、基本的にNAIのことを考えた上で比較対象としてWDやTrinArtを見るという方針で良いと考えられます。

私は何をすべきか

11月からほぼ毎日AIイラストを作って「完成」させる、つまり「諦めてそこで完成させて公開をする」という創作一般の基本則をやったので、イラストAIのエンドユーザーとしてプロンプト芸をやる点に関しては橋頭堡を十分作りはしたと思います。またボードゲーム制作にも活用できそうなところには来ています。

その上で本分であるソフトウェア技術者として何ができるか、何をするかはなかなかまとまらないところです。text-to-xxxx生成モデルの世界は技術革新がHeats of Ironのようなタイムスケールで起きており、半年もあれば色んなものが陳腐化しそうな状況です。あるいはガンダム一年戦争で月替りで新モビルスーツが出てくる開発速度、アニメを見た時は「創作の開発速度~w」と思ったものですが人類が本気だと割りとあの速度が出るんだなということが身に沁みているところです。ガンダムついでに言えば、NAIリークモデルまわりに見るように南極条約もないルール無用世界でもあり、ある意味創作より現実がひどい。

いずれにしろ何かするなら世界が混沌と加熱の中にある時に限るので、何かやるまでは決定事項でいいと考えています。アドベントカレンダーらしく、とりあえず本稿は振り返りまでということで。