画像生成AIツール Stable Diffusion を始めてみた

記事の内容

・画像生成AIツールの導入~簡単な使い方がわかったのでまとめます。
・他サイトを参考にして導入したら自分がつまづいたところも解決方法を説明します。

こんな画像が簡単に作れました。

初めて作ったAI画像。
始めてでこのクオリティ。

実写風も簡単に作れる。

謎の文字。文字の指定の仕方はこれから学ぶ。

(読み飛ばしてOK)ざっくり流れ

①ソフトをインストールする
②モデル(画風)をインストールする(複数インストールする)
③作りたい画像を単語で入れる
④モデル×単語で画像が生成される。(モデルの切り替え、単語の入れ替えで画像が変わる。)

(読み飛ばしてOK)画像生成AIツールのパターン

①ウェブサイトにアクセスして利用するパターン
 ・Midjourney(https://www.midjourney.com/
②自分のPCにインストールして使うパターン
 ・Stable Diffusion

両方使ったが、 Stable Diffusion の方がいろいろな面でよかった。

(読み飛ばしてOK)なぜ Stable Diffusion を選んだのか

完全無料でいくらでも使える
・日本語化できる
・制作できるものに制限がない
・Midjourneyだと変な画像しか出てこなかった。Stable Diffusion の方が意図的に出したい画像が出た
使い方がかなり簡単ですぐ理解できた

Stable Diffusion の初期導入をする方法

利用するツールを決める

Stable Diffusion を利用するにはいくつかツールがある。
 ①Stable Diffusion web UI ←オススメ
 ②NMKD Stable Diffusion GUI
①を使うことにした。 Stable Diffusion web UI の方が簡単で使いやすいらしいので。

(読み飛ばしてOK)Stable Diffusion web UI の公式ページ

これが公式ページらしいがよくわからない。Stable Diffusion web UIとは画像生成AIを手軽に使うために開発されたツールらしい。

GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
Stable Diffusion web UI. Contribute to AUTOMATIC1111/stable-diffusion-webui development by creating an account on GitHub.

(読み飛ばしてOK)動作に必要なスペック

・NVIDIAの「GeForce RTX20」シリーズ以降
・かつ、VRAM(=ビデオメモリ)容量が10GB以上あるのが望ましい
らしい。正直自分のPCが達しているのかわからない。やってみてだめだったらやめればいいと思った。

(必須)基本ツールをダウンロード・インストールする

①以下のサイトから、「sd.webui.zip」をダウンロードする(無料)。

Release v1.0.0-pre · AUTOMATIC1111/stable-diffusion-webui
The webui.zip is a binary distribution for people who can't install python and git. Everything is included - just double click run.bat to launch. No requirement...

↓2023/10/24時点での画面

②zipファイルを解凍したら、Cドライブ直下に置く。
 ウェブで調べると任意の場所に置くという説明とCドライブ直下に置くという説明の両方があった。
 Cドライブ直下の方がうまくいったのでそうした。

これで基本ツールのインストールは完了。

(必須)モデルをインストールする

(理解必須)モデルとは?

Stable Diffusion だけなのか、画像生成AI全体なのかはわからないけれども、モデルという概念があることがわかった。

モデルというのは画風をどうするか確定するもの。同じ画像生成の指示を出しても選んだモデル次第で出てくる画像が全然違う。

モデルは世の中にたくさん出回っていて、いくつもインストールする。
作りたい画風に応じてモデルを切り替えて生成する。

(必須)モデルのダウンロード

以下をサンプルとして説明。(かなりクオリティの高い美少女イラストが作れるモデル)

gsdf/Counterfeit-V2.5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2つファイルを落とす必要がある。

Files and versions > Counterfeit-V2.5.safetensors ←モデル
Files and versions > Counterfeit-V2.5.vae.pt    ←VAE

safetensors というのがモデル。VAEは生成した画像をよりきれいに仕上げるもの。らしい。
なのでsafetensorsだけでも使えるのかもしれない。

↓2023/10/24時点の画面

(必須)モデル・VAEのインストール

解凍した基本ツールのフォルダの中に、ダウンロードしたモデルとVAEを入れる。

・モデルを入れるフォルダ
 C:\sd.webui\webui\models\Stable-diffusion
・VAEを入れるフォルダ
 C:\sd.webui\webui\models\VAE

※Cドライブ直下以外に置いた場合は読み替えてください。

これで初期設定完了。

Stable Diffusion を立ち上げる

自分はここでかなりつまづいた。
いろいろ調べた結果、ものすごく簡単な解決方法があったので紹介。

立ち上げる

C:\sd.webui\run.bat

を起動すると黒いコマンド画面が立ち上がってコマンドが動き始める。
※ここでかなりつまづいた。

(読み飛ばしてOK)自分のPC環境で起こったこと。

・python のインストールが行われて完了した。
・その後エラーで黒いコマンド画面が閉じる。何度 run.bat を立ち上げても閉じる。

(読み飛ばしてOK)エラー解決方法

C:\sd.webui\update.bat を立ち上げる。
これだけで解決した。

ウェブを調べるとプログラムをいじれみたいなアドバイスを見つけたが、怖いしやり方がわからなくてできなかった。やらなくてよかった。

これで立ち上げ完了。Stable Diffution が使えるようになった。
なお、黒いコマンド画面は Stable Diffution を使っている間は立ち上げっぱなしにしないとダメ

日本語化する方法

①Extentionsタブ > Avilableタブ > localization のチェックを外す
②Load from: ボタンを押す
③「stable-diffusion-webui-localization-ja_JP」を見つけてインストールする

④Settings > User interface > Localization のところで「ja_JP」を選ぶ
 ※最初はja_JPが選択肢に出なかったが、右の青いリフレッシュボタンを押したら出た。
⑤Apply settings を押して完了。

画像生成方法

生成方法の基本 プロンプト(呪文)を入れる

プロンプト(呪文)と呼ばれるものを入れることで画像が生成されることが分かった。

①モデル(画風)を選ぶ

複数モデル(画風)をインストールしている場合はここでモデルを切り替えられる

②プロンプトを入れる

生成したい画像の指示を入れる。英単語のカンマ区切りでOK。

(例)1girl,snow,sports

これが生成された

③ネガティブプロンプトを入れる

逆にこれは避けたいという指示を入れる。英単語のカンマ区切りでOK。
ウェブで調べると基本的なネガティブプロンプトに入れる文例が出てくる。

(例)EasyNegative,(worst quality, low quality:1.3), (monochrome, grayscale, poorly eyes, bad hands, watermark, username:1.2),nsfw

これが生成された

生成した画像の保存場所

C:\sd.webui\webui\outputs\txt2img-images

ここに保存される。

モデル(画風)の追加

モデルを追加して切り替えることで画風を変えることができる。

・Civitai(https://civitai.com/)
モデルデータが多数置かれているサイト。ここからダウンロードしてフォルダに入れることで使えるようになる。初めて使う前には青いリフレッシュボタンを押す。

・モデルを入れるフォルダ(前述)
 C:\sd.webui\webui\models\Stable-diffusion

・青いリフレッシュボタン

プロンプトの参考

・ちちぷい(https://www.chichi-pui.com/
AI画像が多数投稿されている。多くの画像に生成するときのプロンプト(呪文)がつけられている

よく使われているが意味が分からなかったプロンプト

特定の単語を強調したい場合

・( )で囲うことで強調される。
・( )に数字を入れることで強調度合いを指定する

(プロンプトの例)
1girl,snow,sports ←普通の指示
1girl,(snow),sports ←snowを強調した指示
1girl,(snow:2),sports ←snowをすごく強調した指示
1girl,(snow:0.2),sports ←snowを少し弱めた指示

1girl,snow,sports ←普通の指示

1girl,(snow),sports ←snowを強調した指示

1girl,(snow:2),sports ←snowをすごく強調した指示

1girl,(snow:0.2),sports ←snowを少し弱めた指示

(モデルを切り替えた場合の例)モデル:Beautiful Realistic Asians

1girl,snow,sports ←普通の指示

1girl,(snow),sports ←snowを強調した指示

1girl,(snow:2),sports ←snowをすごく強調した指示

1girl,(snow:0.2),sports ←snowを少し弱めた指示

アダルト画像を作りたい/作りたくない場合

「nsfw」という単語を使うとよい。(not safe for work 職場閲覧注意の略)
作りたい場合はプロンプトに入れる。
作りたくない場合はネガティブプロンプトに入れる。