【ステーブルディフュージョン】

Stable Diffusion とは?

💡 言葉を絵に変える「AIの画家」
📌 このページのポイント
Stable Diffusion 画像生成の流れ テキスト入力 「猫が宇宙で…」 テキスト エンコーダ 意味をベクトル化 拡散モデル ノイズ画像から 少しずつノイズを 除去して画像生成 生成画像 高品質出力 ノイズ除去(デノイジング)プロセス ノイズ大 除去中… 除去中… ほぼ完成 完成! テキストの意味を理解し、ノイズから段階的に画像を生成する
Stable Diffusionのイメージ
ひよこ ひよこ

どうやって文章から絵を描くの?

ペンギン先生 ペンギン先生

ざっくり言うと「ノイズだらけの画像からノイズを少しずつ取り除く」ことで画像を作るんだ。テキストの情報を手がかりにして「この言葉に合うようにノイズを除去しろ」と指示することで、説明文に合った画像が生まれるよ。

ひよこ ひよこ

MidjourneyとかDALL-Eとの違いは?

ペンギン先生 ペンギン先生

最大の違いはオープンソースかどうかだよ。Stable Diffusionはモデルの重みが公開されていて、自分のPCで動かせるし、自由に改造できる。MidjourneyやDALL-Eはクラウドサービスとして使うもので、モデル自体は非公開なんだ。

ひよこ ひよこ

LoRAって何?

ペンギン先生 ペンギン先生

Low-Rank Adaptationの略で、少ないデータと計算量でモデルを追加学習させる技術だよ。例えば特定の画風やキャラクターの画像を数十枚学習させるだけで、そのスタイルの画像を生成できるようになる。Stable Diffusionのコミュニティではとても人気の手法なんだ。

ひよこ ひよこ

Stable Diffusionを自分のPCで動かすにはどんなスペックが必要なの?

ペンギン先生 ペンギン先生

VRAM 8GB以上のNVIDIA GPUが推奨だよ。RTX 3060(12GB)あれば快適に動く。VRAM 4GBでも工夫すれば動くけど生成速度は遅くなる。AMD GPUMacのM1/M2チップでも動くけど、NVIDIA CUDAに最適化されているから生成速度ではNVIDIAが圧倒的に有利なんだ。

ひよこ ひよこ

著作権的には大丈夫なの?

ペンギン先生 ペンギン先生

これは現在進行形の法的議論だよ。Stability AI(開発元)に対してアーティストが集団訴訟を起こしている。学習データに無断で使われた著作物の権利が争点。商用利用する場合はライセンス条項を確認し、特定のアーティストの画風を意図的に模倣するような生成は法的リスクが高いことを理解しておくべきだよ。技術の進歩と法整備が追いかけっこしている状態なんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Stable Diffusion」って出てきたら「テキストから画像を作れるオープンソース画像生成AIだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Stable Diffusion」 = 安定した拡散
💬 「Stable」は安定した、「Diffusion」は拡散を意味する。ノイズを拡散・除去する学習プロセスを安定的に行う技術という意味だよ
← 用語集にもどる