Stable Diffusionとは何ですか？

テキストの説明文から高品質な画像を生成できるオープンソースの画像生成AIモデル。拡散モデルという技術をベースに、誰でも無料で使える点が特徴。

Stable Diffusionのポイントは？

Stability AI社が公開したオープンソースの画像生成モデル。テキストプロンプト（説明文）から画像を生成するText-to-Image技術。拡散モデル（Diffusion Model）をベースにノイズから画像を復元する仕組み。オープンソースのため自由にカスタマイズや追加学習（LoRAなど）が可能

【ステーブルディフュージョン】

Stable Diffusion とは？

最終更新: 2026年4月18日

💡 言葉を絵に変える「AIの画家」

📌 このページのポイント

Stability AI社が公開したオープンソースの画像生成モデル
テキストプロンプト（説明文）から画像を生成するText-to-Image技術
拡散モデル（Diffusion Model）をベースにノイズから画像を復元する仕組み
オープンソースのため自由にカスタマイズや追加学習（LoRAなど）が可能

Stable Diffusionのイメージ

ひよこ

どうやって文章から絵を描くの？

ペンギン先生

ざっくり言うと「ノイズだらけの画像からノイズを少しずつ取り除く」ことで画像を作るんだ。テキストの情報を手がかりにして「この言葉に合うようにノイズを除去しろ」と指示することで、説明文に合った画像が生まれるよ。

ひよこ

MidjourneyとかDALL-Eとの違いは？

ペンギン先生

最大の違いはオープンソースかどうかだよ。Stable Diffusionはモデルの重みが公開されていて、自分のPCで動かせるし、自由に改造できる。MidjourneyやDALL-Eはクラウドサービスとして使うもので、モデル自体は非公開なんだ。

ひよこ

LoRAって何？

ペンギン先生

Low-Rank Adaptationの略で、少ないデータと計算量でモデルを追加学習させる技術だよ。例えば特定の画風やキャラクターの画像を数十枚学習させるだけで、そのスタイルの画像を生成できるようになる。Stable Diffusionのコミュニティではとても人気の手法なんだ。

ひよこ

Stable Diffusionを自分のPCで動かすにはどんなスペックが必要なの？

ペンギン先生

VRAM 8GB以上のNVIDIA GPUが推奨だよ。RTX 3060（12GB）あれば快適に動く。VRAM 4GBでも工夫すれば動くけど生成速度は遅くなる。AMD GPUやMacのM1/M2チップでも動くけど、NVIDIA CUDAに最適化されているから生成速度ではNVIDIAが圧倒的に有利なんだ。

ひよこ

著作権的には大丈夫なの？

ペンギン先生

これは現在進行形の法的議論だよ。Stability AI（開発元）に対してアーティストが集団訴訟を起こしている。学習データに無断で使われた著作物の権利が争点。商用利用する場合はライセンス条項を確認し、特定のアーティストの画風を意図的に模倣するような生成は法的リスクが高いことを理解しておくべきだよ。技術の進歩と法整備が追いかけっこしている状態なんだ。

まとめ：ざっくりこれだけ覚えればOK！

「Stable Diffusion」って出てきたら「テキストから画像を作れるオープンソースの画像生成AIだな」と思えればだいたいOK！

📖 おまけ：英語の意味

「Stable Diffusion」＝安定した拡散

💬 「Stable」は安定した、「Diffusion」は拡散を意味する。ノイズを拡散・除去する学習プロセスを安定的に行う技術という意味だよ

← 用語集にもどる