拡散モデルとは何ですか？

データに少しずつノイズを加えて壊す過程と、ノイズから元のデータを復元する過程を学習することで、高品質な画像・音声などを生成できるAIモデル。

拡散モデルのポイントは？

ノイズ（ランダムなざらつき）から段階的に画像などを生成する。Stable DiffusionやDALL-Eなど現代の高品質画像生成AIの主流技術。テキスト条件（「夕焼けの海の猫」など）に合わせた画像を生成できる。画像生成だけでなく音声・動画・タンパク質構造の生成にも応用される

【かくさんもでる】

拡散モデルとは？

💡 「ぐちゃぐちゃから綺麗なものを作り出す」生成モデル

📌 このページのポイント

ノイズ（ランダムなざらつき）から段階的に画像などを生成する
Stable DiffusionやDALL-Eなど現代の高品質画像生成AIの主流技術
テキスト条件（「夕焼けの海の猫」など）に合わせた画像を生成できる
画像生成だけでなく音声・動画・タンパク質構造の生成にも応用される

拡散モデルの仕組み

ひよこ

拡散モデルってどうやって画像を作るの？

ペンギン先生

逆向きのプロセスを学習するんだ。まず「きれいな画像にノイズを少しずつ加えて完全なランダムノイズにする」過程を考える。次に「ランダムなノイズからきれいな画像を少しずつ復元する」逆向きのプロセスをニューラルネットワークに学習させる。そうすると新しいランダムノイズから始めてきれいな画像を生成できるようになるんだ。

ひよこ

GANという方法もあるって聞いたけど、何が違うの？

ペンギン先生

GANは「偽物を作る生成器」と「本物・偽物を見分ける識別器」が競い合って学習する方法だよ。拡散モデルはその競い合いがなく、学習が安定しやすいのが特徴なんだ。GANは学習が不安定になりやすかったけど、拡散モデルはその問題を大幅に改善したことで画像生成AIの主流になったんだよ。

ひよこ

テキストで指定した画像を作れるのはなぜ？

ペンギン先生

CLIPというモデルでテキストと画像を同じ空間（ベクトル空間）に埋め込む技術と組み合わせることで実現しているんだ。「夕焼けの海の猫」というテキストを手がかりにしながら、そのイメージに合った画像になるようノイズ除去の方向を誘導するんだよ。

ひよこ

生成に何ステップもかかるって聞いたけど、速くできないの？

ペンギン先生

品質と速度のトレードオフが難しい問題なんだ。標準的な拡散モデルは数十〜数千ステップで画像を生成するけど、ステップを減らすと品質が落ちる。これを解決するために「DDIM（非マルコフ連鎖サンプリング）」「Consistency Models（一貫性モデル）」「LCM（潜在一貫性モデル）」など、少ないステップで高品質を維持する研究が急速に進んでいる。理論的に「なぜ少ないステップでも動くのか」の完全な説明はまだ発展途上で、研究者たちが実験と理論を行き来しながら解明している最中なんだよ。

まとめ：ざっくりこれだけ覚えればOK！

「拡散モデル」って出てきたら「ノイズから高品質な画像を作り出す生成AI技術」と思えればだいたいOK！

📖 おまけ：英語の意味

「Diffusion Model」＝拡散モデル

💬 物理学の「拡散（粒子がランダムに広がる現象）」から着想を得ている。インクが水に「拡散」するのを逆再生して形を作るイメージだよ

← 用語集にもどる

拡散モデル とは？

拡散モデルとは？