【かくさんもでる】

拡散モデル とは?

💡 「ぐちゃぐちゃから綺麗なものを作り出す」生成モデル
📌 このページのポイント
拡散過程(Forward Process): ノイズを加える 元画像 +ノイズ +ノイズ +ノイズ 純粋なノイズ t=0 t=T 逆拡散過程(Reverse Process): ノイズを除去 -ノイズ -ノイズ -ノイズ ノイズ 生成画像 ニューラル ネットワーク ノイズ予測
拡散モデルの仕組み
ひよこ ひよこ

拡散モデルってどうやって画像を作るの?

ペンギン先生 ペンギン先生

逆向きのプロセスを学習するんだ。まず「きれいな画像にノイズを少しずつ加えて完全なランダムノイズにする」過程を考える。次に「ランダムなノイズからきれいな画像を少しずつ復元する」逆向きのプロセスニューラルネットワークに学習させる。そうすると新しいランダムノイズから始めてきれいな画像を生成できるようになるんだ。

ひよこ ひよこ

GANという方法もあるって聞いたけど、何が違うの?

ペンギン先生 ペンギン先生

GANは「偽物を作る生成器」と「本物・偽物を見分ける識別器」が競い合って学習する方法だよ。拡散モデルはその競い合いがなく、学習が安定しやすいのが特徴なんだ。GANは学習が不安定になりやすかったけど、拡散モデルはその問題を大幅に改善したことで画像生成AIの主流になったんだよ。

ひよこ ひよこ

テキストで指定した画像を作れるのはなぜ?

ペンギン先生 ペンギン先生

CLIPというモデルでテキストと画像を同じ空間(ベクトル空間)に埋め込む技術と組み合わせることで実現しているんだ。「夕焼けの海の猫」というテキストを手がかりにしながら、そのイメージに合った画像になるようノイズ除去の方向を誘導するんだよ。

ひよこ ひよこ

生成に何ステップもかかるって聞いたけど、速くできないの?

ペンギン先生 ペンギン先生

品質と速度のトレードオフが難しい問題なんだ。標準的な拡散モデルは数十〜数千ステップで画像を生成するけど、ステップを減らすと品質が落ちる。これを解決するために「DDIM(非マルコフ連鎖サンプリング)」「Consistency Models(一貫性モデル)」「LCM(潜在一貫性モデル)」など、少ないステップで高品質を維持する研究が急速に進んでいる。理論的に「なぜ少ないステップでも動くのか」の完全な説明はまだ発展途上で、研究者たちが実験と理論を行き来しながら解明している最中なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「拡散モデル」って出てきたら「ノイズから高品質な画像を作り出す生成AI技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Diffusion Model」 = 拡散モデル
💬 物理学の「拡散(粒子がランダムに広がる現象)」から着想を得ている。インクが水に「拡散」するのを逆再生して形を作るイメージだよ
← 用語集にもどる