【かくさんもでる】
拡散モデル とは?
💡 「ぐちゃぐちゃから綺麗なものを作り出す」生成モデル
📌 このページのポイント
- ノイズ(ランダムなざらつき)から段階的に画像などを生成する
- Stable DiffusionやDALL-Eなど現代の高品質画像生成AIの主流技術
- テキスト条件(「夕焼けの海の猫」など)に合わせた画像を生成できる
- 画像生成だけでなく音声・動画・タンパク質構造の生成にも応用される
拡散モデルってどうやって画像を作るの?
逆向きのプロセスを学習するんだ。まず「きれいな画像にノイズを少しずつ加えて完全なランダムノイズにする」過程を考える。次に「ランダムなノイズからきれいな画像を少しずつ復元する」逆向きのプロセスをニューラルネットワークに学習させる。そうすると新しいランダムノイズから始めてきれいな画像を生成できるようになるんだ。
GANという方法もあるって聞いたけど、何が違うの?
テキストで指定した画像を作れるのはなぜ?
CLIPというモデルでテキストと画像を同じ空間(ベクトル空間)に埋め込む技術と組み合わせることで実現しているんだ。「夕焼けの海の猫」というテキストを手がかりにしながら、そのイメージに合った画像になるようノイズ除去の方向を誘導するんだよ。
生成に何ステップもかかるって聞いたけど、速くできないの?
品質と速度のトレードオフが難しい問題なんだ。標準的な拡散モデルは数十〜数千ステップで画像を生成するけど、ステップを減らすと品質が落ちる。これを解決するために「DDIM(非マルコフ連鎖サンプリング)」「Consistency Models(一貫性モデル)」「LCM(潜在一貫性モデル)」など、少ないステップで高品質を維持する研究が急速に進んでいる。理論的に「なぜ少ないステップでも動くのか」の完全な説明はまだ発展途上で、研究者たちが実験と理論を行き来しながら解明している最中なんだよ。
まとめ:ざっくりこれだけ覚えればOK!
「拡散モデル」って出てきたら「ノイズから高品質な画像を作り出す生成AI技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Diffusion Model」 = 拡散モデル
💬 物理学の「拡散(粒子がランダムに広がる現象)」から着想を得ている。インクが水に「拡散」するのを逆再生して形を作るイメージだよ