[diffusion model] Denoising Diffusion Probabilistic Models (Neurips 2020)

Denoising Diffusion Probabilistic Models

요즘 Hot🔥 한 diffusion model의 원조격인 논문이다. Novel ai 라는 곳에서 상용화하기도 한 모델이다. ( Stable Diffusion이라는 더 발전된 모델 ) 수식이 정말정말정말 많기 때문에 수식 하나하나를 다 이해하기 보다는 어떤 flow로 학습이 진행되는지, 기반이 되는 컨셉이 무엇인지, 구현은 어떤식으로 되어있는지 정도를 살펴보려고 한다.

기본적으로 diffusion model은 ‘생성’모델이다. 세상에 없는 어떤 새로운 것을 생성해내는 것이 목적이다.

기존에 많이 사용되는 생성모델은 이렇게 4가지 정도로 추려볼 수 있다.

GAN
- 관련 정리 자료 : GAN의 MinMax Loss [GAN] WGAN(Wasserstein GAN) (2017) [GAN]Conditional Generative Adversarial Nets( cGAN ) (2014) GAN의 문제 Mode collapsing에 대하여
VAE
- 관련 정리 자료 : VAE**(Variational AutoEncoder)**
Flow-based model
Diffusion model

https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

최근 커뮤니티에서도 diffusion model이 성능이 좋다는 말이 많이 나오고 있고, 상용화도 되곤 하는 핫한 모델이다.
위 비교 그림에서 VAE와 Diffusion model을 비교해보면, VAE는 데이터의 분포를 잘 모델링한 latent variable z를 예측하는 방향으로 학습이 되지만, diffusion model은 데이터셋이 가지고 있는 multi-model distribution을 모델링하기 위해 gaussian noise를 활용한다.
GAN이나 VAE와 달리 latent space dimension이 input dimension과 동일하기 때문에 bottleneck구조에서 고려해야 하는 disentangled 속성이 없어서 DDPM은 좀 더 generative quality가 좋다고 할 수 있다. probabilistic model에 치중한 method이다.

DDPM의 과정

Untitled

논문에 첨부되어 있는 figure다. 기본적으로 $\bold{x}_0 → \bold{x}_T$ 과정을 forward process, $\bold{x}_T → \bold{x}_0$ 과정을 reverse process라고 정의한다. 주의할 점은 이 과정의 정의가 ‘training’과 관련된 것은 아니라는 것이다. 그냥 noise를 점점 더해주는 과정과 점점 없애주는 과정을 ‘용어로 정의’만 한 것 뿐이다.

timesteps는 보통 1000으로 정의한다. (github구현들)

Forward process : noise를 순차적으로 점점 더해주어 완전한 noise( 사람 그림의 의미가 완전히 깨질 때 까지 ) 로 만드는 과정. $q$로 정의되어 있다.
- real data distribution에서 샘플링된 data point $\bold{x}0 \sim q(\bold{x})$ 에 작은 Gaussian noise를 $T$ step만큼 더해준다. 그렇게 T개의 noisy samples를 생성한다. variance scheduling을 통해 step 당 더해줄 noise가 조절된다. $\{\beta_t \in (0, 1)\}{t=1}^T$ linear하게 scheduling하기도 하고 cosine 함수의 일부분을 따서 하기도 한다.
- $\alpha_t$ 를 통해 noise의 정도를 조절하며, 구현시 $T$개만큼을 미리 정의해 둔다.
```
## pseudo code
noise = torch.randn_like(x_0) # x_0의 size와 같은 gaussian 분포 생성
p_sample = sqrt(alpha_t)* x_0 + sqrt(1-alpha_t) * noise
```
이는 사실 reparameterization trick을 사용해 $\bold{x}_0$으로부터 $\bold{x}_T$를 생성해낸 것이다.
- $\alpha_t = 1-\beta_t , \; \;\;\overline{\alpha}t = \prod{t=1}^t \alpha_i$
  - ➕ 두개의 분산이 다른 gaussian distribution을 더했을 때 ( 정규분포의 가법성 )
```
betas = torch.linspace(beta_start, beta_end, timesteps, dtype = torch.float64) # start값과 end값을 기준으로 step만큼의 값을 같은 간격으로 return
alphas = 1. - betas
alphas_cumprod = torch.cumprod(alphas, dim=0) # 누적곱을 return
```
Backward process : 완전한 noise 로부터 순차적으로 점점 original image로 복원해가는 과정. $p_\theta$ 로 정의한다. $q(\bold{x}_{t-1}|\bold{x}t)$ 를 예측하는 것이다. 그러나 이건 쉽지 않기 때문에 $p\theta$ 를 통해 conditional probabilities를 배워야 하는 것이다.

⇒ noise로부터 특정 시점 t의 noise $\bold{x}_t$를 예측

⚠️ reverse conditional probability는 $\bold{x}0$ 이 주어지면 다루기 쉽다 → $q(\bold{x}{t-1}|\bold{x}_t, \bold{x}0) = \mathcal{N}(\bold{x}{t-1} ; \tilde{\mu}(\bold{x}_t, \bold{x}_0), \tilde{\beta}_t\bold{I})$

$p(\bold{x}T)=\mathcal{N}(\bold{x}T;0, \bold{I})$ 에서 시작하는 Markov chain with learned Gaussian transition으로 정의된 joint distribution $p\theta(\bold{x}{0:T})$가 reverse process로 정의된다. ⇒ forward process에서 time step에 따라 추가된 gaussian noise의 평균과 분산을 알게 된다면 원래의 이미지 분포로 되돌아갈 수 있지 않을까?라는 개념인 듯 하다.

학습하는 과정을 보면 직관적으로 이해가 갈 것이다.

DDPM의 과정

학습과정 (Loss)