1 분 소요

최근 Diffusion이 Computer Vision 분야에도 다양한 Task에 대거 등장하면서 Diffusion에 흥미가 생겼고 어떻게 쓰이고 성능은 얼마나 되는지 궁금해서 공부하게 됐습니다. (본인 공부 및 기록용)😁

Diffusion이란?Permalink

Diffusion 모델은 딥러닝에서 최근 2~3년 전부터 각광받고 있는 생성 모델 중 하나입니다. 이 모델은 본래 물리학에서 사용하는 개념인 확산을 차용하여, 데이터를 점진적으로 변환하는 과정을 시뮬레이션합니다. 간단히 말해, 무작위로 노이즈를 추가한 데이터에서 원본 데이터를 복원하는 과정을 통해 데이터를 생성하는 방식입니다. 이러한 모델은 Computer Vision에서 GAN 같은 생성 모델(Generative Model)에 먼저 도입되었습니다.

초기 논문들 Diffusion Models Beat GANs on Image Synthesis

High-Resolution Image Synthesis with Latent Diffusion Models

Diffusion Diffusion 모델이 데이터를 노이즈까지 서로 변환하는 과정 출 처

Diffusion 모델의 동작 방식Permalink

  1. 데이터에 노이즈 추가: 이미지와 같은 데이터를 매우 천천히, 단계적으로 노이즈를 추가하여 손상시킵니다.

  2. 노이즈 제거 학습: 모델은 이 손상된 데이터를 원본 데이터로 복원하는 방법을 학습합니다.

  3. 데이터 생성: 학습이 완료된 후, 모델은 완전히 노이즈화된 데이터에서 점진적으로 노이즈를 제거하여 새 데이터를 생성합니다.

Diffusion 모델의 장점Permalink

  • 안정성: 기존의 GANs(Generative Adversarial Networks)과 비교하여, 학습이 더 안정적이며 모수 조정이 덜 까다롭습니다.

  • 다양성: GANs에서 발생하는 모드 붕괴 문제(다양한 출력을 생성하지 못하는 문제)가 적습니다.

  • 고품질 이미지 생성: 고해상도의 이미지를 더 자연스럽게 생성할 수 있습니다.

Computer Vision에서 Diffusion 모델이 주목받기 시작한 것은 2022, 2023년대 초반으로, 특히 Stable Diffusion과 같은 모델들이 등장하면서 이미지 생성, 이미지 인페인팅(in-painting, 손상된 이미지를 복원하는 기술), 스타일 변환 등의 작업에서 GAN과 결과를 비교하면서 뛰어난 결과를 보여주었습니다. 다음 포스팅은 Diffusion이 Computer Vision에서 어떠한 task들에 사용되고 있는지 소개하겠습니다.

댓글남기기