Search

21.11.18: Conditioned Vision Transformer

1.실험 결과

Ours on ADE20k DATASET

0 step
6000 step

ViTGAN Generator on CIFAR DATASET

0 step
1000 step

2. Generator의 선택

a.
Implicit Neural Representation 모델 (ViTGAN)
ViTGAN
SIREN [paper]
ViTGAN은 암시적 표현을 위해 CIPS와 유사한 설정을 사용한다.
구체적으로, 각 패치는 합성 패치의 embedding vector 와 연결된 Fourier feature positional encoding 그리드로부터 2-layer MLP에 의해 생성된다.
우수한 성능
큰 사이즈에 불리 (ViTGAN: 64x64)
b. VQGAN 모델
Feature를 codebook으로 quantize 하고 이를 Transformer로 생성
High Resolution
CNN Encoder 학습필요

3. Related Paper

1. CoCosNet v1

2. CoCosNet v2

3. UNITE

1. RABIT (TPAMI 2021)