Deep ViT Features as Dense Visual Descriptors
Shir Amir, Yossi Gandelsman, Shai Bagon and Tali Dekel
ECCVW 2022 โWIMFโ Best Spotlight Presentation
(The Weizmann Inst. of Science, Berkely AI Research)
[paper][code][project][supplementary]
Intro & Overview
์ด ๋
ผ๋ฌธ์ Pre-trained Vision Transformer (ViT)์์ ์ถ์ถ๋ ๊น์ ํน์ง๋ค(Deep Features)์ ๋ฐ์ง๋ ์๊ฐ์ ๊ธฐ์ ์ (Dense Visual Descriptor)๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋ํด ์ฐ๊ตฌํฉ๋๋ค. ์ ์๋ค์ Self-supervised ViT ๋ชจ๋ธ์ธ DINO-ViT์์ ์ถ์ถ๋ ํน์ง๋ค์ด ๋ช ๊ฐ์ง ์ฃผ๋ชฉํ ๋งํ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค:
1.
๊ฐ์ฒด ๋ถ๋ถ๊ณผ ๊ฐ์ ๊ฐ๋ ฅํ๊ณ ์ ๊ตญ์ํ๋ ์๋ฏธ ์ ๋ณด๋ฅผ ๋์ ๊ณต๊ฐ์ ์ธ๋ฐ๋๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
2.
์ธ์ฝ๋ฉ๋ Semantic ์ ๋ณด๋ ๊ด๋ จ์ด ์์ง๋ง ๋ค๋ฅธ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ ๊ฐ์ ๊ณต์ ๋ฉ๋๋ค.
3.
positional bias๋ ๋ชจ๋ธ์ ๋ ์ด์ด๋ฅผ ํตํด ์ ์ง์ ์ผ๋ก ๋ณํํฉ๋๋ค.
์ด๋ฅผ ๋ฐํ์ผ๋ก, ์ถ๊ฐ์ ์ธ ํ๋ จ ์์ด๋ (Zero-shot) ํจ๊ณผ์ ์ธ ๊ณต๋ ๋ถํ , ๋ถ๋ถ ๊ณต๋ ๋ถํ , ์๋ฏธ์ ๋์๊ณผ ๊ฐ์ ์๊ฐ ์์
์ ์ํํ ์ ์๋ ์ ๋ก์ท ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์์ ViT์ DINO ViT์ ๋ํ ์ดํด๊ฐ ์๋ค๋ ์ ์ ํ์, ๊ธฐ๋ณธ์ ์ธ ์ค๋ช
์ ์๋ตํ๊ฒ ์ต๋๋ค.
Methodology
ViT as a Local Patch Descriptor.
ViT ์ํคํ
์ฒ๋ ์ด๋ฏธ์ง๋ฅผ n๊ฐ์ ํจ์น๋ก ๋๋ ํ n-dim space๋ก ํ ํฐํ ์์ผ position embedding์ ๋ํด input์ผ๋ก ๋ฐ์๋ค์ด๊ฒ ๋ฉ๋๋ค. ์ถ๊ฐ์ ์ธ [CLS] ํ ํฐ์ ์ด๋ฏธ์ง์ global ํน์ง์ ํฌ์ฐฉํฉ๋๋ค. initial ํ ํฐ์ธํธ (๋ ์ด L๊ฐ์ Transformer๋ก ๋ค์ด๊ฐ๋๋ฐ, ๋ค์๊ณผ ๊ฐ์ ์ฐ์ฐ์ ๊ฑฐ์นฉ๋๋ค.
โข
are the output tokens for layer L.
โข
LN: Normalization Layer.
โข
MSA (Multi-head Self Attention module): project token into Q, K and V.
Transformer์ ViT์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ค์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์.
CNN vs. ViT
CNN Feature์ ViT Feature๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ์ค์ํ ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์
๋๋ค. ๊ฐ๊ฐ์ ํน์ง๋ค์ ์ด๋ฏธ์ง ์ธ์๊ณผ ๋ถ์์ ์์ด์ ๊ณ ์ ํ ์ฅ์ ๊ณผ ๋จ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ฌ๊ธฐ์๋ CNN ํน์ง๊ณผ ViT ํน์ง์ ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค.
CNN Feature
1.
์ง์ญ์ ํน์ฑ ์ธ์: CNN์ ์ง์ญ์ ํน์ฑ์ ์ธ์ํ๋ ๋ฐ ๊ฐ๋ ฅํฉ๋๋ค. ์ด๋ ํํฐ๋ฅผ ํตํด ์ด๋ฏธ์ง์ ์์ ๋ถ๋ถ์์ ํจํด์ ํ์ตํ๊ณ , ์ด๋ฅผ ํตํด ๋ณต์กํ ํน์ง์ ๋จ๊ณ์ ์ผ๋ก ๊ตฌ์ถํฉ๋๋ค.
2.
๊ณ์ธต์ ๊ตฌ์กฐ: CNN์ ์ ์์ค ํน์ง์์ ๊ณ ์์ค ํน์ง์ผ๋ก ์ ๋ณด๋ฅผ ๊ณ์ธต์ ์ผ๋ก ์ถ์ถํฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง์ ๊ธฐ๋ณธ์ ์ธ ์์ง๋ถํฐ ์์ํด ์ ์ ๋ ๋ณต์กํ ๊ฐ์ฒด์ ๋ถ๋ถ๊น์ง ์ธ์ํ ์ ์๊ฒ ํฉ๋๋ค.
3.
๋ณํ์ ๊ฐํจ: CNN์ ์ด๋ฏธ์ง์ ๋ณํ(์: ์ด๋, ํ์ , ํฌ๊ธฐ ๋ณํ)์ ๊ฐํ ๋ด์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ ํ๋ง ๋ ์ด์ด๋ฅผ ํตํด ์ป์ด์ง๋ ๊ณต๊ฐ์ ๋ถ๋ณ์ฑ ๋๋ถ์
๋๋ค.
4.
ํจ์จ์ ์ธ ์ฐ์ฐ: CNN์ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์๋ง ์ด์ ์ ๋ง์ถ๊ธฐ ๋๋ฌธ์, ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๊ฒ๋ณด๋ค ์ฐ์ฐ์ด ํจ์จ์ ์ผ ์ ์์ต๋๋ค.
ViT Feature
1.
์ ์ญ์ ํน์ฑ ์ธ์: ViT๋ ์ด๋ฏธ์ง ์ ์ฒด์ ๊ฑธ์ณ ํน์ฑ์ ์ธ์ํฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง์ ๋ชจ๋ ๋ถ๋ถ์ ๋์์ ๊ณ ๋ คํ์ฌ ์ ์ญ์ ์ธ ์ปจํ
์คํธ๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
2.
Self-attention ๋งค์ปค๋์ฆ: ViT๋ ์๊ธฐ ์ฃผ์(self-attention) ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ๋ถ๋ถ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง ๋ด์ ๋ณต์กํ ์ํธ์์ฉ์ ํฌ์ฐฉํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
3.
๋ฐ์ดํฐ ํจ์จ์ฑ: ViT๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํฉ๋๋ค. ์ด๋ ViT๊ฐ ํจ๊ณผ์ ์ผ๋ก ํ๋ จ๋๊ธฐ ์ํด ๋ง์ ์์ ๋ฅผ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์
๋๋ค.
4.
๋์ ๊ณ์ฐ ๋น์ฉ: ViT๋ ์ผ๋ฐ์ ์ผ๋ก CNN๋ณด๋ค ๋ ๋ง์ ๊ณ์ฐ ๋น์ฉ์ ์๊ตฌํฉ๋๋ค. ์ด๋ ์๊ธฐ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ด ๋ณต์กํ ์ฐ์ฐ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์
๋๋ค.
CNN Feature vs. ViT Feature
(์ข) ViT ๊ตฌ์กฐ. (์ฐ) a) ViT Feature์ CNN Feature์ ๋น๊ต. ๊ฐ ๋ ์ด์ด์ Feature๋ฅผ PCA ์๊ฐํ ํ์๋ค.
โข
Semantics vs. spatial granularity
(a) CNN์ ๊ณต๊ฐ ํด์๋์ ๋ ๊น์ ๋ ์ด์ด์ ์๋ฏธ ์ ๋ณด๋ฅผ ๊ตํํ๋ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค. ๊ฐ์ฅ ๊น์ ๋ ์ด์ด์ Feature Map์ ํด์๋๊ฐ ๋งค์ฐ ๋ฎ๊ธฐ ๋๋ฌธ์ ๋ฐ๋ผ์ ์ง์ญํ๋ Semactic ์ ๋ณด๋ฅผ ์ ๋๋ก ์ ๊ณตํ์ง ๋ชปํฉ๋๋ค.
(b) ViT๋ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ํตํด ๋์ผํ ๊ณต๊ฐ ํด์๋๋ฅผ ์ ์งํฉ๋๋ค. ๋ํ ViT์ Receptive Field๋ ๋ชจ๋ ๊ณ์ธต์ ์ ์ฒด ์ด๋ฏธ์ง์
๋๋ค. ์ฆ, ๊ฐ ํ ํฐ ์ ๋ค๋ฅธ ๋ชจ๋ ํ ํฐ ์ attend ํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ViT ๊ธฐ๋ฅ์ ์ธ๋ถํ๋ ์๋งจํฑ ์ ๋ณด์ ๋ ๋์ ๊ณต๊ฐ ํด์๋๋ฅผ ์ ๊ณตํ๋ค.
โข
Representations across layers.
โฆ
(a) CNN ๊ธฐ๋ฐ Feature๋ ๊ณ์ธต์ ์ธ ํํ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ค๋ ๊ฒ์ ์ ์๋ ค์ ธ ์์ต๋๋ค. ์ฆ, ์์ ๋ ์ด์ด๋ค์ Edge, Texture๋ฑ์ ์บก์ณํ๋ ๋ฐ๋ฉด ๊น์ ๋ ์ด์ด๋ Semanticํ ์ ๋ณด๋ high level concept๋ค์ ์บก์ณํฉ๋๋ค.
โฆ
(b)ViT๋ ์์ ๋ ์ด์ด๋ ๋๋ถ๋ถ Positional Information (์์น ์ ๋ณด)๋ฅผ ํฌํจํ๋ ๋ฐ๋ฉด, ๋ ๊น์ ์ธต์์๋ ์์น์ ๋ณด๊ฐ ๊ฐ์ํ๊ณ Semantic ์ ๋ณด๋ค์ ์บก์ณํฉ๋๋ค. ๊ทธ๋ฆผ (a)๋ฅผ ๋ณด๋ฉด, ๊น์ ํน์ง์ ๊ฐ์ ํํธ์ ๋ฐฐ๊ฒฝ์ ๊ตฌ๋ถํ๋ ๋ฐ๋ฉด ์์ ๋ ์ด์ด์ Feautre๋ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ๊ฒ์, ์ค๊ฐ ๋ ์ด์ด์ Feature๋ ์์น ์ ๋ณด์ ์๋ฏธ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ๋ค๋ ๊ฒ์
๋๋ค.
โข
Semantic information across super-classes.
โฆ
(a-์๋จ) Supervised ViT Feature๋ (b-ํ๋จ) Self-supervised ViT Feature์ ๋นํด ๋ โNoisyโํ Feature๋ฅผ ๋ง๋ญ๋๋ค. ์ด๋ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๋ ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ ๋ฉ๋๋ค.
Properties of ViTโs Features
์ ์๋ Supervised ๋ฐฉ์์ ViT์ Self-supervied ๋ฐฉ์์ DINO-ViT ์ ๋ํด ๋ถ์ํ์ต๋๋ค. ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
5๊ฐ ํด๋์ค 50๊ฐ์ ๋๋ฌผ ์ด๋ฏธ์ง์ ๋ํด ViT Feauture๋ฅผ ์ป์ ํ (์ต์ข
์ถ๋ ฅ์ key), t-SNE์๊ฐํ ํ ๊ฒฐ๊ณผ.
์ด๋ฅผ ์ดํด๋ณด์๋ฉด, (b) DINO-ViT Feature๋ ์๋ก ๋ค๋ฅธ ์นดํ
๊ณ ๋ฆฌ์์๋ (!) ๊ฐ ํํธ์ ๋ํ semantic similarity๋ฅผ ์ ํํํ ๋ฐ๋ฉด (c) supervised ViT์ ๊ฒฝ์ฐ ํด๋์ค์ ๋ํ similarity, ์ฆ global ์ ๋ณด์ ์ง์คํ๋ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค.
โข
ViT Feature์ ํน์ง
โฆ
์ต์ข
๋ ์ด์ด ์ถ๋ ฅ์์๋ K๊ฐ Q, V์ ๋นํด ๋์ฑ ๋์ representation์ ์ ๊ณตํฉ๋๋ค.
โฆ
์ค๊ฐ ๋ ์ด์ด ์ถ๋ ฅ์์๋ K, Q๊ฐ V, Token๋ณด๋ค ๋ ๋ง์ positional bias๋ฅผ ํฌํจํฉ๋๋ค.
โฆ
์ด๋ ablation ์คํ ๊ฒฐ๊ณผ์์ ๋ณผ ์ ์์ต๋๋ค. ์ข ๋ก๊ฒจ์ค๊ฒ ์ต๋๋ค.
์ ํ๋ฅผ ๋ณด๋ฉด, Key๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด Q, V, Token์ ์ฌ์ฉํ๋ ๊ฒ ๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
Experimental Results
๋
ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ ์๊ฐ ์์
์ ๋ํด ๊ด๋ฒ์ํ ์คํ์ ํตํด ๊ฒ์ฆ๋์์ต๋๋ค. ๊ณต๋ ๋ถํ , ๋ถ๋ถ ๊ณต๋ ๋ถํ , ์๋ฏธ์ ๋์ ์์
์์ ์ต์ ๊ฐ๋
๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ํนํ ๋น๊ฐ๋
๋ฐฉ๋ฒ์ ๋นํด ๋ฐ์ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ViT๊ฐ ๋จ์ํ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฟ๋ง ์๋๋ผ ๋ ๋ณต์กํ ์๊ฐ์ ์ดํด ์์
์๋ ์ ์ฉํ๊ฒ ํ์ฉ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
Part Co-segmentation
Part Co-segmentation์ ๋ช์ฅ์ ์ด๋ฏธ์ง๋ค ์ฌ์ด์์ ์ ์ฌํ ๋ถ๋ถ์ ๋ถํ ํ๋ task์
๋๋ค. ์ ์๋ ViT Feature์ ์ด์ฉํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๊ณ ํ์ต๋๋ค. ์ ๊ทผ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1.
Clustering: ๋ชจ๋ ์ด๋ฏธ์ง์ ๋ํด descriptor๋ฅผ ์ถ์ถํ๊ณ ์ด๋ฅผ ๋ชจ์ (bag-of-descriptors) K-means ํด๋ฌ์คํฐ๋ง์ ์ํํ์ต๋๋ค.
2.
Voting: ํด๋ฌ์คํฐ๋ค ์ฌ์ด์์ ์ค์ํ ํด๋ฌ์คํฐ๋ฅผ ์ ๋ณํ๊ธฐ ์ํด Voting์ ์ํํฉ๋๋ค.
์ด๋ฏธ์ง I์ ๋ํ ํจ์น i๊ฐ ์์๋, ๋ฅผ mean [CLS] attention์ด๊ณ ๋ ํด๋ฌ์คํฐ k์ ์ํ๋ ์ด๋ฏธ์ง I ์ ํจ์น Set์ด๋ผ๊ณ ํ๋ฉด Segment ์ saliency๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ฐ๊ฐ์ segment๋ ํด๋ฌ์คํฐ k์ saliency์ voting์ ํฉ๋๋ค.
3.
Vote(k) ๊ฐ percentage p๋ณด๋ค ํฌ๋ค๋ฉด, foreground ๋ก ๊ฐ์ฃผํฉ๋๋ค.
์ฌ๊ธฐ๊น์ง Co-Segmentation์ ์ํํ๊ฒ ๋ฉ๋๋ค.
4.
Part co-segmentation์ ์ํํ๊ธฐ ์ํด, multi-label CRF๋ฅผ refineํ์ต๋๋ค.
cluster์ ๊ฐฏ์๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด elbow method ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
(์ข) Input. (์ค) Co-segmentation. (์ฐ) Part Co-segmentation.
Point Correpondences
์ด task๋ ๋ ์ด๋ฏธ์ง ์ฌ์ด์์ matching point๋ฅผ ์ฐพ๋ ๊ฒ์
๋๋ค.
์์๋ semantic information์ด ๋ ์ค์ํ๊ณ positional ์ ๋ณด๊ฐ ๋์ฑ ์ค์ํ๋ฐ, ์ ์๋ ์ด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
1.
Positional Bias: descriptor๋ position-aware ํด์ผํ๋ฏ๋ก ์ค๊ฐ ๋ ์ด์ด์ Feature๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ ์ ํ ๋ ์ด์ด์ ์ ํ์ position์ ๋ณด์ semantic ์ ๋ณด ์ฌ์ด์ trade-off๋ฅผ ์ ๊ณตํฉ๋๋ค.
2.
Binning: ์ธ์ ํ ๊ณต๊ฐ์ ํน์ง์ ์ ๋ณด๋ฅผ ํตํฉํจ์ผ๋ก์จ context๋ฅผ ๊ฐ descriptor์ ํตํฉํ๊ธฐ ์ํด ๊ฐ spatial feature์ log-binning์ ์ ์ฉํฉ๋๋ค.
3.
โBest Buddies Pairsโ (BBPs): ๋ ์ด๋ฏธ์ง ์ฌ์ด์ ๋งค์นญ์ ์ ์ฐพ์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ ์ด๋ฏธ์ง์ ํํ์ ์ฌ์ด์ mutual Nearest Neighbor๋ฅผ ์ฐพ์ต๋๋ค.
โข
: ์ด๋ฏธ์ง M, Q์ binned descriptor set.
โข
4.
Resolution Increase: ViT๋ ์ด๋ฏธ์ง๋ฅผ ํจ์น๋ก ์ชผ๊ฐ ๋ฐ์๋ค์ด๋ฏ๋ก, ๊ณต๊ฐ์ ํด์๋์ ์ ์ฝ์ด ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด patch๋ฅผ ์ ์ํ ๋ non-overlapping์ด ์๋ overlapping patch๋ฅผ ์ฌ์ฉํ๊ณ position encoding์ interpolateํฉ๋๋ค.
NBB ๋ฐฉ๋ฒ๊ณผ ๋น๊ต
Leverage Deep ViT features to automatically detect semantically corresponding points between images from different classes, under significant variations in appearance, pose and scale.
Video Part Co-segmentation
๋์ฑ ๋ง์ ์คํ ๊ฒฐ๊ณผ๋ ์๋์์ ์ ๊ณตํฉ๋๋ค.
Conclusion
Strength
โข
ViT์์ ์ถ์ถ๋ ๊น์ ํน์ง๋ค์ด ๊ณ ํด์๋์ ์๋ฏธ ์ ๋ณด๋ฅผ ์ง์ญํํ์ฌ ์ธ์ฝ๋ฉํ ์ ์๋ค๋ ๊ฒ์ ๋ฐํ๋์ต๋๋ค.
โข
์ ๋ก์ท ๋ฐฉ๋ฒ๋ก ์ ํตํด ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ ์์ด๋ ๋ค์ํ ์๊ฐ ์์
์ ์ํํ ์ ์์์ ์
์ฆํ์ต๋๋ค.
โข
Supervised ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Weakness
โข
๋ฐ์ดํฐ ํจ์จ์ฑ: ViT๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํฉ๋๋ค. ์ด๋ ViT๊ฐ ํจ๊ณผ์ ์ผ๋ก ํ๋ จ๋๊ธฐ ์ํด ๋ง์ ์์ ๋ฅผ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์
๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ์ถ๊ฐ ํ๋ จ์ด๋ ๋ฐ์ดํฐ ์์ด๋ ViT ํน์ง์ ์ง์ ์ ์ฉํ๋ ๊ฒฝ๋์ ์ ๋ก์ท ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๊ณ ์์ง๋ง, ์ด ๋ฐฉ๋ฒ๋ก ์ด ๋ชจ๋ ์๋๋ฆฌ์ค์์ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋์ง๋ ๋ถ๋ถ๋ช
ํฉ๋๋ค.
โข
์ผ๋ฐํ ๋ฌธ์ : ์ฐ๊ตฌ์์๋ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฑธ์ณ ์ผ๊ด๋ ๋ถ๋ถ ์ธ๋ถํ๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ์ด๋ฌํ ๋ฐฉ๋ฒ์ด ๋ชจ๋ ๋๋ฉ์ธ์ด๋ ์๋๋ฆฌ์ค์์ ๋์ผํ๊ฒ ์ ์๋ํ ์ง์ ๋ํ ์ง๋ฌธ์ ๋จ์ ์์ต๋๋ค. ํนํ, ํ๋ จ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๋๋ฉ์ธ์์์ ์ฑ๋ฅ์ ๋์ฑ ๋ถํ์คํ ์ ์์ต๋๋ค. (e.g., MRI์์, ์์ฑ์์)
โข
์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋ํ ์์กด์ฑ: ํน์ง์ ํ์ง๊ณผ ๋ฐฉ๋ฒ์ ์ฑ๊ณต์ด ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ํ์ง์ ์์กด์ ์
๋๋ค.
โข
๊ณ์ฐ ์์์ ํ์์ฑ: ViT์ Self-attention ์ฐ์ฐ์ ๋์ ๊ณ์ฐ ์์์ ์๊ตฌํ๋ฉฐ ์ด๋ก ์ธํ ์ ์ฉ ๋ฒ์์ ์ ํ์ด ์์ ์ ์์ต๋๋ค.
โข
์ด๋ก ์ ๊ทผ๊ฑฐ: ๋ ๋์ ๊ณต๊ฐ ํด์๋๋ฅผ ์ป๊ธฐ ์ํด overlapping ํจ์น๋ฅผ ์ถ์ถํ๊ณ ๊ทธ์ ๋ฐ๋ผ ์์น ์ธ์ฝ๋ฉ์ ๋ณด๊ฐํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ถ๊ฐ ํ๋ จ ์์ด๋ ์๋ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ด ๋ชจ๋ ์คํ์์ ์ ์๋ํ๋์ง์ ๋ํ ๊ฒฝํ์ ์ฆ๊ฑฐ๋ง ์ ์๋๊ณ ์์ต๋๋ค.