Vision Transformer

작성자

익명

작성일

2025.09.11

조회수

버전

Vision Transformer

개요

Vision Transformer(ViT)는 전통적으로 이미지 인 작업에서 지배적인 위치를 차지해온합성곱 신망(CNN)과는 다른 접근 방식을 제시한 획기적인 인공지능 모델이다. 2020년 Research 팀이 발표한 논문 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"에서 처음 소개된 ViT는 자연어 처리 분야에서 큰 성공을 거둔 Transformer 아키텍처**를 이미지 처리에 적용한 대표적인 사례이다.

ViT는 이미지를 작은 패치들로 나눈 후, 각 패치를 하나의 '토큰'처럼 취급하여 Transformer 인코더에 입력함으로써 이미지 인식을 위한 시퀀스 기반 처리를 가능하게 한다. 이는 CNN이 공간적 구조를 통해 계층적 특징을 추출하는 방식과는 근본적인 차이를 보이며, 대규모 데이터셋에서 매우 높은 성능을 발휘한다.

구조 및 동작 원리

1. 이미지 패치화 (Image Patching)

ViT의 핵심 아이디어 중 하나는 이미지를 고정된 크기의 패치로 분할하는 것이다. 예를 들어, 224×224 픽셀의 이미지를 16×16 픽셀의 패치로 나누면 총 196개의 패치가 생성된다. 각 패치는 벡터로 변환되며, 이 벡터들은 Transformer의 입력 시퀀스를 구성한다.

# 예시: 224x224 이미지 -> 16x16 패치
# 패치 수 = (224/16) * (224/16) = 14 * 14 = 196

각 패치는 선형 변환(일반적으로 Dense 레이어)을 통해 고정된 차원의 임베딩 벡터로 매핑된다. 이를 패치 임베딩(Patch Embedding)이라고 한다.

2. 위치 임베딩 (Positional Embedding)

Transformer는 순서에 민감하지 않기 때문에, 입력 시퀀스의 공간적 위치 정보를 보존하기 위해 위치 임베딩을 추가한다. ViT에서는 각 패치의 2D 위치를 반영한 학습 가능한 위치 임베딩 벡터를 패치 임베딩에 더한다.

3. 클래스 토큰 (Class Token)

ViT는 자연어 처리에서의 [CLS] 토큰과 유사하게, 분류를 위한 특수 토큰(Class Token)을 입력 시퀀스의 맨 앞에 추가한다. 이 토큰은 Transformer의 모든 레이어를 통과한 후, 최종 출력에서 분류를 위한 벡터로 사용된다.

4. Transformer 인코더

ViT는 표준 Transformer 인코더를 사용한다. 이 인코더는 다음과 같은 구성 요소로 이루어져 있다:

멀티헤드 어텐션(Multi-Head Attention): 각 패치 간의 관계를 포착
층 정규화(Layer Normalization)
피드포워드 신경망(Feed-Forward Network)

이 구조는 총 $ L $개의 레이어로 반복되며, 입력 시퀀스를 점진적으로 변환한다.

주요 특징 및 장단점

장점

항목	설명
장거리 의존성 포착	CNN은 수용야의 제한으로 인해 장거리 관계를 포착하기 어려우나, ViT는 어텐션 메커니즘을 통해 이미지 전체의 관계를 직접 모델링 가능
계산 효율성	패치 단위 처리로 계산량을 줄이며, 병렬 처리에 유리
확장성	모델 크기와 데이터 양이 증가할수록 성능이 빠르게 향상됨 (스케일링 법칙 적용)

단점

소규모 데이터셋에서의 성능 저하: ViT는 CNN에 비해 사전 학습 없이 소규모 데이터에서 성능이 떨어진다.
고해상도 이미지 처리의 비용: 이미지 해상도가 높아질수록 패치 수가 기하급수적으로 증가하여 계산 비용이 커짐.
공간 구조의 약점: CNN이 자연스럽게 학습하는 평행 이동 불변성과 계층적 특징 추출을 ViT는 명시적으로 학습해야 함.

성능 및 활용 사례

ViT는 JFT-300M과 같은 초대규모 이미지 데이터셋에서 사전 학습된 후, ImageNet 등의 벤치마크에서 CNN 기반 모델(Swin Transformer, ResNet 등)을 능가하는 성능을 보였다. 특히, ViT-H/14과 같은 대규모 모델은 ImageNet에서 88% 이상의 정확도를 기록하며, 당시 최고 수준의 성능을 달성했다.

주요 변형 모델

DeiT(Data-efficient Image Transformer): 소규모 데이터에서도 학습 가능한 ViT의 효율적 변형
Swin Transformer: 계층적 구조와 슬라이딩 윈도우를 도입하여 계산 효율과 성능 향상
Twins: 지역-전역 어텐션을 결합한 하이브리드 구조

참고 자료

Dosovitskiy, A. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929
Touvron, H. et al. (2021). Training data-efficient image transformers & distillation through attention. (DeiT)
Liu, Z. et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. (Swin Transformer)

관련 문서

Vision Transformer는 이미지 인식의 새로운 패러다임을 제시하며, CNN과의 경쟁 및 혼용을 통해 인공지능 비전 분야의 발전을 가속화하고 있다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# Vision Transformer

## 개요

**Vision Transformer**(ViT)는 전통적으로 이미지 인 작업에서 지배적인 위치를 차지해온합성곱 신망**(CNN)과는 다른 접근 방식을 제시한 획기적인 인공지능 모델이다. 2020년 Research 팀이 발표한 논문 *"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"*에서 처음 소개된 ViT는 자연어 처리 분야에서 큰 성공을 거둔 **Transformer 아키텍처**를 이미지 처리에 적용한 대표적인 사례이다.

ViT는 이미지를 작은 패치들로 나눈 후, 각 패치를 하나의 '토큰'처럼 취급하여 Transformer 인코더에 입력함으로써 이미지 인식을 위한 시퀀스 기반 처리를 가능하게 한다. 이는 CNN이 공간적 구조를 통해 계층적 특징을 추출하는 방식과는 근본적인 차이를 보이며, 대규모 데이터셋에서 매우 높은 성능을 발휘한다.

---

## 구조 및 동작 원리

### 1. 이미지 패치화 (Image Patching)

ViT의 핵심 아이디어 중 하나는 **이미지를 고정된 크기의 패치로 분할**하는 것이다. 예를 들어, 224×224 픽셀의 이미지를 16×16 픽셀의 패치로 나누면 총 196개의 패치가 생성된다. 각 패치는 벡터로 변환되며, 이 벡터들은 Transformer의 입력 시퀀스를 구성한다.

```python
# 예시: 224x224 이미지 -> 16x16 패치
# 패치 수 = (224/16) * (224/16) = 14 * 14 = 196
```

각 패치는 선형 변환(일반적으로 Dense 레이어)을 통해 고정된 차원의 임베딩 벡터로 매핑된다. 이를 **패치 임베딩**(Patch Embedding)이라고 한다.

### 2. 위치 임베딩 (Positional Embedding)

Transformer는 순서에 민감하지 않기 때문에, 입력 시퀀스의 **공간적 위치 정보**를 보존하기 위해 위치 임베딩을 추가한다. ViT에서는 각 패치의 2D 위치를 반영한 학습 가능한 위치 임베딩 벡터를 패치 임베딩에 더한다.

### 3. 클래스 토큰 (Class Token)

ViT는 자연어 처리에서의 `[CLS]` 토큰과 유사하게, **분류를 위한 특수 토큰**(Class Token)을 입력 시퀀스의 맨 앞에 추가한다. 이 토큰은 Transformer의 모든 레이어를 통과한 후, 최종 출력에서 분류를 위한 벡터로 사용된다.

### 4. Transformer 인코더

ViT는 표준 **Transformer 인코더**를 사용한다. 이 인코더는 다음과 같은 구성 요소로 이루어져 있다:

- **멀티헤드 어텐션**(Multi-Head Attention): 각 패치 간의 관계를 포착
- **층 정규화**(Layer Normalization)
- **피드포워드 신경망**(Feed-Forward Network)

이 구조는 총 $ L $개의 레이어로 반복되며, 입력 시퀀스를 점진적으로 변환한다.

---

## 주요 특징 및 장단점

### 장점

| 항목 | 설명 |
|------|------|
| **장거리 의존성 포착** | CNN은 수용야의 제한으로 인해 장거리 관계를 포착하기 어려우나, ViT는 어텐션 메커니즘을 통해 이미지 전체의 관계를 직접 모델링 가능 |
| **계산 효율성** | 패치 단위 처리로 계산량을 줄이며, 병렬 처리에 유리 |
| **확장성** | 모델 크기와 데이터 양이 증가할수록 성능이 빠르게 향상됨 (스케일링 법칙 적용) |

### 단점

- **소규모 데이터셋에서의 성능 저하**: ViT는 CNN에 비해 사전 학습 없이 소규모 데이터에서 성능이 떨어진다.
- **고해상도 이미지 처리의 비용**: 이미지 해상도가 높아질수록 패치 수가 기하급수적으로 증가하여 계산 비용이 커짐.
- **공간 구조의 약점**: CNN이 자연스럽게 학습하는 평행 이동 불변성과 계층적 특징 추출을 ViT는 명시적으로 학습해야 함.

---

## 성능 및 활용 사례

ViT는 **JFT-300M**과 같은 초대규모 이미지 데이터셋에서 사전 학습된 후, **ImageNet** 등의 벤치마크에서 CNN 기반 모델(Swin Transformer, ResNet 등)을 능가하는 성능을 보였다. 특히, ViT-H/14과 같은 대규모 모델은 ImageNet에서 88% 이상의 정확도를 기록하며, 당시 최고 수준의 성능을 달성했다.

### 주요 변형 모델

- **DeiT**(Data-efficient Image Transformer): 소규모 데이터에서도 학습 가능한 ViT의 효율적 변형
- **Swin Transformer**: 계층적 구조와 슬라이딩 윈도우를 도입하여 계산 효율과 성능 향상
- **Twins**: 지역-전역 어텐션을 결합한 하이브리드 구조

---

## 참고 자료

- Dosovitskiy, A. et al. (2020). *An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale*. [arXiv:2010.11929](https://arxiv.org/abs/2010.11929)
- Touvron, H. et al. (2021). *Training data-efficient image transformers & distillation through attention*. (DeiT)
- Liu, Z. et al. (2021). *Swin Transformer: Hierarchical Vision Transformer using Shifted Windows*. (Swin Transformer)

---

## 관련 문서

- [Transformer (모델)](https://ko.wikipedia.org/wiki/Transformer_(모델))
- [자연어 처리](https://ko.wikipedia.org/wiki/자연어_처리)
- [딥러닝](https://ko.wikipedia.org/wiki/딥러닝)
- [합성곱 신경망](https://ko.wikipedia.org/wiki/합성곱_신경망)

Vision Transformer는 이미지 인식의 새로운 패러다임을 제시하며, CNN과의 경쟁 및 혼용을 통해 인공지능 비전 분야의 발전을 가속화하고 있다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

Vision Transformer

Vision Transformer

개요

구조 및 동작 원리

1. 이미지 패치화 (Image Patching)

2. 위치 임베딩 (Positional Embedding)

3. 클래스 토큰 (Class Token)

4. Transformer 인코더

주요 특징 및 장단점

장점

단점

성능 및 활용 사례

주요 변형 모델

참고 자료

관련 문서

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?