Abstract

Vision Transformer는 noise나 blur 같은 image corruption에 취약함

→ 본 연구진들의 생각: ViT의 이러한 취약성(vulnerability)은 patch 단위의 입력을 기반으로 구축되어 patch 간의 corruption에 지나치게 민감해지는 불안정한 self-attention mechanism에서 비롯되었다고 생각

⇒ 이를 해결하고 transformers의 robustness(견고함)을 향상시키기 위해 본 논문은 새로운 training method인 **“Reducing Sensitivity to Patch Corruptions (RSPC)”**를 제안

RSPC 과정

  1. 처음에는 가장 vulnerable 한 patches를 찾아 occlude/corrupt 시킨다.

  2. 그 다음, clean 한 것과 corrupted 된 것 사이의 중간 features를 조정함으로써 transformers의 corruption에 대한 sensitivity를 줄인다. (feature alignment process)

    → 여기서 patch corruptions의 construction이 feature alignment process를 따라 adversarially(적대적으로) 학습됨

실험 결과, RSPC는 attention layers의 안정성을 크게 향상시켰으며, CIFAR-10/100-C, ImageNet-A, ImageNet-C 그리고 ImageNet-P를 포함하는 다양한 benchmarks에 대해 더 좋은 robustness를 보였음

1. Introduction

image.png

최근 몇년 동안 Vision Transformers의 큰 성공에도 불구하고, 흔한 image corruptions(noise, blur, adversarial perturbations)에 대해서는 여전히 robustness가 떨어짐

(e.g., 위 Figure 2 오른쪽 표에서 RVT와 FAN 같이 SOTA를 달성한 robust architectures에서도 corrupted 된 데이터에 대해서는 정확도가 15%보다 더 감소)

본 연구진들은 이러한 vulnerability가 patch 기반의 inputs에 의존하는 self-attention mechanism에 내재되어 있어, corruptions이나 perturbations에 쉽게 민감해지는 것이라고 예상함

<aside>

→ 경험적 증거: ViT가 극히 일부, 심지어는 하나의 patch만으로도 adversarial perturbations에 의해 잘못 분류될 수 있다는 것

image.png

Corruption 방법 1. PGD-5를 통해 adversarial perturbation 생성 - Fig 1의 첫 번째, 두 번째 그림 참고

RVT 모델에서 주어진 clean image에 대해 랜덤하게 소수(약 10%)의 patch들을 sampling 하여 perturbations/corruptions(adversarial perturbations using PGD-5)을 적용함

→ perturbed 된 patch들 때문에 confidence score가 63.8%에서 3.1%로 크게 하락하였으며 이는 오분류(misclassification)을 초래