본문 바로가기

AI 논문

[꼼꼼하게 논문 읽기] Multiscale Vision Transformers 1

728x90
반응형

안녕하세요. WH입니다

오늘 리뷰해볼 논문은 2021 facebook에서 나온 논문인데요

Multiscale Vision transformers라는 논문입니다.

항상 해왔던 것 처럼 Related work까지 다루도록 할게요

 

Abstract

 MViT을 출시했다고 말을 하고 있는데요, 22년 구글 논문을 보시면 알겠지만 ( 22년이 더 최신이니까 말이 안맞긴하지만 여튼 ) multiscale을 적용했을 때, 더욱 성능이 좋았다고 했죠? 그럼 이것도 성능이 좋겠습니다만 보도록 하죠. 22년 구글에서 발표한 논문과 다른 점은, 계층 구조를 사용했다는 점이네요. spatial resolution을 감소시키는 반면에 계층적으로 채널을 확장시킨다고 하네요. 이 계층구조는 multiscale의 피라미드 feature를 만든다고 하는데 초기 레이어는 인간이 알아볼 수 있는 낮은 수준(?)의 시각 정보와 풍부한(?) 공간적 정보를 연산해주며, 층이 깊어 질수록 공간적으로 거칠고 복잡한 높은 차원의 feature( 그니까 추상화된 정보라고 생각하면 되겠습니다)를 연산해 준다고 하네요( 영어 단어를 해석하기가 굉장히 애매해요 ) 그래서 MViT은 ViT을 뛰어넘는 성능을 보여준다고 말합니다.

 

Introduction

  computer vision의 역사에 대해 말하며 시작하는데요, 과거 고양이와 원승이의 시각적 피질에 기반해서 계층적 모델을 만들었다고 하죠( edge나 bar와 같은 특징에 반응하는 시각적 pathway 모델 ) 그뒤에 제안된 Neocognitron은 패턴 인식에 활용되었던 모델로 바로 앞에 말한 계층적 모델에 영향을 받았다고 하네요. convolutional structure를 통해 복잡하고 간단한 cell의 layer를 바꿨다고 하네요. 그 뒤에 backpropagation이 나오며 train step에 발전을 가져오게 되었다고 합니다. 그렇지만 이전에 이미 시각적 처리에 대한 중요한 아이디어들은 나와있었다고 말합니다. 그 아이디어는 1) 계층이 깊어질수록 spatial resolution은 감소하고 2) 특별한 특징을 포함하는 채널의 수가 증가한다는 점입니다.

  동시에, computer vision 커뮤니티는 multiscale processing, 피라미드 전략이라고 불리는 방법을 개발합니다. 여기에서는 두 가지 motivation이 있는데, 1) 낮은 resolution에서 계산할수록 계산 요구량이 적어진다는 점과 2) 낮은 resolution에서 더 좋은 resolution을 잘 처리하도록 이끌어주는 맥락적 민감도가 motivation이었다고 하네요

  Transformer architecture는 집합에 정의된 임의의 함수에 대해 학습할 수 있도록 해준며 기계 번역이나, 언어 이해와 같은 sequence task 에 확장 가능한 성공을 거두었다고 말합니다. 기본적으로, transformer는 두 가지 기본 operation을 가진 블락을 사용하는 데요. 먼저 상호 관계모델링을 위한 attention operation과 모델 내의 요소( class token 이 말은 안나와 있지만, transformer의 MLP에는 class token이 들어간다는 사실에 기반해서 설명드립니다)와 관련 있는 MLP 가 있다네요. 또한 두 연산에 더불어 normalization과 residual connections 는 transformer가 다양한 task에 일반화 가능하도록 해준다고 합니다. ( transformer 논문이랑 vit의 논문을 그냥 다 담으려고 하는듯.. ) 다음 문단에서는 vit에 대해 간단히 설명하는데 2d convoultion 역할을 하도록 transformer blocks을 쌓아서 적은 inductive bias로 transformer의 힘을 보여주었다 뭐 이런 내용입니다. 그래서 결국 자기들이 이 논문에서 하려는 것은, multiscale feature 계층 구조를 transformer에 적용해보겠다네요

  자신들이 출시하는 MViT 는 이미지나 비디오 데이터를 위한 transformer achitecture 라네요.( 너무나 당연한 소리를 ) 

input을 위의 그림과 같이 이용한다고하는데요. 자신들의 MViT는 전통적 trasnformer는 channerl capacity와 resolution을 전체 네트워크 내내 유지하는 것과 다르게, 몇 개의 channel resolution을 scale stage에서 가지고 있다고 합니다. 즉, image resolution과 적은 channel dimesion에서 시작해서, stage는 계층적으로 channel capacity를 확장하는 반면 spatial resolution을 줄입니다 ( 추상화 한다는 말 ) 이 stage가 transformer network 안에서 multiscale pyramid of feature를 만듭니다. 자신들의 개념적 아이디어는 vision transformer에 효과적인 디자인 이점을 제공한다고 하는데요, 초기 레이어에서는 high spatial resolution에서 단순한 visual information( 자꾸 나와서 잠깐 설명드리면, 인간이 인지하는 사진과 비슷한 정보를 포함한 특징맵을 high spatial resolution이라고 생각하시면 되고 그 안에서 간단한 특징을 잡아내는 과정이라고 보시면 됩니다 )  계산하고 깊은 layer에서는 공간적으로 거친( 추상화된 ) 정보에 집중하게 된다고 하네요. 자신들의 모델의 장점은 비디오에서 극명히 드러난다고 하네요 ( video에서는 visual signal이 극도로 모여있기 때문에 ) 또한 자신들의 디자인이 시간적 bias를 명시적으로 나타낼수 있다고 하네요. 프레임을 셔플해서 해본 실험을 통해 자신들의 모델이 시간적 정보를 효과적으로 사용한다는 것을 알려주고 있어요.( 즉 셔플한 프레임을 사용하면 많은 accuracy의 감소가 있었다고 하네요 ) 또한 외부의 training data를 사용하지 않고 주어진 데이터 셋으로만 했다고 하네요. 그래서 나와있는 vivit이나 다른 모델로 같은 정확도를 맞추려면, 큰 데이터 셋과 더 많은 파라미터가 필요하다고 말합니다. temporal dimension을 빼고 classification 에 이용했는데 vit 보다 좋았다고 하네요. 즉 자신들이 최고라네요

 

Related Work

  Convolutional network

downsampling, shift invariance, 그리고 shared weights 를 포함해서 ConvNets 는 computer vision task에서 탈부착 가능한 백본이 되었다고 말합니다.

  Self-attention in ConNet

self-attention 메카니즘이 image understanding, 비지도학습 객체 인지 그리고 vision과 언어에서 사용되어 왔다고 합니다. ( 비지도학습 객체 인지에 사용되었다는 건 읽으면서 안 사실 ) 뭐 그리고 convolutional network와 합쳐져서 image understanding, video recognition에 사용된다고 하네요

  Vision Transformers

vision task에 transformer를 적용시키도록 계기를 준 것이 vision transformer와 Detection Task라고 합니다. 그리고 자신들은 ViT에 단계적 모델을 적용했다고 하네요. DeiT( Detection Transformer ) 는 ViT 훈련에 데이터 효과적인 접근 방식을 제공했다고 합니다. 자신들도 그 방법을 적용했고 DeiT와 같은 환경에서 비교해봤다고 하네요. transformer를 vision task( object detection, semantc segmentation, 3D reconstruction, pose estimation, 등등)에 적용을 목표로 하는 논문들을 소개해주었습니다.

  Efficient Transformers

최근에는 transformers 더욱 효과적으로 만들어주기 위해 quadratic attention complexity를 줄이고 있다고 하네요. 그에 대한 논문들 소개가 나옵니다. 그러나 이 모델들이 많은 양의 추가적인 데이터가 필요함을 말하고 있네요. 반면에 자신들은 그런 데이터가 필요없다고 말하고 넘어갑니다.

 

사실 이 부분까지는 다른 논문에 비해 약간 공을 덜 들인 느낌이납니다.

뭐 나쁜 논문이라기보다, 설명이 많이 부족하다는 느낌? 그리고 다른 논문들을 제시하는 느낌이 나네요

다음 글에서는 MViT에 대해 제대로 다뤄보는 시간을 가지겠습니다.

이상 wh였습니다.

반응형

 

728x90
반응형