본문 바로가기

AI 논문

[ 꼼꼼하게 논문 읽기 ] ViViT : A Video Vision Transformer 1

728x90
반응형

안녕하세요. WH입니다. 오늘 논문은

goole에서 21년에 발표한 vivit라는 논문인데요,

함께보시죠.

내용 요소는 문단별 요약 그리고 한줄 요약으로 구성하겠습니다.

이게 쓰다보니까 너무 길어질거 같아 파트를 나누어 다루겠습니다.

우선 파트 1은 Abstract - Related work까지 다룰게요

Abstract

  이 부분에서는, 순수 transfomer로 구성된 비디오 classification model을 제시한다고 말하고 있습니다. 특징으로는 공간적 시간적 token을 input video가 transfomer layer를 통과하며 추출되고, 그렇게 추출된 긴 token을 효과적으로 다루기 위해 시간적 정보와 공간적 정보를 가지는 dimension을 factorise하는 겁니다. 또한 transformer-based model은 많은 양의 데이터를 필요로 하는데, 작은 데이터 셋을 가지고 train할 수 있도록 효과적으로 regularise 할 수 있었는지에 대해 보여주겠다고 말하고 있습니다. 결과적으로 vivit 을 가지고 video classification의 몇몇 데이터 셋에서 최고 성능에 도달 했으며, 3D convolutional network를 뛰어 넘었다고 말하고 있습니다. 코드가 release 된 git 주소 소개와 말이죠.

 

한줄 요약

 - vivit model은 시공간적 토큰을 잘 묶는 레이어를 가지는 모델이며, 작은 데이터셋으로 훈련할 수 있고 성능면에 있어서는 3D CNN을 뛰어넘는 video classificaiton의 최고 성능에 도달했다라고 요약되겠습니다.

 

Introduction

 문단 1

  CNN이 많은 이미지 관련 데이터 셋에서 최고 성능을 보여왔는데, 자연어 처리 분야에서는 transformer가 저명한 아키텍처로 등장했다고 말하며, attention 은 input을 전체적으로 고려할 수 있다고 말하고 있는데요, 동시에 그 장점과 더불어 CNN이 가지는 한계 ( 전체를 고려하기 위해 많은 층을 통과해야하고 간접적으로 정보를 포함하는 ), 즉 receptive field의 한계를 보여주며 단락을 마무리하고 있습니다.

 

  문단 2

  NPL에서 transformer의 성공에 영감을 얻은 많은 study가 computer vision으로 들어오기 시작했고, CNN에 transformer를 합치거나, CNN을 대체하고자 하는 시도들이 있어다고 소개하며 시작합니다. 그렇지만 VIT( vision transformer )에 와서야 순수 transformer 만으로 calssification 분야에서 CNN을 뛰었다고 말하고 있습니다. 그렇지만, transformer는 inductive biases ( cnn은 local 정보가 위치가 바뀌어도 유지되는 그런 성질들이 있습니다( translational equvariance ) ) 등이 결핍되어 있기 때문에 더 많은 데이터가 필요하다고 말하고 있어요

 

  문단 3

  여튼 VIT과 transformer가 비디오에서 long range contextual relationship ( 시간적 정보를 말함 ) 담기에 적합하다는 직관을 가지고 transformer 기반의 모델을 만들었다고 말하는데요. 더불어 최근 동향에 대해 3D CNN 아키텍처에 transformer를 추가한 모델들이 나오고 있다고 말하며 문단을 마무리합니다.

 

  문단 4

  드디어 VIVIT의 모델이 나옵니다. 핵심 operation으로 self-attention에 대해 말하는데요. 입력 비디오로 부터 시공간적 token을 어떻게 처리하는지를 보여주는 그림을 제시합니다. 그리고 그 많은 양의 시공간적 token을 효율적으로 처리하기 위해, factorising model을 제시한다고 말합니다. 그리고 작은 데이터 셋에서 학습하기위해서 규제하는 방법에 대해서도 보여준다고 하며 마무리합니다. 

 

  문단 5

  CNN은 몇년에 걸쳐 사용되어 왔기에, best practice가 사용된 모델들이 있지만, transformer model의 경우에는 없기에 자신들이 best design을 찾아야 했다고 말하는데요. 자신들이 연구를 통해 몇몇 데이터 셋에서 최고 성능을 보여주는 모델을 찾았다고 하네요

 

한줄 요약

 - transformer 가 최근 computer vision에 사용되고 있지만, 자신들은 transformer만을 사용해서 몇몇 데이터 셋에서 최고 성능을 보여주는 모델을 디자인 했다정도로 요약할 수 있겠습니다.

Related Worked

  문단 1

  video understanding을 위한 아키텍처는 이미지 인식에서 발전해 왔다고 말하며 서두를 여는데요. 초기 비디오 연구에서는 hand-crafted 특징을 모양과 행동을 정보를 encode하기 위해 사용되었다고 말합니다. 그리고 AlexNet 이후 two stream 네트워크가 활성화 되었다고 말하고 있습니다. 즉 RGB 이미지 프레임과 이미지 흐름을 각각 처리한 다음 마지막에 합치는 방식으로 진행되었다고 하는데요( 즉 비디오를 이미지로 나누고 추론 후에 합치는 과정을 말합니다 ). 비디오 데이터의 양이 많아지면서 3D CNN을 통해 시공간적 정보를 반영한 학습( 2D CNN은 공간적 정보를 학습합니다 )이 가능해졌지만 그만큼 늘어난 파라미터에 따라 더 큰 train data가 필요해졌다고 하네요. 늘어나는 연산을 효과적으로 대처하기 위해서 시공간적 정보를 factorise 하는 시도들이 있었다고 하네요. 자신들 역시 시공간적 정보를 factorise하긴하지만 transformer 모델이라는 점을 짚어주며 문단을 마무리합니다.

  문단 2

  NLP에서는 transformer가 천하 통일했다고 말하는데요. 최신 성능의 모델( NLP에서 ) 역시 transformer 기반의 모델이라는 점과 여러 측면에서 효율을 올리는 모델들이 제안하고 있다고 말하고 있습니다. 그럼에도 computer vision에서는 transformer만으로 구성한 것이 아니라, 기존 아키텍처의 곳곳에 적용하는 정도다라는 점을 말하며 문단을 마무리합니다.

  문단 3

  물론 이전 연구들이 CNN을 대체하고자 했지만, VIT 아키텍처에 와서야 CNN이 transformer로 대체가 되었다고 말합니다. 그렇지만 vit 역시 large scale 효과적이고 앞서 말한 inductive bais 가 없기 때문에, 더 많은 데이터 셋이 필요하다고 말하고 있습니다. 그렇지만 VIT 의 영향으로 video 분야에서 많은 변화가 일어났다고 말하며 문단을 마무리하고 있습니다.

  문단 4

  자신들이 순수 transformer 기반 video classfication model을 만들었다고 말하며, 자신들의 모델의 변형에 대해서도 제시한다고 말하고 있습니다. 뭐 이렇든 저렇든 자기들이 몇몇 데이터 셋에서 최고 성능을 보였음을 말하면서 마무리 합니다.

 

한줄 요약

 - CNN 을 대체한 것은 VIT이며 자신들은 그것보다 더 뛰어나고 효과적인 모델을 제시한다 정도 되겠네요.

 

 

이글의 요약

- VIVIT은 transformer 기반의 모델이며 CNN을 모두 대체했다. 물론 최근 VIT보다 효과적이고 성능면에서 역시 기존 CNN 기반이든 transformer 기반이든 다 뛰어넘는다. 고로 우리가 최고다.

 

VIT까지 다루고 넘어가려고 했는데.. 사실 VIT역시 하나의 논문이라

많은 내용이 필요해서요 다음 글에서 다루도록 하겠습니다.

해당 논문에서는 핵심 내용 정도를 다루고 있네요.

이상 wh 였습니다.

반응형

 

728x90
반응형