VIVIT 논문 #VIVIT 논문 리뷰 (1) 썸네일형 리스트형 [ 꼼꼼하게 논문 읽기 ] ViViT : A Video Vision Transformer 1 안녕하세요. WH입니다. 오늘 논문은 goole에서 21년에 발표한 vivit라는 논문인데요, 함께보시죠. 내용 요소는 문단별 요약 그리고 한줄 요약으로 구성하겠습니다. 이게 쓰다보니까 너무 길어질거 같아 파트를 나누어 다루겠습니다. 우선 파트 1은 Abstract - Related work까지 다룰게요 Abstract 이 부분에서는, 순수 transfomer로 구성된 비디오 classification model을 제시한다고 말하고 있습니다. 특징으로는 공간적 시간적 token을 input video가 transfomer layer를 통과하며 추출되고, 그렇게 추출된 긴 token을 효과적으로 다루기 위해 시간적 정보와 공간적 정보를 가지는 dimension을 factorise하는 겁니다. 또한 tran.. 이전 1 다음