본문 바로가기

반응형

AI 논문

(59)
[꼼꼼하게 논문 읽기] MTV :Multiview Transformers for video recognition 1 ( 2022 ) 안녕하세요! WH입니다 오늘은 최신 논문을 다뤄볼까합니다 올해 google에서 나온 논문이죠? 시작해 볼게요. 누군가는 논문을 읽을 때 왜 굳이 introduction과 related work을 읽냐고 물어봅니다 간단합니다. trend를 알 수 있고, 놓치고 있는 부분에 대해 찾아볼 수 있는 기회를 마련할 수 있기 때문이죠 역시 Abstract 부터 Related work까지 다루고 다음 파트에서 핵심이 되는 MTV에 대해 다루도로록 하겠습니다 그런데 이글을 읽기 전에 vivit관련 글을 읽고 오시면 더욱 도움이 될 것같아요 2022.05.30 - [AI 논문] - [ 꼼꼼하게 논문 읽기 ] VITVIT : video vision transformer 2 Abstract vidoe understandin..
[ 꼼꼼하게 논문 읽기 ] VITVIT : video vision transformer 2 안녕하세요 WH입니다. 앞 글에서는 related work까지 다루어 보았죠? 2022.05.30 - [AI 논문] - [ 꼼꼼하게 논문 읽기 ] ViViT : A Video Vision Transformer 1 [ 꼼꼼하게 논문 읽기 ] ViViT : A Video Vision Transformer 1 안녕하세요. WH입니다. 오늘 논문은 goole에서 21년에 발표한 vivit라는 논문인데요, 함께보시죠. 내용 요소는 문단별 요약 그리고 한줄 요약으로 구성하겠습니다. 이게 쓰다보니까 너무 길어질거 developer-wh.tistory.com 거두절미하고 vision transformer 요약부터 이어나가도록 하겠습니다. 이번 글은 문단별로 읽고 그대로 옮기는 것보다 해당 문단을 독해가 아닌 해석하도록..
[ 꼼꼼하게 논문 읽기 ] ViViT : A Video Vision Transformer 1 안녕하세요. WH입니다. 오늘 논문은 goole에서 21년에 발표한 vivit라는 논문인데요, 함께보시죠. 내용 요소는 문단별 요약 그리고 한줄 요약으로 구성하겠습니다. 이게 쓰다보니까 너무 길어질거 같아 파트를 나누어 다루겠습니다. 우선 파트 1은 Abstract - Related work까지 다룰게요 Abstract 이 부분에서는, 순수 transfomer로 구성된 비디오 classification model을 제시한다고 말하고 있습니다. 특징으로는 공간적 시간적 token을 input video가 transfomer layer를 통과하며 추출되고, 그렇게 추출된 긴 token을 효과적으로 다루기 위해 시간적 정보와 공간적 정보를 가지는 dimension을 factorise하는 겁니다. 또한 tran..