본문 바로가기

반응형

분류 전체보기

(158)
[꼼꼼하게 논문 읽기] One-stage video instance segmentation from frame-in frame-out to clip-in clip-out ( 2022 ) Abstract 많은 video instance segmentation(VIS) method는 video sequence를 개별 frame으로 나누고 이는 object를 frame by frame으로 detect하고 segment하죠. 그러나 이런 FiFo pipeline은 temporal information을 사용하는 데에 비효율적이죠. 짧은 frame에서 인접한 frame은 문맥적으로 매우 긴밀한 상관관계를 갖는다는 이 사실에 기반하여, 저자들은 one-stage FiFo framework를 clip-in clip-out( CiCo ) framework로 확장합니다. 여기서는 VIS를 clip by clip으로 수행하죠. 구체적으로 spatio-temporal feature cube를 build하는..
[꼼꼼하게 논문 읽기]Sparse Instance Activation for Real-Time Instance Segmentation ( 2022 ) Abstract 이 논문에서, 저자들은 개념적으로 새롭고 효율적이고 fully convolutional framework을 제안하는데 real-time instance segmentation에 관한 framework이죠. 이전에는, 대부분의 instance segmentation methods는 object detection에 크게 의존하고 bounding boxes나 dense centers에 기반해 mask prediction을 수행합니다. 반면에, 저자들은 instance activation maps의 sparse set을 제안하죠. 이는 new object representation이고 각 foreground object에 대해 informative regions를 highlight하죠. 그런 다..
[ 꼼꼼하게 논문 읽기 ] Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic Projection ( 2022 ) 매일 그냥 리뷰만 했지만, 오늘은 날도 흐릿하고 간만에 시간이 좀 남기도 하고 해서 이렇게 써보네요. 2d keleton based action recognition의 장점은 배경에 robust하다는 것이죠. 그치만 한 가지 치명적인 단점 역시 포함합니다. 많은 논문에서 밝히고 있지는 않지만, 사실 공간적 정보가 결여 된다는 것이 치명적이죠. 그럼 간단하게 3d를 쓰면 되지 않나요? 맞아요 근데 그건 embedded 에서 realtime으로 구현하기에 연산량이 너무 많죠. 그래서 이번 논문을 리뷰하는 건데요. 얻어갈 아이디어는 공간적 정보를 어떻게 담냐는 거에요. 그 가능성에 대해서 아이디어만 얻어가도 큰 도움이 되겠죠. 여튼 아래 보시죠. Abstract voxel-based methods가 multi..
[ 꼼꼼하게 논문 읽기 ] RTMDet: An Empirical Study of Designing Real-Time Object Detectors ( 2022 ) Abstract 이 논문에서 저자들은 efficient real-time object detector를 설계하는 것을 목적으로하는데 YOLO series를 넘고자 하죠. 그리고 많은 object recognition task로 확장할 수 있도록 하는 것을 목표로 합니다.가령 instance segmentation과 rotated object detection 등이 있겠죠. 더 efficient한 model architecture를 얻기 위해, 저자들은 backbone과 neck에서 경쟁할 만한 capacities를 가지는 architecture를 explore하는데요. 이 architecture는 lagre-kernel depth-wise convolutions로 구성된 building block으로 만..
[ 꼼꼼하게 논문 읽기 ]CenterMask: Real-Time Anchor-Free Instance Segmentation ( 2020 ) Abstract 저자들은 간단하고 효율적인 anchor-free instance segmentation 인 CenterMask를 제안하는데요. 새로운 spatial attention-guided mask (SAG-Mask) branch를 anchorfree one stage object detector ( FCOS ) 에 도입하죠. Mask R-CNN을 활용한 한 줄기중 하나고요. FCOS object detector에 연결된 SAG-Mask branch 는 segmentation mask를 검출된 각 box에 segmentation mask를 예측하는데요. 이는 spatial attention map을 활용하고 이 map은 informative pixels에 집중하고 noise를 억압하는 역할을 하죠...
[꼼꼼하게 논문 읽기]PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller ( 2022 ) Abstract Two-branch network architecture는 efficiency와 effctiveness를 real-time segmentation tasks에서 보여 왔죠. 그러나, low-level details와 high-level semantics의 직접적인 fusion은 detailed features가 contextual information을 둘러싸임으로 인해 쉽게 압도되어지는 현상을 야기할 수 있죠. 이 현상을 overshoot이라고 이 논문에서 부르는데요, 이는 존재하는 two-branch models의 acuuracy의 improvement를 제한하죠. 이 논문에서, 저자들은 CNN 과 PID ( proportional-Integral-Derivative) 간의 conne..
[torch] 기본 함수 이해와 활용 예제 코드 def _gather_feat(feat, ind, mask=None): dim = feat.size(2) ind = ind.unsqueeze(2).expand(ind.size(0), ind.size(1), dim) feat = feat.gather(1, ind) return feat torch.size() numpy로 비유하면 shape과 같습니다. 차원을 확인할 때 사용하죠. 그럼 코드 1번째 출을 보면 dim이라는 변수에 들어온 변수 feat의 2번째 차원을 넣어준다는 거죠. 예를 들어 feat.size() 가 ( 1, 3, 4 ) 가 나왔다면, feat.size(2) 는 4 이기 때문에 dim은 4가 됩니다. 여기서 알 수 있는 점은 feat은 최소 2차원 이겠네요. torch.unsqu..
[꼼꼼하게 논문읽기] PYSKL : Towards Good Practices for Skeleton Action Recognition ( 2022 ) 논문 원문 : https://arxiv.org/abs/2205.09443 이번 논문에는 상당히 흥미로운 내용이 많았죠 함께 보자구요 그리고 다른 블로그를 하나 더 운영하는데요. 그 블로그에서는 이렇게 논문 자체를 읽는 것이 아닌 insight 나 논문의 핵심, 이론을 위주로 다루려고 합니다. 관심있는 분은 아래 링크를 참조해 주세요 https://ai-easy.tistory.com/ Abstract 저자들은 PYSKL을 제안합니다: open-source toolbox 이고 skeleton-based anction recognition 에 관한 것이며 pytorch를 기반으로 작성되었죠. toolbox는 다양한 skeleton action recognition algorism을 지원하죠. 크게는 GCN b..