분류 전체보기 (159) 썸네일형 리스트형 [꼼꼼하게 논문 읽기]Universal Instance Perception as Object Discovery and Retrieval ( 2023 ) Abstract 모든 instance perception tasks는 category names, language expressions, 그리고 target annotations와 같은 몇몇 queries에 의해 특정된 certain objects를 찾는 것을 목표로 하죠. 그러나, 이는 field가 multiple independent sub tasks로 나눠져야만 완수될 수 있고요. 이 논문에서 저자들은 universal instance perception model of the next generation을 제안합니다. 이름하여 UNINEXT입니다. UNINEXT는 다양한 instance perception tasks를 unified object discovery와 retrieval paradigm.. [꼼꼼하게 논문 읽기] One-stage video instance segmentation from frame-in frame-out to clip-in clip-out ( 2022 ) Abstract 많은 video instance segmentation(VIS) method는 video sequence를 개별 frame으로 나누고 이는 object를 frame by frame으로 detect하고 segment하죠. 그러나 이런 FiFo pipeline은 temporal information을 사용하는 데에 비효율적이죠. 짧은 frame에서 인접한 frame은 문맥적으로 매우 긴밀한 상관관계를 갖는다는 이 사실에 기반하여, 저자들은 one-stage FiFo framework를 clip-in clip-out( CiCo ) framework로 확장합니다. 여기서는 VIS를 clip by clip으로 수행하죠. 구체적으로 spatio-temporal feature cube를 build하는.. [꼼꼼하게 논문 읽기]Sparse Instance Activation for Real-Time Instance Segmentation ( 2022 ) Abstract 이 논문에서, 저자들은 개념적으로 새롭고 효율적이고 fully convolutional framework을 제안하는데 real-time instance segmentation에 관한 framework이죠. 이전에는, 대부분의 instance segmentation methods는 object detection에 크게 의존하고 bounding boxes나 dense centers에 기반해 mask prediction을 수행합니다. 반면에, 저자들은 instance activation maps의 sparse set을 제안하죠. 이는 new object representation이고 각 foreground object에 대해 informative regions를 highlight하죠. 그런 다.. [ 꼼꼼하게 논문 읽기 ] Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic Projection ( 2022 ) 매일 그냥 리뷰만 했지만, 오늘은 날도 흐릿하고 간만에 시간이 좀 남기도 하고 해서 이렇게 써보네요. 2d keleton based action recognition의 장점은 배경에 robust하다는 것이죠. 그치만 한 가지 치명적인 단점 역시 포함합니다. 많은 논문에서 밝히고 있지는 않지만, 사실 공간적 정보가 결여 된다는 것이 치명적이죠. 그럼 간단하게 3d를 쓰면 되지 않나요? 맞아요 근데 그건 embedded 에서 realtime으로 구현하기에 연산량이 너무 많죠. 그래서 이번 논문을 리뷰하는 건데요. 얻어갈 아이디어는 공간적 정보를 어떻게 담냐는 거에요. 그 가능성에 대해서 아이디어만 얻어가도 큰 도움이 되겠죠. 여튼 아래 보시죠. Abstract voxel-based methods가 multi.. [ 꼼꼼하게 논문 읽기 ] RTMDet: An Empirical Study of Designing Real-Time Object Detectors ( 2022 ) Abstract 이 논문에서 저자들은 efficient real-time object detector를 설계하는 것을 목적으로하는데 YOLO series를 넘고자 하죠. 그리고 많은 object recognition task로 확장할 수 있도록 하는 것을 목표로 합니다.가령 instance segmentation과 rotated object detection 등이 있겠죠. 더 efficient한 model architecture를 얻기 위해, 저자들은 backbone과 neck에서 경쟁할 만한 capacities를 가지는 architecture를 explore하는데요. 이 architecture는 lagre-kernel depth-wise convolutions로 구성된 building block으로 만.. [ 꼼꼼하게 논문 읽기 ]CenterMask: Real-Time Anchor-Free Instance Segmentation ( 2020 ) Abstract 저자들은 간단하고 효율적인 anchor-free instance segmentation 인 CenterMask를 제안하는데요. 새로운 spatial attention-guided mask (SAG-Mask) branch를 anchorfree one stage object detector ( FCOS ) 에 도입하죠. Mask R-CNN을 활용한 한 줄기중 하나고요. FCOS object detector에 연결된 SAG-Mask branch 는 segmentation mask를 검출된 각 box에 segmentation mask를 예측하는데요. 이는 spatial attention map을 활용하고 이 map은 informative pixels에 집중하고 noise를 억압하는 역할을 하죠... [꼼꼼하게 논문 읽기]PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller ( 2022 ) Abstract Two-branch network architecture는 efficiency와 effctiveness를 real-time segmentation tasks에서 보여 왔죠. 그러나, low-level details와 high-level semantics의 직접적인 fusion은 detailed features가 contextual information을 둘러싸임으로 인해 쉽게 압도되어지는 현상을 야기할 수 있죠. 이 현상을 overshoot이라고 이 논문에서 부르는데요, 이는 존재하는 two-branch models의 acuuracy의 improvement를 제한하죠. 이 논문에서, 저자들은 CNN 과 PID ( proportional-Integral-Derivative) 간의 conne.. [torch] 기본 함수 이해와 활용 예제 코드 def _gather_feat(feat, ind, mask=None): dim = feat.size(2) ind = ind.unsqueeze(2).expand(ind.size(0), ind.size(1), dim) feat = feat.gather(1, ind) return feat torch.size() numpy로 비유하면 shape과 같습니다. 차원을 확인할 때 사용하죠. 그럼 코드 1번째 출을 보면 dim이라는 변수에 들어온 변수 feat의 2번째 차원을 넣어준다는 거죠. 예를 들어 feat.size() 가 ( 1, 3, 4 ) 가 나왔다면, feat.size(2) 는 4 이기 때문에 dim은 4가 됩니다. 여기서 알 수 있는 점은 feat은 최소 2차원 이겠네요. torch.unsqu.. 이전 1 2 3 4 5 6 7 ··· 20 다음