본문 바로가기

반응형

AI 논문

(59)
[ 꼼꼼하게 논문 읽기 ] yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 1( 2022 ) 안녕하세요! WH입니다. 오늘은 매우 따끈따근한 논문입니다. 22년 6월에 나온 논문이자, 코드로는 오늘 기준 7일 내에 나온 논문입니다. Abstract yolov7 은 알려진 모든 object detectors를 speed 와 accuracy 측면에서 뛰어넘었는데요. 5 FPS에서 160 FPS 까지 속도가 나오고, 가장 높은 정확도는 30FPS로 56.8% AP 가 나온다고 하네요( v100에서는 더 빠를거라고 하네요 ). YOLOv7-E6 는 transformer-based detector SWIN-L cascade-Mask R-CNN 모델과 convolutional-based detector ConvNeXt-XL cascade-Mask R-CNN 모델 모두를 뛰어넘는 성능을 보여줍니다. 물론 Y..
[ 꼼꼼하게 논문 읽기 ] Towards Real-Time Multi-Object Tracking 안녕하세요 WH입니다 오늘은 2019 년도에 나온 논문을 리뷰해볼 생각입니다. 시작하기에 앞서 MOTR 성능이 생각보다 좋더라구요 몇몇을 조금만 건들면 tracking에서는 매우 좋아보였어요 이게 논문에 나온 성능이 아니라, 직접 서버에서 돌려보고 하는 말이라는 점은 안 비밀 다만, real time에 대한 아쉬움이 있어서 관련 논문을 정리해보는 시간을 가져보려고 합니다. Abstract modern MOT(multiple object tracking ) system은 대게 tracking-by-detecion paradigm을 따르죠. 이 시스템은 먼저 target localizaion을 위한 detection model 과 data association을 위한 appearance embedding m..
[꼼꼼하게 논문 읽기] Multiscale Vision Transformers 2 리뷰가 너무 늦어졌네요. 그렇지만 다시 이어서 해보도록할께요 오늘은 MViT architecture에 대해 다뤄볼껀데요 앞의 내용은 아래 글에서 확인하시길 바랍니다. 2022.06.09 - [AI 논문] - [꼼꼼하게 논문 읽기] Multiscale Vision Transformers 1 [꼼꼼하게 논문 읽기] Multiscale Vision Transformers 1 안녕하세요. WH입니다 오늘 리뷰해볼 논문은 2021 facebook에서 나온 논문인데요 Multiscale Vision transformers라는 논문입니다. 항상 해왔던 것 처럼 Related work까지 다루도록 할게요 Abstract MViT을 출시.. developer-wh.tistory.com Multiscale Vision T..
[ 꼼꼼하게 논문 읽기 ] NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE ( 2016 ) 안녕하세요. WH입니다 요즘은 너무나도 당연한 개념 중 하나인 attention에 관한 논문입니다. 이 논문이 오래되었음에도 정리하는 이유는 attention에 대한 생각을 다시 한번 정리하기 위함인데요 시작하겠습니다 Abstract neural machine translation 은 machine translation에서 approach로 제안되었습니다. 전통적인 statistical machine ranslation과 다르게, nerual machine translation은 translation performance를 최대화화 하기 위해 jointly하게 tuned 될 수 있는 single neural network를 building 에 목적을 둡니다. nueral machine translatio..
[ 꼼꼼하게 논문 읽기 ] End-to-End Object Detection with Transformers 1 안녕하세요. WH 입니다 오늘은 DETR에 대해 다뤄볼까합니다. Abstract object detection을 direct set prediction problem으로 보고 새로운 모델을 출시했다고 하는데요. 저자들의 approach는 detection pipeline를 간소화한다고 하는데요, 효과적으로 많은 hand-designed 된 구성 요소들을 제거한다고 하네요. 뭐 예로써, NMS나 achor generation과 같은 것들을 들어줍니다. newframwork( DETR )의 구성요소는 bipartite matching을 통한 unique prediction에 초점을 맞추는 set-based global loss와 transformer encoder-decoder architectur입니다. ..
[ 꼼꼼하게 논문 읽기 ] Attention Is All You Need ( feat. trasnformer ) 안녕하세요. WH입니다. 오늘은 매우 핫한 논문들의 base를 이루는 기초(?) 논문 리뷰입니다. 사실 다루지 않을까도 했는데 정리도 다시할 겸, 정리하겠습니다. 사실 이 논문을 정리하려면 seq2seq 논문이나 기타 정리해야할 논문들이 있습니다만.. 생각 좀 해보겠습니다. computer vision에 transformer가 architecture가 적용되면서 한번은 리뷰하면 누군가는 보지 않을까하는 생각에 리뷰합니다. 이 블로그에서 정리한 논문 중에는 정확히는 기억이 나질 않지만 Vivit, Vit( 이걸 다뤘나요 ? ), MTV 등이 있겠지요. 물론 이 논문은 자연어 처리와 관련된 논문입니다만, CNN을 모르고 computer vision을 한다는 것이 말이 되지 않는 것처럼 요즘 나오는 archi..
[ 꼼꼼하게 논문 읽기 ]MOTR : End-to-End Multiple-object Trackin with Transformer 안녕하세요. WH입니다 오늘은 MOTR에 대해서 알아보는 시간을 가져보겠습니다 Abstract objects의 Temporal modeling은 MOT의 key challenge인데요. 현존하는 methods는 motion-based 와 appearance-based 유사도 heristics를 통해 detections를 associating 함으로써 track하는데요. association의 post-processing 특성은 비디오 seauence에서 temporal variations의 end-to-end 이용을 prevent합니다. 이 논문에서는, MOTR를 제안하는데요. DETR의 확장판입니다. 전체의 비디오에서 tracked instances를 모델링하기 위해 track query를 소개합니다...
[꼼꼼하게 논문 읽기]Bytrack: Multi-Object Tracking by Associating Every Detection Box ( 2022 ) 안녕하세요. WH입니다. transformer 관련 논문 하나와 tranfer learning 논문 리뷰를 마무리하지 못한 체 넘어오게 됐는 데, 곧 마무리 하겠습니다. 오늘은 22년 4월에 나온 tracking 관련 논문입니다. 시작하겠습니다. Abstract Multi-object tracking( MOT ) 는 비디오에서 objects의 identities와 bounding box를 추정하는 것을 목적으로 하는데요. 많은 방법들이 scores가 threshold보다 높은 detection boxes를 associating함으로써 identities를 얻습니다. 낮은 scores의 objects는 버려집니다. 이 과정은 non-negligible true object missing과 fragmente..