본문 바로가기

반응형

AI 논문

(59)
[ 꼼꼼하게 논문 읽기 ]YOLOv9: Learning What You Want to LearnUsing Programmable Gradient Information ( 2024 ) 논문이 나온지 꽤 되었는데, 이제야 review를 하네요. 시작할까요? Abstract 오늘날의 deep learning methes는 가장 적절한 objective functions을 설계하는 데 집중하는데 이는 모델의 예측 값이 정답에 가깝게 만들어 줄 수 있도록 하기 위해서죠. 동시에, 예측값을 위한 충분한 정보의 습득이 가능한 적절한 아키텍처가 설계되어야 하죠. 지배적인 방법들은 입력 데이터가 layer-by-layer extraction 과 spatial transformation을 지나갈 때, 많은 양의 정보가 소실될 수 있다는 사실을 무시합니다. 이 논문은 data가 deep network를 통해 전달될 때, data loss 문제를 깊게 파헤칩니다. 즉, information bottlen..
[ 꼼꼼하게 논문 읽기 ] Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection ( 2022, cvpr ) 얼마만에 쓰는 건지 참 시간이 너무 빨리 가네요. 그래도 본업에 충실하느라 조금은 늦었지만 조금..? 조금이라 치고 오늘 다뤄볼 논문은 최근 나름 활발하게 연구가 진행되는 분야입니다. HOI 분야인데 nividia jetpack 6 정식 릴리즈에서 활용될 가능성이 있으니 준비는 해놔야겠죠? 시작해보겠습니다. Abstract Human-Object interaction detection 기술은 trasnformer 기반 detector에 영향을 받아왔죠. 그럼에도 불구하고 transformer 기반 detector들 parametric interaction을 vnailla Transformer를 통해 one-stage 방법으로 HOI predictions의 set에 직접 map하죠. 이는 내부 혹은 상호 ..
[꼼꼼하게 논문 읽기] Scene Text Recognition with Permuted Autoregressive Sequence Models ( 2022 ) Abstract Context-aware STR methods는 전통적으로 internal autoregressive( AR ) laguage models ( LM )이죠. AR의 본질적인 한계는 two-stage methods가 나오도록 했는데, external LM을 사용하는 것이죠. external LM의 conditional independence는 정확한 예측을 잘못하여 교정하는 현상을 야기할 수 있습니다. 저자들의 PARSeq는 Permutation Language Modeling을 사용하여 공유하는 weights를 활용해 internal AR LMs의 ensemble을 학습합니다. 이는 context-free non-AR 과 context-aware AR inference를 단일화하죠. 그리..
[꼼꼼하게 논문 읽기] DVIS: Decoupled Video Instance Segmentation Framework ( 2023 ) 23년 6월 6일에 나온 논문입니다. 요즘 너무 정신이 없었어요. 개발도 개발이고 출장도 다녀왔고 그래서 오랜만에 올리는것 같네요. real time으로 될까하는 의문은 있지만 아마 online method가 있는것으로 보아 활용가능할 것으로 보이긴해요 다만 많은 tuning이 필요하겠지만 말이죠. 여튼 함께 보시죠. Abstract Video instance segmentation( VIS )는 자율주행 그리고 video editing 과 같은 다양한 분야에서 매우 중요한 task 입니다. 현존하는 methods는 종종 현실에서 복잡하고 긴 비디오에 대해 성능이 떨어지는 데, 주로 두 가지 이유 때문입니다. 먼저, offline methods는 tightly-coupled modeling paradig..
[꼼꼼하게 논문 읽기]Continual Test-Time Domain Adaptation(2022) Abstract Test-time domain adaptation은 source pretrained model을 target domain에 source data 없이 adapt하는 것을 목적으로 합니다. 현존하는 연구는 주로 target domain이 static한 경우를 고려합니다. 그러나, real-world machine perception systems는 non-stationary 으로 동작하고 target domain distribution이 시간에 따라 지속적으로 변하죠. 현존하는 모델은 대게 self-training과 entropy regularization에 기반하는데 이런 non-stationary한 환경으로부터 어려움을 겪습니다. target domain에서 시간에따라 distribut..
[ 꼼꼼하게 논문 읽기 ]MobileInst: Video Instance Segmentation on th Mobile( 2023 ) Abstract video instance segmentation 을 위한 최근 연구들이 유망한 결과들에 도달했지만, 이 방법들은 real-time applications 에 적용하는 것을 아직도 어렵죠. (1) 많은 계산량과 memory cost 문제 (2) tracking objects를 하기 위해 복잡한 complicated heuristics 때문이죠. 이들 문제를 다루기 위해, 저자들은 MobileInst 를 제안하는 데, lightweight 하기 mobile-friendly한 framework인데 video instnace segmentation을 위한 framework이죠. 아 물론 mobile device에서요. 먼저, MobileInst는 mobile vision transformer를..
[ 꼼꼼하게 논문 읽기 ]CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNINGCAPABILITY OF CNN ( 2019 ) 원래 이렇게까지는 안하는데... csp를 구현해야할 부분이 있어서, 이번에는 논문 리뷰 후에 cspdarknet53 코드를 분석하는 시간을 가져볼게요..코드 분석은 다른 곳에 올릴 예정입니다. 최적화하는데 적용해야할 부분이 있어서 적용을 해보려고 합니다. 여튼 시작하시죠 Abstract Neural networks는 object detection같은 vision tasks 에서 믿을 수 없는 결과를 달성하게하는 SOTA approaches를 가능하게 해왔죠. 그러나, 이런 굉장한 성공은 omputiation resources에 의존적이죠. 이는 advanced technology를 appreciating하는 cheap devices를 가진 사람들에게 방해 요소였고요. 이 논문에서 저자들은 Cross St..
[꼼꼼하게 논문 읽기]EcoFormer: Energy-Saving Attentionwith Linear Complexity ( 2023 ) Abstract transformer는 deep learning을 위한 trasformative frameworks 죠. sequential data를 models하고 다양하고 광범위한 분야에서 remarkable performance를 달성했죠. 그런데, high computational and energy cost의 가 항상 문제죠. efficiency를 향상시키기 위해, popular choice는 models를 compress하는 것이죠. 이는 binarization을 통해 가능한데 floatingpoint values를 binary ones로 제한하죠. bitwise 연산이 상당히 cheap하기 때문에 resource consumption을 절약하기도하고요. 그렇지만, 현존하는 binarizat..