본문 바로가기

반응형

전체 글

(159)
[꼼꼼하게 논문 읽기] Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose ( 2018 ) GCN을 우선 활용해보려면 다음과 같은 과정이 필요하죠 real stream으로 video를 받고 해당 frame에서 keypoint를 뽑은뒤에 해당 matadata를 쌓고 그 data를 GCN에 넣어 추론 후에 해당 inference를 활용해야하죠 이게 말이 쉽지.. 임베디드에서는 진짜로 욕이나옵니다. 여튼 해야되니까 찾아봅시다 뭐라도 되겠죠하다보면 글을 못썻던 이유는 위의 일을 하느라 좀 늦어졌네요 드디어 pose estimation model을 확보했네요 license부터 따져야 될게 많아서.. 그것보다 하드웨어에서 돌아가게 했던게 쉽지가 않았어요.. 여튼 시작해봅시다. Abstract multi-person pose estimation architecture를 adapt하였고 이 architect..
[꼼꼼하게 논문 읽기]Action as Moving Points (2020) action recognition이 high task이다 보니 여러 방면에서 접근이 많네요. GCN 계열을 많이 봤었는데, 차이점들을 명확하게 할 필요가 있겠네요 각 장,단점도 알아야겠고요 이번에는 GCN 기반이 아닌 논문을 볼게요 Abstract existing action tubelet detectors는 heuristic anchor design 과 placement에 의존하죠. 이는 computationally expensive 하고 precise localization에 대해 sub-optimal 하죠. 이 논문에서는, 저자들은 conceptually simple 하고 computationally efficient 하며 더 precise action tubelet detection framwor..
[꼼꼼하게 논문 읽기]Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition ( 2019 ) 오늘도 역시 action Recognition 과 관련된 논문입니다. skeleton based model일텐데 한번 봅시다. Abstract skeleton-based action recognition에서 GCN은 human body skeleton을 spatiotemporal graphs로 model 하죠. GCNs는 remarkable performance를 달성했고요. 그러나 existing GCN-based methods는 graph의 topology를 manually하게 set하죠. 그리고 all layers와 input samples에 걸쳐 fixed 되죠. 이것은 action recognition task에서 hierarchical GCN과 diverse samples을 위한 optimal..
[꼼꼼하게 논문읽기]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting( 2017 ) 이번 논문은 st-gcn이죠 action recognition을 하는데 왜 갑자기 traffic forcast냐 이 archietecture가 중요하기 때문이죠 Abstract 적시에 정확한 traffic forecast는 중요하죠. high nonlinearity 와 traffic flow의 complexity, traditional methods는 mid-and-long term prediction task 의 requirements를 만족시키지 못하죠. 종종 spatial and temporal dependencies를 무시하기도 하고요. 이 논문에서, 저자들은 Spatio-Temporal graph Convolutional Networks (STGCN)을 제안합니다. traffic domain에서..
[꼼꼼하게 논문 읽기] Multi-Scale Spatial Temporal Graph Convolutional Network for Skeleton-BasedAction Recognition ( 2022 ) 시작하기에 앞서 action recognition는 conv를 사용하는 부류와 transformer를 사용하는 부류가 있죠 그 중에서 conv를 사용하는 줄기는 다시 3 줄기의 stream로 나뉩니다. 3D conv를 사용하는 stream, temporal과 spatial을 나누는 stream 그리고 GCN을 이용하는 stream이죠 위에서 언급한 stream들은 현재 하드웨어에서 사용이 불가능해요.. 해당 하드웨어사의 API로만으로 가속기에 mapping할 수가 없거든요 여튼 이번글에서는 GCN과 관련된 stream을 보도록하죠 Abstract Graph convolutional networks는 skeleton-based action recognition에 광범위하게 사용되죠. 이는 non-Eucli..
[꼼꼼하게 논문 읽기] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ( 2016 ) 여기서는 초록이랑 method만 리뷰하겠습니다. 아이디어가 궁금한것이니까요. 이전 글의 토대가 된 논문이기에 이전 글을 참고하시고 싶으면 아래 링크를 봐주셔도 될것 같아요 2022.09.19 - [AI 논문] - [꼼꼼하게 논문 읽기]Hidden Two-Stream Convolutional Networks for Action Recognition ( 2018 ) [꼼꼼하게 논문 읽기]Hidden Two-Stream Convolutional Networks for Action Recognition ( 2018 ) 이제 천천히 action recognition으로 한번 가봅시다 optical flow도 확보되었겠다 시작해볼게요 Abstract human actions의 videos를 Analyzing 하는 ..
[꼼꼼하게 논문 읽기]Hidden Two-Stream Convolutional Networks for Action Recognition ( 2018 ) 이제 천천히 action recognition으로 한번 가봅시다 optical flow도 확보되었겠다 시작해볼게요 Abstract human actions의 videos를 Analyzing 하는 것은 video frames 중에 temporal relationships를 이해하는 것을 포함하죠. SOTA action recognition approaches는 CNNS을 위한 pre-compute motion imformation을 pre-compute한 traditional optical flow estimation methods 의존하죠. ( 사실 당시까지만 해도 성능이 안나옵니다만 여튼 ) 이런 two-stage approach 는 computationally expensive, storage dem..
[꼼꼼하게 논문 읽기] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow ( 2020 ) 안녕하세요. WH입니다. RAFT 라는 모델에 대한 opticalflow estimation model인데요 2022 기준 SOTA 모델은 RAFT의 변형이 많기에 토대를 이루는 논문을 읽어보도록할게요 Abstract 저자들은 Recurrent All-Pairs Field Transforms (RAFT)를 도입합니다. 이는 optical flow를 위한 새로운 deep network architecture죠. RAFT는 per-pixel features를 추출하고 pixels의 all pairs에 대한 multi-scale 4D correlation volumes를 만들죠. 그리고 반복적으로 flow field를 recurrent unit을 통해 업데이트하는데, 이 unit은 correlation vou..