본문 바로가기

AI 논문

[꼼꼼하게 논문 읽기]Person Re-identification in the wild(2017)

728x90
반응형

안녕하세요. WH입니다.

오늘은 re-identification 관련 논문입니다.

re-identification은 tracking에서

object의 id에 관한 개념인데요. 함께 보시죠

반응형

Abstract

  이 논문은 새로운 large-scale dataset과 raw video frame에서 end-to-end pedestrian detection과 person recognition에 대한 comprehesive baseline을 보여준다네요. 저자들의 baseline은 3 가지 issues를 다룹니다. :   detector와 recoginizers의 various combinations에 대한 성능, overrall re-identification 향상을 도와주는 pedestrian detection에 대한 mechanisms, re-ID 에 대한 다른 detectors의 effectiveness assessing과 accuracy 이죠.  저자들은 3가지 명확한 contribution을 했습니다. 먼저. 새로운 데이터셋을 제공합니다. PRW은 Person Re-identification in the wild를 평가하기 위해 사용됩니다. six near-synchronized camera로 습득된 비디오를 사용하죠. 932개의 identities와 bounding box positions와 identities로 annotated된 11,816 frames를 포함합니다. 이 dataset에 대한 extesive benchmarking results가 제시되었죠. 두 번째, 저자들은 pedestrian detection은 two simple yet effictive improvements를 통해 re-ID가 제공되었습니다. : detection model를 train하고 나서 classification model를 train하는 cascaded fine-tuning strategy, 그리고 detection scores를 similarity measurement 에 통합한 Confidence Weighted Similarity( CWS ) metric 이죠. 세 번째, accurate person re-ID의 particular scenario에 대한 detector performance를 평가하는 데에 있어 insights를 제공합니다.

 

Introduction

  theme parks에서 Automated entry와 retail systems, 공항에서 passenger low monitorin,  자율 주행 및 감시를 위한 behavior analysis는 a few applications입니다. camera network에 걸친 person의 detection과 recognition은 중요한 insights를 제공할 수 있죠. 아직, 이 두 가지 문제는 독립적으로 computer vision에서 연구되어 왔죠. person re-identification ( re-ID )는 video sequence에서 query person ID의 occurrences를 찾는 것을 목표로 합니다. SOTA datasets와 methods는 predefined bounding boxes, hand-drawn이나 automatically detected로 부터 시작되죠. 반면에, 몇몇 pedestrian detectors는 benchmark dataset에서 놀랄만한 성능을 보여주죠. 그러나 소수의 analysis가 person re-ID를 사용할 수 있는지에 대해 알 수 있죠.

  이 논문에서, 저자들은 dataset과 practical person re-ID in the wild에 대한 baselines을 제안합니다. 이것은 detection와 recognition의 sequential application을 넘어서죠. 특별히, 저자들은 이전 연구에서는 고려되지 않았던 problems의 세 가지 측면을 다룹니다. 먼저, 저자들은 various detection과 recognition methods의 combination에 대한 효과를 분석합니다. 두 번째, 저자들은 detection이 re-ID accuracy와 outline methods의 성능 향상에 도움이되는지를 연구합니다. 세 번째, 저자들은 re-ID accuracy에 대해 maximal gain을 얻을 수 있는 detector를 위한 choice를 연구합니다.

  Current datasets는 person detection과 re-ID의 combined evaluation을 위한 annotations이 부족한데요. Pedestrain detection datasets, ( Caltech or Inria )은 typically ID anntotations가 없죠. 특히 multiple cameras에 대한 건 더 없고요. 반면에, person re-ID datasets( VIPeR or CUHK )는 complete video frames 없이 cropped bounding boxes를 제공합니다. 이런 이해를 바탕으로 봤을 때, detection과 overall re-ID를 평가하는 large-scale dataset은 필요하죠. 이것을 다루기 위해, section 3은 932개의 identities로 구성되고, 11,816개의 frame에 걸쳐 bouning boxes를 가진 PRW라 불리는 새로운 large-scale dataset을 보여주죠. 이 dataset은 annotations와 extensive baselines가 함께 제공되죠. 이는 person re-ID accuracy에 대한 detection과 recognition의 impacts를 평가하죠.

  Section 4에서는, R-CNN( AlexNet, VGGNet, 그리고 ResidualNet 등 다양한 convolutional neural network 를 가지는)

과 같은 SOTA detector를 학습하기 위한 PRW dataset의 volume을 사용합니다. 몇몇 유명한 descriptors와 distance metrics는 person re-ID를 고려하죠. 그러나 저자들의 joint setup은 두 가지 improvemnets를 제공합니다. 먼저 저자들은 PRW에 의해 제공되는 detection data의 full use를 하기 해주는 cascaded fine-tuning strategy를 제안합니다. 이는 improved CNN embeddings가 되죠. Two CNN variants는 fine tuning strategies에 관해 유도됩니다. 두 번째, 저자들은 CWS( Confidence Weighted Similarity ) metric을 제안합니다. CWS metric은 detection score와 통합되죠. false positive에 lower weights를 할당하는 것은 gallery size에서 detector use가 증가하기 때문에 re-ID accuracy가 drop하는 것을 방지합니다.

  detection과 re-ID를 동시에 평가할 수 있는 PRW 과 같은 dataset이 주어지면, two task 간의 어떤 complementaritu인지 고려하는 것이 자연스럽죠. particular re-ID method에 관해, better detector가 better acuuracy를 야기한다는 것이 직관적입니다. 하지만 저자들은 detector가 better하다고 결정하기 위한 기준은 application-dependent하다고 주장하죠. 이전 연구들은 AP나 IoU>0.5에서 Log Average Miss Rate를 사용하죠. 그러나, PRW에서 benchmarking을 통해서 저자들은 IoU>0.7이 더 effective rule이라는 것을 찾아냅니다.( re-ID accuracy에 대한 detector 영향을 나타내기 위해서는 말이죠 ) 다른 말로하면, localization ability가 re-ID에서 중요한 역할을 합니다.

 

  Figure 1은 이 논문에서 논의된 end-to-end re-ID system의 pipline을 나타냅니다. raw video frames로부터 시작해서, pedestrain detector에 의해 만들어진 gallery가 나타나죠. query person-of-interest가 주어지면, gallery boinding boxes는 순위가 매겨집니다. query에 대한 similarity에 따라 말이죠. 요약하면. 저자들은 아래와 같은 contribution을 했습니다.

    

    1. 새로운 large-scale dataset, Peson Re-identification in the Wild( PRW ), person detection과 re-ID 분석을 동시에 고려

        하도록 해주죠.

    2. PRW dataset에서 SOTA detection과 recognition methods의 comprehensive benchmarking

    3. re-ID를 detection에 적용할 novel insighs, 이는  그들이 사용되는 방법을 설명하는 effective fine-tuning strategy와

        similarity measure로 보여줍니다.

    4. person re-ID의 application에 대한 pedestrian detectors의 evalution 에서의 새로운 insights

Related Work

  An overview of existing re-ID datasets

  최근, person re-ID datasets의 많은 수가 나왔다고 하는데요. tabel 1에서 볼수 있듯이 IDs와 boxes가 함께 존재하죠.

이들 중 약간의 차이에도 불구하고, common property는 pedestrains는 hand-drawn 이거나 detecotors를 사용해 얻어진 pre-defined bounding box 가지고 confined된다는 점이죠. PRW은 이전 연구로부터 follow-up된 것이며 scratch로 부터 persion re-ID를 위한 entire pipeline을 고려할 것을 요구하죠.

  Pedestrain detection

  최근 pedestrain detection 연구들은 "proposal+CNN"( 예전 이니까요 ) approach의 특징을 가지죠. pedestrain detection은 대게 weak pedestrain dectector를 proposal로 사용합니다. impressive progress에도 불구하고, person re-ID가 application에 거의 고려되지 않았죠. 이 논문에서는 detection이 re-ID에 도움이 되는 방법을 결정하기를 시도하고 detector performance assessing하는데 insights를 제공합니다.

  Person re-ID

  person re-ID에서의 proress는 deep learning에서 지속적으로 일어나는데요. 몇몇 연구는 learning features와 metric에 초점을 맞추죠. CNN framework에서요. person re-ID를 ranking task로 공식화하는 것은, image pairs 나 tripletes를 CNN의 입력으로 줍니다. identification model을 사용한 deep learning은 더 높은 accuracy를 결과로 보여주죠. ID 당 training data의 충분한 양을 가지고, 저자들은 CNN embedding을 학습하는 identification model에 적용했죠.

  Detection and re-ID

  end-to-end system에 초점을 맞춘 두 가지 연구가 있답니다. 한 연구에서는, photo albums의 persons가 detected되는데 poselets을 사용하죠. recognition은 face와 global signatures를 사용해 수행합니다. 그러나, setting은 person re-ID에 대한 것이 아니죠. pedestrains는 surveillance cameras로 확보되었고 face는 충분히 clear하지 않았죠. 다른 연구는 pedestrain commonness와 uniqueness를 동시에 모델링하고 query와 each sliding window 간의 similarity 계산합니다. 이 연구가 214개의 video frame로 구성되어 있기때문에, efficiency issue를 가지고 있죠.

The PRW Dataset

  Annotation Description

  vidoes는 Tsinghua university에서 수집되었습니다. 총 10 시간 이죠. 이것은 한 application을 모방하는 것을 목표로 하는데요. 해당 application에서는 person-of-interest가 short duration에 대해 current camera의 field-of-view에서 나가고 nearly cameras로 부터 located 되죠. 6 개의 cameras가 사용됩니다. 5 개는 1080 x 1920 HD 이고 하나는 576 x 720 SD이죠. 각 camera로 부터 captured된 video는 25 frmaes로 annotated됩니다. 저자들은 먼저 bounding box를 all pedestrain에 대해 draw합니다. all pedestrians는 frames에서 나타나고 ID가 할당되죠. all pedestrians가 boxed되기 때문에, person's ID 에 관해서는 확신할수가 없죠. 그런 애매한 것에는 -2를 할당합니다. 이 ambiguous boxes는 detector training과 testing에 사용되죠. 그러나 re-ID training과 testing에는 제외되죠. Figure 2와 Figure 3은 annotation interface와 sample detected boxes를 보여줍니다.

  총 11,816 frames가 43,110 pedestrian bounding boxes를 얻기 위해 annotated되었는데요. 34,304 pedestrians가 1부터 932 범위의 ID를 가지고 annotated되었습니다. 나머지에는 -2가 할당되었죠. Table1에서, 저자들은 PRW을 여러 카테고리로 비교했죠. 특히 저자들은 all the subjects를 densly하게 label 했기 때문에, each identity에 대한 boxes의 수가 Market-1501에 거의 두배죠. 게다가, gallery를 형성할때, detectors는 100k-500k boxes를 threshold에 따라 생성하죠. 이 distinctive feature은 person re-ID system에서 end-to-end evaluation인데요. 이 dataset은 original video frames를 제공하는데, hand-drawn ground truth bounding boxes를 가지고 있죠. 그리고 이 bounding boxes는 pedestrian detection과 person re-ID 모두를 evaluate하게 해주죠. 그러나 더 중요한것은, PRW은 person re-ID에 pedestrian detection의 influence를  assessing할 수 있도록 해줍니다.이것은 이전 연구에서는 거의 고려되지 않았지만 실용적 applications에서 great interest 한 topic 이죠.

Evaluation protocols

PRW datasetts는 5702 개의 fames와 482 개의 ID가 training set으로 6112 frames와 450 ID가 test set으로 되어 있죠. 저자들은 이 split을 선택했는데요. training set과 test set에서 ID가 최소로 겹치기 때문이죠. Table 2에서 자세하게 말한다고 하네요. 함께 볼까요?

  Pedestrain Detection

pedestrian dataset이 꽤 있죠. INRIA, Caltech 그리고 KITTI datasets입니다. INRIA dataset은 1805개의 128 x 64 사이즈 pedestrain images를 personal photos로부터 잘라냅니다. Caltech dataset은 350k bounding boxes를 132k frames로 부터 제공하죠. KITTI datasets는 pedeestrain class에 대한 80k labels를 가지고 있죠. annotations 수에 관해서, PRW 는 ( 43k boxes )는 medium-sized datset입니다. training과 testing splits는 table 2에 언급되어 있죠. KITTI의 protocols를 따라 저자들은 PR curve를 사용했습니다. 그리고 detection performance를 평가하기 위해 AP를 사용하죠. 저자들은 또한 log-average miss rate ( MR )을 보여줍니다. 전자는 [0 , 1] 범위로부터 uniformly sampled 된 ten recalls에 관해 AP를 계산합니다. 반면 MR은 9 False Positive Per Image( FPPI )에서 average miss rate이죠. 이는 Figure 4에서 확인할 수 있습니다. 

  Person Re-identification

good re-ID system은 two characteristics를 처리합니다. 먼저, 모든 pedestrians를 각 frame에서 정확하게 localized 하죠. 즉 100% recall 과 precision을 뜻하죠 ( 사실 가능한지 모르겠습니다. trade-off인데 각각 100% 라니요. 뭐 이상적으로는 그렇다라는 거지만요) 두 번째, probe pedestrain 이 주어지면, disjoint cameras에 의해 captured된 same person의 all instance를 top-ranked results 중에서 retrieved 합니다.

  Re-ID 는 1:N process입니다. 반면에, queries는 hand-drawn bounding boxes에 의해 생성되죠. 실제적으로, 많은 시간과 노력이 필요하죠. 각 ID에 대해서, 저자들은 one query를 각 camera에서 선택합니다. 전체적으로, 저자들은 2057개의 query images를 450 개의 ID에 대해 test set에 가지고 있죠. 평균 4.57개 이고, ( queries/ID ) 최대 6개 이죠. 반면에 "N"은 database나 gallery를 표기합니다. PRW과 기존 traditional re-ID datasets의 차이는 PRW에서의 gallery는 pedestrain detectors의 setting이 다양하다는 것이죠. 심지어 같은 detector라고 detection threshold를 다양하게 하는 것은 다른 galleries size를 야기할 수 있죠. good detectors는 다른 properties를 가진 galleries를 생성합니다. good detector는 database를 small하게 유지하면서 person-of-interest를 recall 할 수 있도록 해줍니다.

  gallery boxes의 IDs는 ground truth boxes와의 IoU scores에 의해 결정되는데요. object dtection에서 practice에 따르면, IoU 0.5 이상의 detected boxes 에만 ID가 부여되죠. 반면 0.5 보다 낮은 IoU를 가진 boxes는 distractors로 결정합니다. 이제, image I query와 specific detector에 의해 생성된 gallery G가 주어졌다고 가정해봅시다. ranking result을 얻기 위한 query와 all gallery box 간의 similarity 계산합니다. 여기에는 two metrics가 사용되는데요. re-ID acuuracy 를 평가하기 위해서 말이죠. mAP인데 all queries' Average Precision과 rank -1, 10, 20  accuracy를 뜻하죠. 이는 top -1, 10, 20 ranks 안에서 적어도 하나의 ture positive를 위치할 가능성을 표기하죠.

  pedestrian detection을 결합해서, 저자들은 end-to-endID performance를 나타내는 image당 average number of detected boxes에 대비하여 mAP를 그립니다.  개념적으로, 이미지당 적은 detection boxes를 가지면, detection은 정확하겠죠. 그렇지만 recall은 낮을겁니다. 그래서 small mAP가 나오게 되겠죠. 더 많은 boxes가 detected 된다면, gallery는 false positve detection의 수가 증가되어 채워지게되겠죠. 그러면 mAP는 처음에는 증가하죠. higher recall 때문에요. 그렇지만 그 뒤에는 distractors의 영향으로 감소하게 되겠죠.

Base Components and Our Improvements

Proposed Improvements

  Cascaded fine-tuning strategy

  ( 챕터 하나는 너무 옛날 내용이라 생략했습니다 ) IDE descriptor는 fine-tuned되었습니다 Maket-1501 dataset을 사용해서 말이죠. 이 연구에서, 저자들은 IDE_imgnet 이라고 이 descriptor를 부르겠답니다. 그리고 competing method로 다루겠답니다. 제안된 cascaded fine-tuning strategy에 대해, 저자들은 다른 fine-tuning step을 기존 방법에 추가했다고 합니다. 저자들은 먼저 2-class recognition model을 detection data를 사용해서 train하고( pedestrain을 포함하는 여부 판단 ) 그러고 난 다은 482-class 에 대해 PRW dataset을 활용하여 학습시켰다고합니다. 이 과정을 cascaded fine-tuning이라고 한다네요. cascaded fine-tuning strategy를 통해, 학습된 descriptor는 background와 pedestrain에 대해서 더욱 잘 볼수 있다고 합니다. 

  Confidence Weighted Similarity

  이전 연구는 all gallery boxes를 equal하게 다뤘는데요. 즉 query로 그들의 similarity를 추정했죠. 이것은 문제를 야기합니다. background에 대해 fasle detectoins가 populated될 때, re-ID accuracy가 감소합니다. 물론 gallery size도요. 직관적으로 fasle positive detections는 낮은 weights를 받게 하면 re-ID accuracy에 영향을 줄일 수 있게 될겁니다.  구체적으로 detector confidence는 [0,1]로 normalized되어 있죠. 두 descriptors 간의 cosine distance를 계삽합니다. normalized confidence를 곱하기 전에 말이죠. IDE feature은 FC7로 부터 추출되죠.( AlexNet을 썼다네요.. 다루는게 맞나 싶습니다 이내용 ㅎㅎ ) 따라서 negative entries 는 IDE vector에 없죠. cosine distance는 IDE vector에서 non-negative로 남아있죠. 그리고 detection scores로 compatible하죠.

 

이 논문은 여기까지 다룰게요

오랜만에 너무 옛날 논문을 다뤘나봅니다 ㅎㅎ

쓰면서도 맞나 싶네요 ㅎㅎ

  

728x90
반응형