본문 바로가기

AI 논문

[ 꼼꼼하게 논문 읽기 ]SimpleRecon:3D Reconstruction Without 3D Convolutions ( 2022 )

728x90
반응형

안녕하세요 wh입니다.

말도 안되는 요구를 받았지만

요구를 받으면 해결해봐야지요.

그래서 필요한 논문을 가져왔습니다.

Abstract

  전통적으로, posed images로 부터 3D indoor scene reconstruction은 두 가지 방식으로 발생했죠: per-image depth estimation인데 이는 depth merging과 surface reconstruction이 뒤따르죠. 최근 family of mehtos는 final 3D volumeric feature space에서 직접 reconstruction을 perform해왔죠. 이 methods가 impressive reconstruction results를 보여주는 반면에, 이들은 expensive 3D convolutional layers에 의존해왔쬬. 이는 resource-constrained environments에서 application에 제한이 있었고요. 이 연구에서, 저자들은 traditional route로 돌아가, high quality multi-view depth prediction에 초점을 맞추는 방법을 보여줍니다. multi-view depth prediction은 highly accurate 3D recondstructions를 야기하죠. 이 때 simple off-the-shelf depth fusion을 사용하고요. 저자들은 simple SOTA multi-view depth estimator를 제안하는데 두 가지 contributions를 가집니다: 1) carefully-designed 2D CNN이죠. 이는 strong image priors를 plane-sweep feature volume과 geometric losses와 함꼐 사용하죠. 2) keyframe의 integration과 geometric metadata를 cost volume으로 combine합니다. 이는 informed depth plane scoring을 허용하죠. 저자들의 method는 depth estimation에 대한 SOTA 를 능가하고 3D reconstruction에 대해 ScanNet 나 7-Scenes에서 보다 더 좋거나 근접한 결과를 보여죠. 그러나, online real-time low-memory reconstruction이 가능하죠.

Introduction

  scene의 3D reconstructions를 generating하는 것은 computer vision에서 challenging합니다. 이는 robotic navigation, autonomous driving 등과 같은 task에 유용하죠.  전통적으로, 그런 3D reconstructions은 2D depth maps로부터 생성되죠. 2D depth는 multi-view stereo( MVS )를 사용해서 얻어지고요. 그러고나서 surface가 extracted된 것으로부터 3D representation로 fused되죠. deep learning에서 최근 advances는 convolutional methods가 multiple stereo images로부터 depth prediction에 대해 classical mehtods를 뛰어넘었죠. 이는 GC-Net과 MVS-Net이 이끌었고요. 이들 methods의 key는 3D convolutions의 사용인데, 이는 4D ( C x D x H x W ) cost volume을 regularize하고 smooth하죠. 실제로 좋은 성능을 내지만 time과 memory에 있어 매우 expensive하죠. 이 사실은 위에 언급된 nets들의 사용을 smartphones와 같은 lowpower hardware에서 방해할 수 있죠. LSTMs와 Gaussian processes를 활용해 depth accuracy를 향상한 recent depth estimators역시 마찬가지죠.

  ATLAS에 의해 시작된 이 연구의 new stream은 3D space에서 reconstruction을 직접 수행하는데 이는 truncated signed distance function을 4D feature volume 으로부터 predicing 함으로써 행하죠. 4D feature volume은 input images로부터 계산되고요. 다시, 이들 연구는 좋은 결과를 보여주지만 expensive 3D convolutions를 사용합니다.

   이 연구에서. 저자들은 basics로 돌아갑니다. 놀랍게도 SOTA depth accuracy를 얻을 수 있었는데 simple 2D CNN을 활용하는데 이는 cost volume으로 augmented되죠. 저자들의 방식은 off-the-shelf TSDF fusion을 사용한 3D scene reconstruction에서 competitive scores를 제공하죠. 물론 3D convolutions는 제거했고요. 저자들 methods의 key 는 ceahply aviailable metadata를 cost volume으로 새롭게 incorporation한것인데, depth와 reconstruction quality에서 상당한 향상을 보여줬죠. 메인 contribution은 2 가지로 1) keyframe과 geometric metadata를 cost volume에 multi-level perceptron ( MLP )를 사용하여 integration한 것이고 이는 informed depth plane scoring이 가능하게 하죠. 그리고 2) carefully-designed 2D CNN 인데  strong image priors를 plane-sweep 3D feature volume과 geometric losses와 함께 사용하죠. 저자들은 ' back-to-basic ' method를 최근 게제된 모든 methods와 challenging ScanNetv2 dataset에서 평가했는데, 평가 항목은  depth estimation과 3D scene reconstruction에 대해서이죠. 7-Scenes data에 대해 generalize한 결과를 Table 1에서 보여주고 footage를 casually하게 capture한 것을 Fig 6에서 보여주죠.

5

  novel cost volume meatadata를 better depth predictions를 보여주는 principled architectural decisions과 combining함으로써, 저자들은 3D convolutions와 연관된 computational cost 를 피할 수 있죠. 이는 embedded와 resource-constrained environments에서 잠재적으로 사용가능하게 합니다.

Related Work

  저자들의 method는 prior work과 관련이 있는데 stereo depth estimation, multi-view depth estimation 그리고 3D reconstruction 이 그 해당 관련 연구죠.

  Depth from calibrated Stereo Pairs

 depth를 estimating하기 위한 많은 methods는 images들의 calibrated stereo pairs를 사용하는 데 , 이는 disparity를 estimate하기 위함이고, 이는 camera parameters 와 camera positions 간의 intra-axial distance를 사용하여 depth로 translated하죠. Early methods는 patches를 compare하는데. optical flow estimation에서의 연구와 비슷하죠. 이는 GCNet에 대한 기초를 닦았죠. now-ubiquitous cost-volume-based depth estimation을 develop한 earlier plane-sweep stereo works를 기반으로 했고요. typical architecture은 input images로부터 feature extraction입니다. 그러고 나서 feature matching을 하고 cost volume으로 reduction되죠.  그 뒤에 따라나오는 convolutional layers는 final disparity 를 output합니다. Further imrovements는 cost volume을 post-processing하는 것이 포함됩니다. 이때 multiscale information을 활용하고 classical refinement methods와 spatial pyramid pooling을 모방한 carefully designed network layers를 통과하죠 . best results는 4D ( C x D x H x W ) cost volume에 대해 3D convolutions를 running한 것으로 부터 도출되죠. 이는 Chang et al.로 부터 개척되었고 해당 연구에서 제안된 network는 PSMNet이죠; PSMNet은 computationally expensive하죠. 더 attractive한 option은 feature dimension을 따라 reducing함으로써 3D cost volume ( D x H x W )를 create하는 것이죠. 2D convolutions를 meaning하는 것은 futher processing에 사용될 수 있습니다.; 그러나, 이는 depth quality의 expense로부터 기인하죠. 이 연구에서 저자들은 simple tricks와 clever reduction techniques를 활용해 3D cost volume을 가진 method는 existing 4D cost volume method를 depth estimation과 3D scene reconstruction 모두에 대해 뛰어넘는 방법에 대해 보여줍니다.

  Multi-view Stereo Depth

  Multi-View Steroe( MVS )는 more general problem이죠. 임의의 위치로부터 captured된 하나 이상의 additional source viewpoints를 사용하여 reference viewpoint에서 depth를 estimate하는 것을 목표로 합니다. reference 와 source views 모두에 대해 camera intrinsics와 extrinsics의 Knowledge가 일반적으로 가정되죠. 그러나, structure-from-motion 이나 inertial 과 camera tracking을 사용한 on-line을 활용한 offline이 estimated될 수 있죠. 마치 ARKit나 ARCore에 의헤 provied된 것 처럼 말이죠. 

  Classical MVS methods는 depth map을 estimate하는 photometric consistency를 가진 patch matching을 typically 사용 뒤에  depth fusion과 refinement합니다. 반면에, early learning-based methods는 multiple viewpoints 로 부터의 dense image features를 entire scene을 representing하는 3D volumes로 backprojected 한 뒤에 fused 3D volume으로부터 voxel occupancy 나 surfacne probability를 predicted 하죠. 최근 methods는 binocular stereo matching techniques에 영감을 받아, 위들의 방법을 combine합니다. epipolar-geometry-consistent matching을 image pixels에 대해 수행하죠. 이런 methods 에는 MVDepthNet이나 DeepMVS가 있죠. 혹은 matcing cost volume을 produce하는 features를 extract하기도 하고요. 이런 methods는 DPSNet 이나 DeepVideoMVS 가 있습니다. cost volume은 dot product나 mean absolute difference를 사용해서 reduced 될 수 있습니다. 그런다음 convolutional layers를 활용해 processed되죠. Further works는 cost volume을 regularize하고  reference image feature를 사용하거나 gaussian process prior를 가지고 final output을 fefine 하는 additional scene information 을 incorporate합니다. occlusions와 moving objects를 고려하죠.  다른 연구는 multiple reference views를 combine하는 methods를 제안하는데요. DeepMVS에서 poolling을 하거나 DPSNet에서 feature volumes를 averaging하는 것과 같은 방식이죠. keyframe image values와 cost volume에서의 features의 사용과는 별개로, depth-estimation approaches는 temporal information을 다양한 방식으로 사용합니다. multiple frames에 걸쳐 volumes를 fuse하는 LSTM과 같은 것들이 있죠. 혹은 reprjection error의 test-time optimization을 활용하기도 하고요. 그러나 이런 모든 방법들은 color image의 input에서만 사용되죠. additional information을 discard하죠. 여기서 additional information에는 cost volume이 계산된 이후에 나오는 viewing direction이나 relative pose estimation 과 같은 것들이 있고요. 이 연구에서는, 저자들은 matching cost volume을 matching feature volume으로 extend합니다. 이는 readily-available metadata를 사용하는데 이는 higher-quality depth maps를 produce하죠.

    3D Scene Reconstruction from Posed views

  image로 부터 dense 3D reconstructions 를 creating하는 것을 위한 Classical methods는 dense depth per-view를 compute 이후에  Delaunay triangulation 이나 Poisson surface reconstruction과 같은 surface reconstrction합니다. seminal work Kinect Fusion은 depth-maps로 부터 real-time 3D scene reconstruction을 volumetric truncated signed distance field ( TSDF ) representation를 활용해 보여줍니다. mesh는 marching cubes를 사용해 얻어질 수 있고요. family of methods 은 이들에 대해 improved됩니다. larger scenes에 대해 more efficiently 동작가능하게 하고, moving objects를 다루거나 loop closure를 수행가능하게 하죠. 이들 모두는 real-time mapping의 key componet로써 TSDF fusion을 solidfied 하죠.

  Recent deep learning methods는 depth estimation을 포기합니다. 대신 2D image features를 keyframes로 부터 extracting하고 이들 feature를 3D space로 backprojecting하는 데 이는 4D feature volume을 produce하죠. In ATLAS, 그런 feature volume에 대해 3D convolutions가 scene을 위한 TSDF를 regress하기 위해 사용되죠. 이는 나온 SOTA learning based MVS에 대해서 reconstruction quality를 상당히 improved뒤이어  traditional TSDF fusion이 나오죠. NeuralRecon 은 corase-to-fine manner에서 RSDF를 refine하는 확장된 방식입니다. recurrent layers를 사용합니다. 반면에 TransformerFusion 과 VoRTX는 performance를 더욱 향상시키는데 feature matching을 학습하기 위해 transformers를 사용하죠. 최근 methods는 3D encoder-decoder을 가지고 volumetric reasoning을 MVS reconstrction과 combining하는 것을 제안합니다; 3DVNet의 case의 경우 반복적으로 사용하고 VolumeFusion의 경우 pose-invariant 3D convolutional layers를 사용하죠.

  이 방법들이 high-quality reconstructions를 produce하지만, 3D convolutions, transformers or recurrent layers의 사용은 computionally expensive 하고 memory-intensive하죠. 게다가, 위 방법들은 whole scene TSDF를 한번에 예측합니다. 이는 real-time에서 사용이 불가능하게 합니다. 뿐만아니라 complex sparsification이나 progressive한 updates를 위한 attention mechanisms에 의존하죠.  반면에, 저자들의 연구는 simpler approach를 취합니다 : high-quality depth maps를 predicting하는것에 초점을 맞춘것이죠. efficient off-the-shelf TSDF fusion methods를 사용할 수 있고 예로는 Infinitam이 있죠. 이는 저자들의 method가 real-time 과 progressive 3D reconstructions를 low compute와 memory footprints 에서 achieve하도록 해주죠, 물론 accuray는 경쟁력이 있지만 3D convolutions의 사용은 없죠.

  Method

  저자들은 input으로 referecne image I^0를 취합니다. source images의 set I^n ( { 1, ... , N-1} 과 their intrinsics 와 relative camera pose역시 input이죠. training time에 저자들은 RGB image로 aligned된 ground truth depth map D^gt로 access를 assume하죠 ; test time에 저자들의 목표는 reference image에 대한 dense maps hat D를 predict하는 것이죠.

  Method Overview

  저자들의 depth estimation model은 monocular depth estimation과 plane sweep을 통한 MVS의 교차점에 위치합니다. 저자들은 cost volume을 가진 depth prediction encoder-decoder architecture를 augment합니다. Fig 2에서 보여지죠.

저자들의 image encoder는 cost volume으로 input을 위한 reference와 source images로부터 matching features를 extracts합니다. cost volume의 output은 2D convolutional encoder-decoder network를 사용해 processed되고 separate pretrained eimage encoder를 사용해 extracted 된 image level features를 가지고 augmented되죠.

  저자들의 key insight는 readily avilable metadata를 cost volume에 typical deep image feature과 함께 inject하는데 이는 network가 geometric 과 relative camera pose information과 같은 useful information에 access하는 것을 허용하죠. Figure 3은 저자들의 feature volume의 construction을 상세히 보여줍니다.

이전에 사용되지 않는 information을 incorporating함으로써, 저자들의 모델은 4D cost volume reductions, complex temporal fusion, or Gaussian processes를 위한 need 없이 depth prediction에 대해 기존의 methods를 뛰어넘습니다.

  저자들은 먼저 novel metadata component를 설명하고 이들이 network로 incorporated되는 방법에 대해 설명합니다. 그런다음 network architecture과 losses를 set out하죠.

  3.2 Improving the Cost Volume with Metadata

  traditional stereo techniques에서, typically ignored 되던 important information이 존재하죠. 이 연구에서, 저자들은 readily available metadata를 cost volume에 incorporate합니다. 이는 network가 informed manner로 viewsdp 따라 information을 aggregate하게 하죠. 이것은 extra feature channels를 appending 하는 것을 통한 explicityly와 specific feature ordering을 enforcing하는 것을 통한 implicitly 하게 수행되죠.

  저자들은 metadata를 network에 injecting할 것을 제안하는데 image-level features를 additional metadata channels를 가진 cost volume안으로 augmenting함으로써 injecting하죠. these channels는 cost volume을 build하는데 사용되는 images간의 3D relationship에 대한 information을 encode합니다. 이는 network가 particular pixel에 대해 depth를 estimating하기 위한 각 source image의 relative importance를 더 잘 설명하도록 하죠.

  저자들의 여기서 각 spatial location (k,i,j ) 에 대해, k는 depth palne index 이고 cost volume은 C x D x H x W dimension의 4D tensor입니다.  C dimensional feature vector를 가지고 있는데요. 이 vector는 reference image features f^0_k.i.j 와 warped source image features <f>^n_k,i,j의 set으로 이루어져 있죠. < > 은 features가 reference camera frame으로 따라나오는 metadata components와 함꼐 perspective-warped 됨을 나타내죠.

  Feature dot product

  reference image features와 warped source image features 간의 dot producti ( i.e. f^0 dot <f>^n ) 을 말하는데요. 이는 cost volume에서 only matching affinity로 흔히 사용되죠.

  Ray directions r^0_k,i,j and r^n_k,i,j ( R^3 )

  camera origins로부터 plane sweep에서 point ( k, i, j )의 3D location으로 nomalized direction을 말합니다.

  Reference plane depth z^0_k,i,j

  reference camera로부터 cost volume에서 position k,i,j에 point로 perpendicular depth를 말합니다.

  Reference frame reprojected depths z^n_k,i,j

  source camera n에서 cost volume에 position k,i,j 인 3D point의 perpendicular depth를 말합니다.

  Relative ray angles theta^0,n

  r^0_k,i,j 와 r^n_k,i,j 간의 angle을 말합니다.

  Relative pose distance p^0,n

  reference camera의 pose와 각 source frame 간의 relative pose distance의 measure을 말합니다 식은 아래와 같고요

 

 

  Depth validity mask m^n_k,i,j

  이 binary mask는 cost volume에서 point ( k,i,j )가 source camera n 앞에 projects될지 말지를 나타내죠.

 

  이들 features에 대한 overview는 Fig 3에 나타나있죠. each resulting f_k,i,j는 simple multi layer perceptron( MLP )에 의해 processed됩니다. 각 location ( k,i,j )에 대한 single scalar value를 outputting하고요. 이 scalar는 pixel i,j의 depth는 kth depth plane과 동둥할 likelihood의 initail estimate으로 여겨질 수 있죠.

  Metadata motivation

  저자들은 metadata-derived features를 cost volume에 appending함으로써 MLP가 각 pixel location에서 source frame의 contirubition 을 올바르게 wegiht하는 것을 learn할 수 있다고 주장합니다. pose distance p^s,n인 instance를 고려해보죠.; camera로 부터 멀리 떨어진 depths에 대해 , greater baseline을 갖는 source frames로부터 matching features는 more informative하다는 사실은 분명합니다. 유사하게, ray information은 occlusions를 설명하는데 유용할 수 있죠; reference frame으로부터 feature가 source frame으로부터 features와 일치하지 않고 camera rays 간에 large angle이 존재한다면, incorrect depth보다 occulusion으로 설명될 수 있죠. Depth validity mask는 network가 ( k,i,j )에서 source camera n으로 부터 trust features인지를 알도록 도와줍니다. network가 이런 종류의 정보에 접근하는 것을 허용함으로서, 이는 network에 multiple source frames로부터 information이 aggregating할 때 geometric reasoning 과 같은 것들을 conduct할 ability를 부여하죠.

  Implicit metadata incorporation

  explicitly하게 metadata를 extra features로 providing하기 위해, 저자들은 feature ordering을 통해 metatdata를 implicitly하게 encoding하는 것을 제안합니다. 이는 MLP networks의 inherent order dependence에 의해 가능게 되었죠. 저자들은 source features f^n을 stack함으로써 ordering을 choosing함으로써 exploit하죠. 저자들은 odering f^n을 frame pose distance p^s,n으로 advocate합니다. 이는 optimal keyframe selection을 effective하게 하죠. 이 ordering은 MLP가 pose distance와 feature relevance에 대해 prior를 학습하도록 하죠.

  저자들의 실험은 저자들의 network에서 metadata를 including함으로써 저자들은 extra feature channels를 통한 explicitly 그리고 feature ordering을 통한 implicitly하게 depth estimation accuracy에 significant boost를 얻을 수 있었죠. 이는 improved 3D reconstruction quality를 이끌기도 했고요. Table 4에 나타나 있죠.

previous works는 camera intrinsics와 monocular depth estimation을 위한 extrinsics와 관련된 tensors를 included 했지만, 저자들은 metadata의 사용이 multi-view-stereo depth estimation을 위한 novel innovation이라고 믿는답니다.

  Network Architecture Design

  저자들의 network는 2D convolutional encoder-decoder architectures에 기반합니다. 이런 networks를 constructing할때, important design choices가 있다는 것을 알았죠. design choice는 depth prediction accuracy에 significant improvements를 제공하고요.  저자들은 overall architecture을 simple하게 keep하는 것을 목표로하죠. GPs나 LSTMs와 같은 complex structures를 피하는 것도 목표이며 baseline model을 lightweight와 interpretable하게 만드는 것 역시 목표죠.

  Baseline cost volume fusion

  RNN-based temporal fusion methods가 종종 사용되는 데, 이 방법들은 system의 complexity를 significantly increase하죠. 저자들은 대신 baseline cost-volume fusion을 가능한 simple하게 만들었죠. 그리고 reference view와 each source view간 dot-product matching costs를 simply summing하는것이 SOTA depth estimation techniques와 competitive한 results를 d야기한다는 것을 알아냈죠.

  Image encoder and feature matching encoder

  Prior depth estimation works는 depth estimation의 task를 위한 more powerful image encoders의 impact를 보여줍니다. 이는 monocular 과 multi-view estimation 모두에서 해당하죠. DeepVideoMVS는 MnasNet을 image encoder로 이용하죠. 상대적으로 low latency를 위한 선택이었고요. 저자들은 still-small하지만 more powerful한 EfficientNetv2 S encoder를 사용합니다. image encoder를 사용하는 것이 increased parameter count의 cost와 10% slower excution을 야기하지만, depth estimation accuracy에 sizeable improvement를 보여주죠. 특히 Sq Rel 그리고 delta<0.5와 같은 precise metrics와 같은 것에 대해서는 더요.

  matching feature maps를 producing하기 위해, 저자들은 ResNet18의 first two blocks를 사용합니다. 이는 efficiency를 위함입니다. 저자들은 FPN을 가지고 실험했는데 속도 저하 대비 적은 성능향상을 보였죠.

  Fuse multi-scale image features into the cost volume encoder

  deep stereo와 multi-view stereo 기반 2D CNN에서, image features는 single scale에서 cost volume의 output에 combined되죠.

  최근, DeepVideoMVS는 multiple sacles에서 deep image features를 concatenating을 제안하죠. skip connecions를 image encoder와 cost volume encoder 간에 추가하는데 all resolutions에서 이뤄지고요. LSTM-based fusion network에서 helpful 한것이 보여졌지만, 저자들은 자신들의 architecture에 대해서도 유사하게 중요하다는 사실을 알아냈죠.

  Number of source images

  other methods는 additional source frames로써 diminishing returns 추가되는 것을 보여줬지만, 저자들의 method는 additional information이 더잘 incorporate하고 8 views까지 incorporate할 때 increased performance를 보여줬죠. each frame을 위한 additional metadata를 incorporating하는 것이 network가 final cost를 inferring할 때 각 frame's features의 relative weightings에 대해 more informed decision을 만들게 합니다. 반면, MVDepthNet, MVSNet, ManyDepth 그리고 ATLAS와 같은 methods는 each frame에 equal weight를 update동안 부여하고, lower-quality features를 가진 가장 useful한 information을 overwhelming하죠.

  Loss

   저자들은 MVS method와 monocular depth estimation techniques에 영감을 받아 geometric losses의 combination을 사용하여 training을 supervise합니다. 저자들은 loss function의 careful choice가 best performance를 위해 required된다는 사실을 발견했죠. 그리고 intermediat predictions를 lower output scales에서 supervising하는 것이 results를 substantially 하게 improve한다는 사실 역시 발견했죠.

  Depth regression loss

  log-depth를 사용한 densely supervise predictions를 따르지만 absolute error를 각 scale을 위한 log depth에 대해 사용하고 식은 아래와 같습니다.

  저자들은 저자들이 예측한 highest scale로 nearest neighbor upsampling을 사용하여 각 lower scale depth를 upsample하죠. pixel당, scale당, 그리고 batch당 loss를 average 합니다. 저자들의 실험은 scale-invariant formulation보다 더 잘 동작하는 loss를 찾았죠. much sharper depth boundaries를 producing하는 반면 higher fused reconstruction quality의 결과를 보여주죠.

  Multi-scale gradient and normal losses

  highest resolution network output에 대해 multi-scale gradient loss를 사용합니다. 식은 아래와 같고요

여기서 gradient는 first order spatial gradients이고 아래 방향의 화살표는 scale로 downsampling하는 것을 represents하죠. 저자들은 또한 simplified normal loss를 사용합니다. N은 normal map인데 depth와 intrinsics 를 사용해 계산되었죠. 식은 아래와 같습니다.

  Multi-veiw depth regression loss

  저자들은 ground-truth depth maps를 각 source view에 additional supervision으로써 사용하는데 이는 predicted depth hat D를 each source view로 projecting하고 all valid points에 걸쳐 log depth에 대해 absolute error를 averaging하는 방식으로 사용되죠. 식은 아래와 같습니다.

hat D^0->n 은 index 0의 reference image에 대한 predicted된 depth이고 source view n으로 projected되죠. 이는 위의 depth regression loss 에 대한 concept과 유사합니다. 그러나 simplicity를 위해 final output scale에 대해서만 적용되죠

  Total loss

   전체의 total loss는 아래와 같습니다.

alpha_grad = 1.0 = alpha_normals = 1.0, 과 alpha_mv = 0.2 를 가지고 validation set을 사용하여 실험적으로 선택되었죠.

  Implementation Details

  저자들은 PyTorch를 사용하여 method를 implemented합니다. 저자들은 EfficientNetV2 S backbone을 사용하고 UNet++와 유사한 decoder를 가졌죠. 그리고 matching feature extraction을 위해 ResNet18의 first 2 blocks를 사용합니다. 저자들은 AdamW optimizer로 100k step동안 train했고 ( 약 9 epoches ) 10^-4의 weight decay를 활용했죠. learning rate는 70k step동안은 10^-4이고 80k 까지는 10^-5이며 나머지는 10^-6으로 학습시킵니다. 두 개의 40GB A100 GPUs 에서 36시간이 걸렸고 lowest validation loss를 가진 models가 evaluation에 사용되었죠. training 동안 random color augmentations이 사용되었는데 brightness, contrast, sauration, hue 가 적용되었죠. 이는 TorchVision을 사용했고요. 이에 사용된 all parameter를 위한 delta = 0.2입니다. 50%의 확률로 horizontal flips가 적용되었습니다. Keyframe은 DeepVideoMVS를 따라 선택되었죠.

여기까지 하겠습니다.

그럼 다음에 뵈요

728x90
반응형