본문 바로가기

AI 논문

[꼼꼼하게 논문 읽기] A comprehensive Survey on Transfer Learning 5

728x90
반응형

 

안녕하세요, WH입니다.

오늘은 저번 글에 이어서 data-based interpretation의 두 번째 파트입니다.

feature transformation strategy 인데요 그 중에서도

feature reduction에 대해 다루고 있습니다.

오늘은 feature mapping입니다.

기억나지 않으신다면 아래 글을 읽어주세요

2022.06.23 - [AI 논문] - [꼼꼼하게 논문 읽기] A comprehensive Survey on Transfer Learning 4

 

[꼼꼼하게 논문 읽기] A comprehensive Survey on Transfer Learning 4

안녕하세요, WH입니다. 오늘은 Feature Transformation Strategy을 다루려고합니다 이 부분도 많아서 아마도 나눠서 글을 올릴듯 하네요. 2022.06.22 - [AI 논문] - [꼼꼼하게 논문 읽기] A comprehensive Survey..

developer-wh.tistory.com

Feature Mapping

 전통적인 machine learning 분야에서 실현 가능한 feature을 추출하는 mapping-based methods가 있습니다. PCA( Principal componet Analysis ) 와 Kernelized-PCA( KPCA )가 그 예죠. 그러나 이 방법들은 distribution difference보다 data variance에 주로 초점을 맞춥니다. distribution difference를 해결하기 위해, 몇몇 feature extraction methods는 transfer learning을 위해 제안되었습니다. 먼저 시나리오를 고려해봅시다. conditional distribution 에는 거의 차이가 없다고 해봅시다. 이 경우, 아래의 objective function은 feature extraction을 위한 mapping을 찾는 데 사용됩니다.

 

위 식에서 파이는 low-dimensional mapping function입니다. ( DIST 는 distribution difference metric 입니다.  옴(파이) 는 파이와 VAR()의 복잡도를 컨트롤하는 regularizer입니다. 이 objective function은 domain 간의 marginal distribution을 최소하해주고 그러는 동안 variance를 가능한 크게 만들어주는 mapping function 파이를 찾는 것을 목표로 합니다. 분모에 해당하는 objective는 몇 가지 방식으로 최적화될 수 있는데요. 한 가지 가능한 방법은 variance constraint를 가지고 분자 objective를 최적화하는 것입니다. 예를 들면, mapped instance의 scatter matrix은 identity matrix을 통해 강화될 수 있습니다. 또 다른 방식은 high-dimensional feature space에서 분자 objective를 최적화하는 것입니다. 그런 다음, dimension reduction algorithm ( PCA or KPAC )가 분모 objective를 실현하기 위해 수행됩니다. 

  게다가, 파이()의 명시적인 formulation을 찾는 것은 어려운데요. 이 문제를 해결하기 위해 몇몇 approaches는 linear mapping technique을 적용하거나 kernel trick을 사용합니다. 일반적으로, 위 문제를 다루기 위한 3 가지 main idea가 있습니다.

 

  1. mapping learning + Feature extraction

    - objective에서 high-dimensional space를 처음 찾는 가능한 방법은 kernel matrix learning 문제나 trasformation matrix

       finding problem을 해결하는 것인데요. 그럼 다음, high-dimensional feateature은 low-dimensional feature

       representation으로 압축되어 집니다. 예를 들어. 한번 kenrnel matrix가 학습되면, high-dimensionla features의 주요 구

      성 요소가 PCA에 기반하여 새로운 feature representation을 만들기 위해 추출됩니다. 

 

   2. Mapping Construction + Mapping learning

    - 다른 방법은 원래의 features를 high-dimensional feature space에 매핑하는 것인데요. 그런 다음 low-dimensional

      mapping이 objective function을 만족 하기위해 학습됩니다. 예를 들면, kernel matrix 은 먼저 선택된 kernel function에

      기반해 만들어집니다. 그리고 나서 high dimensional feature를 잠재적 subspace에 project 시킨 transformation matrix

      이 학습됩니다.

 

  3. Direct Low-dimensional Mapping Learning

    - 원하는 low-dimesional mapping을 직접 찾는 것은 대게 어려운데요. 그러나, mapping이 어떤 조건을 만족시기키 위해

      가정된다면, 해결될 수 있습니다. 예를 들어, low-dimensional mapping이 linear one으로 제한된다면, 최적화 문제는 쉽

       게 해결될 수 있습니다.

 

  몇몇 approaches는 data 구조를 유지하고 conditionla distributions를 매치하고자 시도하는데요. 이것을 이루기 위해, 위의 간단한 objective function은 새로운 teram 나/과 ( or/and ) constraints 를 가지게 됩니다. 예를 들어, 아래의 식과 같이 구성될 수 있습니다.

여기서 뮤는 marginal and conditional distrbution difference 의 balancing을 위한 파라미터입니다. 옴^geo(파이)는 geometric 구조를 controll하는 regularizer입니다. 파이(x)는 행이 추출된 새로운 feature represenstation을 가지는 source와 target domain의 instance인 행렬입니다. H는 scatter matrix을 만들기위한 centering matix이고 constraint는 variance를 최대화하기 위해 사용됩니다. 마지막 term은 conditional distribution difference 측정을 표시합니다. 

  위의 objective fuction에 대해 논의하기에 앞서, target-domain instances의 label information이 한정적이거나 알 수 없다는 것을 짚고 갑시다. label information의 부재는 distribution difference 을 추정하기 어렵게 하기 때문입니다. 이 문제를 해결하기 위해, 몇몇 approaches는 pseudo-label startegy를 사용합니다 ( label 되지 않은 target domain에 pseudo label을 할당하는 것이 일 예임). 이것을 실현하는 간단한 방법은 base classifer를 할당한 pseudo labels로 훈련하는 것입니다. 다른 방법 역시 존재 합니다 ( co-training, tri-training 이 있습니다 ), 한번 pseudo-label information이 만들어지면, conditional distribution difference가 측정될 수 있습니다. 예를 들자면, MMD( Maximum Mean Discrepancy ) conditional distribution difference 를 측정하기 위해 확장되고 바뀔 수 있습니다. 구체적으로, 각각 label 에 대해, 같은 class에 속하는 source domain과 target-domain instances 를 수집하고, 아래의 식을 통해 conditional distribution difference를 측정합니다.

 

여기서 분모의 n은 각각 같은 label을 가지는 source 혹은 target domain에서 instances의 개수입니다. 위 식은 실제로 conditional distribution을 근사하기 위한 class conditional distribution difference 를 측정합니다.

 

참고로 class-conditional distribution은

conditional distibution은

이렇게 표현된답니다. 수식에 대해 설명하면 끝도 없어서 의미는 넘어가도록 할게요 궁금해서 댓글을 달아주신다면, 친절하게 알려드리겠습니다. 여튼 계속갑니다. 몇몇 연구는 위의 추정식을 발전시키는 데요. class imbalance probelm을 추가로 해결하기 위해  weighted method 사용합니다. 일반적 objective function의 특별 케이스인 transfer learning approaches는 아래의 식으로 상세하게 설명됩니다.

 

여기서 k-NN(x)는 k nearest neighbors 의 instance x를 나타냅니다. 해당 논문의 저자는 MVU( Maximum Variance Unfolding )에서 영감을 받아 위의 식을 설계했다고 합니다. scatter matrix constraint를 사용하는 대신, constraints와 second term은 instance 간의 local geometry를 유지하면서 distance를 최대화 합니다.  원하는 kernel matrix K는 Semi-Definite Programming( SDP ) problem을 해결함으로써 학습되어집니다. kernel matrix을 얻은 다음, PCA가 적영되고, 그 다음 유도된 eigenvector 가 low-dimensional feature representation을 만드는 걸 돕기 위해 선택됩니다.

 

3 가지 case를 소개합니다

 

  case 1.

    한 연구는 Transfer Component Analysis( TCA )라는 방식을 제안했는데요. TCA는 marginal distribution difference를 측정하기 위해 MMD 적용하고 constraint로써 scatter matrix를 보강합니다. kernel matrix를 학습하고 나아가 PCA를 적용하는 MMDE와의 차이점은 TCA는 empirical kernel feature space부터 low-dimensional feature space까지 linear mapping을 학습하는 unified method( 통일된 방식 )라는 점입니다. 이런한 방식에서 각각 low computtaional burden이 되는 SDP problem을 해결하는 것을 피합니다. 최종 최적화 문제는 eigen-decomposition을 통해 쉽게 해결될 수 있습니다. 확장된 버전으로 scatter matrix constraint가 label dependence( HSIC를 통해 측정된 )와 data variance의 균형을 맞춰주는 새로운 것으로 대체됩니다. 게다가 graph Laplacian regularizer는 geometry of manifold를 보전하기 위해 추가됩니다. 유사하게, 최종 최적화 문제는 eigen-decomposition을 통해 해결될 수 있습니다.

 

  case 2.

  다른 연구는 Joint Distribution Adaptation( JDA )라는 approach를 제안합니다. JDA는 instance를 marginal and conditional difference를 최소화하는 low-dimensional space에 맵핑하는 transformation matrix를 찾고자 시도합니다. 이것을 실현하기 위해, MMD matric 과 pseudo label strategy가 적용됩니다. 원하는 transformation matrix는 eigen-decomposition을 통해 trace optimization probelm을 해결함으로써 얻을 수 있습니다. 게다가, 추정된 pseudo labels의 정확도는 JDA의 성능에 영향을 받는다는 사실이 명확한데요. labeling quality를 향상시키기 위해, 저자는 iterative refinement operation을 적용했습니다. 구체적으로, 각각의 interation에서 JDA가 수행됩니다. 그런 다음 classifier는 추출된 feature를 가진 instacne에서 학습됩니다. 그 다음, pseudo labels가 학습된 classifier에 기반하여 업데이트 됩니다. 그 후, JDA는 업데이트된 pseudo label를 가지고 반복적으로 수행됩니다. convergence 하면 interation이 끝납니다. JDA는 다양한 statistical and geometrical 정보를 clustering하는 label과 structure information을 활용하여 확장될 수 있습니다.

 

  case 3.

  Balanced Distribution Adaption이라는 연구가 있는데요. JDA의 확장판입니다. adaptation에서 marginal and conditional distribution이 똑같이 중요하다고 가정하는 JDA와 차이가 있는데, BDA는 marginal and conditional distribution adaptation의 balance를 시도합니다. 게다가 저자는 WBDA( Weighted BDA )를 제안합니다. WBDA에서는 conditional distribution difference가 class imbalance problem을 해결하는 weighted version의 MMD에 의해 측정됩니다.  

 

  몇몇 approaches가 features를 새로운 feature space( 대게 high dimension )에 transform하고 adaptive classifier를 동시에 train한다는 것을 언급할 만한 가치가 있는데요. 이것을 실현하기 위해, feature의 mapping function과 classifier의 decision function가 연관되어 있어야 합니다. 한 가지 가능한 방법은 아래의 decision function을 정의하는 겁니다.

 

  여기서 k는 kernel function을 표기합니다. kernel matrix을 연결고리로 사용함으로써, mapping function을 위해 design된 regularizer는 classifier의 objective function 에 포함됩니다. 이런 방식으로, 최종 최적화 문제는 대게 알파나 kernel function에 대한 것이 됩니다. 예를 들면, Adaptiation Regularization Based Transfer Learning (ARTL)이 제안되었는 데요. ATRL은 structural risk를 최소화하기 위해 marginal and conditional distribution difference를 동시에 줄이는 adaptive classifer를 학습합니다. ARTL을 제안한 저자는 다른 loss functions에 기반한 이 framework에서 두 가지 특별한 알고리즘을 제안합니다. 이 두 가지 algorithms에서, MMD 계산을 위한 coefficient matrix와 manifold regularizaion을 위한 graph Laplacian matrix가 먼저 설계되었습니다. 다음으로, kernel function이 kernel matrix를 설계하기 위해 선택되었고, classifier learning problem은 파라미터 알파를 커버하게 됩니다. 

  ARTL에서는, kernel function의 선택은 최종 classifier의 성능에 영향을 받는데요. 견고한 classifier를 만들기 위해, 몇몇 연구는 kernel learning에 관심을 둡니다. 예를 들어 Domain Transfer Multiple Kernel Learing( DTMKL )이 있습니다. DTMKL에서는 kerner function은 base kernel 그룹의 linear combination으로 가정합니다. 아래의 식으로 표현이 되겠지요.

DTMKL은 distribution difference와 classification error 최소화를 목적으로 합니다. 일반적인 KTMKL의 objective function은 아래의 식으로 표현됩니다.

시그마는 단조 증가 함수이며, f는 ARTL에서와 같은 정의를 갖는 decision function입니다. 옴^L()는 classification error를 최소화 하고 최종 모델의 복잡도를 controll하기 위한 labeled instacne에 정의된 regularizers의 그룹을 표현한 일반적인 term입니다. 저자는 reduced gradient descent method를 사용해 kernel과 decision function을 동시해 학습하는 algorithm을 개발했습니다. 각 iteration에서 base kernels의 weight coefficients는 decision function을 update하도록 고정됩니다. 그 다음 decision function은 weight coefficient를 update하도록 고정됩니다. DTMKL은 존재하는 많은 kernel method를 합쳤습니다. 저자는 이 framework에서 두 가지 특별한 algorithm을 제안했습니다. 첫 번째 알고리즘은 hinge loss and Support Vector Machine을 사용해서 구현했고, 두번 째 알고리즘은 pseudo label information을 활용한 추가적인 regularizer를 첫번 째 알고리즘에 추가하여 확장했고 unlabeled instances의 pseudo labels는 base classifier를 통해 생성했습니다. 

 

이번 논문 리뷰는 여기까지 하고 다음 글에서는

Feature Clustering에 대해 다루도록하겠습니다.

고민이 되네요.. 너무 양이 많아요 ㅎㅎ

이상 wh였습니다.

 

반응형

 

728x90
반응형