안녕하세요, WH입니다
오늘은 transfer learning에 대한 논문을 읽어보고자 합니다.
함께 보시죠
Abstract
transfer learning은 source domain과 관련 있지만 다른 것이 포함된 지식을 전이함으로써 target domain에서 target learner( model 이 되겠죠 )의 성능을 향상을 목적으로 합니다. 이런 방식으로 target learner를 만드는 데 있어 target domain data의 방대한 양에 대한 의존도가 줄어들 수 있습니다. 광범위한 적용이 예상되기 때문에, transfer learning은 기계 학습에서 인기가 있어 왔고, 유망한 분야가 되어왔습니다. 비록 transfer learning에 관한 가치 있고 인상 깊은 survey들이 있지만, 이 survey들은 일부 관련된 transfer 접근 방식에 대해 소개하거나 최근의 트렌드가 결여되어 있습니다. 이 논문은 모두를 아우르려고 시도했고, transfer learning에 관한 연구를 시스템화 하고자 했으며, transfer learning 메카니즘과 전략을 이해가능한 방법으로 해석하고 요약하고자 노력했습니다. 독자들은 현재 연구 동향과 아이디어에 대해 더잘 이해하게 될겁니다. 기존 논문들과 다르게, 이 논문은 40개가 넘는 대표적 방식의 transfer learning을 리뷰합니다. 특히 data와 model 관점에서 homogeneous transfer learning 방식에 집중하였습니다. 또한 transfer learning의 적용에 대해 간략하게 소개하였습니다. 다른 transfer learning model들의 성능을 보여주기위해, 20개가 넘는 대표적인 transfer learning models를 실험에 사용하였습니다. 또한 3개의 다른 dataset에서 수행되었습니다. 그리고 실험 결과는 실제 다른 상황에서 적정한 transfer learning models을 선택하는 것에 대한 중요성을 보여주었습니다.
요약
최근 동향을 포함한 transfer learning의 거의 모든 내용을 담았다 정도로 요약되겠습니다. ( 2019 년 기준 )
Introduction
전통적 machine learning 기술이 크게 성공했고, 많은 실생활 분야에 성공적으로 적용되었지만, 여전히 어떤 실제 상황에서는 제한 사항을 가지고 있습니다. machine learning 에서 이상적인 시나리오는 labeled 된 training 데이터가 풍부하고 그와 같은 분포의 test data를 가지는 것인입니다. 그러나, 충분한 데이터를 모으는 일은 비싸고, 시간 소모적이며 많은 시나리오에서 현실적이지 않죠. Semi 지도 학습은 많은 labeled data의 의존도를 줄여줌으로써 부분적 이 문제를 해결합니다. 전통적으로 semi-supervised approach는 단지 제한된 수의 labeled data를 필요로하고 많은 양의 unlabeled data를 accuracy 향상을 위해 사용합니다. 그러나 많은 경우에, unlabeled 데이터 역시 모으기 힘들고, 전통적인 모델을 만족시기지 못합니다.
여러 도메인의 지식을 전이하는 데 집중하는 transfer learning은 위에 언급된 문제를 해결하는 데 유망한 방법론인데요. transfer learning의 개념은 심리학에서 유래되었습니다. 전이 일반화 이론에 따르면, 전이를 배우는 것은 경험의 일반화에 대한 결과라고 하는데요. 한 상황에서 다른 상황으로 전이를 현실화하는 것 어떤 누군가 자신의 경험을 일반화 가능하다면 가능하다고 합니다. 이 이론에 따르면, 전이의 전제 조건은 배우는 행동들 사이의 연결점이 필요하다는 것인데요. 예로, 바이올린을 배운 사람이 피아노를 다른 사람보다 빠르게 배울 수 있습니다. 바이올린과 피아노는 음악 기구이고 공통적인 지식을 공유하기 때문이죠. 도메인에 걸쳐 지식을 진이하는사람의 수용력에 영감을 받아 transfer learning은 학습성능을 향상시키기고 target domain에서 요구되는 labeled data를 최솨화하하기 위해, 관련된 도메인( source domain )으로부터의 지식을 활용하는 것이 목적으로 입니다. 전이된 지식은 새로운 task에 항상 긍정적이지 않다는 것은 언급할만한 가치가 있다고 하는데요. 만약 domain 사이에 공통된 부분이 적다면 지식 전이는 성공하적이지 않을 수 있습니다. 예를 들면, 자전거 타기를 배우는 것이 피아노를 치기 배우는 것에 도움이 되지 않는 것 처럼 말이죠. 게다가, 도메인간의 유사성은 항상 학습을 용이하게 하는 것은 아닙니다. 예를 들면 스페인어와 프랑스어는 가까운 상호 관계가 있습니다. 그렇지만 스페인어를 배우는 사람은 프랑스어를 배우는 데에 어려움을 겪습니다. 단어와 활용이 다르기 때문이죠. 이것은 스페인어를 성공적으로 배운 이전의 경험이 단어 형식, 활용, 발음등을 유추할 수 있기 때문에 발생합니다. 심리학에서 이전 경험이 나쁜 영향을 끼치는 현상을 negative transfer라고 부릅니다. 유사하게 transfer learning 분야에서 전이된 지식으로 인해 안좋은 영향을 받았다면, 이 현상을 negative transfer라고 칭합니다. negative transfer이 발생할 지 여부는 target domain과 source domain과의 관련성 및 도메인 전체에 걸쳐 전이가능하고 유용한 부분을 찾는 학습자의 능령과 같은 요인에 따라 결정됩니다.
굵직하게 말하면, 도멘인 간의 차이에 따라, transfer learning은 2개의 카테고리로 나뉠 수 있습니다 : homogeneous transfer learning와 heterogeneous transfer learning. Homogeneous transfer learning 접근 방식은 domain들이 같은 feature 공간에 있는 상황을 다루기 위해 제안되었고 발전되었습니다. homogeneous transfer learning에서 몇몇 연구는 도멘인들은 약간의 분포 차이만 있다고 가정합니다. 때문에, 그 연구들은 같은 bais와 공변량 변화를 선택합니다. 그렇지만, 이 가정은 많은 상황에서 맞지 않는데요. 예를 들면 감정 분류 문제의 경우, 많은 단어들이 다른 도메인에서 다른 의미를 갖는 경우가 있습니다. 이런 현상을 context feature bias라고 부릅니다. 이 문제를 해결 하기 위해, 몇몇 연구는 조건 분포를 적용합니다. Heterogeneous transfer learning은 다른 feature space에서 지식을 전이하는 과정을 말하는데요. 분포 적응과 더불어, heterogeneous transfer learning은 feature space 적응을 요구합니다.
이 연구는 독자들에게 data와 model 관점에서 transfer learning을 이해할 수있게 하는 것을 목표로 하는데요. 메카니즘과 transfer learning 접근법에 대한 전략이 독자로 하여금 접근법들이 동작하는 방식에 대해 이해할 수 있도록 소개됩니다. 존재하는 많은 transfer learning researches는 연결되어 있고 시스템화 되어 있는데요. 특별히 40개가 넘는 transfer learning 접근 법에 대해 소개합니다. 게다가, 어떤 데이터 셋에서 transfer learning model이 잘 동작하는지를 보여주기 위해 실험을 실행했습니다.
이 연구에서는, homogeneous transfer learning에 초점을 맞추는데요. 몇몇 흥미로운 transfer learning topic이 포함되어 있지 않다고 하네요. 이 뒤로 7 파트가 있다고 합니다. 섹션 2에서는 transfer learning과 다른 machine learning techniques의 차이에 대해 분류합니다. 섹션 3에서는 이 연구에서 사용된 표기와 transfer learning에 대한 정의가 소개되고 섹션 4와 5에서는 data와 model의 관점에서 transfer learning 접근법을 해석합니다. 섹션 6에서는 transfer learning 의 몇몇 applications를 소개하고 섹션 7에서는 위에서 말한 실험에 대한 결과를 보여준다고 합니다.
요약
40 개가 넘는 transfer learning 접근법을 소개하고 요약한다는 것, 다른 transfer learning 접근법들을 비교해서 실험한 것이 우리가 주로 한 일이며, 우리가 바이블이다 이 정도가 되겠네요
이번 논문은 양이 많아서 몇 회에 걸쳐서 소개하도록 하겠습니다.
짬 날때 작성하다보니 이번 글은 abstract과 introduction만 쓰고 끝났네요
요즘 일정이 조금 바빠 논문을 지속적으로 올리지를 못했지만
곧 정리해서 올리겠습니다.
이상 wh였습니다.
'AI 논문' 카테고리의 다른 글
[꼼꼼하게 논문 읽기] A comprehensive Survey on Transfer Learning 3 (0) | 2022.06.22 |
---|---|
[꼼꼼하게 논문 읽기] A comprehensive Survey on Transfer Learning 2 (0) | 2022.06.21 |
[꼼꼼하게 논문 읽기] Multiscale Vision Transformers 1 (0) | 2022.06.09 |
[꼼꼼하게 논문 읽기] MTV :Multiview Transformers for video recognition 2 ( 2022 ) (0) | 2022.05.31 |
[꼼꼼하게 논문 읽기] MTV :Multiview Transformers for video recognition 1 ( 2022 ) (0) | 2022.05.31 |