본문 바로가기

AI

지금 vision AI는?

728x90
반응형
반응형

안녕하세요. WH입니다

오늘은 vision AI가 어떤 트렌드를 가지고

어떻게 발전했는지, 현재는 어떻고, 적용되는 기술은 어떤지

개인적인 생각을 적어보고자 합니다.

 

그리고 이런 트렌드를 반영해서

카페를 운영할까 계획중입니다.

누군가와 소통하고 함께하며 지식을 나누는 소통의 장을 만들고자 합니다.

관심있으신 분은 댓글로 남겨주세요

 

오늘은 왜 이런 소통의 장을 만들고자 하는지

그를 위에 말한 주제에 맞춰 풀어내보고자 합니다.

 

19년 이전과 이후

  12-15년 vision ai는 CNN을 기반 성능을 높이는 방향으로 발전해 왔습니다. 모두가 알고 계실겁니다. 당시의 고민은 이미지에서 분류를 잘해낼 방법, 나아가 detection과 localization을 잡아내는 것에 초점이 맞춰져 있었습니다. 즉 모든 문제의 해결에 대한 방법이 저 문제를 해결하기 위함이었다고 해도 과언이 아닙니다. 층을 쌓아보고, 늘려보고, 활성함수를 바꿔보고 subnet을 활용하는 등의 테크닉이 활용되었죠. 그런데 15년 부터 관심은 기존 문제에 대해 뛰어난 성능을 보일 방법에 대한 고민과 실시간으로 적용하는 방안에 대한 고민이 대두되기 시작했습니다. yolo가 실시간에 대한 가능성을 보여줬고 ssd가 성능에서 그를 만족시켜주었으며, FPN 의 적용등 여러 테크닉을 통해 실시간에서 활용해보자는 쪽과 성능을 중시하되 속도도 빠르게 해보자라는 시도들이 이어졌습니다. 1 stage와 2 stage로 나뉘어 실시간과 성능 측면에서 vision 분야를 이끌어 오고 있었습니다. 물론 17년에 pose와 관련된 PAF를 적용하는 bottum up 방식에서의 변화 등 역시 주목해 볼만한 것이지만, 결국 초점은 속도 우선 성능은 다음 vs 성능 우선 속도는 다음이 두 가지가 CNN을 기반으로 이루어졌다고 보시면 되겠습니다. 그런데 18년에 NPL 분야에서 transformer가 나오며 NPL 분야를 천하 통일하기 시작했습니다. 마치 12년에 CNN이 나와 vision분야를 이끌었던것과 마찬가지로요. 이에 vision 분야는 다시 전환기를 맞이하게 됩니다. 이제는 CNN를 활용한 속도 vs 성능 이 아닌 CNN vs Transformer로 말이죠. 큰 프레임에 변화가 오기 시작한 겁니다. Vit를 기점으로 현재 classification을 시작으로 CNN을 넘는 성능을 보여준다는 논문들과 모델들이 나오며, vision 분야는 큰 변화의 분기점에 서있습니다. 그런데, 우리는 이런 정보를 얻을 공간이 없죠. 그렇기에 소통의 장이 필요하다고 느낀 첫번 째 이유라고 할 수 있습니다.

 

클라우드와 임베디드

  AI 가 현실에 적용되기 되면서, 크게 두 가지를 이용하여 서비스가 배포되고 있습니다. 첫 번째는 웹, 앱 등 클라우드 서버를 통한 서비스이고, 다른 하나는 임베디드를 통한 가전 제품의 ai 탑재입니다. 그런데 이 두 분야에는 가장 큰 차이점이 존재합니다. 그는 바로 컴퓨팅 능력입니다. 서버를 활용하는 클라우드 기반 ai는 최신의 모델, 최신의 기술을 도입하고 적용하는 데 제약이 적습니다. 왜냐, 그에 맞는 하드웨어가 존재하니까요 그렇다면 임베디드 쪽은 어떨까요? 임베디드는 하드웨어 성능이 기술을 뒷받침 해주지 못합니다. 왜냐고요? 기술이 없어서요? 아니요. 상용화의 문제입니다. 고성능의 임베디드는 만들수 있죠. 다만 단가가 맞질 않아서 만들지 않을 뿐입니다. 임베디드 쪽 분야의 현실을 알아볼까요? 시판 되는 개발 가능한 ai 보드를 만들고 그를 활용해 제품을 만든다? 어렵습니다. 그렇다면 모듈을 활용해 새로 시스템을 만들고 그에 ai를 탑재한다? 얼마나 되나요? 그런 회사가. 그리고 그런 하드웨어가 나오는 데는 빠르면 9개월~1년이 걸립니다. 그러면 그 하드웨어에 맞는 기술은 언제것을 사용할까요? 빨라도 2년 전 기술입니다. 자 차이가 이해가실까요? 적용할 수 있는 기술의 차이에 큰 제약이 있다는 겁니다. 그런데 소비자 입장에서는 그게 아니죠. 성능에는 현재 최신 기술과 차이가 없어야합니다. 그런데 이런 정보를 공유할 공간이 있나요? 클라우드 서비스든.. 임베디드든.. 이게 소통의 공간을 만들고자 하는 2번째 이유랍니다.

 

소통의 공간 그 속에서는

  그래서 만들고자 하는 공간에서 이루어질 일은 무엇이냐. 우선적으로는 현재 하고 있는 일이 computervision이기 때문에 그 트렌드를 따라가고자합니다. 최신 논문, 모델 등을 고려하는 방향이 1차적 목표입니다. 다음으로는 누군가가 이 트렌드를 따라올 수 있도록 기초부터 다루며, 저 역시 기초를 되돌아 보는 시간을 가지고자합니다. 누군가 도와주시면 더 좋겠지만요. 참여하는 분이 언제 생겨날지는 모르겠지만, 그 공간에서 함께 성장해 나갔으면 좋겠습니다. 오늘 글은 이만 마칠게요 이상 wh 였습니다.

 

728x90
반응형