인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법 - Kaggle survey


TL;DR - 매년 Kaggle survey 데이터로 인공지능과 데이터사이언스의 현재를 알고 미래를 예측할 수 있다.

Kaggle (캐글) survey (설문조사)



데이터 사이언티스트들 중 캐글(Kaggle)을 모르는 사람은 거의 없을 것입니다. Stackoverflow에서 매년 설문조사(survey)를 하는데 이 결과로 현재 개발 트렌드를 파악하고 미래를 예측하는 데 많은 도움을 줍니다. 하지만 인공지능/머신러닝/딥러닝 쪽은 캐글(Kaggle) 서베이(survey) 데이터가 더 정확합니다. 데이터 분석가/ 데이터 사이언티스트들이 활발하게 활동하는 곳이 캐글이기 때문입니다. 

매년 캐글 머신러닝/데이터 사이언스 설문조사를 할 수 있습니다. 저도 올해 재미삼아 참여했습니다. 

캐글 설문조사 참여


매년 이 데이터로 대회(competition)를 진행하고 상금도 줍니다. 2021년 대회는 현재 진행중입니다.
https://www.kaggle.com/c/kaggle-survey-2020/overview
https://www.kaggle.com/c/kaggle-survey-2021/overview/description
Kaggle Machine Learning and Data Science Survey
2020년 대회


Kaggle Machine Learning and Data Science Survey
2020년 대회 상금

Kaggle Machine Learning and Data Science Survey
2021년 대회는 현재 진행중



이 대회에 우승한 사람들의 노트북(notebook)을 보고 좋은 정보를 얻을 수 있습니다.

Kaggle Machine Learning and Data Science Survey



저는 시간도 없고 글 많이 읽는 거 싫어해서 그냥 survey 결과만 보겠습니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



결과 중에서 몇가지 제가 흥미롭게 본 부분들입니다. 설문조사 결과에 따르면 데이터 사이언티스트의 절반 이상은 연령대가 22 ~ 34 살입니다. 제 생각에 학부생, 대학원생들이 좀 많이 활동하는 것 같습니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



설문조사에 응한 대다수는 미국과 인도 사람들입니다. 이는 스택오버플로우에서도 마찬가지입니다.  미국, 인도가 IT를 주도하고 있습니다.

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



석사, 박사의 비중이 꽤 높은 것을 알 수 있습니다. 데이터 사이언티스트는 데이터 과학자입니다. 과학 분야를 보시면 과학자 대부분은 박사학위를 소지합니다.  마찬가지로 데이터 사이언티스트도 컴퓨터과학/공학/통계학/인공지능 박사학위 소지자가 아주 많습니다.  

제가 관리자라면 데이터 사이언티스트는 석/박사 출신을 뽑을 것 같습니다. 만약 캐글 대회(competiton)부분 그랜드마스터 출신 정도라면 학력은 안 봐도 되겠지만 현실은 그랜드 마스터 대부분이 석박사 소지자입니다. 

스택오버플로우나 캐글 설문 조사 결과를 보면 IT/ 데이터 사이언스 인력들의 학력이 계속 올라가는 추세입니다. 그만큼 학위를 따기 위해 배우는 지식들이 업무에 많이 필요하기 때문입니다. 다만 본인이 정말 실력자라면 학위 없어도 이미 주머니 송곳처럼 드러날 것이고 여기 저기서 NASA든 구글이든 모셔가려고 하겠지요. 아니라면 공부 더 하세요. 괜히 천재 코스프레 하지마시고요. 어차피 다 티나요. 

* HTML 로 NASA 를 해킹하시면 특채로 채용될 수 있습니다. 참고하세요!  (진지하게 고민하는 사람 있을까봐 걱정된다...)

국내에도 미국의 유명대학에서 AI로 박사 학위받고 들어와서 책 쓴 분들도 있고, 제 친구도 현재 미국에서 AI로 박사학위 공부중입니다. 쓸데없이 박사학위 공부하는 거 아닙니다. 그만큼 깊은 지식을 요구하는 분야라고 저는 생각합니다.  석박사 출신이 실무 실력이 떨어지는데 구글같은 기업에서 뽑아갈까요? 구글 모집 요강에 보면 석박사를 우대하고 있고 아는 선배님도 박사 학위 취득 후 구글에 입사해서 14년 째 한국인 개발자로 일하고 계십니다.  

물론  IT/ 데이터사이언스 분야에서 일하는 모든 사람들이 박사학위가 필요하다는 소리가 아닙니다. 특정 직무에 고학력자를 찾는데는 다 이유가 있다고 말씀드리는 겁니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



IDE는 쥬피터(Jupyter)가 대세이고 2등은 VScode인데 스택오버플로우 올해 설문 보면 개발자들 사이에선 VScode가 압도적입니다.  쥬피터, VScode 둘 다 쓸 줄 알면 됩니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



알고리즘 중 Linear 와 logistic이 제일 많이 쓰입니다. 그 다음은 decision tree 하고 random forests 입니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법



데이터 과학자들이 많이 쓰는 클라우드입니다. 보시면 아시겠지만 AWS 따라 잡는 속도가 장난이 아니죠?  제가 2년 전에 이미 예측한 부분입니다. 2년 전에 메이저 클라우드 3개 다 써보니 감이 왔습니다. 그거 자랑하려고 씁니다. 어떤 회사인지 말 안하겠지만 앞으로 5년 안에 AWS 를 넘어선다에 비트코인 하나는 너무 비싸니 도지코인 하나겁니다. 

인공지능/머신러닝/데이터 사이언스 현주소 및 트렌드를 예측할 수 있는 방법


*** 이 외에도 결과보시면 여러 유용한 정보들이 있습니다. 요점은 매년있는 캐글 서베이 결과가 현재를 보여주고 미래를 예측하는데 도움을 준다는 것입니다. 

- The End - 

Comments