데이터 사이언티스트(data scientist)라면 무조건 알아야 하는 캐글(Kaggle) 소개

 캐글(Kaggle)은 데이터 사이언스 커뮤니티입니다.  케켈아닙니다. 캐!글!입니다. 구글에서 인수했습니다. Kaggle Korea란 커뮤니티도 있고 페이스북 그룹 가입자가 만 명이 넘습니다. 

제가 읽은 넷플릭스(Netflix) 관련 책 내용: 넷플릭스가 엄청난 상금을 걸고 AI/ML 성능을 높이기 위해 대회를 열었고 전세계 데이터 사이언티스트들이 지원을 하였고, 우승팀의 알고리즘을 자체 시스템에 적용했습니다.  사람들은 이런 대회가 가져다 주는 여러 장점을 깨달았고, 무엇보다 이런 대회의 관리, 운영하는 곳이 필요하다고 느꼈다고 합니다. 그래서 탄생한 게 Kaggle입니다.  

캐글 (Kaggle) : https://www.kaggle.com/

캐글에는 각종 대회들이 있습니다. 데이터는 주어지고, 대회에 따라 조금씩 다르지만 보통은 score에 따라 순위가 매겨지고, 일정 순위 이상에 들어가면 상금과 메달을 받습니다. 

캐글(Kaggle) 간단 소개

좌측에 상금 보이시죠?  아무나 지원 가능합니다 ㄱㄱ


  • 리더보드(leaderboard)에 순위가 있고, 아래는 score에 따른 순위입니다. public과 private 리더보드 순위가 다릅니다. 이 개념은 캐글에서 조금 놀다보면 자연스럽게 이해하게 됩니다. 간단하게 말해서 public 1등이라고 대회 끝날 때 1등이 아닙니다. 
캐글(Kaggle) 간단 소개


  • 대회에 참가하면 필요 데이터는 아래와 같이 주어집니다.

캐글(Kaggle) 간단 소개

  • 상금 관련 정보도 자세히 봅니다. (대회마다 다름)
캐글(Kaggle) 간단 소개


캐클(Kaggle)에 또 다른 재미는 티어입니다. 롤, 오버워치, 배그처럼 (제가 예전에 배그 그랜드마스터 찍었습니다. 진짜로! 조금 꼼수를 썼지만)  랭킹과 티어가 있습니다. 

  • 대회(competitions), 데이터셋(datasets), 노트북(notebooks), 토론(discussion) 4가지 영역에 각각 랭크가 있는데, novice < contributors < experts < masters < grandmasters 순 입니다. 대회 영역에 196명에 그랜드마스터가 있고 순위 또한 볼 수 있습니다. 사용자(User)를 클릭하면 링크드인(LinkedIn)을 연결한 사람인 경우 이력을 볼 수 있습니다. 순위권의 데이터 사이언티스트는 박사 출신이 꽤 많습니다. 아무래도 통계, 수학, 데이터 분석, AI/ML등 공부할 것이 많다보니 학부 공부만으로는 부족할 겁니다. 무엇보다 통계를 아주 잘해야 합니다. 
캐글(Kaggle) 간단 소개


  • 메달을 받기 위해선 아래와 같습니다. 예를 들어 50개 팀이 참가한 대회라면 상위 40프로에 들면 동(bronze), 상위 20프로는 은(silver), 상위 10프로는 금(gold)메달을 받습니다. 
캐글(Kaggle) 간단 소개

  • 대회(competitions) 부문에 그랜드마스터님이 되려면 5개의 금메달과 팀이 아닌 솔로로 참여해서 금메달을 하나 따야합니다. 즉 혼자서 팀을 상대할 정도의 제다이급 인재들이라는 소리입니다. ㄷㄷㄷ 그래서 캐클 대회 입상 성적만으로도 취직이 가능하고, 대회부문 그랜드마스터면 한국 기업들은 아마 업어갑니다. 

캐글(Kaggle) 간단 소개

  • 노트북은 쥬피터 노트북을 말합니다. 쥬피터(Jupyter) 환경의 노트북에 지식과 정보를 남겨서 다른 사람과 공유합니다. 그리고 그게 마음에 들면 사람들이 추천(upvote)를 하고 추천 수로 메달을 받고, 특정 티어에 오르게 됩니다.  
캐글(Kaggle) 간단 소개


  • 데이터셋 영역엔  데이터를 올려 사람들과 공유할 수 있습니다. 좋은 데이터를 올리면 추천을 받고 계급이 올라갑니다.
캐글(Kaggle) 간단 소개

  • 토론방(discussion) 에 좋은 팁을 공유하거나 좋은 질문을 하면 사람들의 추천을 받고 신분상승(?)을 할 수 있습니다.
캐글(Kaggle) 간단 소개


  • 제가 가장 많이 쓰고 좋아하는 영역입니다. 바로 courses 영역입니다. 저는 경쟁하는 걸 싫어해서 kaggle에서 무료 튜토리얼 하는 걸 좋아합니다. 강의의 수는 많지는 않으나 노트북 환경에서 실습을 할 수 있어서 좋습니다. 실제로 데이터를 분석하고 모델을 학습시키는 코드를 다루면서 빨리 배울 수 있습니다. 아래는 제가 이수한 과목들입니다. 현재는 딥러닝찡 조지고 있습니다.
캐글(Kaggle) 간단 소개


  • 아래는 제가 캐글에서 딥러닝찡 조지고 있는 모습입니다.
캐글(Kaggle) 간단 소개


캐글(Kaggle)엔 고인물들이 많습니다. 괜히 게임처럼 랭킹 올리려고 섣불리 달려들지 마세요 ㅎㅎ.  커뮤니티이니깐 정보 공유하고 배우고 나누고 하시면 됩니다. 그러면 어느 순간 티어와 랭킹도 자연스럽게 올라갑니다.

Comments