Daily Blogging — DS — Break 1–4
Kaggle, 어떻게 시작하면 좋을까?
# Kaggle, #Getting Started
오늘 한일:
그동안 나는 과정을 진행하면서, Kaggle에서 많은 데이터를 다루었다. 선생님들께서 자주 데이터를 가져오신 이 Kaggle이라는 싸이트에 대해 궁금해졌다. 그래서 오늘은 나의 호기심을 충족시키기 위해 이 Kaggle이 무엇인지, 어떻게 나같은 초보자가 Kaggle에 참가할 수 있을지에 대해 정리해보았다.
먼저 Kaggle은 오픈소스 개념의 열린 데이터 사이언스 챌린지이다. 기존 프로그래밍 세계에서는 네이버 러쉬 챌린지, 프로그래머스 등 국내에서 유명한 챌린지들이 이미 존재한다. Kaggle은 이러한 코딩 챌린지를 데이터 사이언스 영역으로 확대한 것이라 볼 수 있다. 그런 만큼 단순히 코딩 뿐만 아니라, 데이터를 어떻게 다루고 어떤 식으로 분석해,어떤 결론을 내렸는지를 논리적으로 설명할 수 있는 것이 중요할 것이다. 국내에서는 카카오 아레나가 Kaggle과 같은 데이터 사이언스 챌린지로써 자리잡고 있다. 정기적으로 특정한 형태의 챌린지가 올라오며, 이에 대해서 정해진 기간 동안 자신의 분석 결과를 정리하여 제출하면 된다. 그런 만큼, 데이터를 미리 제공한 상태에서 모든 과제가 이루어지기 때문에, 참가자들은 어느 정도 정리된 데이터를 사용하여 머신러닝 등을 활용한 데이터 분석과 시각화 등에 집중할 수 있다는 장점이 있다.
각 챌린지의 난이도에 따라, 상금은 최대 1백만달러(한국원화로 10억) 정도를 받을 수 있으며, 상금이 걸리지 않는 순수한 연구 목적의 챌린지도 존재한다. 또한 챌린지에 결과에 따라 특정 회사와 면접을 볼 수 있는 형태의 챌린지도 존재한다.
Kaggle은 굉장히 다양한 주제를 커버한다. 예를 들어서 “뉴욕의 내년 집값 예상하기”, “자율주행차의 사람인식 기능 강화하기" 등등, 초보자가 할 수 있는 수준 부터 대학원 연구원에 준하는 수준의 챌린지가 방대한 범위로 존재한다. 그럼에도 불구하고, Kaggle을 도전하는데 앞서 많은 걱정이 앞설 수 있다. 그러한 걱정은 보통 아래와 같은 질문들로 인해 시작될 수 있다.
- 어디서 부터 어떻게 시작해야 하지?
- 내가 과연 박사급 전문가들과 겨룰 수 있을까? 내가 아무에게도 이길 수 있는 가능성이 없다면, 이 챌린지에 참여하는 의미가 있을까? 내가 이 챌린지에서 의미 있는 성과를 내지 못하면, 내가 과연 데이터 사이언티스트가 될 수 있는 자격이 있을까?
1. 왜, 어떻게 시작해야 할까?
Kaggle에는 여러 목적의 챌린지가 존재하는데, 대표적으로 아래와 같은 종류들이 있다.
- Getting Started — 초보자를 위한 챌린지로써, 특별한 보상은 없다. 그러나 비교적 쉬운 난이도의 데이터를 제공받아 분석할 수 있다. 입문자들에게 적합한 난이도이다. 시간제한이 거의 없어, 아무때나 원할 때 할 수 있다. 많은 튜토리얼 및 Forum의 게시물들이 존재하기 때문에, 언제든지 잘 모르는 부분에 대해 리소스를 쉽게 찾을 수 있다.
- Research — 순수하게 학문적인 연구를 위한 챌린지로써, 비즈니스적인 문제를 해결하는 것이 아니기 때문에 특별한 보상은 없다. 그러나, 난이도가 조금 있을 수 있는 챌린지로써, 포트폴리오로 삼기에는 매우 좋다. 결과의 제출에 있어 다른 챌린지 만큼 특별한 형식을 요구하지 않는 편이다.
- Recruitment — 챌린지를 통해 특정 기업이 사람을 채용하려는 챌린지로써, 초보자를 위한 챌린지보다 조금 난이도가 높을 수 있다. 기업의 입맛에 맞는 품질의 솔루션을 작성해야 하며, 보상은 금전적인 것 보다는, 문제를 제시한 기업과 면접을 볼 수 있는 기회가 주어진다. 상대적으로 이러한 형태의 챌린지는 그 수가 적은 편이다.
- Featured — 특정 조직, 회사, 국가 등이 현실에서 겪을 법한 문제에 대한 챌린지로써, 가장 어려운 형태의 챌린지가 될 수 있다. 그만큼 보상도 크다. 승자는 최대 한화 10억원 상당의 상금을 탈 수 있다. 이러한 챌린지에서 승리한 이들은 인터뷰를 요청받고, Kaggle은 그들이 챌린지를 어떻게 해결했는지에 대한 내용을 기사화시켜 자체 블로그에 올린다.
Kaggle은 그렇다면 어떻게 시작해야 할까? 일단 우리가 가지고있는 데이터 사이언티스트에 대한 편견을 타파하는 것으로 부터 시작해보자. 아래 편견들은 사실 Kaggle의 최고 수준의 데이터 사이언티스트들은 반드시 만족해야할 조건들이지만, 우리 같은 초보자들은 한번 재고할 필요가 있는 고정 관념들이다.
편견 1. 문제는 반드시 어려워야 한다.
상식적으로 생각을 해보자, 우리가 수학을 배울 때에도, 숫자를 익힌다음에 바로 미적분으로 뛰어들지는 않을 것이다. 0부터 9까지의 숫자를 익히고 이들을 조합하여 더 큰 숫자들을 만드는 법을 배우고, 덧셈과 뺄셈, 곱하기와 나누기 등등을 배우고 나서 이 모든 기초를 충분히 익혔을 때 더 어려운 개념을 배울 수 있다. 마찬가지로, 데이터 사이언스도 기초만 배우고 바로 어려운 문제로 뛰어든다면, 물론 거기서 배우는 것이 없지는 않겠지만, 곧바로 쉽게 좌절하고 데이터 사이언스라는 분야에 대해 지나치게 높은 장벽을 느낄 것이다. 결국, 그로인해 Kaggle 뿐만아니라 이 분야에 대해 흥미를 잃게 되면, 결코 건강한 학습법이라고 할 수 없을 것이다.
그러므로, 너무 어려운 문제를 고르기 보다는, 초보자들 누구나 할 수 있는 쉬운 문제들 부터 시작해보자. Kaggle의 챌린지가 어떤 방식으로 어떻게 진행되는지에 대한 감을 잡을 수 있을 것이다. 어느 정도 쉬운 챌린지에 대해 익숙해지면, 그 때부터 좀 더 어려운 난이도의 문제를 태클해도 늦지 않다.
편견 2. 답변은 반드시 전에 없던 완전히 새로운 것이어야 한다.
만약 내가 이 분야에 새로 뛰어든 사람이라면, 그 분야를 완전히 뒤흔들 혁신적인 솔루션을 개발해 내는 것이 단기간에 가능한 일일까? 상식적으로 생각해본다면, 당연히 불가능하다는 것을 알 것이다. Kaggle과 같은 챌린지는 성공적인 참가자들에게 좋은 보상을 제공하는 것도 있지만, 챌린지를 통해 직접 참가자들이 부딪히면서 데이터 사이언스를 배우게 하는 목적이 더 크다고 필자는 생각한다. 그런 만큼, 자신이 낸 솔루션이 다른 이들과 비슷할 수도 있다. 그러나 자신의 언어로, 자신 만의 방법으로 그것을 풀어낸다면 그 것은 참가자 자신의 것이 된다. 솔루션 자체는 그렇게 새롭지 않더라도, 그 솔루션을 생성한 방법은 자신만의 것이 된다.
그러므로, 완전히 새로운, 획기적인 솔루션을 반드시 제시해야만 한다는 생각에 사로 잡히지 말자. 그런 일은 Kaggle의 탑 플레이어들에게 맡기고, 우리같은 초보자들은 챌린지를 통해 우리가 얼마나 배울 수 있을지에 집중하자. 명확한 솔루션을 낼 수 없었다고 해도, 최대한 할 수 있는 만큼 하고 제출하자. 그 후에는 Discussion등에서 다른 사람의 솔루션을 참조해도 좋다. 중요한 것은 우리가 좋은 결과를 내는 것이 아니라, 우리가 이 경험을 통해 얼마나 배웠는지, 앞으로 무엇을 더 배워야 하는지 아는 것에 있다.
편견 3. 문제를 해결할 수 있는 답변이 제일 중요하다. (문제 해결에 관련이 없는 내용은 의미가 없다.)
반은 맞고, 반은 틀린 관념이다. 물론, 어느 문제나 마찬가지로, 그 문제를 해결할 수 있는 솔루션이 가장 중요하다. 얼마나 논리적으로 주어진 문제를 효율적으로 해결했는지 보여주는 것은 모든 문제 해결에 있어서 중요한 기술이다.
하지만, 내가 1달여 동안 여러가지 데이터를 다루어 보면서 느낀점은, 데이터 분석을 통해 그동안 내가 알고 있던 지식이나 잘못 이해한 것들에 대해서 다시 한번 생각해 볼 수 있는 기회를 많이 가졌다는 것이다. 그리고, 그러한 인사이트는 가끔 문제의 영역에서 벗어난 형태로도 많이 드러난다. 예를 들어 나는 Seaborn의 펭귄 데이터를 분석하면서, 펭귄의 몸무게와 펭귄의 날개 길이가 서로 관련이 있다라는 가설을 세웠다. 이 가설을 증명하기 위해서는 펭귄의 날개 길이와 몸무게 두 가지 feature들 만을 비교하면 되었다. 그러나, 나는 데이터에서 펭귄의 서식지와 종에 대한 feature에도 관심을 가졌다. 그 것들을 가지고 비교를 해 본 결과 놀랍게도 몸집이 가장 작은 종이 가장 다양한 서식지에 고루 분포한 것을 알 수 있었다. 이를 통해서 가장 몸집이 작은 펭귄의 종이, 다른 신체적으로 우성인 종들과 비교하여, 그 어떤 환경에서도 가장 잘 적응할 수 있는 생존력을 가졌다는 굉장한 인사이트를 얻을 수 있었다.
물론 챌린지에서 주어진 문제의 영역을 벗어나지 않는 것은 중요하지만, 데이터 사이언스의 중요한 스킬 중 하나인 도메인 지식을 얻기 위해서는, 주어진 데이터에서 최대한 다양한 인사이트를 얻어가는 것이 중요하다고 생각한다. 그러기 위해서는 무엇보다도, 주어진 데이터를 최대한 탐험해보고, 자신이 배운 분석 기법들을 최대한 적용해보는 것이 중요하다. 우리가, Kaggle에서 초기에 좋은 성적을 내는 것이 우리의 목적이 아니라면, 각 챌린지에서 우리가 주어진 데이터로부터 최대한 무엇을 배울 수 있을지 고민하는 것이 더 중요하다고 생각한다. 그렇기에 주어진 문제의 범위 내에서 최대한 노력해보았다면, 그 이외에 데이터에서 어떠한 인사이트를 도출해 낼 수 있는지 고민해보자.
또한, 챌린지를 종료한 이후에, 이전 Kaggle의 다른 챌린지에서 승리한 플레이어들의 인터뷰를 읽어보는 것도 좋다. Discussion등에 글을 올려 도움을 구하는 것도 좋고, 다른이들의 게시물 등을 보면서, 다른 사람들은 어떻게 문제에 접근했는지 참조하는 것도 중요한 배움이다. Kaggle의 강점은 단순한 경쟁만이 아닌, 이러한 서로 상호 보완적인 커뮤니티가 있다는 것이다.
2. 초보자의 Kaggle 전략
위에서 다룬 3가지 편견들을 통해, 앞의 걱정들이 어느 정도 해소 되었을 것이라 믿는다. 그렇다면 초보자로써, 어떤 식으로 Kaggle에 참여하면 좋을까?
- 내가 편한 언어 선택하기
대표적으로 R과 Python을 많이 사용하는데, 자신이 편한 언어를 고르자. 필자는 R을 모르기 때문에 비교적 자신이 있는 Python을 선택했다. Python은 아시다시피, pandas, matplotlib, seaborn 등 데이터 분석과 시각화에 유용한 라이브러리들이 많다.
2. EDA(Exploratory Data Analysis)를 통해 데이터를 최대한 탐색한다.
주어진 데이터를 최대한 들여다보고, 돌려보고, 깎아보고, 붙여보는 여러가지 작업을 통해 데이터의 특성을 파악한다. Python의 경우 여러가지 라이브러리를 통해 이러한 작업이 가능하고, 데이터를 분석 및 시각화하여, 좀 더 직관적인 인사이트를 얻어보자. 문제 해결을 위해 어떤 접근으로 어떠한 데이터의 특성을 추려낼 수 있을지 고민해보자. 계획을 어느 정도 했으면, 어떠한 방법으로 원하는 목적을 달성할 수 있을지 고민해보자. 계획한 방법에 맞는 데이터 탐색 방법을 응용하여, 여러가지 시도를 해보자. 데이터에서 어떠한 인사이트를 얻을 수 있는지 최대한 고민하고, 여러 방법을 사용하여 데이터를 최대한 탐색해본다.
3. 머신 러닝 기법 등을 활용한다.
주어진 데이터에 EDA를 어느 정도 했다면, 다음으로 좀 더 깊은 인사이트를 얻기 위해, PCA, K-Means Clustering 등의 머신러닝 기법등을 활용해보자. 굳이 그렇게 까지 복잡하거나 어려운 기법일 필요는 없다. 기본적인 머신 러닝 기법도 충분히 의미있는 결과를 도출해 낼 수 있다. 학습을 위한 데이터, 테스트를 위한 데이터를 구분하는 연습을 하자. 이렇게 데이터를 분류할 수 있는 능력은 나중에 데이터 사이언티스트가 되서도 매우 중요한 자산이 될 것이다. 학습을 위한 데이터를 통해 머신 러닝 기법으로 통계 모델이 얼마나 만족스런 결과를 내는지 보자. 틀렸다면, 다른 방법이나 다른 데이터를 활용하여, 의미 있는 인사이트를 얻을 수 있는 연습을 해보자. Python에서는 Sklearn라이브러리가 매우 유용할 것이다.
4. “Getting Started” 부터 시작한다.
앞서 이야기한 4종류의 챌린지에서 우리가 태클하기 가장 좋은 것은 초보자를 위한 Getting Started이다. 이들은 보상은 없지만, 신입 케글러들로 하여금 많은 것을 배울 수 있게 한다. 게다가 제한 기간이 없거나 주어진 시간이 상대적으로 길기 때문에, 언제든지 시간이 날때 해보고 제출할 수 있다는 장점이 있다.
5. 목적은 “배움(learning)”이다. 소득(earning)이 아니다.
계속해서 강조한 내용이지만, 상금이 걸린 챌린지에서 우승하려고 하기 보다는, 내가 챌린지를 통해 무엇을 배울 수 있을지에 집중하자. 이는 단순히 이런 챌린지에 국한되는 것만은 아니다. 나는 자신의 열정보다 돈을 쫓아 불행한 인생을 사는 사람들을 많이 보았다. 자신의 열정을 따라, 그 분야에서 실력을 쌓으면 자연스럽게 금전적 보상은 따라오지만, 금전적 보상을 위해 하고 싶지 않은 일을 한다면, 그것은 오래 가지 못한다. 나중에 초보자를 벗어날 수준이 된다고 하더라도, 모든 상황에서는 “배움"이 우선이라는 사실을 잊지 말자. 배움을 좋아하면 소득은 자연스럽게 따라올 것이다.
3. Kaggle을 즐기는 법
어떻게 Kaggle의 챌린지에 도전해야 할지에 대한 감을 어느정도 잡았다면, 다음은 모든 챌린지를 즐기는 것이다! 그렇다면 어떻게 우리가 Kaggle이라는 유용한 커뮤니티를 최대한 흥미롭게 활용할 수 있을까?
- 단계적인 목표를 설정하기
이전 부터 계속 강조해 왔지만, 처음 부터 어려운 문제에 도전하는 것은 건장한 배움의 방법이라고 볼 수 없다. 내가 충분히 할 수 있을만한 충분한 수준의 챌린지부터 시작하자. 그렇게 해서 Getting Started레벨에 편해지면, 이후에 더 어려운 수준의 상금이 걸린 챌린지에 도전하는 편이 좋다. 다시 말하지만, Kaggle에서 의미있는 성과를 내는 것에 집착하지 말자, 더 중요한 것은 내가 임하는 모든 챌린지를 최대한 즐기는 것이다. Kaggle에 즐겁게 임할 수 없고, 성과에 목을 멘다면, 그 자체가 즐거움이 아닌 고통이 될 것이다. 초반부터 너무 자신을 궁지로 몰아세우는 어려운 챌린지는 지양하자. 게임처럼, 레벨업은 단계적으로 하는 것이다.
2. 인기있는 Kernel을 리뷰하기
Kaggle의 장점 중 하나는 모든 이들이 자신의 커널(Kernel)을 포스팅하고 볼 수 있다는 것이다. 이 커널은 자신이 어떻게 문제를 해결했는지, 자신이 어떻게 문제를 이해했는지에서 부터 어떠한 방법을 써서 솔루션을 만들었는지의 과정을 모두 보여주는 게시물이다. 챌린지를 끝내고, 자신이 특정 부분에서 어려움을 겪었다면, 다른 이들이 포스팅한 커널을 통해 그들이 어떻게 문제에 접근했고, 또 내가 부족한 점을 어떻게 매웠는지 알 수 있을 것이다. 이러한 케글 커뮤니티의 장점을 적극적으로 활용하여 다른 사람들로부터도 배울 수 있도록 하자.
3. 포럼을 적극 활용하기
Stack Overflow처럼, 케글도 활발한 커뮤니티가 있다. 케글은 게다가 챌린지부터 포럼까지 모든 것을 하나의 커뮤니티에서 해결할 수 있다는 장점이 있다. 데이터 분석에 관련해서는 Stack Overflow보다 케글 커뮤니티가 더 유용할 수 있다. 자신이 어려움을 겪었던 부분을 기억해 놓았다가 케글의 discussion 포럼에 질문을 올려보자. 매우 활발한 이 커뮤니티에서 빠르면 몇시간 후 늦으면 몇일 후에 답변이 달린 것을 볼 수 있을 것이다. 어느 정도 케글의 챌린지에 익숙해진다면, 다른 이들의 질문에 답변을 해주자. 받은 만큼 돌려주면, 그만큼 더 배울 수 있다.
4. 혼자서 문제를 풀어보기
케글에서는 팀을 이루어 챌린지에 참가할 수 있는데, 책임감 있는 팀원이 되기 위해서는 아무래도 스스로 어느 정도 문제를 해결할 수 있는 능력이 있어야 할 것이다. 그래서, 한동안은 혼자서 모든 챌린지에 임하기를 권장한다. 스스로 최대한 문제를 풀어보는 습관을 들여야, 나중에 팀을 이뤄서도 자신이 맡은 부분을 확실히 할 수 있다. 문제의 해석부터 솔루션을 만드는 것까지, 혼자서 다 해보면, 나중에 팀원이 되었을 때도 전체적으로 어떻게 문제에 접근하여 일을 나누어야 할지에 대한 감도 잡을 수 있다. 또 상대적으로 경험이 적은 다른 팀원이 문제에 부딪혔을 때, 도움을 줄 수 있는 능력도 기를 수 있다.
5. 팀을 이루어 도전해보기
혼자서 하는 챌린지에 익숙해졌는데, 시간 제한이 있는 더 어려운 챌린지에 혼자서 도전하는 것이 힘에 부친다면, 팀을 이루어서 도전해보자. 주변에 관심있는 친구가 있다면 팀을 이루어서 해보자. 그렇지 않다면, 케글 커뮤니티에서 관심있는 사람들을 찾아 같이 팀을 이룰 수 있는지 제안해보자. 생각보다 많은 사람들이 긍정적인 답변을 보낼 것이다. 그 커뮤니티에 있는 모든 사람들이 당신 만큼 성장에 목말라 있으며, 더 의미있는 챌린지에 도전하기를 원한다. 비록 온라인이지만, 당신은 그 어디에서 보다도 정말 의미있는 관계를 만들 수 있을지도 모른다.
6. Kaggle은 더 나은 데이터 사이언티스트가 되기 위한 도구이다.
케글에 대해서 지나친 환상이나 기대를 가질 필요는 없다. 어디까지나 우리의 목적은 이 도구를 이용하여 더 나은 데이터 사이언티스트로써 성장하는 것이다. 케글에서 임하는 모든 챌린지는 참가자로 하여금 금전적 보상을 얻는 것 보다, 각자가 그 경험을 통해 성장하는데 그 목적이 더 크다. 반드시 케글을 오랫동안 해야할 필요도 없다. 어느 정도 캐글이 어떤 곳인지 챌린지를 통해 경험해보고, 자신에게 맞는 도구인지 점검하라. 자신에게 맞지 않으면, 언제든지 다른 유용한 학습 도구를 찾아나서도 된다.
7. 성과에 목매지 말 것.
거듭 말하지만, 케글은 어디까지나 우리를 더 나은 데이터 사이언티스트로 성장하게 하기 위한 도구이다. 물론 훌륭한 커뮤니티를 통해 다른 좋은 사람들과 관계를 쌓을 수도 있지만, 그들도 케글이 그만큼 유용한 도구이기 때문에 그러한 커뮤니티에 남아있는 것이다. 아무런 목적 없이 수다만 하는 커뮤니티라면, 유능한 플레이어들은 모두 다 사라지고 없을 것이다. 또한, 아무리 탑 플레이어들이라 하더라도, 그들이 더 이상 배울 수 있는 챌린지가 없다면, 아무리 큰 보상이 주어지더라도 그리 오래 그 곳에 남아있지 않을 것이다.
그만큼, 배움은 탑 케글러들에게도 중요한 가치이다. 그러니, 나같은 초보자에게는 얼마나 배움이라는 것이 중요하겠는가? 나 역시 이 커뮤니티에서 의미있는 성장을 할 수 없다면, 바로 케글을 떠날 것이다. 그러한 의미있는 성장은 금전적 보상이나 성과로 부터 자유로워질 때, 내가 순수하게 몰랐던 것을 새로 배우는 것에 집중할 때 만이 나올 수 있다. 무작정 어려운 챌린지에 부딪혀 육체적, 정신적으로 쓸데 없는 소모를 한다면 절 때 그러한 보람을 느낄 수 없을 것이다. 그러니, 목적을 “배움"에 두고 다른 것들은 나중에 생각하자. 내가 배우는 만큼, 성과와 보상은 따라오게 마련이다.
요약
위의 언급된 내용을 바탕으로 다시 한번 강조하자면,
- 케글은 초보자부터 초고수까지, 모든 이를 위한 도구이다.
- 쉬운 것부터 시작해서 어려운 챌린지로 갈 수 있다. 보상보다는 배움에 집중하는 것이 좋다.
기본적인 데이터 사이언스 분석법과 머신러닝 기법을 배워봤다면, 바로 케글 챌린지에 도전하자.
초보자로써 우리는 아래와 같은 전략을 취할 수 있다.
- 내가 편한 언어 선택(Python을 추천 한다.)
- 최대한 데이터를 탐험한다 (EDA)
- 머신러닝을 통해 데이터의 좀 더 깊은 인사이트 파악 (꼭 복잡하지 않아도 된다.)
- Getting Started 부터 시작한다.
- 내가 각 챌린지에 무엇을 배웠고, 앞으로 더 무엇을 배우면 좋을지에 집중한다. (보상은 나중에 따라온다.)
마지막으로, 케글에서 각 챌린지를 즐길 수 있어야 한다. 아래와 같은 팁을 따른다면, 케글에서 조금이라도 더 즐거운 경험을 할 수 있다.
- 단계적으로 챌린지에 임하기
- 다른이들의 유용한 커널(솔루션이 담긴 노트북) 참조
- Discuss포럼 적극 활용하기
- 혼자서 최대한 문제를 풀어보기
- 실력이 쌓이면, 다른이와 팀을 이루어 보기
- 케글이라는 도구 자체에 집착하지 않기(모든 챌린지는 나의 성장을 위한 것임을 명심하기)
- 성과에 집착하지 않고, 배움에 집중하기
위의 내용들 중에 중복되는 부분들도 분명히 있다. 하지만, 그만큼 중요하다고 보면 좋겠다.
앞으로 할일:
오늘은 케글이라는 커뮤니티에 대해 어떻게 접근해야 할지에 대해 정리해 보았다. 나를 포함한 입문자들은, 이 커뮤니티에서 어떻게 챌린지에 임해야 할지, 그 것이 가치 있는지에 대한 의문이 많을 것이다. 결과적으로 케글은 초보자부터 초고수까지 모두를 위한 배움의 도구이다. 이 곳의 커뮤니티와 챌린지를 잘 활용하면, 정말 좋은 데이터 사이언티스트로 성장할 수 있을 것 같다. 나도 이곳의 챌린지를 적극 활용하여, 문제에 부딪히면서 배우고 싶다. 그러나, 내가 너무 크게 다치지 않도록, 적당한 수준의 챌린지 부터 시작해야 겠다는 생각이 든다. 왜 그동안 조언을 구했던 데이터 사이언티스트들이, 케글에 많이 참여해보라고 권유했는지 알 것 같다. 이 곳에서 챌린지를 통해, 나도 많은 것들을 배워가야겠다. 내가 그동안 배웠던 데이터 사이언스 지식들을 적극 활용하여, 나도 더 나은 데이터 사이언티스트로 거듭나고 싶다. 내 글을 읽는 모든이가 더 이상 Kaggle에 대해 그렇게 어렵게 생각하지 않았으면 좋겠다.
참조:
해당 블로그의 많은 내용은 아래 블로그를 참조하였습니다.