EDA - Kaggle Survey 2020 (1)

[EDA] Kaggle Survey 2020 (1)

github

오랜만의 포스팅이다. 지난 몇 개월에 걸쳐 기본적인 pandas, numpy, matplotlib을 익혔고, 더불어 커피샵 상권분석 예제까지 해보았다. 이제 개념적 단계를 넘어 EDA를 실전에서 수행해보고자 본 프로젝트를 시작했다. 이번 프로젝트에서는 머신러닝이나 딥러닝을 사용하지 않고 EDA만 수행해보기로 한다. 전반적인 콘텐츠 진행은 모두 kaggle과 kaggle notebook을 통해 진행하고, notebook 제출을 마지막으로 본 프로젝트를 마무리할 예정이다. 프로젝트는 github를 통해 최종 요약할 예정이며, 본 블로그에는 프로젝트 수행 과정을 여러 post로 나누어 작성할거다.

데이터 살펴보기 Dataset

나름 자신 있게 시작했으나, 막상 시작하려니 어떻게 접근해야 할지 막막하다. 일단 개요부터 훑어보자. 데이터는 2020년도 10월에 kaggle에서 진행한 설문조사의 응답으로 정리되어 있다. 본 competition은 이미 8개월 전에 마감되었으나, 매년 비슷한 형태로 설문조사 데이터를 공개하고 이를 활용한 competition을 주최한다고 한다.

Description에서 주요 내용을 몇 가지 뽑아보자.

This year Kaggle is once again launching an annual Data Science Survey Challenge, where we will be awarding a prize pool of $30,000 to notebook authors who tell a rich story about a subset of the data science and machine learning community.

주어진 데이터를 활용해 신선하고 풍부한 본인만의 이야기를 어떻게 풀어내느냐가 관건이다.

The challenge objective: tell a data story about a subset of the data science community represented in this survey, through a combination of both narrative text and data exploration. A “story” could be defined any number of ways, and that’s deliberate. The challenge is to deeply explore (through data) the impact, priorities, or concerns of a specific group of data science and machine learning practitioners. That group can be defined in the macro (for example: anyone who does most of their coding in Python) or the micro (for example: female data science students studying machine learning in masters programs). This is an opportunity to be creative and tell the story of a community you identify with or are passionate about!

스토리가 계속 강조되는 것을 보니 조금씩 감이 온다. 동일하게 주어진 커다란 데이터셋에서 흥미로운 주제를 찾고 본인만의 방법, 본인만의 스토리로 표현하는 과정이 필요한 것 같다.

Submissions will be evaluated on the following:

  • Composition - Is there a clear narrative thread to the story that’s articulated and supported by data? The subject should be well defined, well researched, and well supported through the use of data and visualizations.
  • Originality - Does the reader learn something new through this submission? Or is the reader challenged to think about something in a new way? A great entry will be informative, thought provoking, and fresh all at the same time.
  • Documentation - Are your code, and notebook, and additional data sources well documented so a reader can understand what you did? Are your sources clearly cited? A high quality analysis should be concise and clear at each step so the rationale is easy to follow and the process is reproducible

평가 기준을 보면 먼저 내용 전체에 대한 구성, 독창성, 그리고 잘 정리된 문서에 대한 항목이 있다. 물론 이미 마감된 competition이지만 평가 기준이 결국 본 대회의 방향성을 뜻하는 거라 생각하고, 초점을 맞춰 프로젝트를 시작해 보겠다.