캐글(Kaggle)은 2010년에 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁하게 된다.
머신러닝과 데이터 분석을 연습하기에 최고의 플랫폼이며 캐글에선 데이터 분석 작업환경을 제공하여 로컬 컴퓨터가 성능이 좋지 않더라도, 언제 어디서든 프로젝트를 진행할 수 있다.
필자의 캐글 프로필 : https://www.kaggle.com/shinbg
본 Kaggle competition repository는 캐글에서 진행/종료된 다양한 대회들에 참가하여 스코어를 높이는 것이 목적인 프로젝트이다. 또한 Top ranking 커널을 분석하여 최신 기법을 이해하고 적용하는 것이 목표이다.
연습용 종료된 대회의 선정은 페이스북 페이지 캐글 코리아의 마스터 이유한님의 커널 커리큘럼을 참고하여 흥미로운 주제 선정.
https://kaggle-kr.tistory.com/32
종료된 대회는 Leaderboard Top 5% 이내에 해당하는 점수에 도달하는 것이 목표
진행중인 대회는 Leaderboard Top 10% 이내에 도달하는 것이 목표
처음 베이스라인 점수와 최종 점수를 기재함
진행중인 대회 - top 달성
Kaggle Machine Learning course 최종 과제, 집값 예측하기 대회
2020/04/23 RMSE Score = 16167.89300
2020/05/04 RMSE Score = 12418.75137
Public Leaderboard 283 / 29695 - Top 1%
진행중인 대회 - top 달성
Coursera Data Science 최종 과제, 미래 물품 판매량 예측하기 대회
2020/04/25 RMSE Score = 0.92653
2020/04/28 RMSE Score = 0.89281
Public Leaderboard 345 / 6510 - Top 5%
종료된 대회 - top 달성
자전거 수요량 예측하기 대회
2020/03/16 RMSLE Score = 0.46816
2020/04/05 RMSLE Score = 0.37710
Private Leaderboard 99 / 3242 - Top 3%
종료된 대회 - top 달성
월마트 주간 판매량 예측하기 대회
2020/03/18 WWAE Score =2741.32964
2020/04/06 WWAE Score = 2639.13656
Private Leaderboard 35 / 690 - Top 5%
종료된 대회 - 프로젝트 진행중
뉴욕 택시 탑승시간 예측하기 대회
RMSLE Score = 0.40981
Private Leaderboard 532 / 1254 - Top 42%
종료된 대회 - top 달성
샌프란시스코 범죄 종류 예측하기 대회
2020/04/15 Logless Score = 5.02824
2020/05/13 Logless Score = 2.26409
Private Leaderboard 150 / 2331 - Top 6%
종료된 대회 - 프로젝트 진행중
홈 크레딧사의 대출 위험도 평가 대회
ROC Score = 0.70020
Private Leaderboard 6175 / 7174 - Top 86%