Skip to content
This repository has been archived by the owner on Mar 8, 2020. It is now read-only.

Commit

Permalink
Update Rossmann Store Sale Kernel about 20% (#43)
Browse files Browse the repository at this point in the history
#32
* Update Rossmann Store Sale
  • Loading branch information
yeonsuyam authored and Ilevk committed Oct 25, 2018
1 parent 5f6ecc5 commit f8dae8f
Showing 1 changed file with 10 additions and 4 deletions.
14 changes: 10 additions & 4 deletions Korean/Rossman Store Sales/Model documentation 1st place.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,9 @@
"trees. My feature generation was guided by three main principles: for each train and\n",
"test record, the model should have features on 1) recent data 2) temporal information\n",
"and 3) current trends. For feature selection and model ensembling, I heavily exploited\n",
"a holdout set consisting of the last six weeks of the sales history.\n"
"a holdout set consisting of the last six weeks of the sales history.\n",
"\n",
"저는 이 competition에서 3년의 판매이력을 이용해, 1000개의 Rossmann store들의 6주간의 판매를 예측하였습니다. 제가 사용한 model은 extreme gradient boosting (XGBoost [1]) 으로 decision tree에 바탕을 두는 일반적인 tool입니다. 저의 Feature generation은 3개의 주요 원칙에 따릅니다 : 각 train과 test record에서 model은 1) 최근 data 2) 일시적인 정보 3) 현재의 트랜드 에 대한 feature를 가져야 합니다. feature selection과 model ensembling을 위해, 마지막 6주간의 판매 이력을 포함하고 있는 holdout set을 중점적으로 이용했습니다."
]
},
{
Expand All @@ -34,7 +36,9 @@
"### Features Selection / Extraction\n",
"For feature extraction, I distinguish three types of features, on 1) recent data 2)\n",
"temporal information and 3) current trends. I extracted a lot more features then I\n",
"ended up using.\n"
"ended up using.\n",
"\n",
"Feature extraction을 위해, 저는 다음과 같이 3가지 feature type으로 분리했습니다 : 1) 최근 data 2) 시간 정보 3) 현재 trend. 저의 경우 먼저 굉장히 많은 feature들을 extract한 후에 그것들을 사용하였습니다."
]
},
{
Expand All @@ -57,7 +61,9 @@
"10%/ 90% percentiles. I also tried to log transform the sales before summarizing, but\n",
"only one of those transformed variables survived the feature selection.\n",
"In one variation to the main model, I calculated the recent data features on number of\n",
"customers, instead of sales amount.\n"
"customers, instead of sales amount.\n",
"\n",
"최근 data에 대한 feature들을 만들기 위해, train set에서 각 월별로 가게에 한정되어있는 판매 data를 골랐습니다 (예 : 3년간의 판매 이력). 그리고 난 뒤 각 기록을 위해, 그 기록의 날짜를 가져와서 지난 달, 그리고 훨씬 이전의 data를 그 기록의 최근 기록으로 사용하였습니다. 지난 분기, 지난 반년, 지난 1년, 지난 2년간의 feature를 extract하였습니다. 지난 달의 기록만도 사용해 봤었는데, 6주간의 판매를 예상하는 데에는 유용하지 않은 것 같습니다. "
]
},
{
Expand Down Expand Up @@ -331,7 +337,7 @@
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.6"
"version": "3.6.5"
}
},
"nbformat": 4,
Expand Down

0 comments on commit f8dae8f

Please sign in to comment.