김찬호 | 배성수 | 이지훈 | 정소빈 | 조원삼 |
협업 관리, 인퍼런스 구현, EASE, 앙상블 | 모델 탐색, 데이터 전처리, 모델 베이스라인 개발 및 실험, 앙상블 | 모델 탐색 및 실험, Nue-MF Pytorch Project 개발 | 모델 탐색 및 실험 | EDA, DeepFM, Bert4rec |
사용자의 영화 시청 이력 데이터를 바탕으로 사용자가 다음에 시청할 영화 및 좋아할 영화를 예측
- 사용자의 영화 시청 이력 데이터 5,154,471 개
- 영화 아이템 메타 정보 데이터 6,807 개
- AutoEncoder 계열: Multi-VAE, Multi-DAE, MSE-DAE, EASE, ALS
- 시퀀셜 모델: Sasrec, S3rec, Bert4rec
- 모델 기반 앙상블
- 앙상블 기법으로 각 모델들의 top10 결과를 기반으로 hard voting 방법 사용.
- 시퀀셜, AE기반 모델들 등 서로 다른 계열의 모델들이 앙상블로 조합했을 때, 시너지가 낼 수 있을 것으로 생각하고 실험을 진행하여 최적의 모델 조합을 찾음. (ease, mse-dae, multi-dae, bert4rec, sasrec)
- 모델 간 가중치는 각 모델들의 public test 성능을 사용함.
- top-k 스코프 범위 확장
- 각 모델의 top10 범위 밖에도 정답이 존재할 가능성을 고려하여 top-k 스코프 범위 확장
- k값을 20까지 확장하여 실험을 진행한 결과 public test 성능 기준으로 k=15~20일 때 앙상블 성능이 0.1646으로 가장 좋았음.
- private test 성능을 확인해본 결과 k=20일 때 더 좋은 성능을 보여주는 것으로 확인되어 K값의 스코프를 확장시키는 것이 일반화 성능을 향상시키는 것으로 생각됨.
리더보드 | Recall@10 | 순위 |
---|---|---|
public | 0.1646 | 6위 |
private | 0.1634 | 최종 5위 |
상세한 프로젝트 내용은 레포트를 참고해주세요!