Skip to content

Latest commit

 

History

History
37 lines (29 loc) · 1.75 KB

README.md

File metadata and controls

37 lines (29 loc) · 1.75 KB

4. 뉴스 카테고리 다중분류

Exploration stage에서 다루었던 뉴스 텍스트의 주제를 분류하는 태스크를 다양한 기법으로 다시 시도해 보고 어떤 방법이 가장 우수한 성능을 보이는지 실험해 본다.


- 목차 ⏲ 290분
4-1. 들어가며 10분
4-2. 로이터 뉴스 데이터 (1) 데이터 확인하기 20분
4-3. 로이터 뉴스 데이터 (2) 데이터 복원하기 20분
4-4. 벡터화 하기 20분
4-5. 나이브 베이즈 분류기 20분
4-6. F1-Score, Confusion Matrix 20분
4-7. 다양한 머신러닝 모델 사용해보기 (1) 20분
4-8. 다양한 머신러닝 모델 사용해보기 (2) 40분
4-9. 프로젝트: Vocabulary Size를 변경해서 시도해보기 120분
4-10. 프로젝트 제출

4-9. 프로젝트: Vocabulary Size를 변경해서 시도해보기

  1. 모든 단어 사용
  2. 빈도수 상위 5,000개의 단어만 사용
  3. 직접 단어 개수를 설정해서 사용
  4. 딥러닝 모델과 비교해 보기

루브릭

번호 평가문항 상세기준
1 분류 모델의 accuracy가 기준 이상 높게 나왔는가? 3가지 단어 개수에 대해 8가지 머신러닝 기법을 적용하여 그중 최적의 솔루션을 도출하였다.
2 분류 모델의 F1 score가 기준 이상 높게 나왔는가? Vocabulary size에 따른 각 머신러닝 모델의 성능변화 추이를 살피고, 해당 머신러닝 알고리즘의 특성에 근거해 원인을 분석하였다.
3 딥러닝 모델을 활용해 성능이 비교 및 확인되었는가? 동일한 데이터셋과 전처리 조건으로 딥러닝 모델의 성능과 비교하여 결과에 따른 원인을 분석하였다.