4. 뉴스 카테고리 다중분류

Exploration stage에서 다루었던 뉴스 텍스트의 주제를 분류하는 태스크를 다양한 기법으로 다시 시도해 보고 어떤 방법이 가장 우수한 성능을 보이는지 실험해 본다.

-	목차	⏲ 290분
4-1.	들어가며	10분
4-2.	로이터 뉴스 데이터 (1) 데이터 확인하기	20분
4-3.	로이터 뉴스 데이터 (2) 데이터 복원하기	20분
4-4.	벡터화 하기	20분
4-5.	나이브 베이즈 분류기	20분
4-6.	F1-Score, Confusion Matrix	20분
4-7.	다양한 머신러닝 모델 사용해보기 (1)	20분
4-8.	다양한 머신러닝 모델 사용해보기 (2)	40분
4-9.	프로젝트: Vocabulary Size를 변경해서 시도해보기	120분
4-10.	프로젝트 제출

4-9. 프로젝트: Vocabulary Size를 변경해서 시도해보기

모든 단어 사용
빈도수 상위 5,000개의 단어만 사용
직접 단어 개수를 설정해서 사용
딥러닝 모델과 비교해 보기

루브릭

번호 평가문항 상세기준

1 분류 모델의 accuracy가 기준 이상 높게 나왔는가? 3가지 단어 개수에 대해 8가지 머신러닝 기법을 적용하여 그중 최적의 솔루션을 도출하였다.

2 분류 모델의 F1 score가 기준 이상 높게 나왔는가? Vocabulary size에 따른 각 머신러닝 모델의 성능변화 추이를 살피고, 해당 머신러닝 알고리즘의 특성에 근거해 원인을 분석하였다.

3 딥러닝 모델을 활용해 성능이 비교 및 확인되었는가? 동일한 데이터셋과 전처리 조건으로 딥러닝 모델의 성능과 비교하여 결과에 따른 원인을 분석하였다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

4. 뉴스 카테고리 다중분류

4-9. 프로젝트: Vocabulary Size를 변경해서 시도해보기

루브릭

번호	평가문항	상세기준
1	분류 모델의 accuracy가 기준 이상 높게 나왔는가?	3가지 단어 개수에 대해 8가지 머신러닝 기법을 적용하여 그중 최적의 솔루션을 도출하였다.
2	분류 모델의 F1 score가 기준 이상 높게 나왔는가?	Vocabulary size에 따른 각 머신러닝 모델의 성능변화 추이를 살피고, 해당 머신러닝 알고리즘의 특성에 근거해 원인을 분석하였다.
3	딥러닝 모델을 활용해 성능이 비교 및 확인되었는가?	동일한 데이터셋과 전처리 조건으로 딥러닝 모델의 성능과 비교하여 결과에 따른 원인을 분석하였다.

Files

README.md

Latest commit

History

README.md

File metadata and controls

4. 뉴스 카테고리 다중분류

4-9. 프로젝트: Vocabulary Size를 변경해서 시도해보기

루브릭