- 프로젝트 목적: kaggle에서 주최한 "인도 중고차 예측하기" 데이터를 바탕으로 인도 중고차 가격과 거래하기 좋은 지역 예측하기
- 데이터: kaggle의 인도 중고차 예측하기 데이터셋
- 프로젝트 기간: 2021.04.20 ~ 2021.05.20
- 최종 발표일: 2021.05.20
- 발표자: 김영진 (팀장)
- 팀원:
- 첨삭:
- 사용한 언어
- DB구조 파악 및 Column별 검토
- 분석에 필요한 Column 추가 및 데이터 전처리
- EDA - 데이터 탐색 및 모델링에 필요한 Feature 파악
- 모델 분석 및 구축
- LinearRegression 모델 구축
- RandomForest 모델 구축
- 모델 검증
- LinearRegression 모델 검증
- 설명 분산 점수: 0.78, 평균 제곱 오차: 27.08, 결정 계수: 0.78
- 로그를 씌운 점수 - 설명 분산 점수: 0.92, 평균 제곱 오차: 0.01, 결정 계수: 0.92
- RandomForest 모델 검증
- 설명 분산 점수: 0.91, 평균 제곱 오차: 10.53, 결정 계수: 0.92
- 로그를 씌운 점수 - 설명 분산 점수: 0.94, 평균 제곱 오차: 0.008, 결정 계수: 0.94
- 최종 결과
- 중고차 가격 예측값
- 마루티 스즈키 Swift VVT VXL 모델 (실제 중고차 가격 4.85 라크)
- LinearRegression log 모델: 5.08 라크로 예측 (0.23 라크 차이)
- RandomForest log 모델:6.23 라크로 예측 (1.38 라크 차이)
- 현대 Grand i10 1.2 CRDi Sport option 모델 (실제 중고차 가격 5.55 라크)
- LinearRegression log 모델: 6.01 라크로 예측 (-0.46 라크 차이)
- RandomForest log 모델:4.63 라크로 예측 (0.92 라크 차이)
- 마루티 스즈키 Swift VVT VXL 모델 (실제 중고차 가격 4.85 라크)
- 중고차 가격을 잘 받을 수 있는 인도 지역 예측
- 마루티 스즈키 거래시 Kolkata 지역
- 현대 거래시 Kolkata 지역
- 혼다 거래시 Kolkata 지역
- 토요타 거래시 Mumbai 지역
- 벤츠 거래시 Munbai 지역
- 사용한 모델 중 반복적인 모델링을 돌려 본 결과 'LinearRegression'과'RandomForestRegressor' 정확도가 높아 두 모델을 체택
- 'LinearRegression'는 설명 분산 점수: 0.78, 평균 제곱 오차: 27.08, 결정 계수: 0.78 / 'RandomForestRegressor'는 0.91, 평균 제곱 오차: 10.53, 결정 계수: 0.92으로 'RandomForestRegressor'의 정확도가 높음.
- 모델의 정확도를 올리기 위해(결정 계수의 차이를 줄이기 위해) log를 씌워본 결과 'LinearRegression'는 결정 계수: 0.78 -> 0.92, 평균 제곱 오차: 27.08 -> 0.01 / 'RandomForestRegressor'는 결정 계수: 0.92 -> 0.94, 평균 제곱 오차: 10.53 -> 0.008로 정확도가 상승.
- 마루티 스즈키 Swift VVT VXL 모델을 기준 실제 중고차 가격과 예측값을 비교해본 결과 LinearRegression log 모델 사용시 0.23 라크 차이, RandomForest log 모델 사용시 1.38 라크 차이 / 현대 Grand i10 1.2 CRDi Sport option 모델 기준 실제 중고차 가격과 예측값을 비교해본 결과 LinearRegression log 모델 사용시 -0.46 라크 차이, RandomForest log 모델 사용시 0.92 라크 차이라는 결과 도출
- 인도시장에서 중고차 거래시 가격을 잘 받을 수 있는 인도 지역을 예측해본 결과 마루티 스즈키 거래시 Kolkata 지역 / 현대 거래시 Kolkata 지역 / 혼다 거래시 Kolkata 지역 / 토요타 거래시 Mumbai 지역 / 벤츠 거래시 Munbai 지역으로 결과가 도출됨