- 제목 (1p.)
- 팀 소개 (1p.)
- 팀 소개
- 팀원 소개
- 경영진을 위한 요약 (1p. 모자라다면 2p.) = Executive Summary
- 목차 (1p.)
- <Q1-8> 과제에서 제시된 질문 리스트 (발표시간 중 11min을 여기에 할당하자.)
- <Q1> 2019.01~06중에 언제 지하철을 가장 많이 이용했을까?(기준:승하차총승객수)
- 탐색적 데이터 분석
- "일자별 합계 승하차총승객수 Top 10" (Dataframe table + 핵심 코드)
- 인사이트
- "일자별 합계 승하차총승객수 Top 5" (Dataframe table, 이전 것과 동일한 장표)
- 가장 많은 날은 5월 3일
- 대체로 5월이 많음
- 대체로 금요일이 많음
- "일자별 합계 승하차총승객수 Top 5" (Dataframe table, 이전 것과 동일한 장표)
- <Q2> 첫 번째 가설: 1월~6월중에 5월에 지하철 승객수가 많다? (기준:승하차총승객수)
- 가설 정의 (1p.)
- H0: 1월~6월중에 5월에 지하철 승객수가 가장 많은 것은 아니다.
- H1: 1월~6월중에 5월에 지하철 승객수가 가장 많다.
- 탐색적 데이터 분석 (1p.)
- "월별 합계 승하차총승객수" (barplot 1개 + 시각화 핵심 코드)
- (넣을지 말지 논의 필요) 평균으로 집계하면 4월이 많다.
- 결론 (1p.)
- H1 채택. (단, 합계를 기준으로 하였음을 명시.)
- 가설 정의 (1p.)
- <Q3> 두 번째 가설: 요일중에서 목요일에 지하철 승객수가 많다? (기준:승하차총승객수)
- 가설 정의 (1p.)
- H0: 요일중에서 목요일에 지하철 승객수가 가장 많은 것은 아니다.
- H1: ...
- 탐색적 데이터 분석 (3p.)
- "요일별 합계 승하차총승객수" (barplot 1개 + 시각화 핵심 코드)
- "요일별 평균 승하차총승객수" (barplot 1개 + 시각화 핵심 코드)
- 평균으로 비교하는 것이 유의미한가? (1p.)
- "요일별 승하차총승객수" (boxplot 1개 + 시각화 핵심 코드)
- 데이터의 정규성을 확인 -> 평균은 분명 유의미한 지표이다.
- 합계와 평균 비교 (barplot 1개)
- 결론
- H0 채택 -> 금요일이 가장 많았다.
- 인사이트
- 왜 월요일의 합계/평균 승하차총승객수가 유독 차이가 났는가?
- 데이터에 포함된 2019년 1월 1일은 화요일, 2019년 6월 30일은 일요일이다.
- 월요일이 1회 덜 집계된 것이 영향을 주었다.
- 실습 예제로 제공받은 코드로 요일을 매핑하면 잘못된 요일에 매핑된다.
- 2018년 어린이날(5월 5일)은 일요일이다. (어린이날 외에 다른 날을 사용해도 좋음)
- 요일을 확실하게 아는 날을 기준으로하여 Dayofweek 딕셔너리를 재정의하였다. -> 하루 씩 당겨져있던 것을 되돌려놓음.
- 왜 월요일의 합계/평균 승하차총승객수가 유독 차이가 났는가?
- 가설 정의 (1p.)
- 탐색적 데이터 분석
- 연월 각각에 대해 일자별(월일별) 승하차총승객수 그래프를 그려보자.
- 가설 정의
- H0: 승하차총승객수에는 주기적으로 나타나는 패턴이 존재하지 않을 것이다.
- H1: 승하차총승객수에는 주기적으로 나타나는 패턴이 존재할 것이다.
- 탐색적 데이터 분석
- <Q4> "일자별 승하차총승객수 (2019-01-01 ~ 2019-06-30)" (pointplot 1개 + 시각화 핵심 코드) (2p.)
- 월별로 색을 구분 (1p.)
- 주차별로 색을 구분 (1p.) -> 주 마다 반복되는 패턴이 있음을 강조
- "요일별 평균 승하차총승객수" (barplot) + "승하차총승객수 (2019-01-07 ~ 2019-01-13)" (pointplot) (1p.)
- 두 plot을 한 figure에 출력 (subplot 말고, 그냥 하나의 plot에 두 데이터 모두 출력)
- 주 마다 반복되는 패턴의 예시로 보임
- 주말이 유독 적다는 점을 강조
- <Q4> "일자별 승하차총승객수 (2019-01-01 ~ 2019-06-30)" (pointplot 1개 + 시각화 핵심 코드) (2p.)
- 결론
- H1 채택
- 인사이트
- 주 마다 나타나는 반복적인 패턴을 더 편하게 볼 수 없을까?
- (이어서) 승객수가 유별난 날들이 존재한다. 이상치일까?
- "일자별 승하차총승객수 (2019-01-01 ~ 2019-06-30)" (heatmap 1개, 직전 것과 동일)
- 2월의 색이 특이한 부분 -> 설 연휴임을 강조
- 공휴일 혹은 주말 등 '휴일'에는 지하철 이용객 수가 더 적어진다.
- 공휴일 혹은 주말의 특징이 무엇일까?
- "출퇴근/등하교를 하지 않는다"이지 않을까?
- 아래 5.4.3. 에서 다시 소개할 예정
- 가설 정의
- <Q5> 가장 승객이 많이 타는 승차역은?
- 가설 정의
- H0. ...
- H1. 교통의 중심지들이 승차총승객수가 많을 것이다.
- (버스에서 내려서 지하철을 타니까? ??)
- 탐색적 데이터 분석
- "역별 승차총승객수 Top 10" (barplot 1개 + 시각화 핵심코드)
- "승차총승객수가 가장 많은 상위 20개의 역 위치" (folium marker + 시각화 핵심코드)
- 지하철 노선도가 같이 보였으면 좋겠음
- 특히 환승역이거나, 혹은 주변에 버스터미널이 있는지 보이면 좋겠음
- 참고자료: 노선별 환승역 수 (2015년 기준) https://www.thescoop.co.kr/news/articleView.html?idxno=16708
- 결론
- H1. 채택 (!!!!!!!!!!!! 희망사항, 아직 검증 안됨 !!!!!!!!!!!!)
- 가설 정의
- 노선별 승하차승객수를 비교해 볼 수 있을까?
- 지하철 노선 소개 (2019년도 기준) (1p.)
- 각 노선별 대표색상과 이름이 무엇인지 한 눈에 볼 수 있는 간단한 자료
- 총 몇 종류의 노선이 존재하는가?
- 탐색적 데이터 분석
- <Q6> "<노선명> 역/요일별 승차승객수 (<역개수>개역)" (heatmap 작아도 되니 한 페이지에 모든 노선 표시 + 시각화 핵심코드)
- 인사이트
- 정보량이 많으니 일부 특이한 예시들을 살펴보자.
- (1호선, 2호선, 6호선) "<노선명> 역/요일별 승차승객수 (<역개수>개역)" (heatmap, 노선별로 각 1씩 총 3개)
- 히트맵 상에서 유독 승차승객이 많은 역들이 있다.
- 그 중 어떤 역은 평일에만 진하다.
- 5.2.4.4. 기억나는가? 출퇴근/등하교 -> 평일에만 한다.
- 평일에만 진한 역 근처가 직장가/학교일 수도 있을 것 같다.
- 첫 번째 가설
- 가설 정의
- H0. 승차와 하차 승객수는 상관관계가 없다.
- H1.
- 탐색적 데이터 분석
- <Q7> "1호선 역별 하차승객수" (barplot + 시각화 핵심코드)
- "1호선 역별 승차/하차승객수 비교" (violin plot + 시각화 핵심코드)
- 승차/하차 승객 수의 correlation, 혹은 P-value 비교
- 결론
- 결과를 바탕으로 가설 채택
- 가설 정의
- 두 번째 가설
- 가설 설정
- H0. 주말에 비해 평일 이용객 수가 많은 역은 직장가/혹은 학교와 관련이 없다.
- H1. 주말에 비해 평일 이용객 수가 많은 역은 직장가/혹은 학교 인근에 위치한다.
- 탐색적 데이터 분석
- <Q8> "2호선 합계 승차승객수" (folium heatmap 과 marker + 시각화 핵심코드)
- "2호선 평일 합계 승차승객수 Top 10개 역" (folium heatmap + 시각화 핵심코드)
- 가장 많았던 역들을 살펴보자
- 앞서 뽑은 히트맵 위에 근처에 위치한 직장가, 학교 표시
- 결론
- 5.4.5.2. 결과를 바탕으로 가설 채택
- 가설 설정
- 지하철 노선 소개 (2019년도 기준) (1p.)
- <Q1> 2019.01~06중에 언제 지하철을 가장 많이 이용했을까?(기준:승하차총승객수)
- 인사이트 Plus
- 채택된 가설들 정리
- 새로운 질문들
- 주말까지 승하차총승객수가 많은 역들이 있었다. 무엇과 상관관계가 있을까?
- 첫 번째 가설
- 가설 설정
- H1. 승하차총승객수는 지역 인구수에 비례 할 것이다.
- (추가적인) EDA
- 결론
- H0 채택
- 가설 설정
- 두 번째 가설
- 가설 설정
- H1. 승하차총승객수는 상업구역(직장가가 포함되므로)에 밀집되어있을 것이다.
- EDA
- 결론
- 아직 모름 (!!!!!!!!!!!! 아직 검증 안됨 !!!!!!!!!!!!)
- 가설 설정
- 첫 번째 가설
- 상업지구는 젊은 층(생산가능인구)가 주 이용객일 것이다.
- 가설 세우고 확인해보기
- 만약 아니라면 출퇴근시간에만 젊은 층이 몰리는가 가설 세우고 확인해보기
- 주말까지 승하차총승객수가 많은 역들이 있었다. 무엇과 상관관계가 있을까?
- 결론
- 사업 제안
- 문제 정의
- 젊은 청년들을 가입시키고자 하는 요금제 상품이 있다고 가정. (KT에게 어필하자)
- 주말 이용객 수가 적은 것을 활용할 수 있는 상품이 없을까?
- 솔루션 제안
- 공휴일 할인 요금제 패키지
- 가입하면 주말 대중교통 이용을 할인해주거나 페이백 해주는 서비스
- 기업입장에서는 손실이 적음
- 긍정적인 기업이미지, 혹은 상품 이미지 형성
- 이동량이 많은 생산가능인구(젊은층)을 유인할 수 있는 좋은 미끼 상품
- 가입하면 주말 대중교통 이용을 할인해주거나 페이백 해주는 서비스
- 광고는 젊은 층이 많이 이용하는 평일 이용객수가 더 많은 지역 위주로?
- (!!!!!!!!!!!! 희망사항, 아직 검증 안됨 !!!!!!!!!!!!)
- 공휴일 할인 요금제 패키지
- 핵심 기능 소개
- (사실 기능은 없는 사업 제안 아이디어이므로)
- 주말에 대중교통 이용비용 10% 페이백?
- 광고를 설치할 역 후보 5개 정도, 역명 열거 후 선정이유 짧게 요약
- 문제 정의
- 세 줄 요약 및 Q&A
-
Notifications
You must be signed in to change notification settings - Fork 0
smu-202115064/Training-project-for-AI-X-Pioneers-Basic
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
[Seoul] Training project for AI+X Pioneers: Basic (HAKT0001 (1)) [2nd Semester]
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published