Skip to content

서울 시민 행복 요인 분석 프로젝트 - 비선형 회귀 분석 (Non-linear Regression Analysis)

Notifications You must be signed in to change notification settings

logicallaw/non-linear_regression

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

45 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

서울 시민 행복 요인 분석 프로젝트 - 비선형 회귀 분석 (Non-linear Regression Analysis)

This project was conducted as part of the “Public Data-based Term Project” for the Data Mining 001 course. This repository summarizes the Non-linear Regression Analysis component of the “Seoul Citizens’ Happiness Factors Analysis” project.

Contributors

Name Roles
Seo Seok-hee 팀장, 데이터셋 수집, 발표 PPT 및 보고서 제작
Kim Jun-Ho 비선형 회귀 분석
Lee Jong-jun 선형 회귀 분석
Jeon Ha-eun 클러스터링

Mining Question

서울 시민의 행복지수에 가장 큰 영향을 주는 요인은 무엇인가?

  • 경제적 요인, 사회적 요인, 환경적 요인 등 여러 요인 중 시민의 행복도에 가장 큰 설명력을 가지는 변수는 무엇인가?

  • 지역구 단위로 클러스터링했을 때 행복도가 높은 그룹의 공통적 특징은 무엇인가?

  • 행복지수가 가장 높은 지역과 낮은 지역은 어떤 요인으로 차이를 설명할 수 있는가?

Mining Goal

서울 시민의 행복지수에 가장 큰 영향을 미치는 핵심 요인을 규명

  • 상관관계 확인을 넘어 변수별 중요도 산출, 모형화 및 예측, 공간적 패턴 확인

  • 지역구별 행복지수와 다양한 요인의 관계를 탐색하여 주요 영향 요인 규명

Datasets

모든 데이터셋은 서울 열린데이터 광장을 통해 수집되었다.

  • 서울시 시민행복지수
  • 서울시 녹지 환경 만족도 통계
  • 서울시 사회적 신뢰(가족/공공기관/이웃/종합) 통계
  • 서울시 생활환경 만족도(경제환경/교육환경/주거환경) 통계
  • 서울시 일상생활 스트레스 10점 척도
  • 서울시 통근 통학 소요시간(분) 통계
  • 서울시 직업 만족도 통계

Mining Methods

본 연구는 데이터 전처리를 걸쳐 행복지수 회귀 분석을 위한 모델링과 지역구 특성 파악을 위한 군집화 단계 순서로 진행되었다.

  • 회귀 분석: 선형 회귀(OLS, Ridge, LASSO, PCA + OLS)와 비선형 회귀(AutoGluon)를 비교 분석하여 최적의 에측 모델을 탐색하였다.

  • 군집화 분석: K-Means 알고리즘을 활용하여 자치구별 특성을 유형화하고 시계열적 변화, 지역구별 특징을 관찰하였다.

Project structure

non-linear_regression
├─ 01_raw                            # 원천 데이터셋
├─ 02_cleaned_by_region (eng)        # 자치구별 영문으로 정제된 데이터셋
├─ 02_cleaned_by_region (kor)        # 자치구별 국문으로 정제된 데이터셋
├─ 02_cleaned_by_region_etc          # 정제 과정에서 기타 범주로 분류된 데이터셋
├─ 02_cleaned_by_region_excluded     # 정제 과정에서 분석에 부적합하여 제외한 데이터셋
├─ 03_preprocessed                   # 전처리된 데이터셋
├─ 03-1_preprocessed_by_haeun        # 하은님 전처리된 데이터셋
├─ 04-0_statistical_analysis         # 전처리된 데이터셋 기반 통계적 분석 결과
├─ 04-1_AutoGluon                    # AutoGluon 기반 비선형 회귀 분석 결과
├─ 04-2_PCA                          # PCA 결과
├─ 04-3_RandomForest                 # Random Forest 결과
├─ 04-4_MultipleRegressionAnalysis   # 다중 회귀 분석 결과
├─ 04-5_CorrelationAnalysis          # 상관계수 분석 결과
├─ 05_Final_Results                  # 최종 결과
├─ assets                            # 글꼴 에셋
├─ environment.yml                   # Conda 환경 구성 파일
└─ README.md                         

Copyright

All copyrights belong to Professor Dongwan Choi’s laboratory for the Data Mining 001 course.

Questions or Support

If you have any questions or need support, feel free to open an issue on GitHub or reach out via the following contact methods:

About

서울 시민 행복 요인 분석 프로젝트 - 비선형 회귀 분석 (Non-linear Regression Analysis)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%