Este proyecto realiza un análisis exhaustivo del conjunto de datos de Netflix disponible en Kaggle. El objetivo principal es explorar los datos, limpiar y preparar el conjunto de datos para el análisis, realizar ingeniería de características, visualizar tendencias y patrones, y desarrollar modelos predictivos para extraer información útil.
- Carga de Datos: Importar y revisar el conjunto de datos de Netflix.
- Análisis Exploratorio de Datos (EDA): Investigar y entender la distribución y características de los datos.
- Limpieza de Datos: Identificar y manejar valores nulos, duplicados y otras anomalías.
- Ingeniería de Características: Crear nuevas características que mejoren el análisis y modelado.
- Visualización de Datos: Generar visualizaciones para identificar tendencias y patrones.
- Modelado Predictivo: Desarrollar modelos para hacer predicciones y clasificaciones basadas en los datos.
- Evaluación de Modelos: Evaluar la efectividad y precisión de los modelos desarrollados.
- data/: Contiene datos en crudo y procesados.
- notebooks/: Notebooks de Jupyter para cada paso del análisis.
- scripts/: Scripts de Python para cada paso del análisis.
- results/: Resultados del análisis.
- requirements.txt: Dependencias del proyecto.
- README.md: Descripción del proyecto e instrucciones de uso.
- .gitignore: Archivos y carpetas a ignorar por Git.
-
Clona el repositorio:
git clone https://github.com/JorgeHdzRiv/Netflix_DataScience.git cd netflix-project
-
Instalar las dependencias:
pip install -r requirements.txt
-
Ejecuta los notebooks en orden:
-
De igual manera (opcional) puedes ejecutar directamente los scripts en orden:
El conjunto de datos lo puedes encontrar en: Conjunto de datos
Siéntete libre de explorar el repositorio, si quieres colaborar no dudes en enviar invitacion.