- Obtener datos
- Transformar a formato tabular, con una fila por observación y una columna por variable
- Dividir datos en entrenamiento y test (opcionalmente validación)
- Crear nuevas variables (feature engineering)
- Transformar todas las variables a numéricas (one-hot encoding)
- (Opcional) Reducir número de variables:
- Selección de variables (feature selection), métodos filtro, wrapper, ...
- Reducción de dimensionalidad (dimensionality reduction), PCA
- Modelizar:
- Definir tipo de problema: clasificación, regresión, clustering, ...
- Elegir modelo:
- Linear/Logistic regression
- Ridge Regression, Lasso, Elastic Net
- SVM
- Neural Networks
- Random Forest
- Gradient Boosting, XGBoost, LightBoost, CatBoost
- Seleccionar hyper-parametros
- Grid Search
- Random Search
- Bayesian Optimization
- Análisis resultados
- Regresión: MAE, MSE
- Clasificación: confussion matrix, accuracy, sensitivity, specificity, ...
- Volver a 4. Importante a la hora de comparar ya sea para elegir modelos, hyper-parametros, variables a usar, etc. usar siempre el error sobre el conjunto de validación o bien validación cruzada
- Reportar el error en test de la configuración final y a producción