BlendCAL — Web-Session Conversion Prediction

Overview

BlendCAL is an end‑to‑end ML project for predicting whether a web session will convert.
The pipeline covers: feature engineering, an ensemble of CatBoost + XGBoost + LightGBM with isotonic calibration, a FastAPI inference service, a Streamlit UI, an Airflow DAG for orchestration, and full Docker setup.

Course project (Skillbox, ML specialization).

Data volume

ga_sessions.csv — 1,860,042 rows
ga_hits.csv — 15,726,470 rows

Project structure

final_project/
├─ dags/                          # Airflow DAG (blendcal_inference.py)
├─ project/
│  ├─ modules/                    # ETL & feature pipeline
│  │  ├─ extract_csv.py
│  │  ├─ prepare.py
│  │  └─ ensemble.py
│  ├─ data/                       # raw / landing / staging / predictions
│  └─ artifacts/                  # prep_params.json, freq_maps.json, models, calibration
├─ api/app/                       # FastAPI: main.py, artifacts_loader.py, preprocessor.py
├─ app/                           # Streamlit UI (streamlit_app.py)
├─ docker_airflow/                # Dockerfile + docker-compose for Airflow
├─ docker-compose.yml             # API + UI
├─ requirements-api.txt
├─ requirements-ui.txt
├─ MODEL_INFO.json
├─ VERSION
└─ docker_airflow/README_airflow.md

Tech stack

ML: CatBoost, XGBoost, LightGBM (weighted ensemble + isotonic calibration)
Preprocessing: median imputation, quantile clipping, frequency encoding, cyclic time features (sin/cos)
API: FastAPI, Pydantic, Uvicorn
UI: Streamlit
Orchestration: Airflow (PythonOperator, Docker stack)
Containerization: Docker, docker‑compose

Quickstart

1) API + UI (Docker)

docker compose up --build

FastAPI Swagger: http://localhost:8000/docs
Streamlit: http://localhost:8501

2) Airflow (Docker)

See docker_airflow/README_airflow.md for details. TL;DR:

cd docker_airflow
docker compose down -v
docker compose up airflow-init
docker compose up -d webserver scheduler

Airflow UI: http://localhost:8080 (admin / admin)

Results

ROC‑AUC: 0.86
F1 macro: 0.75
Holdout period: 2021‑11 → 2021‑12

Model metadata & artifacts are recorded in MODEL_INFO.json.

Useful links

Airflow how‑to: docker_airflow/README_airflow.md
Model passport: MODEL_INFO.json

Author

Konstantin Nikiforov — Skillbox ML specialization (2025)

License

This project is licensed under the MIT License. See LICENSE for details.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.streamlit		.streamlit
api/app		api/app
app		app
artifacts/prep		artifacts/prep
dags		dags
docker_airflow		docker_airflow
docs		docs
project/modules		project/modules
release		release
tests		tests
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile.api		Dockerfile.api
Dockerfile.ui		Dockerfile.ui
LICENSE		LICENSE
MODEL_INFO.json		MODEL_INFO.json
README.md		README.md
VERSION		VERSION
batch_example.csv		batch_example.csv
batch_example__scored.csv		batch_example__scored.csv
check_env.py		check_env.py
docker-compose.release.yml		docker-compose.release.yml
docker-compose.yml		docker-compose.yml
env.example		env.example
migrate_models.py		migrate_models.py
project2.ipynb		project2.ipynb
requirements-api.txt		requirements-api.txt
requirements-ui.txt		requirements-ui.txt
template.csv		template.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

BlendCAL — Web-Session Conversion Prediction

Overview

Data volume

Project structure

Tech stack

Quickstart

1) API + UI (Docker)

2) Airflow (Docker)

Results

Useful links

Author

License

About

Uh oh!

Releases 1

Languages

License

KonNik88/blendcal-conversion-prediction

Folders and files

Latest commit

History

Repository files navigation

BlendCAL — Web-Session Conversion Prediction

Overview

Data volume

Project structure

Tech stack

Quickstart

1) API + UI (Docker)

2) Airflow (Docker)

Results

Useful links

Author

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Languages