LLM Reliability Lab (MVP)

A production-style SRE sandbox that serves an LLM endpoint, injects failures, tracks SLOs, emits Prometheus metrics, and auto-heals on incidents.

🎯 Goals

Demonstrate SRE fundamentals applied to inference endpoints
Instrument SLIs: latency, availability, error rate, GPU utilization
Run chaos tests and automated remediation
AI-assisted development with human review and safety guardrails

�️ Architecture

LLM Service: Ollama running smollm
API Service: FastAPI wrapper with instrumentation
Monitoring: Prometheus (metrics) + Grafana (visualization)

�📊 SLIs (out of the box)

SLI	Captured Metric
Latency	`llm_request_latency_seconds_bucket` (histogram)
Availability	`llm_request_total` + `llm_request_errors_total`
Error Rate	`llm_request_errors_total`
GPU Utilization	`llm_gpu_utilization_percent` (simulated)
Saturation	`llm_inference_in_flight`

🏁 SLO

See docs/SLO.md

🚨 Alerts + Remediation

Alerts trigger container restarts via the remediation script.

🚀 Quick Start

Start the stack:
```
docker compose up --build -d
```
Run chaos experiments (optional):
```
python chaos.py
```
Run remediation (optional):
```
./remediate.sh
```

📈 Monitoring

The project includes a pre-configured monitoring stack:

Prometheus: http://localhost:9090
- Scrapes metrics from the API service and itself.
Grafana: http://localhost:3000
- Login: admin / admin
- Dashboards: The "LLM Reliability (MVP)" dashboard is automatically provisioned and ready to view.

🧪 Testing

To run the test suite (including infrastructure tests):

pip install -r requirements.txt
PYTHONPATH=. pytest

⚠️ Security

No secrets in plaintext
Uses environment variables (see .env.example)
Always key-rotate before production reuse

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.claude		.claude
.github/workflows		.github/workflows
dashboards		dashboards
docs		docs
grafana/provisioning		grafana/provisioning
logs		logs
prometheus		prometheus
tests		tests
.env.example		.env.example
.gitignore		.gitignore
CONTRIBUTING.md		CONTRIBUTING.md
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
app.py		app.py
chaos.py		chaos.py
docker-compose.yml		docker-compose.yml
remediate.sh		remediate.sh
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LLM Reliability Lab (MVP)

🎯 Goals

�️ Architecture

�📊 SLIs (out of the box)

🏁 SLO

🚨 Alerts + Remediation

🚀 Quick Start

📈 Monitoring

🧪 Testing

⚠️ Security

About

Uh oh!

Releases 1

Packages

Contributors 2

Uh oh!

Languages

License

daryllundy/llm-reliability-lab

Folders and files

Latest commit

History

Repository files navigation

LLM Reliability Lab (MVP)

🎯 Goals

�️ Architecture

�📊 SLIs (out of the box)

🏁 SLO

🚨 Alerts + Remediation

🚀 Quick Start

📈 Monitoring

🧪 Testing

⚠️ Security

About

Topics

Resources

License

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Uh oh!

Languages

Packages