BetterRAG

🚀 Supercharge your RAG pipeline with optimized text chunking

✨ Overview

BetterRAG helps you find the optimal text chunking strategy for your Retrieval-Augmented Generation pipeline through rigorous, data-driven evaluation. Stop guessing which chunking method works best—measure it!

📊 Compare Strategies

⚙️ Zero-Code Configuration

📈 Interactive Dashboard

🔎 Why BetterRAG?

Text chunking can make or break your RAG system's performance. Different strategies yield dramatically different results, but the optimal approach depends on your specific documents and use case. BetterRAG provides:

Quantitative comparison between chunking strategies
Visualized metrics to understand performance differences
Clear recommendations based on real data
No coding required to evaluate and improve your pipeline

🛠️ Features

🧩 Multiple Chunking Strategies Fixed-size chunking: Simple token-based splitting Recursive chunking: Follows document hierarchy Semantic chunking: Preserves meaning and context	🤖 LLM Integration Azure OpenAI compatibility Google Gemini support Extensible for other models
📊 Comprehensive Metrics Context precision Token efficiency Answer relevance Latency measurement	💾 Persistent Storage MongoDB integration Reuse embeddings across evaluations Cache results for faster iteration

🚀 Quick Start

Prerequisites

Python 3.8+
MongoDB (local or remote)
API keys for Azure OpenAI and/or Google Gemini

Installation in 3 Steps

# 1. Clone the repository
git clone https://github.com/yourusername/betterrag.git
cd betterrag

# 2. Install dependencies
pip install -r requirements.txt

# 3. Set up your configuration
cp config.template.yaml config.yaml
# Edit config.yaml with your API keys and preferences

Running Your First Evaluation

# Add your documents to data/documents/

# Run the evaluation
python -m app.main

# View the interactive dashboard
# Default: http://127.0.0.1:8050/

📊 Sample Results

BetterRAG provides clear visual comparisons between chunking strategies:

Based on comprehensive metrics, BetterRAG will recommend the most effective chunking approach for your specific documents and queries.

⚙️ Configuration Options

BetterRAG uses a single YAML configuration file for all settings:

# Chunking strategies to evaluate
chunking:
  fixed_size:
    enabled: true
    chunk_size: 500
    chunk_overlap: 50
  
  recursive:
    enabled: true
    chunk_size: 1000
    separators: ["\n\n", "\n", " ", ""]
  
  semantic:
    enabled: true
    model: "all-MiniLM-L6-v2"

# API credentials (or use environment variables)
api:
  azure_openai:
    api_key: ${AZURE_OPENAI_API_KEY}
    endpoint: ${AZURE_OPENAI_ENDPOINT}

See config_setup.md for detailed configuration instructions.

🔧 Advanced Usage

# Run dashboard only (using previously processed data)
python -m app.main --dashboard-only

# Reset database before processing
python -m app.main --reset-db

# Use custom config file
python -m app.main --config my_custom_config.yaml

🛠️ Extending BetterRAG

Adding a New Chunking Strategy

Create a new chunker implementation in app/chunkers/
Register it in app/chunkers/__init__.py
Add configuration parameters in config.yaml

Custom Metrics

Extend the ChunkingEvaluator class in app/evaluation/metrics.py to add new metrics.

🤝 Contributing

Contributions are welcome! Feel free to:

Report bugs and issues
Suggest new features or enhancements
Add support for additional LLM providers
Implement new chunking strategies

📜 License

This project is licensed under the MIT License - see the LICENSE file for details.

Built with ❤️ for the RAG community

Report Bug · Request Feature

Name	Name	Last commit message	Last commit date
Latest commit Kaos599 Update README.md Mar 26, 2025 e959e7b · Mar 26, 2025 History 12 Commits
app	app	Enhance evaluation process by adding batch processing capabilities an…	Mar 18, 2025
data	data	init	Mar 17, 2025
.gitignore	.gitignore	init	Mar 17, 2025
README.md	README.md	Update README.md	Mar 26, 2025
check_integrity.py	check_integrity.py	Enhance logging and error handling, improve dashboard functionality, …	Mar 17, 2025
config.template.yaml	config.template.yaml	Enhance evaluation process by adding batch processing capabilities an…	Mar 18, 2025
config_setup.md	config_setup.md	init	Mar 17, 2025
requirements.txt	requirements.txt	Updated requirements.txt to upgrade package versions for improved com…	Mar 19, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BetterRAG

✨ Overview

🔎 Why BetterRAG?

🛠️ Features

🧩 Multiple Chunking Strategies

🤖 LLM Integration

📊 Comprehensive Metrics

💾 Persistent Storage

🚀 Quick Start

Prerequisites

Installation in 3 Steps

Running Your First Evaluation

📊 Sample Results

⚙️ Configuration Options

🔧 Advanced Usage

🛠️ Extending BetterRAG

Adding a New Chunking Strategy

Custom Metrics

🤝 Contributing

📜 License

About

Releases

Packages

Languages

Kaos599/BetterRAG

Folders and files

Latest commit

History

Repository files navigation

BetterRAG

✨ Overview

🔎 Why BetterRAG?

🛠️ Features

🧩 Multiple Chunking Strategies

🤖 LLM Integration

📊 Comprehensive Metrics

💾 Persistent Storage

🚀 Quick Start

Prerequisites

Installation in 3 Steps

Running Your First Evaluation

📊 Sample Results

⚙️ Configuration Options

🔧 Advanced Usage

🛠️ Extending BetterRAG

Adding a New Chunking Strategy

Custom Metrics

🤝 Contributing

📜 License

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages