SCoRe: Self-Correcting Language Model with Reinforcement Learning

This project implements a self-correcting language model that uses reinforcement learning to improve its outputs through multiple attempts.

Features

Two-stage training process with reinforcement learning
Support for both mathematical and coding tasks
Comprehensive evaluation metrics including BLEU, ROUGE, and cyclomatic complexity
Mixed precision training support
Modular and extensible architecture

Installation

Clone the repository:

cd Self-Correcting-LLM--Reinforcement-Learning-

Install the package:

pip install -e .

Usage

Training

To train the model on mathematical tasks:

python main.py --task MATH --data_path ./data --output_dir ./outputs

To train on coding tasks:

python main.py --task CODE --data_path ./data --output_dir ./outputs

Additional options:

--model_variant: Specify the model variant (default: 'decapoda-research/llama-7b-hf')
--mixed_precision: Enable mixed precision training
--no_bleu: Disable BLEU score computation
--no_rouge: Disable ROUGE score computation
--no_cyclomatic: Disable cyclomatic complexity computation

Project Structure

.
├── main.py              # Main training script
├── setup.py            # Package setup file
├── src/
│   └── score_model/    # Main package directory
│       ├── __init__.py
│       ├── config.py   # Configuration classes
│       ├── model.py    # Model implementation
│       ├── dataset.py  # Dataset classes
│       ├── trainer.py  # Training logic
│       └── utils.py    # Utility functions
├── data/               # Data directory
└── outputs/            # Output directory

Requirements

Python >= 3.8
PyTorch >= 2.0.0
Transformers >= 4.30.0
Other dependencies listed in setup.py

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
scripts		scripts
src/score_model		src/score_model
tests		tests
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
all_main.py		all_main.py
docker-compose.yml		docker-compose.yml
main.py		main.py
math_train.json		math_train.json
mynotes.md		mynotes.md
pytest.ini		pytest.ini
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SCoRe: Self-Correcting Language Model with Reinforcement Learning

Features

Installation

Usage

Training

Project Structure

Requirements

About

Releases

Packages

Languages

sanowl/Self-Correcting-LLM--Reinforcement-Learning-

Folders and files

Latest commit

History

Repository files navigation

SCoRe: Self-Correcting Language Model with Reinforcement Learning

Features

Installation

Usage

Training

Project Structure

Requirements

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages