FineLlama-RL: Optimizing FineMath-Llama-3B with Reinforcement Learning

This repository contains the implementation for optimizing the FineMath-Llama-3B model using two reinforcement learning techniques:

Proximal Policy Optimization (PPO)
Gradient-based Reinforcement with Paired Optimization (GRPO)

The project aims to compare these methods for improving mathematical reasoning capabilities in language models.

About FineMath-Llama-3B

FineMath-Llama-3B is a 3.21B parameter language model specialized on high-quality English mathematical content. This project fine-tunes this model to further enhance its mathematical reasoning capabilities.

Repository Structure

finellama-rl/
├── README.md                  # Project overview, installation, usage instructions
├── requirements.txt           # All dependencies with versions
├── configs/                   # Configuration files
├── data/                      # Data preparation and utilities
├── src/                       # Source code
│   ├── models/                # Model definition and loading utilities
│   ├── rl/                    # RL algorithms implementation
│   ├── eval/                  # Evaluation framework
│   └── utils/                 # Utility functions
├── scripts/                   # Training and evaluation scripts
├── experiments/               # Comparative experiments
└── notebooks/                 # Analysis notebooks

Installation

Prerequisites

Python 3.8+
CUDA-compatible GPU with at least 16GB memory (recommended)

Setup

Clone the repository:

git clone https://github.com/yourusername/finellama-rl.git
cd finellama-rl

Create a virtual environment and activate it:

python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

Install dependencies:

pip install -r requirements.txt

Usage

Data Preparation

Prepare the FineMath dataset:

python data/prepare_data.py --output_dir data/processed --split_ratio 0.9,0.1

Training

PPO Training

python scripts/run_ppo_training.py --config configs/ppo_config.yaml

GRPO Training

python scripts/run_grpo_training.py --config configs/grpo_config.yaml

Evaluation

Evaluate Baseline Model

python scripts/run_baseline_eval.py --config configs/eval_config.yaml

Evaluate PPO-Optimized Model

python scripts/run_ppo_eval.py --config configs/eval_config.yaml --model_path checkpoints/ppo_model

Evaluate GRPO-Optimized Model

python scripts/run_grpo_eval.py --config configs/eval_config.yaml --model_path checkpoints/grpo_model

Comparative Analysis

Compare all methods:

python experiments/compare_methods.py --baseline_results results/baseline --ppo_results results/ppo --grpo_results results/grpo

Configuration

All hyperparameters can be configured through YAML files in the configs/ directory:

model_config.yaml: Model parameters
ppo_config.yaml: PPO training hyperparameters
grpo_config.yaml: GRPO training hyperparameters
eval_config.yaml: Evaluation settings

Evaluation Datasets

The framework evaluates model performance on several mathematical reasoning datasets:

GSM8K
MATH dataset
Custom test sets

Results and Analysis

Analysis of training runs and model comparisons are available in Jupyter notebooks in the notebooks/ directory.

Citation

If you use this code for your research, please cite our paper:

@article{author2023comparing,
  title={Comparing PPO and GRPO for Optimizing Mathematical Reasoning in Language Models},
  author={Author, A. and Author, B.},
  journal={Conference/Journal Name},
  year={2023}
}

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.git.bak		.git.bak
configs		configs
data		data
experiments		experiments
finellama-rl-backup		finellama-rl-backup
finellama-rl		finellama-rl
notebooks		notebooks
scripts		scripts
src		src
ENV_FILE_USAGE.md		ENV_FILE_USAGE.md
README.md		README.md
TOKEN_SECURITY.md		TOKEN_SECURITY.md
requirements.txt		requirements.txt
setup_env.sh		setup_env.sh
setup_env_file.sh		setup_env_file.sh
slurm_download_model.sh		slurm_download_model.sh
slurm_grpo_train.sh		slurm_grpo_train.sh
slurm_master_workflow.sh		slurm_master_workflow.sh
test.md		test.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FineLlama-RL: Optimizing FineMath-Llama-3B with Reinforcement Learning

About FineMath-Llama-3B

Repository Structure

Installation

Prerequisites

Setup

Usage

Data Preparation

Training

PPO Training

GRPO Training

Evaluation

Evaluate Baseline Model

Evaluate PPO-Optimized Model

Evaluate GRPO-Optimized Model

Comparative Analysis

Configuration

Evaluation Datasets

Results and Analysis

Citation

License

About

Releases

Packages

Languages

acbueff/finellama-rl

Folders and files

Latest commit

History

Repository files navigation

FineLlama-RL: Optimizing FineMath-Llama-3B with Reinforcement Learning

About FineMath-Llama-3B

Repository Structure

Installation

Prerequisites

Setup

Usage

Data Preparation

Training

PPO Training

GRPO Training

Evaluation

Evaluate Baseline Model

Evaluate PPO-Optimized Model

Evaluate GRPO-Optimized Model

Comparative Analysis

Configuration

Evaluation Datasets

Results and Analysis

Citation

License

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages