FlashRL Megakernel

Based on RLtools, which is a CPU focused deep RL for continuous control library.

Timing

Full PPO step (rollout, GAE, actor training, critic training)

Step time: 6150 ms

Collect: 415 ms
Evaluate critic (for GAE): 430 ms
Training: 5120 ms
- Epoch $\times$ Batch $= 32$
- Actor forward: 24 ms
- Actor backward: 57 ms
- Train critic: 81 ms

Name		Name	Last commit message	Last commit date
Latest commit History 3,858 Commits
.github/workflows		.github/workflows
.vscode		.vscode
cmake		cmake
include/rl_tools		include/rl_tools
misc		misc
src		src
static		static
tests		tests
tools		tools
.gdbinit		.gdbinit
.gitignore		.gitignore
.lldbinit		.lldbinit
CMakeLists.txt		CMakeLists.txt
LICENSE		LICENSE
README.md		README.md
index.html		index.html