NVIDIA-NeMo · guyueh1 · Oct 8, 2025 · Oct 13, 2025 · Oct 15, 2025 · Oct 15, 2025
@@ -0,0 +1,59 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+  val_batch_size: 5
+  max_val_samples: 16
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-deepseek-v3-32n8g
+policy:
+  model_name: unsloth/DeepSeek-V3-0324-BF16
+  tokenizer:
+    name: unsloth/DeepSeek-V3-0324-BF16
+  train_micro_batch_size: 1
+  logprob_batch_size: 1
+  max_total_sequence_length: 1536
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    pipeline_model_parallel_size: 16
+    expert_model_parallel_size: 16
+    activation_checkpointing: true
+    num_layers_in_first_pipeline_stage: 3
+    num_layers_in_last_pipeline_stage: 2
+    apply_rope_fusion: false
+    moe_permute_fusion: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      tensor_parallel_size: 32
+      async_engine: true
+logger:
+  log_dir: logs/grpo-deepseek-v3-32n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-deepseek-v3-32n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 32
@@ -0,0 +1,54 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+policy:
+  model_name: meta-llama/Llama-3.1-8B-Instruct
+  tokenizer:
+    name: meta-llama/Llama-3.1-8B-Instruct
+  train_micro_batch_size: 1
+  logprob_batch_size: 2
+  max_total_sequence_length: 4096
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    pipeline_model_parallel_size: 2
+    activation_checkpointing: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    max_new_tokens: 4096
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      max_model_len: 4096
+data:
+  max_input_seq_length: 4096
+logger:
+  log_dir: logs/grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+cluster:
+  gpus_per_node: 8
+  num_nodes: 1
@@ -0,0 +1,54 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+policy:
+  model_name: meta-llama/Llama-3.1-8B-Instruct
+  tokenizer:
+    name: meta-llama/Llama-3.1-8B-Instruct
+  train_micro_batch_size: 1
+  logprob_batch_size: 2
+  max_total_sequence_length: 4096
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    pipeline_model_parallel_size: 2
+    activation_checkpointing: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    max_new_tokens: 4096
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      max_model_len: 4096
+data:
+  max_input_seq_length: 4096
+logger:
+  log_dir: logs/grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-llama3.1-8b-instruct-1n8g-megatron-fp8-e2e
+cluster:
+  gpus_per_node: 8
+  num_nodes: 2
@@ -0,0 +1,42 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+checkpointing:
+  enabled: false
+  checkpoint_dir: results/grpo-llama3.3-70b-instruct-4n8g-16k
+policy:
+  model_name: meta-llama/Llama-3.3-70B-Instruct
+  train_micro_batch_size: 1
+  max_total_sequence_length: 16384
+  dtensor_cfg:
+    enabled: false
+  optimizer: null
+  scheduler: null
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    activation_checkpointing: true
+    tensor_model_parallel_size: 4
+    pipeline_model_parallel_size: 8
+    sequence_parallel: true
+    optimizer:
+      lr: 3.0e-07
+      min_lr: 3.0e-08
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 3.0e-08
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 4
+logger:
+  log_dir: logs/grpo-llama3.3-70b-instruct-4n8g-16k
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-llama3.3-70b-instruct-4n8g-16k
+cluster:
+  gpus_per_node: 8
+  num_nodes: 4
@@ -0,0 +1,41 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+checkpointing:
+  enabled: false
+  checkpoint_dir: results/grpo-llama3.3-70b-instruct-4n8g
+policy:
+  model_name: meta-llama/Llama-3.3-70B-Instruct
+  train_micro_batch_size: 1
+  max_total_sequence_length: 4096
+  dtensor_cfg:
+    enabled: false
+  optimizer: null
+  scheduler: null
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    tensor_model_parallel_size: 4
+    pipeline_model_parallel_size: 8
+    sequence_parallel: true
+    optimizer:
+      lr: 3.0e-07
+      min_lr: 3.0e-08
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 3.0e-08
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 4
+logger:
+  log_dir: logs/grpo-llama3.3-70b-instruct-4n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-llama3.3-70b-instruct-4n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 4
@@ -0,0 +1,61 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 16
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+  val_batch_size: 5
+  max_val_samples: 16
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-235b-16n8g
+policy:
+  model_name: Qwen/Qwen3-235B-A22B
+  tokenizer:
+    name: Qwen/Qwen3-235B-A22B
+  train_micro_batch_size: 1
+  logprob_batch_size: 1
+  max_total_sequence_length: 8192
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    tensor_model_parallel_size: 2
+    sequence_parallel: true
+    pipeline_model_parallel_size: 8
+    context_parallel_size: 2
+    expert_model_parallel_size: 16
+    activation_checkpointing: true
+    num_layers_in_first_pipeline_stage: 11
+    num_layers_in_last_pipeline_stage: 11
+    moe_permute_fusion: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      tensor_parallel_size: 16
+      async_engine: true
+logger:
+  log_dir: logs/grpo-qwen3-235b-16n8g
+  wandb_enabled: true
+  tensorboard_enabled: false # to avoid a bug
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-235b-16n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 16
@@ -0,0 +1,61 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 16
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+  val_batch_size: 5
+  max_val_samples: 16
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-235b-16n8g
-  checkpoint_dir: results/grpo-qwen3-235b-16n8g
+  checkpoint_dir: results/grpo-qwen3-235b-32n8g
-  checkpoint_dir: results/grpo-qwen3-235b-16n8g
+  checkpoint_dir: results/grpo-qwen3-235b-32n8g
+policy:
+  model_name: Qwen/Qwen3-235B-A22B
+  tokenizer:
+    name: Qwen/Qwen3-235B-A22B
+  train_micro_batch_size: 1
+  logprob_batch_size: 1
+  max_total_sequence_length: 8192
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    tensor_model_parallel_size: 2
+    sequence_parallel: true
+    pipeline_model_parallel_size: 8
+    context_parallel_size: 2
+    expert_model_parallel_size: 16
+    activation_checkpointing: true
+    num_layers_in_first_pipeline_stage: 11
+    num_layers_in_last_pipeline_stage: 11
+    moe_permute_fusion: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      tensor_parallel_size: 16
+      async_engine: true
+logger:
+  log_dir: logs/grpo-qwen3-235b-16n8g
+  wandb_enabled: true
+  tensorboard_enabled: false # to avoid a bug
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-235b-16n8g
-  log_dir: logs/grpo-qwen3-235b-16n8g
-  wandb_enabled: true
-  tensorboard_enabled: false # to avoid a bug
-  wandb:
-    project: nemo-rl
-    name: grpo-qwen3-235b-16n8g
+  log_dir: logs/grpo-qwen3-235b-32n8g
+  wandb_enabled: true
+  tensorboard_enabled: false # to avoid a bug
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-235b-32n8g
-  log_dir: logs/grpo-qwen3-235b-16n8g
-  wandb_enabled: true
-  tensorboard_enabled: false # to avoid a bug
-  wandb:
-    project: nemo-rl
-    name: grpo-qwen3-235b-16n8g
+  log_dir: logs/grpo-qwen3-235b-32n8g
+  wandb_enabled: true
+  tensorboard_enabled: false # to avoid a bug
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-235b-32n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 32