a-r-r-o-w · sayakpaul · Nov 29, 2024 · Nov 17, 2024 · Nov 17, 2024 · Nov 18, 2024
diff --git a/training/__init__.py b/training/__init__.py
diff --git a/training/mochi-1/args.py b/training/mochi-1/args.py
diff --git a/training/mochi-1/dataset.py b/training/mochi-1/dataset.py
diff --git a/training/mochi-1/deepspeed.yaml b/training/mochi-1/deepspeed.yaml
@@ -0,0 +1,23 @@
+compute_environment: LOCAL_MACHINE
+debug: false
+deepspeed_config:
+  gradient_accumulation_steps: 1
+  gradient_clipping: 1.0
+  offload_optimizer_device: cpu
+  offload_param_device: cpu
+  zero3_init_flag: false
+  zero_stage: 2
+distributed_type: DEEPSPEED
+downcast_bf16: 'no'
+enable_cpu_affinity: false
+machine_rank: 0
+main_training_function: main
+mixed_precision: bf16
+num_machines: 1
+num_processes: 1
+rdzv_backend: static
+same_network: true
+tpu_env: []
+tpu_use_cluster: false
+tpu_use_sudo: false
+use_cpu: false