NVIDIA · jacobhinkle · Jan 29, 2025 · Jan 30, 2025 · Jan 31, 2025 · Jan 31, 2025
diff --git a/csrc/codegen.cpp b/csrc/codegen.cpp
@@ -279,13 +279,15 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
       const std::string& kernel_name,
       std::optional<int64_t> num_threads_per_cta) {
     code_ << "__global__ void ";
+    if (num_threads_per_cta.has_value()) {
+      code_ << "__launch_bounds__(/*MAX_THREADS_PER_BLOCK=*/"
+            << num_threads_per_cta.value() << ") ";
+    }
     if (kernel_->hasManaged("enable_register_sharing") &&
         kernel_->getManaged<bool>("enable_register_sharing")) {
       NVF_ERROR(
           num_threads_per_cta.has_value(),
           "__launch_bounds__ must be set for register sharing warp specialization");
-      code_ << "__launch_bounds__(/*MAX_THREADS_PER_BLOCK=*/"
-            << num_threads_per_cta.value() << ") ";
     }
     if (kernel_->hasManaged("cluster_dims")) {
       auto cluster_dims =