pytorch
diff --git a/‎fbgemm_gpu/docs/src/nitpick.ignore
Lines changed: 2 additions & 0 deletions b/‎fbgemm_gpu/docs/src/nitpick.ignore
Lines changed: 2 additions & 0 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/bench/quantize_bench.py
Lines changed: 1 addition & 1 deletion b/‎fbgemm_gpu/experimental/gen_ai/bench/quantize_bench.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎fbgemm_gpu/experimental/gen_ai/bench/quantize_ops.py
Lines changed: 2 additions & 2 deletions b/‎fbgemm_gpu/experimental/gen_ai/bench/quantize_ops.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_gemm.hip
Lines changed: 78 additions & 11 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_gemm.hip
Lines changed: 78 additions & 11 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
Lines changed: 50 additions & 19 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
Lines changed: 50 additions & 19 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
Lines changed: 48 additions & 19 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
Lines changed: 48 additions & 19 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2.hip
Lines changed: 50 additions & 20 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/kernels/fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2.hip
Lines changed: 50 additions & 20 deletions
@@ -29,6 +29,8 @@ cpp:identifier Tensor
 cpp:identifier TensorQuantizationParams
 cpp:identifier uint32_t
 cpp:identifier uint8_t
+cpp:identifier cudaStream_t
+cpp:identifier cudaError_t
 
 py:class BoundsCheckMode
 py:class c_size_t
 
@@ -34,7 +34,7 @@ def get_llama_shapes() -> List[Tuple[int, int, int]]:
     # Helper function that returns a list of shapes relevant to llama.
 
     llama_shapes = []
-    for M in [1, 16384]:
+    for M in [1, 16, 32, 64, 96, 128, 16384]:
         # Add shapes for llama 70B
         llama_shapes += [
             (M, 1280, 8192),
 
@@ -70,7 +70,7 @@ def rotating_buffer_fn(fn, args_list, copy_cnt):
             # so divide time accordingly
             return triton.testing.do_bench_cudagraph(
                 lambda: rotating_buffer_fn(self.compute, args_list, copy_cnt + 1),
-                rep=500,
+                rep=200,
             ) / (copy_cnt + 1)
 
     def benchmark(
@@ -259,7 +259,7 @@ def compute(self, xq, wq, x_scale, w_scale, dummy_scale):
             use_fast_accum=True,
         )
         # Apply separate rowwise scaling.
-        output = output * x_scale[:, None] * w_scale[None, :]
+        output = scale_fp8_row(output, x_scale, w_scale)
         return output
 
     def quantize_and_compute(self, x, w):
 
@@ -45,24 +45,79 @@ static const std::unordered_map<
     IntTupleHash>
     rowwise_lookup_dispatch = {
         // LLama 70B Decode shapes.
-        {{1, 1280, 8192},
+        // Support for decode across batch sizes for [1280, 8192]
+        {{16, 1280, 8192},
+         fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2},
+        {{32, 1280, 8192},
          fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2},
-        {{1, 8192, 1024},
+        {{64, 1280, 8192},
+         fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2},
+        {{128, 1280, 8192},
+         fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2},
+        // Support for decode across batch sizes for [8192, 1024]
+        {{16, 8192, 1024},
          fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2},
-        {{1, 7168, 8192},
+        {{32, 8192, 1024},
+         fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2},
+        {{64, 8192, 1024},
+         fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2},
+        {{128, 8192, 1024},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        // Support for decode across batch sizes for [7168, 8192]
+        {{16, 7168, 8192},
+         fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2},
+        {{32, 7168, 8192},
          fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2},
-        {{1, 8192, 3584},
+        {{64, 7168, 8192},
+         fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2},
+        {{128, 7168, 8192},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        // Support for decode across batch sizes for [8192, 3584]
+        {{16, 8192, 3584},
          fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2},
+        {{32, 8192, 3584},
+         fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2},
+        {{64, 8192, 3584},
+         fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2},
+        {{128, 8192, 3584},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
         // Llama 405B Decode Shapes.
-        {{1, 13312, 6656},
+        // Support for decode across batch sizes for [13312, 6656].
+        {{16, 13312, 6656},
          fp8_rowwise_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x4x1x16_4x4x1_1x1_intrawave_v1},
-        {{1, 13312, 16384},
-         //fp8_rowwise_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x4x1x16_4x4x1_1x1_intrawave_v1},
+        {{32, 13312, 6656},
+         fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_intrawave_v2},
+        {{64, 13312, 6656},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        {{128, 13312, 6656},
+         fp8_rowwise_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        // Support for decode across batch sizes for [13312, 16384].
+        {{16, 13312, 16384},
          fp8_rowwise_64x16x16x512_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2},
-        {{1, 16384, 6656},
+        {{32, 13312, 16384},
+         fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2},
+        {{64, 13312, 16384},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        {{128, 13312, 16384},
+         fp8_rowwise_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        // Support for decode across batch sizes for [16384, 6656].
+        {{16, 16384, 6656},
          fp8_rowwise_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x4x1x16_4x4x1_1x1_intrawave_v1},
-        {{1, 16384, 16384},
-         fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2},
+        {{32, 16384, 6656},
+         fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_intrawave_v2},
+        {{64, 16384, 6656},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        {{128, 16384, 6656},
+         fp8_rowwise_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        // Support for decode across batch sizes for [16384, 16384].
+        {{16, 16384, 16384},
+         fp8_rowwise_64x16x16x512_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2},
+        {{32, 16384, 16384},
+         fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2},
+        {{64, 16384, 16384},
+         fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
+        {{128, 16384, 16384},
+         fp8_rowwise_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3},
         // EMU 1.6 Shapes.
         {{1536, 3584, 3584},
          fp8_rowwise_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_interwave_v1},
@@ -117,8 +172,20 @@ RowwiseKernel rowwise_heuristic_dispatch(int M, int N, int K) {
 
 RowwiseKernel rowwise_dispatch(int M, int N, int K) {
   // For a given shape, either find the best kernel via lookup or heuristic.
+  // For many small M shapes, we bucket them to the next largest kernel.
+  // This is fine since kernels are padded anyway.
+  int padded_m = M;
+  if (M <= 16) {
+    padded_m = 16;
+  } else if (M <= 32) {
+    padded_m = 32;
+  } else if (M <= 64) {
+    padded_m = 64;
+  } else if (M <= 128) {
+    padded_m = 128;
+  }
   // First check if this shape is available in the direct lookup.
-  auto it = rowwise_lookup_dispatch.find({M, N, K});
+  auto it = rowwise_lookup_dispatch.find({padded_m, N, K});
   // If we found an optimal kernel, use it.
   if (it != rowwise_lookup_dispatch.end()) {
     return it->second;
 
@@ -16,23 +16,54 @@ fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v
     at::Tensor w_scale,
     at::Tensor Y) {
   // The smallest kernel we have available. Works well for memory bound shapes.
-  using DeviceGemmInstance = DeviceGemmHelper<
-      128,
-      16,
-      32,
-      128,
-      16,
-      16,
-      1,
-      1,
-      S<8, 16, 1>,
-      S<8, 16, 1>,
-      S<1, 16, 1, 8>,
-      S<4, 4, 1>,
-      1,
-      1,
-      ck::BlockGemmPipelineScheduler::Interwave,
-      ck::BlockGemmPipelineVersion::v2>;
-  // Run kernel instance.
-  return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+  // Check if this input needs to be padded.
+  int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+  int N = WQ.size(0);
+  int K = WQ.size(1);
+  bool pad = (M % 16 != 0) || (N % 32 != 0) || (K % 128 != 0);
+
+  if (pad) {
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        16,
+        32,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<4, 4, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Interwave,
+        ck::BlockGemmPipelineVersion::v2>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  } else {
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        16,
+        32,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<4, 4, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Interwave,
+        ck::BlockGemmPipelineVersion::v2,
+        ck::tensor_operation::device::GemmSpecialization::Default>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+  }
 }
@@ -16,23 +16,52 @@ fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v
     at::Tensor w_scale,
     at::Tensor Y) {
   // The smallest kernel we have available. Works well for memory bound shapes.
-  using DeviceGemmInstance = DeviceGemmHelper<
-      128,
-      16,
-      32,
-      128,
-      16,
-      16,
-      1,
-      1,
-      S<8, 16, 1>,
-      S<8, 16, 1>,
-      S<1, 16, 1, 8>,
-      S<4, 4, 1>,
-      1,
-      1,
-      ck::BlockGemmPipelineScheduler::Intrawave,
-      ck::BlockGemmPipelineVersion::v2>;
-  // Run kernel instance.
-  return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+  // Check if this input needs to be padded.
+  int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+  int N = WQ.size(0);
+  int K = WQ.size(1);
+  bool pad = (M % 16 != 0) || (N % 32 != 0) || (K % 128 != 0);
+  if (pad) {
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        16,
+        32,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<4, 4, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Intrawave,
+        ck::BlockGemmPipelineVersion::v2>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  } else{
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        16,
+        32,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<4, 4, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Intrawave,
+        ck::BlockGemmPipelineVersion::v2,
+        ck::tensor_operation::device::GemmSpecialization::Default>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  }
 }
@@ -15,24 +15,54 @@ fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v
     at::Tensor x_scale,
     at::Tensor w_scale,
     at::Tensor Y) {
-  // The smallest kernel we have available. Works well for memory bound shapes.
-  using DeviceGemmInstance = DeviceGemmHelper<
-      128,
-      32,
-      16,
-      128,
-      16,
-      16,
-      1,
-      1,
-      S<8, 16, 1>,
-      S<8, 16, 1>,
-      S<1, 16, 1, 8>,
-      S<2, 2, 1>,
-      1,
-      1,
-      ck::BlockGemmPipelineScheduler::Interwave,
-      ck::BlockGemmPipelineVersion::v2>;
-  // Run kernel instance.
-  return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  // A small kernel for small but not tiny shapes.
+
+    // Check if this input needs to be padded.
+  int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+  int N = WQ.size(0);
+  int K = WQ.size(1);
+  bool pad = (M % 32 != 0) || (N % 16 != 0) || (K % 128 != 0);
+
+  if (pad) {
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        32,
+        16,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<2, 2, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Interwave,
+        ck::BlockGemmPipelineVersion::v2>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  } else {
+    using DeviceGemmInstance = DeviceGemmHelper<
+        128,
+        32,
+        16,
+        128,
+        16,
+        16,
+        1,
+        1,
+        S<8, 16, 1>,
+        S<8, 16, 1>,
+        S<1, 16, 1, 8>,
+        S<2, 2, 1>,
+        1,
+        1,
+        ck::BlockGemmPipelineScheduler::Interwave,
+        ck::BlockGemmPipelineVersion::v2,
+        ck::tensor_operation::device::GemmSpecialization::Default>;
+    // Run kernel instance.
+    return f8f8bf16_rowwise_impl<DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+  }
 }