Convert batch-matrix-multiply nodes with 2D weights to fully-connected nodes.

gonnet · xnnpack-bot · commit 736076ea8b87 · 2025-11-10T04:18:17.000-08:00
PiperOrigin-RevId: 829464154
diff --git a/src/subgraph.c b/src/subgraph.c
@@ -3621,6 +3621,56 @@ static enum xnn_status optimize_common_subgraphs_gemm_rhs_transpose(
   return xnn_status_success;
 }
 
+// Converts batch-matrix-multiply nodes with 2D weights to fully-connected nodes
+// for consistency.
+static enum xnn_status optimize_common_subgraphs_bmm_to_fc(
+    xnn_subgraph_t subgraph, uint32_t node_id, size_t* changes) {
+  struct xnn_node* node = &subgraph->nodes[node_id];
+  if (node->type != xnn_node_type_batch_matrix_multiply) {
+    return xnn_status_success;
+  }
+
+  const uint32_t input_a_id = node->inputs[0];
+  const uint32_t input_b_id = node->inputs[1];
+  const uint32_t output_id = node->outputs[0];
+  struct xnn_value* input_b_value = &subgraph->values[input_b_id];
+  const enum xnn_datatype packed_input_datatype = node->packed_input_datatype;
+
+  // Weights should have at least two dimensions, and batch dimensions
+  // should all be 1.
+  if (input_b_value->shape.num_dims != 2) {
+    return xnn_status_success;
+  }
+
+  // If the weights are dynamic, restrict to fp32/fp16.
+  if (!xnn_value_is_static(input_b_value->allocation_type) &&
+      !(input_b_value->datatype == xnn_datatype_fp32 ||
+        input_b_value->datatype == xnn_datatype_fp16)) {
+    return xnn_status_success;
+  }
+
+  // Replace with a fully-connected node.
+  XNN_RETURN_IF_ERROR(
+      xnn_define_fully_connected(
+          subgraph,
+          /*output_min=*/-INFINITY, /*output_max=*/INFINITY, input_a_id,
+          input_b_id, /*bias_id=*/XNN_INVALID_VALUE_ID, output_id,
+          node->flags ^ XNN_FLAG_TRANSPOSE_WEIGHTS),
+      "Failed to create new `fully_connected` node.");
+  node = &subgraph->nodes[node_id];
+  *node = subgraph->nodes[--subgraph->num_nodes];
+  node->id = node_id;
+  node->packed_input_datatype = packed_input_datatype;
+
+  xnn_log_info(
+      "Converted batch_matrix_multiply[#%u](v%03u, v%03u) to "
+      "fully_connected[#%u](v%03u, v%03u).",
+      node_id, input_a_id, input_b_id, node_id, input_a_id, input_b_id);
+  (*changes)++;
+
+  return xnn_status_success;
+}
+
 static enum xnn_status optimize_common_subgraphs_iter(
     xnn_subgraph_t subgraph, uint32_t optimization_flags, size_t* changes) {
   // Loop over the nodes in this subgraph.
@@ -3739,8 +3789,14 @@ static enum xnn_status optimize_common_subgraphs_iter(
         // be pushed back to the static value.
         break;
 
-      case xnn_node_type_fully_connected:
       case xnn_node_type_batch_matrix_multiply:
+        // Convert batch-matrix-multiply nodes with 2D weights to
+        // fully-connected nodes for consistency.
+        XNN_RETURN_IF_ERROR(
+            optimize_common_subgraphs_bmm_to_fc(subgraph, node_id, changes));
+        XNN_FALLTHROUGH
+
+      case xnn_node_type_fully_connected:
         // Merge or remove transposes of the RHS of a batch-matrix-multiply or
         // fully-connected op.
         XNN_RETURN_IF_ERROR(optimize_common_subgraphs_gemm_rhs_transpose(
@@ -4178,10 +4234,6 @@ enum xnn_status xnn_subgraph_optimize(xnn_subgraph_t subgraph,
     return xnn_status_unsupported_hardware;
   }
 
-  // Apply some common subgraph optimizations.
-  XNN_RETURN_IF_ERROR(
-      xnn_subgraph_optimize_common_subgraphs(subgraph, optimization_flags));
-
   if ((optimization_flags & XNN_FLAG_FORCE_FP16_INFERENCE) &&
       (!xnn_is_f16_compatible_config(hardware_config))) {
     xnn_log_error(
@@ -4234,6 +4286,10 @@ enum xnn_status xnn_subgraph_optimize(xnn_subgraph_t subgraph,
   XNN_RETURN_IF_ERROR(
       xnn_subgraph_optimize_packed_lhs(subgraph, optimization_flags));
 
+  // Apply some common subgraph optimizations.
+  XNN_RETURN_IF_ERROR(
+      xnn_subgraph_optimize_common_subgraphs(subgraph, optimization_flags));
+
   return xnn_status_success;
 }
 
diff --git a/src/subgraph/fully-connected.c b/src/subgraph/fully-connected.c
@@ -262,14 +262,17 @@ static enum xnn_status create_fully_connected_operator(
   const struct xnn_runtime_value* output_value = &values[output_id];
 
   size_t output_channels, input_channels;
+  const struct xnn_shape* filter_shape = &filter_value->shape;
   if (node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS) {
-    input_channels = filter_value->shape.dim[0];
-    output_channels = filter_value->shape.dim[1];
+    input_channels =
+        xnn_shape_multiply_batch_dims(filter_shape, /*num_nonbatch_dims=*/1);
+    output_channels = filter_shape->dim[filter_shape->num_dims - 1];
   } else {
-    output_channels = filter_value->shape.dim[0];
+    output_channels =
+        xnn_shape_multiply_batch_dims(filter_shape, /*num_nonbatch_dims=*/1);
     // Note that for convolutions, the filter shape can be `[H, 1, 1, W]`, so we
     // need to look at the last dimension of the filter.
-    input_channels = filter_value->shape.dim[filter_value->shape.num_dims - 1];
+    input_channels = filter_shape->dim[filter_shape->num_dims - 1];
   }
 
   const void* kernel_data = filter_value->data;
@@ -765,18 +768,20 @@ enum xnn_status resize_fully_connected_output_tensor(
   const uint32_t input_id = opdata->inputs[0];
   const struct xnn_runtime_value* input = &values[input_id];
 
-  output->shape.num_dims = input->shape.num_dims;
-  // Infer output channels.
-  const uint32_t filter_output_channel_index =
-      (opdata->flags & XNN_FLAG_TRANSPOSE_WEIGHTS) ? 1 : 0;
-  output->shape.dim[output->shape.num_dims - 1] =
-      filter->shape.dim[filter_output_channel_index];
-
   // Propagate input shape to output.
+  output->shape.num_dims = input->shape.num_dims;
   for (size_t cur_dim = 0; cur_dim < input->shape.num_dims - 1; cur_dim++) {
     output->shape.dim[cur_dim] = input->shape.dim[cur_dim];
   }
 
+  // Infer output channels.
+  const size_t filter_output_channels =
+      (opdata->flags & XNN_FLAG_TRANSPOSE_WEIGHTS)
+          ? filter->shape.dim[filter->shape.num_dims - 1]
+          : xnn_shape_multiply_batch_dims(&filter->shape,
+                                          /*num_nonbatch_dims=*/1);
+  output->shape.dim[output->shape.num_dims - 1] = filter_output_channels;
+
   const size_t new_size = xnn_runtime_tensor_get_size(output);
   if (new_size > output->size || old_workspace_size < opdata->workspace_size) {
     output->size = new_size;
@@ -804,21 +809,22 @@ static enum xnn_status reshape_fully_connected_operator(
   if (output_value->flags & XNN_VALUE_FLAG_LAYOUT_NCHW) {
     return reshape_convolution_operator(opdata, values, num_values, threadpool);
   }
-  const size_t num_input_elements =
-      xnn_shape_multiply_all_dims(&input_value->shape);
   size_t output_channels, input_channels;
+  const struct xnn_shape* filter_shape = &filter_value->shape;
   if (opdata->flags & XNN_FLAG_TRANSPOSE_WEIGHTS) {
-    input_channels = filter_value->shape.dim[0];
-    output_channels = filter_value->shape.dim[1];
+    input_channels =
+        xnn_shape_multiply_batch_dims(filter_shape, /*num_nonbatch_dims=*/1);
+    output_channels = filter_shape->dim[filter_shape->num_dims - 1];
   } else {
-    output_channels = filter_value->shape.dim[0];
+    output_channels =
+        xnn_shape_multiply_batch_dims(filter_shape, /*num_nonbatch_dims=*/1);
     // Note that for convolutions, the filter shape can be `[H, 1, 1, W]`, so we
     // need to look at the last dimension of the filter.
-    input_channels = filter_value->shape.dim[filter_value->shape.num_dims - 1];
+    input_channels = filter_shape->dim[filter_shape->num_dims - 1];
   }
 
-  const size_t batch_size = num_input_elements / input_channels;
-  assert(batch_size * input_channels == num_input_elements);
+  const size_t batch_size = xnn_shape_multiply_batch_dims(
+      &input_value->shape, /*num_nonbatch_dims=*/1);
   const size_t old_workspace_size = opdata->workspace_size;
   enum xnn_status status = xnn_status_invalid_state;
 
@@ -1280,15 +1286,17 @@ static inline bool validate_datatypes_with_bias(
           bias_datatype == xnn_datatype_fp32 &&
           output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
       } else if (input_datatype == xnn_datatype_qpint8 &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp16) {
         return true;
@@ -1299,7 +1307,8 @@ static inline bool validate_datatypes_with_bias(
       }
       break;
     case xnn_datatype_qbint4:
-      if (input_datatype == xnn_datatype_qdint8 &&
+      if ((input_datatype == xnn_datatype_qdint8 ||
+           input_datatype == xnn_datatype_qduint8) &&
           bias_datatype == xnn_datatype_fp32 &&
           output_datatype == xnn_datatype_fp32) {
         return true;
@@ -1318,15 +1327,17 @@ static inline bool validate_datatypes_with_bias(
           bias_datatype == xnn_datatype_fp32 &&
           output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
       } else if (input_datatype == xnn_datatype_qpint8 &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  bias_datatype == xnn_datatype_fp32 &&
                  output_datatype == xnn_datatype_fp16) {
         return true;
@@ -1390,13 +1401,15 @@ static inline bool validate_datatypes_without_bias(
       if (input_datatype == xnn_datatype_fp32 &&
           output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
       } else if (input_datatype == xnn_datatype_qpint8 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  output_datatype == xnn_datatype_fp16) {
         return true;
       } else if (input_datatype == xnn_datatype_qint8 &&
@@ -1405,7 +1418,8 @@ static inline bool validate_datatypes_without_bias(
       }
       break;
     case xnn_datatype_qbint4:
-      if (input_datatype == xnn_datatype_qdint8 &&
+      if ((input_datatype == xnn_datatype_qdint8 ||
+           input_datatype == xnn_datatype_qduint8) &&
           output_datatype == xnn_datatype_fp32) {
         return true;
       } else if (input_datatype == xnn_datatype_qdint8 &&
@@ -1420,13 +1434,15 @@ static inline bool validate_datatypes_without_bias(
       if (input_datatype == xnn_datatype_fp32 &&
           output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
       } else if (input_datatype == xnn_datatype_qpint8 &&
                  output_datatype == xnn_datatype_fp32) {
         return true;
-      } else if (input_datatype == xnn_datatype_qdint8 &&
+      } else if ((input_datatype == xnn_datatype_qdint8 ||
+                  input_datatype == xnn_datatype_qduint8) &&
                  output_datatype == xnn_datatype_fp16) {
         return true;
       } else if (input_datatype == xnn_datatype_qint8 &&
@@ -1491,6 +1507,7 @@ enum xnn_status xnn_define_fully_connected(xnn_subgraph_t subgraph,
     case xnn_datatype_qpint8:
       break;
     case xnn_datatype_qdint8:
+    case xnn_datatype_qduint8:
       if (input_value->quantization.num_nonbatch_dims >
           input_value->shape.num_dims) {
         xnn_log_error("failed to define %s operator with input ID #%" PRIu32
diff --git a/test/subgraph/rewrites.cc b/test/subgraph/rewrites.cc
@@ -23,6 +23,7 @@
 #include "include/xnnpack.h"
 #include "src/subgraph/subgraph-utils.h"
 #include "src/xnnpack/buffer.h"
+#include "src/xnnpack/common.h"
 #include "src/xnnpack/datatype.h"
 #include "src/xnnpack/node-type.h"
 #include "src/xnnpack/subgraph.h"
@@ -1875,9 +1876,17 @@ TEST_P(RewriteGemmTest, RewritesGoiToGioAndElidesSpuriousTranspose) {
       /*expected_node_type_counts=*/{{xnn_node_type_static_transpose, 0}},
       /*test_fn=*/
       [](xnn_subgraph_t subgraph) {
-        const xnn_node* bmm_node = &subgraph->nodes[subgraph->num_nodes - 1];
-        ASSERT_EQ(bmm_node->type, xnn_node_type_batch_matrix_multiply);
-        ASSERT_EQ(bmm_node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+        const xnn_node* node = &subgraph->nodes[subgraph->num_nodes - 1];
+        switch (node->type) {
+          case xnn_node_type_batch_matrix_multiply:
+            ASSERT_EQ(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          case xnn_node_type_fully_connected:
+            ASSERT_NE(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          default:
+            XNN_UNREACHABLE;
+        }
       });
 }
 
@@ -1946,9 +1955,17 @@ TEST_P(RewriteGemmTest, RewritesGioToGoiAndKeepsNonSpuriousTranspose) {
       /*expected_node_type_counts=*/{{xnn_node_type_static_transpose, 1}},
       /*test_fn=*/
       [](xnn_subgraph_t subgraph) {
-        const xnn_node* bmm_node = &subgraph->nodes[subgraph->num_nodes - 1];
-        ASSERT_EQ(bmm_node->type, xnn_node_type_batch_matrix_multiply);
-        ASSERT_NE(bmm_node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+        const xnn_node* node = &subgraph->nodes[subgraph->num_nodes - 1];
+        switch (node->type) {
+          case xnn_node_type_batch_matrix_multiply:
+            ASSERT_NE(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          case xnn_node_type_fully_connected:
+            ASSERT_EQ(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          default:
+            XNN_UNREACHABLE;
+        }
       });
 }
 
@@ -2003,9 +2020,17 @@ TEST_P(RewriteGemmTest, DoesNotRewritesGoiToGioWithNonSpuriousTranspose) {
       /*expected_node_type_counts=*/{{xnn_node_type_static_transpose, 1}},
       /*test_fn=*/
       [](xnn_subgraph_t subgraph) {
-        const xnn_node* bmm_node = &subgraph->nodes[subgraph->num_nodes - 1];
-        ASSERT_EQ(bmm_node->type, xnn_node_type_batch_matrix_multiply);
-        ASSERT_NE(bmm_node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+        const xnn_node* node = &subgraph->nodes[subgraph->num_nodes - 1];
+        switch (node->type) {
+          case xnn_node_type_batch_matrix_multiply:
+            ASSERT_NE(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          case xnn_node_type_fully_connected:
+            ASSERT_EQ(node->flags & XNN_FLAG_TRANSPOSE_WEIGHTS, 0);
+            break;
+          default:
+            XNN_UNREACHABLE;
+        }
       });
 }
 
diff --git a/test/subgraph/subgraph-fp16.cc b/test/subgraph/subgraph-fp16.cc
@@ -1135,13 +1135,17 @@ TEST(SUBGRAPH_FP16_BATCH_MATRIX_MULTIPLY, with_static_value) {
   switch (tester.NumNodes()) {
     case 3:
       ASSERT_EQ(tester.Node(0)->type, xnn_node_type_convert);
-      ASSERT_EQ(tester.Node(1)->type, xnn_node_type_batch_matrix_multiply);
+      ASSERT_THAT(tester.Node(1)->type,
+                  testing::AnyOf(xnn_node_type_batch_matrix_multiply,
+                                 xnn_node_type_fully_connected));
       ASSERT_EQ(tester.Node(2)->type, xnn_node_type_convert);
       break;
     case 4:
       ASSERT_EQ(tester.Node(0)->type, xnn_node_type_convert);
       ASSERT_EQ(tester.Node(1)->type, xnn_node_type_pack_lh);
-      ASSERT_EQ(tester.Node(2)->type, xnn_node_type_batch_matrix_multiply);
+      ASSERT_THAT(tester.Node(2)->type,
+                  testing::AnyOf(xnn_node_type_batch_matrix_multiply,
+                                 xnn_node_type_fully_connected));
       ASSERT_EQ(tester.Node(3)->type, xnn_node_type_convert);
       break;
     default:
@@ -1204,14 +1208,18 @@ TEST(SUBGRAPH_FP16_BATCH_MATRIX_MULTIPLY, with_non_static_value) {
     case 4:
       ASSERT_EQ(tester.Node(0)->type, xnn_node_type_convert);
       ASSERT_EQ(tester.Node(1)->type, xnn_node_type_convert);
-      ASSERT_EQ(tester.Node(2)->type, xnn_node_type_batch_matrix_multiply);
+      ASSERT_THAT(tester.Node(2)->type,
+                  testing::AnyOf(xnn_node_type_batch_matrix_multiply,
+                                 xnn_node_type_fully_connected));
       ASSERT_EQ(tester.Node(3)->type, xnn_node_type_convert);
       break;
     case 5:
       ASSERT_EQ(tester.Node(0)->type, xnn_node_type_convert);
       ASSERT_EQ(tester.Node(1)->type, xnn_node_type_pack_lh);
       ASSERT_EQ(tester.Node(2)->type, xnn_node_type_convert);
-      ASSERT_EQ(tester.Node(3)->type, xnn_node_type_batch_matrix_multiply);
+      ASSERT_THAT(tester.Node(3)->type,
+                  testing::AnyOf(xnn_node_type_batch_matrix_multiply,
+                                 xnn_node_type_fully_connected));
       ASSERT_EQ(tester.Node(4)->type, xnn_node_type_convert);
       break;
     default: