Merge pull request #155 from feizheng10/develop

feizheng10 · web-flow · commit c763f43d87d0 · 2019-03-04T16:58:44.000-07:00
optimized transpose kernel for non-corner case
diff --git a/library/src/device/kernels/transpose.h b/library/src/device/kernels/transpose.h
@@ -1,4 +1,4 @@
-#ifndef TRANSPOSE_H 
+#ifndef TRANSPOSE_H
 #define TRANSPOSE_H
 
 #include "rocfft_hip.h"
@@ -15,20 +15,20 @@
    DIM_X is divisible by DIM_Y
 */
 
-template<typename T, size_t DIM_X, size_t DIM_Y, bool WITH_TWL, int TWL, int DIR>
+template<typename T, size_t DIM_X, size_t DIM_Y, bool WITH_TWL, int TWL, int DIR, bool ALL>
 __device__ void
 transpose_tile_device(const T* input, T* output, const size_t m, const size_t n, size_t gx, size_t gy, size_t ld_in, size_t ld_out, T *twiddles_large)
 {
-
     __shared__ T shared_A[DIM_X][DIM_X];
 
     size_t tid = hipThreadIdx_x + hipThreadIdx_y * hipBlockDim_x;
     size_t tx1 = tid % DIM_X;
     size_t ty1 = tid / DIM_X;
-            
-    for(size_t i=0; i<m; i+=DIM_Y)
+
+    if (ALL)
     {
-        if( tx1 < n && (ty1 + i) < m)
+#pragma unroll
+        for(int i=0; i<DIM_X; i+=DIM_Y)
         {
             T tmp = input[tx1 + (ty1 + i) * ld_in];
             if (WITH_TWL)
@@ -37,7 +37,7 @@ transpose_tile_device(const T* input, T* output, const size_t m, const size_t n,
                 {
                     if(DIR == -1)
                     {
-                        TWIDDLE_STEP_MUL_FWD(TWLstep2, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp); 
+                        TWIDDLE_STEP_MUL_FWD(TWLstep2, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
                     }
                     else
                     {
@@ -70,19 +70,75 @@ transpose_tile_device(const T* input, T* output, const size_t m, const size_t n,
 
             shared_A[tx1][ty1+i] = tmp;   // the transpose taking place here
         }
-    }
 
-    __syncthreads();
+        __syncthreads();
 
-    for(size_t i=0; i<n; i+=DIM_Y)
-    {
-        //reconfigure the threads
-        if( tx1 < m && (ty1 + i)< n)
+#pragma unroll
+        for(int i=0; i<DIM_X; i+=DIM_Y)
         {
+            //reconfigure the threads
             output[tx1 + (i + ty1) * ld_out] = shared_A[ty1+i][tx1];
         }
     }
+    else
+    {
+        for(size_t i=0; i<m; i+=DIM_Y)
+        {
+            if( tx1 < n && (ty1 + i) < m)
+            {
+                T tmp = input[tx1 + (ty1 + i) * ld_in];
+                if (WITH_TWL)
+                {
+                    if(TWL == 2)
+                    {
+                        if(DIR == -1)
+                        {
+                            TWIDDLE_STEP_MUL_FWD(TWLstep2, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                        else
+                        {
+                            TWIDDLE_STEP_MUL_INV(TWLstep2, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                    }
+                    else if(TWL == 3)
+                    {
+                        if(DIR == -1)
+                        {
+                            TWIDDLE_STEP_MUL_FWD(TWLstep3, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                        else
+                        {
+                            TWIDDLE_STEP_MUL_INV(TWLstep3, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                    }
+                    else if(TWL == 4)
+                    {
+                        if(DIR == -1)
+                        {
+                            TWIDDLE_STEP_MUL_FWD(TWLstep4, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                        else
+                        {
+                            TWIDDLE_STEP_MUL_INV(TWLstep4, twiddles_large, (gx + tx1)*(gy + ty1 + i), tmp);
+                        }
+                    }
+                }
+
+                shared_A[tx1][ty1+i] = tmp;   // the transpose taking place here
+            }
+        }
+
+        __syncthreads();
 
+        for(size_t i=0; i<n; i+=DIM_Y)
+        {
+            //reconfigure the threads
+            if( tx1 < m && (ty1 + i)< n)
+            {
+                output[tx1 + (i + ty1) * ld_out] = shared_A[ty1+i][tx1];
+            }
+        }
+    }
 }
 
 /*
@@ -96,79 +152,96 @@ transpose_tile_device(const T* input, T* output, const size_t m, const size_t n,
 
 
 
-template<typename T, size_t DIM_X, size_t DIM_Y, bool WITH_TWL, int TWL, int DIR>
+template<typename T, size_t DIM_X, size_t DIM_Y, bool WITH_TWL, int TWL, int DIR, bool ALL>
 __global__ void
-transpose_kernel2(const T* input, T* output, T *twiddles_large, size_t dim, size_t *lengths, size_t *stride_in, size_t *stride_out)
+transpose_kernel2(const T* input, T* output, T *twiddles_large,
+                  size_t dim, size_t *lengths, size_t *stride_in, size_t *stride_out)
 {
-    size_t m = lengths[1];
-    size_t n = lengths[0];
     size_t ld_in = stride_in[1];
     size_t ld_out = stride_out[1];
 
     size_t iOffset = 0;
     size_t oOffset = 0;
- 
+
     size_t counter_mod = hipBlockIdx_z;
-    
+
     for(size_t i = dim; i>2; i--){
         size_t currentLength = 1;
         for(size_t j=2; j<i; j++){
             currentLength *= lengths[j];
         }
-    
+
         iOffset += (counter_mod / currentLength)*stride_in[i];
         oOffset += (counter_mod / currentLength)*stride_out[i];
         counter_mod = counter_mod % currentLength;
     }
     iOffset+= counter_mod * stride_in[2];
     oOffset+= counter_mod * stride_out[2];
-        
 
     input += hipBlockIdx_x * DIM_X + hipBlockIdx_y * DIM_X * ld_in + iOffset;
     output += hipBlockIdx_x * DIM_X * ld_out + hipBlockIdx_y * DIM_X + oOffset;
 
-    size_t mm = min(m - hipBlockIdx_y * DIM_X, DIM_X); // the corner case along m
-    size_t nn = min(n - hipBlockIdx_x * DIM_X, DIM_X); // the corner case along n
-    
-    transpose_tile_device<T, DIM_X, DIM_Y, WITH_TWL, TWL, DIR>(input, output, mm, nn, hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
+    if (ALL)
+    {
+        transpose_tile_device<T, DIM_X, DIM_Y, WITH_TWL, TWL, DIR, ALL>(input, output, DIM_X, DIM_X,
+            hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
+    }
+    else
+    {
+        size_t m = lengths[1];
+        size_t n = lengths[0];
+        size_t mm = min(m - hipBlockIdx_y * DIM_X, DIM_X); // the corner case along m
+        size_t nn = min(n - hipBlockIdx_x * DIM_X, DIM_X); // the corner case along n
+        transpose_tile_device<T, DIM_X, DIM_Y, WITH_TWL, TWL, DIR, ALL>(input, output, mm, nn,
+            hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
+    }
+
 }
 
-template<typename T, size_t DIM_X, size_t DIM_Y>
+template<typename T, size_t DIM_X, size_t DIM_Y, bool ALL>
 __global__ void
 transpose_kernel2_scheme(const T* input, T* output, T *twiddles_large, size_t dim, size_t *lengths, size_t *stride_in, size_t *stride_out, const size_t scheme)
 {
-    size_t m = scheme == 1 ? lengths[2] : lengths[1]*lengths[2];
-    size_t n = scheme == 1 ? lengths[0]*lengths[1] : lengths[0];
     size_t ld_in = scheme == 1 ? stride_in[2] : stride_in[1];
     size_t ld_out = scheme == 1 ? stride_out[1] : stride_out[2];
 
     size_t iOffset = 0;
     size_t oOffset = 0;
- 
+
     size_t counter_mod = hipBlockIdx_z;
-    
+
     for(size_t i = dim; i>3; i--){
         size_t currentLength = 1;
         for(size_t j=3; j<i; j++){
             currentLength *= lengths[j];
         }
-    
+
         iOffset += (counter_mod / currentLength)*stride_in[i];
         oOffset += (counter_mod / currentLength)*stride_out[i];
         counter_mod = counter_mod % currentLength;
     }
     iOffset+= counter_mod * stride_in[3];
     oOffset+= counter_mod * stride_out[3];
 
-
-
     input += hipBlockIdx_x * DIM_X + hipBlockIdx_y * DIM_X * ld_in + iOffset;
     output += hipBlockIdx_x * DIM_X * ld_out + hipBlockIdx_y * DIM_X + oOffset;
 
-    size_t mm = min(m - hipBlockIdx_y * DIM_X, DIM_X); // the corner case along m
-    size_t nn = min(n - hipBlockIdx_x * DIM_X, DIM_X); // the corner case along n
+    if (ALL)
+    {
+        transpose_tile_device<T, DIM_X, DIM_Y, false, 0, 0, ALL>(input, output, DIM_X, DIM_X,
+            hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
+    }
+    else
+    {
+        size_t m = scheme == 1 ? lengths[2] : lengths[1]*lengths[2];
+        size_t n = scheme == 1 ? lengths[0]*lengths[1] : lengths[0];
+        size_t mm = min(m - hipBlockIdx_y * DIM_X, DIM_X); // the corner case along m
+        size_t nn = min(n - hipBlockIdx_x * DIM_X, DIM_X); // the corner case along n
+        transpose_tile_device<T, DIM_X, DIM_Y, false, 0, 0, ALL>(input, output, mm, nn,
+            hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
+
+    }
 
-    transpose_tile_device<T, DIM_X, DIM_Y, false, 0, 0>(input, output, mm, nn, hipBlockIdx_x * DIM_X, hipBlockIdx_y * DIM_X, ld_in, ld_out, twiddles_large);
 }
 
 #endif // TRANSPOSE_H
diff --git a/library/src/device/transpose.cpp b/library/src/device/transpose.cpp
@@ -38,57 +38,95 @@ rocfft_transpose_outofplace_template(size_t m, size_t n, const T* A, T* B, void
     dim3 grid((n-1)/TRANSPOSE_DIM_X + 1, ( (m-1)/TRANSPOSE_DIM_X + 1 ), count);
     dim3 threads(TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, 1);
 
+    bool noCorner = false;
+
+    if ((n % TRANSPOSE_DIM_X == 0) && (m % TRANSPOSE_DIM_X == 0))// working threads match problem sizes, no corner cases
+    {
+        noCorner = true;
+    }
 
     if(scheme == 0)
     {
         if (twl == 2)
         {
             if (dir == -1)
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
             else
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
         }
         else if (twl == 3)
         {
             if (dir == -1)
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
             else
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
         }
         else if (twl == 4)
         {
             if (dir == -1)
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
             else
             {
-                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                if (noCorner)
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+                else
+                    hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                        A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
             }
         }
         else
         {
-            hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0>), dim3(grid), dim3(threads), 0, rocfft_stream,
-                A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+            if (noCorner)
+                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
+            else
+                hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                    A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);
         }
     }
     else
     {
-        hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y>), dim3(grid), dim3(threads), 0, rocfft_stream,
+        if (noCorner)
+            hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true>), dim3(grid), dim3(threads), 0, rocfft_stream,
+                A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out, scheme);
+        else
+            hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false>), dim3(grid), dim3(threads), 0, rocfft_stream,
                 A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out, scheme);
     }
 

Original file line number	Diff line number	Diff line change
`@@ -38,57 +38,95 @@ rocfft_transpose_outofplace_template(size_t m, size_t n, const T* A, T* B, void`
`38`	`38`	`dim3 grid((n-1)/TRANSPOSE_DIM_X + 1, ( (m-1)/TRANSPOSE_DIM_X + 1 ), count);`
`39`	`39`	`dim3 threads(TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, 1);`
`40`	`40`
	`41`	`+ bool noCorner = false;`
	`42`	`+`
	`43`	`+ if ((n % TRANSPOSE_DIM_X == 0) && (m % TRANSPOSE_DIM_X == 0))// working threads match problem sizes, no corner cases`
	`44`	`+ {`
	`45`	`+ noCorner = true;`
	`46`	`+ }`
`41`	`47`
`42`	`48`	`if(scheme == 0)`
`43`	`49`	`{`
`44`	`50`	`if (twl == 2)`
`45`	`51`	`{`
`46`	`52`	`if (dir == -1)`
`47`	`53`	`{`
`48`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`49`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`54`	`+ if (noCorner)`
	`55`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`56`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`57`	`+ else`
	`58`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`59`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`50`	`60`	`}`
`51`	`61`	`else`
`52`	`62`	`{`
`53`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`54`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`63`	`+ if (noCorner)`
	`64`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`65`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`66`	`+ else`
	`67`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 2, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`68`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`55`	`69`	`}`
`56`	`70`	`}`
`57`	`71`	`else if (twl == 3)`
`58`	`72`	`{`
`59`	`73`	`if (dir == -1)`
`60`	`74`	`{`
`61`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`62`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`75`	`+ if (noCorner)`
	`76`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`77`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`78`	`+ else`
	`79`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`80`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`63`	`81`	`}`
`64`	`82`	`else`
`65`	`83`	`{`
`66`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`67`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`84`	`+ if (noCorner)`
	`85`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`86`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`87`	`+ else`
	`88`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 3, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`89`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`68`	`90`	`}`
`69`	`91`	`}`
`70`	`92`	`else if (twl == 4)`
`71`	`93`	`{`
`72`	`94`	`if (dir == -1)`
`73`	`95`	`{`
`74`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`75`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`96`	`+ if (noCorner)`
	`97`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`98`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`99`	`+ else`
	`100`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, -1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`101`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`76`	`102`	`}`
`77`	`103`	`else`
`78`	`104`	`{`
`79`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`80`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`105`	`+ if (noCorner)`
	`106`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`107`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`108`	`+ else`
	`109`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true, 4, 1, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`110`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`81`	`111`	`}`
`82`	`112`	`}`
`83`	`113`	`else`
`84`	`114`	`{`
`85`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`86`		`- A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`115`	`+ if (noCorner)`
	`116`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`117`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
	`118`	`+ else`
	`119`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false, 0, 0, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`120`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out);`
`87`	`121`	`}`
`88`	`122`	`}`
`89`	`123`	`else`
`90`	`124`	`{`
`91`		`- hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`125`	`+ if (noCorner)`
	`126`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, true>), dim3(grid), dim3(threads), 0, rocfft_stream,`
	`127`	`+ A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out, scheme);`
	`128`	`+ else`
	`129`	`+ hipLaunchKernelGGL(HIP_KERNEL_NAME(transpose_kernel2_scheme<T, TRANSPOSE_DIM_X, TRANSPOSE_DIM_Y, false>), dim3(grid), dim3(threads), 0, rocfft_stream,`
`92`	`130`	`A, B, (T *)twiddles_large, dim, lengths, stride_in, stride_out, scheme);`
`93`	`131`	`}`
`94`	`132`