Skip to content

Commit 1e0d004

Browse files
committed
More optimizations
1 parent 6544567 commit 1e0d004

File tree

7 files changed

+37
-63
lines changed

7 files changed

+37
-63
lines changed

include/private/dsp/arch/x86/avx512/hmath/hsum.h

Lines changed: 31 additions & 57 deletions
Original file line numberDiff line numberDiff line change
@@ -41,22 +41,18 @@ namespace lsp
4141
/* x128 blocks */
4242
__ASM_EMIT("sub $128, %[count]")
4343
__ASM_EMIT("jb 2f")
44-
__ASM_EMIT("vxorps %%zmm2, %%zmm2, %%zmm2")
45-
__ASM_EMIT("vxorps %%zmm3, %%zmm3, %%zmm3")
4644
__ASM_EMIT("1:")
4745
__ASM_EMIT("vaddps 0x000(%[src]), %%zmm0, %%zmm0")
4846
__ASM_EMIT("vaddps 0x040(%[src]), %%zmm1, %%zmm1")
49-
__ASM_EMIT("vaddps 0x080(%[src]), %%zmm2, %%zmm2")
50-
__ASM_EMIT("vaddps 0x0c0(%[src]), %%zmm3, %%zmm3")
47+
__ASM_EMIT("vaddps 0x080(%[src]), %%zmm0, %%zmm0")
48+
__ASM_EMIT("vaddps 0x0c0(%[src]), %%zmm1, %%zmm1")
5149
__ASM_EMIT("vaddps 0x100(%[src]), %%zmm0, %%zmm0")
5250
__ASM_EMIT("vaddps 0x140(%[src]), %%zmm1, %%zmm1")
53-
__ASM_EMIT("vaddps 0x180(%[src]), %%zmm2, %%zmm2")
54-
__ASM_EMIT("vaddps 0x1c0(%[src]), %%zmm3, %%zmm3")
51+
__ASM_EMIT("vaddps 0x180(%[src]), %%zmm0, %%zmm0")
52+
__ASM_EMIT("vaddps 0x1c0(%[src]), %%zmm1, %%zmm1")
5553
__ASM_EMIT("add $0x200, %[src]")
5654
__ASM_EMIT("sub $128, %[count]")
5755
__ASM_EMIT("jae 1b")
58-
__ASM_EMIT("vaddps %%zmm2, %%zmm0, %%zmm0")
59-
__ASM_EMIT("vaddps %%zmm3, %%zmm1, %%zmm1")
6056
__ASM_EMIT("2:")
6157
/* x32 blocks */
6258
__ASM_EMIT("add $96, %[count]")
@@ -68,31 +64,25 @@ namespace lsp
6864
__ASM_EMIT("sub $32, %[count]")
6965
__ASM_EMIT("jge 3b")
7066
__ASM_EMIT("4:")
71-
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
72-
__ASM_EMIT("vextractf64x4 $1, %%zmm1, %%ymm3")
73-
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
74-
__ASM_EMIT("vaddps %%ymm3, %%ymm1, %%ymm1")
67+
__ASM_EMIT("vaddps %%zmm1, %%zmm0, %%zmm0")
7568
/* x16 block */
7669
__ASM_EMIT("add $16, %[count]")
7770
__ASM_EMIT("jl 6f")
78-
__ASM_EMIT("vaddps 0x000(%[src]), %%ymm0, %%ymm0")
79-
__ASM_EMIT("vaddps 0x020(%[src]), %%ymm1, %%ymm1")
71+
__ASM_EMIT("vaddps 0x000(%[src]), %%zmm0, %%zmm0")
8072
__ASM_EMIT("add $0x40, %[src]")
8173
__ASM_EMIT("sub $16, %[count]")
8274
__ASM_EMIT("6:")
83-
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
84-
__ASM_EMIT("vextractf128 $1, %%ymm1, %%xmm3")
85-
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
86-
__ASM_EMIT("vaddps %%xmm3, %%xmm1, %%xmm1")
75+
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
76+
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
8777
/* x8 block */
8878
__ASM_EMIT("add $8, %[count]")
8979
__ASM_EMIT("jl 8f")
90-
__ASM_EMIT("vaddps 0x000(%[src]), %%xmm0, %%xmm0")
91-
__ASM_EMIT("vaddps 0x010(%[src]), %%xmm1, %%xmm1")
80+
__ASM_EMIT("vaddps 0x000(%[src]), %%ymm0, %%ymm0")
9281
__ASM_EMIT("add $0x20, %[src]")
9382
__ASM_EMIT("sub $8, %[count]")
9483
__ASM_EMIT("8:")
95-
__ASM_EMIT("vaddps %%xmm1, %%xmm0, %%xmm0")
84+
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
85+
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
9686
/* x4 block */
9787
__ASM_EMIT("add $4, %[count]")
9888
__ASM_EMIT("jl 10f")
@@ -116,7 +106,7 @@ namespace lsp
116106
[res] "=Yz" (result)
117107
:
118108
: "cc", "memory",
119-
"%xmm1", "%xmm2", "%xmm3"
109+
"%xmm1"
120110
);
121111

122112
return result;
@@ -169,35 +159,27 @@ namespace lsp
169159
__ASM_EMIT("sub $32, %[count]")
170160
__ASM_EMIT("jge 3b")
171161
__ASM_EMIT("4:")
172-
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
173-
__ASM_EMIT("vextractf64x4 $1, %%zmm1, %%ymm3")
174-
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
175-
__ASM_EMIT("vaddps %%ymm3, %%ymm1, %%ymm1")
162+
__ASM_EMIT("vaddps %%zmm1, %%zmm0, %%zmm0")
176163
/* x16 block */
177164
__ASM_EMIT("add $16, %[count]")
178165
__ASM_EMIT("jl 6f")
179-
__ASM_EMIT("vmovups 0x000(%[src]), %%ymm4")
180-
__ASM_EMIT("vmovups 0x020(%[src]), %%ymm5")
181-
__ASM_EMIT("vfmadd231ps %%ymm4, %%ymm4, %%ymm0")
182-
__ASM_EMIT("vfmadd231ps %%ymm5, %%ymm5, %%ymm1")
166+
__ASM_EMIT("vmovups 0x000(%[src]), %%zmm4")
167+
__ASM_EMIT("vfmadd231ps %%zmm4, %%zmm4, %%zmm0")
183168
__ASM_EMIT("add $0x40, %[src]")
184169
__ASM_EMIT("sub $16, %[count]")
185170
__ASM_EMIT("6:")
186-
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
187-
__ASM_EMIT("vextractf128 $1, %%ymm1, %%xmm3")
188-
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
189-
__ASM_EMIT("vaddps %%xmm3, %%xmm1, %%xmm1")
171+
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
172+
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
190173
/* x8 block */
191174
__ASM_EMIT("add $8, %[count]")
192175
__ASM_EMIT("jl 8f")
193-
__ASM_EMIT("vmovups 0x000(%[src]), %%xmm4")
194-
__ASM_EMIT("vmovups 0x010(%[src]), %%xmm5")
195-
__ASM_EMIT("vfmadd231ps %%xmm4, %%xmm4, %%xmm0")
196-
__ASM_EMIT("vfmadd231ps %%xmm5, %%xmm5, %%xmm1")
176+
__ASM_EMIT("vmovups 0x000(%[src]), %%ymm4")
177+
__ASM_EMIT("vfmadd231ps %%ymm4, %%ymm4, %%ymm0")
197178
__ASM_EMIT("add $0x20, %[src]")
198179
__ASM_EMIT("sub $8, %[count]")
199180
__ASM_EMIT("8:")
200-
__ASM_EMIT("vaddps %%xmm1, %%xmm0, %%xmm0")
181+
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
182+
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
201183
/* x4 block */
202184
__ASM_EMIT("add $4, %[count]")
203185
__ASM_EMIT("jl 10f")
@@ -244,8 +226,8 @@ namespace lsp
244226
(
245227
__ASM_EMIT("vxorps %%zmm0, %%zmm0, %%zmm0")
246228
__ASM_EMIT("vmovaps %[CC], %%zmm6")
247-
__ASM_EMIT("vxorps %%zmm1, %%zmm1, %%zmm1")
248229
__ASM_EMIT("vmovaps %%zmm6, %%zmm7")
230+
__ASM_EMIT("vxorps %%zmm1, %%zmm1, %%zmm1")
249231
/* x128 blocks */
250232
__ASM_EMIT("sub $128, %[count]")
251233
__ASM_EMIT("jb 2f")
@@ -282,35 +264,27 @@ namespace lsp
282264
__ASM_EMIT("sub $32, %[count]")
283265
__ASM_EMIT("jge 3b")
284266
__ASM_EMIT("4:")
285-
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
286-
__ASM_EMIT("vextractf64x4 $1, %%zmm1, %%ymm3")
287-
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
288-
__ASM_EMIT("vaddps %%ymm3, %%ymm1, %%ymm1")
267+
__ASM_EMIT("vaddps %%zmm1, %%zmm0, %%zmm0")
289268
/* x16 block */
290269
__ASM_EMIT("add $16, %[count]")
291270
__ASM_EMIT("jl 6f")
292-
__ASM_EMIT("vandps 0x000(%[src]), %%ymm6, %%ymm2")
293-
__ASM_EMIT("vandps 0x020(%[src]), %%ymm7, %%ymm3")
294-
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
295-
__ASM_EMIT("vaddps %%ymm3, %%ymm1, %%ymm1")
271+
__ASM_EMIT("vandps 0x000(%[src]), %%zmm6, %%zmm2")
272+
__ASM_EMIT("vaddps %%zmm2, %%zmm0, %%zmm0")
296273
__ASM_EMIT("add $0x40, %[src]")
297274
__ASM_EMIT("sub $16, %[count]")
298275
__ASM_EMIT("6:")
299-
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
300-
__ASM_EMIT("vextractf128 $1, %%ymm1, %%xmm3")
301-
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
302-
__ASM_EMIT("vaddps %%xmm3, %%xmm1, %%xmm1")
276+
__ASM_EMIT("vextractf64x4 $1, %%zmm0, %%ymm2")
277+
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
303278
/* x8 block */
304279
__ASM_EMIT("add $8, %[count]")
305280
__ASM_EMIT("jl 8f")
306-
__ASM_EMIT("vandps 0x000(%[src]), %%xmm6, %%xmm2")
307-
__ASM_EMIT("vandps 0x010(%[src]), %%xmm7, %%xmm3")
308-
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
309-
__ASM_EMIT("vaddps %%xmm3, %%xmm1, %%xmm1")
281+
__ASM_EMIT("vandps 0x000(%[src]), %%ymm6, %%ymm2")
282+
__ASM_EMIT("vaddps %%ymm2, %%ymm0, %%ymm0")
310283
__ASM_EMIT("add $0x20, %[src]")
311284
__ASM_EMIT("sub $8, %[count]")
312285
__ASM_EMIT("8:")
313-
__ASM_EMIT("vaddps %%xmm1, %%xmm0, %%xmm0")
286+
__ASM_EMIT("vextractf128 $1, %%ymm0, %%xmm2")
287+
__ASM_EMIT("vaddps %%xmm2, %%xmm0, %%xmm0")
314288
/* x4 block */
315289
__ASM_EMIT("add $4, %[count]")
316290
__ASM_EMIT("jl 10f")

src/test/ptest/hmath/h_abs_dotp.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,7 @@ namespace lsp
6969
typedef float (* h_dotp_t)(const float *a, const float *b, size_t count);
7070
}
7171

72-
PTEST_BEGIN("dsp.hmath", h_abs_dotp, 5, 5000)
72+
PTEST_BEGIN("dsp.hmath", h_abs_dotp, 2, 10000)
7373

7474
void call(const char *label, float *a, float *b, size_t count, h_dotp_t func)
7575
{

src/test/ptest/hmath/h_abs_sum.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -68,7 +68,7 @@ namespace lsp
6868
typedef float (* h_sum_t)(const float *src, size_t count);
6969
}
7070

71-
PTEST_BEGIN("dsp.hmath", h_abs_sum, 5, 5000)
71+
PTEST_BEGIN("dsp.hmath", h_abs_sum, 2, 10000)
7272

7373
void call(const char *label, float *src, size_t count, h_sum_t func)
7474
{

src/test/ptest/hmath/h_dotp.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,7 @@ namespace lsp
6969
typedef float (* h_dotp_t)(const float *a, const float *b, size_t count);
7070
}
7171

72-
PTEST_BEGIN("dsp.hmath", h_dotp, 5, 5000)
72+
PTEST_BEGIN("dsp.hmath", h_dotp, 2, 10000)
7373

7474
void call(const char *label, float *a, float *b, size_t count, h_dotp_t func)
7575
{

src/test/ptest/hmath/h_sqr_dotp.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,7 @@ namespace lsp
6969
typedef float (* h_dotp_t)(const float *a, const float *b, size_t count);
7070
}
7171

72-
PTEST_BEGIN("dsp.hmath", h_sqr_dotp, 5, 5000)
72+
PTEST_BEGIN("dsp.hmath", h_sqr_dotp, 2, 10000)
7373

7474
void call(const char *label, float *a, float *b, size_t count, h_dotp_t func)
7575
{

src/test/ptest/hmath/h_sqr_sum.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,7 @@ namespace lsp
6969
typedef float (* h_sum_t)(const float *src, size_t count);
7070
}
7171

72-
PTEST_BEGIN("dsp.hmath", h_sqr_sum, 5, 5000)
72+
PTEST_BEGIN("dsp.hmath", h_sqr_sum, 2, 10000)
7373

7474
void call(const char *label, float *src, size_t count, h_sum_t func)
7575
{

src/test/ptest/hmath/h_sum.cpp

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -68,7 +68,7 @@ namespace lsp
6868
typedef float (* h_sum_t)(const float *src, size_t count);
6969
}
7070

71-
PTEST_BEGIN("dsp.hmath", h_sum, 5, 5000)
71+
PTEST_BEGIN("dsp.hmath", h_sum, 2, 10000)
7272

7373
void call(const char *label, float *src, size_t count, h_sum_t func)
7474
{

0 commit comments

Comments
 (0)