Use SVE widening loads (ARM-software#490)

solidpixel · web-flow · commit 44e3b94bea12 · 2024-08-07T13:01:28.000+01:00
This change moves from NEON-style post-load widening, to SVE-style
load-time widening. On Neoverse V1 this improves performance 
1-5% (increasing with block size).
diff --git a/Source/astcenc_vecmathlib_sve_8.h b/Source/astcenc_vecmathlib_sve_8.h
@@ -146,14 +146,8 @@ struct vint8
 	 */
 	ASTCENC_SIMD_INLINE explicit vint8(const uint8_t *p)
 	{
-		// Load 8 byte values
-		svbool_8_t pred = svptrue_pat_b8(SV_VL8);
-		svuint8_8_t m8 = svld1_u8(pred, p);
-
-		// Expand to 32-bits
-		svuint16_8_t m16 = svunpklo_u16(m8);
-		svuint32_8_t m32 = svunpklo_u32(m16);
-		m = svreinterpret_s32_u32(m32);
+		// Load 8-bit values and expand to 32-bits
+		m = svld1ub_s32(svptrue_b32(), p);
 	}
 
 	/**
@@ -1037,7 +1031,7 @@ ASTCENC_SIMD_INLINE vint8 interleave_rgba8(vint8 r, vint8 g, vint8 b, vint8 a)
  */
 ASTCENC_SIMD_INLINE void store_lanes_masked(uint8_t* base, vint8 data, vmask8 mask)
 {
-	svst1_u32(mask.m, reinterpret_cast<uint32_t*>(base), data.m);
+	svst1_s32(mask.m, reinterpret_cast<int32_t*>(base), data.m);
 }
 
 /**

Original file line number	Diff line number	Diff line change
`@@ -146,14 +146,8 @@ struct vint8`
`146`	`146`	`*/`
`147`	`147`	`ASTCENC_SIMD_INLINE explicit vint8(const uint8_t *p)`
`148`	`148`	`{`
`149`		`- // Load 8 byte values`
`150`		`- svbool_8_t pred = svptrue_pat_b8(SV_VL8);`
`151`		`- svuint8_8_t m8 = svld1_u8(pred, p);`
`152`		`-`
`153`		`- // Expand to 32-bits`
`154`		`- svuint16_8_t m16 = svunpklo_u16(m8);`
`155`		`- svuint32_8_t m32 = svunpklo_u32(m16);`
`156`		`- m = svreinterpret_s32_u32(m32);`
	`149`	`+ // Load 8-bit values and expand to 32-bits`
	`150`	`+ m = svld1ub_s32(svptrue_b32(), p);`
`157`	`151`	`}`
`158`	`152`
`159`	`153`	`/**`
`@@ -1037,7 +1031,7 @@ ASTCENC_SIMD_INLINE vint8 interleave_rgba8(vint8 r, vint8 g, vint8 b, vint8 a)`
`1037`	`1031`	`*/`
`1038`	`1032`	`ASTCENC_SIMD_INLINE void store_lanes_masked(uint8_t* base, vint8 data, vmask8 mask)`
`1039`	`1033`	`{`
`1040`		`- svst1_u32(mask.m, reinterpret_cast<uint32_t*>(base), data.m);`
	`1034`	`+ svst1_s32(mask.m, reinterpret_cast<int32_t*>(base), data.m);`
`1041`	`1035`	`}`
`1042`	`1036`
`1043`	`1037`	`/**`